2024 年最新 Python 调用 OpenAI 实现问答、图像合成、语音合成等功能详细教程

日期：2024-12-25 作者：3t3mm caijiyuan

核心提示：首先确保您的计算机上已经安装了 Python。您可以从 Python 官方网站下载并安装最新版本 Python。安装时，请确保勾选 “Add

首先确保您的计算机上已经安装了 Python。您可以从 Python 官方网站下载并安装最新版本 Python。安装时，请确保勾选 “Add Python to PATH” （添加环境变量）选项，以便在 cmd 命令行中直接使用 Python。

安装 OpenAI Python 库

打开命令行或终端窗口安装 OpenAI Python 库

平台官网：https://platform.openai.com/

http API 调用方式文档：https://platform.openai.com/docs/api-reference/introduction

GPT-4 模型概述

GPT-4是一个大型多模态模型(接受文本或图像输入和输出文本)，由于其更广泛的一般知识和先进的推理能力，它可以比我们以前的任何模型都更准确地解决难题。付费客户可以在OpenAI API中使用GPT-4。与gpt-3.5 turbo一样，GPT-4针对聊天功能进行了优化，但在使用聊天完井API的传统完井任务中表现良好。在我们的文本生成指南中学习如何使用GPT-4。

测试案例

聊天模型将消息列表作为输入，并返回模型生成的消息作为输出。虽然聊天格式的设计是为了使多回合的对话变得容易，但它对于没有任何对话的单回合任务同样有用。

一个聊天完成API调用的例子如下:

数据结构

DALL·E 模型概述

DALL·E是一个人工智能系统，可以通过自然语言的描述创造逼真的图像和艺术。DALL·e3目前支持在提示下创建具有特定大小的新映像的功能。DALL·e2还支持编辑现有映像，或创建用户提供的映像的变体。

测试案例

图像生成端点允许您在给定文本提示的情况下创建原始图像。当使用DALL·e3时，图像的大小可以是1024×1024、1024×1792或1792×1024像素。

默认情况下，图像以标准质量生成，但当使用DALL·e3时，您可以将质量设置为“hd”以增强细节。正方形的、标准质量的图像是最快生成的。您可以使用DALL·e3一次请求1个图像(通过并行请求请求更多)，或者使用带n参数的DALL·e2一次至多请求10个图像。

TTS 模型概述

TTS是一种人工智能模型，可以将文本转换为自然发音的口语文本。我们提供了两种不同的模型变量，ts-1针对实时文本到语音的用例进行了优化，而ts-1-hd针对质量进行了优化。这些模型可以与Audio API中的Speech端点一起使用。

测试案例

语音端点接受三个关键输入：模型、应该转换为音频的文本和用于音频生成的语音。简单的请求如下所示：

音色选择

尝试不同的声音(alloy, echo, fable, onyx, nova, and shimmer)，找到一个符合你想要的语气和听众。当前的声音是针对英语优化的。

Whisper 概述

Whisper 是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。Whisper v2大型模型目前可通过我们的API使用Whisper -1模型名称。

目前，Whisper的开源版本和通过我们的API提供的版本之间没有区别。然而，通过我们的API，我们提供了一个优化的推理过程，这使得通过我们的API运行Whisper比执行它要快得多。

测试案例

语音识别 API 将要识别的音频文件和所需的音频转录输出文件格式作为输入。我们目前支持多种输入和输出文件格式。文件上传目前限制为 25mb，支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等文件类型的输入。

数据结构

查看 class OpenAI(SyncAPIClient) 类实现的源码片段发现，关于和会读取本地环境变量中和变量。

dotenv 加载 .env 环境变量

dotenv是一个Python库（虽然也适用于其他编程语言，如Javascript），它的主要功能是从.env文件中读取环境变量，并将这些变量加载到操作系统的环境变量中，使得Python应用程序可以轻松地访问这些变量。.env文件是一个纯文本文件，其中包含键值对（key-value pairs），每个键值对占据一行，格式为KEY=VALUE。

将敏感信息（如API密钥、数据库密码等）存储在环境变量中，而不是硬编码在代码中，是一种良好的安全实践。这样可以减少敏感信息泄露的风险，因为这些值不会存储在代码库中，也不会在部署时暴露出来。

2024 年最新 Python 调用 OpenAI 实现问答、图像合成、语音合成等功能详细教程

在 Python 代码中，使用 python-dotenv 库加载 .env 文件，并访问其中的环境变量。这通常通过和函数实现。访问环境变量：加载.env文件后，可以使用的方式访问环境变量。

gpt – 40和GPT-4 Turbo都具有视觉功能，这意味着这些模型可以接收图像并回答有关图像的问题。从历史上看，语言模型系统一直受到单一输入形式文本的限制。

模型可以通过两种主要方式使用图像：通过传递到图像的链接或在请求中直接传递base64编码的图像。图像可以在用户消息中传递。

上传base64编码的图像如果你在本地有一张或一组图像，你可以将它们以base64编码的格式传递给模型，下面是一个实际的例子

本文地址：http://ww.kub2b.com/tnews/1011.html 企库往 http://ww.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类生活信息

文章列表

相关文章

最新动态

推荐图文

生活信息

点击排行

• 腾讯围棋(野狐)手机版最新版中国象棋手机版「腾	• 小米手机掉水里了应该怎么处理手机掉水里怎么处
• 有钱人“买爆”上海豪宅，有楼盘卖出200亿！去	• 华为WatchGT3可以遥控拍照吗？华为WatchGT3遥控
• 谱写中印尼命运共同体新篇章	• 东京股市继续上涨
• 如何有效格式化手机以清理存储空间和提升性能手	• 如何快速关闭手机勿扰模式？详细步骤解析！手机
• microsd卡是什么卡手机sd卡是什么「microsd卡是	• 名茶汇聚的安徽，何以大而不强？