使用 OpenAI 服务配置 AI 通话转写

Yeastar P 系列云 PBX 支持由 OpenAI Speech to Text 服务驱动的 AI 通话转写功能,可将一对一视频/语音通话中通话双方的音频实时转写为可读文本。本文介绍如何在 PBX 上使用该第三方服务配置 AI 通话转写功能。

提示: 如果你已配置由 OpenAI Speech to Text 服务驱动的 AI 语言留言转写功能,可启用 通话转写 并直接点击右上角的 复制“语言留言转写”的配置 以复用该配置,再按需修改即可。

使用要求

Yeastar P 系列云 PBX 需满足以下要求:

项目 要求
固件

84.23.0.83 或更高版本。

订阅服务

订阅 企业版旗舰版,确保 AI转写 功能可用。

前提条件

注: 仅当需要 PBX 在通话结束后自动根据转写的文本生成通话总结时,才需要满足以下关于 GPT/Gemini LLM (大语言模型) 的前提条件。
PBX 网络访问
确保 Yeastar P 系列云 PBX 能够访问以下域名以使用对应服务:
注:

你可以在 PBX 上验证域名是否可访 (路径: 维护 > 故障诊断 > IP Ping)。

服务 域名
OpenAI Speech to Text 服务 api.openai.com
GPT/Gemini LLM

根据选择的 LLM,PBX 需能够访问以下对应的域名:

  • GPT LLM:api.openai.com
  • Gemini LLM:oauth2.googleapis.comgenerativelanguage.googleapis.com
第三方服务账号

你已准备好以下第三方服务账号和登录凭证:

服务 账号
OpenAI Speech to Text 服务 准备一个 OpenAI 账号,确保账号具有充足的 OpenAI Speech to Text 服务的转写分钟数额度,并获取该账号的用户名和密码。
GPT/Gemini LLM 根据要使用的 LLM,账号需满足以下要求:
  • GPT LLM:确保 OpenAI 账号具有充足的令牌额度。
  • Gemini LLM:准备一个 Google 账号,确保账号具有充足的令牌额度,并获取该账号的用户名和密码。

操作步骤

步骤一、为 OpenAI Speech to Text 服务创建 API 密钥

要从 PBX 安全接入 OpenAI Speech to Text 服务,需先在 OpenAI 平台创建 API 密钥,用于该服务接口的请求鉴权。

注: 使用 OpenAI Speech to Text 服务所需的 API 密钥与调用 OpenAI 提供的 GPT LLM 所需的密钥相同。如果你需要系统在通话结束后通过 GPT LLM 自动生成通话总结,则可以直接保存本节中创建的通用 API 密钥,以供后续使用,并跳过 步骤二
  1. 使用 OpenAI 用户名和密码登录 OpenAI 平台,进入 API Keys
  2. 在 API 密钥列表的右上角,点击 Create new secret key
  3. 在弹出的窗口中,创建新的 API 密钥。

    1. Name 字段,输入名称以识别该 API 密钥。
    2. Project 下拉列表中,选择项目。
    3. 权限默认保持 All,并点击 Create secret key

      窗口弹出并显示生成的 API 密钥。

    4. 在弹出的窗口中,点击 Copy 复制 API 密钥,并保存以供后续使用。

步骤二、(可选) 为 Gemini LLM 创建 API 密钥

Yeastar P 系列云 PBX 支持在通话结束后自动调用 Google 提供的 Gemini LLM 根据转写的文本生成通话总结。要实现此功能,你需要使用 Google 账号创建一个 API 密钥,用于接口的请求鉴权。

  1. 使用 Google 用户名和密码登录 Google AI Studio,进入 Dashboard > API keys
  2. 在 API 密钥列表的右上角,点击 Create API key
  3. 在弹出的窗口中,创建新的 API 密钥。

    1. Name your key 字段,输入名称以识别该 API 密钥。
    2. Choose an imported project 下拉列表中,选择项目。
      注: 在下拉列表中,你可以根据需要选择已有的项目、导入项目或创建新项目。
    3. 点击 Create key

      窗口弹出并显示生成的 API 密钥的详细信息。

    4. 在弹出的窗口中,点击 Copy key 复制 API 密钥,并保存以供后续使用。

步骤三、在 PBX 上配置 AI 通话转写功能

为 OpenAI Speech to Text 服务和 LLM 创建身份凭证后,需在 PBX 上完成对应设置,以与两项服务建立连接。

  1. 登录 PBX 管理网页,进入 AI > AI工具箱
  2. 打开 通话转写 开关。
  3. 配置 AI 通话转写服务。

    1. 服务类型 下拉列表中,选择 自定义服务
    2. 转录服务商 下拉列表中,选择 OpenAI
    3. API 密钥 字段,粘贴 在 OpenAI 平台创建的 API 密钥
    4. 转录模型 下拉列表中,选择 OpenAI Speech to Text 服务支持的转录模型。有关转录模型之间的区别,请参见 OpenAI Realtime & audio 模型列表
    5. 配置 LLM 服务。

      选项 操作说明
      禁用 如果无需 PBX 生成通话总结,在 大模型服务商 下拉列表中选择 禁用
      OpenAI

      要使用 GPT LLM,完成以下设置:

      1. 大模型服务商 下拉列表中选择 OpenAI
      2. API 密钥 字段,粘贴 在 OpenAI 平台创建的 API 密钥
      3. GPT型号 字段,输入要使用的 GPT LLM 的模型 ID。
        注: 你可以在 GPT 模型列表 中查看要使用的 GPT LLM 的模型 ID。例如,要使用 GPT-5.4,在此字段中输入其模型 ID gpt-5.4
      Google

      要使用 Gemini LLM,完成以下设置:

      1. 大模型服务商 下拉列表中选择 Google
      2. API 密钥 字段,粘贴 在 Google AI Studio 创建的 API 密钥
      3. Gemini型号 字段,输入要使用的 Gemini LLM 的模型代码。
        注: 你可以查看 Gemini 模型列表,并进入要使用的 Gemini LLM 的详情页面查看模型代码。例如,要使用 Gemini 3.1 Pro Preview,在此字段中输入其模型代码 gemini-3.1-pro-preview
  4. 语言 下拉列表中,选择识别和转写通话所用的语言。

  5. 允许使用本功能的分机 栏,指定允许使用通话转写功能的分机/分机组/部门。
    • 所有分机:所有分机都可以使用此功能。
    • 特定分机:仅指定的分机可以使用此功能。
  6. 点击 保存

执行结果

  • 转录连接状态 显示 启用,表示由 OpenAI Speech to Text 服务驱动的 AI 通话转写已启用。通话音频会通过该 OpenAI 服务被实时检测并转写为指定语言的可读文本。

    注: 你可以根据不同分机的需求单独为其配置通话转写语言与转写模式 (自动或手动) (路径:分机和中继 > 分机 > AI > 通话转写)。更多信息,请参见 为分机配置 AI 通话转写
  • 大模型连接状态 显示 启用,表示 PBX 已成功连接到配置的 LLM。PBX 将在通话结束后自动通过该 LLM 根据转写的文本生成通话总结。