使用 Google 服务配置 AI 通话转写

Yeastar P 系列云 PBX 支持由 Google Cloud Speech-to-Text 服务 (API 版本:V2) 驱动的 AI 通话转写功能,可将一对一视频/语音通话中通话双方的音频实时转写为可读文本。本文介绍如何在 PBX 上使用该第三方服务配置 AI 通话转写功能。

提示: 如果你已配置由 Google Cloud Speech-to-Text 服务驱动的 AI 语言留言转写功能,可启用 通话转写 并直接点击右上角的 复制“语言留言转写”的配置 以复用该配置,再按需修改即可。

使用要求

Yeastar P 系列云 PBX 需满足以下要求:

项目 要求
固件

84.23.0.83 或更高版本。

订阅服务

订阅 企业版旗舰版,确保 AI转写 功能可用。

前提条件

注: 仅当需要 PBX 在通话结束后自动根据转写的文本生成通话总结时,才需要满足以下关于 GPT/Gemini LLM (大语言模型) 的前提条件。
PBX 网络访问
确保 Yeastar P 系列云 PBX 能够访问以下域名以使用对应服务:
注:

你可以在 PBX 上验证域名是否可访 (路径: 维护 > 故障诊断 > IP Ping)。

服务 域名
Google Cloud Speech-to-Text 服务
  • oauth2.googleapis.com
  • <region>-speech.googleapis.com
    注:
    从下面的列表中选择所需的区域,并将 <region> 替换为该区域 (如 us-speech.googleapis.com)。建议选择与 PBX 部署位置最近的区域,以降低网络延迟并保障转写服务稳定运行。
    • us:美国
    • eu:欧洲
    • asia-southeast1:新加坡
    • asia-northeast1:东京
GPT/Gemini LLM

根据选择的 LLM,PBX 需能够访问以下对应的域名:

  • GPT LLM:api.openai.com
  • Gemini LLM:oauth2.googleapis.comgenerativelanguage.googleapis.com
第三方服务账号
你已准备好以下第三方服务账号和登录凭证:
服务 账号
Google Cloud Speech-to-Text 服务 准备一个 Google 账号,确保账号具有充足的 Google Cloud Speech-to-Text 服务的转写分钟数额度,并获取该账号的用户名和密码。
GPT/Gemini LLM 根据要使用的 LLM,账号需满足以下要求:
  • GPT LLM:准备一个 OpenAI 账号,确保账号具有充足的令牌额度,并获取该账号的用户名和密码。
  • Gemini LLM:确保 Google 账号具有充足的令牌额度。

操作步骤

步骤一、为 Google Cloud Speech-to-Text 服务创建 API 密钥

要从 PBX 安全接入 Google Cloud Speech-to-Text 服务,需先在 Google 控制台创建 API 密钥,用于该服务接口的请求鉴权。

  1. 使用 Google 用户名和密码登录 Google 控制台
  2. 创建新项目。
    1. 在左上角,点击当前项目页签,然后在弹出的窗口中点击 新建项目

    2. 新建项目 页面,创建一个新项目。

      1. 项目名称 字段,输入名称以识别该项目。
      2. 可选:点击 浏览 选择组织。
      3. 点击 创建
  3. 在新建的项目中,启用 Cloud Speech-to-Text API 服务。

    1. 进入 API 和服务 > API 库,在库中搜索 “Cloud Speech-to-Text API”。
    2. 在搜索结果列表中,点击 Cloud Speech-to-Text API 卡片进入详情页。
    3. 点击 启用

      服务显示 已启用 状态。

  4. 为新建的项目创建一个服务账号。
    1. 进入 IAM 和管理 > 服务账号,在顶部导航栏点击 创建服务账号

    2. 创建服务账号。

      1. 服务账号名称 字段,输入名称以识别该服务账号。
      2. 点击 创建并继续
      3. 角色 下拉列表中,选择 Owner
      4. 点击 继续
      5. 点击 完成

        服务账号 列表显示新建的服务账号。

  5. 为新建的服务帐户创建一个 API 密钥并生成 JSON 文件。

    1. 服务账号 页面,点击新建的服务账号旁的 并选择 管理密钥
    2. 密钥 页面,点击 添加键 并选择 创建新密钥

      选择密钥类型的窗口弹出。

    3. 键类型 栏,选择 JSON 类型并点击 创建

      系统会自动将包含 API 密钥的 JSON 文件下载到你的计算机。你可以在计算机上查看 JSON 文件,并保存以供后续使用。

步骤二、(可选) 为 GPT LLM 或 Gemini LLM 创建 API 密钥

Yeastar P 系列云 PBX 支持调用 GPT LLM 或 Gemini LLM 的接口,以便在通话结束后自动根据转写的文本生成通话总结。要实现此功能,你需要创建一个 API 密钥,用于接口的请求鉴权。

在 OpenAI 平台创建 OpenAI API 密钥
  1. 使用 OpenAI 用户名和密码登录 OpenAI 平台,进入 API Keys
  2. 在 API 密钥列表的右上角,点击 Create new secret key
  3. 在弹出的窗口中,创建新的 API 密钥。

    1. Name 字段,输入名称以识别该 API 密钥。
    2. Project 下拉列表中,选择项目。
    3. 权限默认保持 All,并点击 Create secret key

      窗口弹出并显示生成的 API 密钥。

    4. 在弹出的窗口中,点击 Copy 复制 API 密钥,并保存以供后续使用。

在 Google AI Studio 创建 Gemini API 密钥
  1. 使用 Google 用户名和密码登录 Google AI Studio,进入 Dashboard > API keys
  2. 在 API 密钥列表的右上角,点击 Create API key
  3. 在弹出的窗口中,创建新的 API 密钥。

    1. Name your key 字段,输入名称以识别该 API 密钥。
    2. Choose an imported project 下拉列表中,选择项目。
      注: 在下拉列表中,你可以根据需要选择已有的项目、导入项目或创建新项目。
    3. 点击 Create key

      窗口弹出并显示生成的 API 密钥的详细信息。

    4. 在弹出的窗口中,点击 Copy key 复制 API 密钥,并保存以供后续使用。

步骤三、在 PBX 上配置 AI 通话转写功能

为 Google Cloud Speech-to-Text 服务和 LLM 创建身份凭证后,需在 PBX 上完成对应设置,以与两项服务建立连接。

  1. 登录 PBX 管理网页,进入 AI > AI工具箱
  2. 打开 通话转写 开关。
  3. 配置 AI 通话转写服务。

    1. 服务类型 下拉列表中,选择 自定义服务
    2. 转录服务商 下拉列表中,选择 Google
    3. 点击 浏览 上传 API 密钥 JSON 文件
    4. 地区 下拉列表中,选择区域。
      • us (multi-region):美国
      • eu (multi-region):欧洲
      • asia-southeast1:新加坡
      • asia-northeast1:东京
    5. 配置 LLM 服务。

      选项 操作说明
      禁用 如果无需 PBX 生成通话总结,在 大模型服务商 下拉列表中选择 禁用
      OpenAI

      要使用 GPT LLM,完成以下设置:

      1. 大模型服务商 下拉列表中选择 OpenAI
      2. API 密钥 字段,粘贴 在 OpenAI 平台创建的 API 密钥
      3. GPT型号 字段,输入要使用的 GPT LLM 的模型 ID。
        注: 你可以在 GPT 模型列表 中查看要使用的 GPT LLM 的模型 ID。例如,要使用 GPT-5.4,在此字段中输入其模型 ID gpt-5.4
      Google

      要使用 Gemini LLM,完成以下设置:

      1. 大模型服务商 下拉列表中选择 Google
      2. API 密钥 字段,粘贴 在 Google AI Studio 创建的 API 密钥
      3. Gemini型号 字段,输入要使用的 Gemini LLM 的模型代码。
        注: 你可以查看 Gemini 模型列表,并进入要使用的 Gemini LLM 的详情页面查看模型代码。例如,要使用 Gemini 3.1 Pro Preview,在此字段中输入其模型代码 gemini-3.1-pro-preview
  4. 语言 下拉列表中,选择识别和转写通话所用的语言。

  5. 允许使用本功能的分机 栏,指定允许使用通话转写功能的分机/分机组/部门。
    • 所有分机:所有分机都可以使用此功能。
    • 特定分机:仅指定的分机可以使用此功能。
  6. 点击 保存

执行结果

  • 转录连接状态 显示 启用,表示由 Google Cloud Speech-to-Text 服务驱动的 AI 通话转写已启用。通话音频会通过该 Google 服务被实时检测并转写为指定语言的可读文本。

    注: 你可以根据不同分机的需求单独为其配置通话转写语言与转写模式 (自动或手动) (路径:分机和中继 > 分机 > AI > 通话转写)。更多信息,请参见 为分机配置 AI 通话转写
  • 大模型连接状态 显示 启用,表示 PBX 已成功连接到配置的 LLM。PBX 将在通话结束后自动通过该 LLM 根据转写的文本生成通话总结。