Google Cloud TTS 使用指南与功能介绍 – wiki基地

Google Cloud Text-to-Speech (TTS) 使用指南与功能介绍

概述

Google Cloud Text-to-Speech (TTS) 是一项强大的 API 服务,它利用 Google 先进的 AI 技术(包括 DeepMind 的语音合成专业知识),将书面文本转化为听起来自然、富有表现力的合成人类语音。这项服务旨在增强用户交互、提高可访问性,并在各种应用程序中创建动态内容。

主要功能

1. 高保真语音

Google Cloud TTS 能够生成具有人类般语调和节奏的语音,提供自然且富有表现力的声音,尤其在结合其 WaveNet 和 Neural2 技术时,语音质量更上一层楼。

2. 广泛的语音选择

用户可以从超过 75 种语言和方言(包括普通话、印地语、西班牙语和阿拉伯语等)的 380 多种语音中进行选择,满足全球范围内的应用需求。

3. 语音定制

服务支持对语音输出进行精细化定制,包括调整音高(最高可达 20 个半音)、语速(可加快或减慢 4 倍)和音量。

4. SSML 支持

它支持语音合成标记语言 (SSML),允许对语音元素进行细致控制,例如停顿、数字、日期和时间格式、发音以及情感表达,从而实现更自然和个性化的语音体验。

5. Gemini-TTS

Gemini-TTS 是一项创新功能,它允许从短片段到完整叙述合成单说话者或多说话者的语音。通过自然语言提示,用户可以精确控制语音的风格、口音、语速、语调和情感表达,同时保持上下文连贯性。

6. Chirp 3

Chirp 3 提供高清语音,可用于创建引人入胜的智能代理,并能够仅通过 10 秒的音频输入即时创建自定义语音。

7. 灵活的音频格式

支持多种输出格式,如 MP3、LINEAR16 (WAV)、OGG Opus 等,使其几乎与任何设备兼容。

8. 实时流式传输

通过 API 实时向应用程序传输语音,实现无缝的实时对话。

9. 长音频合成

支持异步合成长达 100 万字节的输入文本。

使用指南 (入门)

要开始使用 Google Cloud Text-to-Speech,请遵循以下通用步骤:

  1. 创建 Google Cloud 项目: 您需要一个活跃的 Google Cloud 项目。如果尚未创建,请通过 Google Cloud Console 进行创建。
  2. 启用 Text-to-Speech API: 在您的 Google Cloud 项目中,启用 Text-to-Speech API。
  3. 设置身份验证: 创建 API 凭据,通常是服务帐号,并下载 JSON 密钥文件。此文件用于应用程序与 Google Cloud 服务的身份验证。
  4. 安装客户端库: 为您首选的编程语言(例如 Node.js, Python)安装相应的客户端库。
  5. 发送合成请求: 使用客户端库向 API 发送文本或 SSML 输入,并指定所需的语音和音频配置。API 将返回 base64 编码的音频数据。
  6. 解码并播放音频: 将 base64 编码的字符串解码为音频文件,供您的应用程序播放。

定价

Google Cloud Text-to-Speech 的定价基于每月发送到服务进行合成的字符数。计费包含输入字符串中的所有字符,包括空格和大部分 SSML 标签。

  • 免费层级:
    • 标准语音: 每月前 400 万个字符免费。
    • WaveNet 语音: 每月前 100 万个字符免费。
  • 付费使用 (超出免费层级后):
    • 标准语音: 大约每字符 0.000004 美元(每 100 万字符 4 美元)。
    • WaveNet 语音: 大约每字符 0.000016 美元(每 100 万字符 16 美元)。
    • 定价可能因用量层级而异,更高的月字符用量可享受折扣价。

新客户通常会获得免费积分,以试用 Text-to-Speech 和其他 Google Cloud 产品。您的项目必须启用结算功能,但只有当您的用量超出免费配额时才会被收费。

优势与用例

Google Cloud TTS 非常适合需要自然人声的应用,例如语音助手、有声读物、语言学习工具和无障碍功能。它有助于改善用户交互,使内容更易于访问,并允许创建动态的、语音驱动的体验。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部