Google Cloud Text-to-Speech (TTS) 使用指南与功能介绍

概述

Google Cloud Text-to-Speech (TTS) 是一项强大的 API 服务，它利用 Google 先进的 AI 技术（包括 DeepMind 的语音合成专业知识），将书面文本转化为听起来自然、富有表现力的合成人类语音。这项服务旨在增强用户交互、提高可访问性，并在各种应用程序中创建动态内容。

主要功能

1. 高保真语音

Google Cloud TTS 能够生成具有人类般语调和节奏的语音，提供自然且富有表现力的声音，尤其在结合其 WaveNet 和 Neural2 技术时，语音质量更上一层楼。

2. 广泛的语音选择

用户可以从超过 75 种语言和方言（包括普通话、印地语、西班牙语和阿拉伯语等）的 380 多种语音中进行选择，满足全球范围内的应用需求。

3. 语音定制

服务支持对语音输出进行精细化定制，包括调整音高（最高可达 20 个半音）、语速（可加快或减慢 4 倍）和音量。

4. SSML 支持

它支持语音合成标记语言 (SSML)，允许对语音元素进行细致控制，例如停顿、数字、日期和时间格式、发音以及情感表达，从而实现更自然和个性化的语音体验。

5. Gemini-TTS

Gemini-TTS 是一项创新功能，它允许从短片段到完整叙述合成单说话者或多说话者的语音。通过自然语言提示，用户可以精确控制语音的风格、口音、语速、语调和情感表达，同时保持上下文连贯性。

6. Chirp 3

Chirp 3 提供高清语音，可用于创建引人入胜的智能代理，并能够仅通过 10 秒的音频输入即时创建自定义语音。

7. 灵活的音频格式

支持多种输出格式，如 MP3、LINEAR16 (WAV)、OGG Opus 等，使其几乎与任何设备兼容。

8. 实时流式传输

通过 API 实时向应用程序传输语音，实现无缝的实时对话。

9. 长音频合成

支持异步合成长达 100 万字节的输入文本。

使用指南 (入门)

要开始使用 Google Cloud Text-to-Speech，请遵循以下通用步骤：

创建 Google Cloud 项目： 您需要一个活跃的 Google Cloud 项目。如果尚未创建，请通过 Google Cloud Console 进行创建。
启用 Text-to-Speech API： 在您的 Google Cloud 项目中，启用 Text-to-Speech API。
设置身份验证： 创建 API 凭据，通常是服务帐号，并下载 JSON 密钥文件。此文件用于应用程序与 Google Cloud 服务的身份验证。
安装客户端库： 为您首选的编程语言（例如 Node.js, Python）安装相应的客户端库。
发送合成请求： 使用客户端库向 API 发送文本或 SSML 输入，并指定所需的语音和音频配置。API 将返回 base64 编码的音频数据。
解码并播放音频： 将 base64 编码的字符串解码为音频文件，供您的应用程序播放。

定价

Google Cloud Text-to-Speech 的定价基于每月发送到服务进行合成的字符数。计费包含输入字符串中的所有字符，包括空格和大部分 SSML 标签。

免费层级：
- 标准语音： 每月前 400 万个字符免费。
- WaveNet 语音： 每月前 100 万个字符免费。
付费使用 (超出免费层级后)：
- 标准语音： 大约每字符 0.000004 美元（每 100 万字符 4 美元）。
- WaveNet 语音： 大约每字符 0.000016 美元（每 100 万字符 16 美元）。
- 定价可能因用量层级而异，更高的月字符用量可享受折扣价。

新客户通常会获得免费积分，以试用 Text-to-Speech 和其他 Google Cloud 产品。您的项目必须启用结算功能，但只有当您的用量超出免费配额时才会被收费。

优势与用例

Google Cloud TTS 非常适合需要自然人声的应用，例如语音助手、有声读物、语言学习工具和无障碍功能。它有助于改善用户交互，使内容更易于访问，并允许创建动态的、语音驱动的体验。