#
Gemini 语音模型特点
已发布 2026-01-15
#
Gemini 2.5 Flash 原生音频 (Native Audio)
#
核心特点
自然对话: 具有卓越质量的语音交互,更合适的表达性和韵律(节奏模式),以极低延迟提供,让您能够流畅对话。
增强的语音质量和适应性: Live API原生音频提供更丰富、更自然的语音交互。
#
情感对话能力
情感对话功能: 使用Live API原生音频的模型可以理解并适当响应用户的情感表达,进行更细致的对话。
#
实时交互
Gemini 2.5 Flash Live模型与Live API配合使用,实现与Gemini的低延迟双向语音和视频交互。
#
Gemini 2.5 Flash 预览版 TTS
#
多说话者支持
首创的多说话者支持功能,通过原生音频输出实现双声音文本到语音转换。
#
表达能力
文本到语音具有表达性,能够捕捉非常细微的差别,如耳语。
#
多语言功能
支持超过24种语言,能够无缝切换语言。
#
高级控制
增强的节奏和发音控制: 控制传送速度,确保发音更准确,包括特定单词的发音。
#
内容生成
多说话者对话生成: 该模型可以从文本输入生成双人"NotebookLM风格"音频概述,使内容更具吸引力。
#
Gemini 2.5 Pro 预览版 TTS
#
最强大的TTS模型
Gemini 2.5 Pro预览版TTS是我们最强大的文本到语音模型,为播客生成、有声书、客户支持等结构化工作流程提供高度控制和透明度。
#
高级功能
Gemini 2.5 TTS引入了先进功能,如可定制的语音风格、自然交互模拟和多说话者音频生成,增强了音频内容创作的表达性和真实性。
#
专业应用
该模型具有高度的多功能性,适用于有声书叙述等应用。
#
共同特点
#
原生音频输出
支持单个和多个说话者的原生音频输出,涵盖24种语言。
#
风格控制
可以控制TTS表达和风格,创建丰富的音频输出。
#
多说话者生成
Gemini 2.5预览版TTS可以生成多说话者语音,这使得可以创建播客,如NotebookLM音频概述中使用的功能。