# Gemini 语音模型特点

已发布 2026-01-15

# Gemini 2.5 Flash 原生音频 (Native Audio)

自然对话： 具有卓越质量的语音交互，更合适的表达性和韵律（节奏模式），以极低延迟提供，让您能够流畅对话。

增强的语音质量和适应性： Live API原生音频提供更丰富、更自然的语音交互。

情感对话功能： 使用Live API原生音频的模型可以理解并适当响应用户的情感表达，进行更细致的对话。

Gemini 2.5 Flash Live模型与Live API配合使用，实现与Gemini的低延迟双向语音和视频交互。

首创的多说话者支持功能，通过原生音频输出实现双声音文本到语音转换。

文本到语音具有表达性，能够捕捉非常细微的差别，如耳语。

支持超过24种语言，能够无缝切换语言。

增强的节奏和发音控制： 控制传送速度，确保发音更准确，包括特定单词的发音。

多说话者对话生成： 该模型可以从文本输入生成双人"NotebookLM风格"音频概述，使内容更具吸引力。

Gemini 2.5 Pro预览版TTS是我们最强大的文本到语音模型，为播客生成、有声书、客户支持等结构化工作流程提供高度控制和透明度。

Gemini 2.5 TTS引入了先进功能，如可定制的语音风格、自然交互模拟和多说话者音频生成，增强了音频内容创作的表达性和真实性。

该模型具有高度的多功能性，适用于有声书叙述等应用。

支持单个和多个说话者的原生音频输出，涵盖24种语言。

可以控制TTS表达和风格，创建丰富的音频输出。

Gemini 2.5预览版TTS可以生成多说话者语音，这使得可以创建播客，如NotebookLM音频概述中使用的功能。