# Gemini 语音模型特点

已发布 2026-01-15

# Gemini 2.5 Flash 原生音频 (Native Audio)

# 核心特点

自然对话: 具有卓越质量的语音交互,更合适的表达性和韵律(节奏模式),以极低延迟提供,让您能够流畅对话。

增强的语音质量和适应性: Live API原生音频提供更丰富、更自然的语音交互。

# 情感对话能力

情感对话功能: 使用Live API原生音频的模型可以理解并适当响应用户的情感表达,进行更细致的对话。

# 实时交互

Gemini 2.5 Flash Live模型与Live API配合使用,实现与Gemini的低延迟双向语音和视频交互。

# Gemini 2.5 Flash 预览版 TTS

# 多说话者支持

首创的多说话者支持功能,通过原生音频输出实现双声音文本到语音转换。

# 表达能力

文本到语音具有表达性,能够捕捉非常细微的差别,如耳语。

# 多语言功能

支持超过24种语言,能够无缝切换语言。

# 高级控制

增强的节奏和发音控制: 控制传送速度,确保发音更准确,包括特定单词的发音。

# 内容生成

多说话者对话生成: 该模型可以从文本输入生成双人"NotebookLM风格"音频概述,使内容更具吸引力。

# Gemini 2.5 Pro 预览版 TTS

# 最强大的TTS模型

Gemini 2.5 Pro预览版TTS是我们最强大的文本到语音模型,为播客生成、有声书、客户支持等结构化工作流程提供高度控制和透明度。

# 高级功能

Gemini 2.5 TTS引入了先进功能,如可定制的语音风格、自然交互模拟和多说话者音频生成,增强了音频内容创作的表达性和真实性。

# 专业应用

该模型具有高度的多功能性,适用于有声书叙述等应用。

# 共同特点

# 原生音频输出

支持单个和多个说话者的原生音频输出,涵盖24种语言。

# 风格控制

可以控制TTS表达和风格,创建丰富的音频输出。

# 多说话者生成

Gemini 2.5预览版TTS可以生成多说话者语音,这使得可以创建播客,如NotebookLM音频概述中使用的功能。