Veo 3.1 是 Google DeepMind 2025年10月发布的视频生成模型。它在平台上最独特的功能是原生音视频联合生成:声音和视频一起生成,对话口型同步是目前市场上准确率最高的之一。单次生成最长8秒,1080p,支持4K增强输出。
核心能力
- 原生音效生成(对话、环境音、背景音乐一起出)
- 对话视频:台词自动同步口型,无需后期处理
- 产品展示视频:镜头运动流畅,画面质量在平台视频模型里最高
- 视频延伸:可以接续一段已有视频继续生成
产品展示视频提示词
[运镜方式] of [产品详细描述], [光线描述:soft studio lighting / dramatic backlighting / golden hour], [背景:clean white surface / dark marble], [特效(可选):particle effects / water splash / light refraction], [音效描述:elegant orchestral music / ambient city sounds / silence], [时长:4 / 6 / 8] seconds.
对话视频提示词
A [景别:medium / close-up] shot of [场景描述]. [环境音:café ambience / city background / quiet office]. [角色A描述] says, '[台词A]'. [角色B描述] replies, '[台词B]'.
台词用单引号包住。台词每句话越短,口型同步越准确。复杂长句的口型准确率会下降。
运镜词速查
slow push-in— 缓慢推进(常用于产品特写)slow orbit around— 绕物旋转(360度展示产品)macro close-up with shallow depth of field— 微距虚化特写low-angle tracking shot— 低角度跟拍overhead pull-back— 俯视拉远static camera, subject movement— 固定机位,主体运动
时长选择建议
- 4秒 → Logo 动效、简单产品特写
- 6秒 → 单场景产品展示
- 8秒 → 完整叙事、对话视频、多场景切换
超过8秒的需求需要分段生成再剪辑拼接。按场景切分生成,效果比硬拉一段提示词更可控。
关于成本
Veo 3.1 通过平台积分消耗,Fast 模式成本约 $0.15/秒,Standard 模式约 $0.40/秒。如果不需要音效,可以关闭音频生成降低约30%的成本。对话类视频建议用 Standard 模式,口型准确率更高。