Veo 3.1 使用指南

Veo 3.1 是 Google DeepMind 2025年10月发布的视频生成模型。它在平台上最独特的功能是原生音视频联合生成：声音和视频一起生成，对话口型同步是目前市场上准确率最高的之一。单次生成最长8秒，1080p，支持4K增强输出。

核心能力

原生音效生成（对话、环境音、背景音乐一起出）
对话视频：台词自动同步口型，无需后期处理
产品展示视频：镜头运动流畅，画面质量在平台视频模型里最高
视频延伸：可以接续一段已有视频继续生成

产品展示视频提示词

[运镜方式] of [产品详细描述],
[光线描述：soft studio lighting / dramatic backlighting / golden hour],
[背景：clean white surface / dark marble],
[特效（可选）：particle effects / water splash / light refraction],
[音效描述：elegant orchestral music / ambient city sounds / silence],
[时长：4 / 6 / 8] seconds.

对话视频提示词

A [景别：medium / close-up] shot of [场景描述].
[环境音：café ambience / city background / quiet office].
[角色A描述] says, '[台词A]'.
[角色B描述] replies, '[台词B]'.

台词用单引号包住。台词每句话越短，口型同步越准确。复杂长句的口型准确率会下降。

运镜词速查

slow push-in — 缓慢推进（常用于产品特写）
slow orbit around — 绕物旋转（360度展示产品）
macro close-up with shallow depth of field — 微距虚化特写
low-angle tracking shot — 低角度跟拍
overhead pull-back — 俯视拉远
static camera, subject movement — 固定机位，主体运动

时长选择建议

4秒 → Logo 动效、简单产品特写
6秒 → 单场景产品展示
8秒 → 完整叙事、对话视频、多场景切换

超过8秒的需求需要分段生成再剪辑拼接。按场景切分生成，效果比硬拉一段提示词更可控。

关于成本

Veo 3.1 通过平台积分消耗，Fast 模式成本约 $0.15/秒，Standard 模式约 $0.40/秒。如果不需要音效，可以关闭音频生成降低约30%的成本。对话类视频建议用 Standard 模式，口型准确率更高。

查看5个 Veo 3.1 真实案例 →