Veo 3.1 使用指南

Veo 3.1 是 Google DeepMind 2025年10月发布的视频生成模型。它在平台上最独特的功能是原生音视频联合生成:声音和视频一起生成,对话口型同步是目前市场上准确率最高的之一。单次生成最长8秒,1080p,支持4K增强输出。

核心能力

  • 原生音效生成(对话、环境音、背景音乐一起出)
  • 对话视频:台词自动同步口型,无需后期处理
  • 产品展示视频:镜头运动流畅,画面质量在平台视频模型里最高
  • 视频延伸:可以接续一段已有视频继续生成

产品展示视频提示词

[运镜方式] of [产品详细描述],
[光线描述:soft studio lighting / dramatic backlighting / golden hour],
[背景:clean white surface / dark marble],
[特效(可选):particle effects / water splash / light refraction],
[音效描述:elegant orchestral music / ambient city sounds / silence],
[时长:4 / 6 / 8] seconds.

对话视频提示词

A [景别:medium / close-up] shot of [场景描述].
[环境音:café ambience / city background / quiet office].
[角色A描述] says, '[台词A]'.
[角色B描述] replies, '[台词B]'.

台词用单引号包住。台词每句话越短,口型同步越准确。复杂长句的口型准确率会下降。

运镜词速查

  • slow push-in — 缓慢推进(常用于产品特写)
  • slow orbit around — 绕物旋转(360度展示产品)
  • macro close-up with shallow depth of field — 微距虚化特写
  • low-angle tracking shot — 低角度跟拍
  • overhead pull-back — 俯视拉远
  • static camera, subject movement — 固定机位,主体运动

时长选择建议

  • 4秒 → Logo 动效、简单产品特写
  • 6秒 → 单场景产品展示
  • 8秒 → 完整叙事、对话视频、多场景切换

超过8秒的需求需要分段生成再剪辑拼接。按场景切分生成,效果比硬拉一段提示词更可控。

关于成本

Veo 3.1 通过平台积分消耗,Fast 模式成本约 $0.15/秒,Standard 模式约 $0.40/秒。如果不需要音效,可以关闭音频生成降低约30%的成本。对话类视频建议用 Standard 模式,口型准确率更高。

查看5个 Veo 3.1 真实案例 →

相关文章

← 返回帮助中心