极光最佳实践:如何创建超真实的AI视频

极光最佳实践:如何创建超真实的AI视频

Written by

Creatify Team

Aurora 最佳实践
Creatify logo

Creatify Team

分享

LinkedIn 图标
X 图标
Facebook 图标

在本文中

大多数人工智能视频生成器给你的都是诡异的谷歌谷中——嘴巴在动,眼睛不动,身体像纸板剪影一样僵硬不动。Aurora 的构建旨在解决这个问题。

Ultra realistic AI video capture

Aurora是 Creatify 的专有扩散变换器(DiT)模型,用于音频驱动的化身合成。只需给它一张照片和音频片段,它就能生成那个人说话、演示或唱歌的工作室级视频,具有同步的面部表情、自然的眼睛运动、呼吸和完整的上半身动作。这不仅仅是对口型同步,它是一场完整的表演。

该模型已被集成到ElevenLabsRunwarefal.ai中,成为首批视频生成模型之一,这标志着AI视频生成的方向。

本指南涵盖如何从中获得最佳效果。

是什么让 Aurora 与众不同

大多数说话头工具仅仅动画化嘴巴就算完成,而 Aurora 将化身视为一个整体人物,树立了AI 视频生成的现实主义新标杆。

以下是该模型实际产生的效果:

  • 口型同步精确跟踪音频,包括不同音素的细微嘴形

  • 面部表情匹配声调和情感表达

  • 眼球运动——眨眼、目光转移、自然聚焦

  • 头部动作——点头、倾斜、细微的姿势变化

  • 上半身手势——手部动作、肩膀偏移,使说话头像看起来更真实而非机械化的自然运动

  • 呼吸——句间的胸部运动

What makes Aurora different

底层架构将图像编码器、文本编码器和音频编码器融合到共享的延迟空间中,使模型理解所说内容的情感背景,并在视觉上反映出来。如果音频听起来很热情,化身看起来也很热情。

Aurora Diffusion Transformer

你可以用它创建什么

Aurora on  screens

Aurora 支持的内容类型超越了简单的说话头像,成为AI视频生成工作流程的强大工具:

  • 产品演示——显示代言人持产品,指出并解释其优点。适用于护肤、科技、消费品等。

  • UGC 风格广告——自拍形式,轻微手持摄像机抖动,随意的交付。难以与真实创作者内容区分。

  • 播客片段——化身稍微侧面向,像是在和共同主持人交谈,带有投入、对话性的神情。

  • 多语言内容——无需重新拍摄即可生成任何语言版本的视频。Aurora 保持化身的唇部动作与新音频同步。

  • 唱歌的化身——给它专辑封面和一首歌,化身就会表演出来。用于音乐营销或娱乐内容。

  • 动画角色——不仅适用于逼真的照片,也可用于插画角色和风格化艺术。

Choose an avatar SS

利用 AI 视频生成取得最佳效果

1. 从合适的图像开始

Aurora 灵活可变——可与照片、渲染图和角色艺术一起使用。但有一些有助于优化的要素:

  • 主体应在画面中清晰可见且易于区分

  • 对于一致的多场景视频,所有图像保持类似构图(例如,所有人像拍摄)

  • 如果动作看起来不自然,尝试使用更清晰、更中性姿势的图像

在角度、照明或构图方面没有严格限制。Aurora 动态调整。

How to prepare a better image

2. 使用 Voice Model V3

这是确保质量效果的必选项。Voice Model V3 提供最精确的口型同步和最广泛的表现范围。旧版语音模型的输出明显较差。

保持语速适中清晰。如果同步感觉稍有偏差,稍慢语速通常可修正。句子间添加自然停顿,让化身有呼吸空间,使表演更加人性化。

3. 掌握你的提示

这是大多数人浪费效果的地方。提示告诉 Aurora 化身应如何表现——不仅仅是外观,还有动作、传达的情感,以及如何与场景互动。

这是你任何标准说话头视频的基础提示:

4K 工作室采访,中近景(肩部以上裁剪)。浅灰色无缝背景,均匀柔和的主光——无光线变化。主持人面向镜头,稳定的眼神接触。双手保持框外,身体完全静止。超高清晰度。

从那里,再加入特有的行为提示,具体到你的使用案例。

按格式的提示示例:

使用场景

增加的行为提示

产品演示

持产品的人向镜头展示标签,同时进行解释,时不时地指向它。

自然说话头

与镜头直接自然交流的人,伴随呼吸的胸部运动。自然的解释手势和眼神动作。

播客

面对一侧,看起来像是在与该方向的人交谈,表现出对话题的兴趣的投入表情。

UGC 自拍

镜头前手未能见的人讲话。摄像机有轻微的抖动,如同手持。

热情的产品评论

人用手热情地移动,试图解释产品的优点。

越详细说明情感和身体行为,效果越好。模糊的提示产生普通的结果。

专业提示:使用 GPT 将基础电影设置与具体的使用案例结合。提示:“为 [X] 产品演示生成最佳 Aurora 提示”,它会自动将技术框架与正确的行为提示混合。

4. 调整 prompt_guidance

Aurora 具有prompt_guidance参数,范围从0到4。它控制模型遵循提示的严格程度与允许自然变化的程度。

  • 大多数场景从1开始。它给模型空间自然表演,同时仍然遵循指示。

  • 增加它如果化身偏离提示或不遵照你设置的行为提示。

  • 减少它如果表现感觉僵硬或机械。

5. 情感匹配音频、图像和提示

最常见的错误:使用充满活力、欢快的音轨搭配中性面孔图像和冷静的行为提示。模型将这三种输入融合在一起。如果它们在不同方向拖动,输出就会觉得不一致。

如果你的音频充满活力,你的提示应该要求活跃、富有表现力的行为。如果它是冷静和信息性的,你的提示应反映这种风格。这三种输入越一致,结果就越令人信服。

快速故障排除

问题

解决方法

口型同步感觉有偏差

稍微放慢语速

动作看起来不自然

尝试使用姿势更清晰的不同图像

化身偏离提示

增加 prompt_guidance

表现感觉过于机械

降低 prompt_guidance;添加更柔和的行为提示

场景间不一致

使用具有类似构图和风格的图像

Quick ai avatar troubleshooting

更大的图景

Aurora 在 AI 视频生成中代表了一步重要的发展——不仅因为它是新奇工具,而是因为它解决了实际的制作问题。创建高质量的化身视频曾需摄像机、工作室、表演者和后期制作工作流程。现在只需一张照片和一个脚本。

对于运营付费广告的效果营销人员,这改变了创意测试的计算方式。对于管理多个客户的代理商来说,这改变了视频制作的经济效益。对于以前因成本或复杂性而放弃视频广告的人来说,这完全消除了这些障碍。

该模型已在 Creatify 上线,与 ElevenLabs、Runware 和fal.ai的集成意味着它作为开发者和创作者在 AI 基础设施之上构建的独立功能正变得越来越普及。

一张照片。一个音频片段。一段看起来像是在工作室拍摄的视频。

在 Creatify 上试用 Aurora →

大多数人工智能视频生成器给你的都是诡异的谷歌谷中——嘴巴在动,眼睛不动,身体像纸板剪影一样僵硬不动。Aurora 的构建旨在解决这个问题。

Ultra realistic AI video capture

Aurora是 Creatify 的专有扩散变换器(DiT)模型,用于音频驱动的化身合成。只需给它一张照片和音频片段,它就能生成那个人说话、演示或唱歌的工作室级视频,具有同步的面部表情、自然的眼睛运动、呼吸和完整的上半身动作。这不仅仅是对口型同步,它是一场完整的表演。

该模型已被集成到ElevenLabsRunwarefal.ai中,成为首批视频生成模型之一,这标志着AI视频生成的方向。

本指南涵盖如何从中获得最佳效果。

是什么让 Aurora 与众不同

大多数说话头工具仅仅动画化嘴巴就算完成,而 Aurora 将化身视为一个整体人物,树立了AI 视频生成的现实主义新标杆。

以下是该模型实际产生的效果:

  • 口型同步精确跟踪音频,包括不同音素的细微嘴形

  • 面部表情匹配声调和情感表达

  • 眼球运动——眨眼、目光转移、自然聚焦

  • 头部动作——点头、倾斜、细微的姿势变化

  • 上半身手势——手部动作、肩膀偏移,使说话头像看起来更真实而非机械化的自然运动

  • 呼吸——句间的胸部运动

What makes Aurora different

底层架构将图像编码器、文本编码器和音频编码器融合到共享的延迟空间中,使模型理解所说内容的情感背景,并在视觉上反映出来。如果音频听起来很热情,化身看起来也很热情。

Aurora Diffusion Transformer

你可以用它创建什么

Aurora on  screens

Aurora 支持的内容类型超越了简单的说话头像,成为AI视频生成工作流程的强大工具:

  • 产品演示——显示代言人持产品,指出并解释其优点。适用于护肤、科技、消费品等。

  • UGC 风格广告——自拍形式,轻微手持摄像机抖动,随意的交付。难以与真实创作者内容区分。

  • 播客片段——化身稍微侧面向,像是在和共同主持人交谈,带有投入、对话性的神情。

  • 多语言内容——无需重新拍摄即可生成任何语言版本的视频。Aurora 保持化身的唇部动作与新音频同步。

  • 唱歌的化身——给它专辑封面和一首歌,化身就会表演出来。用于音乐营销或娱乐内容。

  • 动画角色——不仅适用于逼真的照片,也可用于插画角色和风格化艺术。

Choose an avatar SS

利用 AI 视频生成取得最佳效果

1. 从合适的图像开始

Aurora 灵活可变——可与照片、渲染图和角色艺术一起使用。但有一些有助于优化的要素:

  • 主体应在画面中清晰可见且易于区分

  • 对于一致的多场景视频,所有图像保持类似构图(例如,所有人像拍摄)

  • 如果动作看起来不自然,尝试使用更清晰、更中性姿势的图像

在角度、照明或构图方面没有严格限制。Aurora 动态调整。

How to prepare a better image

2. 使用 Voice Model V3

这是确保质量效果的必选项。Voice Model V3 提供最精确的口型同步和最广泛的表现范围。旧版语音模型的输出明显较差。

保持语速适中清晰。如果同步感觉稍有偏差,稍慢语速通常可修正。句子间添加自然停顿,让化身有呼吸空间,使表演更加人性化。

3. 掌握你的提示

这是大多数人浪费效果的地方。提示告诉 Aurora 化身应如何表现——不仅仅是外观,还有动作、传达的情感,以及如何与场景互动。

这是你任何标准说话头视频的基础提示:

4K 工作室采访,中近景(肩部以上裁剪)。浅灰色无缝背景,均匀柔和的主光——无光线变化。主持人面向镜头,稳定的眼神接触。双手保持框外,身体完全静止。超高清晰度。

从那里,再加入特有的行为提示,具体到你的使用案例。

按格式的提示示例:

使用场景

增加的行为提示

产品演示

持产品的人向镜头展示标签,同时进行解释,时不时地指向它。

自然说话头

与镜头直接自然交流的人,伴随呼吸的胸部运动。自然的解释手势和眼神动作。

播客

面对一侧,看起来像是在与该方向的人交谈,表现出对话题的兴趣的投入表情。

UGC 自拍

镜头前手未能见的人讲话。摄像机有轻微的抖动,如同手持。

热情的产品评论

人用手热情地移动,试图解释产品的优点。

越详细说明情感和身体行为,效果越好。模糊的提示产生普通的结果。

专业提示:使用 GPT 将基础电影设置与具体的使用案例结合。提示:“为 [X] 产品演示生成最佳 Aurora 提示”,它会自动将技术框架与正确的行为提示混合。

4. 调整 prompt_guidance

Aurora 具有prompt_guidance参数,范围从0到4。它控制模型遵循提示的严格程度与允许自然变化的程度。

  • 大多数场景从1开始。它给模型空间自然表演,同时仍然遵循指示。

  • 增加它如果化身偏离提示或不遵照你设置的行为提示。

  • 减少它如果表现感觉僵硬或机械。

5. 情感匹配音频、图像和提示

最常见的错误:使用充满活力、欢快的音轨搭配中性面孔图像和冷静的行为提示。模型将这三种输入融合在一起。如果它们在不同方向拖动,输出就会觉得不一致。

如果你的音频充满活力,你的提示应该要求活跃、富有表现力的行为。如果它是冷静和信息性的,你的提示应反映这种风格。这三种输入越一致,结果就越令人信服。

快速故障排除

问题

解决方法

口型同步感觉有偏差

稍微放慢语速

动作看起来不自然

尝试使用姿势更清晰的不同图像

化身偏离提示

增加 prompt_guidance

表现感觉过于机械

降低 prompt_guidance;添加更柔和的行为提示

场景间不一致

使用具有类似构图和风格的图像

Quick ai avatar troubleshooting

更大的图景

Aurora 在 AI 视频生成中代表了一步重要的发展——不仅因为它是新奇工具,而是因为它解决了实际的制作问题。创建高质量的化身视频曾需摄像机、工作室、表演者和后期制作工作流程。现在只需一张照片和一个脚本。

对于运营付费广告的效果营销人员,这改变了创意测试的计算方式。对于管理多个客户的代理商来说,这改变了视频制作的经济效益。对于以前因成本或复杂性而放弃视频广告的人来说,这完全消除了这些障碍。

该模型已在 Creatify 上线,与 ElevenLabs、Runware 和fal.ai的集成意味着它作为开发者和创作者在 AI 基础设施之上构建的独立功能正变得越来越普及。

一张照片。一个音频片段。一段看起来像是在工作室拍摄的视频。

在 Creatify 上试用 Aurora →

Icon
Icon

准备好将您的产品转变为引人入胜的视频了吗?

准备好加速您的营销了吗?

使用AI生成的视频广告,在几分钟内测试您的新产品理念

箭头图标。
Gradient

准备好加速您的营销了吗?

使用AI生成的视频广告,在几分钟内测试您的新产品理念

箭头图标。
Gradient

准备好加速您的营销了吗?

使用AI生成的视频广告,在几分钟内测试您的新产品理念

箭头图标。
Gradient

准备好加速您的营销了吗?

使用AI生成的视频广告,在几分钟内测试您的新产品理念

箭头图标。
Gradient
Gradient