平台介绍
Vidu 是由生数科技联合清华大学正式发布的中国首个长时长、高一致性、高动态性视频大模型。Vidu 在语义理解、推理速度、动态幅度等方面具备领先优势,并上线了全球首个“多主体参考”功能,突破视频模型一致性生成难题,开启了视觉上下文时代。
通过搭建大规模推理平台与推理链路优化,Vidu 开放平台将模型能力转化为功能丰富、易用性高的 API,支持文生视频、图生视频、参考生视频等能力。基于 Vidu 开放平台,企业和开发者可以轻松将多模态输入转换为高质量的视频内容,在互动娱乐、影视动画、广告制作等领域为用户带来更丰富的互动体验。
能力介绍
Vidu 开放平台目前提供下述能力赋能开发者:
-
文生视频:输入一段文本,生成视频;目前支持通用风格以及专门优化的动漫风格;
-
图生视频:输入首帧图片或首帧和尾帧图片以及对应的文本描述,生成视频;
-
参考生视频:输入参考图图片和文本描述,生成视频。目前已支持参考人物、物品等多类主体;
-
智能超清:输入视频,生成超分补帧后的视频(固定提升到 1080P、24 帧),目前只支持针对 Vidu 模型生成的视频进行超分。
具体的案例可以参考 Vidu 效果展示
应用场景
Vidu 视频生成模型支持的应用场景包括但不限于:
-
社交媒体互动玩法:包括双人拥抱、老照片动起来、个性化表情包等;
-
动画、游戏等短片内容制作:根据故事脚本生成视频片段并剪辑成片;
-
虚拟 IP 日常互动宣发内容制作:IP 宣发短片制作以及互动视频生成;
-
电商广告制作:生成广告空镜素材、根据静态图生成特效镜头等。
优势说明
-
动态幅度大、有想象力:生成的视频动作幅度较大,不会出现 AI PPT 的迟缓感,非常适合表现有想象力的画面或特效玩法;
-
强大的语义理解:能够准确遵循输入的 prompt 指令,特别是图-视频能力可以遵循提示词生成各种画面,抽卡更加高效;
-
动漫风格效果突出:文生成动漫风格的视频效果更好,且使用动漫图片进行图生视频时风格稳定性高很少出现风格变化等问题;
-
主体参照效果稳定:突破了图片层面很难解决的一致性问题,能够实现主体高度一致性,不再需要制作首帧图就可以生成一致性主体的视频,创作更加简单。
使用指南
详情见 Vidu 开放平台使用指南