画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源
Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。
近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。
然而,尽管生成质量不断提升,当前主流方法普遍面临一个关键瓶颈:缺乏有效、直观、用户友好的运动控制方式。
用户在创作动态视频时,往往具有明确的运动意图,例如人物要往哪个方向奔跑、镜头如何推进拉远、动物的跳跃轨迹等。但现有方法普遍依赖于预设模板、动作标签或风格提示,缺少一种既自由又精准的方式 来指定对象与摄像机的运动路径。尤其是在存在多个主体或复杂场景交互的情况下,这种控制能力的缺失,极大限制了生成系统的创意表达能力与实际应用价值。
为了解决这一问题,字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。ATI 的核心理念是:将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制信号,并以统一的潜在空间建模方式注入视频生成过程。 这使得视频创作从「参数调控」转变为「可视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。
Title:ATI: Any Trajectory Instruction for Controllable Video GenerationPaper:https://arxiv.org/pdf/2505.22944Project page:https://anytraj.github.io/Github:https://github.com/bytedance/ATIHugging Face:https://huggingface.co/bytedance-research/ATIComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper
方法
ATI 接受两个基本输入:一张静态图像和一组用户手绘轨迹。这些轨迹可以在图像上自由绘制,支持任意形状,包括直线、曲线、折线、回环乃至抽象形状。ATI 通过高斯运动注入器(Gaussian Motion Injector) 将这些轨迹编码为潜在空间中的运动向量,再注入至扩散生成流程中,进而引导生成过程逐帧呈现对应的物体运动与视角变换。
如上图所示,我们希望让视频生成模型「理解」用户画出的运动轨迹,并在后续帧里按照这条轨迹产生动作。为此,我们在模型的输入特征空间上,对每一个轨迹点都注入一个「高斯权重」。使得模型就能在特征图上「看到」一颗颗从时刻 0 到 t 按轨迹移动的小「亮点」,并在训练中逐步理解输入轨迹在输入特征上和 denoise 生成视频的关联。
编码图像: 先用一个「编码器」把原始图片转换成一张低分辨率的特征图。
采样特征: 对于轨迹的起始点,从特征图上精确地(通过双线性差值,保持小数位置精度)取出一个特征向量。
生成高斯权重: 在每一帧,对应轨迹点的位置,都用一个小圆形「高斯」亮点去覆盖周围的像素,越靠近圆心的像素,权重越高。
注入特征: 把起始点的特征向量,按照这些高斯权重「软」地分配到特征图上的邻近区域,并在模型在生成视频时输入给模型。
这样一来,当我们给生成器喂入图像和这组「高斯掩码+特征」,模型就能直观地「看懂」在每一帧里,哪儿应该动、怎样动,从而生成符合用户手绘轨迹的连贯动画效果。借助高斯运动注入器(Gaussian Motion Injector) 与像素级通道拼接策略(Pixel-wise Channel Fusion) ,ATI 能够统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构 ,即可高效支持多目标、多风格、多任务的视频生成需求。同时 ATI 支持多个视频生成模型,可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同结构以及大小的模型上均有稳定的表现。
结果展示
用户仅需在原图上以手指或鼠标拖拽绘制任意轨迹,ATI 即可实时捕捉该轨迹路径并将其注入扩散模型。借助高斯运动注入器,无论直线、曲线还是复杂回环,均能被转化为连贯自然的动态视频——画到哪儿,动到哪儿。
在人物或动物肖像场景中,用户可以指定奔跑、跳跃、挥臂等关键动作的轨迹。ATI 对每一帧中的关键点进行细粒度采样与编码,准确还原关节弧度与质心移动,生成符合生物力学规律的自然运动序列。
当场景包含多个目标时,ATI 最多可并行处理 8 条独立轨迹。系统通过空间掩码和通道分离策略,保证各对象身份信息互不干扰,从而呈现复杂群体互动时的连贯动态。
ATI 不仅支持对象级运动控制,还能同步驱动摄像机视角。用户可在原图上绘制推拉、平移、旋转等镜头轨迹,将其与对象轨迹共同注入潜在空间,生成包含摇镜、跟随和俯仰等电影级镜头语言的视频。
在同一推理过程中,物体与摄像机轨迹可同时注入,借助像素级通道拼接策略实现多条运动指令的无缝融合。系统无需模块化切换,即可在潜在特征中并行呈现角色动作、群体互动与镜头切换,输出丰富而连贯的动态叙事。
ATI 展示出良好的跨领域泛化能力,覆盖写实电影、卡通插画、油画质感、水彩渲染、游戏美术等多种艺术风格。通过更换参考图与输入轨迹,系统能够在保留原始风格特征的基础上生成对应的运动视频,满足多元化的应用需求。
用户可在潜在空间中绘制超越物理边界的轨迹,以生成飞天、伸缩、扭曲等非现实动作效果,为科幻或魔幻场景提供无限创意空间。
基于 Wan2.1-I2V-14B 的高精度模型,ATI 可生成与实拍媲美的视频短片,精准还原面部表情、服饰材质与光影细节;同时提供轻量级 Seaweed-7B 版本,以满足资源受限环境中的实时交互需求。
模型开源
目前,ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社区正式开源 ,为研究人员与开发者提供了高质量、可控的视频生成能力。围绕该模型的社区生态也在快速完善:Kijai 开发的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型(如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors),显著降低显存需求,方便在消费级 GPU 上进行推理部署。同时,Benji 在 YouTube 发布的教学视频《ComfyUI Wan 2.1 任意轨迹指令运动控制教程》为创作者提供了详尽的实操指南。完整代码与模型请参阅 GitHub(bytedance/ATI)及 Hugging Face 模型库。
剪映如何做出精美的视频跟图片,小白如何入手
想要用剪映制作精美的视频和图片,小白可以从以下几个方面快速入手:
一、快速入门:熟悉基础功能
1. 界面与核心操作
剪映的界面简洁直观,分为预览区、时间线轨道和工具栏。首次使用时,可通过内置的「新手引导」熟悉布局。基础操作包括:
- 素材导入:点击「开始创作」,多选图片/视频后添加到项目,素材会自动加载到时间线。
- 剪辑拼接:选中片段后用「分割」工具裁剪多余部分,拖动片段边缘调整时长,或直接拖拽素材到时间线拼接。
- 导出设置:建议选择1080P分辨率(竖屏9:16,横屏16:9),开启「原画模式」并勾选「优化画质」,确保导出画质清晰。
2. 模板与资源库
剪映内置海量模板,在「剪同款」页面搜索关键词(如「2025爆款」)可快速生成卡点视频。素材库提供免费音乐、贴纸、滤镜和特效,例如:
- 音乐:抖音热门歌曲和卡点音乐可一键添加,支持音频踩点剪辑。
- 贴纸与文字:手绘贴纸和花字能增强趣味性,文字支持动画效果(如打字机、滚动字幕)。
- 滤镜:「电影感」「小清新」等预设滤镜可一键套用,也可通过「调节」功能手动调整亮度、对比度等参数。
二、视频制作:从基础到进阶
1. 核心剪辑技巧
- 变速处理:常规变速(0.2-4倍)与曲线变速结合,慢动作卡点更流畅。
- 转场特效:在片段衔接处添加「叠化」「模糊」等转场,避免画面跳跃感。
- 音频优化:使用「AI配音」生成方言或情绪旁白,通过「识别字幕」自动生成文字并调整字体动画。
2. 视觉升级方法
- 画中画玩法:叠加多个视频轨道,通过缩放、透明度调节制作分屏效果,或添加动态贴纸增强互动性。
- 调色与特效:套用「敦刻尔克」等影视滤镜,或手动调整颜色曲线、色温,打造独特风格。
- 动态字幕:添加「打字机」「渐显」等动画,让文字更生动。
3. 爆款视频要素
- 节奏卡点:根据音乐节奏分割视频片段,搭配转场特效提升节奏感。
- 情绪氛围:通过滤镜(如「青橙」日系风、「怀旧」胶片感)和音效(环境音+重点音效)营造沉浸感。
- 热点结合:搜索「2025热门模板」直接替换素材,或结合抖音挑战赛玩法增加曝光。
三、图片制作:从静态到动态
1. 基础处理与排版
- 滤镜与调色:套用「电影感」「复古」滤镜,或手动调整饱和度、对比度,突出画面质感。
- 文字设计:使用「飞扬行书」「魏碑体」等书法字体,添加「向下溶解」「向左擦除」等入场动画,增强视觉冲击力。
- 排版技巧:尝试「文字竖线」(单词间加垂直线)、中英文混合排版(中文在上,英文在下)或放大标题文字,提升高级感。
2. 动态效果与轮播
- 图片轮播:通过「画中画」功能添加多张图片,结合关键帧设置位置和缩放,实现左右滑动或渐隐效果。
- 画中画叠加:将图片作为背景,叠加另一张图片并调整混合模式(如「正片叠加」),创造独特视觉效果。
- 动画与特效:为图片添加「缩放」「旋转」等动画,或使用「动态贴纸」(如箭头、表情包)引导观众注意力。
四、资源与学习:快速提升的捷径
1. 免费素材获取
- 图片素材:Pexels、Pixabay、Unsplash等网站提供无版权高清图片,支持中文搜索。
- 视频素材:剪映素材库和摄图网可下载免费特效和实拍视频。
2. 官方教程与社区
- 官方资源:剪映官网和应用内「教程中心」提供从基础到进阶的系统课程,包括AI数字人、图文成篇等功能教学。
- 第三方学习:B站、抖音等平台有大量教学视频,例如「100集系统课程」涵盖蒙版、关键帧等高级技巧。
3. 实践与优化
- 多练习:从模仿热门模板开始,逐步尝试原创内容。
- 检查细节:导出前预览视频,确保字幕对齐、音频同步,避免穿帮镜头。
- 关注更新:剪映定期推出新功能(如2025版AI智能剪辑),及时学习可提升效率。
通过以上步骤,小白也能轻松制作出专业级的视频和图片。关键在于多尝试、多积累素材,并利用好剪映的模板和资源库。
相关问答
手绘漫画视频怎么做的?
可以用来画做,把做好的漫画SVG图上传到来画,然后添加背景、音乐等就可以生成手绘视频了。可以用来画做,把做好的漫画SVG图上传到来画,然后添加背景、音乐等就...
手绘视频是什么?
手绘视频是一种**以手绘动画形式来展现内容的视频类型**。手绘视频通常涉及到画面中的手部动作,使用笔在白板或纸上进行绘制,通过连续的帧动画来展示从无到有...
抖音手绘视频还能做吗?
可以。在2022年抖音官方并没有明文禁止做手绘视频,只要你的手绘视频通过了审核,就可以发布给人看。手绘视频,是在视频出现用真实的手或笔进行绘制或移动的各...
抖音手绘视频怎么做?只用手机可以做出手绘视频吗?-米米ya...
在互联网世界里理论上是可以用一部手机完成剪辑和拍摄制作的。我最近正好在研究这种视频,中间加好友被骗了一次,现在可以算是有点经验,我这里简单...
b站的那些录很多手绘视频是怎么录的?
一般来说直接手机录制就好啦,现在都有稳定仪什么的。录制完,需要后期处理,用过很多不同的视频剪辑工具,最后还是推荐用爱剪辑,调速、加音乐、加字幕,都很...
请问怎么录制手绘绘画视频?
这个问题记得解答过,重新回答下一,录制手绘绘画视频,你需要下载手绘视频软件或者利用在线手绘平台,就可以做出一幅幅好看,精美的手绘视频来,现在的手绘视...这...
2021年抖音手绘视频还能做吗?
可以做抖音手绘动画视频仍然可以创作和发布。尽管已经有很多类似的视频,但是只要能够创新和独具特色,就一定会受到关注和喜爱。另外,随着抖音平台的不断发展...
手绘怎么拍视频才好看?
拍摄手绘视频,需要注意以下几点:首先,要确保画面清晰,可以调节光线和对焦方式;其次,要注意画面的稳定性,使用三脚架或稳定器,或者手持拍摄时保持身体稳...
抖音沙雕动画视频肿么制作-ZOL问答
要制作抖音沙雕动画视频,首先需要准备一些素材和后期处理软件。其次,在拍摄和剪辑过程中要注意画面清晰、音效合适、节奏稳定等问题。最后,可以使用特效工具...
手绘视频2021年还能做吗?
可以的,但是内容要符合观众的喜爱可以的,但是内容要符合观众的喜爱