新闻
你的位置:九游体育(JIUYOU) 中国大陆大陆官网-登录入口 > 新闻 >无需异常模子测验、即插即用,全新的视频生成增强算法——Enhance-A-Video来了!
和最近东谈主气超高的混元视频生成模子(HunyuanVideo)对比来看,加入 Enhance-A-Video 的版块在生成画面中证明出了愈加丰富的细节和更高的语义契合度,生成内容和用户输入的文本教唆更匹配:
参议团队成员来改过加坡国立大学、上海 AI 践诺室和德克萨斯大学奥斯汀分校。
浅显来说,新算法通过救援时候珍概念层输出的一个要道参数,不祥在真的不加多推理包袱的情况下,大幅培植生成视频的细节证明和时序连贯性。
Enhance-A-Video 还兼容多种主流视频生成模子,无需修改基础架构即可平直应用。
比如CogVideoX-2B + Enhance-A-Video:
还有OpenSora-V1.2 + Enhance-A-Video:
践诺罢了披露,Enhance-A-Video 在培植视频质方位面证明超卓,尤其是在对比度、清爽度以及细节信得过性上有权臣校正。
新算法依然发布,其普遍的泛化才气亦然赶紧得回了社区的招供。
许多网友已将该算法集成到多个主流推理框架中,包括 ComfyUI-Hunyuan 和 ComfyUI-LTX。
对比一下网友 Kijai 发布的原始混元模子和增强后的效果,不错看到模子生成画面愈加当然,动态证明也愈加指引:
△Comfy-UI 测试罢了,左边为原始视频,右边为增强视频
LTX-Video 的参议东谈主员 Nir Zabari 还生效将它应用到了LTXV模子中,权臣培植了生成视频在动作一致性和细节呈现方面的证明。
这一后果标明,Enhance-A-Video 不仅适用于特定模子,还能平庸适配于不同的视频生成框架。
参议布景:培植视频生成质地需求热烈
频年来,以 Diffusion Transformer(DiT)为代表的视频生成工夫 [ 1 ] 迅猛发展,不祥凭据文本形色生成万般化的视频内容。
但是,现存圭臬仍濒临以下挑战:
时序不连贯:帧与帧之间败落一致性;
细节怪异:画面纹理败落清爽度;
画面抖动:动态效果不够踏实。
这些问题权臣影响了生成视频的实用性和不雅看体验,何如培植 AI 生成视频的质地成为当前参议的要道问题之一。
为了惩办上述问题,Enhance-A-Video 应时而生。其中枢旨趣是通过一个增强扫数,优化时候珍概念的别离,从而完结以下上风:
高效增强:快速培植视频质地;
无需测验:可平直应用于现存生成模子;
即插即用:无邪适配多种场景和需求。
缠绵动机:时候珍概念的优化后劲
时候珍概念(Temporal Attention)在 DiT 模子中精采信息的帧间传递,对生成视频的连贯性和细节保留至关进军。
通过对不同 DiT 层的时候珍概念别离进行可视化分析,参议东谈主员发现:
在部分 DiT 层中,时候珍概念的别离存在权臣各异:跨帧珍概念(非对角线部分)的强度赫然低于单帧自珍概念(对角线部分)。
这一表象可能导致帧间信息传递不及,进而影响视频的一致性和细节证明。
基于这一不雅察,作家建议了一个要道假定:能否通过诈欺时候珍概念来提高视频质地?
△不同 DiT 层的时候珍概念别离图
这一假定的灵感着手于废话语模子(LLM)中的温度扫数(τ)调度机制。
在文本生成中,通过救援 Softmax 的温度参数不错均衡一致性与万般性 [ 2 ] :
增大 τ,生成罢了愈加万般化。
减小 τ,生成罢了更连贯一致。
近似地,在视频生成中,时候珍概念的温度扫数不错平直影响帧间关系性强度,为 Enhance-A-Video 的缠绵提供了表面基础。
圭臬玄虚:无需测验的动态增强决策
基于上述不雅察与想考,作家初度发面前候珍概念的温度扫数决定了不同帧之间的关系性强度,关系性强度越高意味着每一帧生成时,在时候高下文维度所辩论的规模越广。
由此宗旨起程,作家建议了一种救援时候珍概念层输出,无需测验的视频增强圭臬,该圭臬不错平直应用于现存的 AI 视频生成模子。
△Enhance-A-Video 框架图
Enhance-A-Video 的中枢缠绵是通过动态调度时候珍概念层的输出,完结对帧间一致性和细节证明的优化。
具体圭臬分为以下几步:
1. 并行增强模块
在时候珍概念层的基础上加多一个并行分支,计较时候珍概念别离图。
输入时候珍概念层的遮拦景色也被传入增强模块。
2. 计较跨帧强度(CFI)
从时候珍概念别离图中索求非对角线元素的平均值,四肢跨帧强度(Cross-Frame Intensity, CFI)。
3. 动态增强适度
引入增强温度参数(Enhance Temperature),将其与 CFI 的乘积四肢增强模块的输出扫数。
诈欺该扫数动态救援时候珍概念层输出的特征增强强度。
通过这一政策,Enhance-A-Video 不祥高效地培植视频的帧间一致性和细节证明,而无需对原始模子进行从头测验。
为 AI 视频生成工夫提供新想考
这项参议建议了首个无需测验、即插即用的 AI 生成视频质地增强圭臬—— Enhance-A-Video,针对当前生成视频质地的要道问题,围绕时候珍概念机制伸开翻新缠绵,主要孝顺如下:
翻新性圭臬:通过在时候珍概念层计较交叉帧强度,引入增强温度参数,培植帧间一致性与细节证明力。
高效性与通用性:无需测验,平直适配主流视频生成模子。
权臣性能培植:在 HunyuanVideo 等模子上惩办了细节缺成仇时序不一致等问题。
改日他们还会在此基础上进一步开展使命,包括:
自相宜增强:参议自动调度增强温度参数机制,优化一致性与万般性均衡。
膨胀适用性:优化圭臬缠绵以适配大规模模子和多模态场景。
质地评价:构建更完善的视频生成质地评价体系。
作家暗意,期待本参议为 AI 视频生成工夫的本体应用与质地培植提供新的想路和相沿!
开源代码归并:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video
关系博客归并:https://oahzxl.github.io/Enhance_A_Video/
参考文件:
[ 1 ] Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, Joe Taylor, Troy Luhman, Eric Luhman, Clarence Ng, Ricky Wang and Aditya Ramesh. " Video generation models as world simulators. " OpenAI Research ( 2024 ) .
[ 2 ] Renze, Matthew and Erhan Guven. " The Effect of Sampling Temperature on Problem Solving in Large Language Models. " ArXiv abs/2402.05201 ( 2024 ) .
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形态主页归并,以及关系形势哦
咱们会(尽量)实时回应你
点这里� � 温雅我,记起标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~
下一篇:九游体育app娱乐后果可能因为探访过多-九游体育(JIUYOU) 中国大陆大陆官网-登录入口
- 2025/02/04九游体育app娱乐硅宝科技1月13日融券偿还0股-九游体育(JIUYOU) 中国大陆大陆官网-登录入
- 2025/02/04现金九游体育app平台现时融资余额3.92亿元-九游体育(JIUYOU) 中国大陆大陆官网-登录入口
- 2025/02/04九游体育app娱乐占当日买入金额的10.53%-九游体育(JIUYOU) 中国大陆大陆官网-登录入口
- 2025/02/03九游体育娱乐网金融ETF(510230)跌超0.9%-九游体育(JIUYOU) 中国大陆大陆官网-登
- 2025/02/03九游体育app官网近10日净流入额近2亿元-九游体育(JIUYOU) 中国大陆大陆官网-登录入口