您的位置: 首页游戏资讯软件教程Lightricks推出的开源AI视频模型LTX-2,向Sora与Veo发起挑战

Lightricks推出的开源AI视频模型LTX-2,向Sora与Veo发起挑战

时间:2026-04-07 11:10:07 来源:互联网 作者:155

以色列企业Lightricks已将旗下具备190亿参数的模型LTX-2进行开源。此系统可依据文本描述生成同步的音视频内容,并且宣称其速度优于竞争对手。

根据技术报告,该模型可根据单一文本提示生成长达20秒的视频,并同步立体声音频。这包括对口型语音、背景音效、拟音效果以及与每个场景匹配的音乐。Lightricks表示,LTX-2的完整版可达到4K分辨率,最高可达50帧每秒。

研究人员指出,当前的视听生成技术存在着基础性的不足。不少系统采用的是分步处理的模式——要么先制作视频再配上音频,要么反过来先有音频再生成视频。这类相互分离的处理流程,难以准确把握两种模态之间真实的联合分布规律。比如口型同步虽然主要由音频决定,但声音所处的声学环境又会受到视觉场景的影响。显然,只有构建一个一体化的模型,才能妥善应对这种双向的依赖关系。

为什么非对称架构对音视频生成如此重要

LTX-2运行在一个非对称双流变压器上,总参数为190亿。视频流拥有140亿参数——远远超过音频流的50亿个容量。研究人员表示,这种分裂反映了两种模态信息密度的不同。

两条流各自采用不同的变分自编码器来处理对应的模态。这种解耦机制为特定模态的位置编码提供了支持:针对视频时空结构的三维旋转位置嵌入(RoPE),以及针对音频纯时间维度的一维嵌入。双向交叉注意力层将这两条流连接起来,能够精准地把视觉事件和对应的声音关联起来,例如物体撞击地面的场景。

在文本理解环节,LTX-2 选用 Gemma3-12B 作为多语言编码工具。该系统并非仅对语言模型的最后一层进行查询,而是会调用所有解码层,并将各层的信息加以整合。此外,模型还引入了“思考标记”——也就是输入序列里额外增设的占位符,目的是在生成内容之前,为处理复杂提示预留出更多空间。

速度提升使LTX-2领先于竞争对手

根据基准测试数据,LTX-2在推理速度方面展现出明显的领先性。在Nvidia H100 GPU环境下,该型号生成720p分辨率、121帧的内容每步仅需1.22秒;而同类的Wan2.2-14B仅能生成无音频视频,且耗时长达22.30秒。Lightricks的统计结果显示,LTX-2的速度达到了后者的18倍。

最大视频时长可达20秒,这一表现超越了竞争对手:谷歌的Veo 3为12秒,OpenAI的Sora 2是16秒,Character.AI的开源模型Ovi则为10秒。在人类偏好研究中,LTX-2的表现“显著优于”Ovi等开源替代品,且能与Veo 3、Sora 2这类专有模型的效果相媲美。

不过,研究人员也承认存在若干局限性。质量因语言而异——语音合成对于代表性不足的语言或方言来说可能不那么精确。在多说话场景中,模型偶尔会将语音内容分配给错误的角色。超过20秒的序列可能会出现时间漂移和同步下降的问题。

开源发布挑战,封闭式API方法

Lightricks对开源该模型的决定作出解释,这实则是对当下市场的一种批判。该公司创始人Zeev Farbman在发布视频里表示:“我实在想不通封闭API如何能做到这一点,毕竟他们还在谈论当前视频生成模式所具备的潜力。”如今行业面临着这样一种困境:一方面,人们能够产出令人惊叹的成果;但另一方面,这些成果在控制程度上却远不能满足专业人士的需求。

公司同样明确秉持道德立场。“人工智能能够提升人类的创造力与智能水平。但我忧虑的是,我的增强体可能会被他人掌控,”法布曼接着阐述。其目标在于依托自身硬件、遵循自身准则运行人工智能,并且联合广大创作者群体共同制定伦理决策,而非将这些决策外包给仅考虑自身利益的少数群体。

除了模型权重外,此版本还涵盖精简版本、多款LoRA适配器,以及支持多GPU的模块化训练框架。该模型针对英伟达RTX生态系统做了优化,可在RTX 5090这类消费级GPU及企业级系统上运行。模型权重与代码能在GitHub和Hugging Face平台获取,在公司内部平台免费注册后还能查看演示。

其他版本

猜您喜欢

相关阅读

更多>>

最新资讯