您的位置：首页 → 游戏资讯 → 软件教程 → Lightricks推出的开源AI视频模型LTX-2，向Sora与Veo发起挑战

Lightricks推出的开源AI视频模型LTX-2，向Sora与Veo发起挑战

时间：2026-04-07 11:10:07 来源：互联网 作者：155

以色列企业Lightricks已将旗下具备190亿参数的模型LTX-2进行开源。此系统可依据文本描述生成同步的音视频内容，并且宣称其速度优于竞争对手。

根据技术报告，该模型可根据单一文本提示生成长达20秒的视频，并同步立体声音频。这包括对口型语音、背景音效、拟音效果以及与每个场景匹配的音乐。Lightricks表示，LTX-2的完整版可达到4K分辨率，最高可达50帧每秒。

研究人员指出，当前的视听生成技术存在着基础性的不足。不少系统采用的是分步处理的模式——要么先制作视频再配上音频，要么反过来先有音频再生成视频。这类相互分离的处理流程，难以准确把握两种模态之间真实的联合分布规律。比如口型同步虽然主要由音频决定，但声音所处的声学环境又会受到视觉场景的影响。显然，只有构建一个一体化的模型，才能妥善应对这种双向的依赖关系。

为什么非对称架构对音视频生成如此重要

LTX-2运行在一个非对称双流变压器上，总参数为190亿。视频流拥有140亿参数——远远超过音频流的50亿个容量。研究人员表示，这种分裂反映了两种模态信息密度的不同。

两条流各自采用不同的变分自编码器来处理对应的模态。这种解耦机制为特定模态的位置编码提供了支持：针对视频时空结构的三维旋转位置嵌入（RoPE），以及针对音频纯时间维度的一维嵌入。双向交叉注意力层将这两条流连接起来，能够精准地把视觉事件和对应的声音关联起来，例如物体撞击地面的场景。

在文本理解环节，LTX-2 选用 Gemma3-12B 作为多语言编码工具。该系统并非仅对语言模型的最后一层进行查询，而是会调用所有解码层，并将各层的信息加以整合。此外，模型还引入了“思考标记”——也就是输入序列里额外增设的占位符，目的是在生成内容之前，为处理复杂提示预留出更多空间。

速度提升使LTX-2领先于竞争对手

根据基准测试数据，LTX-2在推理速度方面展现出明显的领先性。在Nvidia H100 GPU环境下，该型号生成720p分辨率、121帧的内容每步仅需1.22秒；而同类的Wan2.2-14B仅能生成无音频视频，且耗时长达22.30秒。Lightricks的统计结果显示，LTX-2的速度达到了后者的18倍。

最大视频时长可达20秒，这一表现超越了竞争对手：谷歌的Veo 3为12秒，OpenAI的Sora 2是16秒，Character.AI的开源模型Ovi则为10秒。在人类偏好研究中，LTX-2的表现“显著优于”Ovi等开源替代品，且能与Veo 3、Sora 2这类专有模型的效果相媲美。

不过，研究人员也承认存在若干局限性。质量因语言而异——语音合成对于代表性不足的语言或方言来说可能不那么精确。在多说话场景中，模型偶尔会将语音内容分配给错误的角色。超过20秒的序列可能会出现时间漂移和同步下降的问题。

开源发布挑战，封闭式API方法

Lightricks对开源该模型的决定作出解释，这实则是对当下市场的一种批判。该公司创始人Zeev Farbman在发布视频里表示：“我实在想不通封闭API如何能做到这一点，毕竟他们还在谈论当前视频生成模式所具备的潜力。”如今行业面临着这样一种困境：一方面，人们能够产出令人惊叹的成果；但另一方面，这些成果在控制程度上却远不能满足专业人士的需求。

公司同样明确秉持道德立场。“人工智能能够提升人类的创造力与智能水平。但我忧虑的是，我的增强体可能会被他人掌控，”法布曼接着阐述。其目标在于依托自身硬件、遵循自身准则运行人工智能，并且联合广大创作者群体共同制定伦理决策，而非将这些决策外包给仅考虑自身利益的少数群体。

除了模型权重外，此版本还涵盖精简版本、多款LoRA适配器，以及支持多GPU的模块化训练框架。该模型针对英伟达RTX生态系统做了优化，可在RTX 5090这类消费级GPU及企业级系统上运行。模型权重与代码能在GitHub和Hugging Face平台获取，在公司内部平台免费注册后还能查看演示。