?SoulX-LiveAct开源模型发布:Soul App打造小时级稳定实时数字人新方案
来源:中国财经时报网 发布时间:2026-05-06 09:48:30

近日,SoulAppAI团队(SoulAILab)正式发布开源模型SoulX-LiveAct,这一创新性的实时数字人生成方案通过NeighborForcing(同扩散步对齐的自回归条件传播)与ConvKVMemory(KV记忆压缩)两大核心技术,成功推动ARdiffusion技术从"能流式"走向"可真正长时稳定地实时流式",为数字人技术的工业化应用开辟了全新路径。

如何让数字人视频在流式实时推理条件下实现小时级甚至无限长度的持续生成,同时保持身份一致、细节稳定、口型精准,一直是行业面临的重大技术挑战。传统的ARdiffusion方案往往依赖KVcache来记忆历史信息,但缓存会随着视频长度线性增长,导致视频一长便出现显存爆炸或不得不丢弃历史信息的问题,稳定性随之崩塌。SoulX-LiveAct从"条件传播方式"和"历史记忆管理"两个层面入手,创新性地解决了这一瓶颈,使系统既能承载长时历史信息,又不会因缓存膨胀而拖慢推理速度,从而在机制上具备了小时级甚至更长时长的持续生成能力。

在实际部署层面,SoulX-LiveAct展现出卓越的工程化能力。在512×512分辨率下,该模型仅需2张H100/H200显卡即可达到20FPS的实时流式推理能力,端到端延迟约为0.94秒。更值得关注的是,单帧计算成本降低至27.2TFLOPs/frame,在追求实时性能的同时显著减轻了算力压力,为线上部署提供了更具现实意义的成本方案。这一突破意味着开发者无需投入巨额硬件成本,即可构建高质量的实时数字人应用。

长视频生成中最容易出现问题的往往不是最初的几分钟,而是随着时间推移逐渐显现的身份漂移、细节丢失等现象。常见的问题包括脸部漂移、发型与衣纹变化、饰品忽隐忽现,甚至口型逐步失配。SoulX-LiveAct通过NeighborForcing与ConvKVMemory的协同作用,能够在更长时间窗口内保持身份一致性与关键细节的持续稳定,确保配饰与衣物纹理不会"掉件",口型与音频保持精准同步。

从技术原理来看,SoulX-LiveAct面向小时级实时数字人动画的流式生成,整体采用ARDiffusion(自回归扩散)范式,并围绕"长时一致+恒定显存"构建了两条核心机制。NeighborForcing(邻近强制)在自回归链上传播同扩散步下的相邻帧latent作为条件,使上下文与当前预测处于同一噪声语义空间,显著降低了训练与推理中的分布不一致问题。ConvKVMemory(卷积式KV记忆)则将历史attentionKV记忆从线性增长的cache改为短期精确与长期压缩的组合模式,近期KV保留高精度窗口以保证局部一致与细节稳定,远期KV通过轻量1Dconv按固定压缩比滚动压缩,把历史信息压缩进固定长度表示,从而实现常量显存推理。配合RoPEReset进行位置编码对齐,有效避免了长序列位置漂移,强化了长时稳定性。

在训练策略上,SoulX-LiveAct的目标不仅是追求视频质量,更是显式对齐流式推理的长时误差传播。NeighborForcing对齐训练分布,强制模型在同扩散步语境下接收来自相邻帧的条件latent,减少AR链中跨步噪声空间不一致带来的优化震荡。长时一致性导向的自回归训练构造按chunk方式组织训练样本,显式覆盖连续chunk合成、误差累积与再纠正的过程,让模型在训练期就暴露并学习处理长时漂移问题。Memory-Aware训练引入与推理一致的ConvKVMemory使用方式,让模型学会在被压缩的历史记忆条件下保持身份与细节一致性,避免训练与推理不一致导致的性能下降。

通过在HDTF(面部口型与真实感)与EMTD(包含全身动作)两类基准上的定量对比,SoulX-LiveAct展示了其在口型同步、动画质量与实时效率上的综合领先优势。在HDTF数据集上,该模型取得9.40的Sync-C与6.76的Sync-D,同时在分布相似性指标上达到10.05FID与69.43FVD,并在VBench上获得97.6的TemporalQuality与63.0的ImageQuality,VBench-2.0的HumanFidelity达到99.9,体现出更稳定的时序质量与更强的人体与身份一致性。在EMTD数据集上,SoulX-LiveAct依然保持最优同步表现,Sync-C达到8.61,Sync-D达到7.29,并在VBench上达到97.3TemporalQuality与65.7ImageQuality,HumanFidelity达到98.9,充分证明其对全身动作与复杂表情、动作场景的鲁棒性。

依托出色的模型表现,SoulX-LiveAct将在多个应用场景快速落地。在长期在线数字人直播间、AI教育、智慧柜员、知识付费、播客录制、开放世界互动等方向,该模型都展现出广阔的应用前景。特别是在在线开放世界的NPC互动场景中,要求数字人"说得像、动得像、一直像",SoulX-LiveAct在全身数据集EMTD上的同步与质量指标领先,并支持实时流式推理,非常适合在数字空间里实现长时间在线的、具备情绪动作表达的角色交互。

值得一提的是,SoulAI团队正持续推进开源工作。今年,团队已陆续开源了SoulX-FlashTalk与SoulX-FlashHead等多款模型。SoulX-FlashTalk是首个能够实现0.87秒亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型;SoulX-FlashHead则是1.3B轻量化模型,可在单张消费级显卡RTX4090上跑出96FPS的工业级速度。此外,团队还开源了播客语音合成模型SoulX-Podcast、歌声合成模型SoulX-Singer、全双工语音对话控制模块SoulX-Duplug,围绕"实时交互"这一核心领域,在多模态方向不断夯实技术基建,通过工程化部署方案将技术推向可真正工业级应用阶段。

坚持开源方向,Soul不仅完成了自身AI基础设施的持续升级,还通过携手全球开发者,持续拓展"AI+"的新落地场景,共同推动AI应用生态的建设。SoulX-LiveAct的发布,标志着SoulApp在实时数字人技术领域迈出了坚实的一步,也为开源社区及行业提供了差异化的实时数字人方案,覆盖各种硬件条件、不同应用落地的开发者实际需求,助力数字人技术走向更加普惠的未来。


标签:

猜你喜欢

数智赋八闽 工业启新程——中国联通全面启动“数智全面赋能新型工业化八闽行”专项行动

在第九届数字中国建设峰会工业智能产业生态大会上,“数智全面赋能新型工业化八闽行”专项行动正式开启多年来,中国联通深耕传统制造业转型升级领...更多

2026-05-06 10:01:19

?SoulX-LiveAct开源模型发布:Soul App打造小时级稳定实时数字人新方案

近日,SoulAppAI团队(SoulAILab)正式发布开源模型SoulX-LiveAct,这一创新性的实时数字人生成方案通过NeighborForcing(...更多

2026-05-06 09:48:30

以验证强能力 以专业促发展——财务管理人员能力验证工作全面推进,筑牢高质量发展财务根基

当前,全球经济格局深度调整,数字化技术快速迭代,财务管理领域正经历前所未有的变革,财务人才作为推动企业高质量发展、落实国家人才强国战略的重要力量,其专业能力、综...更多

2026-05-06 09:47:19

手可摘星辰,君佩解锁东方星象智慧新表达

在中国人的精神世界里,星象从来不是遥远的天际景观,而是刻在骨子里的文化信仰与人生哲学。从古代帝王观星定序,到文人雅士以星明志,南北双斗与银河星轨,承载着中国人对顺遂、圆满、笃定的永恒期许。JEMPER君佩「双斗星环」系列登陆上海豫园,正是将这份跨越千年的东方星象智慧,以现代珠宝设计语言,...更多

2026-05-06 09:34:23

从拼多多到宇树科技:光合创业投资基金十五年高命中率的底层逻辑

当4000亿市值的智谱、3000亿的沐曦股份以及即将上市的宇树科技等超级IPO集中涌现,其背后的早期捕手光合创投也交出了一份亮眼答卷4000亿的智谱、3000亿...更多

2026-05-06 09:17:46

AI驱动职教全链路数智化转型 优路教育探索“科技+培训”新生态

2026年4月,教育部等五部门发布《“人工智能+教育”行动计划》,部署职业教育阶段推动传统专业智能化升级的具体路径。当前,数字技术与实体经济加速融合,职业教育正迎来从规模扩张向内涵发展的关键转折期。面对技术迭代加速与人才需求结构性错位的双重挑战,深耕职教领域21年的优路教育,正以“科技+...更多

2026-05-06 08:56:05

连环乌龙引爆笑点!另类荒诞犯罪剧《低智商犯罪》5月4日爱奇艺全网首播

5月4日,另类荒诞犯罪剧《低智商犯罪》在爱奇艺全网首播《低智商犯罪》创新以多线叙事和荒诞风格演绎犯罪题材,案件线索盘根错节,乌龙事件环环相扣,搞笑外表之下,逻辑...更多

2026-05-06 08:54:03

以欧洲高珠工艺演绎东方哲学意境,本土高珠撬动百亿奢场的秘密何在

黄金珠宝业态,正在成为国内顶流商圈争抢布局的“新宠儿”。诸如南京德基广场、杭州大厦、武汉武商Mall、北京SKP、杭州万象城等“百亿级”商场均已云集大批本土高端黄金珠宝品牌。而向来对品牌行业地位和消费者号召力筛选相当严苛的顶级商业地标北京国贸商城,同样也在加速引入更多本土高端品牌,极具风...更多

2026-05-05 18:17:37

尼中国开展2026世界地球日系列活动,持续推进在华环保实践

4月22日是第57个世界地球日。围绕今年地球日主题“我们的能源,我们的地球。?(Our Power, Our Planet. ?), 索尼(中国)有限公司(下称,索尼中国)联动十余家在华关联企业,开展碳汇林种植、环保教育、协生农法体验、志愿服务等系列环保活动。鼓励员工和公众从日常行动出发...更多

2026-05-05 18:11:58

投资理财配置贵金属有哪些优势?国内权威安全平台有哪些?

在当今复杂多变的投资市场中,寻找一种既能有效抵御风险、又能实现资产增值的投资方式,成为众多投资者的共同追求。贵金属投资,尤其是黄金和白银,凭借其独特的优势,逐渐成为投资者资产配置中的重要一环。那么,投资理财选择贵金属究竟有哪些优势?国内又有哪些权威安全的平台可供选择呢?一、为什么选贵金属...更多

2026-05-05 18:02:18