Soul张璐团队旗下Soul AI Lab近期正式开源实时数字人生成模型SoulX-LiveAct,为行业带来突破性的长时稳定流式生成方案。该模型通过创新的Neighbor Forcing与ConvKV Memory机制,推动自回归扩散(AR diffusion)技术从“可流式”进阶至“长时稳定实时流式”,精准解决数字人视频小时级生成的核心痛点。
随着AI技术在数字人直播、实时互动等场景的快速普及,行业需求已从“能生成”转向“能长期稳定生成”。然而,当前数字人生成普遍面临长时稳定性困境:视频时长达到分钟级后,易出现身份漂移、画面闪烁、细节丢失等问题,同时实时推理成本随时长攀升,严重限制落地应用。SoulX-LiveAct 的推出,正是为破解这一行业共性难题。
SoulX-LiveAct具备三大核心亮点,实现技术与应用的双重突破。其一为恒定显存,通过ConvKV Memory将历史KV记忆由线性增长转为“短期精确+长期压缩”模式,配合Neighbor Forcing机制,彻底避免显存溢出,真正支持无限时长生成。其二是实时吞吐,在512×512分辨率下,仅需2张H100/H200显卡即可实现20 FPS流式推理,端到端延迟约0.94s,单帧计算成本降低到27.2 TFLOPs / frame,大幅降低线上部署门槛。其三为长时一致,有效抑制长视频常见的脸漂、服饰细节漂移、口型失配等问题,长时间保持数字人身份与细节稳定。
技术原理上,SoulX-LiveAct基于AR Diffusion范式,构建两大核心机制保障长时稳定。Neighbor Forcing 通过传播同扩散步相邻帧隐变量,确保上下文与当前预测处于同一噪声语义空间,降低分布差异;ConvKV Memory 则通过固定压缩比处理远期记忆,搭配 RoPE Reset 实现位置对齐,从机制上保障长序列一致性。同时,模型采用长时一致性导向训练与 Memory-Aware 训练策略,让模型在训练阶段即学习处理误差累积,实现训练与推理的一致性。

LiveAct推理时序+Memory结构示意图
基准测试数据显示,SoulX-LiveAct 综合性能领先行业。在HDTF数据集中,Sync-C达9.40、Sync-D达6.76,FID/FVD为10.05/69.43,VBench时序质量达97.6;在全身动作数据集EMTD中,同步指标与视觉质量同样最优,充分验证其在表情、全身动作生成上的稳定性与鲁棒性。

依托优异的技术表现,SoulX-LiveAct可快速落地于“长期在线”数字人直播间、AI教育、智慧柜员、知识付费、播客录制、开放世界互动等多个场景。例如在开放世界NPC互动中,其能够满足“说得像、动得像、一直像”的核心需求,凭借领先的同步性与稳定性,实现数字空间内长时间在线的、具备情绪动作表达的角色交互。作为Soul张璐团队实时交互布局的重要组成部分,SoulX-LiveAct与今年此前开源的SoulX-FlashTalk、SoulX-FlashHead形成梯度化方案,覆盖不同硬件条件与应用需求。
除了实时数字人生成方向的三款模型,Soul张璐团队还开源了播客语音合成模型SoulX-Podcast、歌声合成模型SoulX-Singer、全双工语音对话控制模块SoulX-Duplug,围绕“实时交互”核心领域,持续夯实多模态技术基建,并通过工程化部署方案,推动技术从实验室走向真正的工业级应用。
Soul张璐团队坚持开源方向,不仅完成了自身AI基础设施的持续升级,更通过携手全球开发者,为行业提供多样化、差异化的技术方案,助力AI应用生态的稳步建设。
猜你喜欢
“无事不扰,有求必应” 深圳持续优化营商环境
iPad中国市场份额大跌 华为再夺中国平板第一 暴增21%
每日简讯:央行开展5亿元7天期逆回购操作
半导体板块涨3.46% 利扬芯片涨19.99%居首
41岁詹姆斯赛后首次表态:还没想好未来怎么办,续约湖人、换队或退役都在桌上
从代步到家庭出行载体,爱玛引领休闲电三轮迈入价值竞争新阶段
国家开放大学首届新商科创新创业大赛现场赛在北京举办