Soul App在AI交互领域持续发力,其AI团队Soul AI Lab今年年初正式开源实时数字人生成模型SoulX-FlashTalk,作为行业首个实现0.87s亚秒级延时、32fps高帧率及超长视频稳定生成的14B数字人模型,它填补了大参数量实时数字人商用落地的空白。Soul团队长期专注AI技术创新,致力于打造沉浸、多元的交互体验,此次开源既是技术积累的集中展现,也为行业提供可直接应用的业务方案,推动实时数字人产业整体升级。

SoulX-FlashTalk在性能层面实现多重突破,核心优势集中于四大维度。亚秒级延时是核心竞争力,全栈加速引擎极致优化下,模型首帧视频输出延时降至0.87s,让14B级大模型数字人摆脱传统生成滞后感,实现即时反馈,无论是视频通话即时对答、直播间弹幕秒级互动,还是智能客服实时响应,均能达成自然流畅的深度对话,适配各类实时交互场景。高帧率输出保障画面流畅度,即便搭载14B超大DiT模型,推理吞吐量仍稳定32fps,远超直播25fps标准,画面清晰丝滑,证明大模型经深度优化后可兼顾高参数与高效率。
长视频生成稳定性是SoulX-FlashTalk的突出优势,有效解决行业长期存在的画质下降、面部不一致、身份漂移等痛点。模型搭载独家自纠正双向蒸馏技术,通过多步回溯自纠正机制,实时模拟并修正长视频生成误差传播,实现无感纠错且画质无损;同时完全保留双向注意力机制,每帧生成可同步参考过去与隐含未来上下文,从根本抑制身份漂移,确保超长直播中数字人口型、面部细节、背景环境始终一致,无模糊变形。动作表现上,模型突破传统数字人仅面部对口型局限,支持音频驱动全身肢体动态合成,依托14B DiT建模能力消除手部畸形与模糊,精准呈现手部细节,维持99.22%身份一致性,平衡动作灵动性与画面稳定性。

训练流程示意图
为平衡性能与速度,Soul团队为SoulX-FlashTalk设计完善的技术方案与推理加速体系。训练采用两阶段策略,第一阶段延迟感知时空适配,结合动态长宽比分桶微调,适配低分辨率与短帧序列;第二阶段自纠正双向蒸馏,通过DMD框架压缩采样步数、移除CFG加速,搭配多步回溯自纠正与随机截断策略优化显存。推理依托8-H800节点全栈加速引擎,通过混合序列并行、FlashAttention3算子优化、3D VAE并行化、整链优化,大幅提升推理速度,达成亚秒级延迟。传统单向模型易出现时间不一致与身份漂移,双向注意力机制充分利用上下文,提升生成质量与一致性。
实测数据显示,SoulX-FlashTalk在TalkBench-Short和TalkBench-Long数据集表现优异,短视频ASE达3.51、IQA达4.79、Sync-C达1.47,刷新视觉保真度与口型同步精度;长视频Sync-C达1.61,有效抑制同步漂移,长短视频均稳定32fps,性能超越行业主流模型。依托卓越性能,模型可落地电商AI直播、短视频制作、AI教育、NPC交互、AI客服等领域,解决电商数字人直播长时间运行后画质模糊、口型错位痛点,助力企业降本增效。Soul此前开源播客语音合成模型SoulX-Podcast收获广泛认可,此次开源标志Soul开源战略深化,未来团队将聚焦核心交互能力,携手开发者共建AI+社交生态。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
猜你喜欢
“无事不扰,有求必应” 深圳持续优化营商环境
iPad中国市场份额大跌 华为再夺中国平板第一 暴增21%
停摆一年后,宗馥莉自有品牌KELLYONE回归:新品“果然啵啵”3元一瓶,毫无
半导体板块涨3.46% 利扬芯片涨19.99%居首
快播:生意社:6月2日MTBE外盘市场收盘价格波动
高德发布3D原生城市世界模型ABot-Earth0.5:单图10分钟重建3D城
国家开放大学首届新商科创新创业大赛现场赛在北京举办