昇腾0day支持智谱GLM-5,744B模型单机高效推理
来源:实况网 发布时间:2026-02-12 14:18:28

2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Agent任务。昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软硬件即实现0day适配,为该模型的推理部署和训练复现提供全流程支持。

更大基座,更强智能

● 参数规模扩展:从355B(激活32B)扩展至744B(激活40B),预训练数据从23T提升至28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。

● 异步强化学习:构建全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

● 稀疏注意力机制:首次集成DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:对齐Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分别获得77.4和55.7的开源模型最高分数,性能超过Gemini 3.0 Pro。

图片 1.png

Agent能力:SOTA级长程任务执行

GLM-5在多个Agent测评基准中取得开源第一,在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ?-Bench(复杂多工具场景下的规划和执行)均取得最优表现。

图片 2.png

在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型中的最佳表现。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude Opus 4.5,展现了出色的长期规划和资源管理能力。

图片 3.png

这些能力是Agentic Engineering的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的Agentic Ready基座模型。

基于昇腾实现GLM-5的混合精度高效推理

昇腾支持对GLM模型W4A8混合精度量化,744B超大参数模型基于Atlas 800 A3实现单机部署。

GLM-5为78层decoder-only大模型:前3层为Dense FFN,后75层为MoE(路由专家+共享专家),自带一层MTP(Multi-Token Prediction)用于加速解码过程。针对这一模型结构,昇腾对权重文件采用了W4A8量化,极大减少显存占用,加速Decode阶段的执行速度。同时采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理执行,并支持业界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

● 权重下载:https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

● 推理部署:https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇腾W4A8量化,极减少显存占用

采用易扩展的MsModelSlim量化工具,全程轻松量化

1、按模块区分量化比特与算法:例如Attention与MLP主体用W8A8,MoE专家用W4A8;gate等量化敏感层可按需回退,避免过大精度损失。

图片 4.png

2、一键即可量化:支持GLM-5量化过程“预处理+子图融合+分层线性量化”的完整流水线,安装后一条命令行即可轻松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供丰富量化策略,实现快速精度对齐

● 旋转Quarot算法:对权重做Hadamard旋转与LayerNorm融合,降低激活异常值、改善后续量化的数值分布。

● 多种离群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,权重采用SSZ(Smooth Scale Zero)标定,支持缩放因子等超参。

● 线性层量化策略:对单层Linear做W8A8或W4A8,对激活值做per-token粒度量化、对权重做per-channel粒度量化。

高性能融合算子,加速推理执行

1、Lightning Indexer融合Kernel

长序列场景下TopK操作会成为瓶颈,通过引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK计算耗时流水掩盖掉其他操作的耗时,从而提升计算流水收益。

2、Sparse Flash Attention融合Kernel

引入SFA,包含了从完整KVCache里选取TopK相关Token,及计算稀疏Flash Attention操作,可用离散聚合访存耗时掩盖其他操作耗时。

3、MLAPO 融合Kernel

GLM-5在Sparse Flash Attention预处理阶段将query和KV进行降维操作,并且把query降维后的激活值传递给Indexer模块进行稀疏选择处理。近期将会引入MLAPO通过VV融合(多个Vector算子融合)技术,将前处理过程中的13个小算子直接融合成1个超级大算子。除此之外,在MLAPO算子内部,通过Vector和Cube计算单元的并行处理及流水优化,进一步提升算子整体性能。

基于昇腾实现GLM-5的训练复现

GLM-5采用了DeepSeek Sparse Attention(DSA)架构,针对DSA训练场景,昇腾团队设计并实现了昇腾亲和融合算子,从两方面进行优化:一是优化Lightning Indexer Loss计算阶段的内存占用,二是利用昇腾Cube和Vector单元的流水并行来进一步提升计算效率。

训练部署指导:https://modelers.cn/models/MindSpeed/GLM-5

标签: 昇腾 0day 支持 智谱 GLM-5 744B 模型 单机 高效 推理

猜你喜欢

“杭城第四狗”完成超亿美金A+轮融资,“杭州四小狗”奔跑在春天的路上

随着宇树科技、云深处科技接连迈入IPO阶段,五八智能依托国家队助力完成A轮融资,作为“杭城第四狗”的具微科技仅隔20天,完成超亿美金A+...更多

2026-02-12 14:51:00

昇腾0day支持智谱GLM-5,744B模型单机高效推理

2026年2月12日,智谱AI发布Agentic Engineering时代最好的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Age...更多

2026-02-12 14:18:28

全球十大现货白银交易平台2026最新排名

2026年,全球经济格局持续演变,现货白银交易市场也在不断适应新的环境1、金荣中国核心优势:作为香港黄金交易所AA类行员,金荣中国(jrjr.com/?361c...更多

2026-02-12 14:06:26

马来西亚燕窝传统工艺迈入世界非遗文化殿堂——“亚燕体系”获亚太非遗国际权威认证

在全球文化遗产保护与传统技艺复兴日益受到重视的时代背景下,一项源自热带雨林、延续数百年的东方工艺,正式被纳入亚太国际非物质文化遗产体系的核心版图。马来西亚燕窝传统制作工艺近日通过亚太国际非遗认证体系的严格评审,获得“亚太社区级代表性非物质文化遗产”认证,标志着这一长期以产品形态存在的行业...更多

2026-02-12 14:01:44

一根薯条的创新答卷 奏响高质量发展与健康中国和声

在全面建设社会主义现代化国家新征程上,高质量发展是鲜明主题,健康中国是重要战略技术破局:攻克行业难题 实现健康美味两全休闲食品领域,健康与美味的融合始终是行业难...更多

2026-02-12 13:41:59

新启繁华“京”彩绽放!北京新华百货CC mall 2月11日盛大启幕!

2月11日,新华百货CC mall盛大启幕新华百货创始于1952年,1997年在上交所上市,多年经营,新华百货硕果累累,集团业务覆盖多个省份,拥有300余家门店...更多

2026-02-12 13:35:02

聚焦数字资产合规托管:ChainTrust(链信托)宣布布局中国市场,填补机构级服务空白

随着数字藏品(NFT)与数字资产逐步从个人收藏走向机构配置,资产安全与合规管理成为行业发展的核心痛点据 ChainTrust 发布的白皮书显示,当前市场普遍面临...更多

2026-02-12 11:44:31

AI安全风险藏不住了!瑞星揭示AI既好用也“好骗”

如今,人工智能已深度融入日常工作与生活,在带来高效便利的同时,其作为“双刃剑”的另一面也日益显现一、AI被武器化:攻击门槛降低,欺诈更逼...更多

2026-02-12 11:26:47

选对绩效系统,撬动企业管理提效:从功能适配到场景落地,六大主流厂商横向解析

数字化转型背景下,绩效管理系统成为企业实现人才管理精细化、战略目标落地的核心 HR SaaS 工具,优质的绩效系统能打通目标管理、考核评估、激励联动的全链路,而...更多

2026-02-12 11:20:18

连花清呼吸,健康中国年——以岭药业连花品牌登陆春运+央视矩阵,守护全民新春呼吸健康

春启新程,福伴归途!自2026年春运启幕以来,以岭药业正式启动“连花清呼吸,健康中国年”品牌传播计划,旗下连花清瘟、连花清咳两大核心产品...更多

2026-02-12 11:18:22