当前位置：首页>南京>1.58-bit!南京大学*微软把大模型「削」到只剩0.19GB,速度反而暴涨15倍

1.58-bit!南京大学*微软把大模型「削」到只剩0.19GB,速度反而暴涨15倍

2026-06-21 02:14:11

导读
大模型上手机，一直卡在同一个死结：模型太大塞不进去，砍太狠又变傻。南京大学联手微软AI北京团队祭出EdgeRazor框架，用混合精度量化感知蒸馏，把Qwen3-0.6B压到1.58-bit——存储从1.11GB暴降到0.19GB，解码速度飙升15.16倍，跑分还能反超3-bit方案。更狠的是，训练成本只有同类方法的十分之一。端侧AI的游戏规则，可能要被这套"组合拳"改写了。

手机上跑大模型，卡在哪里？

你可能已经厌倦了"大模型要上手机"这个叙事。

每隔几周就有人喊一次。但真正掏出手机试过的人都知道——内存不够，发热炸裂，电量跳水，回复慢到让你想摔手机。

问题的根源很直接：一个16-bit的大模型，哪怕只有6亿参数，checkpoint就超过1GB。而手机的运行内存还要跑系统、跑App、跑后台，留给AI推理的空间少得可怜。更别提推理过程中不断膨胀的KV cache和激活值，那才是真正的内存黑洞。

业界的常规解法是量化——把模型参数从16-bit压到8-bit、4-bit，甚至更低。

但这里有一条残酷的分界线。

"Compressing precision below 4-bit typically causes severe performance degradation or prohibitive retraining costs."

「将精度压缩到4-bit以下，通常会导致严重的性能退化，或者需要高得吓人的重训练成本。」

这是EdgeRazor论文摘要里的第一句话。也是整个端侧AI领域这两年撞得最疼的那堵墙。

4-bit以下，模型就开始"变傻"。而重新训练一个能适应低精度的模型，成本又高到中小团队根本玩不起。

这个死结，就是EdgeRazor要解的。

▲ EdgeRazor论文arXiv页面，发表于2026年5月

南京大学×微软AI：一套"组合拳"

EdgeRazor的全名是——

"A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation"

「一个通过混合精度量化感知蒸馏实现大语言模型轻量化的框架」

作者阵容横跨南京大学三个顶级实验室（国家新型软件技术重点实验室、智能科学与技术学院、人工智能学院）和微软AI北京团队。这个组合本身就说明了一件事：端侧大模型压缩，已经从论文里的学术探索，走到了工程化落地的前夜。

▲ arXiv HTML全文页面，显示南京大学与Microsoft AI联合署名

EdgeRazor的核心思路可以概括成三句话：

第一刀：混合精度量化——不是所有参数都值同样的钱。

传统量化像是一刀切：所有层、所有矩阵统一压到2-bit或4-bit。但EdgeRazor说，不对——有些矩阵对模型能力至关重要，砍太狠会直接致命；有些矩阵冗余度高，压到1.58-bit也无所谓。

于是它设计了矩阵级别的混合精度方案。比如1.88-bit方案，实际上是12.5%的矩阵用4-bit、87.5%用1.58-bit；2.79-bit方案则是各占一半。把有限的"精度预算"精准分配给最需要的地方。

第二刀：层自适应特征蒸馏——让学生记住老师最关键的"解题思路"。

光压缩还不够。EdgeRazor让压缩后的"学生模型"向未压缩的"老师模型"学习。但它不是让学生模仿老师的每一层输出，而是动态选择信息量最大的层进行对齐。哪些层的特征最能代表模型的推理能力，就重点学哪些。

第三刀：熵感知KL散度——在不同难度的数据上灵活调节学习力度。

简单的数据，老师模型输出的概率分布很"尖锐"（确定性高）；复杂的数据，分布更"平坦"（不确定性高）。EdgeRazor的熵感知KL散度能根据数据的不确定性自动调节学习强度，避免在简单样本上过拟合、在难样本上学不到。

数字说话：1.58-bit到底有多猛？

说完方法，上硬菜。

论文在Qwen3-0.6B上做了重点实验，结果相当炸裂：

1.88-bit Qwen3-0.6B-EdgeRazor——比所有2-bit基线方案高出11.27分，比最强的3-bit基线还高4.38分。

你没看错。用不到2-bit的精度，跑分打赢了3-bit的最强选手。

这意味着什么？意味着EdgeRazor不只是"压得更小"，而是在压得更小的同时，还比用了更多bit的竞争对手更聪明。

再看极限压缩：

1.58-bit Qwen3-0.6B-EdgeRazor——存储从1.11GB直降到0.19GB，缩小了近6倍。解码速度相比16-bit原版加速15.16倍。

0.19GB是什么概念？比你手机上一个短视频App的缓存都小。而15倍的解码加速，意味着本来要等3秒的回复，现在不到0.2秒就出来了。

▲ Hugging Face上的Qwen3-0.6B-EdgeRazor-1.58bit模型卡，decoder层1.58-bit，embedding/lm_head保留4-bit

还有一个经常被忽略但极其重要的数字：训练成本。

在MobileLLM-350M上的实验显示，EdgeRazor所需的训练预算比领先的量化感知训练（QAT）方法低4到10倍。

这才是真正的杀手锏。压缩模型的方法很多，但大多数方法的重训练成本高到让人绝望——你省下来的推理成本，可能全部倒贴在了训练上。EdgeRazor把这笔账也算清楚了。

不只是压权重：全链路都得省

很多人对"模型压缩"的理解停留在"把模型文件变小"。但EdgeRazor的野心不止于此。

GitHub README明确写道：

"EdgeRazor supports quantizing weights (including embedding and lm_head), activations, and KV cache."

「EdgeRazor支持量化权重（包括embedding和lm_head）、激活值和KV cache。」

▲ GitHub官方仓库README，定位为"Lightweight Framework for Edge AI"

这三个东西分别对应端侧推理的三个内存大户：

权重
：模型本身占多大。这是下载和存储的瓶颈。
激活值
：模型运行时的中间计算结果。这决定了实时推理的内存峰值。
KV cache
：多轮对话时缓存的注意力键值对。对话越长，这玩意儿膨胀得越恐怖。

只压权重，模型文件是小了，但一开始跑推理，内存照样爆。EdgeRazor把三条线都管住了，这才是"端侧可用"和"论文好看"之间的差距。

从论文到工具链：已经能跑了

EdgeRazor不是那种只有PDF的学术项目。

它已经形成了一条完整的工具链：GitHub代码仓库 → Hugging Face模型集合 → HF Playground在线体验 → PyPI包一键安装。

▲ Hugging Face上的EdgeRazor-Nbit模型集合，涵盖Qwen3-0.6B的多个bit版本

GitHub仓库里写得很清楚，EdgeRazor的目标是训练出更小、更快、可部署于移动端和边缘端点到低延迟云端的模型。Hugging Face上已经发布了Qwen3-0.6B的4-bit、2.79-bit、1.88-bit、1.58-bit全系列模型，还有在线Playground可以直接试玩。

甚至连PyPI包都有了——`pip install edgerazor`，几行代码就能开始压缩你自己的模型。

这种从论文到可复现实验再到可用工具链的完整度，在学术项目里并不常见。

端侧AI的下一场仗

让我们把视角拉远一点。

端侧大模型的竞争，正在从"谁的模型更小"变成一道更复杂的多目标优化题：大小、速度、质量、训练成本，四个变量必须同时交出及格答案。

模型压到极致但回答质量跳水？不行。质量保住了但训练成本翻十倍？也不行。跑分好看但实际推理内存爆表？更不行。

EdgeRazor的价值在于，它给出了一种可能的答案——用混合精度量化控制大小和速度，用蒸馏守住质量，用高效训练策略压低成本。四条线同时拉。

当然，必须指出的是：EdgeRazor目前仍处于论文和开源框架阶段，距离被手机厂商预装、被消费者日常使用，还有很长的路要走。论文中的benchmark数字来自作者实验，尚未经过独立第三方测评。

但方向已经很清楚了。

端侧AI的真正战场，从来都不是谁能把模型做到最小——而是谁能在最小的空间里，装下最多的智能。

EdgeRazor用1.58-bit证明了：这件事，可能没有想象中那么难。

— END —

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

1.58-bit!南京大学*微软把大模型「削」到只剩0.19GB,速度反而暴涨15倍

手机上跑大模型，卡在哪里？

南京大学×微软AI：一套"组合拳"

数字说话：1.58-bit到底有多猛？

不只是压权重：全链路都得省

从论文到工具链：已经能跑了

端侧AI的下一场仗

最新文章

热门文章

随机文章

1.58-bit!南京大学*微软把大模型「削」到只剩0.19GB,速度反而暴涨15倍

手机上跑大模型，卡在哪里？

南京大学×微软AI：一套"组合拳"

数字说话：1.58-bit到底有多猛？

不只是压权重：全链路都得省

从论文到工具链：已经能跑了

端侧AI的下一场仗

你买的潮牌就在南京

基层动态|致公党南京市鼓楼区基层委员会召开“参政为公、实干为民”主题教育推进会

最新文章

热门文章

随机文章