导读
大模型上手机,一直卡在同一个死结:模型太大塞不进去,砍太狠又变傻。南京大学联手微软AI北京团队祭出EdgeRazor框架,用混合精度量化感知蒸馏,把Qwen3-0.6B压到1.58-bit——存储从1.11GB暴降到0.19GB,解码速度飙升15.16倍,跑分还能反超3-bit方案。更狠的是,训练成本只有同类方法的十分之一。端侧AI的游戏规则,可能要被这套"组合拳"改写了。手机上跑大模型,卡在哪里?
你可能已经厌倦了"大模型要上手机"这个叙事。
每隔几周就有人喊一次。但真正掏出手机试过的人都知道——内存不够,发热炸裂,电量跳水,回复慢到让你想摔手机。
问题的根源很直接:一个16-bit的大模型,哪怕只有6亿参数,checkpoint就超过1GB。而手机的运行内存还要跑系统、跑App、跑后台,留给AI推理的空间少得可怜。更别提推理过程中不断膨胀的KV cache和激活值,那才是真正的内存黑洞。
业界的常规解法是量化——把模型参数从16-bit压到8-bit、4-bit,甚至更低。
但这里有一条残酷的分界线。
"Compressing precision below 4-bit typically causes severe performance degradation or prohibitive retraining costs."
「将精度压缩到4-bit以下,通常会导致严重的性能退化,或者需要高得吓人的重训练成本。」
这是EdgeRazor论文摘要里的第一句话。也是整个端侧AI领域这两年撞得最疼的那堵墙。
4-bit以下,模型就开始"变傻"。而重新训练一个能适应低精度的模型,成本又高到中小团队根本玩不起。
这个死结,就是EdgeRazor要解的。

▲ EdgeRazor论文arXiv页面,发表于2026年5月
南京大学×微软AI:一套"组合拳"
EdgeRazor的全名是——
"A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation"
「一个通过混合精度量化感知蒸馏实现大语言模型轻量化的框架」
作者阵容横跨南京大学三个顶级实验室(国家新型软件技术重点实验室、智能科学与技术学院、人工智能学院)和微软AI北京团队。这个组合本身就说明了一件事:端侧大模型压缩,已经从论文里的学术探索,走到了工程化落地的前夜。

▲ arXiv HTML全文页面,显示南京大学与Microsoft AI联合署名
EdgeRazor的核心思路可以概括成三句话:
第一刀:混合精度量化——不是所有参数都值同样的钱。
传统量化像是一刀切:所有层、所有矩阵统一压到2-bit或4-bit。但EdgeRazor说,不对——有些矩阵对模型能力至关重要,砍太狠会直接致命;有些矩阵冗余度高,压到1.58-bit也无所谓。
于是它设计了矩阵级别的混合精度方案。比如1.88-bit方案,实际上是12.5%的矩阵用4-bit、87.5%用1.58-bit;2.79-bit方案则是各占一半。把有限的"精度预算"精准分配给最需要的地方。
第二刀:层自适应特征蒸馏——让学生记住老师最关键的"解题思路"。
光压缩还不够。EdgeRazor让压缩后的"学生模型"向未压缩的"老师模型"学习。但它不是让学生模仿老师的每一层输出,而是动态选择信息量最大的层进行对齐。哪些层的特征最能代表模型的推理能力,就重点学哪些。
第三刀:熵感知KL散度——在不同难度的数据上灵活调节学习力度。
简单的数据,老师模型输出的概率分布很"尖锐"(确定性高);复杂的数据,分布更"平坦"(不确定性高)。EdgeRazor的熵感知KL散度能根据数据的不确定性自动调节学习强度,避免在简单样本上过拟合、在难样本上学不到。
数字说话:1.58-bit到底有多猛?
说完方法,上硬菜。
论文在Qwen3-0.6B上做了重点实验,结果相当炸裂:
1.88-bit Qwen3-0.6B-EdgeRazor——比所有2-bit基线方案高出11.27分,比最强的3-bit基线还高4.38分。
你没看错。用不到2-bit的精度,跑分打赢了3-bit的最强选手。
这意味着什么?意味着EdgeRazor不只是"压得更小",而是在压得更小的同时,还比用了更多bit的竞争对手更聪明。
再看极限压缩:
1.58-bit Qwen3-0.6B-EdgeRazor——存储从1.11GB直降到0.19GB,缩小了近6倍。解码速度相比16-bit原版加速15.16倍。
0.19GB是什么概念?比你手机上一个短视频App的缓存都小。而15倍的解码加速,意味着本来要等3秒的回复,现在不到0.2秒就出来了。

▲ Hugging Face上的Qwen3-0.6B-EdgeRazor-1.58bit模型卡,decoder层1.58-bit,embedding/lm_head保留4-bit
还有一个经常被忽略但极其重要的数字:训练成本。
在MobileLLM-350M上的实验显示,EdgeRazor所需的训练预算比领先的量化感知训练(QAT)方法低4到10倍。
这才是真正的杀手锏。压缩模型的方法很多,但大多数方法的重训练成本高到让人绝望——你省下来的推理成本,可能全部倒贴在了训练上。EdgeRazor把这笔账也算清楚了。
不只是压权重:全链路都得省
很多人对"模型压缩"的理解停留在"把模型文件变小"。但EdgeRazor的野心不止于此。
GitHub README明确写道:
"EdgeRazor supports quantizing weights (including embedding and lm_head), activations, and KV cache."
「EdgeRazor支持量化权重(包括embedding和lm_head)、激活值和KV cache。」

▲ GitHub官方仓库README,定位为"Lightweight Framework for Edge AI"
这三个东西分别对应端侧推理的三个内存大户:
- 权重
- 激活值:模型运行时的中间计算结果。这决定了实时推理的内存峰值。
- KV cache:多轮对话时缓存的注意力键值对。对话越长,这玩意儿膨胀得越恐怖。
只压权重,模型文件是小了,但一开始跑推理,内存照样爆。EdgeRazor把三条线都管住了,这才是"端侧可用"和"论文好看"之间的差距。
从论文到工具链:已经能跑了
EdgeRazor不是那种只有PDF的学术项目。
它已经形成了一条完整的工具链:GitHub代码仓库 → Hugging Face模型集合 → HF Playground在线体验 → PyPI包一键安装。

▲ Hugging Face上的EdgeRazor-Nbit模型集合,涵盖Qwen3-0.6B的多个bit版本
GitHub仓库里写得很清楚,EdgeRazor的目标是训练出更小、更快、可部署于移动端和边缘端点到低延迟云端的模型。Hugging Face上已经发布了Qwen3-0.6B的4-bit、2.79-bit、1.88-bit、1.58-bit全系列模型,还有在线Playground可以直接试玩。
甚至连PyPI包都有了——`pip install edgerazor`,几行代码就能开始压缩你自己的模型。
这种从论文到可复现实验再到可用工具链的完整度,在学术项目里并不常见。
端侧AI的下一场仗
让我们把视角拉远一点。
端侧大模型的竞争,正在从"谁的模型更小"变成一道更复杂的多目标优化题:大小、速度、质量、训练成本,四个变量必须同时交出及格答案。
模型压到极致但回答质量跳水?不行。质量保住了但训练成本翻十倍?也不行。跑分好看但实际推理内存爆表?更不行。
EdgeRazor的价值在于,它给出了一种可能的答案——用混合精度量化控制大小和速度,用蒸馏守住质量,用高效训练策略压低成本。四条线同时拉。
当然,必须指出的是:EdgeRazor目前仍处于论文和开源框架阶段,距离被手机厂商预装、被消费者日常使用,还有很长的路要走。论文中的benchmark数字来自作者实验,尚未经过独立第三方测评。
但方向已经很清楚了。
端侧AI的真正战场,从来都不是谁能把模型做到最小——而是谁能在最小的空间里,装下最多的智能。
EdgeRazor用1.58-bit证明了:这件事,可能没有想象中那么难。
— END —