从0到1：微软研究院打造全新BitNet v2，让1比特大语言模型以4比特运行效率翻倍

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

从0到1：微软研究院打造全新BitNet v2，让1比特大语言模型以4比特运行效率翻倍

作者：科技行者

2025-04-29 12:25

分享至：

想象一下，你有一辆非常省油的汽车（比如BitNet b1.58这样的1比特模型），但每次加油都必须使用高级燃油（8比特激活值）。虽然车辆本身很节能，但燃油成本仍然不低。这正是当前大语言模型面临的困境。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-29 12:25 • 科技行者

最近，来自微软研究院的Hongyu Wang、Shuming Ma和Furu Wei，以及中国科学院大学的Hongyu Wang发表了一篇令人瞩目的研究论文《BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs》。这篇论文于2025年4月25日在arXiv上发布（arXiv:2504.18415v1），代表了大语言模型极限量化领域的又一重大突破。对于关注人工智能硬件效率优化的读者，可以通过https://aka.ms/GeneralAI了解更多研究详情。

一、为什么我们需要BitNet v2？理解问题的关键

过去一年，深度学习领域掀起了一场量化革命。微软研究院之前推出的BitNet b1.58模型已经证明，即使将模型权重从传统的16比特或32比特压缩到仅1.58比特（基本上就是-1、0、1三个值），大语言模型依然能保持接近全精度的性能。这大大减轻了模型在内存带宽方面的负担。

但是，这些模型仍然使用8比特的激活值（也就是模型处理信息时的中间状态）。随着新一代GPU如GB200的出现，这些硬件开始原生支持4比特计算，这意味着如果我们能将激活值也降到4比特，就能进一步提升效率。问题是，简单地将激活值从8比特降到4比特会导致性能显著下降，尤其是因为激活值中存在大量"异常值"（outliers）——那些数值特别大的点，就像在平静的湖面上突然冒出的几座小山。

这就是微软研究团队试图解决的核心问题：如何让1比特权重的模型也能使用4比特激活值，同时保持性能不下降？

二、哈达玛变换：平息数据风暴的数学魔法

研究团队发现，大语言模型中的激活值分布非常不均匀，特别是在注意力机制的输出层（Wo）和前馈网络的下投影层（Wdown）。简单来说，这些层的激活值就像一个非常不平衡的天平，一边是大量接近零的小值，另一边是少量但影响巨大的异常值。

为了解决这个问题，研究人员提出了一个巧妙的解决方案——哈达玛变换（Hadamard Transformation）。这听起来可能很复杂，但其实可以通过一个简单的比喻来理解：

想象你有一盘非常不均匀的食物，一边是米饭，另一边是几块大肉。如果你直接把这盘食物放进微波炉（进行量化），那些大块的肉可能会煮过头，而米饭还是生的。哈达玛变换就像是在加热前先把食物彻底搅拌均匀，这样热量就能更平均地分布到所有食物上。

技术上，哈达玛变换是一种线性变换，它能将不均匀的尖锐分布"搅拌"成更接近高斯分布（钟形曲线）的形态。这种分布更适合低比特量化，因为没有那些极端的异常值扰乱整体量化效果。

研究团队基于这一洞察，设计了一个新的线性层模块，称为H-BitLinear，它在激活值量化前应用哈达玛变换。这个模块被放置在注意力机制的输出投影和前馈网络的下投影位置——正是那些容易产生异常值的地方。

三、BitNet v2的架构：精心设计的节能高楼

有了H-BitLinear这个关键组件，研究团队构建了完整的BitNet v2架构。整个模型就像一座精心设计的节能大楼，每个部分都经过优化，以实现最大效率。

BitNet v2保留了类似LLaMA的基本组件，包括RMS归一化、SwishGLU激活函数，并去除了所有偏置项。与第一代BitNet相比，最关键的区别是在注意力机制的Wo层和前馈网络的Wdown层使用了H-BitLinear。

在训练过程中，BitNet v2首先使用1.58比特权重和8比特激活值从头开始训练。对于8比特激活值，团队使用每个token的absmax函数进行量化；而对于4比特激活值，则使用absmean函数。这有点像在超市买水果时，对于体积大的水果按最大尺寸计价，而对于大小均匀的水果则按平均大小计价，以获得更合理的结果。

有趣的是，在训练过程中，模型通过"直通估计器"（Straight-Through Estimator，STE）处理不可微分的量化操作，就像是在不可见的悬崖上架设一座"想象中的桥"，让梯度能够顺利通过。对于哈达玛变换的反向传播，研究人员利用变换矩阵的正交性质，确保梯度能够正确传播。

更令人印象深刻的是，研究团队发现，将8比特激活值的BitNet v2模型继续训练少量步骤，就能得到使用4比特激活值的模型，同时性能损失几乎可以忽略不计。这就像是先教一个学生用标准教材（8比特）学习，然后快速适应使用简化版教材（4比特）。

四、实验结果：数字说话，性能惊艳

研究团队在各种模型规模（从4亿参数到70亿参数）上进行了广泛实验，结果令人振奋。

首先，使用8比特激活值的BitNet v2性能与BitNet b1.58基本相当，甚至在某些下游任务上略有超越。对于1.3B、3B和7B规模的模型，BitNet v2在下游任务上的平均准确率分别比BitNet b1.58高出0.16%、0.49%和0.61%。

更重要的是，当切换到4比特激活值时，BitNet v2的性能依然保持强劲。与BitNet a4.8（一种混合使用4比特量化和8比特稀疏化的方法）相比，BitNet v2(a4)在困惑度上表现相当，而在下游任务上，特别是在3B和7B规模的模型中表现更好。

研究团队还探索了注意力机制中的"查询-键-值"（QKV）状态的低比特化。他们发现，将QKV直接量化为4比特，甚至将查询(Q)设为4比特而键值(KV)设为3比特，模型性能依然强健。这意味着在实际推理中可以进一步节省内存和计算资源。

与现有的后训练量化方法（如SpinQuant和QuaRot）相比，BitNet v2展现出明显优势。在1.3B模型规模下，BitNet v2(a4)的困惑度和下游任务准确率都显著优于这些方法。特别有趣的是，研究人员发现，对于三值（ternary）模型，旋转矩阵与权重的融合方式对性能有重大影响。

五、技术深入：哈达玛变换的魔力

读到这里，你可能会好奇：为什么哈达玛变换如此有效？让我们稍微深入探讨一下。

哈达玛变换本质上是一种快速算法，其计算复杂度为O(n log n)，比标准矩阵乘法的O(n²)高效得多。它利用了特殊的哈达玛矩阵（Hadamard matrix），这种矩阵的元素只有+1和-1，并且行与行之间相互正交。

简单来说，哈达玛变换就像是将数据通过一系列镜面反射和平移，重新分布数据的能量。这个过程不会丢失信息，只是重新组织信息，使其更均匀地分布。在去除哈达玛变换的实验中，模型甚至无法收敛，这充分证明了这一技术的重要性。

研究团队发现，仅对激活值应用哈达玛变换就足够取得良好效果，无需同时对权重应用变换。这使得实现更加简洁高效。

六、从实验室到现实：BitNet v2的实际意义

BitNet v2的出现意味着什么？对于普通用户和行业来说，这项技术带来几个关键好处：

显著减少内存占用：4比特激活值意味着存储中间状态所需的内存仅为全精度模型的1/8，这对于部署大语言模型到资源受限设备（如手机或边缘设备）至关重要。

提高批处理效率：在服务多用户场景时，BatchLLM（批处理大语言模型）可以大幅提升吞吐量。BitNet v2的4比特激活值设计特别适合这种场景，因为它偏好密集计算而非稀疏计算。

降低能耗：较低的比特宽度直接转化为更低的能耗，这对于大规模AI部署的可持续性至关重要。

充分利用新硬件：随着GB200等新一代GPU提供原生4比特计算支持，BitNet v2能够充分发挥这些硬件的潜力，而不是被激活值比特宽度所限制。

这项技术有可能为下一代更高效的AI服务铺平道路，让我们在手机、家用设备甚至可穿戴设备上运行功能强大的AI成为可能。

七、结语：未来展望与思考

"底部仍有充足空间"——理查德·费曼的这句名言被引用在论文中，恰如其分地概括了这项研究的精神。尽管我们已经将模型权重压缩到1比特，激活值压缩到4比特，但优化的旅程可能才刚刚开始。

BitNet v2代表了一种全新思路：不仅仅关注权重量化，也同样关注激活值的高效表示。这种"全方位"优化策略可能会成为未来AI系统设计的标准方法。

对于普通人来说，这意味着AI将变得更加普及、更加节能、成本更低，可以运行在更多设备上。想象一下，你的智能手表运行一个小型但强大的语言模型，能够立即回答你的问题，而不需要连接云服务器。

对于研究人员和工程师来说，BitNet v2提供了一个清晰的方向：使用数学技巧（如哈达玛变换）重塑数据分布，使其更适合低比特表示。这种方法可能会启发其他领域的类似优化。

最后，值得思考的是：我们是否正在接近理论极限，还是如费曼所说，底部仍有充足空间？随着量化技术的不断进步，AI模型或许能够在更低的比特宽度下运行，同时保持强大的性能。BitNet v2只是这场效率革命的又一个里程碑，而非终点。

如果你对这一研究感兴趣并希望了解更多技术细节，可以通过访问https://aka.ms/GeneralAI或在arXiv上搜索论文编号2504.18415获取完整论文。

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

从0到1：微软研究院打造全新BitNet v2，让1比特大语言模型以4比特运行效率翻倍

至顶头条

科技行者

码客人生

奇客Solidot

奇客情报站

奇客故事

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接