发布网友 发布时间:2024-09-15 03:30
共1个回答
热心网友 时间:2024-10-13 07:03
LLM的极限量化,BiLLM团队成功将每个参数占用空间压缩到1.1bit,大幅降低了大语言模型在内存和资源方面的挑战。这种方法在PTQ(训练后量化)领域引发热议,IEEE Spectrum专栏报道了这一突破。通过使用1bit近似网络中的大多数参数,并为关键权重保留2bit,BiLLM在不影响性能的前提下实现了极致压缩。实验结果表明,BiLLM在OPT模型家族上达到了目前最极限的训练后压缩,甚至在Llama系列模型上超过了全精度模型的表现。在单个GPU上,半小时内就能完成7B LLM的二值化,显示了高效性。
BiLLM的发布引发了关于大模型优化的讨论。一些网友指出,量化并非没有代价,Llama3模型在量化过程中的效果可能不如Llama2,质量损失更为明显。他们认为,一个训练不足的模型受到量化的影响较小,因为其训练过程未能充分利用每一个权重。网友进一步分析,小型模型、大量数据、长时间训练通常优于大型模型加量化,量化本质上是一种缩短训练时间的损失性捷径。数据的数量和质量被认为是所有因素中最关键的。
这项研究由大学、苏黎世联邦理工学院和北京航空航天大学共同推出,已被ICML 2024接收。量子位也采访了作者,提供了解读。研究团队对多个预训练大语言模型的权重和Hessian矩阵(损失的二阶梯度)分布进行了初步研究,发现大语言模型的Hessian矩阵表现出极端的长尾分布特性,大多数位置权重的变化对模型的输入输出不敏感,而少数元素对权重输出至关重要。同时,权重密度呈现出不均匀的钟形分布,大多数权重集中在0附近,整体非均匀分布。
研究提出了显著权重和非显著权重的量化策略。对于显著权重,采用二阶残差逼近方法进行处理,有效降低极端量化误差,仅引入2位开销存储显著权重,同时保护权重中的关键元素。对于非显著权重,通过最优钟形分组方法进行量化,自动搜索最优分割点,以减少量化误差。实验结果表明,在接近1位的平均比特率下,BiLLM实现了LLM性能保证,推动了无训练量化的边界。在多个评价指标上,BiLLM在多个模型上超过了GPTQ、PB-LLM等方法在2-bit时的性能,部分模型性能接近3-bit权重。
BiLLM的研究成果展示了在保持LLM性能的同时,大幅度压缩模型参数的潜力,为大模型的高效部署提供了新的途径。随着AI能源需求的持续增长,这种技术对于优化资源利用、推动AI技术普及具有重要意义。