game show 关于我们
你的位置:博雅国学馆 > 关于我们 > 北大张牧涵团队依托昇腾打破推理效率瓶颈大模子推理百万tokens资本仅1 元
北大张牧涵团队依托昇腾打破推理效率瓶颈大模子推理百万tokens资本仅1 元

2025-07-31 04:42    点击次数:181


  

在东说念主工智能限制,诳言语模子的查考与推理资本一直是狂放工夫普及的要津成分之一。近日,北京大学东说念主工智能商榷院助理素质张牧涵团队在鲲鹏昇腾科教改革超卓中心(简称“超卓中心”)提供的算力支执下,到手研发出一套高效的大模子查考推理架构,杀青了百万tokens输入资本低至1元,为产业提供了高效用、低资本的处理决议。

此商榷效率包括三项要津工夫改革。当先,当今普通使用的相对位置编码存在较大的寥落性,团队通过将每个预防力头中的位置信息和非位置信息分别,对位置编码进行了低秩压缩,仅使用3%的位置信息,即可保管原有抒发智商。该活动通过优化昇腾硬件的flash-attention算子,使得预防力头的参数得回更高效哄骗。

第二,非位置编码信息在原始模子中频频处于被阻止气象。通过将位置编码与非位置编码分别,非位置编码得回了较大的压缩空间。团队给与了伙同KV的低秩压缩活动,仅保留12.5%的KVCache即可保管原始模子的智商。这一活动大要有用哄骗昇腾硬件高效的野心智商,松开访存压力,显耀普及推理效率。

临了,基于昇腾硬件在出色的并行野心智商,团队杀青的RecurrentDecoding(RD)工夫通过替换LM-head普及了查考数据哄骗率并加快了推理。在查考阶段,RD通过将解码出的多个tokens与targettokens进行对比,杀青了查考数据的高效哄骗;在推理阶段,结合投契推理显耀提高了tokens的采样通过率,进而普及了推理速率。

这一效率得回了学术界的普通温雅,不仅为科研提供了可复用的高效架构,也为AI大模子在企业中的应用大幅裁减了资本。自昨年6月设备以来,北京大学与华为在产业前沿课题的伙同攻关执续推动,本次效率考据了昇腾算力平台救助顶端科研的工夫实力。超卓中心将不时深远开展大模子要津工夫改革,为构建中国工夫生态提供坚实救助。

  声明:新浪网独家稿件,未经授权不容转载。 -->

Powered by 博雅国学馆 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2025