
11月10日下午,人工智能與計(jì)算機(jī)學(xué)院邀請(qǐng)北京大學(xué)張銘教授作題為“大模型中Attention注意力機(jī)制及其高效稀疏注意力研究”的學(xué)術(shù)講座。學(xué)院研究生共計(jì)40余人參與了學(xué)習(xí)交流,講座由計(jì)算機(jī)技術(shù)責(zé)任教授張永梅老師主持。

本次學(xué)術(shù)講座深入剖析了以Transformer為核心的大模型當(dāng)前面臨的核心挑戰(zhàn)。張銘教授指出,大模型的核心架構(gòu)幾乎全部基于Transformer,而后者本質(zhì)上就是雙向的Attention。Transformer中的自注意力機(jī)制需要計(jì)算序列中每個(gè)位置與所有其他位置的相關(guān)性,其O(N2)的計(jì)算復(fù)雜度會(huì)導(dǎo)致計(jì)算資源和內(nèi)存消耗大幅增加,成為性能瓶頸。
針對(duì)這一難題,張銘教授重點(diǎn)分享了其團(tuán)隊(duì)在大模型中Attention注意力機(jī)制及其高效稀疏注意力方面的突破性研究。她詳細(xì)講解了與DeepSeek梁文鋒擔(dān)任共同通訊作者發(fā)表的原生稀疏注意力(Native Sparse Attention, NSA)的核心原理。通過(guò)創(chuàng)新性的稀疏化方法,實(shí)現(xiàn)了注意力機(jī)制全生命周期10倍加速,同時(shí)保持甚至超越全注意力模型性能,該成果獲ACL 2025最佳論文獎(jiǎng),而且被DeepSeek V3.2-Exp版本的DSA部署進(jìn)行工程化落地應(yīng)用并大幅降低價(jià)格。在此基礎(chǔ)上,張教授進(jìn)一步展望了未來(lái)研究方向,包括如何設(shè)計(jì)新一代動(dòng)態(tài)高效注意力機(jī)制、大模型長(zhǎng)序列處理的探索,為在座師生提供了新的啟發(fā)。
在隨后的互動(dòng)環(huán)節(jié),張銘教授與在場(chǎng)師生展開(kāi)了深入交流,并對(duì)提問(wèn)進(jìn)行了細(xì)致解答,現(xiàn)場(chǎng)氣氛熱烈。本次學(xué)術(shù)講座聚焦大模型核心關(guān)鍵技術(shù),拓寬了師生的學(xué)術(shù)視野和研究思路,有效激發(fā)了研究生探索尖端科技的研究熱情,有力推動(dòng)了學(xué)院在人工智能領(lǐng)域的學(xué)科建設(shè)與高水平復(fù)合型人才培養(yǎng)。
張銘教授是北京大學(xué)計(jì)算機(jī)學(xué)院二級(jí)教授,北大-安克大模型聯(lián)合實(shí)驗(yàn)室主任,教育部計(jì)算機(jī)課程教指委委員,2021中國(guó)計(jì)算機(jī)教育學(xué)會(huì)CCF杰出教育獎(jiǎng)獲得者。主持科技部重點(diǎn)研發(fā)課題、國(guó)家自然科學(xué)基金多項(xiàng)。谷歌學(xué)術(shù)被引23000余次,H因子59。作為通訊作者獲得機(jī)器學(xué)習(xí)頂級(jí)會(huì)議ICML 2014惟一的最佳論文獎(jiǎng)、自然語(yǔ)言處理頂會(huì)ACL 2025最佳論文獎(jiǎng),合作提出的圖嵌入模型LINE和原生稀疏注意力模型NSA受到廣泛關(guān)注。
編輯:左芳舟