神經(jīng)信息處理系統(tǒng)大會(Conference on Neural Information Processing Systems,簡稱NeurIPS),是機(jī)器學(xué)習(xí)和計算神經(jīng)科學(xué)領(lǐng)域的頂級國際會議。NeurIPS 2025將在美國圣地亞哥(12月2日至12月7日)和墨西哥城(11月30日至12月5日)兩地舉辦。本文章將介紹自動化所在本屆會議上的錄用論文成果。
01.?DiCo: 重振卷積網(wǎng)絡(luò)以實(shí)現(xiàn)可擴(kuò)展且高效的擴(kuò)散建模
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
★Spotlight
作者:艾雨昂,樊齊航,胡雪峰,楊振恒,赫然,黃懷波
本研究圍繞擴(kuò)散模型的高效生成展開。近年來,基于Transformer的擴(kuò)散模型(DiT)在圖像生成領(lǐng)域表現(xiàn)突出,但其全局自注意力機(jī)制帶來了巨大的計算開銷。本文通過深入分析預(yù)訓(xùn)練的DiT模型發(fā)現(xiàn),自注意力在生成任務(wù)中多以局部建模為主,長距離依賴的作用有限,這提示我們有可能設(shè)計出更高效的替代架構(gòu)。 為此,我們提出了 Diffusion ConvNet (DiCo),一種完全基于卷積的擴(kuò)散模型骨干結(jié)構(gòu)。DiCo利用輕量化的點(diǎn)卷積與深度卷積構(gòu)建基礎(chǔ)模塊,并引入緊湊通道注意力,有效緩解了卷積網(wǎng)絡(luò)中通道冗余問題,提升了特征多樣性與表達(dá)能力。
在ImageNet條件生成實(shí)驗(yàn)中,DiCo-XL在256×256分辨率下實(shí)現(xiàn)了2.05的FID,并在512×512分辨率下取得2.53的FID,且相比DiT-XL/2實(shí)現(xiàn)2.7至3.1倍的加速。同時,在MS-COCO數(shù)據(jù)集上的實(shí)驗(yàn)表明,純卷積的DiCo同樣具備較強(qiáng)的文本到圖像生成潛力。

DiCo在保持高效率的同時實(shí)現(xiàn)了優(yōu)異的圖像質(zhì)量
02.分區(qū)再適應(yīng):應(yīng)對預(yù)測偏差以實(shí)現(xiàn)可靠的多模態(tài)測試時自適應(yīng)
Partition-Then-Adapt: Combating Prediction Bias for Reliable Multi-Modal Test-Time Adaptation
★Spotlight
作者:王國威,呂凡,丁長興
本文針對多模態(tài)任務(wù)在測試時遇到的多模態(tài)同時域偏移問題提出了Partition-Then-Adapt(PTA)方法。現(xiàn)有測試時自適應(yīng)(TTA)技術(shù)多集中于單一模態(tài)的域偏移,當(dāng)多模態(tài)同時受到干擾時,模型難以區(qū)分可靠樣本,容易出現(xiàn)預(yù)測偏差并導(dǎo)致誤差積累。PTA由兩部分組成:一是“分區(qū)與去偏重加權(quán)”(Partition and Debiased Reweighting,PDR),通過比較樣本預(yù)測標(biāo)簽頻率與批次平均水平,量化預(yù)測偏差并將數(shù)據(jù)劃分為潛在可靠和不可靠兩類,再結(jié)合置信度用分位數(shù)方法重新加權(quán)。二是“多模態(tài)注意力引導(dǎo)對齊”(Attention-Guided Alignment,AGA),利用可靠樣本的注意力分布引導(dǎo)不可靠樣本,通過最大均值差異正則化使模型聚焦于語義相關(guān)線索。
該方法在Kinetics50-C、VGGSound-C等多模態(tài)基準(zhǔn)以及CMU-MOSI、CMU-MOSEI、CH-SIMS等真實(shí)數(shù)據(jù)集上均顯著優(yōu)于現(xiàn)有方法,尤其在高噪聲、多模態(tài)同步域偏移場景下提升明顯,并在動態(tài)環(huán)境和小批量數(shù)據(jù)情況下表現(xiàn)出較強(qiáng)魯棒性。PTA不僅緩解了高置信但偏差大的“假可靠樣本”問題,還在保持效率的同時提高了模型在多模態(tài)測試時自適應(yīng)任務(wù)中的穩(wěn)定性和準(zhǔn)確性。

PTA方法設(shè)計
03.?RepoMaster:面向復(fù)雜任務(wù)求解的 GitHub 倉庫自主探索與理解框架
RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving
★Spotlight
作者:汪華燦,倪子懿,張碩,盧碩,胡森,何子揚(yáng),胡晨,林嘉燁,郭毅芙,杜云濤,呂品
代碼智能體的終極目標(biāo)是自主解決復(fù)雜任務(wù)。盡管大語言模型(LLM)在代碼生成方面進(jìn)步顯著,但從零構(gòu)建完整代碼倉庫仍具挑戰(zhàn),而現(xiàn)實(shí)任務(wù)往往需要完整倉庫而非簡單腳本。值得關(guān)注的是,GitHub上匯集海量開源項(xiàng)目,常被用作“輪子”復(fù)用于復(fù)雜任務(wù),但現(xiàn)有框架如OpenHands和SWE-Agent對其仍難以有效利用:僅依賴README文件指導(dǎo)不足,深入探索則面臨信息過載與依賴關(guān)系復(fù)雜兩大核心障礙,且均受限于當(dāng)前LLM的有限上下文長度。
為此,我們提出RepoMaster——一個專注于探索和復(fù)用GitHub倉庫的自主智能體框架。在理解階段,通過構(gòu)建函數(shù)調(diào)用圖、模塊依賴圖與層級化代碼樹,精準(zhǔn)識別關(guān)鍵組件,僅向LLM提供核心要素而非完整倉庫內(nèi)容。在自主執(zhí)行過程中,依托探索工具逐步拓展關(guān)聯(lián)組件,并通過信息剪枝優(yōu)化上下文使用效率。
實(shí)驗(yàn)結(jié)果顯示,在MLE-bench-R上RepoMaster的有效提交率較最強(qiáng)基線OpenHands提升110%;在GitTaskBench基準(zhǔn)中,將任務(wù)通過率從40.7%提升至62.9%,同時顯著降低95%的token消耗。該框架為代碼智能體高效利用現(xiàn)有代碼資源提供了創(chuàng)新性解決方案。

圖1. 所提RepoMaster總體流程,包括代碼庫搜索、代碼庫混合結(jié)構(gòu)分析和自主探索與執(zhí)行。

圖2. RepoMaster 的自主探索–執(zhí)行循環(huán)概覽及示例演示。
該智能體首先對初始上下文進(jìn)行分析(步驟 1),并指定需要檢查的文件(步驟 2)。為提高信息獲取效率,系統(tǒng)從該文件中提取關(guān)鍵信息(步驟 3),并將其附加至當(dāng)前上下文(步驟 4)。在隨后的探索–執(zhí)行迭代過程中(步驟 6→2,步驟 7→3),智能體利用探索工具識別更多相關(guān)文件,重復(fù)基于上下文的代碼探索。當(dāng)收集到足夠的信息后,RepoMaster 在編寫與執(zhí)行 “.py” 腳本之間交替進(jìn)行,通過錯誤處理與基于反饋的調(diào)試,不斷優(yōu)化執(zhí)行過程,直至任務(wù)完成。
04.?進(jìn)步的幻象?視覺語言模型測試時自適應(yīng)方法再審視
The Illusion of Progress?A Critical Look at Test-Time Adaptation for Vision-Language Models
作者:生力軍,梁堅(jiān),赫然,王子磊,譚鐵牛
視覺語言模型(VLM)的測試時適應(yīng)(TTA)方法能夠在無需額外標(biāo)注數(shù)據(jù)的情況下提升模型在推理階段的性能,因此受到廣泛關(guān)注。然而,現(xiàn)有TTA研究普遍存在基準(zhǔn)結(jié)果重復(fù)、評估指標(biāo)單一、實(shí)驗(yàn)設(shè)置不一致以及分析不夠深入等局限,這阻礙了方法間的公平比較,也掩蓋了其實(shí)際優(yōu)缺點(diǎn)。
為此,我們提出了一個面向視覺語言模型的測試時適應(yīng)綜合評測基準(zhǔn)——TTA-VLM。該基準(zhǔn)在一個統(tǒng)一且可復(fù)現(xiàn)的框架中實(shí)現(xiàn)了8種片段式TTA方法和7種在線TTA方法,并在15個常用數(shù)據(jù)集上對其進(jìn)行了系統(tǒng)評估。與以往僅關(guān)注CLIP的研究不同,我們將評估范圍擴(kuò)展至SigLIP模型,并引入訓(xùn)練時調(diào)優(yōu)方法以檢驗(yàn)TTA方法的通用性。除了分類準(zhǔn)確率,TTA-VLM還整合了魯棒性、校準(zhǔn)性、分布外檢測能力及穩(wěn)定性等多種評估指標(biāo),從而能夠?qū)TA方法進(jìn)行更全面的評估。通過大量實(shí)驗(yàn),我們發(fā)現(xiàn)現(xiàn)有TTA方法相比早期開創(chuàng)性工作帶來的性能提升有限、當(dāng)前TTA方法與訓(xùn)練時微調(diào)方法的協(xié)同效果不佳、準(zhǔn)確率的提升常常以模型可信度的下降為代價。

所提基準(zhǔn) TTA-VLM 的總體結(jié)構(gòu)
05.?思考與視覺繪圖交織強(qiáng)化視覺-語言模型中的空間推理能力
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
作者:吳俊飛,關(guān)健,馮凱拓,劉強(qiáng),吳書,王亮,武威,譚鐵牛
傳統(tǒng)視覺語言模型(LVLMs)普遍采用“視覺轉(zhuǎn)文本”的推理范式:先將圖像壓縮為token序列并映射至語言空間,再交由大語言模型(LLM)進(jìn)行純文本推理。然而,受限于視覺編碼器的能力與訓(xùn)練數(shù)據(jù),這一過程往往丟失大量關(guān)鍵的細(xì)節(jié)與時空信息;同時,在冗長的文本推理鏈中,模型對原始視覺信號的關(guān)注也逐漸減弱,制約了其空間推理能力。
針對這一瓶頸,我們提出全新推理范式——“Drawing to Reason in Space”(空間繪圖推理),讓LVLMS能夠像人類一樣“邊畫邊想”:在視覺空間中動態(tài)選擇關(guān)鍵幀,并繪制參考線、標(biāo)記框等輔助標(biāo)注,引導(dǎo)視覺編碼器精準(zhǔn)捕捉時空關(guān)系,顯著緩解信息損失問題。我們設(shè)計了三階段訓(xùn)練框架——從冷啟動建立基礎(chǔ)繪圖能力,到通過反思拒絕采樣篩選高質(zhì)量推理路徑,最終以強(qiáng)化學(xué)習(xí)端到端優(yōu)化任務(wù)目標(biāo),并開源模型 ViLaSR-7B。實(shí)驗(yàn)表明,該方法在多個空間推理基準(zhǔn)上平均提升 18.4%;在李飛飛教授團(tuán)隊(duì)提出的 VSI-Bench 上,性能達(dá)到 45.4%,與 Gemini-1.5-Pro 相當(dāng),全面超越現(xiàn)有方法,為視覺語言模型的空間推理開辟了新路徑。

Drawing to reason in space推理范式
06.?DAA:在測試時類發(fā)現(xiàn)中放大未知差異
DAA: Amplifying Unknown Discrepancy for Test-Time Discovery
作者:劉天樂,呂凡,倪成功,張彰,胡伏原,王亮
在動態(tài)開放的真實(shí)環(huán)境中,人工智能系統(tǒng)不僅要保持對已知類別的識別,還必須具備在線發(fā)現(xiàn)新類別的能力。然而,現(xiàn)有測試時適應(yīng)與記憶增強(qiáng)方法多依賴靜態(tài)特征與固定原型,難以應(yīng)對未知類別的干擾,導(dǎo)致新類識別不穩(wěn)定、邊界模糊和錯誤積累。
針對這一挑戰(zhàn),我們提出了面向測試時發(fā)現(xiàn)(Test-Time Discovery,TTD)任務(wù),結(jié)合差異放大適配器(DAA, Discrepancy-Amplifying Adapter) 與短期記憶更新(STMR, Short-Term Memory Renewal)。DAA 在訓(xùn)練階段通過模擬未知類并放大特征差異,使模型在面對未知數(shù)據(jù)時具備更強(qiáng)的區(qū)分力。STMR 在測試階段動態(tài)刷新短期記憶原型,有效降低錯誤傳播并保持已知類性能。在 CIFAR100-D、CUB-200-D 與 Tiny-ImageNet-D 等多個基準(zhǔn)上,我們的方法在實(shí)時評估與后評估中均顯著優(yōu)于現(xiàn)有最先進(jìn)方法,能清晰分離未知類并提升穩(wěn)定性。這項(xiàng)研究為開放世界和持續(xù)學(xué)習(xí)提供了全新思路,也為醫(yī)療、自動駕駛與智能機(jī)器人等需要在線新類發(fā)現(xiàn)的應(yīng)用奠定了技術(shù)基礎(chǔ)。

07.?視覺模型在圖結(jié)構(gòu)理解中被低估的力量
The Underappreciated Power of Vision Models for Graph Structural Understanding
作者:趙鑫鑒, 龐威, 薛中凱, 簡相如,張磊, 胥瑤瑤, 宋曉壯,吳書,于天舒
本研究探索了視覺模型在圖結(jié)構(gòu)理解方面尚未充分開發(fā)的潛力。圖神經(jīng)網(wǎng)絡(luò)(GNN)采用局部信息聚合機(jī)制,與人類視覺感知圖結(jié)構(gòu)的方式存在根本差異,人類通常先把握全局結(jié)構(gòu),再關(guān)注局部細(xì)節(jié)。研究發(fā)現(xiàn),將圖轉(zhuǎn)換為圖像后,純視覺模型在圖級別基準(zhǔn)上能達(dá)到與GNNs相當(dāng)?shù)男阅埽宫F(xiàn)出完全不同的學(xué)習(xí)模式。然而,現(xiàn)有的基準(zhǔn)往往將領(lǐng)域特征與拓?fù)淅斫饣旌显谝黄穑y以深入分析這種差異的根源,也無法單純評估模型的結(jié)構(gòu)理解能力。為此,我們提出GraphAbstract,專用于測試模型是否具備類似人類的圖結(jié)構(gòu)理解與泛化能力。該基準(zhǔn)通過系統(tǒng)性增加圖的規(guī)模來評估模型的跨尺度泛化能力,這是人類圖認(rèn)知的一個重要特征。
實(shí)驗(yàn)結(jié)果顯示,視覺模型在需要全局結(jié)構(gòu)理解的任務(wù)上明顯優(yōu)于GNN,并保持了更好的跨尺度泛化性能。值得注意的是,與使用更強(qiáng)大的GNN架構(gòu)相比,為GNN加入位置編碼等全局結(jié)構(gòu)先驗(yàn)后,其性能和泛化性的提升更為顯著。這一發(fā)現(xiàn)與視覺模型的天然優(yōu)勢共同揭示了獲取全局拓?fù)湫畔⑹菆D理解成功的核心要素。本研究為設(shè)計更強(qiáng)大的圖模型探索了新的路徑。

GraphAbstract基準(zhǔn)上不同模型的性能對比,顯示視覺模型在跨尺度泛化方面的優(yōu)勢。
08.?輸入輸出對齊的高效3D視覺-語言-動作模型
BridgeVLA:Input-Output Alignment for Efficienct 3D Manipulation Learning with Vision-Language Models
作者:李沛言,陳藝翔,吳弘濤,馬驍,吳祥楠,黃巖,王亮,孔濤,譚鐵牛
近年來,利用預(yù)訓(xùn)練的視覺-語言模型(VLM)構(gòu)建視覺-語言-動作(VLA)模型已成為有效的機(jī)器人操作方法。然而,現(xiàn)有方法主要處理2D輸入,忽略了寶貴的3D信息。盡管一些最新研究提出將3D信號引入VLM以進(jìn)行動作預(yù)測,但它們忽視了3D數(shù)據(jù)中固有的空間結(jié)構(gòu),導(dǎo)致樣本效率低下。
本文提出了一種新穎的3D VLA模型——BridgeVLA,該模型具有以下特點(diǎn):(1)將3D輸入投影為多個2D圖像,確保與VLM骨干網(wǎng)絡(luò)的輸入對齊;(2)利用2D熱圖進(jìn)行動作預(yù)測,在輸入和輸出統(tǒng)一在一致的2D空間。此外,我們還提出了一種可擴(kuò)展的預(yù)訓(xùn)練方法,賦予VLM骨干網(wǎng)絡(luò)預(yù)測2D熱力圖的能力。大量實(shí)驗(yàn)表明,所提出的方法能夠高效學(xué)習(xí)3D操作技能。BridgeVLA在多個基準(zhǔn)測試中超越了現(xiàn)有的最先進(jìn)的基線方法。在RLBench中,它的成功率顯著提高(88.2% vs. 81.4%)。在COLOSSEUM中,它在泛化場景中表現(xiàn)出更好的性能(64.0% vs. 56.7%)。在GemBench中,它是唯一在所有四個評估設(shè)置中達(dá)到50%平均成功率的方法。在實(shí)際機(jī)器人實(shí)驗(yàn)中,BridgeVLA平均比最先進(jìn)的基線方法提高了32%,并且能夠在多個分布外設(shè)置中進(jìn)行魯棒的泛化,包括視覺干擾和未見過的語言指令。值得注意的是,在總共10多項(xiàng)任務(wù)中,BirdgeVLA能夠針對每項(xiàng)任務(wù)僅用3個軌跡就能達(dá)到96.8%的成功率,顯示出其卓越的樣本效率。

BridgeVLA的網(wǎng)絡(luò)結(jié)構(gòu)示意圖
09.?DriveDPO:一種基于安全直接偏好優(yōu)化的端到端自動駕駛策略學(xué)習(xí)方法
DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving
作者:尚書堯,陳韞韜,王宇琪,李穎彥,張兆翔
端到端自動駕駛近年來取得了顯著進(jìn)展,其核心思路是直接從原始感知輸入中預(yù)測未來軌跡,從而繞過傳統(tǒng)的模塊化處理流程。然而,主流基于模仿學(xué)習(xí)的方法存在嚴(yán)重的安全隱患:它們難以區(qū)分那些“看似接近人類軌跡”但實(shí)際上存在潛在風(fēng)險的軌跡。部分最新研究嘗試通過回歸多種基于規(guī)則的安全評分來緩解這一問題,但由于監(jiān)督信號與策略優(yōu)化相互割裂,最終導(dǎo)致性能不足。
為解決上述挑戰(zhàn),我們提出DriveDPO,一種基于安全直接偏好優(yōu)化的策略學(xué)習(xí)框架。首先,我們將人類駕駛的相似度與基于規(guī)則的安全評分相融合,蒸餾為統(tǒng)一的策略分布,以實(shí)現(xiàn)預(yù)訓(xùn)練階段的策略優(yōu)化。接著,我們引入了一個迭代式的直接偏好優(yōu)化(iterative DPO)階段,將其形式化為軌跡級的偏好對齊過程。在NAVSIM基準(zhǔn)上的大量實(shí)驗(yàn)證明,DriveDPO 取得了新的最先進(jìn)成績。此外,在多種復(fù)雜場景下的定性結(jié)果進(jìn)一步表明DriveDPO 能夠生成更加安全且可靠的駕駛行為。通過有效抑制不安全行為,我們的方法展現(xiàn)了在安全關(guān)鍵型端到端自動駕駛應(yīng)用中的巨大潛力。

DriveDPO 策略學(xué)習(xí)框架的整體流程
10.?TC-Light: 時序一致的生成式視頻重渲染器
TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer
作者:劉洋,羅傳琛,湯子墨,李穎彥,楊雨然,寧遠(yuǎn)勇,范略,張兆翔,彭君然
光照和紋理編輯是世界到世界遷移的關(guān)鍵維度,這對于包括模擬到真實(shí)和真實(shí)到真實(shí)視覺數(shù)據(jù)的擴(kuò)展以支持具身人工智能的應(yīng)用來說具有重要價值。現(xiàn)有的技術(shù)通過生成式重新渲染輸入視頻來實(shí)現(xiàn)遷移,例如視頻重新光照模型和條件世界生成模型。然而,這些模型主要局限于訓(xùn)練數(shù)據(jù)的領(lǐng)域(例如肖像),或者陷入時間一致性和計算效率的瓶頸,尤其是在輸入視頻涉及復(fù)雜動態(tài)和長時間的情況下。
在本文中,我們提出了 TC-Light,這是一種新穎的生成式渲染器,旨在克服這些問題。它從一個由膨脹的視頻重新光照模型初步重新光照的視頻開始,在第一階段優(yōu)化外觀嵌入以對齊全局光照。然后在第二階段優(yōu)化所提出的規(guī)范視頻表示,即獨(dú)特視頻張量(UVT),以對齊細(xì)粒度的紋理和光照。為了全面評估性能,我們還建立了一個長且高度動態(tài)的視頻基準(zhǔn)。大量實(shí)驗(yàn)表明,我們的方法能夠?qū)崿F(xiàn)物理上合理的重新渲染結(jié)果,具有出色的時序連貫性和較低的計算成本。

?TC-Light算法效果示意圖
11.?可塑性的學(xué)習(xí):脈沖神經(jīng)網(wǎng)絡(luò)中的可塑性驅(qū)動學(xué)習(xí)框架
Learning the Plasticity: Plasticity-Driven Learning Framework in Spiking Neural Networks
作者:申國斌, 趙東城, 董一廷, 李楊, 趙菲菲, 曾毅
本研究提出了一種創(chuàng)新性的脈沖神經(jīng)網(wǎng)絡(luò)(SNN)學(xué)習(xí)框架,即可塑性驅(qū)動學(xué)習(xí)范式(Plasticity-Driven Learning Framework, PDLF)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)主要關(guān)注直接訓(xùn)練突觸權(quán)重,導(dǎo)致連接靜態(tài)且在動態(tài)環(huán)境中適應(yīng)性有限。相比之下,PDLF將重點(diǎn)轉(zhuǎn)向?qū)W習(xí)可塑性規(guī)則本身,而非簡單的權(quán)重調(diào)整。
該框架由兩個核心組件構(gòu)成:突觸協(xié)作可塑性(SCP)和前突觸依賴可塑性(PDP)。SCP通過考慮前后突觸神經(jīng)元活動動態(tài)調(diào)整突觸強(qiáng)度,PDP基于前突觸活動調(diào)整并引入偏置以保持穩(wěn)定性。通過演化策略優(yōu)化這些可塑性參數(shù),網(wǎng)絡(luò)能夠形成獨(dú)特且適應(yīng)性強(qiáng)的可塑性規(guī)則。
實(shí)驗(yàn)結(jié)果表明,PDLF顯著增強(qiáng)了SNN的工作記憶容量、多任務(wù)學(xué)習(xí)能力和泛化性能。在工作記憶任務(wù)中,PDLF使網(wǎng)絡(luò)能夠?qū)⒂洃浿苯泳幋a到突觸權(quán)重中,無需依賴神經(jīng)元活動維持記憶。在多任務(wù)強(qiáng)化學(xué)習(xí)中,PDLF展現(xiàn)出卓越的適應(yīng)性,能夠處理不同甚至相互沖突的任務(wù)。該框架還表現(xiàn)出強(qiáng)大的魯棒性,能夠從臨時性神經(jīng)損傷中恢復(fù),并在永久性損傷情況下保持良好性能。

圖1.PDLF框架示意圖

?圖2.工作記憶實(shí)驗(yàn)設(shè)計及PDLF對工作記憶的影響
12.?跬步:一個面向Spiking Transformer的統(tǒng)一基準(zhǔn)框架
STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking
作者:沈思成,趙東城,馮令昊,岳澤陽,李金東,李騰龍,申國斌,曾毅
隨著類腦智能的快速發(fā)展,脈沖神經(jīng)網(wǎng)絡(luò)憑借其稀疏性與事件驅(qū)動特性展現(xiàn)出突出的高能效優(yōu)勢。近年來,研究者提出了一系列Spiking Transformer模型。然而,該領(lǐng)域目前仍缺乏統(tǒng)一的實(shí)現(xiàn)與評測平臺,導(dǎo)致實(shí)驗(yàn)結(jié)果難以復(fù)現(xiàn),不同模型間的比較亦缺乏公平性。
為此,本文提出跬步(STEP,Spiking Transformer Evaluation Platform),一個面向Spiking Transformer 的統(tǒng)一基準(zhǔn)框架。STEP支持分類、分割與檢測等多類視覺任務(wù),覆蓋靜態(tài)圖像、事件驅(qū)動數(shù)據(jù)與序列數(shù)據(jù)集。平臺采用模塊化設(shè)計,使研究者能夠靈活替換神經(jīng)元模型、編碼方式與注意力機(jī)制,并提供一致的訓(xùn)練流程。在CIFAR、ImageNet、ADE20K與COCO等數(shù)據(jù)集上的系統(tǒng)復(fù)現(xiàn)與消融實(shí)驗(yàn)表明,現(xiàn)有Spiking Transformer在很大程度上依賴卷積前端,而注意力機(jī)制貢獻(xiàn)有限;同時,實(shí)驗(yàn)結(jié)果進(jìn)一步凸顯了神經(jīng)元模型與編碼策略對模型性能的顯著影響。與此同時,我們提出統(tǒng)一的能耗分析框架,考慮了之前的框架都沒有考慮的訪存開銷,并發(fā)現(xiàn)在此度量下,量化ANN在部分場景中甚至展現(xiàn)出優(yōu)于脈沖模型的能效表現(xiàn)。綜上,STEP的發(fā)布不僅為該領(lǐng)域建立了公平、可復(fù)現(xiàn)的評測基線,也為未來探索真正的脈沖原生架構(gòu)奠定了堅(jiān)實(shí)基礎(chǔ)。

圖1. Spiking Transformer基本結(jié)構(gòu)示意圖

圖2. STEP 框架總覽
13.?SOLIDGEO:立體幾何中的多模態(tài)空間數(shù)學(xué)推理能力評估
SOLIDGEO: Measuring Multimodal Spatial Math Reasoning in Solid Geometry
作者:王培杰,楊超,李忠志,殷飛,冉德康,田密,冀志龍,白錦峰,劉成林
幾何是數(shù)學(xué)的一個基礎(chǔ)分支,在評估多模態(tài)大語言模型 (MLLM) 的推理能力方面發(fā)揮著至關(guān)重要的作用。然而,現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測試主要側(cè)重于平面幾何,基本上都忽略了立體幾何。立體幾何需要空間推理能力,比平面幾何更具挑戰(zhàn)性。
為了彌補(bǔ)這一關(guān)鍵缺陷,我們推出了SOLIDGEO,這是首個專門用于評估 MLLM立體幾何數(shù)學(xué)推理能力的大規(guī)模基準(zhǔn)測試。SOLIDGEO包含3,113 個現(xiàn)實(shí)世界的 K-12 和競賽級問題,每個問題都配有視覺上下文,并標(biāo)注了難度級別和細(xì)粒度的立體幾何類別。我們的基準(zhǔn)測試涵蓋了投影、展開、空間測量和空間矢量等廣泛的空間推理主題,為評估立體幾何提供了嚴(yán)格的測試平臺。通過大量的實(shí)驗(yàn),我們觀察到 MLLM 在立體幾何數(shù)學(xué)任務(wù)中面臨著巨大的挑戰(zhàn),其在SOLIDGEO上的性能與人類能力存在顯著差距。此外,我們分析了各種模型的性能、推理效率和錯誤模式,從而更深入地揭示了MLLM的立體幾何數(shù)學(xué)推理能力。我們希望 SOLIDGEO能夠推動MLLM邁向更深層次的幾何推理和空間智能。

圖1.左圖為6個MLLM在SOLIDGEO基準(zhǔn)上8個立體幾何主題的表現(xiàn);右圖為25個 MLLM 的準(zhǔn)確率與平均生成長度

圖2. SOLIDGEO關(guān)鍵統(tǒng)計數(shù)據(jù)與分布
14.?學(xué)習(xí)何時思考:多階段強(qiáng)化學(xué)習(xí)賦能R1風(fēng)格大語言模型自適應(yīng)推理
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL
作者:凃崧峻,林佳豪,張啟超,田翔宇,李林靜,藍(lán)湘源,趙冬斌
近年來,推理大模型在數(shù)學(xué)、邏輯等復(fù)雜任務(wù)中展現(xiàn)出卓越的推理能力。典型的推理模型通過 <think> </think>結(jié)構(gòu)生成顯式推理鏈條,有助于提升準(zhǔn)確率與可驗(yàn)證性。 然而,這類模型往往在簡單問題上也進(jìn)行冗長推理,造成過度思考,帶來額外計算開銷。
針對這一挑戰(zhàn),本文提出了AutoThink框架,通過將省略號提示(ellipsis prompt)與多階段強(qiáng)化學(xué)習(xí)(multi-stage RL)相結(jié)合,實(shí)現(xiàn)了自主思考。其中,省略號提示是一種極簡的提示改動,只需在 <think> 標(biāo)簽后加入“...”,即可觸發(fā)模型在“思考模式”與“非思考模式”間隨機(jī)切換。基于這一潛在可控性,進(jìn)一步設(shè)計了三階段強(qiáng)化學(xué)習(xí)過程:第一階段防止模式坍塌,第二階段強(qiáng)化正確推理,第三階段利用長度感知獎勵剪枝冗余步驟。實(shí)驗(yàn)證明,AutoThink能夠根據(jù)任務(wù)難度動態(tài)調(diào)節(jié)推理深度,在五個數(shù)學(xué)基準(zhǔn)上實(shí)現(xiàn)了準(zhǔn)確率提升與推理開銷顯著下降(如在DeepSeek-R1-Distill-Qwen-1.5B上準(zhǔn)確率提高 6.4%,token使用減少 52%),同時在GPQA、MML等非數(shù)學(xué)任務(wù)中也表現(xiàn)出良好的遷移性,建立了一種兼顧效率與性能的自適應(yīng)推理新范式。

左側(cè): 標(biāo)準(zhǔn)提示與省略號提示下的準(zhǔn)確率和 Token 使用量; 右側(cè): 按難度劃分的無思考行為比例
15.?均衡策略泛化:一種實(shí)現(xiàn)追逃博弈策略跨圖零樣本泛化的強(qiáng)化學(xué)習(xí)框架
Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games
作者:陸潤宇,張鵬,石若川,朱圓恒,趙冬斌,劉洋,王棟,Cesare Alippi
追逃博弈(PEG)作為機(jī)器人與安防領(lǐng)域典型的現(xiàn)實(shí)博弈問題,其精確求解需要指數(shù)級時間。當(dāng)博弈底層圖結(jié)構(gòu)發(fā)生變化時,即便最先進(jìn)的強(qiáng)化學(xué)習(xí)方法也需要微調(diào)而不能保證實(shí)時性。本文提出一種均衡策略泛化(EPG)框架,旨在學(xué)習(xí)具有跨圖零樣本性能的通用實(shí)時博弈策略。EPG框架同時適用于PEG問題的追捕者與逃逸者雙方,且兼容無出口與多出口兩種情形,是領(lǐng)域內(nèi)首次實(shí)現(xiàn)跨圖博弈策略泛化的一般方法。
EPG框架的核心思想是在不同圖結(jié)構(gòu)下對抗各自的均衡對手策略進(jìn)行強(qiáng)化學(xué)習(xí),得到魯棒的圖網(wǎng)絡(luò)泛化策略。本文首先設(shè)計了一種理論高效的動態(tài)規(guī)劃算法作為均衡策略的生成器;為提升對追捕者數(shù)量的可擴(kuò)展性,提出了分組機(jī)制與序貫?zāi)P鸵詫?shí)現(xiàn)聯(lián)合策略分解。實(shí)驗(yàn)表明,結(jié)合一種均衡引導(dǎo)機(jī)制以及適配跨圖追逃策略訓(xùn)練的距離特征,EPG方法能在多種現(xiàn)實(shí)圖結(jié)構(gòu)下得到理想的零樣本性能。對于多出口的追逃博弈,本文零樣本泛化的實(shí)時追捕策略甚至能夠達(dá)到或超越當(dāng)前最優(yōu)方法的微調(diào)策略性能。

圖1.均衡策略泛化(EPG)框架的強(qiáng)化學(xué)習(xí)訓(xùn)練過程

圖2.多出口追捕場景下EPG方法的零樣本性能與已有方法的微調(diào)性能對比
16.基于專家混合世界模型的多智能體多任務(wù)學(xué)習(xí)與規(guī)劃
Learning and Planning Multi-Agent Tasks via a MoE-based World Model
作者:趙子杰,趙中岳,徐凱旋,傅宇千,柴嘉駿,朱圓恒,趙冬斌
多任務(wù)多智能體強(qiáng)化學(xué)習(xí)的目標(biāo)是訓(xùn)練一個統(tǒng)一模型來完成多種任務(wù)。然而,不同任務(wù)的最優(yōu)策略之間顯著差異,導(dǎo)致單一模型難以勝任。本文發(fā)現(xiàn),任務(wù)間在動力學(xué)層面往往存在“有界相似性”。例如開門與關(guān)門任務(wù)的最優(yōu)策略截然相反,卻具有高度相似的動力學(xué)。
基于這一觀察,本文提出了一種新的框架M3W(Mixture-of-Experts based Multi-task Multi-Agent World Model)。M3W首次將專家混合結(jié)構(gòu)引入世界模型,而非策略網(wǎng)絡(luò)。具體而言,框架通過SoftMoE建模多智能體動力學(xué),并利用SparseMoE預(yù)測獎勵,從而在相似任務(wù)間實(shí)現(xiàn)知識共享,同時隔離不相似任務(wù),避免梯度沖突。在規(guī)劃階段,M3W直接基于世界模型生成的虛擬軌跡進(jìn)行評估與優(yōu)化,跳過顯式策略網(wǎng)絡(luò),從根本上克服了策略中心方法的局限。通過在Bi-DexHands和MA-Mujoco兩大基準(zhǔn)上的實(shí)驗(yàn)驗(yàn)證了M3W的有效性,結(jié)果顯示其在性能、樣本效率與任務(wù)適應(yīng)性方面均顯著優(yōu)于現(xiàn)有方法。本文不僅提升了多任務(wù)學(xué)習(xí)的可解釋性,還展示了模塊化世界模型在多智能體合作中的潛力。

圖1.M3W的整體框架(左側(cè))和性能對比(右側(cè))

圖2.基于SoftMoE的動力學(xué)預(yù)測器(左側(cè))和基于SparseMoE的獎勵預(yù)測器(右側(cè))
17.?視頻是采樣高效的監(jiān)督器:基于隱表示學(xué)習(xí)視頻的行為克隆
Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations
作者:劉鑫,李浩然,趙冬斌
人類僅需少量試錯就能從演示視頻中提取知識并學(xué)習(xí)技能。然而,要讓智能體復(fù)現(xiàn)這一高效的學(xué)習(xí)過程卻面臨巨大挑戰(zhàn),這源于視覺輸入的復(fù)雜性、動作與獎勵信號的缺失,以及受限的環(huán)境交互次數(shù)。
本文提出了一種兩階段的、無監(jiān)督且樣本高效的視頻模仿學(xué)習(xí)框架,BCV-LR。離線階段,BCV-LR從高維視頻輸入中提取與動作相關(guān)的自監(jiān)督隱特征,隨后優(yōu)化基于動力學(xué)的無監(jiān)督目標(biāo),預(yù)測連續(xù)幀之間的隱動作。在線階段,通過收集真實(shí)交互數(shù)據(jù),將隱動作對齊到真實(shí)動作空間,從而作為標(biāo)簽以支持行為克隆。克隆的策略會豐富交互數(shù)據(jù),以進(jìn)一步微調(diào)對齊視頻隱動作,形成迭代式的高效策略提升。在包括離散與連續(xù)控制在內(nèi)的一系列復(fù)雜視覺任務(wù)上的實(shí)驗(yàn)結(jié)果表明,BCV-LR 僅需少量交互就能實(shí)現(xiàn)有效的策略模仿,甚至在部分任務(wù)中達(dá)到專家水平。具體地,在24/28項(xiàng)任務(wù)中,BCV-LR的樣本效率超過了當(dāng)前最先進(jìn)的視頻模仿學(xué)習(xí)基線以及視覺強(qiáng)化學(xué)習(xí)方法。本文表明:無需依賴任何其他專家監(jiān)督,僅通過視頻即可實(shí)現(xiàn)高效視覺策略學(xué)習(xí)。

BCV-LR方法框架。左半部分為離線預(yù)訓(xùn)練階段,右半部分為在線微調(diào)階段
18.?DRT-M3D:非增強(qiáng)胸部 CT 上的雙側(cè)乳腺病變檢測與分類
Dual-Res Tandem Mamba-3D: Bilateral Breast Lesion Detection and Classification on Non-contrast Chest CT
作者:周嘉恒,方偉,謝魯源,周巖峰,徐瀲滟,許敏豐,楊戈,唐禹行
乳腺癌是全球女性疾病死亡的主要原因之一,早期篩查對于提高生存率至關(guān)重要。非增強(qiáng)胸部計算機(jī)斷層掃描(NCCT)在臨床常規(guī)檢查中應(yīng)用廣泛,且常常包含乳腺區(qū)的影像,這為在不額外增加檢查成本和輻射暴露的前提下,實(shí)現(xiàn)乳腺病變的機(jī)會性篩查提供了新的可能。然而乳腺病變在NCCT影像中的特征并不明顯,并且如何在NCCT影像中同時實(shí)現(xiàn)高質(zhì)量的病灶檢測與癌癥分類,也是現(xiàn)有方法面臨的重要技術(shù)挑戰(zhàn)。
針對上述問題,本研究提出了一種創(chuàng)新性的多任務(wù)模型框架Dual-Res Tandem Mamba-3D(DRT-M3D)。通過將乳腺病灶分割與癌癥分類兩項(xiàng)任務(wù)分解到不同分辨率的子通路中,DRT-M3D實(shí)現(xiàn)了分割與分類任務(wù)間的互補(bǔ)學(xué)習(xí);同時通過雙側(cè)乳腺的串聯(lián)輸入,模型能夠聯(lián)合建模并比較兩側(cè)乳腺的影像特征,從而提升病變檢出能力與分類準(zhǔn)確性。在多中心NCCT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,DRT-M3D在各項(xiàng)任務(wù)上均顯著優(yōu)于現(xiàn)有方法,具有良好的泛化性與魯棒性,充分展示了其在機(jī)會性乳腺癌分析方面的應(yīng)用潛力。

圖1.本研究提出的機(jī)會性乳腺癌雙側(cè)分析方法的整體流程

圖2.雙分辨率串聯(lián)Mamba-3D塊結(jié)構(gòu)
19.?KTAE:數(shù)學(xué)推理中關(guān)鍵token優(yōu)勢估計的無模型算法
KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning
作者:孫為,楊文,簡璞,杜倩龍,崔福偉,任爍,張家俊
近年來的研究表明,將強(qiáng)化學(xué)習(xí)與基于規(guī)則的獎勵相結(jié)合,即使在沒有監(jiān)督微調(diào)(SFT)的情況下,也能顯著提升大語言模型(LLMs)的推理能力。然而,現(xiàn)有的強(qiáng)化學(xué)習(xí)算法,如 GRPO 及其變體 DAPO,在計算優(yōu)勢函數(shù)時存在粒度過粗的問題。具體而言,它們采用基于整段生成的優(yōu)勢估計方式,使得序列中的每個 token 被賦予相同的優(yōu)勢值,從而無法刻畫各個 token 對最終結(jié)果的具體貢獻(xiàn)。
為解決這一局限,我們提出了一種新算法——關(guān)鍵 Token 優(yōu)勢估計(KTAE, Key-token Advantage Estimation)。該方法無需額外引入模型,就能夠?qū)崿F(xiàn)更細(xì)粒度的 token 級優(yōu)勢估計。KTAE 基于采樣生成的正確性,并通過統(tǒng)計分析量化序列中各個 token 對最終結(jié)果的重要性。隨后,將這一 token 級的重要性與 rollout 級優(yōu)勢相結(jié)合,從而得到更精細(xì)化的 token 級優(yōu)勢估計。
實(shí)驗(yàn)結(jié)果表明,采用 GRPO+KTAE 與 DAPO+KTAE 訓(xùn)練的模型在五個數(shù)學(xué)推理基準(zhǔn)測試中均優(yōu)于現(xiàn)有基線方法。值得注意的是,這些模型不僅在準(zhǔn)確率上更高,而且生成的回答更簡潔,甚至在使用相同基座模型的條件下,超越了 R1-Distill-Qwen-1.5B。

圖1. KTAE 是一種即插即用的方法,無需引入任何額外的模型。它為現(xiàn)有的強(qiáng)化學(xué)習(xí)算法(例如 GRPO 及其變體)提供token級的優(yōu)勢估計。“GRPO+KTAE”和“DAPO+KTAE”分別表示 GRPO 和 DAPO 與 KTAE 的組合,兩者均基于 Qwen2.5-Math-7B 模型進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。

圖2. KTAE 算法概要。該算法根據(jù)采樣 rollout 的正確性構(gòu)建一個列聯(lián)表,然后計算 token 級優(yōu)勢并將其添加到 GRPO 的 rollout 級優(yōu)勢中。
20.?SynCL:一種實(shí)例可感知對比學(xué)習(xí)增強(qiáng)的面向端到端環(huán)視三維物體跟蹤的協(xié)同訓(xùn)練框架
SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking
作者:林述波,寇宇同,吳子蕤,王紹儒,李兵,胡衛(wèi)明,高晉
現(xiàn)有的端到端環(huán)視三維物體跟蹤算法通過實(shí)例查詢的時序傳播整合了檢測和跟蹤,但這樣的聯(lián)合訓(xùn)練存在優(yōu)化困難。我們發(fā)現(xiàn)這些困難源于自注意力機(jī)制的兩個固有限制,即對象查詢的過度去重和軌跡查詢的自我關(guān)注。相反,移除自注意力機(jī)制不僅對跟蹤算法的回歸預(yù)測影響較小,模型還傾向于生成更多潛在候選框。
為此,本文提出了SynCL,一種協(xié)同訓(xùn)練框架來促進(jìn)多任務(wù)學(xué)習(xí)。具體而言,我們構(gòu)建了一個基于Cross-attention的平行解碼器并引入了混合匹配模塊,該模塊將軌跡查詢的真值目標(biāo)與多個對象查詢匹配,從而挖掘被自注意力機(jī)制忽視的高質(zhì)量預(yù)測候選。為了尋找上述一對多匹配中的最優(yōu)候選,我們還設(shè)計了一種由模型訓(xùn)練狀態(tài)控制的動態(tài)查詢過濾模塊。此外,我們引入了實(shí)例可感知對比學(xué)習(xí),以突破軌跡查詢的自我關(guān)注障礙,有效地增強(qiáng)了檢測和跟蹤之間的協(xié)同優(yōu)化。在不增加額外推理成本的情況下,SynCL在各種基準(zhǔn)測試中獲得了一致性提升,并在nuScenes數(shù)據(jù)集上達(dá)到了先進(jìn)性能。

SynCL的方法流程示意圖
21.?任務(wù)復(fù)雜度驅(qū)動的視覺-語言模型函數(shù)化剪枝策略
Each Complexity Deserves a Pruning Policy
作者:王漢石,徐宇豪,徐澤坤,高晉,劉雨帆,胡衛(wèi)明,王珂、張志鵬
視覺-語言模型在推理過程中往往面臨巨大的計算資源開銷,主要原因在于用于表達(dá)視覺信息的大量視覺輸入 token。已有研究表明,相較于文本 token,視覺 token 在推理階段通常獲得更低的注意力權(quán)重,反映出其在整體推理中的相對重要性較低,從而具備顯著的剪枝潛力。此外,隨著解碼過程的逐步推進(jìn),文本 token 會逐漸整合來自視覺的關(guān)鍵信息,這為視覺 token 的分層剪枝提供了可能性,即從淺層到深層逐步降低保留的視覺 token 數(shù)量。
在此背景下,我們提出利用函數(shù)化策略對各層保留的視覺 token 數(shù)量進(jìn)行建模。然而,由于不同任務(wù)在視覺信息向文本 token 聚合的效率上存在差異,因此采用任務(wù)自適應(yīng)的剪枝函數(shù)顯得尤為關(guān)鍵。具體而言,對于視覺與語言對應(yīng)關(guān)系較弱的任務(wù),建議在前期保留更多視覺 token,以提供更大的選擇空間;而對于語義對應(yīng)性較強(qiáng)的任務(wù),則可在早期進(jìn)行更激進(jìn)的剪枝,從而為后期推理保留更多計算資源和表達(dá)能力。我們在多種下游任務(wù)與數(shù)據(jù)集上驗(yàn)證了方法 包括 OCR 與 VLA 并取得優(yōu)越性能。

圖1.對于不同問題的視覺與文本特征交互模式

圖2. TextVQA 數(shù)據(jù)集上的token保留曲線
22.?基于跨幀實(shí)例跟蹤融合策略的在線三維物體分割
Online Segment Any 3D Thing as Instance Tracking
作者:王漢石,蔡子健,高晉,張一偉,胡衛(wèi)明,王珂,張志鵬
具身任務(wù)要求智能體在探索環(huán)境的同時,具備對三維場景的全面理解能力,因此亟需一種具備在線性、實(shí)時性、精細(xì)性與強(qiáng)泛化能力的 3D 感知模型。然而,由于高質(zhì)量 3D 數(shù)據(jù)的稀缺,直接在三維空間中訓(xùn)練此類模型面臨顯著挑戰(zhàn),難以實(shí)際可行。現(xiàn)有方法通常采用 SAM生成二維掩碼,再基于 mask queries 進(jìn)行細(xì)化,最終得到三維分割結(jié)果。在融合階段,這些方法大多依賴手工設(shè)計的策略,如啟發(fā)式規(guī)則或固定參數(shù)設(shè)置。然而,此類方法存在泛化能力不足、參數(shù)敏感性高等問題,并且限制了對歷史幀中目標(biāo)信息的充分利用,影響整體性能。
為克服上述限制,我們摒棄了基于手工設(shè)計的融合機(jī)制,提出一種基于學(xué)習(xí)的跨幀融合策略,以實(shí)現(xiàn)不同時間幀之間目標(biāo)信息的動態(tài)交互與聚合。此外,針對 SAM 常見的過分割問題,我們引入了學(xué)習(xí)驅(qū)動的聚合模塊,以更有效地合并冗余片段并恢復(fù)目標(biāo)的完整結(jié)構(gòu),從而進(jìn)一步提升模型的分割性能和泛化能力。

圖1.與 ESAM的對比。我們引入兩個額外模塊 STM 與 LTM。STM 融合上一幀的實(shí)例特征;LTM 維護(hù)長期歷史信息。

圖2. ScanNet200 數(shù)據(jù)集上的分割結(jié)果可視化
23.?基于互信息的脈沖時序冗余特征量化與去除
MI-TRQR: Mutual Information-Based Temporal Redundancy Quantification and Reduction for Energy-Efficient Spiking Neural Networks
作者:薛登峰,李文娟,盧一帆,原春鋒,劉雨帆,劉偉,姚滿,楊力,李國齊,李兵,Stephen Maybank,胡衛(wèi)明,李哲濤
SNN 雖具有事件驅(qū)動的低能耗特性,但其在時序上共享權(quán)重會產(chǎn)生大量的冗余特征,在處理靜態(tài)圖像時尤為嚴(yán)重,這極大限制了其效率與性能。本文提出的MI-TRQR(結(jié)構(gòu)見圖1)利用互信息(MI)從局部像素級和全局特征級兩個尺度量化時序特征冗余,并基于該量化結(jié)果采用概率掩碼策略去除冗余脈沖,最后通過權(quán)重再校準(zhǔn)機(jī)制平衡信息分布,從而提升特征緊湊性。
實(shí)驗(yàn)表明, MI-TRQR 可提升脈沖神經(jīng)網(wǎng)絡(luò)在神經(jīng)形態(tài)數(shù)據(jù)分類、靜態(tài)圖像分類和時間序列預(yù)測等多種任務(wù)中的性能,且能大幅降低時序特征冗余,促使其進(jìn)一步稀疏化。該研究首次將互信息引入SNN特征冗余量化中,為構(gòu)建更高效、更緊湊的脈沖神經(jīng)網(wǎng)絡(luò)提供了新思路。

MI-TRQR 模塊結(jié)構(gòu)示意圖
24.?停止求和:最小形式的信用分配是過程獎勵模型的全部所需
Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning
作者:程杰,喬汭熙,李力駿,郭超,王軍樂,熊剛,呂宜生,王飛躍
過程獎勵模型(PRM)已被證實(shí)能有效提升大型語言模型在推理任務(wù)中的測試階段擴(kuò)展性。然而,PRM引發(fā)的獎勵破解(reward hacking)問題阻礙了強(qiáng)化學(xué)習(xí)微調(diào)的成功應(yīng)用。
本研究中,我們發(fā)現(xiàn)PRM導(dǎo)致獎勵破解的主要原因在于:強(qiáng)化學(xué)習(xí)中典型的求和形式信用分配機(jī)制會誘使大型語言模型破解高獎勵步驟。為在訓(xùn)練階段釋放PRM潛力,我們提出PURE(過程監(jiān)督強(qiáng)化學(xué)習(xí))方法。其核心在于采用最小形式信用分配,將價值函數(shù)定義為最小未來獎勵。該方法統(tǒng)一了測試與訓(xùn)練階段對過程獎勵的優(yōu)化目標(biāo),通過限制價值函數(shù)取值范圍及更合理的優(yōu)勢分配機(jī)制,顯著緩解了獎勵破解問題。通過在多個基礎(chǔ)模型上的實(shí)驗(yàn),我們發(fā)現(xiàn)啟用最小形式信用分配時,基于PRM的方法實(shí)現(xiàn)與RLVR相當(dāng)?shù)耐评硇阅埽夯赒wen2.5-Math-7B模型微調(diào)在AMC23競賽中達(dá)到82.5%的準(zhǔn)確率,并在5個基準(zhǔn)測試中實(shí)現(xiàn)53.3%的平均準(zhǔn)確率。而經(jīng)典的求和形式信用分配甚至在訓(xùn)練初期就導(dǎo)致訓(xùn)練崩潰。此外,我們總結(jié)了訓(xùn)練過程中遇到的獎勵破解案例,并分析了訓(xùn)練崩潰的根源。

求和形式與最小形式信用分配的比較。推理過程 (rollout) 中錯誤的步驟以紅色標(biāo)出,PRM合理地為這些步驟分配了負(fù)分。箭頭指示采樣概率的變化,變化幅度較大的部分標(biāo)注為帶輪廓的箭頭。求和形式信用分配導(dǎo)致破解高獎勵步驟,而最小形式信用分配給出了更合理的采樣概率變化幅度和方向。

25.?基于強(qiáng)化學(xué)習(xí)的GUI操作前診斷模型與推理引導(dǎo)的數(shù)據(jù)采集鏈路
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation
作者:完顏宇洋,張熙,徐海洋,劉昊偉,王君陽,葉加博,寇宇同,嚴(yán)明,黃非,楊小汕,董未名,徐常勝
近年來,多模態(tài)大語言模型(MLLMs)在多模態(tài)推理任務(wù)中得到廣泛應(yīng)用,包括圖形用戶界面(GUI)自動化。與常規(guī)離線多模態(tài)任務(wù)不同,GUI自動化在在線交互環(huán)境中執(zhí)行,需要根據(jù)環(huán)境的實(shí)時狀態(tài)逐步進(jìn)行決策。該任務(wù)對每一步的決策錯誤具有極低的容錯率,任何失誤可能累積性地破壞流程,并可能導(dǎo)致刪除或支付等不可逆的結(jié)果。
為解決這些問題,我們引入了一種操作前反思機(jī)制,通過推理潛在結(jié)果和行為正確性,在實(shí)際執(zhí)行前提供有效反饋。具體而言,我們提出了一種建議感知群組相對策略優(yōu)化(S-GRPO)策略,以構(gòu)建預(yù)操作評判模型GUI-Critic-R1,并整合了新穎的建議獎勵機(jī)制,以增強(qiáng)模型反饋的可靠性。此外,我們開發(fā)了一個基于推理引導(dǎo)的數(shù)據(jù)采集鏈路,創(chuàng)建了訓(xùn)練集和測試集,填補(bǔ)了現(xiàn)有GUI評判數(shù)據(jù)的空白。在移動端和網(wǎng)頁端跨域的GUI-Critic-Test靜態(tài)實(shí)驗(yàn)中,我們的GUI-Critic-R1在評判準(zhǔn)確性方面展現(xiàn)出顯著優(yōu)勢。在GUI自動化基準(zhǔn)測試的動態(tài)評估中,我們的模型通過提高成功率和操作效率,進(jìn)一步凸顯了其有效性和卓越性。

圖1. (a)顯示了GUI自動化的一個示例。(b-c)中的案例研究演示了操作前反思機(jī)制如何防止GUI自動化中的錯誤和冗余操作。(d)說明了在AndroidWorld數(shù)據(jù)集上操作前反思方法與基線之間的定量性能比較。

圖2. 左側(cè)顯示了基于推理引導(dǎo)的數(shù)據(jù)收集鏈路,包括GUI操作收集和GUI操作分析數(shù)據(jù)生成。漸進(jìn)CoT范式和推理引導(dǎo)策略確保了推理數(shù)據(jù)的質(zhì)量。右圖說明了GUI-Critic-R1模型的訓(xùn)練策略。該過程首先在訓(xùn)練集上進(jìn)行RFT冷啟動,然后實(shí)施我們提出的S-GRPO。此外,采用新穎的建議獎勵來約束建議的正確性。
26.?LiveStar:針對真實(shí)世界在線視頻理解的流式視頻助手
LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
作者:楊振宇,張凱瑞,胡宇航,王兵,錢勝勝,文彬,楊帆,高婷婷,董未名,徐常勝
盡管用于離線視頻理解的視頻大語言模型(Video-LLMs)取得了重大進(jìn)展,但現(xiàn)有的在線視頻大語言模型通常很難同時處理連續(xù)的逐幀輸入并確定最佳響應(yīng)時間,這往往會影響實(shí)時響應(yīng)能力和敘事連貫性。
為了解決這些局限性,我們推出了 LiveStar,這是一款開創(chuàng)性的直播流媒體助手,通過自適應(yīng)流媒體解碼實(shí)現(xiàn)始終在線的主動響應(yīng)。具體來說,LiveStar 包含:(1) 針對可變長度視頻流的增量視頻-語言對齊訓(xùn)練策略,在動態(tài)變化的幀序列中保持時間一致性;(2) 響應(yīng)-靜默解碼框架,通過單次前向傳遞驗(yàn)證確定最佳主動響應(yīng)時間;(3) 通過峰終(Peak-End)內(nèi)存壓縮實(shí)現(xiàn)內(nèi)存感知加速,用于 10 分鐘以上視頻的在線推理,結(jié)合流式鍵值緩存(KV Cache)實(shí)現(xiàn) 1.53 倍的推理速度。我們還構(gòu)建了一個 OmniStar 數(shù)據(jù)集,這是一個用于訓(xùn)練和基準(zhǔn)測試的綜合數(shù)據(jù)集,包含 15 種不同的真實(shí)世界場景和 5 個在線視頻理解的評估任務(wù)。三個基準(zhǔn)的廣泛實(shí)驗(yàn)證明了 LiveStar 的一流性能,與現(xiàn)有的在線視頻-LLM 相比,語義正確性平均提高了 19.5%,時差減少了 18.1%,同時在所有基準(zhǔn)中,F(xiàn)PS 提高了 12.0%。

圖1. 在線視頻理解示例。(a) 以流式敘事任務(wù)為例,在線視頻理解需要Video-LLMs 處理連續(xù)流并在適當(dāng)?shù)臅r間輸出;(b) 現(xiàn)有方法過度依賴于學(xué)習(xí) EOS 標(biāo)記,導(dǎo)致推理性能低下;(c)-(e) LiveStar 通過 SCAM 和 SVeD 建立了有效的響應(yīng)-靜默訓(xùn)練和推理框架,同時不影響基本的視頻理解能力。

圖2. 流式驗(yàn)證解碼(SVeD)推理框架概述:一個動態(tài)響應(yīng)-靜默解碼框架,旨在為在線視頻理解確定最佳響應(yīng)時間。
27.?揭示細(xì)粒度獎勵下的多模態(tài)大模型推理
Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
作者:陳宏昊,婁行舟,豐效坤,黃凱奇,王鑫龍
思維鏈推理在大型語言模型中取得了顯著的成功,但其對視覺語言推理的適應(yīng)仍然是一個開放的挑戰(zhàn),最佳實(shí)踐不明確。現(xiàn)有的嘗試通常在粗粒度級別使用推理鏈,這很難執(zhí)行細(xì)粒度結(jié)構(gòu)化推理,更重要的是,很難評估中間推理的回報和質(zhì)量。
在這項(xiàng)工作中,我們深入研究了視覺語言模型的步驟推理鏈,能夠準(zhǔn)確地評估推理步驟質(zhì)量,并導(dǎo)致有效的強(qiáng)化學(xué)習(xí)和細(xì)粒度獎勵的推理時間縮放。我們提出了一個簡單、有效和完全透明的框架,包括步驟級推理數(shù)據(jù)、過程獎勵模型(PRM)和強(qiáng)化學(xué)習(xí)訓(xùn)練。通過提出的方法,我們的模型在具有挑戰(zhàn)性的視覺語言基準(zhǔn)上設(shè)置了強(qiáng)大的基線,并不斷改進(jìn)。更重要的是,我們進(jìn)行了徹底的實(shí)證分析和消融研究,揭示了每個組成部分的影響以及推斷時間尺度的幾個有趣特性。我們相信這篇論文可以作為視覺語言模型的基線,并為更復(fù)雜的多模態(tài)推理提供見解。

28.?RULE:強(qiáng)化遺忘實(shí)現(xiàn)遺忘-保留帕累托最優(yōu)
RULE: Reinforcement UnLEarning Achieves Forget–Retain Pareto Optimality
作者:張晨龍,金卓然,苑紅榜,魏嘉珩,周桐,劉康,趙軍,陳玉博
大模型遺忘旨在移除大語言模型的“有害非法知識”,是達(dá)成可信人工智能的重要手段。本文提出把遺忘學(xué)習(xí)建模一種“拒答策略優(yōu)化”,提出了在線強(qiáng)化學(xué)習(xí)的拒答微調(diào)方法RULE。這種方式帶來的優(yōu)勢有:
1. 現(xiàn)有方法微調(diào)后的“非自然回復(fù)”: 通過合適的獎勵,在遺忘的數(shù)據(jù)上表現(xiàn)出拒答行為,可以讓模型表現(xiàn)出“自然”且“安全”的回復(fù)。
2. 對遺忘集和保留集的依賴,無法泛化:本文設(shè)計了一種簡單有效的數(shù)據(jù)合成策略,利用強(qiáng)化學(xué)習(xí)在”邊界集“的探索機(jī)制,使得模型可以隱式的從獎勵中學(xué)習(xí)到“拒答策略”,泛化到域外分布。
3. 遺忘-保留的帕累托平衡:強(qiáng)化學(xué)習(xí)對輸出的采樣來源于模型自身的分布,使得模型更好的在遺忘的同時保留內(nèi)部知識。
在多個數(shù)據(jù)集的實(shí)驗(yàn)表明,RULE在只采用10%的遺忘集和保留集的設(shè)定下就能達(dá)到“遺忘-保留”的帕累托最優(yōu),且能保持“自然”的回復(fù)和通用性能,此外,我們補(bǔ)充實(shí)驗(yàn)也證明了模型對黑白盒攻擊的魯棒性,以及對多種獎勵和強(qiáng)化學(xué)習(xí)算法的適配。

強(qiáng)化遺忘的方法示意圖
29.?多智能體的雙層知識遷移方法
Bi-Level Knowledge Transfer for Multi-Task Multi-Agent Reinforcement Learning
作者:張峻凱,何金岷,張一帆,臧一凡,徐寧,程健
多智能體強(qiáng)化學(xué)習(xí)(MARL)在實(shí)際應(yīng)用中取得了顯著進(jìn)展,但高昂的在線訓(xùn)練成本限制了其在新任務(wù)中的推廣。為實(shí)現(xiàn)策略復(fù)用,我們關(guān)注如何利用離線數(shù)據(jù)實(shí)現(xiàn)多任務(wù) zero-shot 泛化。
為此,我們提出了一種雙層知識遷移方法,在個體和團(tuán)隊(duì)兩個層面進(jìn)行知識傳遞:個體層面提取可遷移的 individual skill,團(tuán)隊(duì)層面將Individual skill 組合映射為戰(zhàn)術(shù)并構(gòu)建戰(zhàn)術(shù) codebook。通過雙層決策機(jī)制,我們同時融合技能和戰(zhàn)術(shù),引導(dǎo)智能體在新任務(wù)中做更優(yōu)決策。我們設(shè)計了 Bi-level Decision Transformer 進(jìn)行策略決策。大量在 SMAC 和 MPE 基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,我們在未見過的任務(wù)上也展現(xiàn)出很強(qiáng)的泛化能力。

圖1. 智能體個人技能和團(tuán)隊(duì)?wèi)?zhàn)術(shù)學(xué)習(xí)

圖2. 智能體策略建模方法
30.?DartQuant:高效旋轉(zhuǎn)分布校準(zhǔn)的LLM 量化
DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization
作者:邵遠(yuǎn)天,陳遠(yuǎn)騰,王培松,于鑒麟,林菁,姚益武,韋志輝,程健
量化在大模型的加速推理中起著至關(guān)重要的作用,而旋轉(zhuǎn)矩陣已被證明可以通過平滑異常值來有效提升量化性能。然而,旋轉(zhuǎn)優(yōu)化算法的端到端微調(diào)會產(chǎn)生高昂的計算成本,并且容易出現(xiàn)過擬合。
為了應(yīng)對這一挑戰(zhàn),我們提出了一種高效的分布感知旋轉(zhuǎn)校準(zhǔn)方法 DartQuant,它通過約束旋轉(zhuǎn)后激活的分布來降低旋轉(zhuǎn)優(yōu)化的復(fù)雜度。該方法還有效地減少了對特定任務(wù)損失函數(shù)的依賴,從而降低了過擬合的風(fēng)險。此外,我們引入了 QR-Orth 優(yōu)化方案,用更高效的解決方案取代了昂貴的正交流形優(yōu)化。在各種模型量化實(shí)驗(yàn)中,DartQuant 展現(xiàn)了卓越的性能。與現(xiàn)有方法相比,它在 70B 模型上實(shí)現(xiàn)了 47 倍的加速和 10 倍的內(nèi)存節(jié)省。此外,它首次在單個 3090 GPU 上成功完成 70B 模型的旋轉(zhuǎn)校準(zhǔn),使得在資源受限的環(huán)境中實(shí)現(xiàn)大型語言模型的量化成為可能。

圖1.不同旋轉(zhuǎn)優(yōu)化方法的計算成本比較。DartQuant在對不同大小模型的量化中,均以極短的時間獲得了最優(yōu)的性能。

圖2.左圖:DartQuant 實(shí)現(xiàn)過程,其中 Z 表示 QR-orth 中的潛在參數(shù),R 表示應(yīng)用的旋轉(zhuǎn)矩陣。右圖:校準(zhǔn)前后旋轉(zhuǎn)矩陣的變化。
31.?C-Nav: 基于對偶路徑防遺忘與自適應(yīng)經(jīng)驗(yàn)選擇的連續(xù)物體導(dǎo)航
C-Nav: Continual Object Navigation with Dual-Path Anti-Forgetting and Adaptive Experience Selection
作者:于明明, 朱飛, 劉文卓, 楊易蓉,汪群博,吳文峻,劉靜
具身智能體需在動態(tài)開放環(huán)境中完成目標(biāo)導(dǎo)航任務(wù)。然而,現(xiàn)有方法在訓(xùn)練過程中通常依賴靜態(tài)軌跡和固定的目標(biāo)類別集合,忽略了現(xiàn)實(shí)世界中對動態(tài)場景持續(xù)適應(yīng)的需求。為推進(jìn)相關(guān)研究,我們提出了持續(xù)目標(biāo)導(dǎo)航基準(zhǔn),要求智能體在學(xué)習(xí)新目標(biāo)類別導(dǎo)航技能的同時,避免對已學(xué)知識的災(zāi)難性遺忘。
針對這一挑戰(zhàn),我們設(shè)計了持續(xù)視覺導(dǎo)航框架C-Nav,該框架融合了兩項(xiàng)核心創(chuàng)新:(1)雙路徑抗遺忘機(jī)制:包含特征蒸餾與特征重放兩部分。其中,特征蒸餾將多模態(tài)輸入對齊到統(tǒng)一的表征空間,以確保表征一致性;特征重放在動作解碼器內(nèi)保留時序特征,以確保策略一致性。(2)自適應(yīng)采樣策略:通過篩選具有多樣性和信息價值的經(jīng)驗(yàn),減少冗余信息并最小化內(nèi)存開銷。 我們在多種模型架構(gòu)上開展了大量實(shí)驗(yàn),結(jié)果表明:C-Nav 的性能持續(xù)優(yōu)于現(xiàn)有方法,即便與保留完整軌跡的基準(zhǔn)模型相比,仍能實(shí)現(xiàn)更優(yōu)性能,同時顯著降低了內(nèi)存需求。

所提 C-Nav 持續(xù)目標(biāo)導(dǎo)航框架總覽
32.?端到端視覺分詞器優(yōu)化
End-to-End Vision Tokenizer Tuning
作者:王文軒,張帆,崔玉峰,刁海文,羅卓彥,盧湖川,劉靜,王鑫龍
本文致力于解決多模態(tài)大型模型中視覺分詞器的優(yōu)化難題。目前,視覺分詞器大多獨(dú)立于低層次的圖像重建任務(wù)進(jìn)行訓(xùn)練,例如利用向量量化技術(shù)將圖像轉(zhuǎn)換為離散標(biāo)記。然而,這種方法未能充分考慮分詞器表示與后續(xù)自回歸任務(wù)(如圖像生成和視覺問答)之間的語義一致性,從而限制了模型在處理復(fù)雜任務(wù)時的表現(xiàn)。
為了克服這一挑戰(zhàn),我們提出了一種端到端的視覺分詞器調(diào)優(yōu)方法。該方法通過聯(lián)合優(yōu)化視覺分詞器、輕量級投影器和大型語言模型,實(shí)現(xiàn)了從圖像輸入到文本輸出的完整可微分訓(xùn)練流程。在訓(xùn)練過程中,我們巧妙地結(jié)合了重建損失和多模態(tài)理解損失,這樣不僅保持了視覺分詞器在圖像重建方面的高質(zhì)量表現(xiàn),還顯著提升了其語義表達(dá)能力。此外,我們采用視覺碼本嵌入替代了傳統(tǒng)的離散索引,使得整個優(yōu)化過程完全可微分,從而支持端到端的聯(lián)合訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,我們的方法在多模態(tài)理解和生成任務(wù)上明顯優(yōu)于使用凍結(jié)分詞器的基線方法。在保持原有圖像重建能力的基礎(chǔ)上,我們的方法實(shí)現(xiàn)了約2%至6%的性能提升。本文為多模態(tài)模型中視覺分詞器的聯(lián)合優(yōu)化提供了有效方案,推動了圖像與文本聯(lián)合表示的發(fā)展。

圖1.展示了我們對自回歸模型訓(xùn)練流程的改進(jìn)。左側(cè)是傳統(tǒng)方法,依賴于針對低層級重建優(yōu)化的凍結(jié)視覺分詞器。中間是我們的ETT方法,它通過利用視覺碼本嵌入,實(shí)現(xiàn)了視覺分詞器與下游任務(wù)的聯(lián)合優(yōu)化。右側(cè)圖表顯示,ETT在多模態(tài)理解和生成任務(wù)上取得了顯著的性能提升。

圖2展示了我們采用ETT方法生成的視覺效果。這些圖像均為512×512分辨率,覆蓋了多種風(fēng)格、主題和場景。圖中的提示信息為簡化版,用以概括圖像的主要概念。
33.?聚焦:基于指代分割的交互式編輯統(tǒng)一視覺語言建模
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation
作者:楊帆,朱優(yōu)松,李鑫,詹宇飛,趙弘胤,鄭淑榮,王耀威,唐明,王金橋
近期的大型視覺語言模型(LVLMs)在統(tǒng)一視覺理解與生成建模方面展現(xiàn)出令人矚目的能力,既能夠?qū)崿F(xiàn)精準(zhǔn)的內(nèi)容理解,又支持靈活的編輯。然而,當(dāng)前的方法往往將"看什么"和"如何編輯"分別對待:要么進(jìn)行孤立的目標(biāo)分割,要么僅將分割掩碼作為條件提示用于局部編輯生成任務(wù),通常依賴多個相互分離的模型。為了彌補(bǔ)這些缺陷,我們提出了FOCUS,一個統(tǒng)一的大型視覺語言模型,在端到端框架內(nèi)整合了分割感知的感知能力和可控的以目標(biāo)為中心的生成能力。
FOCUS采用雙分支視覺編碼器,同時捕獲全局語義上下文和細(xì)粒度空間細(xì)節(jié)。此外,我們利用基于MoVQGAN的視覺分詞器來生成離散視覺token,以提升生成質(zhì)量。為了實(shí)現(xiàn)精確且可控的圖像編輯,我們提出了漸進(jìn)式多階段訓(xùn)練流程,其中分割掩碼經(jīng)過聯(lián)合優(yōu)化,并用作空間條件提示來指導(dǎo)擴(kuò)散解碼器。這一策略將視覺編碼、分割和生成模塊進(jìn)行對齊,有效地將分割感知的感知與細(xì)粒度視覺合成連接起來。
在三個核心任務(wù)上的大量實(shí)驗(yàn),包括多模態(tài)理解、指代分割精度和可控圖像生成,證明了FOCUS通過聯(lián)合優(yōu)化視覺感知和生成能力實(shí)現(xiàn)了出色的性能表現(xiàn)。


34.?AVR: 面向物理環(huán)境中多模態(tài)大語言模型的主動視覺推理
AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments
作者:周偉杰,熊炫棠,彭毅,陶滿禮,趙朝陽,董宏輝,唐明,王金橋
當(dāng)前的多模態(tài)大語言模型(MLLM)大多在靜態(tài)、信息完整的環(huán)境中進(jìn)行視覺推理,這限制了它們在充滿遮擋和視角局限的真實(shí)物理世界中的應(yīng)用。與此不同,人類會通過移動、觀察、操縱物體等主動探索行為來獲取缺失信息,形成一個“感知-推理-行動”的閉環(huán)。
受此啟發(fā),本文提出了“主動視覺推理”(Active Visual Reasoning, AVR)這一新范式,將視覺推理擴(kuò)展到部分可觀察的交互式環(huán)境中。AVR要求智能體能夠主動獲取信息、整合多步觀察并動態(tài)調(diào)整決策。
為支持該研究,我們構(gòu)建了三項(xiàng)核心貢獻(xiàn):
1. CLEVR-AVR基準(zhǔn):一個用于評估智能體推理正確性和信息獲取效率的仿真環(huán)境。
2. AVR-152k數(shù)據(jù)集:一個大規(guī)模數(shù)據(jù)集,包含豐富的思想鏈(Chain-of-Thought)標(biāo)注,用于訓(xùn)練模型如何識別不確定性、預(yù)測行動收益并選擇最優(yōu)動作。
3. PhysVLM-AVR模型:一個在主動視覺推理任務(wù)上取得當(dāng)前最佳性能,并能泛化到其他具身和靜態(tài)推理任務(wù)的MLLM。
實(shí)驗(yàn)結(jié)果表明,盡管現(xiàn)有模型能檢測到信息不完整,但在主動獲取和整合新信息方面存在明顯不足。我們的工作為開發(fā)能夠在物理世界中主動推理和智能交互的下一代MLLM奠定了堅(jiān)實(shí)的基礎(chǔ)。

上方:CLEVR-AVR 模擬器基準(zhǔn)(CLEVR-AVR Simulator Benchmark),展示了問題類型、動作空間、場景及示例的分布情況。下方:用于主動視覺推理(Active Visual Reasoning, AVR)的高階馬爾可夫決策過程(Higher-order Markov Decision Process, MDP)范式。
35.?EconGym:面向多樣化經(jīng)濟(jì)任務(wù)的可擴(kuò)展人工智能測試平臺
EconGym: A Scalable AI Testbed with Diverse?Economic Tasks
作者:米祈睿,楊企鵬,樊梓君,范文天,馬赫陽,馬成東,夏思宇,安波,汪軍,張海峰
人工智能(AI)已成為經(jīng)濟(jì)學(xué)研究的重要工具,使大規(guī)模仿真與政策優(yōu)化成為可能。然而,要充分發(fā)揮 AI 的作用,需要具備可擴(kuò)展訓(xùn)練與評估能力的仿真平臺;現(xiàn)有環(huán)境大多局限于簡化或特定范圍的任務(wù),難以覆蓋人口結(jié)構(gòu)變化、多政府協(xié)同以及大規(guī)模主體交互等復(fù)雜經(jīng)濟(jì)挑戰(zhàn)。
為彌補(bǔ)這一空白,我們提出 EconGym——一個可擴(kuò)展、模塊化的測試平臺,用于連接多樣化的經(jīng)濟(jì)任務(wù)與 AI 算法。EconGym 基于嚴(yán)格的經(jīng)濟(jì)建模方法,構(gòu)建了 11 種異質(zhì)化角色類型(如家庭、企業(yè)、銀行、政府)、對應(yīng)交互機(jī)制,以及具備清晰觀測、動作和獎勵定義的智能體模型。用戶可靈活組合經(jīng)濟(jì)角色與不同智能體算法,從而在 25+ 經(jīng)濟(jì)任務(wù)中模擬豐富的多智能體軌跡,支持基于 AI 的政策學(xué)習(xí)與分析。實(shí)驗(yàn)結(jié)果表明,EconGym 能夠支撐多樣化與跨領(lǐng)域的任務(wù)——例如財政、養(yǎng)老與貨幣政策的協(xié)同模擬——并實(shí)現(xiàn) AI 方法、經(jīng)濟(jì)學(xué)方法及其混合方法之間的對比評測。結(jié)果顯示,任務(wù)組合與算法多樣性能夠有效拓展政策空間,而在復(fù)雜環(huán)境中,結(jié)合經(jīng)典經(jīng)濟(jì)學(xué)方法的 AI 智能體表現(xiàn)最佳。此外,EconGym 可擴(kuò)展至 1 萬個智能體規(guī)模,在保證高真實(shí)感的同時保持高效性。

圖1. EconGym 概覽。用戶可通過選擇經(jīng)濟(jì)角色與智能體算法來定義任務(wù),從而生成動態(tài)的多智能體軌跡。這些軌跡既可用于經(jīng)濟(jì)學(xué)界的經(jīng)濟(jì)分析,也可用于人工智能領(lǐng)域的策略優(yōu)化。EconGym 基于嚴(yán)謹(jǐn)?shù)慕?jīng)濟(jì)學(xué)理論與模塊化的智能體建模,支持多樣化和跨領(lǐng)域的經(jīng)濟(jì)任務(wù)。

圖2. EconGym 的工作流程
36.?MF-LLM:基于均值場大語言模型框架的人群決策動態(tài)模擬
MF-LLM: Simulating Population Decision Dynamics?via a Mean-Field Large Language Model Framework
作者:米祈睿,楊夢月,于湘凝,趙祉瑜,鄧程,安波,張海峰,陳旭,汪軍
在集體決策建模中,群體行為并非個體行為的簡單疊加,而是源自個體之間復(fù)雜的動態(tài)交互。大語言模型(LLMs)為社會模擬提供了新的機(jī)遇,但如何實(shí)現(xiàn)與真實(shí)數(shù)據(jù)的精確對齊仍是亟待解決的核心挑戰(zhàn)。
為此,我們提出 MF-LLM 框架,首次將均值場理論引入 LLM 驅(qū)動的社會模擬。該框架通過迭代建模個體與總體之間的雙向作用:總體信號引導(dǎo)個體決策,個體行為反過來更新總體信號,從而形成連貫的群體動態(tài)軌跡。同時,我們設(shè)計了 IB-Tune 方法。該方法受信息瓶頸原理啟發(fā),能夠有效保留對未來最具預(yù)測力的總體信號,并過濾冗余歷史信息,從而顯著提升模型與真實(shí)社會數(shù)據(jù)的對齊度。實(shí)證結(jié)果顯示,MF-LLM 在真實(shí)社會數(shù)據(jù)集上相較于非均值場基線模型將 KL 散度降低 47%,顯著增強(qiáng)了趨勢預(yù)測與干預(yù)規(guī)劃的精度。跨 7 個應(yīng)用領(lǐng)域與 4 種 LLM 框架的驗(yàn)證進(jìn)一步證明,MF-LLM 為社會模擬提供了一種 可擴(kuò)展且高保真的新范式。

圖 1. MF-LLM 框架在人群決策動態(tài)模擬中的應(yīng)用。
當(dāng)外部事件(如謠言)發(fā)生時,個體會在群體行為(如輿論演化)的影響下依次做出決策(如“太離譜了!”)。早期決策塑造群體行為,而群體行為又反過來影響后續(xù)行動,形成反饋回路。MF-LLM 通過交替運(yùn)行兩個LLM 驅(qū)動的模塊來刻畫這一過程:策略模型根據(jù)個體狀態(tài)與總體信號生成決策,均值場模型則根據(jù)新行動更新總體信號。該迭代過程能夠緊密對齊真實(shí)世界的人群動態(tài)(右上)。
37.?梯度引導(dǎo)的在線持續(xù)學(xué)習(xí)ε約束方法
Gradient-Guided Epsilon Constraint Method for Online Continual Learning
作者:賴嵩,馬暢翼,朱飛,趙哲,林熙,孟高峰,張青富
在線持續(xù)學(xué)習(xí)(OCL)旨在讓模型能從連續(xù)的數(shù)據(jù)流中學(xué)習(xí),同時克服災(zāi)難性遺忘問題。現(xiàn)有方法如經(jīng)驗(yàn)回放(ER)雖應(yīng)用廣泛,但其隱式和固定的權(quán)衡策略常導(dǎo)致性能瓶頸。
本文從ε約束優(yōu)化的視角出發(fā),揭示了ER方法的內(nèi)在局限性。在此基礎(chǔ)上,我們提出了梯度引導(dǎo)的ε約束(GEC)方法。GEC將OCL更新過程顯式地構(gòu)建為一個ε約束優(yōu)化問題,通過動態(tài)調(diào)整梯度更新方向,在遺忘超過預(yù)設(shè)閾值時優(yōu)先滿足約束以保持穩(wěn)定性;在滿足約束時則聚焦于當(dāng)前任務(wù),以提升模型的可塑性。實(shí)驗(yàn)證明,GEC能更好地平衡學(xué)習(xí)新舊知識,實(shí)現(xiàn)更優(yōu)的穩(wěn)定性-可塑性權(quán)衡,并在多個OCL基準(zhǔn)測試中取得了領(lǐng)先的性能。

圖1. GEC方法與傳統(tǒng)ER方法的區(qū)別:ER使用固定權(quán)重策略,GEC采取自適應(yīng)權(quán)重策略
38.?DevFD: 基于可增長共享和正交LoRA子空間學(xué)習(xí)的持續(xù)人臉偽造檢測方法
DevFD: Developmental Face Forgery Detection by?Learning Shared and Orthogonal LoRA Subspaces
作者:張?zhí)锎T,高麗,彭思然,朱翔昱,雷震
人臉篡改和生成技術(shù)的快速發(fā)展,威脅了互聯(lián)網(wǎng)認(rèn)證和流媒體新聞的安全性。因此,對人臉偽造圖像進(jìn)行有效檢測成為了一項(xiàng)緊迫任務(wù)。然而人臉偽造方法日新月異,而防御技術(shù)不可避免地具有滯后性。在固定數(shù)據(jù)集訓(xùn)練的靜態(tài)模型由于有限的泛化性,面對新的偽造樣本將很快失效。而相比于偽造人臉數(shù)據(jù),真實(shí)人臉數(shù)據(jù)由于數(shù)量充足且采集方式較為單一(相機(jī)成像),并不會隨著假人臉的迭代而發(fā)生較大波動。充足且非偏的真實(shí)人臉在跨數(shù)據(jù)集場景具有常常被忽略的共性。
因此,我們將人臉偽造檢測學(xué)習(xí)建模為了一個持續(xù)學(xué)習(xí)任務(wù),讓模型在動態(tài)的偽造數(shù)據(jù)中進(jìn)行學(xué)習(xí),設(shè)計了可以動態(tài)增長的混合專家架構(gòu):DevFD。該架構(gòu)使用矩陣低秩分解模塊(LoRA)作為專家,并維持一個共享專家用于建模真實(shí)人臉的共性,一個正交專家序列建模來互補(bǔ)地建模來自不同偽造方式的信息并避免相互干擾。對于新出現(xiàn)的偽造方式,DevFD對該正交序列進(jìn)行擴(kuò)增。在每個數(shù)據(jù)集獲得高準(zhǔn)確率的同時,通過融合正交梯度的新正交損失,賦予了模型全訓(xùn)練流程的抗遺忘能力。在兩個標(biāo)準(zhǔn)測試協(xié)議上的大量實(shí)驗(yàn)表明,我們的方法在每個數(shù)據(jù)集上獲得最佳準(zhǔn)確率的同時,實(shí)現(xiàn)了最低的遺忘率。

左:可增長的混合專家模型框架,使用一個共享專家和一個正交專家序列,互補(bǔ)地建模偽造類型知識并保留真是人臉的共性。右上:標(biāo)簽引導(dǎo)的局部平衡策略,動態(tài)分配專家完成不同建模任務(wù)。右下:融合正交梯度的正交損失。






資訊頻道