麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

0
點贊
0
評論
0
轉(zhuǎn)載
我要入駐

基于大語言模型增強的低資源短答案自動評分方法

 

論文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation

作者:Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui

IEEE Transactions on Knowledge and Data Engineering 是數(shù)據(jù)工程與人工智能領(lǐng)域的頂級國際期刊(CCF-A類),長期關(guān)注數(shù)據(jù)管理、機器學(xué)習(xí)與智能系統(tǒng)等方向的前沿研究成果。其在自動化教育評估、數(shù)據(jù)挖掘與智能學(xué)習(xí)系統(tǒng)領(lǐng)域具有重要影響力。PKU-DAIR實驗室論文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。

 

問題背景與動機

 

隨著在線教育規(guī)模的迅速增長,如何高效、準(zhǔn)確地對學(xué)生主觀題進行自動評分,成為教育智能化中的關(guān)鍵問題。其中,短答案評分(Short Answer Scoring, SAS)由于具有明確參考答案和更強約束性,比長文本作文評分更具實際落地價值。

然而,在真實低資源場景(Low-resource)應(yīng)用中,SAS 面臨三個核心難題:

1. 新題目不斷出現(xiàn),標(biāo)注數(shù)據(jù)難以獲取

2. 學(xué)生答案表達多樣,語義空間極其復(fù)雜

3. 不同分數(shù)區(qū)間樣本稀疏,模型難以學(xué)習(xí)細粒度評分邊界

這些問題使得當(dāng)前方法在實際部署中效果不穩(wěn)定,嚴(yán)重制約了自動評分系統(tǒng)的發(fā)展。

核心挑戰(zhàn):數(shù)據(jù)多樣性 vs 評分一致性

現(xiàn)有方法主要面臨兩大瓶頸:

1. 數(shù)據(jù)稀缺與分布失衡:真實學(xué)生答題數(shù)據(jù)存在評分分布不均問題,低資源場景下標(biāo)注樣本稀少,模型易過擬合,泛化能力受限。

2. 合成數(shù)據(jù)質(zhì)量不足:傳統(tǒng)數(shù)據(jù)增強方法易引入噪聲,且LLM生成的合成樣本與真實學(xué)生答題風(fēng)格差異較大,導(dǎo)致評分模型出現(xiàn)偏差;同時,評分模型難以有效捕捉文本中的關(guān)鍵實體,影響評分準(zhǔn)確性。

圖1:與現(xiàn)有基于數(shù)據(jù)增強和遷移學(xué)習(xí)的SAS方法的對比

為解決上述挑戰(zhàn),本研究提出SCALE框架,通過知識圖譜驅(qū)動的數(shù)據(jù)生成、雙階段過濾標(biāo)注與實體感知建模,實現(xiàn)低資源場景下SAS性能的顯著提升,核心思路具體如下:

1. 知識圖譜(KG)驅(qū)動數(shù)據(jù)合成:構(gòu)建包含硬邊、軟邊等多類型邊的知識圖譜,結(jié)合風(fēng)格重寫提示詞,生成語義一致、風(fēng)格多樣的合成樣本,緩解數(shù)據(jù)稀缺問題。

2. 雙階段過濾與標(biāo)注對齊:通過語義距離優(yōu)化的初始過濾,保留多樣且上下文相關(guān)的樣本;再通過代理數(shù)據(jù)訓(xùn)練標(biāo)注器,緩解合成樣本與真實樣本的風(fēng)格偏差,確保評分準(zhǔn)確性。

3. 實體感知注意力模型:引入實體提取與實體級注意力機制,融合文本語義與關(guān)鍵實體信息,提升模型對技術(shù)類文本(如公式、代碼)的評分能力。

主要貢獻概括為:

1. 提出SCALE框架,通過KG驅(qū)動的數(shù)據(jù)合成與雙階段過濾,平衡數(shù)據(jù)多樣性與語義一致性,有效緩解低資源場景的數(shù)據(jù)稀疏問題。

2. 設(shè)計實體感知注意力機制,增強模型對關(guān)鍵實體的捕捉能力,提升技術(shù)類短答案的評分準(zhǔn)確性。

3. 在多語言、多領(lǐng)域數(shù)據(jù)集上驗證了方法的有效性,尤其在少樣本場景下表現(xiàn)突出,同時具備良好的跨領(lǐng)域遷移能力。

 

方法介紹

圖2:SCALE框架的整體工作流

 

數(shù)據(jù)生成階段

數(shù)據(jù)生成階段核心是基于知識圖譜實現(xiàn)可控的數(shù)據(jù)增強,打破傳統(tǒng)隨機生成模式的局限,構(gòu)建語義一致且多樣的合成樣本。首先,研究通過大語言模型從參考答案和真實學(xué)生答案中,精準(zhǔn)抽取關(guān)鍵語義單元,涵蓋關(guān)鍵短語(如專業(yè)術(shù)語、公式、代碼片段等)、實體類型(包括條件、操作、數(shù)值等不同類別)以及語義摘要,這些抽取的信息為后續(xù)知識圖譜構(gòu)建提供了核心支撐?;谶@些語義單元,研究構(gòu)建了一個任務(wù)特定的知識圖譜,該圖譜包含三種關(guān)鍵關(guān)系:

  1. 類型關(guān)系(硬邊),用于明確實體間的固定關(guān)聯(lián)的;
  2. 語義共現(xiàn)關(guān)系(軟邊),用于表征實體間的潛在關(guān)聯(lián);
  3. 表達與語義映射關(guān)系,用于關(guān)聯(lián)不同表述形式與同一核心語義。

該知識圖譜為后續(xù)數(shù)據(jù)生成提供了嚴(yán)格的結(jié)構(gòu)化約束,確保生成過程不偏離目標(biāo)領(lǐng)域語義。在生成過程中,模型并非直接對原始文本進行改寫,而是在知識圖譜中查找與原始關(guān)鍵短語語義相似的候選節(jié)點,對關(guān)鍵短語進行精準(zhǔn)替換,同時嚴(yán)格保持文本整體語義的一致性,這種方式相比傳統(tǒng)隨機替換,大幅提高了合成數(shù)據(jù)的質(zhì)量,有效減少了語義偏移問題,增強了數(shù)據(jù)生成的可控性。此外,為進一步擴展數(shù)據(jù)多樣性,SCALE引入了風(fēng)格規(guī)則庫,包含詳細解釋風(fēng)格、簡潔回答風(fēng)格、數(shù)學(xué)專家風(fēng)格、分點結(jié)構(gòu)風(fēng)格等多種真實學(xué)生答題中常見的風(fēng)格,通過隨機采樣規(guī)則庫中的風(fēng)格,對同一答案進行多風(fēng)格重寫,顯著擴展了訓(xùn)練數(shù)據(jù)空間,為后續(xù)模型訓(xùn)練提供了豐富的樣本支撐。

 

數(shù)據(jù)過濾與對齊

該階段主要用于提升合成數(shù)據(jù)質(zhì)量,解決合成樣本與真實樣本的語義偏差和標(biāo)注偏差問題,分為語義過濾、對齊標(biāo)注和細粒度過濾三個步驟。首先是語義過濾階段,核心目標(biāo)是篩選出高質(zhì)量的合成數(shù)據(jù),篩選標(biāo)準(zhǔn)兼顧多樣性與一致性:既要與原始樣本差異較大,以保證數(shù)據(jù)的多樣性,避免樣本冗余;又要與原始樣本的語義鄰域接近,以確保合成數(shù)據(jù)與目標(biāo)領(lǐng)域語義的一致性。為實現(xiàn)這一目標(biāo),研究設(shè)計了一個多目標(biāo)優(yōu)化函數(shù),通過最大化合成樣本與原始樣本的語義距離來保證多樣性,同時最小化合成樣本與原始樣本鄰域樣本的語義距離來保證一致性,有效平衡了兩者之間的矛盾。其次是對齊標(biāo)注階段,針對直接使用原始模型標(biāo)注合成數(shù)據(jù)會產(chǎn)生標(biāo)注偏差的問題,SCALE提出了Proxy Data(代理數(shù)據(jù))機制,具體做法是利用LLM對真實學(xué)生答案進行“潤色”處理,在保持答案核心語義不變的前提下,使?jié)櫳蟮拇鸢副磉_風(fēng)格接近生成的合成數(shù)據(jù),再使用這些經(jīng)過潤色的真實答案作為代理數(shù)據(jù),訓(xùn)練專屬的標(biāo)注模型(Annotator),最后由該訓(xùn)練好的標(biāo)注模型對篩選后的合成數(shù)據(jù)進行打分,從而有效緩解合成樣本與真實樣本的標(biāo)注偏差。最后是細粒度過濾階段,通過比較合成樣本的原始標(biāo)簽與標(biāo)注模型預(yù)測的標(biāo)簽,若兩者差異超過預(yù)設(shè)閾值,則將該合成樣本剔除,最終得到高質(zhì)量、高一致性、高多樣性的訓(xùn)練數(shù)據(jù),為模型訓(xùn)練提供可靠支撐。

 

模型訓(xùn)練階段

在訓(xùn)練階段,SCALE將引入實體級建模,增強模型對關(guān)鍵信息的捕捉能力,尤其適配含數(shù)學(xué)題、代碼題、技術(shù)問答等場景的短答案評分需求。在該階段,首先進行實體信息注入,將從短答案文本中抽取的關(guān)鍵短語轉(zhuǎn)化為結(jié)構(gòu)化輸入,與原始文本并行輸入模型,使模型能夠清晰識別文本中的關(guān)鍵實體及其屬性,打破傳統(tǒng)模型僅關(guān)注文本表面語義的局限。隨后,模型引入實體注意力機制,通過多頭注意力機制實現(xiàn)文本語義表示(句子級)與實體語義表示(實體級)的深度融合,讓模型在訓(xùn)練過程中能夠自動關(guān)注影響答題準(zhǔn)確性的關(guān)鍵實體,強化關(guān)鍵實體特征的權(quán)重,弱化無關(guān)信息的干擾。這種實體感知增強設(shè)計的優(yōu)勢十分顯著,對于數(shù)學(xué)題、代碼題、技術(shù)問答等關(guān)鍵實體(如公式、代碼片段、專業(yè)術(shù)語)決定答題準(zhǔn)確性的場景,能夠大幅提升模型對關(guān)鍵信息的捕捉能力,減少因忽略關(guān)鍵實體導(dǎo)致的評分偏差。同時,模型基于預(yù)訓(xùn)練語言模型(如BERT、ERNIE 3.0)進行微調(diào),結(jié)合經(jīng)過過濾對齊的合成數(shù)據(jù)與原始標(biāo)注數(shù)據(jù)進行融合訓(xùn)練,進一步提升模型的泛化能力和評分準(zhǔn)確性,確保在低資源、跨領(lǐng)域場景下仍能保持穩(wěn)定的性能表現(xiàn),最終實現(xiàn)短答案自動評分的精準(zhǔn)化。

 

實驗結(jié)果

 

實驗數(shù)據(jù)與場景配置

  1. 數(shù)據(jù)集:涵蓋多語言、多領(lǐng)域,包括新構(gòu)建的中文ADS數(shù)據(jù)集(含代碼、公式,適配技術(shù)類答題場景),以及LE、ASAG、SR等公開數(shù)據(jù)集。
  2. 實驗場景:分為全量數(shù)據(jù)與少樣本(N-way K-shot)場景,模擬低資源環(huán)境,對比多種強基線模型(BERT、ERNIE 3.0、SPRAG等)。
  3. 評價指標(biāo):采用Pearson相關(guān)系數(shù)(R)、二次加權(quán)Kappa(QWK)、均方根誤差(RMSE),全面衡量評分準(zhǔn)確性。

 

核心實驗結(jié)果

表1: 全量數(shù)據(jù)集實驗結(jié)果

表2: 少樣本數(shù)據(jù)集實驗結(jié)果

1. 全量數(shù)據(jù)場景:SCALE在所有數(shù)據(jù)集上均優(yōu)于基線模型,其中SCALE(ERNIE 3.0)在ADS數(shù)據(jù)集上QWK達到83.85%,較原生ERNIE 3.0提升1.90%,且RMSE最低,評分誤差最小。

2. 少樣本場景:優(yōu)勢更顯著,SCALE(BERT)較SPRAG平均提升6.45%的R值,在SR數(shù)據(jù)集k=5的極端低資源場景下,R值較 vanilla BERT提升15.67%,有效緩解數(shù)據(jù)稀疏導(dǎo)致的性能下降。

圖3: 原始訓(xùn)練樣本、合成樣本和測試集樣本t-SNE可視化

 3. 可視化與消融分析:t-SNE可視化顯示,過濾后的合成樣本能精準(zhǔn)填補原始數(shù)據(jù)的語義空白;消融實驗證明,數(shù)據(jù)增強、實體注意力、細粒度過濾是SCALE性能提升的關(guān)鍵,其中細粒度過濾模塊可使QWK平均提升3%以上。

表3: 跨領(lǐng)域少樣本數(shù)據(jù)集實驗結(jié)果

4. 跨領(lǐng)域遷移:在醫(yī)療、金融等領(lǐng)域的文本匹配任務(wù)上,SCALE仍能保持優(yōu)勢,證明其良好的魯棒性與遷移能力。

 

總 結(jié)

本研究針對低資源場景下短答案自動評分的核心痛點,提出SCALE框架,通過知識圖譜驅(qū)動的數(shù)據(jù)合成、雙階段過濾標(biāo)注與實體感知建模,有效平衡了數(shù)據(jù)多樣性與語義一致性,顯著提升了評分準(zhǔn)確性與模型泛化能力。實驗表明,SCALE在多語言、多領(lǐng)域及少樣本場景下均達到當(dāng)前最佳性能,尤其適用于含代碼、公式的技術(shù)類答題評分場景,為低資源環(huán)境下的主觀題自動評分提供了新范式,具有重要的實際應(yīng)用價值。

 

 

實驗室簡介

北京大學(xué)數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學(xué)計算機學(xué)院崔斌教授領(lǐng)導(dǎo),長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個開源項目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉(zhuǎn)化落地。

 

學(xué)者網(wǎng)機構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團隊、學(xué)術(shù)機構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護,助力機構(gòu)鏈接學(xué)界資源、擴大學(xué)術(shù)影響力。

北京大學(xué)數(shù)據(jù)與智能實驗室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負責(zé)人為北京大學(xué)計算機學(xué)院崔斌教授。
返回頂部
松原市| 渑池县| 开江县| 简阳市| 瑞昌市| 伊金霍洛旗| 舞钢市| 阿拉善盟| 渝中区| 东平县| 沙湾县| 奉贤区| 获嘉县| 常德市| 兰州市| 台北县| 怀来县| 报价| 浦东新区| 蓝山县| 百色市| 青龙| 晴隆县| 鲁甸县| 米脂县| 岗巴县| 南召县| 平和县| 洮南市| 蒲城县| 乐陵市| 正蓝旗| 呈贡县| 霍林郭勒市| 嫩江县| 突泉县| 岳普湖县| 类乌齐县| 高台县| 绥阳县| 名山县|