學者網(wǎng)訊(編輯/劉伶 通訊員/楊柳)近日,華大-之江Genos團隊發(fā)布Genos-m——一個面向人體相關(guān)微生物基因組的開源基礎(chǔ)模型。

Genos-m以人體相關(guān)微生物基因組為主要預訓練語料,覆蓋多個人體相關(guān)生態(tài)位,并同時納入共生微生物、病原微生物和噬菌體。模型可將微生物DNA序列、基因組和宏基因組樣本轉(zhuǎn)化為可復用的序列表征,在多項微生物基因組任務和真實宏基因組應用中展現(xiàn)出優(yōu)異的穩(wěn)健性和可遷移性。
面向未來,Genos-m有望為病原微生物耐藥與毒力識別、候選益生菌篩選與功能評價、微生態(tài)評估與人群分層、個體化微生態(tài)管理等前沿研究與轉(zhuǎn)化應用提供新的模型支撐。
為什么需要一個專門面向人體微生物基因組設(shè)計的模型?
人體微生物組與健康、疾病和個體差異密切相關(guān)。隨著微生物基因組數(shù)據(jù)積累,研究者關(guān)注的不僅是“有哪些微生物”,更包括其序列攜帶的功能、生態(tài)和表型信息。現(xiàn)有通用DNA大模型通常面向跨物種、跨生命域序列訓練,覆蓋廣、通用性強;但聚焦人體相關(guān)微生物時,通用性并不等于專業(yè)性。人體微生物組高度多樣,其功能差異常體現(xiàn)在菌株水平、可變基因區(qū)和長距離基因組上下文中。
Genos-m正是為這一場景設(shè)計。研究團隊構(gòu)建了以人體相關(guān)微生物為主體的預訓練語料,整合分離株基因組、高質(zhì)量宏基因組組裝基因組(MAGs)和噬菌體基因組,并輔以全球原核代表基因組,以增強對微生物序列多樣性和基礎(chǔ)規(guī)律的覆蓋,最終形成約1.2萬億核苷酸t(yī)oken的訓練數(shù)據(jù)。
Genos-m模型如何工作?單堿基預測與長上下文建模
Genos-m采用單堿基分辨率的next-token prediction,即“下一堿基預測”預訓練任務。模型以A/T/C/G等堿基為基本單位,通過預測下一個堿基,學習微生物DNA序列中的局部模式、基因結(jié)構(gòu)和長距離上下文關(guān)系。在架構(gòu)上,Genos-m繼承Genos的核心設(shè)計,并針對微生物基因組語料擴展專家容量。它使用稀疏激活的MoE Transformer:總參數(shù)規(guī)模約4.7B,每次推理僅激活約3.3億參數(shù),兼顧模型容量與計算效率。模型支持最長1M bp的上下文輸入,可覆蓋短序列、單基因、基因簇、噬菌體基因組及更長基因組片段,為跨尺度序列表征提供模型基礎(chǔ)。

圖:Genos-m模型架構(gòu):稀疏MoE Transformer使用32個專家和Top-2路由,支持最高1M bp上下文。
Genos-m模型表現(xiàn)如何?小激活規(guī)模下的跨任務優(yōu)勢
Genos-m的評測從微生物研究的真實需求出發(fā),覆蓋從短序列到完整基因組的多個層級:包括啟動子、耐藥基因、毒力因子等局部序列識別;生物合成基因簇(BGC)等長片段功能模塊識別與分類,以及基于全基因組序列的細菌表型預測。結(jié)果表明,Genos-m在較小激活規(guī)模下獲得了有競爭力的跨任務表現(xiàn),在多項任務中達到與Evo2-40B等更大規(guī)模通用DNA模型相當?shù)乃剑⒃诳股啬退幓蜃R別、BGC分類和五項基因適應性任務中取得比較模型中的最佳結(jié)果。這說明,Genos-m的核心優(yōu)勢來自面向人體相關(guān)微生物基因組場景的一系列整體設(shè)計:高質(zhì)量預訓練語料、長上下文建模,以及適合微生物序列多樣性的稀疏專家架構(gòu)。
從評測走向真實場景:疾病風險評估與低深度樣本表征
標準評測回答了Genos-m的表征能力是否可穩(wěn)定遷移。團隊進一步將模型放到人腸道宏基因組真實場景中,重點展示了兩個應用方向:微生物組的自監(jiān)督學習建模和低深度樣本表征。
案例一:基因組表征增強微生物組的自監(jiān)督學習
在本場景中,團隊將Genos-m生成的基因組表征接入微生物組群落自監(jiān)督學習模型,使模型在物種豐度之外,可進一步利用代表基因組中的序列信息。基于全球14個腸道宏基因組隊列的結(jié)直腸癌病例-對照分類評估顯示,該策略在同隊列交叉驗證和跨隊列遷移中,明顯優(yōu)于傳統(tǒng)物種豐度隨機森林模型。這意味著,復雜疾病相關(guān)的微生物信號不只體現(xiàn)在“哪些物種更多或更少”,更可能來自其基因組背景及功能潛力差異。Genos-m的作用,是將這些序列層信息轉(zhuǎn)化為群落模型可使用的表征,通過提供物種豐度之外的信息維度來提升疾病風險判別模型的穩(wěn)定性和跨人群可遷移性。
案例二:低深度宏基因組樣本表征
在本場景中,團隊直接從下采樣reads生成宏基因組樣本級表征。結(jié)果顯示,僅使用1萬條reads,Genos-m仍能生成穩(wěn)定的人腸道樣本級表征,保留樣本間群落結(jié)構(gòu)差異,并捕捉宿主地理來源和腸型分層等關(guān)鍵群落信號。這意味著,在極低測序深度下,Genos-m也能快速、無需參考數(shù)據(jù)庫的生成可比較的樣本表征,為大規(guī)模低輸入宏基因組數(shù)據(jù)的樣本比對、來源評估和質(zhì)控預篩等提供輕量化分析路徑。
結(jié)語
Genos-m建立了一個面向人體相關(guān)微生物基因組與宏基因組的序列表征框架。通過高質(zhì)量預訓練語料、稀疏專家架構(gòu)和長上下文建模,模型在微生物基因、基因組和宏基因組樣本等不同尺度上展現(xiàn)出穩(wěn)定的遷移能力。從標準評測到結(jié)直腸癌隊列建模和低深度樣本表征,Genos-m展示了高維序列信息在微生物研究與轉(zhuǎn)化場景中的應用價值。未來,團隊將繼續(xù)推動模型迭代和開源應用,服務于更廣泛的人體微生物與健康研究。( 全文完)

評論 0