麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

2
點贊
0
評論
1
轉(zhuǎn)載
我要入駐

Genos-m正式開源!面向人源微生物基因組的基座大模型

收錄于合集: # 科研成果

學者網(wǎng)訊(編輯/劉伶 通訊員/楊柳)近日,華大-之江Genos團隊發(fā)布Genos-m——一個面向人體相關(guān)微生物基因組的開源基礎(chǔ)模型。

IMG_256

Genos-m以人體相關(guān)微生物基因組為主要預訓練語料,覆蓋多個人體相關(guān)生態(tài)位,并同時納入共生微生物、病原微生物和噬菌體。模型可將微生物DNA序列、基因組和宏基因組樣本轉(zhuǎn)化為可復用的序列表征,在多項微生物基因組任務和真實宏基因組應用中展現(xiàn)出優(yōu)異的穩(wěn)健性和可遷移性。

面向未來,Genos-m有望為病原微生物耐藥與毒力識別、候選益生菌篩選與功能評價、微生態(tài)評估與人群分層、個體化微生態(tài)管理等前沿研究與轉(zhuǎn)化應用提供新的模型支撐。

為什么需要一個專門面向人體微生物基因組設(shè)計的模型?

人體微生物組與健康、疾病和個體差異密切相關(guān)。隨著微生物基因組數(shù)據(jù)積累,研究者關(guān)注的不僅是“有哪些微生物”,更包括其序列攜帶的功能、生態(tài)和表型信息。現(xiàn)有通用DNA大模型通常面向跨物種、跨生命域序列訓練,覆蓋廣、通用性強;但聚焦人體相關(guān)微生物時,通用性并不等于專業(yè)性。人體微生物組高度多樣,其功能差異常體現(xiàn)在菌株水平、可變基因區(qū)和長距離基因組上下文中。

Genos-m正是為這一場景設(shè)計。研究團隊構(gòu)建了以人體相關(guān)微生物為主體的預訓練語料,整合分離株基因組、高質(zhì)量宏基因組組裝基因組(MAGs)和噬菌體基因組,并輔以全球原核代表基因組,以增強對微生物序列多樣性和基礎(chǔ)規(guī)律的覆蓋,最終形成約1.2萬億核苷酸t(yī)oken的訓練數(shù)據(jù)。

Genos-m模型如何工作?單堿基預測與長上下文建模

Genos-m采用單堿基分辨率的next-token prediction,即“下一堿基預測”預訓練任務。模型以A/T/C/G等堿基為基本單位,通過預測下一個堿基,學習微生物DNA序列中的局部模式、基因結(jié)構(gòu)和長距離上下文關(guān)系。在架構(gòu)上,Genos-m繼承Genos的核心設(shè)計,并針對微生物基因組語料擴展專家容量。它使用稀疏激活的MoE Transformer:總參數(shù)規(guī)模約4.7B,每次推理僅激活約3.3億參數(shù),兼顧模型容量與計算效率。模型支持最長1M bp的上下文輸入,可覆蓋短序列、單基因、基因簇、噬菌體基因組及更長基因組片段,為跨尺度序列表征提供模型基礎(chǔ)。

IMG_257

圖:Genos-m模型架構(gòu):稀疏MoE Transformer使用32個專家和Top-2路由,支持最高1M bp上下文。

Genos-m模型表現(xiàn)如何?小激活規(guī)模下的跨任務優(yōu)勢

Genos-m的評測從微生物研究的真實需求出發(fā),覆蓋從短序列到完整基因組的多個層級:包括啟動子、耐藥基因、毒力因子等局部序列識別;生物合成基因簇(BGC)等長片段功能模塊識別與分類,以及基于全基因組序列的細菌表型預測。結(jié)果表明,Genos-m在較小激活規(guī)模下獲得了有競爭力的跨任務表現(xiàn),在多項任務中達到與Evo2-40B等更大規(guī)模通用DNA模型相當?shù)乃剑⒃诳股啬退幓蜃R別、BGC分類和五項基因適應性任務中取得比較模型中的最佳結(jié)果。這說明,Genos-m的核心優(yōu)勢來自面向人體相關(guān)微生物基因組場景的一系列整體設(shè)計:高質(zhì)量預訓練語料、長上下文建模,以及適合微生物序列多樣性的稀疏專家架構(gòu)。

從評測走向真實場景:疾病風險評估與低深度樣本表征

標準評測回答了Genos-m的表征能力是否可穩(wěn)定遷移。團隊進一步將模型放到人腸道宏基因組真實場景中,重點展示了兩個應用方向:微生物組的自監(jiān)督學習建模和低深度樣本表征。

案例一:基因組表征增強微生物組的自監(jiān)督學習

在本場景中,團隊將Genos-m生成的基因組表征接入微生物組群落自監(jiān)督學習模型,使模型在物種豐度之外,可進一步利用代表基因組中的序列信息。基于全球14個腸道宏基因組隊列的結(jié)直腸癌病例-對照分類評估顯示,該策略在同隊列交叉驗證和跨隊列遷移中,明顯優(yōu)于傳統(tǒng)物種豐度隨機森林模型。這意味著,復雜疾病相關(guān)的微生物信號不只體現(xiàn)在“哪些物種更多或更少”,更可能來自其基因組背景及功能潛力差異。Genos-m的作用,是將這些序列層信息轉(zhuǎn)化為群落模型可使用的表征,通過提供物種豐度之外的信息維度來提升疾病風險判別模型的穩(wěn)定性和跨人群可遷移性。

案例二:低深度宏基因組樣本表征

在本場景中,團隊直接從下采樣reads生成宏基因組樣本級表征。結(jié)果顯示,僅使用1萬條reads,Genos-m仍能生成穩(wěn)定的人腸道樣本級表征,保留樣本間群落結(jié)構(gòu)差異,并捕捉宿主地理來源和腸型分層等關(guān)鍵群落信號。這意味著,在極低測序深度下,Genos-m也能快速、無需參考數(shù)據(jù)庫的生成可比較的樣本表征,為大規(guī)模低輸入宏基因組數(shù)據(jù)的樣本比對、來源評估和質(zhì)控預篩等提供輕量化分析路徑。

結(jié)語

Genos-m建立了一個面向人體相關(guān)微生物基因組與宏基因組的序列表征框架。通過高質(zhì)量預訓練語料、稀疏專家架構(gòu)和長上下文建模,模型在微生物基因、基因組和宏基因組樣本等不同尺度上展現(xiàn)出穩(wěn)定的遷移能力。從標準評測到結(jié)直腸癌隊列建模和低深度樣本表征,Genos-m展示了高維序列信息在微生物研究與轉(zhuǎn)化場景中的應用價值。未來,團隊將繼續(xù)推動模型迭代和開源應用,服務于更廣泛的人體微生物與健康研究。( 全文完)

學者網(wǎng)機構(gòu)號是學者網(wǎng)提供的學術(shù)"公眾號"平臺,為學者團隊、學術(shù)機構(gòu)、企業(yè)等提供官方媒體賬號服務,支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護,助力機構(gòu)鏈接學界資源、擴大學術(shù)影響力。

立足灣區(qū),放眼全國,我們希望能以專業(yè)的視角觀照社會科技發(fā)展前沿,以切中肯綮的見解為灣區(qū)科技創(chuàng)新做出自己的貢獻,為灣區(qū)科技工作者、灣區(qū)科創(chuàng)企業(yè)、灣區(qū)科技發(fā)展趨勢,注入磅礴不息的生機與活力。
返回頂部
延长县| 策勒县| 墨竹工卡县| 班玛县| 仁布县| 古蔺县| 蛟河市| 宽甸| 郴州市| 仁化县| 丹江口市| 盐亭县| 岢岚县| 玛纳斯县| 威宁| 峡江县| 威信县| 凤城市| 沙坪坝区| 康乐县| 南通市| 乐至县| 金秀| 哈尔滨市| 陆丰市| 常熟市| 孝感市| 大理市| 东乌| 黎城县| 赤壁市| 沾益县| 延川县| 丰台区| 太原市| 赣榆县| 惠来县| 明星| 庆元县| 徐闻县| 中山市|