麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

2
點(diǎn)贊
0
評(píng)論
1
轉(zhuǎn)載
我要入駐

Genos-m正式開源!面向人源微生物基因組的基座大模型

收錄于合集: # 科研成果

學(xué)者網(wǎng)訊(編輯/劉伶 通訊員/楊柳)近日,華大-之江Genos團(tuán)隊(duì)發(fā)布Genos-m——一個(gè)面向人體相關(guān)微生物基因組的開源基礎(chǔ)模型。

IMG_256

Genos-m以人體相關(guān)微生物基因組為主要預(yù)訓(xùn)練語料,覆蓋多個(gè)人體相關(guān)生態(tài)位,并同時(shí)納入共生微生物、病原微生物和噬菌體。模型可將微生物DNA序列、基因組和宏基因組樣本轉(zhuǎn)化為可復(fù)用的序列表征,在多項(xiàng)微生物基因組任務(wù)和真實(shí)宏基因組應(yīng)用中展現(xiàn)出優(yōu)異的穩(wěn)健性和可遷移性。

面向未來,Genos-m有望為病原微生物耐藥與毒力識(shí)別、候選益生菌篩選與功能評(píng)價(jià)、微生態(tài)評(píng)估與人群分層、個(gè)體化微生態(tài)管理等前沿研究與轉(zhuǎn)化應(yīng)用提供新的模型支撐。

為什么需要一個(gè)專門面向人體微生物基因組設(shè)計(jì)的模型?

人體微生物組與健康、疾病和個(gè)體差異密切相關(guān)。隨著微生物基因組數(shù)據(jù)積累,研究者關(guān)注的不僅是“有哪些微生物”,更包括其序列攜帶的功能、生態(tài)和表型信息?,F(xiàn)有通用DNA大模型通常面向跨物種、跨生命域序列訓(xùn)練,覆蓋廣、通用性強(qiáng);但聚焦人體相關(guān)微生物時(shí),通用性并不等于專業(yè)性。人體微生物組高度多樣,其功能差異常體現(xiàn)在菌株水平、可變基因區(qū)和長距離基因組上下文中。

Genos-m正是為這一場景設(shè)計(jì)。研究團(tuán)隊(duì)構(gòu)建了以人體相關(guān)微生物為主體的預(yù)訓(xùn)練語料,整合分離株基因組、高質(zhì)量宏基因組組裝基因組(MAGs)和噬菌體基因組,并輔以全球原核代表基因組,以增強(qiáng)對微生物序列多樣性和基礎(chǔ)規(guī)律的覆蓋,最終形成約1.2萬億核苷酸t(yī)oken的訓(xùn)練數(shù)據(jù)。

Genos-m模型如何工作?單堿基預(yù)測與長上下文建模

Genos-m采用單堿基分辨率的next-token prediction,即“下一堿基預(yù)測”預(yù)訓(xùn)練任務(wù)。模型以A/T/C/G等堿基為基本單位,通過預(yù)測下一個(gè)堿基,學(xué)習(xí)微生物DNA序列中的局部模式、基因結(jié)構(gòu)和長距離上下文關(guān)系。在架構(gòu)上,Genos-m繼承Genos的核心設(shè)計(jì),并針對微生物基因組語料擴(kuò)展專家容量。它使用稀疏激活的MoE Transformer:總參數(shù)規(guī)模約4.7B,每次推理僅激活約3.3億參數(shù),兼顧模型容量與計(jì)算效率。模型支持最長1M bp的上下文輸入,可覆蓋短序列、單基因、基因簇、噬菌體基因組及更長基因組片段,為跨尺度序列表征提供模型基礎(chǔ)。

IMG_257

圖:Genos-m模型架構(gòu):稀疏MoE Transformer使用32個(gè)專家和Top-2路由,支持最高1M bp上下文。

Genos-m模型表現(xiàn)如何?小激活規(guī)模下的跨任務(wù)優(yōu)勢

Genos-m的評(píng)測從微生物研究的真實(shí)需求出發(fā),覆蓋從短序列到完整基因組的多個(gè)層級(jí):包括啟動(dòng)子、耐藥基因、毒力因子等局部序列識(shí)別;生物合成基因簇(BGC)等長片段功能模塊識(shí)別與分類,以及基于全基因組序列的細(xì)菌表型預(yù)測。結(jié)果表明,Genos-m在較小激活規(guī)模下獲得了有競爭力的跨任務(wù)表現(xiàn),在多項(xiàng)任務(wù)中達(dá)到與Evo2-40B等更大規(guī)模通用DNA模型相當(dāng)?shù)乃剑⒃诳股啬退幓蜃R(shí)別、BGC分類和五項(xiàng)基因適應(yīng)性任務(wù)中取得比較模型中的最佳結(jié)果。這說明,Genos-m的核心優(yōu)勢來自面向人體相關(guān)微生物基因組場景的一系列整體設(shè)計(jì):高質(zhì)量預(yù)訓(xùn)練語料、長上下文建模,以及適合微生物序列多樣性的稀疏專家架構(gòu)。

從評(píng)測走向真實(shí)場景:疾病風(fēng)險(xiǎn)評(píng)估與低深度樣本表征

標(biāo)準(zhǔn)評(píng)測回答了Genos-m的表征能力是否可穩(wěn)定遷移。團(tuán)隊(duì)進(jìn)一步將模型放到人腸道宏基因組真實(shí)場景中,重點(diǎn)展示了兩個(gè)應(yīng)用方向:微生物組的自監(jiān)督學(xué)習(xí)建模和低深度樣本表征。

案例一:基因組表征增強(qiáng)微生物組的自監(jiān)督學(xué)習(xí)

在本場景中,團(tuán)隊(duì)將Genos-m生成的基因組表征接入微生物組群落自監(jiān)督學(xué)習(xí)模型,使模型在物種豐度之外,可進(jìn)一步利用代表基因組中的序列信息?;谌?4個(gè)腸道宏基因組隊(duì)列的結(jié)直腸癌病例-對照分類評(píng)估顯示,該策略在同隊(duì)列交叉驗(yàn)證和跨隊(duì)列遷移中,明顯優(yōu)于傳統(tǒng)物種豐度隨機(jī)森林模型。這意味著,復(fù)雜疾病相關(guān)的微生物信號(hào)不只體現(xiàn)在“哪些物種更多或更少”,更可能來自其基因組背景及功能潛力差異。Genos-m的作用,是將這些序列層信息轉(zhuǎn)化為群落模型可使用的表征,通過提供物種豐度之外的信息維度來提升疾病風(fēng)險(xiǎn)判別模型的穩(wěn)定性和跨人群可遷移性。

案例二:低深度宏基因組樣本表征

在本場景中,團(tuán)隊(duì)直接從下采樣reads生成宏基因組樣本級(jí)表征。結(jié)果顯示,僅使用1萬條reads,Genos-m仍能生成穩(wěn)定的人腸道樣本級(jí)表征,保留樣本間群落結(jié)構(gòu)差異,并捕捉宿主地理來源和腸型分層等關(guān)鍵群落信號(hào)。這意味著,在極低測序深度下,Genos-m也能快速、無需參考數(shù)據(jù)庫的生成可比較的樣本表征,為大規(guī)模低輸入宏基因組數(shù)據(jù)的樣本比對、來源評(píng)估和質(zhì)控預(yù)篩等提供輕量化分析路徑。

結(jié)語

Genos-m建立了一個(gè)面向人體相關(guān)微生物基因組與宏基因組的序列表征框架。通過高質(zhì)量預(yù)訓(xùn)練語料、稀疏專家架構(gòu)和長上下文建模,模型在微生物基因、基因組和宏基因組樣本等不同尺度上展現(xiàn)出穩(wěn)定的遷移能力。從標(biāo)準(zhǔn)評(píng)測到結(jié)直腸癌隊(duì)列建模和低深度樣本表征,Genos-m展示了高維序列信息在微生物研究與轉(zhuǎn)化場景中的應(yīng)用價(jià)值。未來,團(tuán)隊(duì)將繼續(xù)推動(dòng)模型迭代和開源應(yīng)用,服務(wù)于更廣泛的人體微生物與健康研究。( 全文完)

學(xué)者網(wǎng)機(jī)構(gòu)號(hào)是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號(hào)"平臺(tái),為學(xué)者團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號(hào)服務(wù),支持發(fā)布動(dòng)態(tài)、活動(dòng)、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

立足灣區(qū),放眼全國,我們希望能以專業(yè)的視角觀照社會(huì)科技發(fā)展前沿,以切中肯綮的見解為灣區(qū)科技創(chuàng)新做出自己的貢獻(xiàn),為灣區(qū)科技工作者、灣區(qū)科創(chuàng)企業(yè)、灣區(qū)科技發(fā)展趨勢,注入磅礴不息的生機(jī)與活力。
返回頂部
来凤县| 上思县| 准格尔旗| 涞源县| 鹤峰县| 出国| 深泽县| 丹寨县| 精河县| 英吉沙县| 于田县| 团风县| 博野县| 渭南市| 郴州市| 客服| 舞阳县| 镇巴县| 通城县| 盐池县| 福海县| 姜堰市| 新兴县| 商城县| 百色市| 西和县| 凉城县| 玛多县| 甘泉县| 开鲁县| 阳江市| 色达县| 汽车| 桂东县| 江油市| 兴海县| 光泽县| 英山县| 兴国县| 登封市| 鲜城|