又色又爽又黄在线观看,偷拍视频一区二区,九九人人综合网

學者網(wǎng)訊（編輯/劉伶通訊員/楊柳）近日，華大-之江Genos團隊發(fā)布Genos-m——一個面向人體相關(guān)微生物基因組的開源基礎(chǔ)模型。

Genos-m以人體相關(guān)微生物基因組為主要預訓練語料，覆蓋多個人體相關(guān)生態(tài)位，并同時納入共生微生物、病原微生物和噬菌體。模型可將微生物DNA序列、基因組和宏基因組樣本轉(zhuǎn)化為可復用的序列表征，在多項微生物基因組任務和真實宏基因組應用中展現(xiàn)出優(yōu)異的穩(wěn)健性和可遷移性。

面向未來，Genos-m有望為病原微生物耐藥與毒力識別、候選益生菌篩選與功能評價、微生態(tài)評估與人群分層、個體化微生態(tài)管理等前沿研究與轉(zhuǎn)化應用提供新的模型支撐。

為什么需要一個專門面向人體微生物基因組設(shè)計的模型？

人體微生物組與健康、疾病和個體差異密切相關(guān)。隨著微生物基因組數(shù)據(jù)積累，研究者關(guān)注的不僅是“有哪些微生物”，更包括其序列攜帶的功能、生態(tài)和表型信息。現(xiàn)有通用DNA大模型通常面向跨物種、跨生命域序列訓練，覆蓋廣、通用性強；但聚焦人體相關(guān)微生物時，通用性并不等于專業(yè)性。人體微生物組高度多樣，其功能差異常體現(xiàn)在菌株水平、可變基因區(qū)和長距離基因組上下文中。

Genos-m正是為這一場景設(shè)計。研究團隊構(gòu)建了以人體相關(guān)微生物為主體的預訓練語料，整合分離株基因組、高質(zhì)量宏基因組組裝基因組(MAGs)和噬菌體基因組，并輔以全球原核代表基因組，以增強對微生物序列多樣性和基礎(chǔ)規(guī)律的覆蓋，最終形成約1.2萬億核苷酸t(yī)oken的訓練數(shù)據(jù)。

Genos-m模型如何工作？單堿基預測與長上下文建模

Genos-m采用單堿基分辨率的next-token prediction，即“下一堿基預測”預訓練任務。模型以A/T/C/G等堿基為基本單位，通過預測下一個堿基，學習微生物DNA序列中的局部模式、基因結(jié)構(gòu)和長距離上下文關(guān)系。在架構(gòu)上，Genos-m繼承Genos的核心設(shè)計，并針對微生物基因組語料擴展專家容量。它使用稀疏激活的MoE Transformer：總參數(shù)規(guī)模約4.7B，每次推理僅激活約3.3億參數(shù)，兼顧模型容量與計算效率。模型支持最長1M bp的上下文輸入，可覆蓋短序列、單基因、基因簇、噬菌體基因組及更長基因組片段，為跨尺度序列表征提供模型基礎(chǔ)。

圖：Genos-m模型架構(gòu)：稀疏MoE Transformer使用32個專家和Top-2路由，支持最高1M bp上下文。

Genos-m模型表現(xiàn)如何？小激活規(guī)模下的跨任務優(yōu)勢

Genos-m的評測從微生物研究的真實需求出發(fā)，覆蓋從短序列到完整基因組的多個層級：包括啟動子、耐藥基因、毒力因子等局部序列識別；生物合成基因簇(BGC)等長片段功能模塊識別與分類，以及基于全基因組序列的細菌表型預測。結(jié)果表明，Genos-m在較小激活規(guī)模下獲得了有競爭力的跨任務表現(xiàn)，在多項任務中達到與Evo2-40B等更大規(guī)模通用DNA模型相當?shù)乃剑⒃诳股啬退幓蜃R別、BGC分類和五項基因適應性任務中取得比較模型中的最佳結(jié)果。這說明，Genos-m的核心優(yōu)勢來自面向人體相關(guān)微生物基因組場景的一系列整體設(shè)計：高質(zhì)量預訓練語料、長上下文建模，以及適合微生物序列多樣性的稀疏專家架構(gòu)。

從評測走向真實場景：疾病風險評估與低深度樣本表征

標準評測回答了Genos-m的表征能力是否可穩(wěn)定遷移。團隊進一步將模型放到人腸道宏基因組真實場景中，重點展示了兩個應用方向：微生物組的自監(jiān)督學習建模和低深度樣本表征。

案例一：基因組表征增強微生物組的自監(jiān)督學習

在本場景中，團隊將Genos-m生成的基因組表征接入微生物組群落自監(jiān)督學習模型，使模型在物種豐度之外，可進一步利用代表基因組中的序列信息。基于全球14個腸道宏基因組隊列的結(jié)直腸癌病例-對照分類評估顯示，該策略在同隊列交叉驗證和跨隊列遷移中，明顯優(yōu)于傳統(tǒng)物種豐度隨機森林模型。這意味著，復雜疾病相關(guān)的微生物信號不只體現(xiàn)在“哪些物種更多或更少”，更可能來自其基因組背景及功能潛力差異。Genos-m的作用，是將這些序列層信息轉(zhuǎn)化為群落模型可使用的表征，通過提供物種豐度之外的信息維度來提升疾病風險判別模型的穩(wěn)定性和跨人群可遷移性。

案例二：低深度宏基因組樣本表征

在本場景中，團隊直接從下采樣reads生成宏基因組樣本級表征。結(jié)果顯示，僅使用1萬條reads，Genos-m仍能生成穩(wěn)定的人腸道樣本級表征，保留樣本間群落結(jié)構(gòu)差異，并捕捉宿主地理來源和腸型分層等關(guān)鍵群落信號。這意味著，在極低測序深度下，Genos-m也能快速、無需參考數(shù)據(jù)庫的生成可比較的樣本表征，為大規(guī)模低輸入宏基因組數(shù)據(jù)的樣本比對、來源評估和質(zhì)控預篩等提供輕量化分析路徑。

結(jié)語

Genos-m建立了一個面向人體相關(guān)微生物基因組與宏基因組的序列表征框架。通過高質(zhì)量預訓練語料、稀疏專家架構(gòu)和長上下文建模，模型在微生物基因、基因組和宏基因組樣本等不同尺度上展現(xiàn)出穩(wěn)定的遷移能力。從標準評測到結(jié)直腸癌隊列建模和低深度樣本表征，Genos-m展示了高維序列信息在微生物研究與轉(zhuǎn)化場景中的應用價值。未來，團隊將繼續(xù)推動模型迭代和開源應用，服務于更廣泛的人體微生物與健康研究。( 全文完)

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

Genos-m正式開源！面向人源微生物基因組的基座大模型

評論 0

近期熱門新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

Genos-m正式開源！面向人源微生物基因組的基座大模型

評論 0

近期熱門新聞

下一篇

Genos-m正式開源！面向人源微生物基因組的基座大模型