科技日報北京10月23日電 (記者張佳星)23日,華大生命科學研究院與之江實驗室聯(lián)合發(fā)布全球首個百億參數(shù)可部署的基因組通用基礎模型Genos。該模型支持多達百萬堿基對的超長上下文分析,并實現(xiàn)單堿基分辨率的精準識別。
人類基因組由30億對堿基組成。“人類基因組計劃”破譯了序列,但序列上堿基的具體功能仍需要精準識別和解析。
現(xiàn)有模型大多基于1—2個參考基因組開展訓練,難以體現(xiàn)人類遺傳資源的多樣性。而Genos整合了人類泛基因組參考聯(lián)盟(HPRC)、人類基因組結構變異圖譜計劃(HGSVC)等多個權威公開資源,首次將全球范圍內(nèi)636個“端粒到端?!奔墑e的高質(zhì)量人類基因組作為訓練數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全球不同人群,有助更全面理解人類遺傳多樣性。
算法架構方面,Genos通過“混合專家”架構,精準調(diào)度強相關“專家”算法協(xié)同處理,在匯總百億級龐大參數(shù)時成功降低推理成本和資源消耗,讓模型既強大、又好用。
測試結果顯示,Genos在直接面向臨床應用的致病性突變解讀任務中,準確率達92%;結合科學基礎模型后,準確率高達98.3%。多項綜合評測結果也顯示,Genos超越現(xiàn)有最佳水平模型。
華大生命科學研究院相關負責人說,Genos模型已在HuggingFace(抱抱臉)、魔搭等平臺全面開源開放,提供12億和100億參數(shù)兩個版本,滿足不同需求。
Copyright ? 2001-2025 湖北荊楚網(wǎng)絡科技股份有限公司 All Rights Reserved
互聯(lián)網(wǎng)新聞信息許可證 4212025003 -
增值電信業(yè)務經(jīng)營許可證 鄂B2-20231273 -
廣播電視節(jié)目制作經(jīng)營許可證(鄂)字第00011號
信息網(wǎng)絡傳播視聽節(jié)目許可證 1706144 -
互聯(lián)網(wǎng)出版許可證 (鄂)字3號 -
營業(yè)執(zhí)照
鄂ICP備 13000573號-1
鄂公網(wǎng)安備 42010602000206號
版權為 荊楚網(wǎng) www.hvac-repair-2022.com 所有 未經(jīng)同意不得復制或鏡像