X
鼓楼区
台江区
仓山区
晋安区
马尾区
长乐区
福清市
闽侯县
连江县
永泰县
闽清县
罗源县
思明区
湖里区
集美区
海沧区
同安区
翔安区
芗城区
龙文区
龙海区
漳浦县
云霄县
诏安县
东山县
平和县
南靖县
长泰区
华安县
鲤城区
丰泽区
洛江区
泉港区
石狮市
晋江市
南安市
惠安县
安溪县
永春县
德化县
金门县
三元区
永安市
明溪县
清流县
宁化县
建宁县
泰宁县
将乐县
沙县区
尤溪县
大田县
仙游县
荔城区
城厢区
涵江区
秀屿区
延平区
建阳区
邵武市
武夷山市
建瓯市
顺昌县
浦城县
光泽县
松溪县
政和县
新罗区
永定区
上杭县
武平县
长汀县
连城县
漳平市
蕉城区
福安市
福鼎市
霞浦县
寿宁县
周宁县
柘荣县
古田县
屏南县
相关链接
首个基因挖掘大模型问世 _ 发展研究 _ 福建省经济信息中心
首个基因挖掘大模型问世
来源:光明日报 时间:2025-04-14 14:53 浏览量:38

  近日,北京大学定量生物学中心钱珑团队研发、构建了全球首个针对功能基因挖掘任务的大语言模型SYMPLEX。该模型能够自动高效地从海量生物文献中发现具有目标功能的关键基因,并进行精准筛选和功能验证,为后续的蛋白质功能设计、生物制剂开发以及生物制造的应用提供科学依据。团队与中科院深圳先进技术研究院娄春波研究员合作,将SYMPLEX应用于mRNA加帽酶基因的挖掘,获得的新加帽酶活性显著优于mRNA疫苗生产中采用的商业化酶,展示了大语言模型赋能生物制造的巨大潜力。相关研究成果日前发表于国际学术期刊《科学·进展》。

  “自然界生物体内蕴含着数量庞大的有用基因,这些基因经过亿万年自然选择,形成了丰富多样的序列组成和基因组合,演化出各种精妙的功能,帮助生物在各种不同环境中更好地生存繁衍。随着测序获得的生物序列累计达数十亿量级,这些天然基因也为生物制造与合成生物技术提供了基因元件的‘宝库’。”钱珑告诉记者,尽管天然基因具备极为丰富的功能和潜力,但目前只有一小部分热门基因被高质量注释并构建了序列或结构模型。“原因在于,基于序列、结构或深度学习的基因挖掘与蛋白质设计方法由于技术瓶颈无法拓展至复杂基因,进而制约了对高价值基因元件的挖掘与开发利用。”

  针对上述问题,团队创造性地将大型语言模型与结构化生物知识库深度融合,开发出SYMPLEX智能基因挖掘平台。这一平台是强大的功能基因搜索引擎,可通过自动化阅读与理解千万级体量的生物学文献,在基因、功能和知识水平上对文献内容进行提取分析,并与专家数据库进行概念对齐、交互和统计模式生成,从而产生高质量候选基因集合。对比结果表明,SYMPLEX大模型相比传统方法具有显著优势。

  研究团队还通过大模型挖掘了mRNA加帽酶,并进行了实验验证。“以前,mRNA疫苗背后的一项关键工艺——mRNA5’端加帽,一直是效率较低、成本高昂的‘卡脖子’环节。SYMPLEX发现了近2万个新型加帽酶,并对其中十余个序列进行了验证。我们从中找到了新酶,其活性超过当前mRNA疫苗制备使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶数据库,有望为mRNA疫苗和基于mRNA的基因疗法研究提供关键技术。”钱珑介绍。

  “本项研究开创了功能基因挖掘的新范式,为mRNA疫苗规模化生产提供了关键酶资源库。”钱珑表示,研究团队正在利用这一大模型进行更多可用于合成生物学的关键酶元件挖掘,并将该平台拓展至合成通路设计等领域,有望推动生物制造进入“人工智能驱动的科学研究”的新阶段。

扫一扫在手机上查看当前页面