新闻网讯 1月8日,生命学院薛宇教授团队在Nature Biomedical Engineering杂志上发表了题为“A deep learning and large language hybrid workflow for omics interpretation”的研究论文。该研究开发了一种名为“蓝猫(LyMOI)”的革命性混合工作流,它将深度学习的精准预测能力与大语言模型的常识推理能力相结合,首次为大规模组学数据的机制性解读提供了一个高效、智能且具备“生物学家思维”的解决方案。
“蓝猫”:为组学数据装上“AI大脑”
典型的组学数据解读需要科学家们从海量分子中筛选出候选目标分子,并基于大量文献阅读,梳理它们之间的相互作用关系,最终形成一套完整的机制性解释。这是一个耗时耗力的过程。“蓝猫”工作流的创新之处在于,它巧妙地将这一过程自动化、智能化。
该工作流的核心是一个“双核引擎”:
大型图模型:研究团队整合了涵盖562个真核物种、涉及超过109万个蛋白质的近1.88亿个相互作用数据,构建了一个超大规模的知识图谱。随后,利用先进的图卷积网络技术对该图谱进行预训练和逐层微调,使其能够从复杂的分子网络中学习并预测在特定生物情境下起关键作用的调控因子。大语言模型:研究团队通过创新的“提示词工程”,引导GPT-3.5生成了数万个高质量的生物学知识对。在此基础上,“蓝猫”能够针对大型图模型预测出的关键分子,自动生成“机器思维链”,像一位博学的生物学家一样,推理并阐述这些分子在生物系统中扮演的具体角色和作用机制。
以自噬为例:验证“蓝猫”的强大效能
为了验证“蓝猫”的效能,研究团队以细胞自噬——这一与多种疾病相关的关键细胞过程——作为模型系统。他们收集并处理了1.3 TB的、涵盖人类、小鼠、大鼠和酵母四种生物体的自噬相关多组学数据。结果显示,与传统差异表达分析平均仅能覆盖4.1%的已知自噬调控基因相比,“蓝猫”的预测将这一比例显著提升至30.9%,极大地提升了组学数据挖掘的生物学相关性。通过“蓝猫”的指导,研究团队成功在实验中验证了四个在酵母中先前未知的自噬调控因子(Gin4, Elm1, Rvs167, Ste50)及其与核心自噬机器的关联。
从虚拟到现实:发现抗癌治疗新靶点与新策略
更具转化医学价值的是,“蓝猫”成功地将目光投向了癌症治疗。它推理出两种人类癌蛋白——CTSL和FAM98A,是抗肿瘤药物双硫仑(DSF)触发保护性自噬所必需的关键因子。后续的细胞实验证实,沉默这两个基因能有效减弱DSF介导的自噬,并抑制癌细胞的增殖。最令人振奋的发现来自于动物实验:将DSF与Z-FY-CHO(一种先前用于预防SARS-CoV-2感染的CTSL特异性抑制剂)联合使用,在体内实验中表现出远超预期的肿瘤生长抑制效果。这为DSF的临床应用,以及针对CTSL的癌症联合疗法,开辟了全新的道路。
综上所述,薛宇教授团队开发的“蓝猫”工作流,不仅是一个强大的组学数据解读工具,更代表了一种AI与人类专家协同探索生命奥秘的新范式。它通过赋予机器“常识”与“推理”能力,加速了我们从海量数据到生物学机制,再到潜在治疗策略的转化进程,有望为未来生物医学研究带来颠覆性的变革。

唐大超、张弛、张玮之为该论文的共同第一作者。薛宇和彭迪副教授为该论文的通讯作者。四川大学贾大教授、复旦大学杨力教授、北京理工大学刘滨教授、澳门大学沈汉明教授、rabey雷竞技同济医学院陈刚教授、孙朝阳教授、武汉大学崔逸仙教授、rabey雷竞技张珞颖教授等也为课题提供了大力支持。本项目得到国家重点研发计划、国家自然科学基金等项目资助。
原文链接:https://www.nature.com/articles/s41551-025-01576-5