科研进展

Nature Communications | IT+BT,罗小舟课题组揭秘酶催化常数预测的“黑科技”

时间:2023-12-13  来源:合成所 文本大小:【 |  | 】  【打印

  1211日,中国科学院深圳先进技术研究院合成所罗小舟团队Nature Communications发表题为UniKP: A unified framework for the prediction of enzyme kinetic parameters的文章。针对合成生物学和代谢工程领域湿实验测量酶动力学参数成本高、干实验算法难以准确预测等问题,研究团队提出了一种基于预训练大语言模型的统一框架UniKP,可从蛋白质序列和底物结构直接高精度预测酶的动力学参数,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat / Km,并在考虑包括pH和温度等环境因素、高值区间预测等特定任务上实现了很好的适应该模型结合了目前先进的深度学习算法IT和生物技术(BT),实现了酶动力学参数准确高效的预测和特定酶的高效挖掘和进化,大大加速了酶改造和设计进程,为化学生物学、代谢工程等领域的研究和相关的工业应用,提供了新的解决方案。这是罗小舟团队继2022年利用预训练语言模型和集成模型实现高效准确的多肽和蛋白质功能预测后(doi: 10.1093/bib/bbac476),融合前瞻性的技术在ITBT交叉领域的又一重要进展。     

  探秘酶的“速度秘密”:为什么这么重要? 

  研究特定底物的酶催化效率是一个基础而重要的生物学问题,对推动酶工程、代谢工程和合成生物学领域发展,具有深远影响。而酶在特定反应中的催化效率通常通过酶动力学参数来衡量,包括酶周转数(kcat)、米氏常数(Km)和催化效率(kcat / Km然而,目前酶动力学参数的测量主要依赖湿实验,这一过程耗时、昂贵且劳动密集,导致实验测得的酶动力学参数数据库规模相对较小。以包含序列信息的UniProt数据库为例,包含超过2.3亿条蛋白质序列,而酶数据库BRENDASABIO-RK仅包含数万实验测得的动力学参数,在某些物种中可能只有数十条序列,这种数据的稀缺性极大的限制了下游系统生物学和代谢工程领域的发展 

  研究人员们尝试利用计算方法加速酶动力学参数的预测过程,但当前的模型主要集中在单独的kcat或者单独的Km的预测上,通过这些工具计算得到的kcat / Km的数值往往与实验测量的真实值明显偏离而这恰恰是反映催化效率最直接、最关键的参数。此外,当前模型未考虑真实生物实验场景下的适应性,如会显著影响测得的酶动力学参数数值的环境因素,生物学家关心的特定区间的预测性能等。这些局限性使得当前工具停留理论模型的开发和数据分析上,并未对酶挖掘和定向进化等真实生物实验中面临的挑战产生实质性的影响,而解决这些挑战对下游应用具有重要意义。   

  黑科技登场!IT技术助力预测 

  为了解决上述问题,研究团队提出了基于预训练大语言模型和机器学习模型的酶动力学参数预测框架(UniKP),该框架通过给定酶的氨基酸序列和底物结构信息就可以实现多种不同的酶动力学参数(kcatKmkcat / Km)的预测。此外,为了实现对生物实验中不同任务场景的适应,我们对模型和数据进行了微调以实现更好的酶动力学参数的预测,包括针对不同环境因素、高值区间的预测等(图1)。 

  首先,研究团队以代表性的kcat数据集为例,系统的探索了机器学习模块16种不同机器学习模型和2代表性的深度学习模型(卷积神经网络和循环神经网络)在该数据集上五折交叉验证的性能,结果显示集成模型表现最好,尤其是随机森林和极端随机树显著优于其他模型,其中极端随机树表现最佳(R2 = 0.65(图2)。 

  接着,研究团队证实了UniKP框架在多个评估指标上显著超过了目前最先进模型的性能UniKP框架在独立测试集上,决定系数R2相较于最先进的模型有高达20个百分点优势;此外,在更严格的数据划分规则和不同数值区间下,UniKP展现出了更好的稳健性。通过SHAP特征分析发现,UniKP显示出对酶信息有一定的偏好这证实了在催化反应中酶信息的关键性作用。此外,UniKP也可以显著地对野生型酶及其突变体进行区分(图3-4

  更真实的预测:考虑环境因素的两层框架 

  为了更好的模拟生物实验环境,研究团队进一步通过将环境因素纳入考量,提出了基于UniKP的两层框架: EF-UniKP,实现了更准确地酶动力学参数的预测。为了验证这个策略,我们创建了涵盖pH和温度信息的两个数据集来对EF-UniKP进行评估。在测试集上,EF-UniKP相较于UniKPRevised UniKP表现更佳,R2分别高出20%8%pH数据集),以及26%2%(温度数据集)。在酶和底物至少有一个不在训练集的测试中,EF-UniKPpH数据集上的R2值相较于UniKPRevised UniKP分别高出13%10%,在温度数据集上分别高出16%4%此外,RMSEPCC优势也证实了EF-UniKP在考虑环境因素下对模型的显著改善(图5 

  重塑实验数据,预测更具针对性 

  此外,在对已有的kcat数据集分析发现,其分布高度不均衡,大部分样本集中在中间,两端只有少数样本,呈现正态分布的特征这种严重的数据失衡导致了高kcat区间的预测较高误差为了解决问题,研究团队运用了代表性的重新加权方法,包括直接修改样本权重(DMW)、成本敏感的重新加权方法(CSW)、类平衡的重新加权方法(CBW)以及标签分布平滑(LDSkcat数据集为例进行了优化。这些方法都显著降低了高值区间的误差,其中CBW效果最佳kcat值的样本CBW的优化下均方根误差比初始模型降低了6.5%(图6a-c 

  进一步地,为了评估UniKP框架在Kmkcat / Km任务上的预测性能,研究团队选取了目前公开可获得的Km数据集和新构建的kcat / Km数据集获得了目前最先进的预测性能,这也证实了通过框架可以实现小分子-蛋白质相互作用任务的统一化预测(图6d-f   

  UniKP助力酶挖掘和定向进化 

  最后,为了探索UniKP及其衍生框架在酶工程领域的实际应用,研究团队以类黄酮合成中的关键限速酶,酪氨酸脱氨酶(Tyrosine ammonia lyase, TAL为例来进行挖掘和进化。实验结果表明,UniKP有效地识别了在数据库中TAL的同工酶里以及已知TAL的突变体里的高活性TAL酶,无论是挖掘新酶,还是进化已有酶,都得到了显著提高的催化效率,其中RgTAL-489Tkcat / Km值比野生型酶高出3.5倍。此外,衍生框架EF-UniKP也可以在考虑环境因素的情况下,精准识别高活性的TAL酶,验证的5序列kcatkcat / Km值均优于野生型TAL,最高的kcat / Km值比野生型酶在给定pH情况下高2.6倍。该结果证实了UniKP可以有效的加速酶挖掘和进化的过程,有望成为推动生物催化、药物发现、代谢工程等领域的强大工具(表1    

  总结与展望 

  该项工作融合了先进的人工智能模型(IT技术)和生物实验(BT技术),建立UniKP框架实现了酶动力学参数的准确预测,同时对环境因素、高值区间等特定的实验任务进行了很好的适应。实验结果表明,利用UniKP框架可以有效助力酶挖掘和定向进化的过程,快速筛选到对特定底物更高活性的变体显著降低了酶筛选的时间和成本。目前,研究团队正在与合成生物学领域公司森瑞斯生物科技展开进一步的合作,推动该技术的落地和转化。 

  该项工作利用IT领域先进的人工智能技术在BT领域进行尝试,即合成生物学基本的功能元件酶的催化效率的预测,表明了人工智能在合成生物学领域应用的巨大潜力,这对酶工程、系统生物学、代谢工程等领域具有重要的参考价值和应用意义为合成生物学方法的设计和研究开拓思路。   

  中国科学院深圳先进院合成生物学研究所研究员罗小舟为本文的通讯作者,团队成员硕士研究生余函和助理研究员邓华祥为文章共同第一作者,研究助理何佳慧在生物实验等方面做出了重要贡献,Jay. D. Keasling教授在实验设计及文章修改方面提出了宝贵意见。该研究获得国家重点研发计划、国家自然科学基金委、广东省基础与应用基础研究基金委、深圳市科技计划等多个项目的支持,以及深圳市微生物药物智能制造重点实验室、深圳合成生物学创新研究院和定量合成生物学重点实验室等平台的支持。同时,感谢科研助理魏珍琴在项目实施过程中协助组织会议讨论等支撑工作 

    

  

1 UniKP框架结构     

  

不同机器学习模型的性能比较(机器学习模块)     

  

UniKP以高度的准确性预测kcat数值 

    

  

UniKP显著区分野生型酶及其变体     

 

EF-UniKP框架实现环境条件下更准确的预测     

  

重新加权方法改善高区间预测 UniKP框架泛化性的验证     

  

UniKPEF-UniKP辅助酶的挖掘和进化

  原文链接