科研进展

Briefings in Bioinformatics | 人工智能算法指导实验机器人进行蛋白质工程改造

时间:2022-12-27  来源:合成所 文本大小:【 |  | 】  【打印

  北京时间12月24日,中国科学院深圳先进技术研究院司同课题组和乔宇课题组合作,在生物信息期刊Briefings in Bioinformatics (IF: 13.994) 在线发表研究论文 “Protein engineering via Bayesian optimization-guided evolutionary algorithm and robotic experiments”

  本研究依托深圳合成生物研究重大科技基础设施,开发了一种自动化蛋白质工程方法BO-EVO, 通过多轮机器学习与机器实验迭代,大幅提升了蛋白质多位点组合突变设计空间的探索效率,能够以<1%湿实验量寻找获得全局最优实验结果。除利用文献数据、理论模型数据进行验证外,BO-EVO方法被应用于实际蛋白质工程任务,4周内将鼠李糖脂合成酶RhlA的酶底物特异性提升4.8倍。

文章上线截图 

文章链接:https://doi.org/10.1093/bib/bbac570

  蛋白质适应度地形(fitness landscape)隐喻蛋白质氨基酸序列与其目标性质(“适应度”)对应关系形成的高维表面。蛋白质工程改造可视为在这个高维表面上寻找高点对应的序列。然而有效探索该地形将面临几个挑战1. 探索空间随序列长度指数增长;2. 有功能的蛋白极其稀少且高性能蛋白数量随其适应度呈指数衰减;3. 由于序列位点间突变存在上位效应,地形极度崎岖;4. 实验表征费时、费力、费钱。定向进化采用多轮的随机突变与高通量筛选对适应度地形开展探索,通常每轮固定一个最佳突变。然而,由于适应度地形通常较为崎岖,贪婪策略容易陷入局部最优。 

  在该研究中,机器学习在建模蛋白质适应度地形及指导蛋白质工程方面都取得了初步成功。然而,一方面受限于序列特征不充分及适应度标签数据稀疏,机器学习模型性能有限;另一方面受限于人力实验,现有机器学习指导的蛋白工程改造都追求尽可能小的实验通量和尽可能少的迭代轮次(甚至无迭代)。生物铸造厂(Biofoundry)通过物理与信息的自动化可以加速生物工程的“设计-构建-测试-学习”闭环过程。在蛋白质工程任务上,自动化、高通量实验平台使得短时间内大批量建库和筛选成为可能,从而能够获取高通量、高质量的序列-功能关系数据,用于机器学习模型性能及序列设计质量的闭环迭代提升。 

  为了实现机器学习算法与机器人实验之间的高效反馈,数据获取、模型构建及序列推荐三者缺一不可,形成闭环。就算法而言,贝叶斯优化正适用于这种复杂适应度地形的寻优,其可利用预测模型的不确定性构建采样函数以平衡“探索与利用”。然而,经典的贝叶斯优化方法并不适用于高维问题及批量采样。本研究针对蛋白质多位点组合突变设计空间的高维搜索难题,开发了贝叶斯优化指导的进化算法(BO-EVO,图1)。作者在研究中提出了搜索空间演化策略,克服经典贝叶斯优化的可扩展性问题,采用迭代式批量化采样策略,实现与高通量、自动化实验平台的高效适配。 

图1. BO-EVO原理图。a. BO-EVO算法流程展示搜索空间演化; b. FAST-HIT软件框架实现数据获取、模型构建与序列推荐的闭环迭代。

  文章以四位点组合突变的GB1经验地形数据开发算法,确定算法超参。在GB1地形上,BO-EVO性能超越随机算法、纯进化算法(AdaLead)甚至MCMC算法(图2);其性能虽不及全空间枚举的贝叶斯优化方法,但计算效率大大提高,可扩展性极好。

图2. 适应度地形探索算法比较。a. 找到全局最优的成功率;b. 算法所推荐的序列的适应度均值及最大值。

  为了考察对不同适应度地形的适用性,作者将开发好的BO-EVO算法(超参不变)应用在另外一个四位点组合突变的经验地形PhoQ上,获得了更高的成功率(图3)。此外,作者进一步挑战BO-EVO,将其用在具有不同粗糙度的NK模拟地形(统计模型,粗糙度可控)上,发现对于中等及以下粗糙度的NK地形,BO-EVO表现优秀,而对极其崎岖的地形,BO-EVO的成功率明显下降(图3)。当然,对于极其崎岖的地形,其适应度的可预测性本身极大降低。

图3. BO-EVO在不同地形上的泛化能力。a. NK地形的粗糙度;b. BO-EVO迭代5轮后找到全局最优的成功率。绿色圆圈代表NK地形,蓝色三角形代表PhoQ地形,紫色五角星代表GB1地形。

  最后,作者将BO-EVO算法成功应用于真实的蛋白质工程任务上。面向4位点组合突变的优化任务,作者以鼠李糖脂合成酶RhlA为研究对象,基于BO-EVO指导机器人平台开展自动化实验,进行共4轮、每轮384个突变体的分子克隆、诱导表达和质谱测试。在不使用先验知识的前提下,BO-EVO通过模型-实验闭环迭代,在1个月内实现底物选择性指标近5倍的提升,达到文献已报道最高水平。

 

4. BO-EVO指导RhlA酶的4位点组合优化。a. 鼠李糖脂单体Rha-C10-C10分子结构;b. 鼠李糖脂单体的MALDI质谱检测结果,包括野生型与典型变体;c. Rha-(C8-C10)的归一化产量,野生型为1。

  综上,文章依托深圳合成生物大设施,开发了蛋白质适应度地形的高效探索算法,率先实现了基于机器学习模型与机器人实验反馈迭代的自动化蛋白质工程改造。司同研究员、乔宇研究员和胡如云助理研究员为本文的共同通讯作者,胡如云助理研究员和博士生付立豪为本文共同第一作者。本研究得到国家重点研发计划、国家自然基金及深圳合成生物学创新研究院等项目支持。 

    

  PI与课题组简介: 

  司同,中科院深圳先进院合成生物学研究所研究员,博士生导师。国家重点研发计划合成生物学项目首席科学家,国家高层次人才(青年),深圳合成生物研究重大科技基础设施总工艺师。 

  课题组方向为自动化合成生物技术,包括机器学习指导蛋白工程、高通量质谱筛选等,用于开发微生物细胞工厂研究和生产燃料、化工品、药物等重要分子,前期成果在Nat Commun, J Am Chem Soc, Angew Chem Int Ed, Chem Sci, Metab Eng等国际著名学术期刊发表论文50余篇,“谷歌学术”引用超过2400次。 

  实验室主页:  

  http://isynbio.siat.ac.cn/sitonglab/