用户名
UID
Email
密码
记住
立即注册
找回密码
只需一步,快速开始
微信扫一扫,快速登录
开启辅助访问
收藏本站
快捷导航
门户
Portal
社区
资讯
会议
市场
产品
问答
数据
专题
帮助
签到
每日签到
企业联盟
人才基地
独立实验室
产业园区
投资机构
检验科
招标动态
供给发布
同行交流
悬赏任务
共享资源
VIP资源
百科词条
互动话题
导读
动态
广播
淘贴
法规政策
市场营销
创业投资
会议信息
企业新闻
新品介绍
体系交流
注册交流
临床交流
同行交流
技术杂谈
检验杂谈
今日桔说
共享资源
VIP专区
企业联盟
投资机构
产业园区
业务合作
投稿通道
升级会员
联系我们
搜索
搜索
本版
文章
帖子
用户
小桔灯网
»
社区
›
C、IVD技术区
›
原料技术
›
IBM加入AI蛋白质领域,发表集成大语言模型的算法框架优 ...
图文播报
2025庆【网站十二周
2024庆中秋、迎国庆
2024庆【网站十一周
2023庆【网站十周年
2022庆【网站九周年
2021庆中秋、迎国庆
返回列表
查看:
3686
|
回复:
0
[分享]
IBM加入AI蛋白质领域,发表集成大语言模型的算法框架优化酶设计
[复制链接]
检验之星
检验之星
当前离线
金桔
金币
威望
贡献
回帖
0
精华
在线时间
小时
雷达卡
发表于 2025-3-2 09:09
|
显示全部楼层
|
阅读模式
登陆有奖并可浏览互动!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
IBM的研究团队近日在Bioinformatics发表研究文章,Integrating genetic algorithms and language models for enhanced enzyme design,《集成遗传算法和语言模型以增强酶设计》
研究背景
1.研究问题:这篇文章要解决的问题是如何优化酶的设计,以提高其催化效率和可行性。酶是自然界中优化到极致的分子机器,但其设计由于蛋白质空间的复杂性和序列、结构、功能之间的错综复杂关系而变得具有挑战性。
2.研究难点:该问题的研究难点包括:蛋白质序列空间的高基数使得优化过程复杂;传统优化方法容易陷入局部最优解。
3.相关工作:近年来,大型语言模型(LLMs)在处理和生成模仿人类写作的文本方面显示出前所未有的能力,并在化学和生物科学中得到了广泛应用。然而,LLMs在蛋白质设计中的应用受到高基数空间的限制。遗传算法(GAs)已被应用于广泛的复杂优化问题,但在蛋白质序列优化方面的应用尚未得到充分探索。
研究方法
这篇论文提出了一种结合大型语言模型(LLMs)和遗传算法(GAs)的框架,用于优化酶的设计。具体来说,
1.LLMs的使用:首先,LLMs在大量蛋白质序列数据集上进行训练,学习氨基酸残基与结构和功能之间的关系。然后,利用这些知识,LLMs指导生成一系列突变体。
2.遗传算法的应用:其次,生成的突变体通过遗传算法进行进化处理。遗传算法包括选择、交叉和变异三个阶段。在选择阶段,选择适应度评分高的序列进行后续修改;在交叉阶段,从选定序列中混合片段以产生新变体;通过迭代循环,逐步进化酶序列,最终实现催化性能的提升。
3.适应度函数:优化过程中使用两种适应度函数进行评估:可行性评分(fs)和周转数(Kcat)。可行性评分通过随机森林(RF)算法评估序列催化特定反应的可能性;Kcat值通过XGBoost算法预测,反映酶的催化效率。
实验设计
1.数据收集:数据来自BRENDA和UniProtKB数据库,经过清洗和标准化处理,最终得到119,000个样本。样本被标记为“报告”以指示已验证的底物-产物-酶关联,并通过随机生成的底物-产物-酶对进行增强。
2.突变生成:使用ESM-2模型进行突变生成,通过掩蔽蛋白质序列中的特定区域来模拟潜在的突变位点,并预测这些掩蔽残基的身份。每个突变位置生成三个潜在突变,选择最合适的氨基酸。
3.遗传算法优化:使用GA优化酶序列,评估突变体的适应度。可行性模型通过RF算法评估,Kcat模型通过XGBoost算法评估。优化过程中保持500的种群大小,限制优化至30代,保留每代中适应度评分前80%的序列。
结果与分析
1.突变策略效果:LLM策略在优化过程中表现出更快的收敛速度,且在允许更高程度序列变异的情况下,LLM策略的Wasserstein距离显著低于其他基于转移矩阵的策略。
2.优化结果:在105个生物催化反应中,LLM-GA框架生成的突变体在90%的实例中提高了反应的可行性。Kcat值的优化结果显示,优化后的酶在所有测试反应中均优于野生型酶。
3.结构验证:通过分子动力学(MD)模拟验证了优化酶的结构稳定性。模拟结果显示,突变体的主要二面角偏差较小,且与野生型酶的偏差没有显著趋势。
总体结论
这篇论文展示了一种结合大型语言模型和遗传算法的酶优化框架,能够有效识别和实施突变以提高蛋白质功能。该方法在105个生物催化反应数据集上验证了其有效性,显著提高了反应的可行性和酶的催化效率。分子动力学模拟进一步确认了优化酶的结构稳定性。该研究为计算生物催化剂的设计开辟了新的途径,有助于实现更高效和可持续的化学过程。
优点与创新
1.创新性框架:提出了一个结合大型语言模型(LLMs)和遗传算法(GAs)的新框架,用于加速酶设计。
2.数据集处理:使用了来自BRENDA和UniProtKB数据库的广泛数据集,经过清洗和标准化,确保了数据集的多样性和代表性。
3.突变生成策略:采用了基于ESM-2模型的突变生成策略,并通过Wasserstein距离评估了不同突变策略的效率,证明了LLMs策略在序列变异中的优越性。
4.多目标优化:同时优化了酶的可行性和催化效率(Kcat值),并在测试集中实现了100%的Kcat值提升。
5.分子动力学验证:通过分子动力学(MD)模拟验证了优化后酶的结构稳定性,确保突变不会显著改变蛋白质的结构。
6.模块化设计:框架设计高度模块化,可以集成多种性能指标进行酶性能的综合优化。
7.广泛应用:研究展示了该方法在不同酶类别和反应类型中的广泛应用潜力。
记录
AI蛋白质设计
在诺奖背后的人和事
原文地址:https://zhuanlan.zhihu.com/p/18688293693
楼主热帖
小桔灯网业务合作须知!
如何注册小桔灯网VIP会员?
CE认证是啥?做啥样的才合适
[
CE注册
]
假设检验的p值
[
临检实验室(ICL)
]
不考虑宏大叙事,只说一个简单的原因解释为什么要生孩子?
[
生殖医学
]
免疫组化
[
免疫组化技术
]
《病理检验技术》笔记+知识点总结+期末真题答案+名解简答题库
[
病理检验
]
宿主细胞蛋白检测用什么仪器好?
[
特定蛋白分析
]
基于分子和细胞水平的微流控芯片诊断研究
[
微流控技术
]
现在还推荐学精神医学吗?
[
液体活检技术
]
回复
使用道具
举报
提升卡
返回列表
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
NMPA注册
标本处理
行业研究
血液临检
招标动态
生化技术
关闭
官方推荐
/3
【扫描左侧二维码关注微信】参与交流!
网站定期开展行业相关话题互动交流活动!对认真参与讨论的桔友将有金桔奖励!欢迎参与。
查看 »
IVD业界薪资调查(月薪/税前)
长期活动,投票后可见结果!看看咱们这个行业个人的前景如何。请热爱行业的桔友们积极参与!
查看 »
小桔灯网视频号开通了!
扫描二维码,关注视频号!
查看 »
返回顶部
快速回复
返回列表
客服中心
搜索
官方QQ群
洽谈合作
关注微信
微信扫一扫关注本站公众号
个人中心
个人中心
登录或注册
业务合作
-
投稿通道
-
友链申请
-
手机版
-
联系我们
-
免责声明
-
返回首页
Copyright © 2008-2024
小桔灯网
(https://www.iivd.net) 版权所有 All Rights Reserved.
免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。
Powered by
Discuz!
X3.5 技术支持:
宇翼科技
浙ICP备18026348号-2
浙公网安备33010802005999号
快速回复
返回顶部
返回列表