当前位置:首页 > 好文 > 正文

百图生科发布全球首个 2100 亿参数生物大模型,为生命科学带来新突破

  • 好文
  • 2024-11-06 10:20:02
  • 14

据 IPO 早知道消息,BioMap 百图生科日前正式发布了全新一代生命科学基础大模型——xTrimo V3。该模型在 V2 大模型突破千亿参数、理解蛋白质语言的基础上,进一步扩展到 2100 亿参数,覆盖蛋白质、DNA、RNA 等七大生命科学主流模态,能够建模更加广泛的基因组学、细胞、系统等问题,为基因编辑、靶点发现、细胞调控、菌株改造、生命科学图像分析等场景带来新的能力。

百图生科发布全球首个 2100 亿参数生物大模型,为生命科学带来新突破

作为全球最早专注于生命科学基础大模型的平台公司,自 2020 年成立以来,百图生科始终致力于在这一高难度技术平台上取得突破。生命科学基础大模型并非自然语言大模型生物学文本的垂直应用、垂直“大模型”,而是围绕生命科学的氨基酸、碱基等高复杂序列数据,开发一套与自然语言基础大模型理念相近,但技术完全不同的基础大模型底层技术。与生命科学多样化具体任务结合,理解和对齐复杂的生命科学组学数据,理解生命科学规律并建立基础图谱,建立生命科学行业原有数据规模百倍以上的超大规模数据集,这些都是过去四年间,生命科学基础大模型先行者们所面对的挑战。

2022 年和 2023 年,百图生科先后发布 xTrimo V1、V2,实现了世界首个千亿参数的生命科学基础大模型——利用海量蛋白质序列数据训练的千亿参数蛋白大模型,参数量较第二名高 8 倍以上,在数十个任务上超越行业达到 SOTA 水平,特别是支撑蛋白质结构预测等关键问题达到前所未有的准确度和性能,实现了大量的商业和技术突破;利用海量单细胞组学数据实现的单细胞大模型,初步验证了多维度、跨模态的技术,为跨模态建模复杂生命体打下了坚实的基础,并支撑十余个靶点发现、细胞分类等任务取得 SOTA 成绩。相关工作多次登上 Nature 子刊封面和学术顶会。

xTrimo 基础大模型平台上,目前已有 200 余个任务模型取得评测 SOTA 水平,在药物研发中涉及通用蛋白、多种构型的抗体、细胞疗法、基因疗法等多个领域,以及靶点发现、工艺优化、合成生物学、生物制造、生命科学工具等多样的方向。基础大模型的贡献,并不在于能以单一技术、一己之力解决前沿问题,而是在面对多样化、缺乏数据的前沿问题、缺乏泛化能力的现有模型时,能够利用千亿参数和万亿数据中蕴含的知识,进行 embedding 赋能,为难解之题带来一些来源于十亿年生物进化树上的高维信息。

百图生科打造的 200 余个 AI 模型,已先后助力开发了 20 余种前沿抗体和酶、实现了 10 余个创新靶点的挖掘,并都经过了实验验证,推动进入临床前研发等后续阶段。AI 模型驱动的高通量自动化流程,覆盖从分子生成、实验验证、闭环迭代的完整链路,大幅提高合作客户的研发效率,缩短研发周期。

百图生科在内部应用大模型平台实现高效建模后,一直在探索更强的工具链和产品化能力。2023 年 3 月,百图生科发布了基于 xTrimo 驱动的 AIGP(AI Generated Protein)平台。这个被业界誉为“能生成蛋白质的 ChatGPT”,为生命科学领域的研究者提供了一个便捷的交互窗口,即使是不具备编程能力的科研人员也可利用大模型和数十个蛋白质相关任务模型、配套软硬件系统,开展创新蛋白设计研究。

此次,xTrimo V3 平台还发布了专为生命科学 AI 模型设计的模型工具链——包含面向多种数据场景和用户需求的 Model Builder 模块,支持模型管理和组装的 Model Hub 模块,以及加速模型调用和物理计算的 Model Booster 模块等。

“基于 xTrimo 平台构建专属任务模型,让大模型能力与企业的私有数据、特定需求相结合,快速为企业打造专属的 AI 工具,是 V3 平台的重要特征之一。” 张晓明介绍,“我们还结合已有模型与模型定制能力,在不同行业提出了药物研发解决方案、生物制造解决方案和 AI4LS 平台解决方案,通过 AI 模型和配套的服务,帮助企业加速创新,提升研发效率、优化流程,让企业能够更快地从实验室走向市场,直观感受到大模型作为直接生产力的巨大效能,推动行业的全面智能化发展。”

随机文章