阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院,今日正式宣布开源首个基于统一科学语法的多领域科学生成基础模型 LOGOS。在六大代表性科学任务中,该模型凭借纯序列建模范式,一致性地匹配或超越了传统的领域专用方法。

image.png

值得关注的是,该模型展现出了极高的参数效率。仅有 1B 参数量的 LOGOS-1B 模型,在多个核心任务上的表现就成功超越了参数量高达 8×7B 的微软 NatureLM 语言模型。

首创科学语法统一异构对象

LOGOS 构建了一个涵盖生物大分子、化学实体以及界面互作等 7 类模态、总计 44.87B tokens 的庞大预训练语料库。通过设计共享词表,它将蛋白质和小分子等原本异构的对象全部编码为统一的离散 Token 序列。

这种独特的科学语法设计,让不同的科学对象得以在同一个生成空间中被大模型自回归地理解。它甚至发明了一种“文字描述法”,无需输入复杂的 3D 坐标,仅靠序列预测就能在脑海中构建出复杂的空间互作规律。

image.png

彻底消除预训练与应用断层

在传统科研范式中,换一个研究环节往往需要切换不同的模型,导致模型落地时需要大量的微调。LOGOS 则实现了形式与目标的高度一致,其预训练数据的序列形式与下游任务的输入输出形式完全等同。

这种高度对齐有效消除了预训练与下游应用之间的鸿沟,无需复杂的适配层即可直接激活生成能力。目前,阿里已将该大模型的模型权重、推理代码以及技术报告进行了完整开源。