阿里开源首个统一科学大模型 LOGOS,仅用 1/56 参数超越微软 NatureLM
阿里LOGOS开源:1B参数超越NatureLM,引发对AI替代科研岗位的焦虑讨论
关键信息
- 发布方:阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院。
- 模型名称:LOGOS(Language Of Generative Objects in Science),首个基于统一“科学语法”的多领域科学生成基础模型 #1。
- 核心突破:
- 开源资源:模型权重、推理代码、技术报告已全量开源,地址见 HuggingFace (LOGOS-Hub) 和 GitHub (LOGOS-Hub/LOGOS) #1。
最新动态
- 阿里宣布 LOGOS 在六大代表性科学任务上,以纯序列建模范式一致性地匹配或超越了领域专用方法 #1。
- 模型展示了底层“知识共享”能力,如通过蛋白质口袋序列直接推导小分子结构,证明其学会了跨模态对应关系 #1。
争议或不同意见
- 职业焦虑:网友 @peettr 评论称,若该模型能全面覆盖领域内知识训练,初级研究员可能面临失业风险,反映了AI在科研自动化背景下对基础科研岗位的潜在冲击 #3。
闲聊脉络
- 网友 @长乐人在纽约 评论为“大蒸馏时代”,暗示该成果可能代表了一种通过高效参数利用或数据蒸馏实现性能超越的新趋势 #2。
阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院,今日宣布开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS(Language Of Generative Objects in Science) 。 在六大代表性科学任务上,LOGOS 以纯序列建模范式,一致性地匹配或超越了领域专用方法。 /uploads/short-url/q0qqwA8pFK8cYnliEFDTk4A7CUl.jpeg?dl=1 尤其值得关注的是它的参数效率。 LOGOS-1B 仅用 1/56 的参数量(1B vs 8×7B) ,就在多个任务上超越了微软 NatureLM,展现了极高的参数效率。 LOGOS 构建了涵盖 7 类模态、总计 44.87B tokens 的庞大预训练语料库: 生物大分子层蛋白质(28.9B tokens)+ 抗体(3.0B tokens) 化学实体与转化层小分子(2.1B tokens)+ 化学反应与 MOF 材料(0.47B tokens) 界面互作层蛋白质口袋(5.8B tokens)+ 蛋白口袋-配体复合物(4.6B tokens) /uploads/short-url/sicT7j0ppTe3wWOTTkSa6SUXQtm.jpeg?dl=1 LOGOS 设计了一套共享词表,把蛋白质、小分子、材料等原本“鸡同鸭讲”的异构对象, 全部编码成统一的离散 Token 序列 。这让它们得以在同一个生成空间中被大模型“自回归”地理解和生成。 此外,传统 AI 要看懂蛋白质和小分子怎么结合,须依赖显式 3D 坐标和复杂的几何神经网络。LOGOS 发明了一种“文字描述法”: 它把 3D 空间接触模式直接“语法化”为离散 Token ,完全不需要输入 3D 坐标,仅靠“读文字”(序列预测),就能在脑海里构建出复杂的 3D 空间互作规律。 /uploads/short-url/upRr7I8u1trfmmLneLyBG2yZOaB.jpeg?dl=1 传统范式中,换一个研究环节(比如从结构预测换到分子生成),往往就得换一套新模型和新假设。同时,预训练目标与下游任务之间存在显著的 " 目标偏差 ",这种“学用脱节”导致模型落地时需要大量微调。 LOGOS 的科学语法设计彻底解决了这个问题: 形式一致:预训练数据的序列形式等于下游任务的输入输出形式 目标一致:预训练的 next-token prediction(预测下一个词)等于下游的条件生成目标 这种 form-objective alignment 有效消除了预训练与下游应用之间的 gap,无需复杂的适配层或大量微调即可激活生成能力。 统一语法不仅让科学对象们“语言相通”,更让它们在底层“知识共享”。比如模型看到蛋白质的“方言”(氨基酸口袋序列),能直接“翻译”出小分子的“方言”(SMILES 结构)。这证明它真的学会了两者之间的对应关系。 LOGOS 完整开源了模型权重、推理代码与技术报告,开源地址如下: HuggingFace:https://huggingface.co/LOGOS-Hub GitHub:https://github.com/LOGOS-Hub/LOGOS 技术报告 (Paper):https://arxiv.org/abs/2606.16905
大蒸馏时代
哪天它把我们领域内知识都拿去训练一遍,估计我这初级研究员立刻就失业了