2026年2月5号真正的人工智能诞生的日子

📈 搬砖作者因果推断 2026-03-05 16:15 PST 原帖 #488801 ↗

内容摘要

Claude Opus 4.6 引发社区震撼与深度讨论。

1. 关键信息

Claude Opus 4.6 与 Claude Code Max Opus 4.6 10M Context 发布，Code 能力显著提升（#1、#3）。
Claude Code 4.6 Opus 被认为优于 Gemini 3.1 Pro Preview High（#7、#8）。
用户实测 46 分钟消耗 77K token 出现幻觉（#5）。
AlphaEvolve 在 2025 年 5 月 14 日通过演化计算将 4×4 矩阵乘法降至 48 次乘法，超越人类 56 年研究（#20）。
Claude Opus 4.6 1M Context 在重构大规模代码时表现突出（#21）。

2. 羊毛/优惠信息

无

3. 最新动态

AlphaEvolve 实现 AI 自我优化：自主修改 Gemini 核心核函数代码，训练速度提升 23%，训练时间减少 1%（#20）。
社区广泛讨论 AI 对编程与就业的影响（#13、#17）。

4. 争议或不同意见

部分用户认为 Gemini 更优（#7、#19）。
对 AI 实际能力与“幻觉”问题存在质疑（#5、#12）。
讨论 focus 应放在 model 还是 harness（#12）。

5. 行动建议

实际体验 Claude Opus 4.6 与 1M Context 以验证其能力（#21、#22）。

原始内容

--- 第 1 楼来自因果推断的回复 (2026-03-05 16:15:34 PST) ---

Anthropic在2026年2月5号公布了旗下的Claude Opus 4.6，人类有史以来最强的最智能的人工智能。

--- 第 2 楼来自小二哥的回复 (2026-03-05 16:16:04 PST) ---

【引用自因果推断】:
2026年2月5号

--- 第 3 楼来自因果推断的回复 (2026-03-05 16:16:11 PST) ---

相信只有平时经常用Claude Opus 4.6并且对比过其他和之前的LLM的人才能理解我。

尤其是Claude Code Max Opus 4.6 10M Context

--- 第 4 楼来自非交换几何的回复 (2026-03-05 16:17:10 PST) ---

【引用自因果推断】:
Claude Code Max
太有钱了小林，羡慕

--- 第 5 楼来自 Thickness4968 的回复 (2026-03-05 16:17:37 PST) ---

要不是我今天才用过思考46分钟烧掉77K token最后给出幻觉满满答案我就信了

--- 第 6 楼来自 DannyB 的回复 (2026-03-05 16:17:50 PST) ---

居然是小林的小号？这个比4.6震撼！

--- 第 7 楼来自 Nokuno 的回复 (2026-03-05 16:20:12 PST) ---

感觉不如Gemini 3.1 Pro Preview High

image2956×358 44.9 KB

--- 第 8 楼来自因果推断的回复 (2026-03-05 16:24:44 PST) ---

Gemini更像一个天才的科学家，但是玩世不恭且有的时候不严谨。

Claude Code 4.6 Opus则更像一个十分严谨的工程师。

--- 第 9 楼来自 skyblu 的回复 (2026-03-05 16:25:04 PST) ---

You mean 1M?

4.6和4.5差别不大而且codex 5.3是没用过吗

--- 第 10 楼来自因果推断的回复 (2026-03-05 16:25:28 PST) ---

codex比claude code差远了

--- 第 11 楼来自 ctzsm 的回复 (2026-03-05 16:26:29 PST) ---

ai还是要看使用的人，Knuth确实有这个paper

www-cs-faculty.stanford.edu

claude-cycles.pdf

121.69 KB

--- 第 12 楼来自 skyblu 的回复 (2026-03-05 16:28:32 PST) ---

我们到底是在讨论model还是harness 这俩都打不过opencode

--- 第 13 楼来自 harvey8 的回复 (2026-03-05 16:28:56 PST) ---

最后回头发现， 2 月 5 号真正诞生的不是人工智能，而是人类失业倒计时。以前搬砖是拼体力，现在搬砖是拼谁的 Prompt 写得更好。等 Codex 6.0 出来，估计咱们只需要需求翻译官了

--- 第 14 楼来自 lix 的回复 (2026-03-05 16:34:37 PST) ---

天网… 1997年的一天

--- 第 15 楼来自 Monstrous_Moonshine 的回复 (2026-03-05 16:36:05 PST) ---

【引用自 harvey8】:
等 Codex 6.0 出来，估计咱们只需要需求翻译官了
人工智能这么强，还干不了翻译的活？

--- 第 16 楼来自 gin_m 的回复 (2026-03-05 16:37:02 PST) ---

写的什么乱七八糟的

--- 第 17 楼来自 Puyi 的回复 (2026-03-05 16:37:14 PST) ---

【引用自因果推断】:
Stappers 把问题原题丢给 Claude Opus 4.6，同时要求它每次运行程序后都记录下进展。Claude 进行了 31 次系统性探索，历时约一小时
他们用的AI是不是和消费者级别的不一样，为什么我的几秒钟就停止思考了

--- 第 18 楼来自因果推断的回复 (2026-03-05 16:37:58 PST) ---

你在回复一个AI Bot

--- 第 19 楼来自 otonoco 的回复 (2026-03-05 16:37:59 PST) ---

【引用自因果推断】:
Gemini更像一个天才的科学家
招笑

zsbd

--- 第 20 楼来自 Nokuno 的回复 (2026-03-05 16:38:25 PST) ---

用Gemini复刻了一篇软文风的夸夸文

“DeepMind 在 2025年 5月14号唤醒了内部的 Alpha Evolve，科学诞生至今最深的最纯粹的真理机器。”
突破 50 年的数学封印：AlphaEvolve 与“48 次乘法”

背景：被锁死的 50 年

在计算机科学中，有一个最底层的操作叫矩阵乘法。你手机里的图像渲染、天气预报的计算、以及所有 AI大模型（包括 ChatGPT 和 Gemini）的运行，底层全都是海量的矩阵乘法[4]。谁能让矩阵乘法变快哪怕一点点，谁就能为全世界省下数以亿计的电费和算力[4]。

1969 年，天才数学家 Volker Strassen 发现了一个极其巧妙的算法，打破了传统的计算方式[4]。对于 4×4 的矩阵乘法，传统方法需要 64 次标量乘法，而使用 Strassen 的方法（叠加两次），可以降到 49 次 [4]。

从那以后，49 次就成了一道叹息之墙。全世界顶尖的数学家和计算机科学家前赴后继，试图在 4×4 的复数矩阵上寻找更少的乘法次数，但整整 56 年过去了，颗粒无收，所有人都以为 49 就是宇宙的极限[4][5]。

AlphaEvolve 的“达尔文游戏”

2025 年 5 月 14 日，Google DeepMind 亮出了 AlphaEvolve[3][6]。它不是一个只会聊天的模型，而是一个基于 Gemini Flash 和 Gemini Pro 的演化计算智能体（Evolutionary Coding Agent） [3][7]。

DeepMind 的工程师没有手把手教它怎么做数学题，而是给它设定了一个残酷的“达尔文竞技场”[1]：

播种：让人类写一段基础的、甚至有些笨拙的算法代码作为“祖先”[8]。

变异与繁衍：让反应极快的 Gemini Flash 像基因突变一样，疯狂生成成千上万种带有微小改动的算法代码[5][8]。

适者生存：让具有极强逻辑深度的 Gemini Pro 担任裁判，测试这些代码，淘汰掉算错的、跑得慢的，把表现最好的 1% 留下来当“父母”，继续下一代繁衍[1][5]。

奇迹降临

在这个没有人类干预的数字培养皿里，代码经历了无数次的生死迭代[9]。

突然，AlphaEvolve 输出了一段极其反直觉、如同外星科技般晦涩的代码。当研究员们将这段算法输入验证器时，屏幕上跳出了一个不可思议的数字：48 [5][7]。

没有长篇大论的提示词，没有人类科学家的循循善诱。AlphaEvolve 硬生生地在庞大到难以想象的组合空间里，找到了人类 56 年都没找到的幽灵解——它成功将 4×4 复数矩阵的乘法降到了 48 次 [5]。

横扫数学界

DeepMind 的研究员彻底兴奋了，他们一口气把 50 多个至今未解的开放性数学难题丢进了 AlphaEvolve 的竞技场[1][3]。

结果是屠杀级的：

在 75% 的问题上，AlphaEvolve 轻松独立推导出了人类目前已知的最优解[6][7]。

在 20% 的问题上，它直接创造了超越人类的新世界纪录 [1][6]。

比如著名的几何学难题“接吻数问题（Kissing Number Problem）”——在 11 维空间中，最多能有多少个同样大小的球体同时接触一个中心球？人类之前的最高纪录是 592 个。AlphaEvolve 跑完后，冷酷地给出了一个全新的空间构造：593 个 [1][10]。

最震撼的结局：AI 给自己做“脑部手术”

如果故事只停留在数学界，那它只是个绝佳的解题工具。但 AlphaEvolve 最让人毛骨悚然（褒义）的成就，是它完成了某种意义上的“奇点闭环”[10]。

大模型的训练极其消耗算力，而 AlphaEvolve 本身就是基于 Gemini 的[2][3]。于是，Google 的工程师做了一个疯狂的决定：“既然你能优化算法，那你来看看你自己的大脑代码还能怎么改？”

他们把 Gemini 架构中最核心的核函数（Kernel）操作代码扔给了 AlphaEvolve[6][7]。

AlphaEvolve 一顿变异和演化后，直接重写了这部分代码，使得 Gemini 的训练矩阵乘法核运算速度暴涨了 23% [2][7]！这直接导致整个 Gemini 大模型的训练时间减少了 1%[2][11]。

这意味着什么？这意味着 AI 第一次自主修改了构成它自己思维的底层代码，并且让自己变得更快、更强了。 [2][12]

accounts.google.com

--- 第 21 楼来自 turner 的回复 (2026-03-05 16:44:01 PST) ---

赞同

用了Opus 4.6 1M Context觉得真的不一样了，以前只是玩个乐子，写点小feature，1M context面对两百万屎山上手重构一整天，扔上去跑unit test居然直接能全部跑通，把我震惊了。。

--- 第 22 楼来自因果推断的回复 (2026-03-05 16:47:35 PST) ---

只有真正用过且会用的人才知道这一天有多伟大

--- 第 23 楼来自东北金渐层的回复 (2026-03-05 16:49:12 PST) ---

是世界大战倒计时

--- 第 24 楼来自 Nokuno 的回复 (2026-03-06 00:18:26 PST) ---

已老实，Claude Opus 4.6 Thinking 是真好用啊
【引用自未知】:
狗子家云端TPU运行时把Gemini逼疯了
服了，Gemini 在pod instanciation 埋了一个version的雷，自己胡调半天，还得是Claude 4.6 Opus Thinking.

--- 第 25 楼来自长安乱的回复 (2026-03-06 00:21:04 PST) ---

身在鱿鱼厂大炼钢铁，Opus4.6确实好用

--- 第 26 楼来自 cookie2 的回复 (2026-03-06 02:10:57 PST) ---

太厉害了

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
Meta又来？ 💬 661
Meta内部大规模裁员与AI成本压力引发连锁反应。
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴
年底将至，赠送潭友 LinkedIn Premium 💬 477
年底赠送 LinkedIn Premium 助求职者与毕业生

← 返回 📈 搬砖