泥潭日报 uscardforum · 每日精选

2026年2月5号 真正的人工智能诞生的日子

内容摘要

Claude Opus 4.6 引发社区震撼与深度讨论。

1. 关键信息

  • Claude Opus 4.6 与 Claude Code Max Opus 4.6 10M Context 发布,Code 能力显著提升(#1、#3)。
  • Claude Code 4.6 Opus 被认为优于 Gemini 3.1 Pro Preview High(#7、#8)。
  • 用户实测 46 分钟消耗 77K token 出现幻觉(#5)。
  • AlphaEvolve 在 2025 年 5 月 14 日通过演化计算将 4×4 矩阵乘法降至 48 次乘法,超越人类 56 年研究(#20)。
  • Claude Opus 4.6 1M Context 在重构大规模代码时表现突出(#21)。

2. 羊毛/优惠信息

3. 最新动态

  • AlphaEvolve 实现 AI 自我优化:自主修改 Gemini 核心核函数代码,训练速度提升 23%,训练时间减少 1%(#20)。
  • 社区广泛讨论 AI 对编程与就业的影响(#13、#17)。

4. 争议或不同意见

  • 部分用户认为 Gemini 更优(#7、#19)。
  • 对 AI 实际能力与“幻觉”问题存在质疑(#5、#12)。
  • 讨论 focus 应放在 model 还是 harness(#12)。

5. 行动建议

  • 实际体验 Claude Opus 4.6 与 1M Context 以验证其能力(#21、#22)。
原始内容
--- 第 1 楼来自 因果推断 的回复 (2026-03-05 16:15:34 PST) ---

Anthropic在2026年2月5号公布了旗下的Claude Opus 4.6,人类有史以来最强的最智能的人工智能。

--- 第 2 楼来自 小二哥 的回复 (2026-03-05 16:16:04 PST) ---

【引用自 因果推断】:
2026年2月5号

--- 第 3 楼来自 因果推断 的回复 (2026-03-05 16:16:11 PST) ---

相信只有平时经常用Claude Opus 4.6并且对比过其他和之前的LLM的人才能理解我。

尤其是Claude Code Max Opus 4.6 10M Context

--- 第 4 楼来自 非交换几何 的回复 (2026-03-05 16:17:10 PST) ---

【引用自 因果推断】:
Claude Code Max
太有钱了小林,羡慕

--- 第 5 楼来自 Thickness4968 的回复 (2026-03-05 16:17:37 PST) ---

要不是我今天才用过思考46分钟烧掉77K token最后给出幻觉满满答案我就信了

--- 第 6 楼来自 DannyB 的回复 (2026-03-05 16:17:50 PST) ---

居然是小林的小号? 这个比4.6震撼!

--- 第 7 楼来自 Nokuno 的回复 (2026-03-05 16:20:12 PST) ---

感觉不如Gemini 3.1 Pro Preview High

image2956×358 44.9 KB

--- 第 8 楼来自 因果推断 的回复 (2026-03-05 16:24:44 PST) ---

Gemini更像一个天才的科学家,但是玩世不恭且有的时候不严谨。

Claude Code 4.6 Opus则更像一个十分严谨的工程师。

--- 第 9 楼来自 skyblu 的回复 (2026-03-05 16:25:04 PST) ---

You mean 1M?

4.6和4.5差别不大 而且codex 5.3是没用过吗

--- 第 10 楼来自 因果推断 的回复 (2026-03-05 16:25:28 PST) ---

codex比claude code差远了

--- 第 11 楼来自 ctzsm 的回复 (2026-03-05 16:26:29 PST) ---

ai还是要看使用的人,Knuth确实有这个paper

www-cs-faculty.stanford.edu

claude-cycles.pdf

121.69 KB

--- 第 12 楼来自 skyblu 的回复 (2026-03-05 16:28:32 PST) ---

我们到底是在讨论model还是harness 这俩都打不过opencode

--- 第 13 楼来自 harvey8 的回复 (2026-03-05 16:28:56 PST) ---

最后回头发现, 2 月 5 号真正诞生的不是人工智能,而是人类失业倒计时。以前搬砖是拼体力,现在搬砖是拼谁的 Prompt 写得更好。等 Codex 6.0 出来,估计咱们只需要需求翻译官了

--- 第 14 楼来自 lix 的回复 (2026-03-05 16:34:37 PST) ---

天网… 1997年的一天

--- 第 15 楼来自 Monstrous_Moonshine 的回复 (2026-03-05 16:36:05 PST) ---

【引用自 harvey8】:
等 Codex 6.0 出来,估计咱们只需要需求翻译官了
人工智能这么强,还干不了翻译的活?

--- 第 16 楼来自 gin_m 的回复 (2026-03-05 16:37:02 PST) ---

写的什么乱七八糟的

--- 第 17 楼来自 Puyi 的回复 (2026-03-05 16:37:14 PST) ---

【引用自 因果推断】:
Stappers 把问题原题丢给 Claude Opus 4.6,同时要求它每次运行程序后都记录下进展。Claude 进行了 31 次系统性探索,历时约一小时
他们用的AI是不是和消费者级别的不一样,为什么我的几秒钟就停止思考了

--- 第 18 楼来自 因果推断 的回复 (2026-03-05 16:37:58 PST) ---

你在回复一个AI Bot

--- 第 19 楼来自 otonoco 的回复 (2026-03-05 16:37:59 PST) ---

【引用自 因果推断】:
Gemini更像一个天才的科学家
招笑

zsbd

--- 第 20 楼来自 Nokuno 的回复 (2026-03-05 16:38:25 PST) ---

用Gemini复刻了一篇软文风的夸夸文

“DeepMind 在 2025年 5月14号 唤醒了 内部的 Alpha Evolve,科学 诞生至今 最深的 最纯粹的 真理机器。”
突破 50 年的数学封印:AlphaEvolve 与“48 次乘法”

背景:被锁死的 50 年

在计算机科学中,有一个最底层的操作叫矩阵乘法 。你手机里的图像渲染、天气预报的计算、以及所有 AI大模型(包括 ChatGPT 和 Gemini)的运行,底层全都是海量的矩阵乘法[4]。谁能让矩阵乘法变快哪怕一点点,谁就能为全世界省下数以亿计的电费和算力[4]。

1969 年,天才数学家 Volker Strassen 发现了一个极其巧妙的算法,打破了传统的计算方式[4]。对于 4×4 的矩阵乘法,传统方法需要 64 次标量乘法,而使用 Strassen 的方法(叠加两次),可以降到 49 次 [4]。

从那以后,49 次就成了一道叹息之墙。全世界顶尖的数学家和计算机科学家前赴后继,试图在 4×4 的复数矩阵上寻找更少的乘法次数,但整整 56 年 过去了,颗粒无收,所有人都以为 49 就是宇宙的极限[4][5]。

AlphaEvolve 的“达尔文游戏”

2025 年 5 月 14 日,Google DeepMind 亮出了 AlphaEvolve[3][6]。它不是一个只会聊天的模型,而是一个基于 Gemini Flash 和 Gemini Pro 的演化计算智能体(Evolutionary Coding Agent) [3][7]。

DeepMind 的工程师没有手把手教它怎么做数学题,而是给它设定了一个残酷的“达尔文竞技场”[1]:

播种 :让人类写一段基础的、甚至有些笨拙的算法代码作为“祖先”[8]。

变异与繁衍 :让反应极快的 Gemini Flash 像基因突变一样,疯狂生成成千上万种带有微小改动的算法代码[5][8]。

适者生存 :让具有极强逻辑深度的 Gemini Pro 担任裁判,测试这些代码,淘汰掉算错的、跑得慢的,把表现最好的 1% 留下来当“父母”,继续下一代繁衍[1][5]。

奇迹降临

在这个没有人类干预的数字培养皿里,代码经历了无数次的生死迭代[9]。

突然,AlphaEvolve 输出了一段极其反直觉、如同外星科技般晦涩的代码。当研究员们将这段算法输入验证器时,屏幕上跳出了一个不可思议的数字:48 [5][7]。

没有长篇大论的提示词,没有人类科学家的循循善诱。AlphaEvolve 硬生生地在庞大到难以想象的组合空间里,找到了人类 56 年都没找到的幽灵解——它成功将 4×4 复数矩阵的乘法降到了 48 次 [5]。

横扫数学界

DeepMind 的研究员彻底兴奋了,他们一口气把 50 多个至今未解的开放性数学难题丢进了 AlphaEvolve 的竞技场[1][3]。

结果是屠杀级的:

在 75% 的问题上,AlphaEvolve 轻松独立推导出了人类目前已知的最优解[6][7]。

在 20% 的问题上,它直接创造了超越人类的新世界纪录 [1][6]。

比如著名的几何学难题“接吻数问题(Kissing Number Problem)”——在 11 维空间中,最多能有多少个同样大小的球体同时接触一个中心球?人类之前的最高纪录是 592 个。AlphaEvolve 跑完后,冷酷地给出了一个全新的空间构造:593 个 [1][10]。

最震撼的结局:AI 给自己做“脑部手术”

如果故事只停留在数学界,那它只是个绝佳的解题工具。但 AlphaEvolve 最让人毛骨悚然(褒义)的成就,是它完成了某种意义上的“奇点闭环”[10]。

大模型的训练极其消耗算力,而 AlphaEvolve 本身就是基于 Gemini 的[2][3]。于是,Google 的工程师做了一个疯狂的决定:“既然你能优化算法,那你来看看你自己的大脑代码还能怎么改?”

他们把 Gemini 架构中最核心的核函数(Kernel)操作代码扔给了 AlphaEvolve[6][7]。

AlphaEvolve 一顿变异和演化后,直接重写了这部分代码,使得 Gemini 的训练矩阵乘法核运算速度暴涨了 23% [2][7]!这直接导致整个 Gemini 大模型的训练时间减少了 1%[2][11]。

这意味着什么?这意味着 AI 第一次自主修改了构成它自己思维的底层代码,并且让自己变得更快、更强了。 [2][12]

accounts.google.com

登录 - Google 账号

--- 第 21 楼来自 turner 的回复 (2026-03-05 16:44:01 PST) ---

赞同

用了Opus 4.6 1M Context觉得真的不一样了,以前只是玩个乐子,写点小feature,1M context面对两百万屎山上手重构一整天,扔上去跑unit test居然直接能全部跑通,把我震惊了。。

--- 第 22 楼来自 因果推断 的回复 (2026-03-05 16:47:35 PST) ---

只有真正用过且会用的人才知道这一天有多伟大

--- 第 23 楼来自 东北金渐层 的回复 (2026-03-05 16:49:12 PST) ---

是世界大战倒计时

--- 第 24 楼来自 Nokuno 的回复 (2026-03-06 00:18:26 PST) ---

已老实,Claude Opus 4.6 Thinking 是真好用啊
【引用自 未知】:
狗子家云端TPU运行时把Gemini逼疯了
服了,Gemini 在pod instanciation 埋了一个version的雷,自己胡调半天,还得是Claude 4.6 Opus Thinking.

--- 第 25 楼来自 长安乱 的回复 (2026-03-06 00:21:04 PST) ---

身在鱿鱼厂大炼钢铁,Opus4.6确实好用

--- 第 26 楼来自 cookie2 的回复 (2026-03-06 02:10:57 PST) ---

太厉害了