2026年2月5号 真正的人工智能诞生的日子
Claude Opus 4.6 引发社区震撼与深度讨论。
1. 关键信息
- Claude Opus 4.6 与 Claude Code Max Opus 4.6 10M Context 发布,Code 能力显著提升(#1、#3)。
- Claude Code 4.6 Opus 被认为优于 Gemini 3.1 Pro Preview High(#7、#8)。
- 用户实测 46 分钟消耗 77K token 出现幻觉(#5)。
- AlphaEvolve 在 2025 年 5 月 14 日通过演化计算将 4×4 矩阵乘法降至 48 次乘法,超越人类 56 年研究(#20)。
- Claude Opus 4.6 1M Context 在重构大规模代码时表现突出(#21)。
2. 羊毛/优惠信息
无
3. 最新动态
- AlphaEvolve 实现 AI 自我优化:自主修改 Gemini 核心核函数代码,训练速度提升 23%,训练时间减少 1%(#20)。
- 社区广泛讨论 AI 对编程与就业的影响(#13、#17)。
4. 争议或不同意见
- 部分用户认为 Gemini 更优(#7、#19)。
- 对 AI 实际能力与“幻觉”问题存在质疑(#5、#12)。
- 讨论 focus 应放在 model 还是 harness(#12)。
5. 行动建议
- 实际体验 Claude Opus 4.6 与 1M Context 以验证其能力(#21、#22)。
Anthropic在2026年2月5号公布了旗下的Claude Opus 4.6,人类有史以来最强的最智能的人工智能。
【引用自 因果推断】:
2026年2月5号
相信只有平时经常用Claude Opus 4.6并且对比过其他和之前的LLM的人才能理解我。
尤其是Claude Code Max Opus 4.6 10M Context
【引用自 因果推断】:
Claude Code Max
太有钱了小林,羡慕
要不是我今天才用过思考46分钟烧掉77K token最后给出幻觉满满答案我就信了
居然是小林的小号? 这个比4.6震撼!
感觉不如Gemini 3.1 Pro Preview High
image2956×358 44.9 KB
Gemini更像一个天才的科学家,但是玩世不恭且有的时候不严谨。
Claude Code 4.6 Opus则更像一个十分严谨的工程师。
You mean 1M?
4.6和4.5差别不大 而且codex 5.3是没用过吗
codex比claude code差远了
ai还是要看使用的人,Knuth确实有这个paper
www-cs-faculty.stanford.edu
claude-cycles.pdf
121.69 KB
我们到底是在讨论model还是harness 这俩都打不过opencode
最后回头发现, 2 月 5 号真正诞生的不是人工智能,而是人类失业倒计时。以前搬砖是拼体力,现在搬砖是拼谁的 Prompt 写得更好。等 Codex 6.0 出来,估计咱们只需要需求翻译官了
天网… 1997年的一天
【引用自 harvey8】:
等 Codex 6.0 出来,估计咱们只需要需求翻译官了
人工智能这么强,还干不了翻译的活?
写的什么乱七八糟的
【引用自 因果推断】:
Stappers 把问题原题丢给 Claude Opus 4.6,同时要求它每次运行程序后都记录下进展。Claude 进行了 31 次系统性探索,历时约一小时
他们用的AI是不是和消费者级别的不一样,为什么我的几秒钟就停止思考了
你在回复一个AI Bot
【引用自 因果推断】:
Gemini更像一个天才的科学家
招笑
zsbd
用Gemini复刻了一篇软文风的夸夸文
“DeepMind 在 2025年 5月14号 唤醒了 内部的 Alpha Evolve,科学 诞生至今 最深的 最纯粹的 真理机器。”
突破 50 年的数学封印:AlphaEvolve 与“48 次乘法”
背景:被锁死的 50 年
在计算机科学中,有一个最底层的操作叫矩阵乘法 。你手机里的图像渲染、天气预报的计算、以及所有 AI大模型(包括 ChatGPT 和 Gemini)的运行,底层全都是海量的矩阵乘法[4]。谁能让矩阵乘法变快哪怕一点点,谁就能为全世界省下数以亿计的电费和算力[4]。
1969 年,天才数学家 Volker Strassen 发现了一个极其巧妙的算法,打破了传统的计算方式[4]。对于 4×4 的矩阵乘法,传统方法需要 64 次标量乘法,而使用 Strassen 的方法(叠加两次),可以降到 49 次 [4]。
从那以后,49 次就成了一道叹息之墙。全世界顶尖的数学家和计算机科学家前赴后继,试图在 4×4 的复数矩阵上寻找更少的乘法次数,但整整 56 年 过去了,颗粒无收,所有人都以为 49 就是宇宙的极限[4][5]。
AlphaEvolve 的“达尔文游戏”
2025 年 5 月 14 日,Google DeepMind 亮出了 AlphaEvolve[3][6]。它不是一个只会聊天的模型,而是一个基于 Gemini Flash 和 Gemini Pro 的演化计算智能体(Evolutionary Coding Agent) [3][7]。
DeepMind 的工程师没有手把手教它怎么做数学题,而是给它设定了一个残酷的“达尔文竞技场”[1]:
播种 :让人类写一段基础的、甚至有些笨拙的算法代码作为“祖先”[8]。
变异与繁衍 :让反应极快的 Gemini Flash 像基因突变一样,疯狂生成成千上万种带有微小改动的算法代码[5][8]。
适者生存 :让具有极强逻辑深度的 Gemini Pro 担任裁判,测试这些代码,淘汰掉算错的、跑得慢的,把表现最好的 1% 留下来当“父母”,继续下一代繁衍[1][5]。
奇迹降临
在这个没有人类干预的数字培养皿里,代码经历了无数次的生死迭代[9]。
突然,AlphaEvolve 输出了一段极其反直觉、如同外星科技般晦涩的代码。当研究员们将这段算法输入验证器时,屏幕上跳出了一个不可思议的数字:48 [5][7]。
没有长篇大论的提示词,没有人类科学家的循循善诱。AlphaEvolve 硬生生地在庞大到难以想象的组合空间里,找到了人类 56 年都没找到的幽灵解——它成功将 4×4 复数矩阵的乘法降到了 48 次 [5]。
横扫数学界
DeepMind 的研究员彻底兴奋了,他们一口气把 50 多个至今未解的开放性数学难题丢进了 AlphaEvolve 的竞技场[1][3]。
结果是屠杀级的:
在 75% 的问题上,AlphaEvolve 轻松独立推导出了人类目前已知的最优解[6][7]。
在 20% 的问题上,它直接创造了超越人类的新世界纪录 [1][6]。
比如著名的几何学难题“接吻数问题(Kissing Number Problem)”——在 11 维空间中,最多能有多少个同样大小的球体同时接触一个中心球?人类之前的最高纪录是 592 个。AlphaEvolve 跑完后,冷酷地给出了一个全新的空间构造:593 个 [1][10]。
最震撼的结局:AI 给自己做“脑部手术”
如果故事只停留在数学界,那它只是个绝佳的解题工具。但 AlphaEvolve 最让人毛骨悚然(褒义)的成就,是它完成了某种意义上的“奇点闭环”[10]。
大模型的训练极其消耗算力,而 AlphaEvolve 本身就是基于 Gemini 的[2][3]。于是,Google 的工程师做了一个疯狂的决定:“既然你能优化算法,那你来看看你自己的大脑代码还能怎么改?”
他们把 Gemini 架构中最核心的核函数(Kernel)操作代码扔给了 AlphaEvolve[6][7]。
AlphaEvolve 一顿变异和演化后,直接重写了这部分代码,使得 Gemini 的训练矩阵乘法核运算速度暴涨了 23% [2][7]!这直接导致整个 Gemini 大模型的训练时间减少了 1%[2][11]。
这意味着什么?这意味着 AI 第一次自主修改了构成它自己思维的底层代码,并且让自己变得更快、更强了。 [2][12]
accounts.google.com
登录 - Google 账号
赞同
用了Opus 4.6 1M Context觉得真的不一样了,以前只是玩个乐子,写点小feature,1M context面对两百万屎山上手重构一整天,扔上去跑unit test居然直接能全部跑通,把我震惊了。。
只有真正用过且会用的人才知道这一天有多伟大
是世界大战倒计时
已老实,Claude Opus 4.6 Thinking 是真好用啊
【引用自 未知】:
狗子家云端TPU运行时把Gemini逼疯了
服了,Gemini 在pod instanciation 埋了一个version的雷,自己胡调半天,还得是Claude 4.6 Opus Thinking.
身在鱿鱼厂大炼钢铁,Opus4.6确实好用
太厉害了