泥潭日报 uscardforum · 内容汇总

真实场景的AI code review的recall才20%几,还敢all accept吗

内容摘要

阿里测试显示AI Code Review Recall仅29%,All Accept风险极高遭群嘲

关键信息与数据点

  • 数据来源:引用阿里公众号文章(#1 @Rosmontis),基于50个热门开源仓库的200个真实PR,由资深SDE标注。
  • 性能表现
    • CC+opus 4.6+/code-review:Precision约7%,Recall约29%(即70%的问题无法识别)(#1)。
    • Codex+GPT5.5+review:Precision 27.8%,Recall仅5% (#1)。
  • 现状矛盾:阿里内部声称80%的PR Comment由AI生成,但低召回率意味着大量漏报 (#1)。

风险与争议

  • 安全隐患:原帖作者警告在加油站玩火,All Accept可能导致严重事故(如全球宕机)(#1, #4)。
  • 行业对比#4 @Small-Potato 指出制药业责任更重(致癌赔偿),而互联网代码出错影响相对可控;#5 @maruha 认为码农比化学家安全,炸不到自己。
  • 应对态度:多数回复持消极或无所谓态度,如“出了bug就修”(#2)、出问题不负责(#3)、“差不多就行”(#6)。

闲聊脉络

讨论迅速从技术风险转向职场摸鱼心态和职业安全感比较,认为代码质量差是常态(“屎山”),且互联网行业相比高危行业容错率较高 (#4, #5, #6)。

原始内容
--- 第 1 楼来自 Rosmontis 的回复 (2026-06-23 18:43:19 PDT) ---

吃饭的时候刷到这篇公众号:https://mp.weixin.qq.com/s/WSicyyMEIXnNVDoWuz0jrw 本身是阿里自己的open repo的广告软文,但数据还挺有意思的。 TLDR:阿里从最热门的50个开源仓库中找了200个真实的PR,覆盖10种语言,然后找了几十个senior SDE标注来看各家code review tool的表现状况。 CC+opus 4.6+/code-review的precision只有7%左右,就是说有大量假阳性,recall在29%左右,就是有70%的问题PR identify不出来 Codex+GPT5.5+review更是27.8%的precision和5%的recall /uploads/short-url/2AV5iXjLRJLMsCGv2Z7Kd70v3IF.jpeg?dl=1 (标注Open code review的是阿里自家的workflow广告,可以不用管直接从第七行开始看。) 文章最后提到现在阿里内部的80%的PR comment都是AI写的,但按照AI现在这个准确性,vibe code+vibe review+all accept有七八成概率会出乱子,这已经不是钢丝上跳舞的程度了是在加油站玩火 不过仔细想了一下agent加上适当的工作流和harness以后本身准确性已经还可以了,code review是重脑力劳动查不出来也挺正常。

--- 第 2 楼来自 tomandjerry 的回复 (2026-06-23 18:50:36 PDT) ---

so? 出了bug就修呗。

--- 第 3 楼来自 Zig 的回复 (2026-06-23 18:51:21 PDT) ---

为什么不敢?出问题不是我负责就行

--- 第 4 楼来自 Small-Potato 的回复 (2026-06-23 18:59:20 PDT) ---

反正都是屎山 再加一坨也不算啥 Rosmontis: 在加油站玩火 最多也就是全球大宕机几个小时 天塌不下来 这么看搞制药的才是惨 吃过你家药的患者过了几十年得了癌症 你内裤都得当掉给人家赔钱

--- 第 5 楼来自 maruha 的回复 (2026-06-23 18:59:42 PDT) ---

码农比化学好在炸不到自己

--- 第 6 楼来自 ssinz7 的回复 (2026-06-23 19:00:29 PDT) ---

又不是造导弹 差不多就行了