真实场景的AI code review的recall才20%几，还敢all accept吗

📈 搬砖作者 Rosmontis 2026-06-23 18:43 PST 原帖 #514430 ↗

内容摘要

阿里测试显示AI Code Review Recall仅29%，All Accept风险极高遭群嘲

关键信息与数据点

数据来源：引用阿里公众号文章（#1 @Rosmontis），基于50个热门开源仓库的200个真实PR，由资深SDE标注。
性能表现：
- CC+opus 4.6+/code-review：Precision约7%，Recall约29%（即70%的问题无法识别）(#1)。
- Codex+GPT5.5+review：Precision 27.8%，Recall仅5% (#1)。
现状矛盾：阿里内部声称80%的PR Comment由AI生成，但低召回率意味着大量漏报 (#1)。

风险与争议

安全隐患：原帖作者警告在加油站玩火，All Accept可能导致严重事故（如全球宕机）(#1, #4)。
行业对比：#4 @Small-Potato 指出制药业责任更重（致癌赔偿），而互联网代码出错影响相对可控；#5 @maruha 认为码农比化学家安全，炸不到自己。
应对态度：多数回复持消极或无所谓态度，如“出了bug就修”(#2)、出问题不负责(#3)、“差不多就行”(#6)。

闲聊脉络

讨论迅速从技术风险转向职场摸鱼心态和职业安全感比较，认为代码质量差是常态（“屎山”），且互联网行业相比高危行业容错率较高 (#4, #5, #6)。

原始内容

--- 第 1 楼来自 Rosmontis 的回复 (2026-06-23 18:43:19 PDT) ---

吃饭的时候刷到这篇公众号：https://mp.weixin.qq.com/s/WSicyyMEIXnNVDoWuz0jrw 本身是阿里自己的open repo的广告软文，但数据还挺有意思的。 TLDR：阿里从最热门的50个开源仓库中找了200个真实的PR，覆盖10种语言，然后找了几十个senior SDE标注来看各家code review tool的表现状况。 CC+opus 4.6+/code-review的precision只有7%左右，就是说有大量假阳性，recall在29%左右，就是有70%的问题PR identify不出来 Codex+GPT5.5+review更是27.8%的precision和5%的recall /uploads/short-url/2AV5iXjLRJLMsCGv2Z7Kd70v3IF.jpeg?dl=1 (标注Open code review的是阿里自家的workflow广告，可以不用管直接从第七行开始看。) 文章最后提到现在阿里内部的80%的PR comment都是AI写的，但按照AI现在这个准确性，vibe code+vibe review+all accept有七八成概率会出乱子，这已经不是钢丝上跳舞的程度了是在加油站玩火不过仔细想了一下agent加上适当的工作流和harness以后本身准确性已经还可以了，code review是重脑力劳动查不出来也挺正常。

--- 第 2 楼来自 tomandjerry 的回复 (2026-06-23 18:50:36 PDT) ---

so? 出了bug就修呗。

--- 第 3 楼来自 Zig 的回复 (2026-06-23 18:51:21 PDT) ---

为什么不敢？出问题不是我负责就行

--- 第 4 楼来自 Small-Potato 的回复 (2026-06-23 18:59:20 PDT) ---

反正都是屎山再加一坨也不算啥 Rosmontis: 在加油站玩火最多也就是全球大宕机几个小时天塌不下来这么看搞制药的才是惨吃过你家药的患者过了几十年得了癌症你内裤都得当掉给人家赔钱

--- 第 5 楼来自 maruha 的回复 (2026-06-23 18:59:42 PDT) ---

码农比化学好在炸不到自己

--- 第 6 楼来自 ssinz7 的回复 (2026-06-23 19:00:29 PDT) ---

又不是造导弹差不多就行了

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
【摸鱼第二十一季】这楼能在美国买酒了，下一个玩酸臭的要请全楼喝喜酒 💬 2308
摸鱼楼热议VPN自建教程、健身动作变体及高考抽象梗，穿插咖啡品鉴与历史玩笑。
Meta又来？ 💬 1564
Meta裁员逻辑遭质疑，TT职场生态与员工价值认知持续发酵
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴

← 返回 📈 搬砖