真实场景的AI code review的recall才20%几,还敢all accept吗
阿里测试显示AI Code Review Recall仅29%,All Accept风险极高遭群嘲
关键信息与数据点
- 数据来源:引用阿里公众号文章(#1 @Rosmontis),基于50个热门开源仓库的200个真实PR,由资深SDE标注。
- 性能表现:
- 现状矛盾:阿里内部声称80%的PR Comment由AI生成,但低召回率意味着大量漏报 (#1)。
风险与争议
- 安全隐患:原帖作者警告在加油站玩火,All Accept可能导致严重事故(如全球宕机)(#1, #4)。
- 行业对比:#4 @Small-Potato 指出制药业责任更重(致癌赔偿),而互联网代码出错影响相对可控;#5 @maruha 认为码农比化学家安全,炸不到自己。
- 应对态度:多数回复持消极或无所谓态度,如“出了bug就修”(#2)、出问题不负责(#3)、“差不多就行”(#6)。
闲聊脉络
讨论迅速从技术风险转向职场摸鱼心态和职业安全感比较,认为代码质量差是常态(“屎山”),且互联网行业相比高危行业容错率较高 (#4, #5, #6)。
吃饭的时候刷到这篇公众号:https://mp.weixin.qq.com/s/WSicyyMEIXnNVDoWuz0jrw 本身是阿里自己的open repo的广告软文,但数据还挺有意思的。 TLDR:阿里从最热门的50个开源仓库中找了200个真实的PR,覆盖10种语言,然后找了几十个senior SDE标注来看各家code review tool的表现状况。 CC+opus 4.6+/code-review的precision只有7%左右,就是说有大量假阳性,recall在29%左右,就是有70%的问题PR identify不出来 Codex+GPT5.5+review更是27.8%的precision和5%的recall /uploads/short-url/2AV5iXjLRJLMsCGv2Z7Kd70v3IF.jpeg?dl=1 (标注Open code review的是阿里自家的workflow广告,可以不用管直接从第七行开始看。) 文章最后提到现在阿里内部的80%的PR comment都是AI写的,但按照AI现在这个准确性,vibe code+vibe review+all accept有七八成概率会出乱子,这已经不是钢丝上跳舞的程度了是在加油站玩火 不过仔细想了一下agent加上适当的工作流和harness以后本身准确性已经还可以了,code review是重脑力劳动查不出来也挺正常。
so? 出了bug就修呗。
为什么不敢?出问题不是我负责就行
反正都是屎山 再加一坨也不算啥 Rosmontis: 在加油站玩火 最多也就是全球大宕机几个小时 天塌不下来 这么看搞制药的才是惨 吃过你家药的患者过了几十年得了癌症 你内裤都得当掉给人家赔钱
码农比化学好在炸不到自己
又不是造导弹 差不多就行了