最近用Gemini辅助刷题,发现如果指出bug,AI有可能突然就脑瘫了
指出Gemini代码bug可能导致模型逻辑崩溃。
1. 关键信息
- 指Bug后Gemini给出绕的Fix逻辑,甚至嘴硬否认(#5)。
- 使用3.0快速模式需切换至思考模式才正确(#4)。
- 3.1针对Tool Calling优化但质量不稳(#14)。
- 防御性模式导致放弃原有推理路径(#18)。
2. 羊毛/优惠信息
无。
3. 最新动态
Gemini 3.1 Pro Preview发布customtools端点优化Agent工作流(#14)。
4. 争议或不同意见
- 模型能力分化:部分场景逻辑崩坏,部分场景可用(#2、#4、#7)。
- 不同模型间“比烂”,各有所长(#7、#20)。
5. 行动建议
- 尝试切换至思考模式或换模型。
- 避免盲目信任AI生成的修复代码,需人工验证。
有点像神之一手后,AI突然不会下棋一样
本来是个二分+计算句子分行的题目,Gemini立马给出如下答案并结合数学分析底层逻辑头头是道。
public class TableMinimizer {
/**
* 计算文本在给定宽度下的总行数
* 策略:单词不打断,如果单词长于宽度,则该单词独占一行或多行
*/
public static int calculateHeight(String text, int width) {
if (width <= 0) return Integer.MAX_VALUE;
String[] words = text.split("\\s+");
int totalLines = 0;
int currentLineWidth = 0;
for (String word : words) {
int len = word.length();
// 如果单个单词就超过了总宽度,强制拆分该单词占用的行数
if (len > width) {
if (currentLineWidth > 0) totalLines++; // 换行
totalLines += (len / width);
currentLineWidth = len % width;
if (currentLineWidth == 0) totalLines--; // 刚好整除的情况
}
// 如果当前行放不下这个单词,则换行
else if (currentLineWidth + (currentLineWidth == 0 ? 0 : 1) + len > width) {
totalLines++;
currentLineWidth = len;
}
// 放在当前行
else {
currentLineWidth += (currentLineWidth == 0 ? 0 : 1) + len;
}
}
return currentLineWidth > 0 ? totalLines + 1 : totalLines;
}
public static int solve(String col1, String col2, int totalWidth) {
int low = 1;
int high = totalWidth - 1;
int minHeight = Integer.MAX_VALUE;
while (low <= high) {
int w1 = low + (high - low) / 2;
int w2 = totalWidth - w1;
int h1 = calculateHeight(col1, w1);
int h2 = calculateHeight(col2, w2);
int currentMax = Math.max(h1, h2);
minHeight = Math.min(minHeight, currentMax);
// 二分趋势判断
if (h1 > h2) {
// 左边太高,需要给左边更多宽度,分割线右移
low = w1 + 1;
} else if (h2 > h1) {
// 右边太高,需要给右边更多宽度,分割线左移
high = w1 - 1;
} else {
// h1 == h2,达到理论平衡点,直接返回
return currentMax;
}
}
return minHeight;
}
}
然后我发现if (currentLineWidth == 0) totalLines–; 这一行逻辑不对。反馈后AI开始犯病并给了两个很绕的fix逻辑
截屏2026-02-22 15.24.571292×1488 149 KB
我问能不能就删这行就好了,AI开始狡辩。
截屏2026-02-22 15.27.571196×1716 297 KB
我让AI举个栗子
截屏2026-02-22 15.28.481102×1260 120 KB
截屏2026-02-22 15.29.151000×1418 126 KB
Gemini就是有点问题的
3.0经常死循环
3.1还没用过很多不知道修好没
首先我同意,今天碰到个因为print statement oom导致test case过不了,但因为gemini不知道原因(prompt: “test case failed”),开始xjb分析改算法
其次,感觉御三家模型用中文prompt都是 上加
我用的就是3.0
不过是快速模式,用思考模式重新回答就给出正确答案了,Pro模式也可以就是慢
试试跟AI说这一行出问题了,看会不会嘴硬
gemini不是图片生成器么
codex 5.3的attention defects严重到一个prompt安排两件事就能漏一件
结果三大模型最后变成比烂,真的偷懒只选一个用还是只能选opus……
今天发现一个更神奇的事情
让给我画张图,因为没有说“作图:xxx”,而说的是“请给我做一张图”,gemini有时候就会不调用nano banana而直接给我口述
神奇的事情来了,我改成了“请用nano banana作图:xxx”之后,生成的图片中banana元素都贼多。。。(咱就是说一个流程图为啥要带一堆香蕉图标
IMG_51531223×768 307 KB
调nano banana是tool calling
Gemini的tool calling明显没训练好
用AI studio吧,比Gemini聪明一点
英文不也是 xjb 乱说吗
模型问题,换一个吧
first time?
【引用自 Nik0major】:
Gemini 3.0发布了
难绷,gemini感觉指令理解确实有问题,我之前让它画流程图死活不画,我直接让它用Nano Banana画它真给我画了一堆猴子和香蕉
IMG_34041290×953 234 KB
可能因为这个问题太严重了 Gemini3.1出了个针对tool calling优化的版本
gemini-3.1-pro-preview-customtools
For those building with a mix of bash and custom tools, Gemini 3.1 Pro Preview comes with a separate endpoint available via the API called gemini-3.1-pro-preview-customtools. This endpoint is better at prioritizing your custom tools (for example view_file or search_code).
但是
Note that while gemini-3.1-pro-preview-customtools is optimized for agentic workflows that use custom tools and bash, you may see quality fluctuations in some use cases which don’t benefit from such tools.
拆东墙补西墙了可以说是
现在还刷题干啥,anthropic不是说码农只剩12个月了吗
【引用自 收束观测者】:
感觉得自己(让agent)手搓agent前端了,主agent用opus,subagent按需选
是否在寻找:GitHub - code-yeongyu/oh-my-opencode: the best agent harness ?Opus指挥+计划,Codex干活。
CLI还是太难用了我宁愿vscode里自己(用agent)搓
很多模型在被 challenge 时会触发 defensive pattern,为了保持“自洽”反而放弃原有推理路径。
本质还是 token continuation,不是真 debug。
像在搜题库
我最近用六个AI来回答几个信用卡的回报排序问题,结果chatgpt第一个出局,其次的grok、DeepSeek也出局,接下来gemini也出局,最后doubao、kimi都出局,全军覆没
其中chatgpt连hsbc hk pulse是什么卡种都没搞清楚
gemini连hsbc us elite的积分规则都没搞清楚
看这个顺序感觉和问的语言也有关