GPT 5.2 回答旅游问题降智严重，频繁出现常识性错误

💳 玩卡作者 czh 2026-02-20 21:16 PST 原帖 #485340 ↗

内容摘要

帖子标题 GPT 5.2 回答旅游问题降智严重，频繁出现常识性错误

帖子ID

485340

============================================================================== [旧摘要 - 已被纳入的内容] ==============================================================================

用户指出 GPT 在农历日期计算方面一直存在不准确的问题，并提供了详细的总结格式要求，暗示了对AI总结能力的具体期望。

1. 关键信息

(之前已归纳) 用户“czh”指出 GPT 5.2 在回答旅游和金融相关问题时出现常识性错误，并附上截图作为证据。
(之前已归纳) 其中一个例子是 GPT 5.2 将“globalist”归类到万豪酒店集团，这被认为是基础网页检索能力就能避免的错误。
(之前已归纳) 另一个例子是 GPT 5.2 对“2/90”的解释为“如果你在 90 天内付款，可以享受 2% 的折扣”，这与常见的金融术语（如 2% 的现金折扣，90 天内付款）不符。
(之前已归纳) 用户“RandomPerson”也提到 GPT 5.2 的 Codex 版本存在问题，无法正确执行代码搜索任务，需要手动调整模型参数才能成功。
(之前已归纳) 用户“xxxyyy”则认为 GPT 5.2 的回答不如其他AI工具（如 ntan mcp）准确。
(之前已归纳) 用户“czh”因此决定不再续费每年 300 美元的 Team 订阅。
(之前已归纳) 用户“xxxyyy”分享了使用 Nitan MCP 等其他AI工具的经验，并提及了自己部署 OpenClaw + nitan-mcp 的可能性。
(之前已归纳) 用户“NewBing”暗示 GPT 5.2 的表现可能比被骂还要糟糕。
(之前已归纳) 用户“Credit_Relay”讽刺付费用户可能在使用免费模型，并对 OpenAI 表示不满。
(之前已归纳) 用户“AppleVisionPro”和“Y320”讨论了国内AI模型（如“元宝”应用中的模型）的“刚硬”或“直接”风格，并推测其可能涉及 A/B 测试。
(之前已归纳) 用户“katrix”将国内AI模型的“对线”风格比作在性别议题敏感的论坛上与网友对线。
(之前已归纳) 用户“可达鸭”分享了 Gemini 在旅游问题上出现错误（将悉尼景点误认为墨尔本景点）的案例，强调了核查AI信息的重要性。
(之前已归纳) 用户“rickey”认为 Gemini 相较于 GPT 5.2 在使用体验上更好。
(之前已归纳) 用户“黑猫警长”展示了其 GPT 使用体验正常，但提及 GPT-4 Turbo 版本开始出现问题。
(之前已归纳) 用户“NewBing”分析“元宝”应用问题在于训练数据质量差，导致 AI“放飞自我”。
(之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效，在 ChatGPT 中过度使用较小规模模型，导致回答质量下降，用户感觉被糊弄。
(之前已归纳) 用户“NewBing”推测 OpenAI 可能通过 API 提供更高质量的模型，而网页端使用较低质量模型。
(之前已归纳) 用户“AppleVisionPro”对比了 Gemini 和 ChatGPT 的使用场景：Gemini 适合快速简单答案，而 ChatGPT 配合 extended + web search 更适合获取新知识。
(之前已归纳) 用户“Define_P”在测试 Gemini 的多语言能力和论坛总结能力，并提供了一个详细的总结格式要求。
(之前已归纳) 用户“酸辣鱼蛋”指出 GPT 在农历日期计算方面一直存在不准确的问题。

2. 羊毛/优惠信息

(之前已归纳) 无直接的羊毛/优惠信息，但讨论中提到了信用卡开卡奖励的价值，暗示用户更看重实际的经济利益。
(之前已归纳) 用户“Credit_Relay”提及了“一分钱一个月的AI助手”，但结合上下文，这更像是对AI服务价格的讨论，而非具体的羊毛信息。

3. 最新动态

(之前已归纳) GPT 5.2 版本在近期表现出“降智”现象，准确性下降。
(之前已归纳) 用户普遍反映包括 GPT-4 Turbo 在内的多个版本都出现了问题。
(之前已归纳) 国内AI模型在回答风格上出现变化，更加“刚硬”或“直接”。
(之前已归纳) 用户对比了 Gemini 和 ChatGPT 在不同场景下的表现，认为各有优势。
(之前已归纳) GPT 在农历日期计算方面存在持续的准确性问题。

4. 争议或不同意见

(之前已归纳) 用户“xxxyyy”认为提问方式不对，并提供了自己提问的截图，暗示问题可能出在用户提问的技巧上。
(之前已归纳) 用户“northface”建议开启“extended thinking”模式，暗示这可能有助于提高 GPT 的回答质量。
(之前已归纳) 用户“AppleVisionPro”也提到了开启“extend think”和“web search”功能，并将其比作论坛内容总结助手。
(之前已归纳) 用户“Credit_Relay”认为付费用户在使用免费模型，对 OpenAI 的做法表示质疑。
(之前已归纳) 用户“AppleVisionPro”和“Y320”对国内AI模型（如“元宝”）的“刚硬”回答风格进行了讨论。
(之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效，过度使用小模型导致 ChatGPT 质量下降，用户感觉被糊弄。
(之前已归纳) 用户“NewBing”推测 OpenAI 可能在 API 和网页端使用不同质量的模型。

5. 行动建议

(之前已归纳) 用户在考虑是否继续使用 GPT 5.2，特别是付费版本，建议用户在付费前仔细评估其准确性和实用性。
(之前已归纳) 对于需要高精度回答的场景，可以尝试调整 GPT 的设置（如“reasoning”参数）或使用其他更适合特定任务的 AI 工具。
(之前已归纳) 提问时注意清晰、准确地表述问题，可能有助于获得更好的回答。
(之前已归纳) 考虑使用其他AI工具，如 Nitan MCP，或自己部署 AI 模型。
(之前已归纳) 对AI生成的信息（包括旅游景点、签证材料等）要进行仔细核查，不能完全依赖。
(之前已归纳) 用户“AlveROsT”建议使用 API 或 Codex 版本，可能体验更好。
(之前已归纳) 用户“AppleVisionPro”建议根据需求选择合适的AI工具：Gemini 适合快速简单答案，ChatGPT 配合 extended + web search 适合获取新知识。
(之前已归纳) 用户“Define_P”提供了详细的论坛内容总结格式要求，暗示了对AI总结能力的具体期望。
(之前已归纳) 对于需要精确日期计算（如农历）的任务，应谨慎依赖 GPT，并考虑使用专门的工具或进行人工校对。

============================================================================== [新增回复内容] ==============================================================================

新增回复数

================================================================================

================================================================================ --- 第 34 楼来自 ANYA 的回复 (2026-02-21 10:15:16 PST) --- 多骂他几次就好了

================================================================================ --- 第 35 楼来自 eyeshield21 的回复 (2026-02-21 10:19:32 PST) --- 骂了gemini一万次了，也写进了personal memory，但它还是动不动就开始用很random的例子打比方

================================================================================ --- 第 36 楼来自 Define_P 的回复 (2026-02-21 10:30:22 PST) --- 这种比较机械化的需求让 LLM 这种概率性输出幻觉的工具来做确实比较难【引用自 ANYA】: 多骂他几次就好了其实对话本身还是成立的，但不管我用什么语言开始的 session 答着答着它就只用英语回答我了，感觉是不是输出的时候有什么问题

================================================================================ --- 第 37 楼来自 SeattleByTheSea 的回复 (2026-02-21 10:56:19 PST) --- 闹归闹，这应该是设置了system prompt，让LLM用找茬的语气回复你是一个论坛内容总结助手。我上传了一个论坛帖子的完整内容文件，包括所有楼层的回复。你要对内容进行仔细分析和思考，联系上下文，注意玩卡领域的黑话（不要错过，也不要乱猜，不过不能从上下文获知可以直接引用黑话）。输出的内容要简短，而不失信息和细节。

如果不是信用卡、购物超低折扣、积分相关，那么总结可以更加简短（类似简讯即可）。

第一行必须是简洁的主题概述（100字以内），直接说明帖子讨论的核心内容和结论（如果有）。不要有任何前缀如"本帖主要讨论"、"这个帖子"，“帖子讨论了”，“大家讨论了”等无用的开头词。这句话让读者一眼就知道是否对内容感兴趣。

请严格按照以下格式输出总结：

简洁的主题概述（要求上面已经提到）

1. 关键信息

重要的数据点、经验分享或结论
用户提到的具体案例和数据点

2. 羊毛/优惠信息

信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等（如有）
如果没有相关信息，写"无"

3. 最新动态

最近的更新或变化（优惠失效、政策变更等）
如果没有相关信息，写"无"

4. 争议或不同意见

不同的看法或经验（简要列举）
如果没有争议，写"无明显争议"

5. 行动建议

基于讨论内容，值得注意或尝试的具体建议

================================================================================ --- 第 41 楼来自 Numb 的回复 (2026-02-21 18:21:20 PST) --- 谢谢之前看到你的帖子觉得太复杂了，我一般直接把泥潭链接发给gpt让他给我读，效果也还行你是一个论坛内容总结助手。我上传了一个论坛帖子的完整内容文件，包括所有楼层的回复。你要对内容进行仔细分析和思考，联系上下文，注意玩卡领域的黑话（不要错过，也不要乱猜，不过不能从上下文获知可以直接引用黑话）。输出的内容要简短，而不失信息和细节。

如果不是信用卡、购物超低折扣、积分相关，那么总结可以更加简短（类似简讯即可）。

第一行必须是简洁的主题概述（100字以内），直接说明帖子讨论的核心内容和结论（如果有）。不要有任何前缀如"本帖主要讨论"、"这个帖子"，“帖子讨论了”，“大家讨论了”等无用的开头词。这句话要让读者一眼就知道是否对内容感兴趣。

请严格按照以下格式输出总结：

简洁的主题概述（要求上面已经提到）

1. 关键信息

重要的数据点、经验分享或结论
用户提到的具体案例和数据点

2. 羊毛/优惠信息

信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等（如有）
如果没有相关信息，写"无"

3. 最新动态

最近的更新或变化（优惠失效、政策变更等）
如果没有相关信息，写"无"

4. 争议或不同意见

不同的看法或经验（简要列举）
如果没有争议，写"无明显争议"

5. 行动建议

基于讨论内容，值得注意或尝试的具体建议

============================================================================== [更新后的摘要] ==============================================================================

用户对 GPT 5.2 的“降智”现象表示担忧，认为其常识性错误频发，并讨论了 AI 工具在处理机械化任务和多语言输出的局限性。同时，有用户分享了对 Gemini 的不满，以及对 AI 模型训练数据质量和成本控制的猜测。用户也提供了关于如何利用 AI 进行论坛内容总结的具体指导，以及一种将链接直接发给 AI 进行内容解读的实用技巧。

1. 关键信息

(之前已归纳) 用户“czh”指出 GPT 5.2 在回答旅游和金融相关问题时出现常识性错误，并附上截图作为证据。
(之前已归纳) 其中一个例子是 GPT 5.2 将“globalist”归类到万豪酒店集团，这被认为是基础网页检索能力就能避免的错误。
(之前已归纳) 另一个例子是 GPT 5.2 对“2/90”的解释为“如果你在 90 天内付款，可以享受 2% 的折扣”，这与常见的金融术语（如 2% 的现金折扣，90 天内付款）不符。
(之前已归纳) 用户“RandomPerson”也提到 GPT 5.2 的 Codex 版本存在问题，无法正确执行代码搜索任务，需要手动调整模型参数才能成功。
(之前已归纳) 用户“xxxyyy”则认为 GPT 5.2 的回答不如其他AI工具（如 ntan mcp）准确。
(之前已归纳) 用户“czh”因此决定不再续费每年 300 美元的 Team 订阅。
(之前已归纳) 用户“xxxyyy”分享了使用 Nitan MCP 等其他AI工具的经验，并提及了自己部署 OpenClaw + nitan-mcp 的可能性。
(之前已归纳) 用户“NewBing”暗示 GPT 5.2 的表现可能比被骂还要糟糕。
(之前已归纳) 用户“Credit_Relay”讽刺付费用户可能在使用免费模型，并对 OpenAI 表示不满。
(之前已归纳) 用户“AppleVisionPro”和“Y320”讨论了国内AI模型（如“元宝”应用中的模型）的“刚硬”或“直接”风格，并推测其可能涉及 A/B 测试。
(之前已归纳) 用户“katrix”将国内AI模型的“对线”风格比作在性别议题敏感的论坛上与网友对线。
(之前已归纳) 用户“可达鸭”分享了 Gemini 在旅游问题上出现错误（将悉尼景点误认为墨尔本景点）的案例，强调了核查AI信息的重要性。
(之前已归纳) 用户“rickey”认为 Gemini 相较于 GPT 5.2 在使用体验上更好。
(之前已归纳) 用户“黑猫警长”展示了其 GPT 使用体验正常，但提及 GPT-4 Turbo 版本开始出现问题。
(之前已归纳) 用户“NewBing”分析“元宝”应用问题在于训练数据质量差，导致 AI“放飞自我”。
(之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效，在 ChatGPT 中过度使用较小规模模型，导致回答质量下降，用户感觉被糊弄。
(之前已归纳) 用户“NewBing”推测 OpenAI 可能通过 API 提供更高质量的模型，而网页端使用较低质量模型。
(之前已归纳) 用户“AppleVisionPro”对比了 Gemini 和 ChatGPT 的使用场景：Gemini 适合快速简单答案，而 ChatGPT 配合 extended + web search 更适合获取新知识。
(之前已归纳) 用户“Define_P”在测试 Gemini 的多语言能力和论坛总结能力，并提供了一个详细的总结格式要求。
(之前已归纳) 用户“酸辣鱼蛋”指出 GPT 在农历日期计算方面一直存在不准确的问题。
新增: 用户ANYA认为可以通过“多骂他几次”来改善AI的表现。
新增: 用户eyeshield21表示即使对Gemini进行了大量批评并写入了个人记忆，它仍然会使用随机的例子打比方。
新增: 用户Define_P认为，让LLM这种概率性输出幻觉的工具处理“机械化”的需求比较困难。
新增: 用户Define_P提到，即使对话开始时使用非英语，AI最终也只会用英语回答，这可能表明其输出存在问题。
新增: 用户SeattleByTheSea提供了一个详细的论坛内容总结格式要求，强调了对AI总结能力的具体期望，特别是针对信用卡、购物等领域的黑话和信息，并定义了输出的结构和风格。
新增: 用户Numb分享了一个实用的技巧，即直接将论坛链接发送给GPT，让其进行内容解读，并认为效果尚可。

2. 羊毛/优惠信息

(之前已归纳) 无直接的羊毛/优惠信息，但讨论中提到了信用卡开卡奖励的价值，暗示用户更看重实际的经济利益。
(之前已归纳) 用户“Credit_Relay”提及了“一分钱一个月的AI助手”，但结合上下文，这更像是对AI服务价格的讨论，而非具体的羊毛信息。
新增: 用户SeattleByTheSea的总结格式要求中，明确列出了“信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等”作为“羊毛/优惠信息”的收集项，尽管在当前讨论中尚未出现具体信息。

3. 最新动态

(之前已归纳) GPT 5.2 版本在近期表现出“降智”现象，准确性下降。
(之前已归纳) 用户普遍反映包括 GPT-4 Turbo 在内的多个版本都出现了问题。
(之前已归纳) 国内AI模型在回答风格上出现变化，更加“刚硬”或“直接”。
(之前已归纳) 用户对比了 Gemini 和 ChatGPT 在不同场景下的表现，认为各有优势。
(之前已归纳) GPT 在农历日期计算方面存在持续的准确性问题。
新增: 用户反馈，即使通过批评和个人记忆设置，Gemini 仍可能出现随机比喻的问题。
新增: AI在多语言对话中可能存在输出语言固定为英语的问题。
新增: 用户SeattleByTheSea提出了一个结构化的论坛内容总结方法，暗示了对AI在特定领域（如金融、购物）信息提取和总结能力的更高要求。
新增: 用户Numb分享了一种直接将链接发给AI解读的实用技巧，表明了用户在探索更高效的AI使用方式。

4. 争议或不同意见

(之前已归纳) 用户“xxxyyy”认为提问方式不对，并提供了自己提问的截图，暗示问题可能出在用户提问的技巧上。
(之前已归纳) 用户“northface”建议开启“extended thinking”模式，暗示这可能有助于提高 GPT 的回答质量。
(之前已归纳) 用户“AppleVisionPro”也提到了开启“extend think”和“web search”功能，并将其比作论坛内容总结助手。
(之前已归纳) 用户“Credit_Relay”认为付费用户在使用免费模型，对 OpenAI 的做法表示质疑。
(之前已归纳) 用户“AppleVisionPro”和“Y320”对国内AI模型（如“元宝”）的“刚硬”回答风格进行了讨论。
(之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效，过度使用小模型导致 ChatGPT 质量下降，用户感觉被糊弄。
(之前已归纳) 用户“NewBing”推测 OpenAI 可能在 API 和网页端使用不同质量的模型。
新增: 用户ANYA的“多骂他几次”的建议，可能被视为一种非正式的反馈机制，但其有效性存疑。
新增: 用户eyeshield21的经历表明，即使有明确的“个人记忆”设置，AI仍可能表现出不符合预期的行为。
新增: 用户Define_P认为LLM处理“机械化”需求存在固有困难，这与AI的概率性输出特性有关。
新增: AI在多语言对话中固定输出英语的问题，可能暗示其在处理跨语言输出时存在技术限制或配置问题。
新增: 用户SeattleByTheSea提供的总结格式要求，反映了用户对AI在特定领域（如信用卡黑话）理解和总结能力的期望，这可能与AI的通用能力存在差距。

5. 行动建议

(之前已归纳) 用户在考虑是否继续使用 GPT 5.2，特别是付费版本，建议用户在付费前仔细评估其准确性和实用性。
(之前已归纳) 对于需要高精度回答的场景，可以尝试调整 GPT 的设置（如“reasoning”参数）或使用其他更适合特定任务的 AI 工具。
(之前已归纳) 提问时注意清晰、准确地表述问题，可能有助于获得更好的回答。
(之前已归纳) 考虑使用其他AI工具，如 Nitan MCP，或自己部署 AI 模型。
(之前已归纳) 对AI生成的信息（包括旅游景点、签证材料等）要进行仔细核查，不能完全依赖。
(之前已归纳) 用户“AlveROsT”建议使用 API 或 Codex 版本，可能体验更好。
(之前已归纳) 用户“AppleVisionPro”建议根据需求选择合适的AI工具：Gemini 适合快速简单答案，ChatGPT 配合 extended + web search 适合获取新知识。
(之前已归纳) 用户“Define_P”提供了详细的论坛内容总结格式要求，暗示了对AI总结能力的具体期望。
(之前已归纳) 对于需要精确日期计算（如农历）的任务，应谨慎依赖 GPT，并考虑使用专门的工具或进行人工校对。
新增: 对于AI的“机械化”或需要精确输出的任务，应认识到LLM的局限性，并考虑使用更适合的工具。
新增: 用户应注意AI在多语言对话中可能出现的语言固定输出问题，并尝试调整或寻找解决方案。
新增: 用户SeattleByTheSea提供了一个详细的论坛内容总结格式要求，暗示了对AI总结能力的具体期望，特别是针对信用卡、购物等领域的黑话和信息。
新增: 用户Numb分享的将链接直接发给GPT解读的技巧，为用户提供了一种更便捷的信息获取方式。

原始内容

--- 第 1 楼来自 czh 的回复 (2026-02-20 21:16:18 PST) ---

IMG_02291320×2868 295 KB

IMG_02301320×2868 331 KB

如图，大家自己看吧，我不打算续费300刀一年的team了

--- 第 2 楼来自 Leeks 的回复 (2026-02-20 21:18:51 PST) ---

请问以上哪个问题是属于大众旅行常识？

--- 第 3 楼来自 northface 的回复 (2026-02-20 21:19:02 PST) ---

开 extended thinking

--- 第 4 楼来自 RandomPerson 的回复 (2026-02-20 21:19:44 PST) ---

我今天嘗試了5.2 codex也感觉蠢得要死，问我说要search codebase，我说可以，然后他说search了（其实没有）我说你没search，（他说不好意思，这就search）还没有，反复三遍。最后还是在model里面把reasoning改成high（默认是medium）才search成功。这感觉连claude code十分之一也没有啊。

--- 第 5 楼来自 czh 的回复 (2026-02-20 21:20:00 PST) ---

我之前用4o问是没有问题的，能把globalist归到万豪合理吗？只要有基础的网页检索能力就不可能这样

--- 第 6 楼来自 SSung 的回复 (2026-02-20 21:20:35 PST) ---

你該慶幸AI還不知道，不然以後RAT靠AI辦案就行了

--- 第 7 楼来自 Tesla 的回复 (2026-02-20 21:23:42 PST) ---

花300刀一年就为了被它自信满满地胡说八道，这钱不如多开张卡换开卡奖励实在

--- 第 8 楼来自 xxxyyy 的回复 (2026-02-20 21:23:51 PST) ---

你这些问题还不如问nitan mcp

--- 第 9 楼来自 czh 的回复 (2026-02-20 21:26:13 PST) ---

是因为最近感觉它降智了，随便问两个问题测试，证明果然如此，她说2/90是“如果你在 90 天内付款，可以享受 2% 的折扣“

--- 第 10 楼来自 xxxyyy 的回复 (2026-02-20 21:27:05 PST) ---

IMG_72211320×2868 430 KB

问法不对

IMG_72221320×1774 259 KB

--- 第 11 楼来自那没事了的回复 (2026-02-20 21:34:45 PST) ---

这是Thinking Mode吗

另外求一个GPT Integrate到Message的教程

--- 第 12 楼来自 kokosilly 的回复 (2026-02-20 21:42:42 PST) ---

woc 这是啥

--- 第 13 楼来自 Numb 的回复 (2026-02-20 21:44:25 PST) ---

这是什么啊，基于论坛内容的ai gpt？

--- 第 14 楼来自 AppleVisionPro 的回复 (2026-02-20 21:47:14 PST) ---

把extend think 和 web search打开

--- 第 15 楼来自 xxxyyy 的回复 (2026-02-20 22:15:58 PST) ---

这是poke + nitan-mcp
【引用自未知】:
【Nitan MCP】你的专属泥潭AI助手（支持OpenClaw）
Introducing Nitan MCP
AI Agent火了有一阵子了，是时候用AI来更好的在泥潭网上冲浪了。
什么是MCP?
MCP即模型上下文协议（Model Context Protocol），是人工智能领域的“USB 接口”。
简而言之，当你有了一个MCP后，你就可以让你的大模型助手们有办法访问一些新的工具，比如访问泥潭。
Nitan MCP能做什么？
接入Nit…
【引用自未知】:
去砍ai一刀吧一分钱一个月的ai助手败家
前些天同事间很火的话题自己也买了
其实就是一款ai wrapper然后可以用text做指令可以让他帮你在calendar上加内容会帮你复读一些邮件之类的还能定时设置一些automation 比如早上天气告诉你要喝水什么的
卖点还是可以通过text完成
好玩的地方是这个产品没有固定的订阅价格完全是在onboarding里面你跟ai对话“协商”出来的
一开始给了我300刀一个月…
喜欢自己部署可以用OpenClaw + nitan-mcp效果更好，就是得花钱

@Numb @kokosilly

--- 第 16 楼来自 NewBing 的回复 (2026-02-20 22:18:24 PST) ---

没骂你一顿就不错了

10000156171071×549 144 KB

--- 第 17 楼来自 Credit_Relay 的回复 (2026-02-20 22:19:47 PST) ---

花了钱却还使用免费的模型，山姆奥特曼感谢你

--- 第 18 楼来自 AppleVisionPro 的回复 (2026-02-20 22:21:22 PST) ---

国内的模型就是这么刚

我和他们发生硬刚的聊天好几次了

--- 第 19 楼来自 Y320 的回复 (2026-02-20 22:25:01 PST) ---

真的假的我上次用deepseek发现他不舔用户了还很惊讶，但直接喷也“进步”太快了

--- 第 20 楼来自 AppleVisionPro 的回复 (2026-02-20 22:26:50 PST) ---

我主要对喷是在微信里面浏览器的元宝里面,我不知道他用的具体什么模型

--- 第 21 楼来自 Y320 的回复 (2026-02-20 22:30:00 PST) ---

应该选的什么就是什么。但是据说元宝有在做abtest…有时不告诉你就直接换模型了，根本莫名其妙。

--- 第 22 楼来自 katrix 的回复 (2026-02-20 22:34:24 PST) ---

真别说，和网友对线，特别是性别趋向比较严重的平台，一模一样

--- 第 23 楼来自 figfig 的回复 (2026-02-20 22:36:30 PST) ---

可劳弟多了

--- 第 24 楼来自可达鸭的回复 (2026-02-20 22:41:16 PST) ---

Gemini把悉尼的景点给写到墨尔本里了呢。

签证材料，还好我认真看了。

--- 第 25 楼来自 rickey 的回复 (2026-02-20 22:47:34 PST) ---

用下来感觉还是gemini好用点

--- 第 26 楼来自黑猫警长的回复 (2026-02-20 22:50:25 PST) ---

IMG_59581290×2189 276 KB

为啥我的gpt很正常…

不过4冲7确实开始乱说了

--- 第 27 楼来自 NewBing 的回复 (2026-02-20 22:56:48 PST) ---

就是元宝有这个问题，训练数据质量不好，system prompt被稀释了就放飞自我了

--- 第 28 楼来自 AlveROsT 的回复 (2026-02-20 22:59:29 PST) ---

我用最近几个版本的 ChatGPT 的感觉就是 OpenAI 在竭尽全力通过内部的 orchestrator 根据对话难易程度选择最小规模的模型进行回复，导致不论问题是难还是简单，它总是经常选到不够 capable 的模型，使得回复总是不尽如人意。想要降本增效是合情合理的，每家应该都在做类似的事情，但是 ChatGPT push 得太过了，动不动就给我一种它把我当傻子糊弄的感觉。用 API 就好些，Codex 体验也还行。

--- 第 29 楼来自 ANYA 的回复 (2026-02-21 01:03:40 PST) ---

转投Gemini半年了，比GPT好用N倍，除了没有Mac客户端和UI UX略丑，其他完美

--- 第 30 楼来自 AppleVisionPro 的回复 (2026-02-21 01:07:07 PST) ---

Gemini windows 也没有客户端

我的经验, 要快速给简单答案, Gemini好. 要新的知识答案, chatgpt开extended + web search 比Gemini好很多

--- 第 31 楼来自美西羊毛王的回复 (2026-02-21 01:16:46 PST) ---

有请泥潭ai仙人

IMG_35891206×365 48.4 KB

--- 第 32 楼来自 Define_P 的回复 (2026-02-21 01:26:46 PST) ---

Gemini 我经常问着问着就开始使用其他语言

--- 第 33 楼来自酸辣鱼蛋的回复 (2026-02-21 06:47:26 PST) ---

GPT 一直算不准农历

--- 第 34 楼来自 ANYA 的回复 (2026-02-21 10:15:16 PST) ---

多骂他几次就好了

--- 第 35 楼来自 eyeshield21 的回复 (2026-02-21 10:19:32 PST) ---

骂了gemini一万次了，也写进了personal memory，但它还是动不动就开始用很random的例子打比方

--- 第 36 楼来自 Define_P 的回复 (2026-02-21 10:30:22 PST) ---

这种比较机械化的需求让 LLM 这种概率性输出幻觉的工具来做确实比较难
【引用自 ANYA】:
多骂他几次就好了
其实对话本身还是成立的，就是不管我用什么语言开始的 session 答着答着它就只用英语回答我了，感觉是不是输出的时候有什么问题

--- 第 37 楼来自 SeattleByTheSea 的回复 (2026-02-21 10:56:19 PST) ---

闹归闹，这应该是设置了system prompt，让LLM用找茬的语气回复

--- 第 38 楼来自 NewBing 的回复 (2026-02-21 11:07:29 PST) ---

元宝官方都说不是用户的问题

--- 第 39 楼来自 lanyin0314 的回复 (2026-02-21 11:15:26 PST) ---

除了泥潭基本不会有哪里能正确回答4冲7吧。让gpt去检索广大中文论坛自然是错误百出。让gpt定向检索泥潭才是对的做法。

--- 第 40 楼来自 Bastet 的回复 (2026-02-21 11:16:27 PST) ---

我今天问税法GPT也不停的犯低级错误。F1 RA是可以免FICA的，它非要说不能免，我把法条原文都给出了说是non-immigrant visa，它非要说必须说NRA

--- 第 41 楼来自 Numb 的回复 (2026-02-21 18:21:20 PST) ---

谢谢之前看到你的帖子觉得太复杂了，我一般直接把泥潭链接发给gpt让他给我读，效果也还行

💳 玩卡 · 其他高楼

分享一下我的one卡经验 [Visa / DHS 风险警告] 💬 9289
One卡充值风控收紧，VGC/MGC受限，PayPal/Venmo Debit卡成替代，地区差异与操作细节成关键，DHS风险警告引关注。SCO充值限制增多，部分地区已不再销售实体卡，合并账户风险高。
Kasheesh余烬【Temporarily复活辣】 💬 7444
Kasheesh系统持续异常，多项功能受限，奖励到账不稳定。
一年一度老问题, Dell Credit 到底买什么，大家来集思广益 💬 7162
Dell Credit 消费策略聚焦摄影耗材、游戏转卖与信用卡福利叠加，关注优惠变化与商品缺货问题。上海FHR酒店推荐成新讨论点，和平饭店体验与高价可乐成话题。
大家amex要到啥好的retention offer了吗 💬 5699
Amex 2024下半年 retention offer 行情大幅缩水，降级/升级策略成为主流。
【原SYW】Citi谢谢卡 Target offer综合 💬 5511
神卡Sears转型Citi ThankYou持续放出高额targeted offer。
Amex 一些个人卡升级offer 白金125k/金卡90k/BCP$150 💬 4987
总结：Amex升级offer失效快，targeted转public，多卡可双吃但注意clawback。
【🕯️RIP】总结一下Amex加副卡offer【11/17/25副卡申请时要求SSN】 💬 4445
Amex副卡Offer普遍失效，SSN要求收紧，用户积极寻找新渠道，Hilton副卡Offer已过期。
Costco金条MS总结 💬 4083
帖子标题

← 返回 💳 玩卡