泥潭日报 uscardforum · 每日精选

GPT 5.2 回答旅游问题降智严重,频繁出现常识性错误

内容摘要

帖子标题 GPT 5.2 回答旅游问题降智严重,频繁出现常识性错误

帖子ID

485340

============================================================================== [旧摘要 - 已被纳入的内容] ==============================================================================


用户指出 GPT 在农历日期计算方面一直存在不准确的问题,并提供了详细的总结格式要求,暗示了对AI总结能力的具体期望。

1. 关键信息

  • (之前已归纳) 用户“czh”指出 GPT 5.2 在回答旅游和金融相关问题时出现常识性错误,并附上截图作为证据。
  • (之前已归纳) 其中一个例子是 GPT 5.2 将“globalist”归类到万豪酒店集团,这被认为是基础网页检索能力就能避免的错误。
  • (之前已归纳) 另一个例子是 GPT 5.2 对“2/90”的解释为“如果你在 90 天内付款,可以享受 2% 的折扣”,这与常见的金融术语(如 2% 的现金折扣,90 天内付款)不符。
  • (之前已归纳) 用户“RandomPerson”也提到 GPT 5.2 的 Codex 版本存在问题,无法正确执行代码搜索任务,需要手动调整模型参数才能成功。
  • (之前已归纳) 用户“xxxyyy”则认为 GPT 5.2 的回答不如其他AI工具(如 ntan mcp)准确。
  • (之前已归纳) 用户“czh”因此决定不再续费每年 300 美元的 Team 订阅。
  • (之前已归纳) 用户“xxxyyy”分享了使用 Nitan MCP 等其他AI工具的经验,并提及了自己部署 OpenClaw + nitan-mcp 的可能性。
  • (之前已归纳) 用户“NewBing”暗示 GPT 5.2 的表现可能比被骂还要糟糕。
  • (之前已归纳) 用户“Credit_Relay”讽刺付费用户可能在使用免费模型,并对 OpenAI 表示不满。
  • (之前已归纳) 用户“AppleVisionPro”和“Y320”讨论了国内AI模型(如“元宝”应用中的模型)的“刚硬”或“直接”风格,并推测其可能涉及 A/B 测试。
  • (之前已归纳) 用户“katrix”将国内AI模型的“对线”风格比作在性别议题敏感的论坛上与网友对线。
  • (之前已归纳) 用户“可达鸭”分享了 Gemini 在旅游问题上出现错误(将悉尼景点误认为墨尔本景点)的案例,强调了核查AI信息的重要性。
  • (之前已归纳) 用户“rickey”认为 Gemini 相较于 GPT 5.2 在使用体验上更好。
  • (之前已归纳) 用户“黑猫警长”展示了其 GPT 使用体验正常,但提及 GPT-4 Turbo 版本开始出现问题。
  • (之前已归纳) 用户“NewBing”分析“元宝”应用问题在于训练数据质量差,导致 AI“放飞自我”。
  • (之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效,在 ChatGPT 中过度使用较小规模模型,导致回答质量下降,用户感觉被糊弄。
  • (之前已归纳) 用户“NewBing”推测 OpenAI 可能通过 API 提供更高质量的模型,而网页端使用较低质量模型。
  • (之前已归纳) 用户“AppleVisionPro”对比了 Gemini 和 ChatGPT 的使用场景:Gemini 适合快速简单答案,而 ChatGPT 配合 extended + web search 更适合获取新知识。
  • (之前已归纳) 用户“Define_P”在测试 Gemini 的多语言能力和论坛总结能力,并提供了一个详细的总结格式要求。
  • (之前已归纳) 用户“酸辣鱼蛋”指出 GPT 在农历日期计算方面一直存在不准确的问题。

2. 羊毛/优惠信息

  • (之前已归纳) 无直接的羊毛/优惠信息,但讨论中提到了信用卡开卡奖励的价值,暗示用户更看重实际的经济利益。
  • (之前已归纳) 用户“Credit_Relay”提及了“一分钱一个月的AI助手”,但结合上下文,这更像是对AI服务价格的讨论,而非具体的羊毛信息。

3. 最新动态

  • (之前已归纳) GPT 5.2 版本在近期表现出“降智”现象,准确性下降。
  • (之前已归纳) 用户普遍反映包括 GPT-4 Turbo 在内的多个版本都出现了问题。
  • (之前已归纳) 国内AI模型在回答风格上出现变化,更加“刚硬”或“直接”。
  • (之前已归纳) 用户对比了 Gemini 和 ChatGPT 在不同场景下的表现,认为各有优势。
  • (之前已归纳) GPT 在农历日期计算方面存在持续的准确性问题。

4. 争议或不同意见

  • (之前已归纳) 用户“xxxyyy”认为提问方式不对,并提供了自己提问的截图,暗示问题可能出在用户提问的技巧上。
  • (之前已归纳) 用户“northface”建议开启“extended thinking”模式,暗示这可能有助于提高 GPT 的回答质量。
  • (之前已归纳) 用户“AppleVisionPro”也提到了开启“extend think”和“web search”功能,并将其比作论坛内容总结助手。
  • (之前已归纳) 用户“Credit_Relay”认为付费用户在使用免费模型,对 OpenAI 的做法表示质疑。
  • (之前已归纳) 用户“AppleVisionPro”和“Y320”对国内AI模型(如“元宝”)的“刚硬”回答风格进行了讨论。
  • (之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效,过度使用小模型导致 ChatGPT 质量下降,用户感觉被糊弄。
  • (之前已归纳) 用户“NewBing”推测 OpenAI 可能在 API 和网页端使用不同质量的模型。

5. 行动建议

  • (之前已归纳) 用户在考虑是否继续使用 GPT 5.2,特别是付费版本,建议用户在付费前仔细评估其准确性和实用性。
  • (之前已归纳) 对于需要高精度回答的场景,可以尝试调整 GPT 的设置(如“reasoning”参数)或使用其他更适合特定任务的 AI 工具。
  • (之前已归纳) 提问时注意清晰、准确地表述问题,可能有助于获得更好的回答。
  • (之前已归纳) 考虑使用其他AI工具,如 Nitan MCP,或自己部署 AI 模型。
  • (之前已归纳) 对AI生成的信息(包括旅游景点、签证材料等)要进行仔细核查,不能完全依赖。
  • (之前已归纳) 用户“AlveROsT”建议使用 API 或 Codex 版本,可能体验更好。
  • (之前已归纳) 用户“AppleVisionPro”建议根据需求选择合适的AI工具:Gemini 适合快速简单答案,ChatGPT 配合 extended + web search 适合获取新知识。
  • (之前已归纳) 用户“Define_P”提供了详细的论坛内容总结格式要求,暗示了对AI总结能力的具体期望。
  • (之前已归纳) 对于需要精确日期计算(如农历)的任务,应谨慎依赖 GPT,并考虑使用专门的工具或进行人工校对。

============================================================================== [新增回复内容] ==============================================================================

新增回复数

5

================================================================================

================================================================================ --- 第 34 楼来自 ANYA 的回复 (2026-02-21 10:15:16 PST) --- 多骂他几次就好了

================================================================================ --- 第 35 楼来自 eyeshield21 的回复 (2026-02-21 10:19:32 PST) --- 骂了gemini一万次了,也写进了personal memory,但它还是动不动就开始用很random的例子打比方

================================================================================ --- 第 36 楼来自 Define_P 的回复 (2026-02-21 10:30:22 PST) --- 这种比较机械化的需求让 LLM 这种概率性输出幻觉的工具来做确实比较难 【引用自 ANYA】: 多骂他几次就好了 其实对话本身还是成立的,但不管我用什么语言开始的 session 答着答着它就只用英语回答我了,感觉是不是输出的时候有什么问题

================================================================================ --- 第 37 楼来自 SeattleByTheSea 的回复 (2026-02-21 10:56:19 PST) --- 闹归闹,这应该是设置了system prompt,让LLM用找茬的语气回复你是一个论坛内容总结助手。我上传了一个论坛帖子的完整内容文件,包括所有楼层的回复。你要对内容进行仔细分析和思考,联系上下文,注意玩卡领域的黑话(不要错过,也不要乱猜,不过不能从上下文获知可以直接引用黑话)。 输出的内容要简短,而不失信息和细节。

如果不是信用卡、购物超低折扣、积分相关,那么总结可以更加简短(类似简讯即可)。

第一行必须是简洁的主题概述(100字以内),直接说明帖子讨论的核心内容和结论(如果有)。不要有任何前缀如"本帖主要讨论"、"这个帖子",“帖子讨论了”,“大家讨论了”等无用的开头词。 这句话让读者一眼就知道是否对内容感兴趣。

请严格按照以下格式输出总结:

简洁的主题概述(要求上面已经提到)

1. 关键信息

  • 重要的数据点、经验分享或结论
  • 用户提到的具体案例和数据点

2. 羊毛/优惠信息

  • 信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等(如有)
  • 如果没有相关信息,写"无"

3. 最新动态

  • 最近的更新或变化(优惠失效、政策变更等)
  • 如果没有相关信息,写"无"

4. 争议或不同意见

  • 不同的看法或经验(简要列举)
  • 如果没有争议,写"无明显争议"

5. 行动建议

  • 基于讨论内容,值得注意或尝试的具体建议

================================================================================ --- 第 41 楼来自 Numb 的回复 (2026-02-21 18:21:20 PST) --- 谢谢之前看到你的帖子觉得太复杂了,我一般直接把泥潭链接发给gpt让他给我读,效果也还行你是一个论坛内容总结助手。我上传了一个论坛帖子的完整内容文件,包括所有楼层的回复。你要对内容进行仔细分析和思考,联系上下文,注意玩卡领域的黑话(不要错过,也不要乱猜,不过不能从上下文获知可以直接引用黑话)。 输出的内容要简短,而不失信息和细节。

如果不是信用卡、购物超低折扣、积分相关,那么总结可以更加简短(类似简讯即可)。

第一行必须是简洁的主题概述(100字以内),直接说明帖子讨论的核心内容和结论(如果有)。不要有任何前缀如"本帖主要讨论"、"这个帖子",“帖子讨论了”,“大家讨论了”等无用的开头词。 这句话要让读者一眼就知道是否对内容感兴趣。

请严格按照以下格式输出总结:

简洁的主题概述(要求上面已经提到)

1. 关键信息

  • 重要的数据点、经验分享或结论
  • 用户提到的具体案例和数据点

2. 羊毛/优惠信息

  • 信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等(如有)
  • 如果没有相关信息,写"无"

3. 最新动态

  • 最近的更新或变化(优惠失效、政策变更等)
  • 如果没有相关信息,写"无"

4. 争议或不同意见

  • 不同的看法或经验(简要列举)
  • 如果没有争议,写"无明显争议"

5. 行动建议

  • 基于讨论内容,值得注意或尝试的具体建议

============================================================================== [更新后的摘要] ==============================================================================


用户对 GPT 5.2 的“降智”现象表示担忧,认为其常识性错误频发,并讨论了 AI 工具在处理机械化任务和多语言输出的局限性。同时,有用户分享了对 Gemini 的不满,以及对 AI 模型训练数据质量和成本控制的猜测。用户也提供了关于如何利用 AI 进行论坛内容总结的具体指导,以及一种将链接直接发给 AI 进行内容解读的实用技巧。

1. 关键信息

  • (之前已归纳) 用户“czh”指出 GPT 5.2 在回答旅游和金融相关问题时出现常识性错误,并附上截图作为证据。
  • (之前已归纳) 其中一个例子是 GPT 5.2 将“globalist”归类到万豪酒店集团,这被认为是基础网页检索能力就能避免的错误。
  • (之前已归纳) 另一个例子是 GPT 5.2 对“2/90”的解释为“如果你在 90 天内付款,可以享受 2% 的折扣”,这与常见的金融术语(如 2% 的现金折扣,90 天内付款)不符。
  • (之前已归纳) 用户“RandomPerson”也提到 GPT 5.2 的 Codex 版本存在问题,无法正确执行代码搜索任务,需要手动调整模型参数才能成功。
  • (之前已归纳) 用户“xxxyyy”则认为 GPT 5.2 的回答不如其他AI工具(如 ntan mcp)准确。
  • (之前已归纳) 用户“czh”因此决定不再续费每年 300 美元的 Team 订阅。
  • (之前已归纳) 用户“xxxyyy”分享了使用 Nitan MCP 等其他AI工具的经验,并提及了自己部署 OpenClaw + nitan-mcp 的可能性。
  • (之前已归纳) 用户“NewBing”暗示 GPT 5.2 的表现可能比被骂还要糟糕。
  • (之前已归纳) 用户“Credit_Relay”讽刺付费用户可能在使用免费模型,并对 OpenAI 表示不满。
  • (之前已归纳) 用户“AppleVisionPro”和“Y320”讨论了国内AI模型(如“元宝”应用中的模型)的“刚硬”或“直接”风格,并推测其可能涉及 A/B 测试。
  • (之前已归纳) 用户“katrix”将国内AI模型的“对线”风格比作在性别议题敏感的论坛上与网友对线。
  • (之前已归纳) 用户“可达鸭”分享了 Gemini 在旅游问题上出现错误(将悉尼景点误认为墨尔本景点)的案例,强调了核查AI信息的重要性。
  • (之前已归纳) 用户“rickey”认为 Gemini 相较于 GPT 5.2 在使用体验上更好。
  • (之前已归纳) 用户“黑猫警长”展示了其 GPT 使用体验正常,但提及 GPT-4 Turbo 版本开始出现问题。
  • (之前已归纳) 用户“NewBing”分析“元宝”应用问题在于训练数据质量差,导致 AI“放飞自我”。
  • (之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效,在 ChatGPT 中过度使用较小规模模型,导致回答质量下降,用户感觉被糊弄。
  • (之前已归纳) 用户“NewBing”推测 OpenAI 可能通过 API 提供更高质量的模型,而网页端使用较低质量模型。
  • (之前已归纳) 用户“AppleVisionPro”对比了 Gemini 和 ChatGPT 的使用场景:Gemini 适合快速简单答案,而 ChatGPT 配合 extended + web search 更适合获取新知识。
  • (之前已归纳) 用户“Define_P”在测试 Gemini 的多语言能力和论坛总结能力,并提供了一个详细的总结格式要求。
  • (之前已归纳) 用户“酸辣鱼蛋”指出 GPT 在农历日期计算方面一直存在不准确的问题。
  • 新增: 用户ANYA认为可以通过“多骂他几次”来改善AI的表现。
  • 新增: 用户eyeshield21表示即使对Gemini进行了大量批评并写入了个人记忆,它仍然会使用随机的例子打比方。
  • 新增: 用户Define_P认为,让LLM这种概率性输出幻觉的工具处理“机械化”的需求比较困难。
  • 新增: 用户Define_P提到,即使对话开始时使用非英语,AI最终也只会用英语回答,这可能表明其输出存在问题。
  • 新增: 用户SeattleByTheSea提供了一个详细的论坛内容总结格式要求,强调了对AI总结能力的具体期望,特别是针对信用卡、购物等领域的黑话和信息,并定义了输出的结构和风格。
  • 新增: 用户Numb分享了一个实用的技巧,即直接将论坛链接发送给GPT,让其进行内容解读,并认为效果尚可。

2. 羊毛/优惠信息

  • (之前已归纳) 无直接的羊毛/优惠信息,但讨论中提到了信用卡开卡奖励的价值,暗示用户更看重实际的经济利益。
  • (之前已归纳) 用户“Credit_Relay”提及了“一分钱一个月的AI助手”,但结合上下文,这更像是对AI服务价格的讨论,而非具体的羊毛信息。
  • 新增: 用户SeattleByTheSea的总结格式要求中,明确列出了“信用卡优惠、返现活动、积分兑换技巧、超值价、bug价、限时折扣等”作为“羊毛/优惠信息”的收集项,尽管在当前讨论中尚未出现具体信息。

3. 最新动态

  • (之前已归纳) GPT 5.2 版本在近期表现出“降智”现象,准确性下降。
  • (之前已归纳) 用户普遍反映包括 GPT-4 Turbo 在内的多个版本都出现了问题。
  • (之前已归纳) 国内AI模型在回答风格上出现变化,更加“刚硬”或“直接”。
  • (之前已归纳) 用户对比了 Gemini 和 ChatGPT 在不同场景下的表现,认为各有优势。
  • (之前已归纳) GPT 在农历日期计算方面存在持续的准确性问题。
  • 新增: 用户反馈,即使通过批评和个人记忆设置,Gemini 仍可能出现随机比喻的问题。
  • 新增: AI在多语言对话中可能存在输出语言固定为英语的问题。
  • 新增: 用户SeattleByTheSea提出了一个结构化的论坛内容总结方法,暗示了对AI在特定领域(如金融、购物)信息提取和总结能力的更高要求。
  • 新增: 用户Numb分享了一种直接将链接发给AI解读的实用技巧,表明了用户在探索更高效的AI使用方式。

4. 争议或不同意见

  • (之前已归纳) 用户“xxxyyy”认为提问方式不对,并提供了自己提问的截图,暗示问题可能出在用户提问的技巧上。
  • (之前已归纳) 用户“northface”建议开启“extended thinking”模式,暗示这可能有助于提高 GPT 的回答质量。
  • (之前已归纳) 用户“AppleVisionPro”也提到了开启“extend think”和“web search”功能,并将其比作论坛内容总结助手。
  • (之前已归纳) 用户“Credit_Relay”认为付费用户在使用免费模型,对 OpenAI 的做法表示质疑。
  • (之前已归纳) 用户“AppleVisionPro”和“Y320”对国内AI模型(如“元宝”)的“刚硬”回答风格进行了讨论。
  • (之前已归纳) 用户“AlveROsT”认为 OpenAI 为了降本增效,过度使用小模型导致 ChatGPT 质量下降,用户感觉被糊弄。
  • (之前已归纳) 用户“NewBing”推测 OpenAI 可能在 API 和网页端使用不同质量的模型。
  • 新增: 用户ANYA的“多骂他几次”的建议,可能被视为一种非正式的反馈机制,但其有效性存疑。
  • 新增: 用户eyeshield21的经历表明,即使有明确的“个人记忆”设置,AI仍可能表现出不符合预期的行为。
  • 新增: 用户Define_P认为LLM处理“机械化”需求存在固有困难,这与AI的概率性输出特性有关。
  • 新增: AI在多语言对话中固定输出英语的问题,可能暗示其在处理跨语言输出时存在技术限制或配置问题。
  • 新增: 用户SeattleByTheSea提供的总结格式要求,反映了用户对AI在特定领域(如信用卡黑话)理解和总结能力的期望,这可能与AI的通用能力存在差距。

5. 行动建议

  • (之前已归纳) 用户在考虑是否继续使用 GPT 5.2,特别是付费版本,建议用户在付费前仔细评估其准确性和实用性。
  • (之前已归纳) 对于需要高精度回答的场景,可以尝试调整 GPT 的设置(如“reasoning”参数)或使用其他更适合特定任务的 AI 工具。
  • (之前已归纳) 提问时注意清晰、准确地表述问题,可能有助于获得更好的回答。
  • (之前已归纳) 考虑使用其他AI工具,如 Nitan MCP,或自己部署 AI 模型。
  • (之前已归纳) 对AI生成的信息(包括旅游景点、签证材料等)要进行仔细核查,不能完全依赖。
  • (之前已归纳) 用户“AlveROsT”建议使用 API 或 Codex 版本,可能体验更好。
  • (之前已归纳) 用户“AppleVisionPro”建议根据需求选择合适的AI工具:Gemini 适合快速简单答案,ChatGPT 配合 extended + web search 适合获取新知识。
  • (之前已归纳) 用户“Define_P”提供了详细的论坛内容总结格式要求,暗示了对AI总结能力的具体期望。
  • (之前已归纳) 对于需要精确日期计算(如农历)的任务,应谨慎依赖 GPT,并考虑使用专门的工具或进行人工校对。
  • 新增: 对于AI的“机械化”或需要精确输出的任务,应认识到LLM的局限性,并考虑使用更适合的工具。
  • 新增: 用户应注意AI在多语言对话中可能出现的语言固定输出问题,并尝试调整或寻找解决方案。
  • 新增: 用户SeattleByTheSea提供了一个详细的论坛内容总结格式要求,暗示了对AI总结能力的具体期望,特别是针对信用卡、购物等领域的黑话和信息。
  • 新增: 用户Numb分享的将链接直接发给GPT解读的技巧,为用户提供了一种更便捷的信息获取方式。
原始内容
--- 第 1 楼来自 czh 的回复 (2026-02-20 21:16:18 PST) ---

IMG_02291320×2868 295 KB

IMG_02301320×2868 331 KB

如图,大家自己看吧,我不打算续费300刀一年的team了

--- 第 2 楼来自 Leeks 的回复 (2026-02-20 21:18:51 PST) ---

请问以上哪个问题是属于大众旅行常识?

--- 第 3 楼来自 northface 的回复 (2026-02-20 21:19:02 PST) ---

开 extended thinking

--- 第 4 楼来自 RandomPerson 的回复 (2026-02-20 21:19:44 PST) ---

我今天嘗試了5.2 codex也感觉蠢得要死,问我说要search codebase,我说可以,然后他说search了(其实没有)我说你没search,(他说不好意思,这就search)还没有,反复三遍。最后还是在model里面把reasoning改成high(默认是medium)才search成功。这感觉连claude code十分之一也没有啊。

--- 第 5 楼来自 czh 的回复 (2026-02-20 21:20:00 PST) ---

我之前用4o问是没有问题的,能把globalist归到万豪合理吗?只要有基础的网页检索能力就不可能这样

--- 第 6 楼来自 SSung 的回复 (2026-02-20 21:20:35 PST) ---

你該慶幸AI還不知道,不然以後RAT靠AI辦案就行了

--- 第 7 楼来自 Tesla 的回复 (2026-02-20 21:23:42 PST) ---

花300刀一年就为了被它自信满满地胡说八道,这钱不如多开张卡换开卡奖励实在

--- 第 8 楼来自 xxxyyy 的回复 (2026-02-20 21:23:51 PST) ---

你这些问题还不如问nitan mcp

--- 第 9 楼来自 czh 的回复 (2026-02-20 21:26:13 PST) ---

是因为最近感觉它降智了,随便问两个问题测试,证明果然如此,她说2/90是“如果你在 90 天内付款,可以享受 2% 的折扣“

--- 第 10 楼来自 xxxyyy 的回复 (2026-02-20 21:27:05 PST) ---

IMG_72211320×2868 430 KB

问法不对

IMG_72221320×1774 259 KB

--- 第 11 楼来自 那没事了 的回复 (2026-02-20 21:34:45 PST) ---

这是Thinking Mode吗

另外求一个GPT Integrate到Message的教程

--- 第 12 楼来自 kokosilly 的回复 (2026-02-20 21:42:42 PST) ---

woc 这是啥

--- 第 13 楼来自 Numb 的回复 (2026-02-20 21:44:25 PST) ---

这是什么啊,基于论坛内容的ai gpt?

--- 第 14 楼来自 AppleVisionPro 的回复 (2026-02-20 21:47:14 PST) ---

把extend think 和 web search打开

--- 第 15 楼来自 xxxyyy 的回复 (2026-02-20 22:15:58 PST) ---

这是poke + nitan-mcp
【引用自 未知】:
【Nitan MCP】你的专属泥潭AI助手 (支持OpenClaw)
Introducing Nitan MCP
AI Agent火了有一阵子了,是时候用AI来更好的在泥潭网上冲浪了 。
什么是MCP?
MCP即模型上下文协议(Model Context Protocol),是人工智能领域的“USB 接口”。
简而言之,当你有了一个MCP后,你就可以让你的大模型助手们有办法访问一些新的工具,比如访问泥潭。
Nitan MCP能做什么?
接入Nit…
【引用自 未知】:
去砍ai一刀吧 一分钱一个月的ai助手 败家
前些天同事间很火的话题 自己也买了
其实就是一款ai wrapper然后可以用text做指令 可以让他帮你在calendar上加内容 会帮你复读一些邮件之类的 还能定时设置一些automation 比如早上天气 告诉你要喝水什么的
卖点还是可以通过text完成
好玩的地方是这个产品没有固定的订阅价格 完全是在onboarding里面你跟ai对话“协商”出来的
一开始给了我300刀一个月…
喜欢自己部署可以用OpenClaw + nitan-mcp效果更好,就是得花钱

@Numb @kokosilly

--- 第 16 楼来自 NewBing 的回复 (2026-02-20 22:18:24 PST) ---

没骂你一顿就不错了

10000156171071×549 144 KB

--- 第 17 楼来自 Credit_Relay 的回复 (2026-02-20 22:19:47 PST) ---

花了钱却还使用免费的模型,山姆奥特曼感谢你

--- 第 18 楼来自 AppleVisionPro 的回复 (2026-02-20 22:21:22 PST) ---

国内的模型就是这么刚

我和他们发生硬刚的聊天好几次了

--- 第 19 楼来自 Y320 的回复 (2026-02-20 22:25:01 PST) ---

真的假的 我上次用deepseek发现他不舔用户了还很惊讶,但直接喷也“进步”太快了

--- 第 20 楼来自 AppleVisionPro 的回复 (2026-02-20 22:26:50 PST) ---

我主要对喷是在微信里面浏览器的元宝里面,我不知道他用的具体什么模型

--- 第 21 楼来自 Y320 的回复 (2026-02-20 22:30:00 PST) ---

应该选的什么就是什么。但是据说元宝有在做abtest…有时不告诉你就直接换模型了,根本莫名其妙。

--- 第 22 楼来自 katrix 的回复 (2026-02-20 22:34:24 PST) ---

真别说,和网友对线,特别是性别趋向比较严重的平台,一模一样

--- 第 23 楼来自 figfig 的回复 (2026-02-20 22:36:30 PST) ---

可劳弟多了

--- 第 24 楼来自 可达鸭 的回复 (2026-02-20 22:41:16 PST) ---

Gemini把悉尼的景点给写到墨尔本里了呢。

签证材料,还好我认真看了。

--- 第 25 楼来自 rickey 的回复 (2026-02-20 22:47:34 PST) ---

用下来感觉还是gemini好用点

--- 第 26 楼来自 黑猫警长 的回复 (2026-02-20 22:50:25 PST) ---

IMG_59581290×2189 276 KB

为啥我的gpt很正常…

不过4冲7确实开始乱说了

--- 第 27 楼来自 NewBing 的回复 (2026-02-20 22:56:48 PST) ---

就是元宝有这个问题,训练数据质量不好,system prompt被稀释了就放飞自我了

--- 第 28 楼来自 AlveROsT 的回复 (2026-02-20 22:59:29 PST) ---

我用最近几个版本的 ChatGPT 的感觉就是 OpenAI 在竭尽全力通过内部的 orchestrator 根据对话难易程度选择最小规模的模型进行回复,导致不论问题是难还是简单,它总是经常选到不够 capable 的模型,使得回复总是不尽如人意。想要降本增效是合情合理的,每家应该都在做类似的事情,但是 ChatGPT push 得太过了,动不动就给我一种它把我当傻子糊弄的感觉。用 API 就好些,Codex 体验也还行。

--- 第 29 楼来自 ANYA 的回复 (2026-02-21 01:03:40 PST) ---

转投Gemini半年了,比GPT好用N倍,除了没有Mac客户端和UI UX略丑,其他完美

--- 第 30 楼来自 AppleVisionPro 的回复 (2026-02-21 01:07:07 PST) ---

Gemini windows 也没有客户端

我的经验, 要快速给简单答案, Gemini好. 要新的知识答案, chatgpt开extended + web search 比Gemini好很多

--- 第 31 楼来自 美西羊毛王 的回复 (2026-02-21 01:16:46 PST) ---

有请泥潭ai仙人

IMG_35891206×365 48.4 KB

--- 第 32 楼来自 Define_P 的回复 (2026-02-21 01:26:46 PST) ---

Gemini 我经常问着问着就开始使用其他语言

--- 第 33 楼来自 酸辣鱼蛋 的回复 (2026-02-21 06:47:26 PST) ---

GPT 一直算不准农历

--- 第 34 楼来自 ANYA 的回复 (2026-02-21 10:15:16 PST) ---

多骂他几次就好了

--- 第 35 楼来自 eyeshield21 的回复 (2026-02-21 10:19:32 PST) ---

骂了gemini一万次了,也写进了personal memory,但它还是动不动就开始用很random的例子打比方

--- 第 36 楼来自 Define_P 的回复 (2026-02-21 10:30:22 PST) ---

这种比较机械化的需求让 LLM 这种概率性输出幻觉的工具来做确实比较难
【引用自 ANYA】:
多骂他几次就好了
其实对话本身还是成立的,就是不管我用什么语言开始的 session 答着答着它就只用英语回答我了,感觉是不是输出的时候有什么问题

--- 第 37 楼来自 SeattleByTheSea 的回复 (2026-02-21 10:56:19 PST) ---

闹归闹,这应该是设置了system prompt,让LLM用找茬的语气回复

--- 第 38 楼来自 NewBing 的回复 (2026-02-21 11:07:29 PST) ---

元宝官方都说不是用户的问题

--- 第 39 楼来自 lanyin0314 的回复 (2026-02-21 11:15:26 PST) ---

除了泥潭基本不会有哪里能正确回答4冲7吧。让gpt去检索广大中文论坛自然是错误百出。让gpt定向检索泥潭才是对的做法。

--- 第 40 楼来自 Bastet 的回复 (2026-02-21 11:16:27 PST) ---

我今天问税法GPT也不停的犯低级错误。F1 RA是可以免FICA的,它非要说不能免,我把法条原文都给出了说是non-immigrant visa,它非要说必须说NRA

--- 第 41 楼来自 Numb 的回复 (2026-02-21 18:21:20 PST) ---

谢谢之前看到你的帖子觉得太复杂了,我一般直接把泥潭链接发给gpt让他给我读,效果也还行