泥潭日报 uscardforum · 每日精选

也聊聊为什么AI落地难

内容摘要

AI落地难的根本原因在于知识获取、验证成本和责任不清,特化模型和“Human in the Loop”是可行路径,但AI已在部分领域取代人力并引发社会变革。AI的工具重构是必然趋势,其目标是解决问题而非模仿人类,但AGI泡沫破裂后,市场将回归特化模型。AI在国防、编程等领域的实际应用表明其已产生价值,但复杂场景下的Context Window膨胀、运行时学习能力不足等仍是挑战。AI将大规模取代初级岗位,高级人才需学会指挥AI Agent,社会结构和法律框架将随之改变。

1. 关键信息

  • (之前已归纳) AI在特定场景(易验证、数据充足)下表现良好,但难以达到100%成功率,幻觉普遍。
  • (之前已归纳) 验证成本高是AI落地的一大瓶颈,尤其是在现实世界交互和复杂需求定义场景。
  • (之前已归纳) 多步AI推理中,每一步的幻觉会累积,影响整体准确性,无法仅靠增加深度解决。
  • (之前已归纳) 许多行业知识是隐性的,AI难以掌握,例如法律领域的辩护策略。
  • (之前已归纳) 美国强调责任归属,AI出错时由使用者担责,导致企业对AI签字权持谨慎态度。
  • (之前已归纳) AI学习新知识成本高,微调(finetune)仅对训练集内知识有效,RAG或Agent效果有限。
  • (之前已归纳) AI落地难的根本原因在于知识、验证成本和责任不清的“玻璃天花板”。
  • (之前已归纳) 未来主流可能是“human in the loop”,AI在可接受不确定性或易验证领域有发挥空间。
  • (之前已归纳) AI的出现更多是减少工作人数,而非完全替代职业。
  • (之前已归纳) AI替代的是初级岗位,高级人才将更多地指挥AI Agent。
  • (之前已归纳) LLM的非确定性特性需要新的约束和监控系统,数据API成本也较高。
  • (之前已归纳) 算力成本降低并不能解决AI落地面临的所有问题。
  • (之前已归纳) 未来高级人才更侧重思维方式和设计能力,而非单纯的代码技能。
  • (之前已归纳) L4、L5级别的岗位通常也是由初级岗位逐步成长起来的,暗示了AI对初级岗位的影响。
  • (之前已归纳) AI落地难的根本原因被归结为试图在短时间内解决长期存在的问题(20年的问题放到2个月内解决)。
  • (之前已归纳) AI在呼叫中心、写作(copywriting)、教育等领域已实现落地。
  • (之前已归纳) 有观点认为,AI的“落地”标准不应过于严苛,解决大部分问题(如80%)即可算落地,历史上的成功产品也并非完美解决100%问题。
  • (之前已归纳) AI被视为一种手段而非目的,对多数公司而言,AI本身不是产品。
  • (之前已归纳) AI的成本高昂,客户(特别是中小公司、学校、医院等预算紧张的机构)不愿意为此付费。
  • (之前已归纳) AI的发展速度惊人,从ChatGPT的“人工智障”到如今的快速迭代,预示着未来可能带来巨大的社会变革。
  • (之前已归纳) 责任不清的问题在Agent面前可能不再是问题,生产力决定社会结构,法律和社会框架会随之改变。
  • (之前已归纳) 生产力决定社会结构,AI的快速发展可能导致社会法律的变革,以及AI Native一代的出现。
  • (之前已归纳) AI不具备分辨善恶、是非、对错的能力,这被视为其“天花板”,本质上是“巨型抄答案机器”。
  • (之前已归纳) AI在处理“抄答案”类型的工作上表现胜任。
  • (之前已归纳) 行业知识的隐性化是AI落地难的原因之一,尤其在程序员领域,过度开源和分享可能导致AI在该领域表现更好。
  • (之前已归纳) AI的容错率是关键,不同行业对AI的容错率要求不同;例如,自媒体对插图要求不高,AI可满足,但广告公司则不行。
  • (之前已归纳) 当用户具备相关知识时,能及时发现AI的错误并进行纠正,从而有效利用AI;否则,AI错误可能导致方向偏差。
  • (之前已归纳) AI模型缺乏像“Magi”中女性角色那样的“一票否决权”的魄力。
  • (之前已归纳) SaaS模式的定价方式可以多样化,不限于“per seat fee”,如“per operation”,SaaS公司仍有较强的议价能力。
  • (之前已归纳) 商业上的复杂性远超技术上的简单性,AI在解决商业问题上并非易事。
  • (之前已归纳) 科技出身的产品经理(PM)是否还需要高级职位存在疑问。
  • (之前已归纳) 算力成本是AI替代领域的重要瓶颈,当算力足够便宜时,AI的替代范围可能会超出想象。
  • (之前已归纳) 人脑在很多方面可能比AI能耗更低、成本更低,未来AI与人脑可能存在竞争关系。
  • (之前已归纳) 论坛讨论者预测,在OpenAI等公司上市并找到接盘侠后,可能会出现论证AI“无用”的声音。
  • (之前已归纳) AI的未来发展充满不确定性,既有巨大变化,也有不变之处。
  • (之前已归纳) IRS(美国国税局)利用AI审查税表,尤其是在复杂的美国税法下,AI的潜在应用值得关注。
  • (之前已归纳) AI的“落地”不应局限于“智慧”的卷比,而是普及自动化,通过降低成本实现全流程自动化,尤其是在工业化标准流程中。
  • (之前已归纳) 即使AI存在错误和幻觉,其在某些工作类型中可能比人类更受欢迎,因为人类还存在“心机”等负面因素。
  • (之前已归纳) 存在争议,有人认为AI的幻觉问题在安全和监管领域(如无人驾驶、版权)是致命伤,导致需要回归人工,而另一些人则认为AI在某些方面比人更优,且人类也并非完美。
  • (之前已归纳) AI与SaaS产品的区别在于,SaaS是确定性地解决一定比例的问题,而AI常被宣传解决大部分问题,但实际效果却因幻觉等问题而大打折扣,甚至不如SaaS有前景。
  • (之前已归纳) 线性外推AI发展速度(如从ChatGPT到取代人类仅需3年)被认为不靠谱,技术发展更可能遵循S型曲线。
  • (之前已归纳) Agent的可靠性存疑,例如五角大楼禁用Agent,认为“全Agent社会”是虚幻的,AI发展并非如一些人所预期的那样迅速达到奇点。
  • (之前已归纳) 真正需要负责的行业(如医疗、金融)AI难以落地,而创意写作等风险较低的领域则相对容易实现应用。
  • (之前已归纳) 许多应用连20%的问题都未能有效解决,且幻觉问题在关键领域(如医疗客服)仍是致命伤,导致需要回归人工。
  • (之前已归纳) Opus 4.x在编程领域取得突破,通过高度特化能力(放弃数学等)实现了对Gemini和GPT的超越,引发了程序员行业的震动,这被视为AI“落地”的典范。
  • (之前已归纳) 讨论者认为,当前模型“傻逼”是因为追求一步到位的AGI,而忽略了特化应用的重要性。
  • (之前已归纳) 认为AI的“落地”应是模型在特定领域进行RL(强化学习)训练,而非追求全能AGI。
  • (之前已归纳) 讨论者认为,使用基础版Grok或国产AI模型在某些特定任务上(如检测模型)可能不如成熟的YOLO等模型,暗示了AI落地需要根据具体场景选择最合适的工具,而非一味追求最新技术。
  • (之前已归纳) AI能写出不错的初稿、完成前期准备和整理工作,这本身就是一种“落地”,已经取代了相当一部分旧生产力,导致了部分岗位的裁员。
  • (之前已归纳) 对AI“落地”的期望不应过高,未达到100%完美解决问题不代表AI没有价值,其已在很多方面取代了人力。
  • (之前已归纳) AI对就业市场的影响是巨大的,即使平均取代一半的人力,也是一个非常可怕的数字,需要考虑被取代人群的未来。
  • (之前已归纳) AI的发展不应只关注供给端(效率提升),更要考虑需求端(消费和就业),否则将面临生产过剩和消费不足的问题。
  • (之前已归纳) 隐性知识和经验判断是AI落地的一大挑战,例如软件系统的异常指标分析、甲方需求处理、以及广告风格判断等,这些知识往往难以文档化,依赖资深从业者的口头传授和经验积累。
  • (之前已归纳) 幻觉累积是简单的工程问题,但Context Engineering和Agent Engineering目前仍是为基础模型参数不足“找补”的工程实践,只能缓解而非解决AI落地中的核心问题。
  • (之前已归纳) AI发展速度被夸大,从S型曲线被吹嘘成J型曲线,导致人们的反感。
  • (之前已归纳) 效率提升10%的AI尚能通过创造新需求来缓冲,但50%的效率提升可能引发通缩螺旋。
  • (之前已归纳) 预计在AI公司上市后,会出现论证AI实际提升效果远低于预期的声音。
  • (之前已归纳) Context Engineering和Agent Engineering等实践,在模型不完备的情况下,依赖大量训练数据中的use pattern,但仍面临Tool Call的meta-pattern不足、上下文压缩丢失信息、Subagent依赖主Agent输入等问题,尤其在开放领域和缺乏训练数据的任务中更为明显。
  • (之前已归纳) 即使在最成熟的Coding任务中,Agent Engineering也存在局限,例如非POSIX文件系统调用错误、外部工具利用率低,以及Subagent输出丢失中间上下文导致任务执行错误。
  • (之前已归纳) 在涉及“实验硬件”等复杂Function Call时,定义其效果和边界情况(unknown unknowns)是巨大挑战。
  • (之前已归纳) 对于法律案情分析或房地产Agent等开放领域,如何定义关键信息、避免上下文丢失,以及处理AI的“误解”是难题。
  • (之前已归纳) Agent Engineering和Context Engineering本质上是为基础模型参数不足的“找补”,是妥协的工程实践,无法根本解决AI落地中的核心问题。
  • (之前已归纳) AI的工具重构是必然趋势,因为AI的目标是“解决问题”,而非必须模仿人类的解决方式。
  • (之前已归纳) 关于级联幻觉是否是主要问题,有待商榷,但目前的工程实践(Context/Agent Engineering)更多是为基础模型参数不足“找补”,而非根本解决。
  • (新增) "Human in the loop" 模式是AI落地的一种可行方式,即AI辅助人类工作,而非完全替代。这种模式在AI能力有限或需要人工判断的场景下尤为重要。
  • (新增) AI的“落地”不应局限于追求AGI(通用人工智能),而应关注其在特定领域的能力提升和自动化普及,例如通过RL训练的特化模型。
  • (新增) AI发展速度的线性外推(如3年内取代人类)被质疑,更可能遵循S型曲线,且“全Agent社会”的设想被认为是虚幻的,Agent的可靠性不足以支撑。
  • (新增) AI在需要高度负责的行业(如医疗、金融)难以落地,而创意写作等风险较低的领域相对容易应用。
  • (新增) 许多AI应用连20%的问题都未能有效解决,幻觉问题在关键领域是致命伤,导致需要回归人工。
  • (新增) Opus 4.x在编程领域的突破,以及特化模型(而非AGI)的成功,被认为是AI“落地”的有效路径。
  • (新增) AI的工具重构是必然趋势,因为AI的目标是“解决问题”,而非必须模仿人类的解决方式。
  • (新增) 关于级联幻觉是否是主要问题,有待商榷,但目前的工程实践(Context/Agent Engineering)更多是为基础模型参数不足“找补”,而非根本解决。
  • (新增) AI在国防领域的实际应用(如抓捕杜马罗、攻击伊朗)被视为AI“落地”的例证,表明AI已在特定领域产生实际价值。
  • (新增) AI assist层面已能取代大量人力,且随着模型能力提升、数据中心扩张和token价格下降,人与AI交互的平衡点将持续向AI倾斜,AI辅助将成为不可逆的趋势。
  • (新增) 五角大楼禁止完全无人干预的AI用于武器,但AI在抓马杜罗和攻击伊朗事件中的作用被视为其实际“落地”的证明。
  • (新增) AI在复杂、无测试环境的生产Bug排查等场景下,其Context Window的膨胀问题依然是挑战。
  • (新增) AI对公开知识(非编程类)的特化不足,在数据分析中常无法正确理解逻辑,需要人工编写逻辑框架。
  • (新增) 可以通过开发expert agent来解决LLM不具备所有领域知识的问题,未来软件开发将转向开发expert agent。
  • (新增) Sub-agent的领域专业知识来源是关键问题,RAG、Custom System Prompt和Tool等只能补充信息和工具,但缺乏训练数据的领域依然是盲点。
  • (新增) 运行时学习能力不足、大量领域缺乏学习数据以及领域过于复杂无法运行时学习,将限制AI系统的上限。
  • (新增) 认为AGI的泡沫破裂后,将转向挖掘各行业特化数据训练专门的expert model。
  • (新增) MoE(Mixture of Experts)被视为一种试图实现AGI的“邪教”,最终落地产品将是大量specialized model。
  • (新增) Opus 4.x的反超证明了特化模型的优势。
  • (新增) Attention model在当前架构下难以实现AGI,因为模型在训练完成后无法在实践中学习,调整只能通过有限的context window实现。
  • (新增) 幻觉问题也可能随着模型和工程实践的进步而“坍缩”。
  • (新增) “洗车测试”的例子说明,人类对AI的错误判断可能源于自身思维的局限性,AI的“错误”有时是“跳出框框”的体现。
  • (新增) 认为AI在特定场景下的“错误”不一定是幻觉,可能是人类未曾设想到的解决方案。
  • (新增) INTU的管理层需要理解AI,AI的开发成本高昂,当前阶段类似于拨号上网时代。
  • (新增) 训练Agent仍然是技术活,并非仅靠堆砌算力就能实现,未来可能出现更多由顶尖AI人才开发的高质量Agent。
  • (新增) 在处理用户数据用于训练Agent的问题上,可以考虑雇佣税务专家来建立知识库,以弥补数据或知识的不足。
  • (新增) AI不是淘汰所有人,而是大部分人,大部分人跟expert比起来,超无用处,只是做一些manual tasks罢了。让AI做较为明确的任务,不管多么tedious,简直又快又好,超过绝大部分人。
  • (新增) AI带来的改变和前几次工业革命没有本质区别,结果应该是人类进入万物可编程时代,以后的工作必然要和流程化自动化打交道了,落地是迟早的事情。如果认为这次没有本质区别,那么关于之前工业革命的论断依旧成立:短期结构性失业,长期创造就业。

2. 羊毛/优惠信息

  • (之前已归纳) 无
  • (新增) 无

3. 最新动态

  • (之前已归纳) 无
  • (新增) 无

4. 争议或不同意见

  • (之前已归纳) 有人认为只要不进行人工复核,AI的幻觉就不存在。
  • (之前已归纳) 有人认为AI的“落地”应定义为产品能产生现金流或内部实现利润增长。
  • (之前已归纳) 有人认为AI的护城河在于成本,算力足够低时将“毁天灭地”。
  • (之前已归纳) 有观点认为,将AI在特定领域(如呼叫中心)的落地视为普遍现象,可能忽略了其他领域(如新创业公司和企业AI部门)面临的实际困难。
  • (之前已归纳) 对于“落地”的定义存在分歧,一方认为应有灵活标准(解决大部分问题即可),另一方可能隐含更严格的标准(如100%成功率)。
  • (之前已归纳) 有人认为AI对中小企业(SaaS客户)是“革命”,因为AI可能颠覆其现有的商业模式(如per seat fee)。
  • (之前已归纳) 有人认为,道德和赚钱并不冲突,即使产品“割韭菜”或“邪恶”,也不妨碍其赚钱。
  • (之前已归纳) 存在关于科技出身PM是否还需要Senior职位的讨论。
  • (之前已归纳) 关于AI替代领域范围的争论,一方认为算力降低将极大扩展AI替代范围,另一方则认为人脑在某些方面成本更低。
  • (之前已归纳) 对AI发展速度的线性外推(如3年内取代人类)被质疑,认为技术发展更可能是S型曲线。
  • (之前已归纳) “全Agent社会”和“奇点”的设想被认为是“fever dream”,认为Agent的可靠性不足以支撑这种愿景。
  • (之前已归纳) 关于AI是否能解决80%问题的看法存在分歧,有观点认为实际应用中连20%的问题都难以有效解决,且幻觉是致命伤。
  • (之前已归纳) AI在普及自动化方面的应用与追求“智慧”的AI存在不同落地方向的争议。
  • (之前已归纳) AI的幻觉问题在需要高度负责的行业(如医疗、金融)与在低风险领域(如创意写作)的落地难度存在显著差异。
  • (之前已归纳) AI与人类在工作偏好上的比较,以及AI在降低成本和普及自动化方面的作用。
  • (之前已归纳) 关于当前AI模型能力(如GPT、Gemini)与特化模型(如Opus 4.x)在特定领域(如编程)的优劣存在争论,以及这是否代表了AI“落地”的真正方向。
  • (之前已归纳) 关于基础版Grok和国产AI模型在特定任务上是否优于成熟模型的讨论,暗示了AI工具选择的实用性考量。
  • (之前已归纳) 关于AI“落地”的期望值存在分歧:一方认为AI能提供不错的初稿、完成前期准备工作即为落地,已取代大量旧生产力;另一方则认为未达到完美解决问题的程度(100%成功率)就不能算落地,AI不能完全代替人。
  • (之前已归纳) AI落地应侧重于普及自动化和降低成本,而非仅追求“智慧”的提升。
  • (之前已归纳) AI的幻觉问题在安全和监管领域(如无人驾驶)是致命伤,但在某些工作类型中,AI可能因其“非心机”的特点而比人类更受欢迎。
  • (之前已归纳) AI发展速度的线性外推被质疑,更可能遵循S型曲线,且“全Agent社会”的设想被认为是虚幻的。
  • (之前已归纳) AI在需要高度负责的行业(如医疗、金融)难以落地,而创意写作等风险较低的领域相对容易应用。
  • (之前已归纳) 许多AI应用连20%的问题都未能有效解决,幻觉问题在关键领域是致命伤。
  • (之前已归纳) Opus 4.x在编程领域的突破,以及特化模型(而非AGI)的成功,被认为是AI“落地”的有效路径。
  • (之前已归纳) 幻觉累积被认为是工程问题,但目前的Agent/Context Engineering只是为基础模型参数不足的“找补”,建议关注模型本身的进步,而非过度依赖工程实践。
  • (之前已归纳) AI发展速度被夸大,从S型曲线被吹嘘成J曲线,引发了反感。
  • (之前已归纳) 效率提升10%是可控的,但50%的提升可能导致通缩螺旋。
  • (之前已归纳) 预计AI公司上市后,会出现对其能力的高估被修正的论调。
  • (之前已归纳) Context/Agent Engineering在模型不完备时依赖训练数据中的use pattern,但仍存在Tool Call meta-pattern不足、上下文压缩丢失、Subagent依赖主Agent输入等问题,尤其在开放领域。
  • (之前已归纳) Agent Engineering在Coding任务中也存在局限,如文件系统调用错误、外部工具利用率低等。
  • (之前已归纳) 定义复杂Function Call(如实验硬件)的效果和边界情况是巨大挑战。
  • (之前已归纳) 在法律案情分析或房地产Agent等开放领域,定义关键信息、避免上下文丢失、处理AI误解是难题。
  • (之前已归纳) Agent Engineering和Context Engineering本质上是为基础模型参数不足的“找补”,是妥协的工程实践。
  • (之前已归纳) 关于AI“解决问题”的目标,以及工具重构是必然趋势的观点,与AI必须模仿人类解决方式的传统认知存在差异。
  • (新增) 关于AI Agent的可靠性存在争议,尽管五角大楼禁止完全无人干预的AI用于武器,但AI在抓捕马杜罗和攻击伊朗等事件中的作用被视为其实际“落地”的证明。
  • (新增) “AI assist”层面已能取代大量人力,且随着技术发展和成本下降,人与AI的平衡点将持续向AI倾斜,AI辅助将成为不可逆的趋势。
  • (新增) AI在复杂、无测试环境的生产Bug排查等场景下,其Context Window的膨胀问题依然是挑战。
  • (新增) AI对公开知识(非编程类)的特化不足,在数据分析中常无法正确理解逻辑,需要人工编写逻辑框架。
  • (新增) 可以通过开发expert agent来解决LLM不具备所有领域知识的问题,未来软件开发将转向开发expert agent。
  • (新增) Opus 4.x在编程领域的突破,以及特化模型(而非AGI)的成功,被认为是AI“落地”的有效路径。
  • (新增) 认识到AI的“问题解决”目标,以及为实现此目标而进行的工具重构是必然趋势。
  • (新增) 保持对AI发展速度的理性预期,避免被夸大的“J曲线”叙事误导,理解技术发展的S型曲线规律。
  • (新增) 建议关注AI在特化模型领域的进步,并认识到其“解决问题”导向的工具重构是必然趋势。
  • (新增) 关注Sub-agent的领域知识来源问题,并认识到AI在运行时学习能力和数据稀缺性上的局限性。
  • (新增) 认为AGI泡沫破灭后,将回归特化模型,Attention Model难以实现AGI。
  • (新增) 关注AI在特定领域(如编程)通过高度特化和RL训练实现突破的趋势,这被认为是AI“落地”的有效路径。
  • (新增) 在选择AI工具时,应根据具体任务和场景的成熟度进行考量,而非盲目追求最新技术。
  • (新增) 理解AI的目标是“解决问题”,并认识到为了实现这一目标,对现有工具进行重构是必然的趋势,而非拘泥于AI必须模仿人类的解决方式。
  • (新增) 在AI开发成本高昂的背景下,公司管理层对AI的理解至关重要,AI的落地过程可能并不顺利。
  • (新增) 训练Agent需要技术和专业知识,而非简单堆砌算力,未来可能涌现更多由顶尖AI人才开发的高质量Agent。
  • (新增) 对于AI在特定领域(如税务)的应用,若存在数据或知识短板,可考虑通过雇佣专家来建立知识库,以促进AI的落地。
  • (新增) AI不是淘汰所有人,而是大部分人,大部分人跟expert比起来,超无用处,只是做一些manual tasks罢了。让AI做较为明确的任务,不管多么tedious,简直又快又好,超过绝大部分人。
  • (新增) AI带来的改变和前几次工业革命没有本质区别,结果应该是人类进入万物可编程时代,以后的工作必然要和流程化自动化打交道了,落地是迟早的事情。如果认为这次没有本质区别,那么关于之前工业革命的论断依旧成立:短期结构性失业,长期创造就业。

5. 行动建议

  • (之前已归纳) 在可接受不确定性或易验证的领域探索AI应用。
  • (之前已归纳) 考虑“human in the loop”模式,结合AI和人工进行工作。
  • (之前已归纳) 关注AI在减少工作人数方面的潜力,以及高级人才如何利用AI Agent。
  • (之前已归纳) 对于企业而言,需要建立新的系统来约束和监控AI的表现,并审慎处理AI的责任问题。
  • (之前已归纳) 认识到AI对初级岗位的替代作用,并理解高级人才将更多地扮演指挥AI Agent的角色。
  • (之前已归纳) 调整对AI落地时间表的预期,避免过度追求短期内的完美解决方案。
  • (之前已归纳) 建议学校大幅改变教学模式,更注重实际应用,类似bootcamp,并将实习机会转化为付费实习。
  • (之前已归纳) 在评估AI落地时,应考虑其在特定领域的实际应用和解决问题的比例,而非僵化地追求100%成功率。
  • (之前已归纳) 对于预算有限的客户,AI解决方案需要考虑成本效益,或者提供免费/低成本的切入点。
  • (之前已归纳) 关注AI发展带来的社会结构和法律变革,为未来可能的AI Native一代或被机器取代的社会做好准备。
  • (之前已归纳) 在AI应用中,需要关注其容错率是否满足行业需求,并具备识别和纠正AI错误的能力。
  • (之前已归纳) 关注AI在“抄答案”类工作中的应用,但需认识到其在分辨是非对错上的局限性。
  • (之前已归纳) 对于SaaS公司,应探索除“per seat fee”外的多元化定价模式,以应对AI可能带来的商业模式颠覆。
  • (之前已归纳) 认识到AI在解决复杂商业问题上的局限性,技术和商业问题需要分开考量。
  • (之前已归纳) 关注AI发展可能对现有岗位(如Senior PM)的影响,并为未来可能出现的新型职业角色做准备。
  • (之前已归纳) 持续关注算力成本的下降趋势,以及其对AI应用范围的潜在影响。
  • (之前已归纳) 区分AI的AGI和AI-assisted应用场景,根据实际能力选择合适的落地方式,侧重于普及自动化和降低成本。
  • (之前已归纳) 对AI的“落地”标准持谨慎态度,认识到许多应用连基础问题都未能有效解决,应避免过度乐观的预期,尤其是在涉及安全和监管的领域。
  • (之前已归纳) 警惕对AI发展速度的线性外推,理解技术发展可能存在的瓶颈和S型曲线效应,对“全Agent社会”的设想保持理性。
  • (之前已归纳) 关注AI在满足通用性、快发订单需求方面的应用,以及其在细分场景中结合自动化取代人力的趋势。
  • (之前已归纳) 认识到AI在某些工作场景中可能因其“非心机”的特点而更受欢迎,但同时也要警惕其幻觉问题在关键领域的风险。
  • (之前已归纳) 建议将AI的优势与人类的劣势相结合,以“取长补短”的方式实现AI的落地。
  • (之前已归纳) 关注AI在特定领域(如编程)通过高度特化和RL训练实现突破的趋势,这被认为是AI“落地”的有效路径,而非追求全能AGI。
  • (之前已归纳) 在选择AI工具时,应根据具体任务和场景的成熟度进行考量,例如在检测模型领域,成熟的YOLO等可能比最新但未完全落地的模型更实用。
  • (之前已归纳) 认识到AI已取代了大量前期准备、整理和初稿工作,即使未达到100%完美,也已取代了相当一部分旧生产力,对就业市场产生显著影响。
  • (之前已归纳) AI落地应更关注其对整体生产力提升和旧生产力取代的宏观影响,而非仅停留在个体效率提升的层面。
  • (之前已归纳) 对于AI可能带来的大规模失业问题,需要提前思考被取代人群的未来和整体经济的供需平衡。
  • (之前已归纳) 承认幻觉累积是工程问题,但目前的Agent/Context Engineering只是为基础模型参数不足的“找补”,建议关注模型本身的进步,而非过度依赖工程实践。
  • (之前已归纳) 保持对AI发展速度的理性预期,避免被夸大的“J曲线”叙事误导,理解技术发展的S型曲线规律。
  • (之前已归纳) 区分AI带来的效率提升是10%(可控)还是50%(潜在风险),并警惕AI可能引发的通缩螺旋。
  • (之前已归纳) 关注AI公司上市后的市场反应,以及对AI实际能力评估的修正。
  • (之前已归纳) 在Agent/Context Engineering实践中,注意其局限性,尤其是在开放领域和复杂Function Call的定义上,应更关注基础模型的进步。
  • (之前已归纳) 在选择AI工具时,应以实用性为导向,根据任务成熟度选择最合适的工具,而非盲目追求最新技术。
  • (之前已归纳) 理解AI的目标是“解决问题”,并认识到为了实现这一目标,对现有工具进行重构是必然的趋势,而非拘泥于AI必须模仿人类的解决方式。
  • (新增) AI assist层面已能取代大量人力,且随着技术发展和成本下降,人与AI的平衡点将持续向AI倾斜,AI辅助将成为不可逆的趋势。
  • (新增) AI在国防领域的实际应用(如抓捕杜马罗、攻击伊朗)被视为AI“落地”的例证,表明AI已在特定领域产生实际价值。
  • (新增) AI在复杂、无测试环境的生产Bug排查等场景下,其Context Window的膨胀问题依然是挑战。
  • (新增) AI对公开知识(非编程类)的特化不足,在数据分析中常无法正确理解逻辑,需要人工编写逻辑框架。
  • (新增) 可以通过开发expert agent来解决LLM不具备所有领域知识的问题,未来软件开发将转向开发expert agent。
  • (新增) 关注AI在特化模型(而非AGI)领域的进步,如Opus 4.x在编程领域的突破,这被认为是AI“落地”的有效路径。
  • (新增) 认识到AI的“问题解决”目标,以及为实现此目标而进行的工具重构是必然趋势。
  • (新增) 保持对AI发展速度的理性预期,避免被夸大的“J曲线”叙事误导,理解技术发展的S型曲线规律。
  • (新增) 建议关注AI在特化模型领域的进步,并认识到其“解决问题”导向的工具重构是必然趋势。
  • (新增) 关注Sub-agent的领域知识来源问题,并认识到AI在运行时学习能力和数据稀缺性上的局限性。
  • (新增) 认为AGI泡沫破灭后,将回归特化模型,Attention Model难以实现AGI。
  • (新增) 关注AI在特定领域(如编程)通过高度特化和RL训练实现突破的趋势,这被认为是AI“落地”的有效路径。
  • (新增) 在选择AI工具时,应根据具体任务和场景的成熟度进行考量,而非盲目追求最新技术。
  • (新增) 理解AI的目标是“解决问题”,并认识到为了实现这一目标,对现有工具进行重构是必然的趋势,而非拘泥于AI必须模仿人类的解决方式。
  • (新增) 在AI开发成本高昂的背景下,公司管理层对AI的理解至关重要,AI的落地过程可能并不顺利。
  • (新增) 训练Agent需要技术和专业知识,而非简单堆砌算力,未来可能涌现更多由顶尖AI人才开发的高质量Agent。
  • (新增) 对于AI在特定领域(如税务)的应用,若存在数据或知识短板,可考虑通过雇佣专家来建立知识库,以促进AI的落地。
  • (新增) AI不是淘汰所有人,而是大部分人,大部分人跟expert比起来,超无用处,只是做一些manual tasks罢了。让AI做较为明确的任务,不管多么tedious,简直又快又好,超过绝大部分人。
  • (新增) AI带来的改变和前几次工业革命没有本质区别,结果应该是人类进入万物可编程时代,以后的工作必然要和流程化自动化打交道了,落地是迟早的事情。如果认为这次没有本质区别,那么关于之前工业革命的论断依旧成立:短期结构性失业,长期创造就业。
原始内容
--- 第 1 楼来自 Thickness4968 的回复 (2026-02-27 10:28:47 PST) ---

最近聊了不少AI startup和公司,看地里也有很多贴聊这个,新开一贴聊一聊看法。纯手打

tl;dr:AI在特定场景有用,但是不是银弹

现状:在公开知识、容易验证或者有大量训练数据的领域中,AI可以在足够的训练人力后达到90%+成功率。通过验证loop和自我迭代可以接近100%成功率。但达到100%很难,错误和幻觉非常普遍

目前落地的五个问题:

验证成本:对于一个形式化定义的问题或者是有着大量测试数据的项目(例如parse SQL语句),验证成本很低、验证的成功率很高。但现实问题很多难以验证,比如说我要做一个“视觉设计和已有网页一致”的网页页面,或者根据一个200页的自然语言spec写代码,或者控制一个外界机械臂。这三个的验证成本都很高。目前AI只适合做容易验证的东西
多步思考幻觉会串联:如果每一步AI有10%的概率出现幻觉且概率独立,那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明;在投资上,这意味着更多运行时算力并不能无限外推更高正确性
生活中很多知识都是隐性的:一旦离开计算机、销售等行业,大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。例如在法律领域,AI在帮助查找判例方面很有效,但并不擅长判断“这个陪审团的人种、工作组合应该采取什么辩护策略“。这些知识只有在长期和人打交道和实习中才能学到,了解的人也不会写下来
缺少人背锅:美国归根到底是个liability社会。人可以为自己做的事情承担责任,但AI出了问题,会让使用AI的人背锅。因此管理层现在不肯轻易给AI签字权。很多企业也采取了非常审慎的只允许AI读+有限输出,不允许AI在预期为人的渠道里发言的政策
对于训练集完全没有的知识,学习成本高:finetune只在训练集里有知识,要适应特定任务时好用。一旦要增加新的non-trivial知识,rag或者划分agent的效果都很差,容易出现context丢失等问题

总之,个人觉得以后human in the loop会是主流,在可以接受不确定性或者容易验证的领域,AI可以有不少发挥,但始终会遇到知识 + 验证成本 + 责任不清的玻璃天花板,并不会完全取代大部分人类

--- 第 2 楼来自 xixihahaha 的回复 (2026-02-27 10:31:31 PST) ---

Defining “落地”?

其实我很疑惑到底要怎么才算落地。毕竟现在因为ai被替代的工作已经越来越多了。

--- 第 3 楼来自 Thickness4968 的回复 (2026-02-27 10:34:20 PST) ---

Startup 用ai做产品现金流为正,公司内部用AI实现净利润增长

--- 第 5 楼来自 xixihahaha 的回复 (2026-02-27 10:36:46 PST) ---

那我明白了。其实我觉得你的标题可以改成,AI为什么很难真正在start up成为profitable的产品。

毕竟现在很多完全落地的项目也很难做到正的现金流。而且正的现金流在高速发展的行业更是可遇不可求

--- 第 6 楼来自 maruha 的回复 (2026-02-27 10:36:48 PST) ---

能裁员对CEO来说就等于落地了

--- 第 7 楼来自 两只饺子 的回复 (2026-02-27 10:39:03 PST) ---

个人感觉幻觉还是挺严重的,但是只要人类不去review ,不去思考和验证,那么幻觉就不存在

--- 第 8 楼来自 Thickness4968 的回复 (2026-02-27 10:42:24 PST) ---

【引用自 xixihahaha】:
毕竟现在很多完全落地的项目也很难做到正的现金流。而且正的现金流在高速发展的行业更是可遇不可求
七八年前SaaS早期那一波很多C轮前都正了或者A-B轮都有明确计划如何赚钱 这次聊的几家都还在卖的越多亏得越多阶段,边际开发成本超过了价格

--- 第 9 楼来自 llbean 的回复 (2026-02-27 10:42:32 PST) ---

来依托:

https://gu.qq.com/resources/shy/news/detail-v2/index.html#/index?id=nesSN2026022623570297a730b8&s=b&prefer_reader_view=1&prefer_safari=1

--- 第 10 楼来自 newhope 的回复 (2026-02-27 10:43:16 PST) ---

【引用自 Thickness4968】:
缺少人背锅:美国归根到底是个liability社会。
所以报税和审计还是要由人类来把关,欢迎来投INTU

--- 第 11 楼来自 fetanson 的回复 (2026-02-27 10:43:41 PST) ---

我早就想过人类现在对ai最大的护城河就是成本

月薪3000 vs h100,算力成本够低的那一天就是毁天灭地

--- 第 12 楼来自 Thickness4968 的回复 (2026-02-27 10:44:28 PST) ---

我这篇文章讲的就是算力再便宜也解决不了的问题

--- 第 13 楼来自 Sunshine9 的回复 (2026-02-27 10:45:37 PST) ---

【引用自 newhope】:
报税和审计还是要由人类来把关
想说 有些行业的东西 目前还真不能一股脑儿的就随便丢给ai

毕竟 太敏感

--- 第 14 楼来自 Thickness4968 的回复 (2026-02-27 10:45:55 PST) ---

把代码生成当成RAG(检索增强生成)来做。

只能说这个代码太简单了

--- 第 15 楼来自 duckspeak 的回复 (2026-02-27 10:46:40 PST) ---

AI的作用不是替代职业,而是减少工作人数。

--- 第 16 楼来自 Nokuno 的回复 (2026-02-27 10:46:54 PST) ---

能工智人还是太多了

--- 第 17 楼来自 iamsalute 的回复 (2026-02-27 10:48:27 PST) ---

有聊到什么有意思的startup么?最近也在聊一些,还有看一些preipo的投资机会,好奇lz的心得体会

--- 第 18 楼来自 Thickness4968 的回复 (2026-02-27 10:51:39 PST) ---

有意思的不少,但是仔细想了想商业模式和未来空间没一个能去的 也许会有起飞的但是概率低于40%

--- 第 19 楼来自 Hypn0s 的回复 (2026-02-27 10:53:06 PST) ---

ai替代的事 junior,而不是senior。senior指挥10个ai agent的成本比招一个junior低,是关键。

--- 第 20 楼来自 Thickness4968 的回复 (2026-02-27 10:54:13 PST) ---

同意,以后常态估计是l4 l5是start level。

--- 第 21 楼来自 fularji 的回复 (2026-02-27 10:56:34 PST) ---

感觉高于10都已经算很高了

--- 第 22 楼来自 xjx 的回复 (2026-02-27 10:56:49 PST) ---

大公司的反馈是,LLM毕竟还是一个Non-determinsitic的东西,需要一套新的系统来约束和监控这个东西的表现,这是跟以往的高度确定的业务系统冲突的一套东西,需要很多工作来保障

另一个就是成本,不仅是LLM的成本,还有数据Api的成本,这个说起来就更复杂了

--- 第 23 楼来自 otonoco 的回复 (2026-02-27 10:58:18 PST) ---

说明
【引用自 Thickness4968】:
计算机、销售等行业
就是新时代的土木

--- 第 24 楼来自 Hypn0s 的回复 (2026-02-27 10:58:51 PST) ---

其实,总结起来,以后的方向不是基础知识和技能积累,而是认识思维方式和设计。senoir和staff本身就要多些pm的成分在,光搞code不是出路。

--- 第 25 楼来自 Thickness4968 的回复 (2026-02-27 11:01:37 PST) ---

有领域专门知识还是可以搞的 要么横向和人打交道做设计,要么纵向钻研网上没有的知识。AI把只横向堆简单代码的替代了

--- 第 26 楼来自 maruha 的回复 (2026-02-27 11:03:44 PST) ---

10000353691024×765 93.1 KB

--- 第 27 楼来自 Thickness4968 的回复 (2026-02-27 11:04:01 PST) ---

快进到考ai监理证挂靠外包公司结果ai写出来的代码把火箭搞炸了监理蹲大牢

--- 第 28 楼来自 yyyy 的回复 (2026-02-27 11:04:49 PST) ---

卖AI工具的啥时候跟卖广告的一样按产出(=转化)收费而不是token(=曝光)收费才算落地了

--- 第 29 楼来自 netll 的回复 (2026-02-27 12:41:51 PST) ---

除了一小部分天纵英才,大部分L4, L5也应该是由entry level一步一步成长起来的。

--- 第 30 楼来自 争取多活两年 的回复 (2026-02-27 12:46:55 PST) ---

AI落地难的问题是因为大家想把20年的问题放到2个月内解决。

--- 第 31 楼来自 Thickness4968 的回复 (2026-02-27 15:25:00 PST) ---

毕业达到l4水平是可能的,当时毕业的时候就觉得l3只是大放水下的昙花一现,别的行业都是期待你直接来做事的。只是这个要求需要学校大幅改变教学模式,更像bootcamp从实际出发,然后实习机会会变成学生付费实习

--- 第 32 楼来自 hahaandhehe 的回复 (2026-02-27 15:30:19 PST) ---

AI很多领域已经落地了啊

比如 call center, 写作类 (copy),education.

我们不能硬的把一个不一样的东西,然后硬叫这个为落地,而不管以前大家共识的落地的定义吧。

如果说,要在各方面全方位的全面100%落地,才能叫落地,那以前大家也没这么高标准啊。

有的像,有些人说,只要AI没有把程序员100%代替,只要还有一个程序员,那就不能说AI消灭/代替了程序员,因为还是需要程序员的。这就太为了杠而杠了

--- 第 33 楼来自 Thickness4968 的回复 (2026-02-27 15:33:29 PST) ---

在一些领域有落地项目 vs 其他领域落地难不矛盾吧。call center这种是很成熟了,新的startup和企业ai应用部门很struggle的问题也存在

--- 第 34 楼来自 hahaandhehe 的回复 (2026-02-27 15:37:23 PST) ---

我看你的题,并没说是 “某些领域”,以为你像说 in general and generalize. 如果想说某些领域,那说可以明白一点。

不过就算某些领域,一部分人认为”落地难“,也是串改了落地的定义,必须这个领域100%成功才算落地,那这个也是比较硬来了,能解决80%的问题不是落地?按照历史来说,很多时候,一个产品解决了不到80%的问题都能叫成功落地了。历史上有啥产品是在某方面解决100%的问题,完全100%的吗?没有吧。比如大多数saas产品,他们能解决的问题,从来都没有80%,甚至70%,因为saas就是本质上强迫大家吃翔。

--- 第 35 楼来自 msft 的回复 (2026-02-27 15:38:39 PST) ---

我觉得ai是手段不是目的,对于多数公司来说,ai本身不是产品。

--- 第 36 楼来自 duola1004 的回复 (2026-02-27 15:45:39 PST) ---

我感觉AI 还是太贵了 客户根本用不起

saas 客户很多都是小公司 之类的 学校啊 医院啊

这些公司 预算感觉紧的 你要AI 除非你免费 花钱人家就不愿意了

--- 第 37 楼来自 up9080 的回复 (2026-02-27 15:49:53 PST) ---

【引用自 Thickness4968】:
始终会遇到知识 + 验证成本 + 责任不清的玻璃天花板
AI 的发展速度从 22 年底的 chatpgt 人工智障到 26 年的取代人类也就 3 年,继续这么下去能发展到什么程度很可怕。以前数不清 strawberry 有几个 r,现在没人再问这个问题了,再不济它也可以自己写个脚本数。

至于责任不清这种事,在 agent 面前都不是问题。生产力决定社会结构,到时候社会法律一定是会改的。下一代有可能是 singularity 以后永远被机器取代,也有可能是 AI native 一代享受 AI 爆发后的美好社会,现在没人知道,但在此之前一代人估计都谈不上什么 career,只能有一份工作做一份工作了。

--- 第 38 楼来自 hahaandhehe 的回复 (2026-02-27 15:58:53 PST) ---

【引用自 duola1004】:
saas 客户
所以 saas 一般公司都是得死掉的,因为AI对他们是革他的命的,字面上的意思。

per seat fee 在AI下死的快,小公司一般可以一个license share 给很多人,不一定是account share, 有不同的share方式。然后 saas公司在这种模式下赚不了钱,就只能破产或者半死不活。

--- 第 39 楼来自 002 的回复 (2026-02-27 16:04:56 PST) ---

没有分辨善恶/是非/对错的能力 这一点是它的天花板

巨型抄答案机器罢了 没有任何智能

对于抄答案类型的工作非常胜任

--- 第 40 楼来自 hahaandhehe 的回复 (2026-02-27 16:06:40 PST) ---

【引用自 002】:
没有分辨善恶/是非/对错的能力 这一点是它的天花板
很多公司/产品根本就是割韭菜/邪恶的,但是不妨碍他赚钱。道德和赚钱,并不冲突,除了某些特定领域。(这也是世道的可悲)

--- 第 41 楼来自 xxxyyy 的回复 (2026-02-27 16:07:48 PST) ---

【引用自 Thickness4968】:
一旦离开计算机、销售等行业,大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。
还是程序员自己闹的,喜欢开源,喜欢分享,连大学上课都不用买课本 ,搞的AI在解决程序员本身上表现良好。

--- 第 42 楼来自 darkenbrighten 的回复 (2026-02-27 16:07:55 PST) ---

【引用自 Thickness4968】:
tl;dr:AI在特定场景有用,但是不是银弹
其实就是 容错率

各个行业的容错率不同,AI能不能满足该行业的容错率要求

比如自媒体写文章需要一幅插图,差不多就行了,AI能满足。但广告公司需要,AI就不满足了

还有一种是思考/分析/研究下的容错率,如果人一点不会,就不能分辨出AI是否有错,最后越跑越偏。但人知道相关知识,AI错了能及时发现,就能有效利用AI

遇到问题时,

唐宗宋祖这种牛人知道正确做法,大臣们的意见一眼就可以分辨出后果,大臣说错了,询问一下为什么这么想,很迅速的几次下来,所有有能力的大臣都不敢撒谎,不敢提利己的方案,不敢打太极说两面话

逊一级的帝王,自己不知道正确作法,但能排除错误选项,几次下来可以分辨众臣的水平,长期可以平稳,但是大臣可以在个别事情上欺骗帝王以求私利,如果是重要事情就会有严重后果

差的帝王,就像小学生做高等数学题,无法分辨大臣们互相矛盾的建议中谁对谁错,也无法分辨大臣们的水平。一件事情之后,事实证明张三是对的李四错了,结果下一件事张三又错了王五又对了,没有任何大臣能让帝王感到放心,于是只能大呼 众臣误我

人用AI,一个道理。

--- 第 43 楼来自 dhallo 的回复 (2026-02-27 16:08:46 PST) ---

magi里作为女人的部分有一票否决权的 我看这三个模型没哪个有这魄力

--- 第 44 楼来自 争取多活两年 的回复 (2026-02-27 16:17:20 PST) ---

per seat 也不是金科玉律啊。还可以per operation啊。除非这些公司准备单干,不然SaaS议价能力还是很强的。

--- 第 45 楼来自 hahaandhehe 的回复 (2026-02-27 16:22:01 PST) ---

大哥干过 pricing 相关的project 吗?复杂度不止是指数增长啊,商业复杂度。

能不能干,能,但是商业上的问题,不是技术上那么简单能解决的。

--- 第 46 楼来自 争取多活两年 的回复 (2026-02-27 16:23:00 PST) ---

?你说的不就是我说的点?SaaS的用户没那么容易切换。那SaaS公司自然可以换个方法要钱。

--- 第 47 楼来自 Gilbertizer 的回复 (2026-02-27 16:24:59 PST) ---

问题来了,有tech出身的PM的话,还需要senior吗

--- 第 48 楼来自 oddtiger 的回复 (2026-02-27 16:25:04 PST) ---

如果算力足够便宜,我倾向于ai能替代的领域还是会比我们想象的多。成本其实是真的瓶颈,目前为止走的都是暴力堆算力路线,但是边际成本会越来越高,电力不够肯定没法无限拓展边际去增加思考和执行的颗粒度。有一些工作反而是用人更便宜。换个角度想一下,人脑可能在很多方面能耗更低成本也更低,以后更多是一种竞争关系。

--- 第 49 楼来自 争取多活两年 的回复 (2026-02-27 16:26:00 PST) ---

等OAI/人类学上市完找完接盘侠,大家就可以论证AI为什么没用了。

--- 第 50 楼来自 oddtiger 的回复 (2026-02-27 16:28:21 PST) ---

id正确啊,不敢想象10年20年之后什么样,很多变化又很多不变

--- 第 51 楼来自 Yangff 的回复 (2026-02-27 16:31:17 PST) ---

反过来说,IRS用AI来给你的税表挑刺你怎么办

美国税法这么长,你还能一点问题都没有

--- 第 52 楼来自 耐心的牛马 的回复 (2026-02-27 17:24:12 PST) ---

不是 26年AI替代人类了都?

--- 第 53 楼来自 Eternal 的回复 (2026-02-27 17:40:54 PST) ---

老二次元了

--- 第 54 楼来自 tonywush 的回复 (2026-02-27 17:42:54 PST) ---

【引用自 Thickness4968】:
知识 + 验证成本 + 责任不清的玻璃天花板
代替不了居委会大妈

--- 第 55 楼来自 MOMOMOMOMO 的回复 (2026-02-27 18:16:23 PST) ---

tldr

AGI

AI- assisted

--- 第 56 楼来自 BigCongming 的回复 (2026-02-27 18:36:29 PST) ---

【引用自 002】:
没有分辨善恶/是非/对错的能力
人就有了?

--- 第 57 楼来自 Frankkkkk 的回复 (2026-02-27 19:19:57 PST) ---

生活中很多知识都是隐性的:一旦离开计算机、销售等行业,大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。例如在法律领域,AI在帮助查找判例方面很有效,但并不擅长判断“这个陪审团的人种、工作组合应该采取什么辩护策略“。这些知识只有在长期和人打交道和实习中才能学到,了解的人也不会写下来

这些听起来就是所谓的“human friction”。长期来看,agents会把这些friction都完全归零,比如完全避免人与人之间的交流和不必要的沟通和隐性friction:陪审团可以是法律agents来裁定;企业之间agents和agents之间直接信息交换等等。那这些都不是问题了..

--- 第 58 楼来自 Thickness4968 的回复 (2026-02-27 21:41:40 PST) ---

【引用自 hahaandhehe】:
我看你的题,并没说是 “某些领域”,以为你像说 in general and generalize. 如果想说某些领域,那说可以明白一点。
最近聊的六七家大中小公司,每一家都有着落地不顺利的问题。在我看来AI落地难是个普遍现象
【引用自 hahaandhehe】:
能解决80%的问题不是落地
实际情况是根本没有解决80%的问题,就算是医疗领域的客服这种比较成熟的应用场景幻觉多仍然是致命伤,导致相关部门不得不换回人工。现在AI的情况更类似于“对于20%的行业中的20%的问题,80%情况能给出满意的答案”。这和解决问题相差甚远。
【引用自 hahaandhehe】:
比如大多数saas产品,他们能解决的问题,从来都没有80%,甚至70%
SaaS和AI的区别在于,SaaS是确定性地解决x%的问题,即使x很小也可以逐步迁移。而AI是号称解决了90%的问题,但是每个问题都有主楼中存在的问题,没有解决。从这个角度来说,AI还不如SaaS有前景

--- 第 59 楼来自 Thickness4968 的回复 (2026-02-27 21:44:56 PST) ---

【引用自 up9080】:
AI 的发展速度从 22 年底的 chatpgt 人工智障到 26 年的取代人类也就 3 年,继续这么下去能发展到什么程度很可怕。以前数不清 strawberry 有几个 r,现在没人再问这个问题了,再不济它也可以自己写个脚本数。
线性外推从来不靠谱 1950年大家还相信21世纪能坐上3倍音速飞机,1990年大家还以为处理器能做到10Ghz,2000年大家还以为手机电池容量可以用一个礼拜不充电

技术发展还可能是S型曲线
【引用自 up9080】:
至于责任不清这种事,在 agent 面前都不是问题。生产力决定社会结构,到时候社会法律一定是会改的。下一代有可能是 singularity 以后永远被机器取代,也有可能是 AI native 一代享受 AI 爆发后的美好社会,现在没人知道,但在此之前一代人估计都谈不上什么 career,只能有一份工作做一份工作了。
要agent靠谱了五角大楼就不会ban掉了 全agent社会纯粹是fever dream,也根本没有singularity,AI bros和crypto bros都太把自己当回事了

--- 第 60 楼来自 illusionwing 的回复 (2026-02-27 21:46:21 PST) ---

说到底就是真正要负责的行业不会落地(?)

creative writing 这种说错了也不会死人的就还好,customer support 是不是 AC 自从上次因为 ai 赔了钱之后就不用了

--- 第 61 楼来自 Frankkkkk 的回复 (2026-02-27 22:02:01 PST) ---

好像回复错了

--- 第 62 楼来自 MOMOMOMOMO 的回复 (2026-02-27 22:13:52 PST) ---

我一直有暴论
【引用自 Thickness4968】:
幻觉多
不管什么neural network,对模型来说 generalization == hallucination

--- 第 63 楼来自 老瓢虫 的回复 (2026-02-27 22:19:08 PST) ---

不认同非要纠结取代人,ai能提高效率,10个人的活1个人能干,这就有利润了。哪怕是一直说落地难的医疗行业,ai能不能取代医生难说,但是让医生效率高几倍没问题

--- 第 64 楼来自 croaker 的回复 (2026-02-27 22:26:09 PST) ---

在有的情况下,现在AI的能力就已经能带来巨大的效率提升了,只是暂时看不出来能有很多AI公司画的饼那么大。去年和今年我所在行业内(传统行业)已经在大量砸钱和招人了

--- 第 65 楼来自 收束观测者 的回复 (2026-02-27 22:47:04 PST) ---

其他几点都是对的
【引用自 Thickness4968】:
多步思考幻觉会串联:如果每一步AI有10%的概率出现幻觉且概率独立,那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明;在投资上,这意味着更多运行时算力并不能无限外推更高正确性
这是很简单的工程问题

AI,至少coding AI的限制完全不在幻觉上

提示,人也有幻觉的,人的记忆并不可靠,人会根据模糊印象甚至猜测做决策,人会有confirmation bias一开始猜歪了还一直想坚持己见

但是经过训练的人类可以很轻松的做到至少在工作上避免根据幻觉做决策

AI同理

--- 第 66 楼来自 258 的回复 (2026-02-27 23:03:00 PST) ---

【引用自 Thickness4968】:
多步思考幻觉会串联:如果每一步AI有10%的概率出现幻觉且概率独立,那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明;在投资上,这意味着更多运行时算力并不能无限外推更高正确性
【引用自 收束观测者】:
这是很简单的工程问题
100%正确的小模型路由+tool call即可

--- 第 67 楼来自 争取多活两年 的回复 (2026-02-27 23:06:22 PST) ---

互联网刚出来的时候也是这么说的哦。

--- 第 68 楼来自 争取多活两年 的回复 (2026-02-27 23:07:43 PST) ---

泥潭乃至湾区做题家真是太多了。花街随便编个题就一定要做出来。

--- 第 69 楼来自 收束观测者 的回复 (2026-02-27 23:55:51 PST) ---

为什么要做题

因为题就在那里

--- 第 70 楼来自 三三得九 的回复 (2026-02-28 00:07:36 PST) ---

我没觉得AI难落地,只是落地方式和一些人的预期不同而已。AI在当前的主要运用方式并不是卷“智慧”,而是辅助普及自动化。有些人觉得AI必须很聪明才能取代人,而且认为让AI更聪明就是现在的发展方向。这或许是其中一个方向,但并不是当前主要的方向,当前主要对AI的利用方式还是结合既有的工业化标准流程。在前AI时代,有些需要靠传感器和算法实现的全流程自动化成本太高,因此需要人的操作;在AI时代,有了基础识别和判断能力,能极大地降低成本,只要能满足通用性和快发订单需求,结合AI的自动化就已经能实现几乎全流程自动化。比如矿区的装卸、物流园区的装卸,它能不撞山撞墙就已经能淘汰一部分人力。这种结合自动化的需求,未必需要多聪明的AI。只要场景细分,就有可能解决通用性的问题。现在主要的困难可能是快反订单的需求,非大宗非标订单或许人力还比AI成本低。但是自动化+AI取代人力的趋势已经明显了。

--- 第 71 楼来自 佩洛西 的回复 (2026-02-28 00:38:49 PST) ---

【引用自 Thickness4968】:
但达到100%很难,错误和幻觉非常普遍
人类达到100%更难。人类除了有错误和幻觉,还有心机。很多工作类型,人类更喜欢和agent一起工作,而不是和人类。我感觉没有“落地难”的问题,已经在落地中,只要人类足够prefer agent,就持续落地。

--- 第 72 楼来自 MOMOMOMOMO 的回复 (2026-02-28 00:46:15 PST) ---

我觉得lz的concern/我的理解是 此处的hallucination会影响到safety & regulation 无人驾驶还没整明白更不提版权以及现在的笨蛋机器人问题

跟人类做比较这个事我个人觉得还是有争议的,但in short我觉得ai比人牛的方面很多 人比ai牛的也很多(不信的话把下面这段话喂给美国和中国的AI )

回归主旨 所谓落地目前来看最好的方式就是取ai长补人类短罢了

IMG_98941320×2868 333 KB

--- 第 73 楼来自 Lunasol 的回复 (2026-02-28 01:22:14 PST) ---

这个洗车测试真的挺有意思的

--- 第 74 楼来自 Lunasol 的回复 (2026-02-28 01:26:58 PST) ---

其实我觉得ai落地还有产品工程化的一些问题,也有很多是用户的问题

很多产品背后为了省钱之类的做了一些不是很聪明的cache,而这种如果完全不懂技术可能意识不到… 这些产品一般也都是面向非技术用户, 但这些细节就会直接导致非技术用户觉得ai不行。

我卡了一周觉得指令遵循怎么那么差呢思考了好多环节可能的局限性和做pipeline不得不牺牲/统一的点, 最后发现是一堆低质量cache影响了指令遵循影响了输出 …

我们在不计预算的情况下用垂直领域产品 就像在跟 产品玩老鹰捉小鸡,每次把小九九抓出来之后一下子就好用了 这种落地真的太累太难了

--- 第 75 楼来自 JJJavier 的回复 (2026-02-28 01:32:05 PST) ---

我的GPT理由充分

052808879×457 46.4 KB

--- 第 76 楼来自 收束观测者 的回复 (2026-02-28 07:50:50 PST) ---

【引用自 MOMOMOMOMO】:
不信的话把下面这段话喂给美国和中国的AI
洗车测试出来的第一天我就测了一遍

Gemini Grok都过去了,只有GPT一个在丢人

很多人意识不到,现在模型“傻逼”是因为各家都心比天高想要一步到位做出来在每一个智能维度上都比人强的AGI

结果出来是反而很多地方顾此失彼的人工智障

但是楼主说的不是AGI,是落地

落地这件事最后一定是模型和人一样分职业分领域特化分开做RL的

Opus 4.x为什么强,为什么突然就踩到Gemini和GPT头上去变成了buzz word?人类学搞出来黑科技突破了?

看看llm-stats就知道了,opus放弃了其他所有能力,甚至放弃了math,就只专门攻coding一个

就干了这么一件事,特化。整个码农圈就慌到爆炸了

这不是落地,什么是落地

在2026年还拿着LLM当前能力说事而不是看发展趋势是一件很……可爱的事情

就和去年还在拿着模型出的错拍着胸脯说不可能有问题的码农一样

AGI和落地,是两个完全不同的方向

打工人不用怕ClosedAI们搞AGI,应该怕他们搞落地

--- 第 77 楼来自 Thickness4968 的回复 (2026-02-28 08:23:02 PST) ---

【引用自 收束观测者】:
这是很简单的工程问题
AI,至少coding AI的限制完全不在幻觉上
提示,人也有幻觉的,人的记忆并不可靠,人会根据模糊印象甚至猜测做决策,人会有confirmation bias一开始猜歪了还一直想坚持己见
【引用自 258】:
100%正确的小模型路由+tool call即可
首先,一旦涉及模型就没有100%正确的,尤其是在处理开放的问题上。

其次,tool call或者形式化方法也只能保证对于这一步从输入到输出是正确的,一旦上一步或下一步经过模型,都需要处理对problem的幻觉和对tool call结果的幻觉问题。

这个问题对于传统的形式化验证也存在(尽管好得多),只能验证公理化的系统,而把自然语言的真实世界问题转化成公理化这一步还是得依靠人类不确定的输入,这种spec gap也制约了形式化验证的发展。

在聊的几家公司中,都提到一旦要和传统已有的需求、内部知识对接或者处理开放式问题,AI coding的幻觉就非常严重。
【引用自 收束观测者】:
但是经过训练的人类可以很轻松的做到至少在工作上避免根据幻觉做决策
但训练不一定是显式的、有书面记载的。这又回到了1楼的观点3、5:生活中很多知识都是隐性的,对于训练集完全没有的知识,学习成本高

--- 第 78 楼来自 Thickness4968 的回复 (2026-02-28 08:25:15 PST) ---

【引用自 佩洛西】:
很多工作类型,人类更喜欢和agent一起工作,而不是和人类
很看工作类型和行业。在我聊的另一些行业中,人类很讨厌agent给出的幻觉和错误,因为比人的幻觉更难分辨,也成了阻碍应用的阻力。

--- 第 79 楼来自 Thickness4968 的回复 (2026-02-28 08:28:58 PST) ---

【引用自 收束观测者】:
但是楼主说的不是AGI,是落地
落地这件事最后一定是模型和人一样分职业分领域特化分开做RL的
同意,但是做特化模型就意味着需要有明确的reward和更高的训练成本。在coding以外的领域很多时候是不存在足够的训练数据/明确的reward function以及无法负担每个小问题都单独训练的成本的

--- 第 80 楼来自 收束观测者 的回复 (2026-02-28 08:29:34 PST) ---

【引用自 Thickness4968】:
一旦涉及模型就没有100%正确的,尤其是在处理开放的问题上
幻觉不可能完全消除

但是你说的幻觉级联累积是很简单的工程问题,可以很容易消减到不管多少步幻觉累积概率都是恒定的

虽然很简单,但是只要市面上还没有产品发出来,我就不可能把怎么做发出来
【引用自 Thickness4968】:
在聊的几家公司中,都提到一旦要和传统已有的需求、内部知识对接或者处理开放式问题,AI coding的幻觉就非常严重
只能说明你聊的公司都很水,甚至没有泥潭搬砖板的讨论水平高

这些都是头部公司发了blog谈过怎么解决的问题

--- 第 81 楼来自 看看又是听说 的回复 (2026-02-28 08:38:42 PST) ---

我觉得目前A2A还是挺难的, USER → Agent1 和Agent 1 - Agent2之间的传话很容易漏信息。

--- 第 82 楼来自 eRic.DDDDDX 的回复 (2026-02-28 08:39:33 PST) ---

【引用自 xixihahaha】:
完全落地的项目也很难做到正的现金流
那这不就是诈骗

--- 第 83 楼来自 Onvon 的回复 (2026-02-28 09:21:03 PST) ---

真的存在什么 隐性 的知识吗

除开个别活化石级别的非遗行业 任何的professional knowledge都可以通过语言和文字taught给new hire

如果new hire能学 ai agent一定也能学

无非是knowledge质量的高低有别罢了

--- 第 84 楼来自 MOMOMOMOMO 的回复 (2026-02-28 10:50:35 PST) ---

抖个机灵 刚刚用grok基础版应该还是不行的 国产应该也都不行

再抖个机灵 说到落地啥detection model再屌 真需要落地了还乖乖用yolo

--- 第 85 楼来自 收束观测者 的回复 (2026-02-28 11:06:52 PST) ---

【引用自 MOMOMOMOMO】:
刚刚用grok基础版应该还是不行的
IMG_87861206×2622 303 KB

当然有grounding算是作弊

真要比模型本身应该去lmarena

grok 4.1过不去,opus 4.5,gemini 3,glm 4.7(国产)都没问题

--- 第 86 楼来自 bumblebee 的回复 (2026-02-28 11:12:15 PST) ---

其实现在全民agent以后,竞争已经从基座模型转移到针对agent时代的各类疼点,长上下文效率,推理速度,强逻辑等方向

--- 第 87 楼来自 MOMOMOMOMO 的回复 (2026-02-28 11:58:57 PST) ---

纯抖机灵 opus和gemini用的还是比较多的问题不大

突然想起来前几年跟国内一些医院聊关于ai病理诊断的时候他们还是很保守问啥基本都是一句“没有可解释性”

所谓落地的也都是一些辅助性标注工具 不知道现在怎么样了

--- 第 88 楼来自 xunzhaocunzi 的回复 (2026-02-28 12:16:00 PST) ---

软件公司开发的expert agent会嵌入到general agent里面

软件行业也许会有新的机会,从开发软件到开发agent

--- 第 89 楼来自 hahaandhehe 的回复 (2026-02-28 15:06:42 PST) ---

很多人根本有unreasonable expectation.

AI 写了个很不错的first draft, 在很短时间内,这个就是一个落地。

但有些人嚷嚷,AI没有写出一个 perfect final copy, 就不是落地,因为没有100%解决这个问题,AI不能代替人!这种人的脑子不知道怎么想的,完全忽略了,AI已经代替了很多的前调,整理,和初稿,这里是很多劳动力了。同样,很多项目,没有一个100%AI能做,不代表AI没有取代一大部分的旧生产力。一大堆旧的生产力已经被取代/layoff了,比如前调/整理/初稿部分。

就算平均一下,每个行业,AI都只取代一半的人。这个数字都非常可怕。(如果你不觉得可怕,这只能表示无知了,冒犯的一句。)

不能只是幼稚的想:AI让一些人更高效率了,而不去想,另外那一半人怎么办。

只管供给端,不管需求端?没有消费,生产怎么办 ?这也是中国的大难题。

有些人只管自己的一亩三分地,真以为自己足够牛,无论AI怎么砍,10年-30年内,对自己都完全没负面影响?对自己孩子都完全不会负面影响?

--- 第 90 楼来自 Thickness4968 的回复 (2026-02-28 18:52:58 PST) ---

【引用自 Onvon】:
真的存在什么 隐性 的知识吗
除开个别活化石级别的非遗行业 任何的professional knowledge都可以通过语言和文字taught给new hire
隐性知识可太多了。近的从现在在工作的软件系统出现了各种各样异常指标怎么分析处理(依赖资深sre的口头call和经验),远一点到外包行业看到甲方在某些特定功能上找茬或者推进速度不对怎么处理,再远一点到广告行业判断一个广告是否符合一个人群的style,这些东西都是没有任何文档记录的

--- 第 91 楼来自 Thickness4968 的回复 (2026-02-28 18:54:04 PST) ---

【引用自 收束观测者】:
只能说明你聊的公司都很水,甚至没有泥潭搬砖板的讨论水平高
这些都是头部公司发了blog谈过怎么解决的问题
那分享下?

--- 第 92 楼来自 收束观测者 的回复 (2026-02-28 19:49:39 PST) ---

anthropic.com

Effective context engineering for AI agents

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

--- 第 93 楼来自 争取多活两年 的回复 (2026-02-28 21:11:37 PST) ---

【引用自 收束观测者】:
幻觉级联累积是很简单的工程问题
物理两朵乌云既视感

--- 第 94 楼来自 争取多活两年 的回复 (2026-02-28 21:12:55 PST) ---

S curve吹成J curve了,大家反感也正常啊。

--- 第 95 楼来自 meika4 的回复 (2026-02-28 21:16:22 PST) ---

同意,如果是提升10%的效率,还有缓冲空间用来创造新需求新行业。

50%的提升就会造成通缩螺旋了

--- 第 96 楼来自 争取多活两年 的回复 (2026-02-28 21:19:28 PST) ---

等OAI这几个上市大家接完盘后你会看到大量论证AI连5%提升都做不到的文章。

--- 第 97 楼来自 Thickness4968 的回复 (2026-02-28 22:02:10 PST) ---

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

之前还以为说的是validate tool use

Context engineering离解决这些问题还很远,充其量是一种(1) 在模型不完备情况下 (2) 用大量训练数据的use pattern堆起来的 的较好的工程实践。

利用Tool Call做Dynamic Context相当依赖于Tool使用的meta-pattern在训练数据中,经典问题包括:非POSIX filesystem即使给了system prompt还是经常产生错误的call,而外部定义的tool利用率低或者错误使用。

上下文压缩更是压缩几次后context丢失严重。最近的debug问题多次遇到开着让它free explore, 结果每次探索到一半压缩后上下文丢失了又从头开始,最终循环了一晚上也没有进展。

Subagent依旧依赖主Agent和子Agent交换多少信息:主Agent给了错误的探索方向作为输入,或者子Agent的输出丢失了重要的中间上下文,那么就经常出现subagent实现了任务,但是是以错误的方式;或是subagent正确地实现了错误的任务。

而且上述问题还只是在最成熟的有大量训练数据和人类经验的coding任务中,一旦涉及到开放领域和缺少训练数据的任务,这些practice都缺乏meta pattern的教导:

如果未来tool可以做”实验一块硬件”这样的function call,该怎么定义这个call的effect?人是否需要清晰定义“错误烧录的代码可能永久损坏板子”,或是“某些特定的代码会让板子失去响应5分钟然后恢复“这样的边界情况?是否能定义unknown unknowns?
对于分析历史上的法律案情,哪些案件信息是最重要的?compact后会不会遗失?
对于“房地产Agent“,我让它打听一个房子的fee情况,主Agent创建了“邮件询问Agent”,误以为fee只包含HOA fee,要求它”询问management XYZ房子的HOA fee, 返回每年的HOA fee”。Agent询问后management回复“HOA fee是$12,345,但是还有annual repairing fee $34,56”。Subagent根据要求只返回:HOA fee是$12,345。主Agent就会认为所有的fee是$12,345。

我的观点是:目前做的一切agent engineering、context engineering、validation本质都是给基础模型找补,是一种基础模型参数提升不上去后的被迫工程实践。Agent是一种妥协,只能部分缓解但无法解决主楼中提到的问题

--- 第 98 楼来自 收束观测者 的回复 (2026-02-28 22:28:34 PST) ---

【引用自 争取多活两年】:
物理两朵乌云既视感
因为级联幻觉不是主要问题

主要问题在别处
【引用自 Thickness4968】:
上下文压缩更是压缩几次后context丢失严重。最近的debug问题多次遇到开着让它free explore, 结果每次探索到一半压缩后上下文丢失了又从头开始,最终循环了一晚上也没有进展
compact基本只在你用的模型context window不够大的时候会发生

1M context外加正确地structure sub-agent的话绝对够用了。我曾经让agent全自动循环debug-fix-test跑了十几个小时都没有用完window
【引用自 Thickness4968】:
目前做的一切agent engineering、context engineering、validation本质都是给基础模型找补,是一种基础模型参数提升不上去后的被迫工程实践。Agent是一种妥协,只能部分缓解但无法解决主楼中提到的问题
说找补我同意

但是我对于问题本质认定跟你不一样

问题不在于模型参数提不上去,而是提模型参数边际很低并没有明显提升能力

而现实实践发现模型基础能力其实已经够用,但是discipline不够,面对特定问题的context也不够

现在真正的结构性问题是模型从构架上无法在实践中学习。训练一旦完成以后对模型的行为调整都只能通过有限的context window实现

人脑显然不是这么工作的,人脑是直接更新weights的

人处理特定专业领域所需要遵守的discipline,需要的特定context都是被更新到神经网络本身的

而现在的LLM我们必须把这些都有效地压缩到context window(对应人类的工作记忆)里实现

这才是现在各种agentic engineering的本质

--- 第 99 楼来自 pwc 的回复 (2026-02-28 22:35:09 PST) ---

现在的具体问题是,公司领导层对什么时候该使用什么类型的AI没有基本概念,但是强制推进AI,一切要以AI为中心。举个例子,CFO要求全体财务部门人员大规模使用AI提高生产率。财务VP自然是不知道如何落地,去向CTO求教,CTO给出的解决办法是,你们财务分析部门有这么多data,正是AI大显身手的地方。不要顾及安全,也不要顾及合规,把data都传给AI,让AI出各种报表和分析。先做了再说其他,速度最重要。

--- 第 100 楼来自 争取多活两年 的回复 (2026-02-28 22:38:22 PST) ---

其实搞AI的承认下就是个大号pattern recognition就行了,大家也不会反感。无奈非要日天日地日穿地球。

--- 第 101 楼来自 收束观测者 的回复 (2026-02-28 22:44:39 PST) ---

它到底本质是什么我couldn’t care less

我只在乎它会不会把我搞到找不到工作

今天晚上又跟Gemini聊了一个小时历史

你家pattern recognition能每天陪我聊历史聊不重样的那就叫它pattern recognition也没关系

--- 第 102 楼来自 争取多活两年 的回复 (2026-02-28 22:47:11 PST) ---

它不会把你搞到找不到工作。但美联储可以。事实上它更有可能让你以后好找工作。

--- 第 103 楼来自 almighty 的回复 (2026-03-01 01:07:12 PST) ---

只是“现在没有写下来”不代表未来。

另外有一个误区是很多现在的tooling是给人写的所以你说“ai 没法做到像人一样解决问题”,可我们只需要“ai可以解决问题”就行,所以tooling的重构是一定会发生的

--- 第 104 楼来自 MOMOMOMOMO 的回复 (2026-03-01 01:47:59 PST) ---

没事 懂技术的ceo/cto 在dev阶段 更不顾及合不合规

--- 第 105 楼来自 皮皮虾 的回复 (2026-03-01 10:44:20 PST) ---

【引用自 收束观测者】:
因为级联幻觉不是主要问题
请问一下这个能找到对应的bigname的blog或者paper么?

--- 第 106 楼来自 kono 的回复 (2026-03-01 17:50:41 PST) ---

Human in the loop

Human on the loop

--- 第 107 楼来自 iamone14bg 的回复 (2026-03-01 19:17:36 PST) ---

【引用自 Thickness4968】:
要agent靠谱了五角大楼就不会ban掉了
不是brah,你说的是五角大楼ban claude吗?这明明是anthropic不愿意退让安全底线,双方谈崩的结果,能agent能力半毛钱关系都没有好不?这不掉头就跟OpenAI签好合约了

AI在抓马杜罗跟这次攻击伊朗都起到了很大的作用,已经是真"落地"了好嘛

感觉你说的是AGI,人可以完全放手了,那不用说确实还有差距,我们说的是AI assist,光现在的模型能力就可以取代一大波人了,不要说模型能力以后只会越来越强,datacenter越建越多还要建去太空,token价格也只会越来越便宜,人与AI交互的平衡点只会越来越朝AI倾斜,很难想象未来还会开历史倒车了

--- 第 108 楼来自 Thickness4968 的回复 (2026-03-01 19:41:25 PST) ---

【引用自 iamone14bg】:
不是brah,你说的是五角大楼ban claude吗?
不,我说的是 五角大楼禁止完全没有人类干预的AI 用于武器。主楼的观点是AI无法替代大部分人类,现在AI在国防做的目标识别、战斗模拟本来也不是人的工作。
【引用自 iamone14bg】:
感觉你说的是AGI,人可以完全放手了,那不用说确实还有差距,我们说的是AI assist,光现在的模型能力就可以取代一大波人了,不要说模型能力以后只会越来越强,datacenter越建越多还要建去太空
主楼的观点是:(1) AI替代的工作并不是人,fully autonomous agent是不切实际的 (2) 当前AI发展存在上限和理论困境,无法依靠工程实践和线性增长来from zero to infinity。尽管现在AI还有很多发展空间,但未来最终会存在某个平衡点。

--- 第 109 楼来自 Thickness4968 的回复 (2026-03-01 19:51:12 PST) ---

【引用自 收束观测者】:
compact基本只在你用的模型context window不够大的时候会发生
1M context外加正确地structure sub-agent的话绝对够用了。我曾经让agent全自动循环debug-fix-test跑了十几个小时都没有用完window
这是应用场景的不同。我上面的例子用的也是1M context,但是一个生产bug,完全没有test、无法复现,最后解决方法就是手动的两小时读五六个component代码遍历所有路径,结合log一个个排除掉不可能的state, 然后最后得出唯一的结论。这种应用场景context膨胀非常厉害。

--- 第 110 楼来自 almighty 的回复 (2026-03-01 20:02:04 PST) ---

你可以让ai 自己新开window 然后summarize 之前的context(这个已经做到可以不占当前的context了)。然后让它自己来iterate。人也不可能存那么久的context。你说的这些都其实可以做到,当然做的robust 还需要点时间。。。。

--- 第 111 楼来自 002 的回复 (2026-03-01 20:07:11 PST) ---

【引用自 hahaandhehe】:
很多人根本有unreasonable expectation
还不是因为那些AI公司自己吹牛逼 为了捞钱而疯狂炒作 阿猫阿狗都叫自己是AI

说个搞笑的,我的15年前的车的车主手册上,变速箱换挡逻辑那里写的是“AI Shift”,当时看到的时候还愣了一下。

--- 第 112 楼来自 002 的回复 (2026-03-01 20:09:25 PST) ---

也要看应用场景。如果是给中国官员写云里雾里的讲话稿,LLM简直就是神器,直接解放了苦逼的文字秘书们。

--- 第 113 楼来自 002 的回复 (2026-03-01 20:11:29 PST) ---

context window是不是也有scalability的问题?越大的window所需计算资源就多项式/指数增加?
【引用自 Thickness4968】:
基础模型
next token predictor在我看来就不是AGI的靠谱技术路线,或者说充其量只能是AGI的一个组成部分(仅能用来处理自然语言)。

--- 第 114 楼来自 争取多活两年 的回复 (2026-03-01 23:01:13 PST) ---

你说的没错。现在最多是AGI语言中枢解决了。

--- 第 115 楼来自 qwaszx 的回复 (2026-03-02 04:48:28 PST) ---

基本同意,而且ai明显对公开知识,但是非编程的部分没有特化。数据分析上很多情况无法正确理解逻辑。可以写个框架,逻辑还是要自己写

顺便,感觉AI质量最明显的提升在刘备文上 终于不是无脑齁齁齁了

--- 第 116 楼来自 xunzhaocunzi 的回复 (2026-03-02 07:26:42 PST) ---

2,3可以expert sub agent解决。你不能要求一个llm拥有所有的domian knowledge。今后开发软件变成开发expert agent

--- 第 117 楼来自 Thickness4968 的回复 (2026-03-02 10:29:35 PST) ---

Subagent的domain expertise从哪里来?目前来看RAG和custom system prompt和tool只补充了agent的信息与工具来更好地应用内化的知识,而缺少训练数据的领域依旧两眼一抓瞎。

缺少在运行时学习的能力+很多领域缺少学习数据+领域过于复杂无法在运行时学习会制约整个系统的上限

--- 第 118 楼来自 收束观测者 的回复 (2026-03-02 10:35:42 PST) ---

等到AGI的泡泡破了就会开始老老实实挖各个行业的特化数据train specialized expert model了

MoE说到底是一种试图AGI造神的邪教,attention model我觉得最后落地肯定还是一堆specialized model

opus这一波反超已经很明显了

我话放在这里,当前构架attention model实现AGI是不可能的
【引用自 收束观测者】:
现在真正的结构性问题是模型从构架上无法在实践中学习。训练一旦完成以后对模型的行为调整都只能通过有限的context window实现

--- 第 119 楼来自 争取多活两年 的回复 (2026-03-02 10:38:41 PST) ---

你这不是lecun几年前的观点嘛

--- 第 120 楼来自 mamiya 的回复 (2026-03-02 10:42:15 PST) ---

幻觉也会坍缩

--- 第 121 楼来自 johnh 的回复 (2026-03-02 10:58:42 PST) ---

【引用自 收束观测者】:
洗车测试
我想说说洗车测试这个,我发现大多数人认为AI错误,是因为人走过去,结果车没到,所以洗不了,但是,这也是特定场景的知识。我以前在国内住的时候,我的房子周围还真的就是50米不到就有一个洗车店,而当时正好国内有上门洗车服务,我还真的有时候就自己走路到洗车店去,就是为了自己顺便运动一下。

没错,我这个应该属于非常小众的做法,但是,这意味着什么?人类以为AI错了,也许,这恰恰是think out of box的例子,然后很多人没有意识到自己才是限制了自己的想象力呢?

当然,在美国等居住的朋友应该是几乎遇不到这种场景。但是对于这种洗车店就50米,然后我自己走过去的场景,我还真的不觉得属于幻觉。

--- 第 122 楼来自 争取多活两年 的回复 (2026-03-02 11:07:36 PST) ---

你这有种大棋党的意思了。以后AI瞎说也可以说是AI觉醒了,准备用瞎说把人类灭掉。4D chess

--- 第 123 楼来自 MOMOMOMOMO 的回复 (2026-03-02 12:06:23 PST) ---

你这解释比AI“幻觉”还离谱

--- 第 124 楼来自 MOMOMOMOMO 的回复 (2026-03-02 12:07:42 PST) ---

感觉现在已经落地(or product with revenue 除了chatbot)好像基本都是

quote="收束观测者, post:118, topic:487193"

挖各个行业的特化数据train specialized expert model了

/quote

挖各个行业的特化数据train specialized expert model了,而ai的好处是有个不错的base model

--- 第 125 楼来自 xunzhaocunzi 的回复 (2026-03-02 12:49:19 PST) ---

expertise来自现今的各种专门软件,比如intu。intu开发的报税agent肯定比一般的agent更好的处理税务的各种问题

--- 第 126 楼来自 争取多活两年 的回复 (2026-03-02 13:53:10 PST) ---

是的,但这个过程可能不顺利。需要INTU自己的管理层懂AI。

以前本老可能觉得会被一个startup干掉。但是现在AI太烧钱了,再看看吧。现在搞AI的和当年56K modem时代搞互联网的差不多,太超前了。

--- 第 127 楼来自 Thickness4968 的回复 (2026-03-02 14:12:39 PST) ---

我刚好聊了不少你说的这种公司,他们的agent开发并不顺利。主要问题是缺少明确的判断标准以及私有知识。

--- 第 128 楼来自 争取多活两年 的回复 (2026-03-02 14:19:32 PST) ---

主要还是太揠苗助长了。非要好几年的东西几个月搞完。

美国创投圈总是喜欢这样。

--- 第 129 楼来自 xunzhaocunzi 的回复 (2026-03-02 15:35:28 PST) ---

的确,等一段时间,等chatgpt,claude,google的大牛逐渐跳槽到其它公司开发agent,估计会百花齐放。训练agent还是技术活,不是乱堆算力就行的

--- 第 130 楼来自 xunzhaocunzi 的回复 (2026-03-02 15:42:30 PST) ---

这可能涉及用户数据,不能用来训练?我不相信intu缺少私有数据或者知识

如果真缺,雇懂税务的专家来帮忙建立知识库吧

--- 第 131 楼来自 Zig 的回复 (2026-03-02 15:45:56 PST) ---

【引用自 xunzhaocunzi】:
等chatgpt,claude,google的大牛逐渐跳槽到其它公司开发agent
你这是在诅咒他们么。。。

--- 第 132 楼来自 KingGrimlock 的回复 (2026-03-02 15:47:22 PST) ---

炒前景就能赚钱了,无本生利,为什么还要真金白银投入去搞?

--- 第 133 楼来自 Thickness4968 的回复 (2026-03-02 17:46:08 PST) ---

这么比喻下吧,很多想做agent的公司现在的情况是:

如果公司知识整理做得不错的话,有一些非常碎片化的knowledge base或者wiki,解释某个具体概念(例如税表某一栏代表了什么)。差一点的公司完全没有
有大量完全未标注的数据,比如说一大堆历史excel/pdf,不知道它们的正确性和代表了什么(例如历史税表,尽管是受隐私保护的)
具体怎么应用这些knowledge来完成一个任务是完全没有资料的,也没有记载工作流,只依靠人的经验
人对problem domain也无法给出一个具体的定义。具体比喻下就是报税师在看到一个人具体情况的时候,知道怎么prepare整体的报税流程,在查阅相关资料后知道各种异常情况的处理,但是ta无法凭空写出所有的异常情况是什么

总体来说,已有的数据无法直接被用到agent的训练上。而从头专门雇人生产rl数据成本非常高费时费力。只让人判断正确性也并没有降低多少工作量。

--- 第 134 楼来自 DeusX 的回复 (2026-03-02 17:47:06 PST) ---

由此可见,由人类主导运营的不规范的公司组织形式迟早被AI淘汰。

--- 第 135 楼来自 Thickness4968 的回复 (2026-03-02 17:49:24 PST) ---

想被AI淘汰AI就得先做得比人好

要做的比人好就要学习人的数据

能AI自主生产数据的前提是AI把人淘汰

没有logical ground 0,就无法打破这个闭环

--- 第 136 楼来自 xunzhaocunzi 的回复 (2026-03-02 18:50:05 PST) ---

ai不是淘汰所有人,而是大部分人,大部分人跟expert比起来,超无用处,只是做一些manual tasks罢了

让ai做较为明确的任务,不管多么tedious,简直又快又好,超过绝大部分人

--- 第 137 楼来自 争取多活两年 的回复 (2026-03-02 18:53:37 PST) ---

这话说的。AMEX也没把泥潭用户都ban了啊。

--- 第 138 楼来自 xunzhaocunzi 的回复 (2026-03-02 18:55:51 PST) ---

哈哈,我相信amex如果能精准定位泥潭用户,肯定要ban

--- 第 139 楼来自 DeusX 的回复 (2026-03-02 19:10:48 PST) ---

第一个就打破了啊,现在的 hype 就是 ai 取代人类,做的没人类好也要取代。

--- 第 140 楼来自 Thickness4968 的回复 (2026-03-02 19:24:31 PST) ---

只有hype啊 Block那个属于本来就想裁员了,付诸行动的几个也翻车了好多:

Solutions Review Technology News and Vendor Reviews – 5 Jun 25

How Duolingo’s AI-First Strategy Lost the Human Touch

Solutions Review Executive Editor Tim King offers commentary on Duolingo’s AI-first strategy and how it lost the human touch. In late 2023 and early 2024, the popular language-learning app Du…

Est. reading time: 5 minutes

Entrepreneur – 9 May 25

Klarna CEO Reverses Course By Hiring More Humans, Not AI

Klarna released an AI chatbot and implemented an AI-induced hiring freeze last year.

至少在big law、invest banking、trading这块完全没有取代人类的打算,更多的是作为辅助工具使用。因为这些领域大量依赖学徒制的学习

--- 第 141 楼来自 DeusX 的回复 (2026-03-02 19:43:06 PST) ---

没问题,作为辅助的时间久了,数据就积攒够了。为了能有效辅助,也会倒逼人类建立 structured knowledge database,到时候就可以取代了。

--- 第 142 楼来自 meow-meow 的回复 (2026-03-02 20:27:33 PST) ---

MiniMax 2025 财年营收 7900 万美元,同比增长 158.9%,年度亏损 18.7 亿美元

MiniMax 披露 2025 财年业绩:营收 7900 万美元,同比增长 158.9%,其中逾 70% 来自国际市场。截至 2025 年 12 月 31 日,公司累计服务超 200 个国家及地区的 2.36 亿名用户,企业客户及开发者达 21.4 万,覆盖逾 100 个国家及地区。同期年度亏损为 18.7 亿美元。

新浪财经

等openai把anthropic和国内恶意开源和低价竞争的小厂耗死了就会半导体迎来大涨吧

--- 第 143 楼来自 AmmiNi 的回复 (2026-03-02 20:29:34 PST) ---

我觉得我非常认同楼主说的“落地难”的问题。我是码农,实际使用的时候依旧觉得做简单系统容易,稍微加一点context的话ai就疯狂出错,甚至是非常简单的task都无法做到100%,并且各种模型都避免不了这个问题。(不要说是我不会用,真正好用的东西是不需要这种argument的 )

agentic系统就是一个用engineering方法来强行突破模型限制的workaround,因为模型本质是随机的,agentic系统作为孤立的存在必然熵增,如果没有人类input作为负熵必然到某个节点会出错。attention机制的固有缺陷决定了它不可能是AGI(这点我和lecun的观点一致),因此这更多的是“工作流自动化”,更容易迭代但是确定性更低。

这种自动化最大的问题是无法构建可信赖的抽象层来实现知识隔离,因此大家才觉得干活更累了。它会取代一部分人力,在某些领域确实可能造成大规模失业,但是多半不是码农。随着openclaw类似技术的应用,大规模自动化时代能自动化/结构化一切的码农依旧是硬需求。

--- 第 144 楼来自 土拨鼠工业发展促进会 的回复 (2026-03-02 20:30:12 PST) ---

虽然不是很想用这种做题家的比喻

但是AI就和一个高考数学5分钟就能做完卷子但是不管之后再花多久也只能考130的人一样 按照常理来说只要不偏科 985/211应该没什么问题了 但是清北可能要140+

AI现在解决简单的case很容易 但是让AI来做全套诊断和手术流程建议之类的 这个事情错一步可能就是医疗事故 谁来负责呢

--- 第 145 楼来自 xunzhaocunzi 的回复 (2026-03-02 20:34:43 PST) ---

亏18.7亿美元?omg

--- 第 146 楼来自 Eternal 的回复 (2026-03-02 22:51:11 PST) ---

我觉得他们还是能精准定位的,比如说卡数超过卡槽上限的,再比如说持同一种卡超过4的。

只不过这样的task对于amex里打工人来说没什么意义,也比较难定义impact吧。。。

--- 第 147 楼来自 收束观测者 的回复 (2026-03-02 23:38:53 PST) ---

【引用自 AmmiNi】:
agentic系统作为孤立的存在必然熵增
现在所有agentic engineering思路都是在设法让它不是孤立系统

--- 第 148 楼来自 AmmiNi 的回复 (2026-03-02 23:54:20 PST) ---

我的理解是即便连上了各种外部系统,包含LLM在内的一整套系统为整体依旧熵增。各种engineering方法只是在延缓这个过程。如果不以LLM为基础而采用固定流程来进一步约束随机性,就没办法吹agi了只能吹自动化。

--- 第 149 楼来自 不知道是谁 的回复 (2026-03-02 23:59:38 PST) ---

现在的ai就跟汽车差不多,能让你速度提升,但期待他自动驾驶是不可能的。而且ai到底能不能像人类一样完全自主有创造力很难说,没见过有什么东西是完全新的而不是借鉴之前的物料的。

--- 第 150 楼来自 收束观测者 的回复 (2026-03-03 00:15:13 PST) ---

AGI是不可能AGI的

但是落地也并不需要AGI

Engineering本质就是在各种结构性限制内把东西搞到能用这么件事

要求绝对无墒增是没有意义的,墒增低到可以接受就行了

举个简单例子,LLM把代码review 10遍漏过去bug的概率比人review一遍要小,外加10遍成本比人一遍低,那就落地了

--- 第 151 楼来自 ChatPPT 的回复 (2026-03-03 00:31:24 PST) ---

The Pitt: 断电以后AI一无是处

--- 第 152 楼来自 AmmiNi 的回复 (2026-03-03 02:42:32 PST) ---

基本同意,所以这次ai带来的改变和前几次工业革命没有本质区别,结果其实应该是人类进入万物可编程时代,以后的工作必然要和流程化自动化打交道了,落地是迟早的事情。如果我们认为这次没有本质区别,那么关于之前工业革命的论断依旧成立:短期结构性失业,长期创造就业。

因此还可以buy in the dip

--- 第 153 楼来自 Soross 的回复 (2026-03-03 09:10:04 PST) ---

神图了。

--- 第 154 楼来自 争取多活两年 的回复 (2026-03-03 13:02:34 PST) ---

落地的很多啊。但是比街上吹的要慢。

--- 第 155 楼来自 收束观测者 的回复 (2026-03-03 13:24:02 PST) ---

【引用自 AmmiNi】:
短期结构性失业,长期创造就业
我不这么觉得

人类一切生产活动最终都是以人类消费为终端的

简单地说价格更低人就会消费更多未免有些一厢情愿了

1929告诉我们如果人的收入下降更快的话就算商品价格下降也只会消费得更少

就算收入不下降

你不可能一天吃30顿饭,也不可能换十套衣服,更不可能玩30个小时游戏看40小时的剧

为什么现代资本主义主流社会以消费为美德,变着法子推动消费主义?

因为一旦人停止消费钱就的流动就会减缓经济引擎就会减缓

在当前已经把普通人的消费squeeze到了注意力经济的时代我不认为大多数产业能靠价格下降创造出更多就业

这篇说得很好:

https://www.reddit.com/r/explainlikeimfive/s/bWvVM0Q45c

资本主义经济危机本质是什么

是一边需要屁民的消费来作为经济引擎一边收入分配结构上又不想给屁民钱

--- 第 156 楼来自 AmmiNi 的回复 (2026-03-03 14:40:34 PST) ---

这个quote的reddit说的不是“人类的需求一定会扩张,ai也不例外”吗?还是我理解错了?

你最后的那段话就是剩余价值理论,我也同意,但是随着生产力的提高人的需求一定会慢慢跟上生产力导致新就业。你的看法是人类的需求不会无限扩张,这个我同意一半。假设人口总量不变,在技术革命的这段时间内,生产力增长会远快于需求增长,且部分需求无法无限扩张。因此长期创造就业其实还有一个隐形条件,即市场规模的扩大。这一点可以从历次工业革命中观察到,生产力的扩大伴随着殖民主义到全球化,市场中的人多了,就业才能撑起来。

--- 第 157 楼来自 争取多活两年 的回复 (2026-03-03 14:46:06 PST) ---

以后agent也可以消费就行了啊。你看币圈就能无中生有,说不定币圈和agent合流了呢。毕竟奥特曼也发过币。

--- 第 158 楼来自 bumblebee 的回复 (2026-03-03 20:11:31 PST) ---

我们还在说AI落地难,MiniMax财报说明这个世界还是小白多啊,MaxClaw这种真-傻瓜才是最适合普通人的快速落地

--- 第 159 楼来自 bumblebee 的回复 (2026-03-05 21:28:59 PST) ---

GPT 5.4这个原生直接操作任何系统/App很屌啊,离白领大规模失业又近一步