AI让我想做的那些事
AI个性化与自动化工作流持续演进,多Agent管理工具与异步调度方案成焦点
1. 关键信息
- AI 降摩擦:AI 把想法到落地的阻力大幅削减,尤其对 ADHD 人群提升执行力(#1)。
- 个人分身:提出 RAG+个人 Wiki + fine‑tuning 双线方案,实现对自身全局记忆与行为定制(#1)。Gemini personalization team 已在做类似工作(#57)。
- 强化学习视角:把人类置于 feedback loop 的瓶颈,强调让系统自行进化、只在人为偏离时介入(#1、#4、#24)。
- Multi‑Agent 系统:现有工具(Orc、PAI+SHOU、OpenClaw、Hermes)在并行、上下文管理、隔离上仍不足;核心需求是 轻量 VM 与 共享 context 管理(#1、#4、#5、#24、#45)。新用户询问大牛们如何管理多个 agents 和协调,目前小白仅用 UI/CLI 感到受限(#58);有用户尝试上 Langraph(#59)。
- 轻量级调度方案:有用户使用 GitHub issue + GitHub Action + 独立 markdown 记忆系统来调度 agent task 和 context management,正在重写 agent loop 实现多 agent 快速 context management(#60)。
- Agentic OS 构想:统一的任务 inbox、优先级/依赖调度、人与 AI 协同的持续异步运行平台,类似 Slack+Linear+Notion 的 AI‑native 进化版(#1、#24、#60)。
- AI 4 Math 与形式化证明:利用 Lean、Aristotle 等工具实现闭环推理与自动校验,预示数学 AI 将超越人类(#1、#24)。
- 写作与代码的反馈环差异:文字产出即时可评估,AI 在写作中的修改循环成为新瓶颈;需通过 fine‑tuning 或 reward‑based prompt 优化提升匹配度(#1、#25、#42)。
- 成本与模型可控性:Claude 等商用模型成本高且可能降智,强调拥有可控本地模型的重要性(#1、#24)。
- ADHD 与 AI 适配:AI 能降低启动成本,但注意力切换频繁导致认知负荷,需要限制 context‑switch 频率(#29、#43)。
- 实验精神:鼓励“别争论,做实验”,通过 RL 与快速 feedback loop 驱动创新(#1、#24)。
- 个人自动化工作流:用户通过 cron job 监控 agent 状态,coordinator agent 按规则自动处理 code review/merge conflict 等任务,仅复杂 brainstorm 需人工介入(#53)。
- 机器人前景:Optimus 尚未发售,缺乏 benchmark;宇树机器人春晚表现惊艳但家用场景有限;5 年内可能出现现象级产品(#56)。
2. 羊毛/优惠信息
无
3. 最新动态
- Claude 5.4‑Pro / 5.5‑Pro:解决 Exact Matching 等难题,显著提升推理速度(#13、#16)。
- Aristotle、AlphaZero‑式数学自我进化:正在实验 post‑training 让 LLM 输出 Lean 代码并自动校验(#1)。
- Ace 项目:提供代码专属的 multiplayer + sandboxed micro‑VM,展示了 agentic OS 的雏形(#1、#24)。
- OpenClaw / Hermes:部分用户尝试用于长时任务调度,仍需结合 cron 与共享 context(#10、#14、#36)。
- 个人自动化实践:用户自建 cron + coordinator agent 实现全自动 code review/merge,仅复杂任务需人工(#53)。
- 机器人讨论:特斯拉 Optimus 前景不明,宇树机器人已展示能力但缺乏实用场景,5 年内可能突破(#56)。
- Gemini personalization team:已在做个人分身/个性化 AI 相关工作(#57)。
- 多 Agent 管理工具讨论:新用户询问大牛们如何管理多个 agents 和协调,目前小白仅用 UI/CLI 感到受限(#58);有用户表示目前还在用 VSCode,正尝试上 Langraph(#59)。
- 轻量级调度方案:用户 @Mmmm 分享使用 GitHub issue + GitHub Action + 独立 markdown 记忆系统调度 agent task 和 context management,正在重写 agent loop 实现多 agent 快速 context management,目标是构建一个持续异步运行的系统,拥有自己的 task inbox、优先级和依赖调度,不绑定特定 agent,用户仅需偶尔查看 dashboard 或给出方向(#60)。
4. 争议或不同意见
- RAG vs. 传统检索:部分用户认为向量检索成本高且效果不佳,倾向 BM25 或直接让 Agent 自己搜索(#31、#35)。
- 并行加速 vs. Token 消耗:并行执行未提升速度且导致 token 大幅增长,被视为设计缺陷(#1、#45)。
- AI vs 人类品味:有人认为加速后品味失效,另有观点强调品味仍是避免局部最优的关键(#1、#24、#42)。
- 对 AI 时代的消极态度:有用户庆幸自己能在 AI 浪潮前优雅老去,不愿接受变化(#55)。
- 特斯拉股票与机器人:部分用户不看好特斯拉,另有人对 Optimus 持保守乐观,认为需等待实际产品 benchmark(#51、#52、#54、#56)。
5. 行动建议
- 构建轻量 VM + Context 管理层:优先实现快速创建/销毁的容器或 micro‑VM,配合共享状态服务(如 Redis + event bus)解决 multi‑agent 隔离与上下文漂移问题。
- 采用双线记忆架构:使用 RAG 维持长期个人知识库,结合可控的 fine‑tuning(或 OPRO/Prompt‑RL)微调行为模型,实现“记忆 OS”。注意 Gemini personalization team 已有类似方向,可关注其进展(#57)。
- 设定明确奖励函数:在 RL/feedback loop 中只在关键偏离时介入,降低人类在 loop 中的时间占比。
- 实验性部署:选取低风险任务(如报税、数据清洗)先行部署,评估 token 成本与并行收益,迭代优化调度策略。
- 管理注意力切换:为自己设定最大 context‑switch 间隔(如 30 min),并使用 Slack/Telegram bot 实时推送 agent 状态,避免认知过载。
- 关注模型成本与可控性:评估自建小模型或开源 LLM(如 Llama‑2)与商用 API 的性价比,防止因降智或费用上升导致项目停摆。
- 尝试 cron + coordinator 自动化:对重复性代码任务(code review、merge conflict)可构建 cron 监控 + coordinator agent 规则引擎,实现全自动处理,仅保留复杂 brainstorm 人工介入(#53)。
- 跟踪机器人领域进展:关注宇树、特斯拉 Optimus 等产品实际 benchmark,5 年内可能出现的现象级产品值得提前布局(#56)。
- 探索多 Agent 管理框架:对于从 UI/CLI 升级的需求,可尝试 Langraph 等框架(#59),同时关注社区对 Orc、PAI+SHOU、OpenClaw、Hermes 等工具的改进。也可参考轻量级方案:使用 GitHub issue + GitHub Action + 独立 markdown 记忆系统作为调度层,逐步构建自己的协调层(#60)。
https://www.uscardforum.com/t/topic/488654发出去2个月了。 终于摸到浅水区的边界了。 我有很多想法,但以前都没有实现。 因为摩擦太大。 一件事要做,脑子跑的太快,已经把后续的麻烦都想了一遍,就不做了。 AI把摩擦去掉了。现在不管什么想法就直接开始。 很难吗?不难。我需要学什么,马上能学会。 我需要做什么,AI可以帮我做。 AI水平不够,一起和AI做工具,让它水平够。 对于一个ADHD人来说,这是很可怕的一件事。 以前一堆停下来没做的事情,现在全部可以重启了。 以前觉得一生都做不了的事,现在可能一星期就能做完。 每天东西都做的停不下来。 一个月做到原来需要10年才能做到的事。那岂不是有效寿命被大大提高。 足够多就接近永生了。 我所接触的人的AI使用水平早就超过99%的人类了,甚至99%的从业者。 但连浅水区都没游熟练。 很多人还在说自己遇到瓶颈。 根本不是瓶颈——直接问AI接下来怎么做就好,不要给自己加限制。 只要思维方式转变了,瓶颈少很多,要做的就是“教我要做什么,我去做”。 AI做日常任务,省时间不用说。 最近报税等常见的烦心事项,都利用AI来做。但还是很多事需要自己执行。这种落差,是游到了浅水区边界的人才能感受到。 想了一些蛮有兴趣的方向,都适合开创业。 #p-8089891-h-1自己的分身 很多人对AI的一大要求,就是完全了解自己、帮自己处理杂事的工具。 所以应该分两条线:知识靠外部 RAG,行为靠 fine-tuning。 RAG + personal wiki:把关于自己的内容都存进去,让 AI 随时查。 利用 fine-tuning 改说话方式、思维 process、用工具的习惯。 都不便宜。第一个要用很多tokens。 知识这条线的数据来源本身也是个问题。就算是你的数字数据——聊天记录、邮件——也只是你人生context的一小部分。你每天看到、听到的东西,绝大多数没有被记录下来。真正了解你,最终可能需要某种形式的lifelogging:持续的音频图像记录,让AI看到你每天看到的,听到你每天听到的。 fine-tuning一般人做不了——需要自己可控的模型。 最好的模型是越来越贵。最近,如Claude强制降智,让你花同样的钱得不到相同的结果。 Claude $200的max plan现在连一个bug都没搞完就5个小时token用光了。 有自己可控的模型,才能做自己的分身。 #p-8089891-rl-2强化学习(RL)与加速 https://www.uscardforum.com/t/topic/488654也提到Sutton的The Bitter Lesson,核心意思是:人类想出来的各种rules,最终在数据和算力面前全部失效。 那看起来LLM就是终局。这不就是数据和算力堆积起来的结果? 但Sutton认为这想法是错的。因为LLM本质上还是从人类产生的数据里学习的。 对比一下,在AI围棋时代,最终的版本是AlphaZero。它完全不了解任何人类棋谱,从零开始自我对弈,最终可以轻松击败任何版本的AlphaGo(学习了大量人类对弈的版本)。两者本质上不同:一个被困在人类知识的上限里,一个可以超越它。 所以终极版应该是不从人类数据里学习的AI。 AI4Math是我很关注的领域。上篇很多判断没跟上——东西发展太快了。 我最近也开始用Aristotle这类工具,越用越觉得时间线比想象中短得多。 听了https://www.youtube.com/watch?v=78Vyy_dzWXA,很推荐。 她没说具体怎么做,但推测是: 对llm模型做post training,获得输入输出全是Lean的会推理的AI。 即使它推理不完美,写出的Lean代码也可以自动check。Feedback loop就是完全闭合的。 AlphaZero式的数学自我进化。 但暂时还不完全一样——现在还是要靠人类写的Lean代码来训练。 RL还有个推论:别争论,做实验。 数学可以靠逻辑推导,但现实世界里有太多假设,只有跑过才知道。 人类对世界的很多预测,看起来很聪明,其实很多都是错的,因为有太多我们没意识到的假设夹在里面。 RL绕开了这个问题,让实验结果说话。 AI现在的核心瓶颈在工程上。我们都没把工程做到极限。就算AI的研究完全停止,只要把工程做好,产出可能就能达到千倍。很多看起来很厉害的技术,原理都很简单。没有哪家公司做出了其他人无法复刻的东西。 feedback loop越快,品味越没用。想出了一个好方案,测试一下还是想出1000个差不多的方案去测试找到其中最好?只要过程够高效,品味不再是瓶颈,execution才是。要尽量让feedback loop越来越快。 OpenAI大量收购tooling公司,道理就在这:faster tooling = faster feedback loop。 加速很重要,需要让所有的代码都加速。 #p-8089891-multi-agent-3Multi-Agent和人类合作的界面 用RL的视角会意识到自己是feedback loop最慢的那个环节。 只要你in the loop,整个系统的速度上限就是你的速度。 正确的模式是:系统自己不断进化,你只在方向彻底跑偏时出手。像RL里你只需要定义好奖励,不需要手把手告诉它每一步怎么走。 但现在做不到。 现在太多harness,本质上都是对话驱动的:你说一件事,它做一件事,结束。 一般用户为了效率,那就多开窗口,控制多agent。最后也要有agent帮自己控制多个agent。 可是整个系统还是无法scale上去。多agent本身就是没好好解决的问题。甚至LLM在处理有dependency的并发任务时表现很差: 这类问题需要的是推理和优化,这不是它天然擅长的。但这个问题将来可能有解。涩谷十字路口同时3000人通过,没有人会撞到对方,靠的不是有人统一指挥,而是每个人都在遵循某种隐性规则。所以也许将来真的可以一堆 autonomous agent 扔在一起,然后期望它自己运转。但暂时大多时候的解决方法,还是有个global orchestrator,把每个agent限制在一个局限的范围里,靠控制来维持稳定。 #p-8089891-h-4自己的尝试 问题本来很简单:有一堆issues,AI都能解决。设计个系统,告诉agent要什么,然后去睡觉,一堆agent异步处理。 第一代叫 orc,当时纯粹是为了解决写代码问题的。做的是 gitea issue → code → verify → merge 这个 workflow。之前就跑通了,但是感觉它各种state management设计的不够好,然后非常的git dependent。于是我想应该弄一个更general的做任何任务的工具。 第二代是 pai + shou,名字合起来是"拍手",设计更认真一些。shou 是 durable state machine 框架,负责执行具体 workflow,每个 step 要么是有状态的 session(AI agent 就是这类),要么是无状态的 function。pai 是调度层,管优先级、依赖、冲突,有 event queue 和各种 source adapter。pai是用来控制每一个shou。 我的使用方式就是说一些问题,跟agent说,agent把这些写成issue,然后让pai根据输入来决定做哪一些,然后分发给shou,触发workflow。可以十几个互相无关的issue同时被十几个agent解决。 做出来之后,作为演示给人看不错。 发现一些问题,跟agent聊聊,之后问题就被解决了,而且还有一定的可见度:因为agent会发PR,会comment。 但很奇怪:增加了并行,最终速度却几乎没变,且token消耗大了很多。 直接在claude code里用skills并行解决,和一大堆agent一样快。 仔细研究发现是因为每开一个新任务单元就要丢掉之前积累的context,等于一直在重新学习。 我设计一开始就有问题,我做的是workflow execution framework,每个agent之间都是独立的。但真正缺的是多agent task + context management framework。 另一个教训是隔离。就算是只是做workflow execution,成功快速的隔离并不简单。整个执行过程里,出问题最多的来自于处理隔离问题,Docker都不够。 现在我理解了,需要一种随时能开出来的VM。这才是正确方向,快速create/destroy lightweight VM,才是让multi-agent系统真正可用的基础设施。 #p-8089891-h-5未来 因为AI的context可以共享,context management也应该是多agent系统的一等公民。 好的multi-agent系统,要管任务和agent团队的context生命周期。 而这里面,agent应该也包括人类。 用AI这么久,我还是一个人和agent沟通。就算是多个agent,人只有我一个。而我要任何其他人加入,我又成为了瓶颈。 我们需要的系统,应该是多agent多人的协作系统。 一个持续异步运行的系统,有自己的task inbox,懂得优先级和依赖,不绑定特定的agent,你偶尔看dashboard或给点方向,而不是每次坐在对话框前面推进。 这个系统里,人和AI没有特别的不同,人只是比较缓慢、权限更大的AI。 这东西市场上还没有成熟的方案。 就不算agent,人类本身来说,这样的好东西都用不好。 大厂有Slack + Linear + Notion一整套。 但因为大多数时候没人管理KB,整个团队context还是破碎不堪,新人学习还是找老人获得context。 有了AI,直接把AI接入,天天读所有context保证最新,教人该知道什么。 这些平台都在快速向AI native转型,如https://linear.app/next。甚至感觉在整合。这几个工具看起来不一样,实际上都是shared context manager(包括人和机器)。所以这几种工具的最终整合应该距离不远。 光是写代码这一件事,Github Next的https://www.youtube.com/watch?v=ClWD8OEYgp8已经非常接近了。Ace 解决了两个核心:一是 multiplayer——多人在同一个 context 里规划执行,agent 是共享的;二是 sandboxed micro VM——每个任务在独立的轻量 VM 里跑,可以随时 branch,随时销毁,隔离 问题真正解决了。 但Ace还是代码专属的。我想要的更夸张:不只是代码,而是任何 workflow——写论文、做决策、管项目——都能把 agent embed 进去。这才是真正的 agentic OS。人和 AI 的区别,只是速度和权限。 #p-8089891-h-6我的每日工作 #p-8089891-h-7研究 上一篇文章里特别提到了https://www.uscardforum.com/t/topic/488654#p-7753801-h-23GPT 5.2-Pro解决不了。不过那是上个时代的问题了,几天后GPT 5.4-Pro出来了,80分钟解决了它(答案:那个问题和Exact Matching是等价的,所以暂时确定性多项式时间算法较难获得)。GPT 5.5-Pro出来之后可以20分钟得到结果。 5.4最大的新闻:GPT 5.4-Pro终于完美解决了https://www.erdosproblems.com/forum/thread/1196。这个问题非常有名的,上一个improve这个结果的https://mathematics.stanford.edu/people/jared-duker-lichtman,发了堪比数学四大的Forum of Mathematics, Pi——但那只是基本的上界,最优的 1+o(1) 版本当时还没做到。有兴趣的话看看https://www.erdosproblems.com/forum/thread/1196#post-5374。 研究有两种:有意思的和重要的。我做有意思的那种。 自从5.4-Pro出来,我不再是从头到尾自己证明一切,而是我想一些猜想和可能的解法,让AI去探索。一小时之内可以做到以前要花十小时的事情。 以前灵机一动想到什么,自己花几个小时钻研,通过探索的过程发现错误,那个过程本身是好玩的。 现在AI直接告诉你答案,那种乐趣有点消失了。 我现在像个指导兼翻译:根据AI的发现,理解了之后给出指导,直到AI得出最终结果。 AI用的不是人类的思维方式,我拿到之后需要翻译成人话——但这件事谁都可以做。 我也怀疑自己的指导有没有用。现在可能有点用,未来可能意义也不大了。 我写文章的意义也越来越小了。 #p-8089891-h-8写作 这段时间刚提交了一批论文,大量在用AI写作。模式是让AI写出大部分内容,然后自己调整。 这过程很痛苦。 写作的feedback loop和coding有个本质区别:文字本身就是产品,你一看就能判断,想改直接改,自己动手的速度远快于给AI说"改一下这里"。AI反而是修改循环里最慢的环节。 这当然还是延迟和体验问题。迟早会解决的。 每次改动,都在教AI你的taste。我当然希望AI写出来,一看就差不多。 这件事很难:自己写的东西都需要改,不能指望AI一遍成功。但方向是对的,它可以通过你的修改的总结,来越来越了解你的风格。 但最终要完全符合自己的taste,纯context injection是不够的。还是要做点fine-tuning。 我以前就觉得改文章很痛苦。想过给数学家用的写作工具,算是写数学文档的Typora:https://hackmd.io/@Oi4-wmorQSiPFwJYGI5tfw/rkaABCJg9。而AI来了之后,我就真的把它写出来了(bug很多),也顺便改名了叫做https://github.com/chaoxu/coflat。下面是视频(视频是AI帮忙生成的)。 https://www.youtube.com/watch?v=TakaLGGF_Bs Coflat让修改过程顺畅一点。毕竟它本身不是为了从头到尾的写作,因为AI已经成为了第一个draft的创建者了。而是成为了一个修改的工具。 这几件事,每一件我都真的想做。有的已经开始动了,有的还停在脑子里。以前可能就放弃了——现在不会了。
火钳刘明
LLM太有意思是否导致chao教授无心撸羊毛了最近, 终局是LLM自动loop所有银行 让money loop
这个标题如果是别人写的我是不想读的,但因为是超姐所以先mark
fun fact: Chao: https://www.youtube.com/watch?v=78Vyy_dzWXA 是我的小学同学。
chao教授现在都用agent自动化薅羊毛
Chao: 品味越没用 品味可以帮助RL或者任何尝试逃离局部最优解啊
我也有什么都跃跃欲试的感觉。但另一方面我又想,既然LLM发展日新月异,且最终都会被商品化,那我此时此刻去卷广度的意义有多大?我是不是更应该专注于本职工作,建好自己的护城河(专业经验、私有数据、关系网等),把非主线任务交给时间呢?也可能因为我们没有MS tokens的压力。
Chao: 一个月做到原来需要10年才能做到的事。那岂不是有效寿命被大大提高。 足够多就接近永生了。 哭了
这个文字的风格就像是思维跳跃太快,嘴巴已经跟不上脑子的具象化反应表现 lz有推荐的autonomous agent工具吗?最近感觉也到了一个通过对话来完成任务的瓶颈(哪怕多开sub agent 也难以scale),在思考有没有办法让一个agent连续跑十几甚至几十个小时,中间通过slack之类的在关键点进行人工review,但人工介入次数不能多。 还没用过openclaw,hermes,不知道这类工具是不是足够强大了。
人和人的差距被越拉越大了
不知道Prof. Chao有没有把这些随想文章发到别的地方,想分享给国内的朋友看看,感谢
我知乎也写了https://zhuanlan.zhihu.com/p/2032462395763856843
我没做过这种东西,原因是我一般都事先plan好之后yolo+ralph- oop。 但你这想法是很对的。现有的工具魔改一下不难。你的要求是关键点以外不要打扰你,其他时候不断跑。最简单就是弄个ralph-loop然后定好了了哪些step的时候必须问你。notification是另一个问题,但也只是个skill。 我不怎么用openclaw hermes 改代码。原因是觉得这些工具本身不是coding agent,让它自己跑一些task的能力不如每天都在更新的coding agents。
AI日新月异,你不去做不去学,之后也可以不用学了。 躺着可能也不错。多enjoy一下在AI更大的海啸到来之前的平静。 看你想做什么吧。我搞这些主要只是觉得好玩,以及也觉得自己原先的研究的relevence越来越小。
同样听了洪乐潼采访还在听罗福莉这期,看了胡渊明那篇文章 在用旧笔记本和claude pro搭丐版个人助理。问下大佬觉得普通人有一定写码能力但低于senior做一个低成本实现idea的ai 个人助理 是用claude pro还是openclaw 还是google antigravitiy?
同感,经常觉得在吃饭之前或者睡觉之前需要人工去设置一些任务
Claude code max 使用这个 claude remote-control --permission-mode bypassPermissions 手机就可以看进度。 连续跑要自己控制,核心是ai估算。假设需要连续跑10h,那就让ai定制10h任务,比如某某数据集做微调。 ai首次不能清楚估算要跑多久,这是正常的。首次可以用cron,每xx分钟自动检查。 对于打断,要让ai提出可行的建议。因为实操过程中,吃着饭想起来看一眼,但是只能匆匆输入 继续 跟你的计划走 所以让ai给建议还是挺重要
确实,只是最近觉得自己天天在做很多plumbing的东西,活成了十年前刚入行的样子。 谢谢Chao教授。
可以考虑接入telegram bot,查进度或者agent及时汇报进度,同时可以随时介入
Chao: 用RL的视角会意识到自己是feedback loop最慢的那个环节。 只要你in the loop,整个系统的速度上限就是你的速度。 正确的模式是:系统自己不断进化,你只在方向彻底跑偏时出手。像RL里你只需要定义好奖励,不需要手把手告诉它每一步怎么走。 对于这点,我之前想过。就像是晶体管时代的CPU做计算,人不能在CPU做每个操作的时候,都去检查一下,CPU可能算错,我编的程序可能有问题。但是我只需要结果,比如优化某个指标,你就告诉我优化了多少就可以,没必要一步一步看。 所以human in the loop, 在最后的结果出现的时候,才进入loop Chao: 很多人对AI的一大要求,就是完全了解自己、帮自己处理杂事的工具。 这个我个人体验,琐碎的事情边际效应导致代价太大。因为我的需求可能一段时间后就改变了。 对于内容比较固定的事情,蒸馏出来一个skill
Chao: 现在我理解了,需要一种随时能开出来的VM。这才是正确方向,快速create/destroy lightweight VM,才是让multi-agent系统真正可用的基础设施 这个很有意思。作为创业点子,可能要考虑AI基础设施创业的问题:未来大厂的某次更新会不会彻底解决这个问题 Chao: 但真正缺的是多agent task + context management framework。 这个点子感觉更好,可以做到某一垂直领域,大厂不能通过基础设施更新来做这个
Chao: 直接问AI接下来怎么做就好,不要给自己加限制。 只要思维方式转变了,瓶颈少很多,要做的就是“教我要做什么,我去做”。 以前的 execution loop 大概是 plan-execute-review,现在 execute 这一步被大幅压缩了,HITL 里人主要负责两件事:做选择,以及给反馈。这里的关键其实不是学习知识,而是形成过程性的记忆:哪些尝试有效,哪些反馈会改变方向,哪些 workflow 可以复用。对人来说,semantic memory 越来越没必要自己硬记,episodic memory 会变成自己和 AI 助手之间的私有区域,procedural memory 的积累则取决于你愿不愿意不断把事情做下去,试出新的路径。所以耐心把一个流程慢慢做完变得没以前那么重要,反而是快速从不同维度反复试错更重要。 Chao: 所以应该分两条线:知识靠外部 RAG,行为靠 fine-tuning。 RAG + personal wiki:把关于自己的内容都存进去,让 AI 随时查。 利用 fine-tuning 改说话方式、思维 process、用工具的习惯。 都不便宜。第一个要用很多tokens。 这个我以前想过的 Memory OS。至少要区分两个层次:LLM 权重里的隐性能力,和外部显式记忆系统。外部记忆不能只是 RAG/向量库,否则很容易变成历史垃圾堆。我觉得至少要有三层,可审计的 ledger,面向使用的 views,以及治理更新/删除/召回的 policy。尤其是时序维度很关键,不然旧事实,过期偏好,被纠正过的信息会反复复活。Memory 的核心不是存了什么,而是历史如何以可控方式进入当前决策。 Chao: fine-tuning一般人做不了——需要自己可控的模型。 最好的模型是越来越贵。最近,如Claude强制降智,让你花同样的钱得不到相同的结果。 Claude $200的max plan现在连一个bug都没搞完就5个小时token用光了。 有自己可控的模型,才能做自己的分身。 合理,未来本地算力会越来越重要。倒不一定是每个人都要训一个最强模型,而是至少要有一部分自己可控的执行环境和记忆/工具层。 Chao: AI4Math是我很关注的领域。上篇很多判断没跟上——东西发展太快了。 我最近也开始用Aristotle这类工具,越用越觉得时间线比想象中短得多。 形式化定理证明 AI 超过人类我觉得几乎是确定的,因为数学证明很大程度上就是在巨大搜索空间里找结构化路径。人类的优势在于提出有品味的问题,定义概念,建立抽象,但一旦目标可以形式化,AI 在搜索、枚举、验证和组合上优势太大。AI4Math 的时间线可能会比很多人直觉中短。 Chao: feedback loop越快,品味越没用。想出了一个好方案,测试一下还是想出1000个差不多的方案去测试找到其中最好?只要过程够高效,品味不再是瓶颈,execution才是。要尽量让feedback loop越来越快。 callback了,feedback loop 当然越快越强,但 pacing 可能本身也是一个系统设计问题。低延迟反馈会极大加速搜索,但也可能让系统更快进入某种临界状态:比如局部目标被过度优化,反馈信号失真,甚至人已经跟不上系统的自我迭代。于是问题就变成,我们到底是在创造一个更高效的工具,还是一个逐渐超出我们理解能力的闭环系统?就让我想到普罗米修斯。 Chao: 可是整个系统还是无法scale上去。多agent本身就是没好好解决的问题。甚至LLM在处理有dependency的并发任务时表现很差: 这类问题需要的是推理和优化,这不是它天然擅长的。但这个问题将来可能有解。 多 agent 的瓶颈我感觉还是 shared memory 和 prompting control flow。现在很多 multi-agent 更像是把多个上下文窗口并排摆着,但没有真正稳定的 shared state,权限边界,依赖管理和回滚机制。AI network 的早期范式可能会参考计算机网络,比如节点/协议/消息队列/隔离环境这些抽象;但后续很可能会比人类网络系统更简化,因为很多面向人的冗余层对 AI 来说未必必要。 Chao: 但很奇怪:增加了并行,最终速度却几乎没变,且token消耗大了很多。 笑死了,太经典了。 Chao: 现在我理解了,需要一种随时能开出来的VM。这才是正确方向,快速create/destroy lightweight VM,才是让multi-agent系统真正可用的基础设施。 是的,我感觉现阶段也必须物理隔离。 Chao: 我们需要的系统,应该是多agent多人的协作系统。 太难了,人的clock根本更不上计算机,而且很多人也不愿意学习。面向人的系统要考虑解释,信任,节奏和组织惯性;面向 AI 的系统更像是在设计协议、状态机和执行环境。这两套设计思路不是一回事,硬塞在一起很容易两边都不舒服。
Chao: 这段时间刚提交了一批论文,大量在用AI写作。模式是让AI写出大部分内容,然后自己调整。 这过程很痛苦。 感觉这一段的会议会受到 “饱和式打击” 有能力的人和组能提交几篇到几十篇每人… AI的写作对我帮助极大。可惜我的英文写作能力比AI差很多,只能让老师帮忙review,求英文好的帮我review… AI作图也好了许多,之前要做出来的图微调,很麻烦,把png转成矢量,再编辑。现在直接多次迭代prompt,成品图可以直接使用。 AI的citation是要人工核查一遍的。 Chao: 写作的feedback loop和coding有个本质区别:文字本身就是产品,你一看就能判断,想改直接改,自己动手的速度远快于给AI说"改一下这里"。AI反而是修改循环里最慢的环节 AI修改对我来讲还算是比较快,因为每次改一个数据点,整个上下文所有关联的点都要改。改某一个地方描述,其他有关联的也要改。 AI写作的时候太明显了。我希望他能写xxx,他就把xxx直接写进去,但是我希望能更加的隐晦的,从数据或者描述中,体现是xxx
Chao: 足够多就接近永生了 想起In Time这个片
当今时代的悖论:project推的越慢,project就推的越快
这个感受我太懂了,我之前也是脑子里先把所有坑都演练一遍然后直接放弃。现在有AI陪跑真的会先做起来,很多事不是不会,是以前启动成本太高了,我最近反而因为这个把几个拖了很久的小项目都推起来了。
AI真的和ADHD完美适配,只不过开的项目多了,忙几个小时就累得不行… 话说不同device的AI memory有什么简单的共享方案吗?另外我有点担心现在各种plan的补贴没法持续下去,claude max 20x随便用几天就差不多1k多等值api花费了,opus据说是25t的模型,即使有类似智能的开源模型,估计个人部署起来也很困难
我感觉是有非常多的想法写了5,6页 但是就是没动力去做 可能我这个ADHD更严重?
但我现在对知识库的一个认知问题是:基于 embedding 模型的 RAG 知识库是有必要的吗?最近尝试了很多与知识库相关的内容,得到的效果都完全不满足我想要的一个特定的任务方向的搜索能力。最后发现,搜索下来的结果甚至还不如 BM25。或者说,成本增长已经远远超出我利用 Agent Search(即让 Agent 自己用一个搜索工具去搜索数据库中的内容)的成本。尤其是我浪费了很多时间去看 GraphRAG,构建 RAG 的成本完全抵不上那增加的微小的搜索能力
以前是idea is cheap,execution才是门槛,所以才有所谓的“就差一个程序员”的梗。现在是execution is cheap,idea is cheaper。
cheap is cheap
异步持续运行的,不停的执行任务的系统。只有在需要的时候问人。最好能全程在云端跑,24小时降低inference成本,全程监控员工的interaction用于训练优化评分,机器人全自动化科学实验…新流水线
受益匪浅。 RAG vs MD OP怎么看 KB比如产品或者团队KB,我们用了MD, 没有用RAG了,当然了比较费token 上量了才会RAG,比如成百上千的商业数据docs等等
tty17: lz有推荐的autonomous agent工具吗?最近感觉也到了一个通过对话来完成任务的瓶颈(哪怕多开sub agent 也难以scale),在思考有没有办法让一个agent连续跑十几甚至几十个小时,中间通过slack之类的在关键点进行人工review,但人工介入次数不能多。 还没用过openclaw,hermes,不知道这类工具是不是足够强大了。 openclaw能干,不过主要不是一个agent连续跑很久,主要靠cron job + shared context 不过不知道你的需求是什么需要跑十几个或者几十个小时。如果是持续优化型的,Auto Research就可以;如果是长时间待机等别的job跑的,那么cron job过几分钟trigger一次也可以;持续写代码的话甚至Claude Code也可以,App上也能直接给你发消息
我是看AI生成的玩意不顺眼我就忍不住自己下场改,但真要自己下场又没动力,嘱咐 AI 来回几道我就受不了了,我是不是在AI时代也算是废了……
英伟达: 我感觉是有非常多的想法写了5,6页 但是就是没动力去做 可能我这个ADHD更严重? 现在做东西根本不需要动力啊,五六页贴给CC/Codex立马就开始做了
Chao: 另一个教训是隔离。就算是只是做workflow execution,成功快速的隔离并不简单。整个执行过程里,出问题最多的来自于处理隔离问题,Docker都不够。 现在我理解了,需要一种随时能开出来的VM。这才是正确方向,快速create/destroy lightweight VM,才是让multi-agent系统真正可用的基础设施。 Claude Managed Agents 也许满足你的需求
对于单个项目,可以让ai的memory显式保存到某个文件
取决于llm在这个领域被喂了多少知识。 简单的方法可以看benchmark,看看有多少benchmark数据集,深度以及广度。
大部分和我的想法差不多 多人AI系统的价值存疑 我的的感受是接一个人进去效率就会卡住 接多个的话就爆炸了 当然单纯说observability的话不存在单人还是多人 Chao: 每次改动,都在教AI你的taste。我当然希望AI写出来,一看就差不多。 这件事很难:自己写的东西都需要改,不能指望AI一遍成功。但方向是对的,它可以通过你的修改的总结,来越来越了解你的风格。 但最终要完全符合自己的taste,纯context injection是不够的。还是要做点fine-tuning。 这个我有个想法还没有来得及尝试 不过是基于(公司给的)无限token budget的 首先找到一个能判定风格相似度的reward机制,这个理论上和你做RL的grader一样,不管你用LLM自动grade还是自己手动grade 然后用这个grader为核心构建一个feedback loop来迭代prompt 本质就是fine tune,不tune weights,tune prompt 写完就觉得这个是不是有人已经做了 总结 这是一个非常前沿且高效的研究方向。你所描述的这种不动模型权重(Freeze weights)、只优化 Prompt 的方法,在学术界通常被称为 Black-box Prompt Optimization 或 Derivative-free Prompt Optimization 。 由于大模型(LLM)的输出是离散的(Token),且很多最强模型(如 GPT-4)仅通过 API 提供,无法获取梯度,因此利用强化学习(RL)或进化算法构建反馈环路来搜索最优 Prompt 成为了热门课题。 以下是该领域几个最具代表性的研究方向和方法论: #p-8098115-h-1-rlprompt-prompt-11. RLPrompt: 离散 Prompt 的强化学习优化 这是该领域最经典的论文之一。其核心思想是将 Prompt 的构建看作一个 强化学习任务 。 机制 :使用一个轻量级的策略网络(Policy Network,如 DistilGPT-2)作为 “Prompt Generator”。 反馈环路 : Generator 生成一段 Prompt。 将 Prompt 输入到冻结的预训练大模型中。 根据大模型的输出计算 Reward (如分类准确率、情绪得分等)。 使用强化学习算法(如 PPO )更新 Generator,使其学会生成能获得更高 Reward 的 Prompt。 优点 :不需要访问大模型的梯度,且生成的 Prompt 是人类可读的。 #p-8098115-h-2-tempera-rl-prompt-22. TEMPERA: 基于 RL 的多组件 Prompt 编辑 相比于从头生成 Prompt,TEMPERA 侧重于对已有 Prompt 进行 动态调整 。 机制 :将 Prompt 分解为指令(Instruction)、示例(Few-shot exemplars)和策略(Strategy)。 反馈环路 :RL Agent 在每一步决定如何修改这些组件(例如:交换示例顺序、删除某个词)。这种方法在医疗、自然语言推理等复杂任务中表现极佳,因为它将巨大的搜索空间压缩成了离散的编辑动作。 #p-8098115-h-3-opro-optimization-by-prompting-33. OPRO (Optimization by PROmpting) 这是 Google DeepMind 提出的一种非常“套娃”但极其有效的机制: 用大模型来优化 Prompt。 机制 : 确定 Meta-prompt :给一个“教练模型”一份之前的 Prompt 及其对应的分数(Reward)。 生成新候选 :教练模型根据之前的表现,生成一个新的、可能更好的 Prompt。 评估反馈 :在目标任务上测试新 Prompt,得到 Reward 后再喂回给教练模型。 特点 :完全不需要训练任何权重,利用模型自身的推理能力进行“自我进化”。 #p-8098115-h-4-evoprompt-44. 基于进化算法的优化 (如 EvoPrompt) 虽然不是纯粹的 RL,但逻辑高度相似。 机制 :借鉴生物进化。将 Prompt 视为“种群”,通过**交叉(Crossover) 和 变异(Mutation)**产生新 Prompt。 反馈环路 :根据 Reward(输出质量分数)淘汰表现差的 Prompt,保留表现好的。这在本质上也是一种在离散空间内寻找全局最优解的搜索机制。 #p-8098115-h-5技术挑战与核心差异 为了方便你调研,我将这些“非权重微调”的 Prompt 优化方法进行了对比: 方法 核心驱动 是否需要训练小模型 适用场景 RLPrompt PPO / RL 是 (训练 Policy Net) 任务目标明确(如分类、情感分析) OPRO LLM Iteration 否 通用任务,利用模型自身的语义理解 TEMPERA RL (QLearning) 是 结构化 Prompt 的精细调整 Black-Box Tuning 协方差矩阵自适应 (CMA-ES) 否 连续向量空间的 Prompt 寻找 #p-8098115-h-6总结与建议 如果你想构建这个系统, OPRO 是起步最快的方法,因为它只需要你写好一个“教练 Prompt”来不断迭代;如果你追求极致的性能且有一定算力去训练一个小模型, RLPrompt 的逻辑更严密。 目前这类研究证明了: Prompt 的空间是极其不连续的 。有时候仅仅改动一个虚词,Reward 就会大幅波动,这正是引入强化学习进行非线性搜索的价值所在。 还是太多人在卷AI的研究了,能想到的东西都早有聪明人想到了
huskywww: AI真的和ADHD完美适配,只不过开的项目多了,忙几个小时就累得不行… 昨天还在想这个问题 很可能不是完美适配而是ADHD的诅咒 因为ADHD的注意力会没有刹车地不停地被大量不同的AI workflow卷进去,一有注意力空闲就想再开个新的workflow 但是这对人脑的负荷是超高的,损耗非常大 跟工人物理上被机器推着走一直到崩溃差不多 我现在在考虑怎么限制自己context switch数量 跟GPT聊建议是不要高于30分钟切换一次 问题是很显然不管我workflow设置得多好一个prompt让agent跑多久,我不可能花30分钟写一个prompt 一个prompt下去30分钟剩下的都是注意力空闲了
收束观测者: 还是太多人在卷AI的研究了,能想到的东西都早有聪明人想到了 是也不是吧,想到这个idea的人可能很多,但是真的去做并且完善变成产品/paper的人可能很少 收束观测者: 问题是很显然不管我workflow设置得多好一个prompt让跑多长,我不可能花30分钟写一个prompt 一个prompt下去30分钟剩下的都是注意力空闲了 是否可以通过更加完善的计划保证AI可以对这个task连续执行很久,每次check的时候也需要和AI进行很长的对话来完善这个对话 - 和这个agent开半个小时的会,它自己去做一个小时,你再去和另一个agent开半小时的会,开完第一个agent做的东西也能验收了
Chao: 增加了并行,最终速度却几乎没变,且token消耗大了很多 再补一句 超教授可能没有产出bugfree代码的需求以及不像我不需要考虑token成本所以优化目标不太一样 我玩了好几个月的并行了,但是我玩并行的目的从来不是速度,而是提高输出质量 我在隔壁帖里也说过,LLM输出本质是sampling,那么多跑几次轮随机采样的输出综合比较质量一定更高,也可以反幻觉 所以很多时候我会刻意隔离context让多个agent重复独立获取context以防有hallucination混在context里级联污染后续workflow 真需要share的时候把高信度context注入一个新的window然后从那里分裂就好了,vscode叫checkpoint,claude code据说叫cache
郁小南: 每次check的时候也需要和AI进行很长的对话来完善这个对话 有时候可以 但是更多时候我一眼就能看出来AI犯了什么病 当然这本质可能还是我的workflow setup不够好没有把已知会犯的病都给治了 其实经典场景是我一眼看出来AI犯了什么病然后分裂一个session出来开始和它讨论它为什么犯病
泥潭真不愧全是software engineer… 我们搞robotics的,sim是一回事,实机又是另一回事。vlm这种对机器人学习的效果还是比llm生成文字图像要差的多。 每次看软件板块,hype到感觉终结者要来了。再看看自己的智障机器人,学习个叠被子爬楼梯都费劲。当AI要和physical world互动的时候,人倒不是最大的bottleneck了,整个真实物理世界都是bottleneck。
是这样的,我可能一周来这么3 天,剩下的时间就都没精力了
不懂robotics但是为啥东大的机器人那么流弊
It’s evolving fast, but not fast enough to reach the real intellect. 国内在让机器人做运动控制这块做得很好,但现在全世界的机器人离“能自主学习,正确理解指令并做出一系列正确动作”都还差很远很远。我们搞robotics还是路漫漫其修远。
那你应该非常不看好特斯拉股票?
我基本不做个股。特斯拉是做电车和autonomous driving的,这两块做的挺好。
我自己写了一个。原理是有个cron job。发现哪个agent停下了,或者有pr什么的需要关注的event,就直接通知一个coordinator agent处理。coordinator自己写了一些规则,可以根据具体情况自己做决定通知其它的agent (opencode session)怎么做,或者通知人来处理。现在基本除了复杂的任务brainstorm阶段需要互动,写完后还是需要人简单看一看,其它的包括code review/merge conflict等都是全自动的。随便写个什么terraform provider 或者crud service基本都是下班提交好任务第二天早上review直接merge。 不过用公司token写的,没法开源。 我是感觉这工资领不了几年了。大失业时代就要来了。
他们的未来准备要重点生产optimus机器人了。想听听你对机器人前景的判断,会决定对这个股票的未来的判断
最近越发的庆幸自己能赶在AI浪潮到来前优雅的老去,不必再接受这种变化,任由被时代抛弃
这个我没法判断,他们都还没发售他们家的Optimus,外面没人能测试参数性能。没有benchmarking数据支撑现在纯就是一个饼,可能是个金饼也可能是个馊的。 而且我之前说的,机器人要跟物理世界互动,智能模型和运控都要做的很好,才能像23年的chatgpt一样变成viable product for everyone。 我还是个人偏保守乐观。你像国内的宇树,你春晚上看牛不牛逼?牛逼。你8万买个基础款回家,干什么用?但你说5年尺度内会不会出现一些现象级的产品?很大概率会的。
hhh 现在gemini的personalization team就在做这个
大牛们用什么来管理多个agents和协调它们?小白现在只是ui和cli,感觉太限制了
我目前还是vscode 在试着上langraph
讲的很好。 Chao: agent task + context management framework 这块我基本用github issue配合action和一个独立的markdown记忆系统来调度。 context这边我正在尝试重写agent loop来实现多agent的快速context management Chao: 一个持续异步运行的系统,有自己的task inbox,懂得优先级和依赖,不绑定特定的agent,你偶尔看dashboard或给点方向,而不是每次坐在对话框前面推进。 希望能实现这个效果。