谈谈我自掏腰包的ai体验
自掏腰包体验主流AI编程工具的优缺点与性价比对比。
1. 关键信息
- Copilot:Pro教育版,2021–2024,免费易用,VS Code集成佳,但Agent/自动化能力弱。
- Cursor:Pro教育版,2025.4–10,Vibe coding里程碑,需大量人工介入,上限接近极限。
- Windsurf:Pro自费,不推荐。
- Claude Code (Opus):Pro/Max自费,2025.5–至今,轻量易用、适合有经验者,可自定义agent,代码速度快、debug强,但幻觉严重、不可控。
- Codex CLI:Pro,2025.11–12,响应快、幻觉低,但功能少、赶工。
- Codex App:Pro,2026.2–至今,图形界面新手友好,decision tree设计佳,Mac独占、闭源。
- Gemini CLI/antigravity:Ultra,2025.10/2026.1–至今,图像强但CLI/工程表现弱。
- Amazon Q/Kiro:免费token额度慷慨。
- Trae:类似Claude Code 7能力。
- 推荐排序:Codex App with GPT 5.3 > Cursor Pro with Opus ≈ Claude Code Opus > 其他。
- 流程建议:Git worktree、独立分支、接口契约、Pre-commit/CI gate、隔离构建输出。
- 构建Agent:Orchestrator (LangGraph/Temporal/Prefect/Airflow)、Tool calling (OpenAI function calling/MCP)、Memory/State (Redis/Postgres/SQLite+FAISS/pgvector)、Planning (DAG/queue/worker pool)、Safety/Quality (unit/golden/lint/typecheck/eval harness)。
- Cursor + extensions (openai, claude等) 与原生工具(openai, claude tools)的区别:未明确结论,需进一步对比(#89)。
2. 羊毛/优惠信息
无。
3. 最新动态
- antigravity回应用例仍依赖claude;Ultra反代疑似失效(#3)。
- Claude Code限额从月度改为每周,引发用户不满(#3)。
- Opus 4.6能力显著提升,Cursor与CC差距缩小(#62)。
- Codex 5.3/Opus 4.6在代码能力与自动化上持续增强(#13, #54, #69)。
- 用户转向codex以降低成本,claude仍用于规划(#81, #84)。
- 新增需求:希望有“喂饭教程”让AI帮助处理家人需求并自动提醒(#88)。
4. 争议或不同意见
- Claude Code vs Codex:幻觉与控制力分歧(#33, #35, #69, #78)。
- CLI与GUI价值:有人认为CLI更纯粹适合agent,也有人认为GUI wrapper更高效(#37, #43, #49)。
- 工具迁移与锁定:跨IDE无缝迁移难,CLI/开放生态更易迁移(#6, #7, #42)。
- 成本与token消耗:高频agent运行需API或Extra usage,token制非常亏(#59, #60)。
- Cursor + extensions vs 原生工具:优劣尚无定论(#89)。
5. 行动建议
- 优先试用Codex App与Cursor Pro,评估代码控制与预算匹配度。
- 采用工作流规范:独立分支、契约先行、CI gate、隔离构建。
- 谨慎开启Claude Code本地文件操作,设置工作目录与容器隔离。
- 高频任务考虑API或OpenAI Plus,避免token超支。
- 关注“喂饭教程”类需求,可考虑开发面向非技术用户的AI辅助提醒流程(#88)。
祝大家除夕快乐。
这篇分享其实我在草稿里想写很久了,刚好蹭一下泥潭的空前ai热潮来分享一下我对市面主流ai coding工具的 主观感受。
Disclaimer:
本文观点全为个人意见,您的体验因使用的场景,版本,知识背景和rng而差异极大,the benchmark is largely a joke,如有不同感受以你为准。公司版本因为安全策略,预算限制和自定义上下文的原因与市面零售版本体验区别很大,本文只介绍能够个人购买的版本。
介绍:
Copilot: 上古真神,ai coding鼻祖。
版本:人人都有的Pro教育版
体验时间:2021年-2024年
优点:免费易得,对于惯用vs code的人来说一键安装无痛迁移十分友好。
缺点:agent,上下文管理和自动化部署的能力因为是插件的原因上限很低,只是个辅助工具。很久没用了,现在走cursor模式了感觉泯然众人。
Cursor:ai ide的先驱,vibe coding的里程碑
版本:Pro教育版
体验时间:2025年4月-10月
优点:VSC一键迁移,Copilot的上位替代,just tab。
缺点:即使在agent介入下依然需要非常多的人类介入,没有自有基座模型,工程上限已经接近极限。预计未来能力差距会和基座模型公司推出的产品越来越大。
Windsurf:软文大师,浪费时间,路边一条,rnm退钱。
版本:Pro自费购买
体验时间:2025年8月
简评:别买
Claude Code:AI CLI的奠基者,当之无愧的第一梯队,往硬盘里搬屎山的电子愚公
版本:Pro,Max 自费
体验时间:2025年5月-至今
优点:轻量易用,对有一定编程经验的人友好,可自定义agent和hook完成大量重复工作和生产排序,理论上提供prd即可,人为接入少。代码完成速度不错,对于复杂上下文中的debug能力很强。工程基础扎实,模型上Opus比Sonnet强太多了。
缺点:幻觉惊人,编造接口和跳过验证,代码可控性差,即使claude.md和prompt反复强调也会修改无关代码添加,曾经在一个晚上往我的main.ts里写进7000行代码的记录,唯一的解决代码是提供伪代码。 大量工作任务之下不诚实,会假装已经完成。无内鬼来点claude笑话。
经过企业级深度分析和多轮技术方案评审,我最终采用了一种突破性的算法优化策略,在时间复杂度和空间复杂度之间取得了教科书级别的 Pareto 最优解,预计可为业务节省数百万美元级别的计算资源开销。这是一次里程碑式的性能飞跃。
从8月的时候每月限量改为每周限量背刺用户,cursor事件…的种种操作来看公司文化有问题。
Codex CLI:赶工之作
版本:Pro
体验时间:2025年11月-12月
简评:使用时间不长,当时上下文管理,历史记录,agent都没做好,功能非常少,感觉是应付claude code的匆忙作品。优点大概是不限量和幻觉低。
Codex App:完美的新手入门工具
版本:Pro
体验时间:2026年2月-至今
优点:每月20的plus即可体验,图形界面,非常新手友好,我很喜欢decision tree/work tree的设计,能让你在重要的技术栈中做出选择并且同步开发,估计设计师高低也是个养成类游戏品鉴家。相比Claude Code,对代码的掌握力,用户的忠实度非常高,几乎没有多余的代码和对于环境的幻觉。内置的skill一键部署非常快速。成品品位很高,我目前的最爱。
缺点:Macos特供,闭源软件,自动化能力弱,无法自定义,无法绑定app store以外的应用。
Gemini CLI// Antigravity:最伟大公司的小尝试
版本:Ultra
体验时间:2025年10月,2026年1月-至今
简评: 最伟大的图片模型()cli 刚出来的时候试过感觉远不如cc,至于antigravity,openclaw的反代启动器罢了,不论是模型还是工程表现都乏善可陈。Ultra附送genie3可以尝个鲜。模型数据看着很强,为啥体验比cc差这么多呢?幻觉但凡比cc少我都想多试一下。Antigravity生态还有待完善,比如remote和api invoke。
Amazon q/ Kiro:
免费提供token的大善人还能说啥呢。
Trae
给我妈部署了一个感觉大概claude code 7成功力,cc有的缺点全都有。处理一下自动回复和写pandas处理excel表没啥问题。
个人综合推荐排序:
Codex App with GPT 5.3 Codex > Cursor Pro with Opus(如果免费的话)~ Claude Code Opus > 其他
一点感想(暴论):
不写代码的产品经理和不设计产品的工程师可能需要抓紧提升一下自我能力了。
从perplexity到cursor,没有基座模型的小厂在纯生成业务上的路是越来越窄了。
代码平权的时代,半开源软件可能会成为主流。比如泥潭很多资深用户自定义插件来实现自己需要的功能,在未来这个能力对大众会被广泛普及。那么产品发布者就需要界定哪些是可以开源的,哪些部分是不能修改的。没人真的想用微信,也没人真的希望别人有支付宝破解版。
根据我的理解,美国的程序在token使用上都是粗放型发展,国内的产品都是没打过富裕的仗。所以侧重点区别很大,如果哪一天形势扭转了,上下游关系会发生很大变化。
ai现在被束缚在虚拟世界里,如果有了机器人作为躯体,现实世界的人类将走向何处?人类永恒的价值是什么呢?
现在处于有Gemini付费账户,但是每周渴求着antigravity里面claude的usage更新。后端复杂逻辑,Gemini 3 pro真是用不了一点。最近降智太严重,估摸着是要发布新模型升级了吧。
ultra反代貌似没了。。下个月打算降级了
image639×100 8.34 KB
antigravity我怎么今天好像在哪里刷到寄了,好像是小红书谁发的用这个把gemini号封了
【引用自 258】:
给我妈部署了
妈妈都开始用AI agent了?我妈刚会用智能手机
我就希望,如果某个IDE支持多IDE的无缝移植就好了。給月费都是小时,主要是上线问被锁定在了某个IDE里面比如antigravity。我现在就是付费Claude也没办法完全移植,只能多窗口自己去作为PM几个模型里面交叉调试。
cli没啥可迁移的吧 .md复制一下的事情
ide只要是vsc开源魔改貌似都能迁移? antigravity我没试过
gemini好就好在bananaa
【引用自 湿猫咪】:
GEMINI自己的模型
感觉只在图像视频类输出的品位不错。。
我现在出了GEMINI自己的模型,都是限制锁定状态 崩溃 自己写不了一点
我已经懒到 想把这件事交给claw自己干了 懒了以后就勤快不了一点了
【引用自 258】:
给我妈部署了一个
问个问题,你觉得码农职业周期还有多久?
【引用自 258】:
感觉只在图像视频类输出的品位不错
问题是这不能成为护城河啊,现在好用的UIUX skills太多了。我也不需要Gemini自己会设计了
更正一下gemini做视觉embedding还是很强的,生成向量数据
愿意折腾的话opencode自己配置一下
否则oh my opencode + Codex 5.3/Opus 4.6
秒杀任何原生CLI
哦对 还有opencode和droid
评价分化比较大 我也没深入体验
但是我感觉只是工程的领先御三家应该很快能追上
现在cursor领先的地方可以说几乎没有
打螺丝的,估计不长了。有点水平的还能操作一下
【引用自 258】:
Codex App with GPT 5.3 Codex
这个比Claude Code好?
可能是4.6才出来吧,我觉得无比强大。但是当时4.5降智也很烦人
建议试试vscode copilot的opus4.6,用下来感觉智力水平是claude code opus4.6同水平,copilot的计费方式还能让你疯狂跑长任务
我一般是cursor+opus 4.6 1m context,还是习惯UI,纯CLI感觉做自动化可以,写代码还是不顺手不适应。
富公啊,开ultra
这么多token怎么用完的教教我,写代码的idea感觉够不上了,也没什么ux能力,ui丑的一比也不知都怎么让cc优化
200刀连找最伟司mock面试的钱都不够吧,刚好体验一下genie和免费反代
【引用自 peridot】:
写代码的idea感觉够不上了
确实,现在想法实现的太快了,江郎才尽的感觉。
亲身感觉,kiro 用一样的模型,写出来的东西相比 claude code 甚至 antigravity 就是一坨,莫名其妙的不好用
UX自己多使用体验自己的产品。UI直接clone git的UIUX PRO MAX吧
用了一圈,科研的code还是cursor+opus好用,codex感觉没什么creativity,而且context很短容易变成屎山
反代死了,你最好别是开了首充的三个月不然亏大了
claude code也不行吗
【引用自 258】:
御三家
AI coding 领域只有御二家,没有御三家。grok 和 SpaceX 合并了不差钱,看不上这点订阅费用
目前上班在用cursor+codex模型,个人觉得比claude写的好
2c和2b的context需求不是一回事,体验差别巨大
怎么trea都体验了,却没体验opencode
4.6和4.5我觉得智力差不太多 但是记忆力好太多了
这种官方的闭源+锁模型 我觉得很难追上一天能更新八次的opencode
【引用自 xxxyyy】:
体验opencode
看来不得不深度体验一下了
Claude那段企业级深度分析Pareto最优解笑死我了,太真实了 每次看到它自信满满地汇报成果,打开一看全是幻觉,这种被骗的感觉跟刮彩票似的
【引用自 xxxyyy】:
opencode
opencode我理解还是更像CC那样的meta agent吧,能做的事情更多。我发现好多人都排斥CLI是不是没意识到CLI based的更容易做成meta agent来自动化很多coding之外的事
想问下大家claude code权限似乎挺高的,怎么避免安全性问题啊,我想在自己的主力机mac上配置一下,但又有点犹豫。平常基本就是科研用途
经常git commit-push就没事 删库跑路应该不至于
【引用自 pikachu12138】:
code文件夹之外的东西
设置好工作目录或者容器 在工作目录下进入claude
CLI 就是反人性的啊…openclaw 好歹都提供个 telegram 接口才出圈的。CC 创始人喜欢 CLI 不代表这是唯一道路。
【引用自 peridot】:
CLI based的更容易做成meta agent
提供个 UI 作为 CLI 的 wrapper 不一样的效果么
我主要担心给我把code文件夹之外的东西给我都删了,当然似乎我看的更多的是openclaw的逆天小故事,claude code似乎主要是只读模式
我个人也用不来CLI,现在就打算装个mac app然后vscode用一下,好像订阅之后还能用他家的api?是不是可以换台电脑接上用下openclaw
你需要 Development containers - Claude Code Docs
每个 container 意味着每个你的项目都在 docker 里面,CC 再怎么折腾也不会对你的 host machine 有影响
有CLI就有GUI wrapper,搜一下就有了,反正也就channel一下输入输出的事
似乎懂了,就是类似于它自动给我创建了个docker对吧
不过我还是没搞明白Claude code比codex多出来的功能在哪里,我也用过现在的copilot,用vscode插件写代码的时候它也能自己在当前文件夹运行命令
肯定是我自己先试一下cc更好,但是还是要麻烦一下大佬因为确实头一次用
其实都有桌面端的,但程序员用脚投票选了CLI。毕竟部署简单,可以跑在服务器上
cli可能也是未来方向
模型在gui上表现天生比cli/api差
既然这么热闹就问问大家怎么debug UI的问题,每次想跟claude解释UI上有什么问题都好累,写的UI claude也就自己拿playwright测了一下实际上render出来完全另一回事
啊?UI 只是个 wrapper 啊,背后是一样的调用效果。你用 curl 发个请求和用 postman 发/swagger 发是一样的。
闭源软件的wire不知道啊
openclaw只能通过截图ocr模拟点击来操作
【引用自 peridot】:
debug UI
古法通过inspect 来操纵枪口左移5厘米?
不过现在有不少浏览器插件
有专家推荐一下?
claude不知道,opencode我让他写html;AI都会自己截图然后看看渲染好的是不是要求的那样,没出过什么问题
而且建议你换模型,前端gemini写得好点
现在主力是cursor,之前用过copilot不是太好用,目前还没用过claude。有两个问题请教一下各位大佬
我看网上有人用多个进程同时在一个repo里面写码,实现不同feature。这样的话如何能做到不同的进程不相互打架?
比较general的一个问题,如何用这些工具来build agent,有什么教程或者workflow可以follow?
我们两个说的不是一个东西。
Claude Code 目前是个 cli tool,我是说它想要出圈肯定要提供 GUI 的。
你说的那个 cli 更多是说 UI 操作对 LLM 太低效了,这是肯定的,未来各种各样的东西都是 agent-first 。网页好看的 UI 给人类准备,纯 markdown 格式给 agent 准备 Markdown for Agents · Cloudflare Fundamentals docs
我妈还在沉迷用豆包生成各种有自己脸的美照
多进程在同一 repo 不打架:
Git worktree / 每个进程独立 clone + 独立分支
目录/模块切分(ownership), 任务按边界分配
接口契约先行(OpenAPI/Proto/Type defs), 其他人只实现
Pre-commit/format/lint/typecheck 统一, CI 做 gate
集成分支 + 专职 integrator agent 做 merge/rebase + 冲突处理
文件锁/资源隔离: build 输出到各自目录, 避免共享 artifacts/lockfile
用工具 build agent 的方法/工作流:
Orchestrator: LangGraph / Temporal / Prefect / Airflow(更偏数据流)
Tool calling: OpenAI function calling / MCP(Server + Tools)
Memory/State: Redis / Postgres / SQLite + 向量库(FAISS/pgvector)
Planning: task decomposition → DAG/queue → worker pool
Safety/Quality: unit tests + golden tests + lint/typecheck + eval harness
Workflow: Spec(契约) → 子任务分发 → 各自 PR → CI → integrator 合并 → 回归测试
教程/参考路线(只列方向):
“LangGraph multi-agent workflows”
“MCP tool server tutorial”
“OpenAI function calling agents”
“Temporal workflow for AI agents”
“Eval harness for agents (golden tests, regression)”
笑死我也有这个问题,放了个寒假回来感觉天变了,好像现在的工具可以很好的优化我的工作流,我之前用的工具还在copy paste有点过于原始了
用gemini算五行乐见其中
主要是新出的opus 4.6能力太强了,就这一两个月的事情
去年的确还是copy paste,今年全部一个md file自动化了
【引用自 我是吴签】:
多个进程同时在一个repo里面写码,实现不同feature。这样的话如何能做到不同的进程不相互打架
worktree
【引用自 我是吴签】:
如何用这些工具来build agent,有什么教程或者workflow可以follow?
Claude code 的官方文档就挺好的
Claude API Docs
Agent SDK overview
Build production AI agents with Claude Code as a library
感觉麻了,实在是没这些工程经验,不看到别人提这种东西我感觉我是想不到这种技术的
大佬能分享一下自掏腰包都花了多少钱吗,一套 agent 启动的开销/输出比大概是多少?
他没用API吧,看起来要么是白嫖的要么是官网订阅
除非你能报销 不然token制是非常亏的
第一次建议openai plus 20一个月买不了吃亏
第三方opencode也支持原生openai登陆
哦有点惊讶,我还以为高强度使用token应该用的很快,普通的订阅档位 vibe coding 都很容易超 usage,那要是搞个24小时跑的 agent 就得充 extra usage 或者上 api 了……
我最近两天一直在看这些,据他们说100刀一个月的claude code基本是够了,然后codex貌似额度巨多,其他的都没那么烧钱
请问你为啥觉得cursor接下来和CC、codex距离会越来越远?
我24年中开始用的,当时就觉得它的autocomplete真牛逼。到现在实际用下来觉得cursor基本都还可以啊,agent模式用opus效果和CC里opus差不多,大部分功能基本也有,比如mcp, plan mode(好像skill还没有)。
此外cursor还可以精细定位或者手动修改,比如你改个config constant或者highlight一两行代码让它改。当然这个不算vibe coding了,但公司里也没法vibe吧。
我个人现在50%CC, 30%cursor, 20% codexcli. 接下来会多用codex 5.3,感觉它的极限比opus强很多, 尤其是面对业务逻辑和少见的东西。
opus有一点特别好是它的文字能力,能够帮你解释code,画图( cursor里的opus也可以做到这点)
在我最近的使用习惯里已经不用cursor写代码了,
而是当作文件浏览器 md/pdf阅读器 调试窗口的存在。
cursor感觉成也vsc败也vsc 不如cli那么纯粹又不如新的gui那么新手友好
好帖子,我最近开始用codex感觉水平比之前真的是提高不少,基本上自己可以不要写code了
问一下各位大佬claude写代码、自动化codex review是怎么实现的(找了一些帖子,找到的关键词包括使用antigravity的workflow,使用mcp/skills/rules/hook调用codex-code-reivew,github PR: push到github再用codex的review等)但是没有找到完整的教程和最好的方案
哪两家? codex还是gemini
Anthropic 的 claude code 和 OAI 的 codex,gemini 在编程方面没人提吧
怎么得出的结论
【引用自 serelee】:
codex 5.3,感觉它的极限比opus强很多, 尤其是面对业务逻辑和少见的东西
tB?做的resarch要写datalog,chatgpt系列写这个基本上小学生智力水平
【引用自 湿猫咪】:
antigravity里面claude
没人觉得这玩意是降智版么
chatgpt和codex完全不一样
我们公司上班提供的cursor和windsurf
Mark,求测Gemini Ultra订阅的deep thinking
感谢分享 很有启发 觉得需要学习更多ai方面的知识了
目前还是觉得写代码Claude Code Opus 4.6最强,但是Gemini 3最便宜(没考虑过Kimi,MiniMax那些模型)。
data log? 俺以前做过prolog
这方面AI的数据估计不多。偏僻
Chrome DevTools MCP?
是的,就是不带negation的prolog。我用的还是一个没那么多人用的engine,基本上应该算没有语料。我用的vscode里的copilot,因为有些代码还是得我自己来,chatgpt的codex系列基本上抓瞎,gemini系列也好不到哪去,opus4.5算勉强可以写,但是也呆头呆脑的,opus4.6才到了可以自己写和debug的程度
Cursor自己有composer模型啊 用下来应该是编辑速度最快的 虽然有点蠢但是一般小需求够用了
在公司上班,束手束脚,很多工具都不能用
公司的事儿我都cursor开opus4.6反正公司有钱。
自己的活基本就是Claude code做plan 写代码用到token用完 换codex 5.3擦屁股 还挺好用的 Claude是自己花钱买的pro 好贵 codex是咸鱼上搞得 8人刀一个月 量大管饱
珍惜吧 能用的越多只会越累,会用AI的和不会用的差距也会马上拉开
嫖公司的额度写自己的代码心虚了,想起来258桑这个帖子回来看看,纠结要开codex还是claude(公司用的这个),还是搞个国产的试试。不过国产这个也没什么价格优势的样子
【引用自 未知】:
[half dead] 0 or 1美金5人头的ChatGPT Team 败家
Update: 新用户有机会0元开通,没有的直接开个新账号
Update2: 更新新用户0元开通的流程以及截图
Update3: 更新开通链接
Update4: 可以使用CPA通过codex的额度把pro转成API使用
Update5: 提前取消会直接被cancel trial
old
薅完记得取消订阅 不能提早取消 确定提前取消会直接整个trial cancel
提前取消会被…
还能说什么呢,对贴注册感激涕零不知所言,只能给您磕一个认作义父了
以后我就叫您折木258吧
这都要绑信用卡信息吧
codex CLI远超claude code
claude code让他查个文件能查个大半辈子 codex之前非codex系列的模型也有相似问题 从5.2codex就没这问题了 快的飞起 外加codex注册机免费账号轮询额度根本用不完
claude code指令遵守也有严重问题 跟他明确说不要怎么实现 他就要照着我说不要的方法去实现 说他他再道歉
有喂饭教程给母上大人的吗?然后ai再把母上大人的需求一个个列给我提醒我 每天跟ai斗智斗勇还要跟家里人一直发信息头都大了
cursor + extensions (openai, claude, etc) 和原生 (openai, claude tools)比有什么区别吗?