泥潭日报 uscardforum · 内容汇总

DeepSeek 是不是便宜的太夸张了?

内容摘要

DeepSeek V4 Flash 极低成本获用户验证,AI Coding 性价比超越人力与竞品订阅。

1. 关键信息

  • 成本对比#150 @DanielCarroll 指出 AI Coding 服务成本远低于雇佣程序员(后者约 $200/天);#151 @msft 实测 OpenCode + DeepSeek V4 Flash 日均成本仅几分钱,Claude Code + V4 Pro 为五毛钱。
  • 竞品订阅性价比#151 反馈 Codex App $20/月套餐额度消耗极快且智能程度无明显优势,相比之下 API 按量付费模式对轻度用户更友好。

2. 最新动态

  • 使用体验反馈#151 @msft 分享近期居家开发经历,OpenCode + DeepSeek V4 Flash 组合运行稳定且成本极低;Claude Code + V4 Pro 虽稍贵但仍在可接受范围内。
  • 任务复杂度视角#152 @DanielCarroll 补充观点,认为 AI 表现取决于任务复杂程度,简单任务下高分可能仅因试卷难度低,暗示需结合具体场景评估性价比。

3. 经验与数据点

  • 实际成本数据:DeepSeek V4 Flash 日均使用成本低至“几分钱”(#151);Claude Code + V4 Pro 日均约“五毛钱”(#151)。
  • 工具组合建议:OpenCode 搭配 DeepSeek V4 Flash 被证实为高性价比方案(#151)。

4. 争议或不同意见

  • AI vs 人力成本#150 @DanielCarroll 强调即便 AI 服务看似昂贵,相较于 $200/天的程序员薪资仍具显著价格优势。
  • 性能评估标准#152 @DanielCarroll 提出“考100分仅因试卷满分100”的比喻,质疑单纯以高分评价模型能力的合理性,暗示需关注复杂任务下的真实表现。
原始内容
--- 第 1 楼来自 IRS_pro 的回复 (2026-05-09 13:43:20 PDT) ---

/uploads/short-url/uBD6scATKhfBSZxcq2LLOoTEbBl.png?dl=1 怎么能够在技术没有代差的情况下,价格差出一个数量级? 是GPT 价格虚高还是 DeepSeek 根本不想赚钱,还是其它什么原因?

--- 第 2 楼来自 Wechat 的回复 (2026-05-09 13:45:43 PDT) ---

模型小啊,made in China, 像BYD百公里五块钱电费 5.5快10T parameters了, 而且还是跑在made in USA硬件,像是4mpg Ford Pickup

--- 第 3 楼来自 DMV 的回复 (2026-05-09 13:45:46 PDT) ---

这都差了不止一个数量级了吧

--- 第 4 楼来自 IRS_pro 的回复 (2026-05-09 13:46:30 PDT) ---

Wechat: 模型小啊 为什么性能上没有代差,只差了一点点

--- 第 5 楼来自 Wechat 的回复 (2026-05-09 13:46:59 PDT) ---

边际效益,美国小模型也不差的

--- 第 6 楼来自 maruha 的回复 (2026-05-09 13:48:03 PDT) ---

加州电费和中国电费也刚好差一个数量级

--- 第 7 楼来自 IRS_pro 的回复 (2026-05-09 13:50:22 PDT) ---

电费这种东西地域性很强,但是 AI 模型是全世界竞争的。 在 DeepSeek 这么便宜的情况下,ChatGPT/Gemini 这么贵实在不像是自由市场的结果

--- 第 8 楼来自 打豆豆 的回复 (2026-05-09 14:01:14 PDT) ---

IRS_pro: 自由市场 要为信仰付费

--- 第 9 楼来自 IRS_pro 的回复 (2026-05-09 14:03:37 PDT) ---

打豆豆: 为信仰 谁便宜我就信仰谁

--- 第 10 楼来自 Aaronpang 的回复 (2026-05-09 14:04:02 PDT) ---

很早就说了得想办法给token加关税,新时代的倾销出现了。现在国内大厂下台做中转站了,在美国也该做中国中转站了,很快就要被封杀了

--- 第 11 楼来自 DMV 的回复 (2026-05-09 14:04:51 PDT) ---

感觉应该搞个特区了 美国的模型+gpu,中国的电 输出token收割全世界

--- 第 12 楼来自 打豆豆 的回复 (2026-05-09 14:08:07 PDT) ---

“Nah, you get what you pay for. ”

--- 第 13 楼来自 foiegras 的回复 (2026-05-09 14:09:41 PDT) ---

v4做了很多kv cache compression的工作而且据说inference可以放在国产芯片上?不用nvda的东西降低了很多的成本吧

--- 第 14 楼来自 AppleMusic 的回复 (2026-05-09 14:09:41 PDT) ---

也是边际效益递减,为了多15%的性能要付10倍的溢价 话又说回来,在开发场景下,这多15%的性能能给开发者省的时间大概还是比那点token钱贵的

--- 第 15 楼来自 qwaszx 的回复 (2026-05-09 14:11:58 PDT) ---

电力人工都便宜吧,还有母公司主业不是AI

--- 第 16 楼来自 qwaszx 的回复 (2026-05-09 14:13:33 PDT) ---

IRS_pro: 自由市场 因为不会有任何上规模的公司用中国产品,不然属于自找麻烦,即使理论上这玩意是开源的

--- 第 17 楼来自 qwaszx 的回复 (2026-05-09 14:14:44 PDT) ---

但我怎么觉得cc4.7还不如4.6好用 4.6最近感觉也有点降智

--- 第 18 楼来自 YanamiAnna 的回复 (2026-05-09 14:15:18 PDT) ---

太依赖就稀土2.0 当然我们小打小闹 那边便宜用那边

--- 第 19 楼来自 starlight 的回复 (2026-05-09 14:40:39 PDT) ---

红字不是说了2.5折吗 假设原价就是12元/1M,跟ChatGPT标准版36元对标不很正常吗(输出甚至差不多价格) 不管是模型大小,还是泥潭最喜欢讨论的美元人民币购买力上,不合理吗

--- 第 20 楼来自 冰皮豆 的回复 (2026-05-09 15:10:58 PDT) ---

说实话,我个人感觉 Claude 真的贵得离谱,尤其是Opus,一个正常的程序员,我们不说Agent 一直跑,也不说多Agent 情况,单纯一个程序员在 Vibe coding 或者 debug,一天消耗100-200刀是一个非常正常的价格,这简直 crazy,在 AI coding之前,有任何一个服务需要这么贵吗

--- 第 21 楼来自 IrishCoffee 的回复 (2026-05-09 15:14:45 PDT) ---

冰皮豆: 在 AI coding之前,有任何一个服务需要这么贵吗 有的。程序员。还解决不了问题,得好几天。

--- 第 22 楼来自 msft 的回复 (2026-05-09 15:15:53 PDT) ---

也不一定吧,很多程序员可能Claude code一周也用不了100刀的token,不是所有人都那么拼。

--- 第 23 楼来自 xxxyyy 的回复 (2026-05-09 15:22:24 PDT) ---

DS V4 Pro和5.5 Pro完全不是一个级别啊,一个是普通thinking model,一个是research grade model(号称)。中间估计差出来了一个Gemini了。你不能说因为人家都叫pro就互相比。 DS V4 Pro对标的是ChatGPT 5.5不带pro的版本。 V4 flash对标的是ChatGPT 5.5 instant。 ChatGPT 5.5是这个价格。 Input: $5.00 / 1M tokens Cached input: $0.50 / 1M tokens Output: $30.00 / 1M tokens 说起来DS 虽然便宜,但是没有coding plan。你对比一下GPT 200刀 pro的token实际价格,会发现GPT 5.5比DS V4 pro的API还便宜。 所以说现在OpenAI出200刀 pro订阅其实是在做慈善。你用满的话,他们售价得比DeepSeek还低。 /uploads/short-url/3nSpAuRxuS1ZPquR43Db28JAA8M.png?dl=1 /uploads/short-url/xyjuOdxEz3Rr33iEG5ScK9F2r5d.png?dl=1

--- 第 24 楼来自 Jojo36 的回复 (2026-05-09 15:28:54 PDT) ---

我有个朋友的ai agent初创公司,他的盈利模式是先在国内的模型上跑,跑通了再换美国的,再在美国挣钱。

--- 第 25 楼来自 AppleVisionPro 的回复 (2026-05-09 15:29:27 PDT) ---

这些人是古法编程+vibe coding混合还是工作量不够?最近opus 菜是越来越菜 但是烧token的速度是越来越快 我觉得上个月开始我已经不能信任opus可以扔出需求, 他自己实现了, 要我给他把子任务给拆出来, 或者plan 模式里面我们一起修改好几回. opus已经从一个senior eng 变成了一个博学的实习生了

--- 第 26 楼来自 llbean 的回复 (2026-05-09 15:29:49 PDT) ---

我记得有看到说ds的缓存命中率很高?(信息来源不记得了,可能是胡说八道瞎jb说) AppleVisionPro: 最近opus 菜是越来越菜 但是烧token的速度是越来越快 opus真的是token焚烧炉啊…

--- 第 27 楼来自 baobao 的回复 (2026-05-09 15:38:21 PDT) ---

你们真的有试过用deepseek v4 pro 作为严肃编程模型吗?试过就知道了,真的没那么好用。

--- 第 28 楼来自 AppleVisionPro 的回复 (2026-05-09 15:39:28 PDT) ---

问一下, 国产模型严肃编程哪个性价比最合适?

--- 第 29 楼来自 manfong 的回复 (2026-05-09 15:42:49 PDT) ---

A 社 20 刀订阅不让 openclaw 用之后,配了 deekseek v4 pro 用一段时间,感觉还行,但他不是多模态,不能识图。最近 OAI 20 刀订阅能配 openclaw,换了 gpt 5.5,好得飞起。 把家里猫猫人设套进去,还能调 images 2.0 生图 /uploads/short-url/xTbImLXxBMu7GEDeHyWDHxKA9KJ.jpeg?dl=1

--- 第 30 楼来自 VincentY 的回复 (2026-05-09 15:48:31 PDT) ---

严肃用过了,claude max plan 额度用完的时候就用 opencode + deepseek v4 pro,确实没有 opus 4.7 用起来那么放心但是多几次 pass 也能搞定,反正便宜

--- 第 31 楼来自 bujidao 的回复 (2026-05-09 15:50:14 PDT) ---

AppleVisionPro: 烧token的速度是越来越快 不然A/的增长是哪里来的?现在就是一边割开发的韭菜,一边用增长割投资人的韭菜,上市前还非要900b搞一轮,你猜是不是怕上市以后要发财报就割不到了

--- 第 32 楼来自 Onvon 的回复 (2026-05-09 15:51:56 PDT) ---

deepseek v4 pro可以配比如oh my opencode ulw那种拿两倍token换30%提升的

--- 第 33 楼来自 LogicDX342 的回复 (2026-05-09 15:54:39 PDT) ---

缓存命中率一般能到 90% 以上, 用缓存命中的价格比较的话, deepseek 上个月开始永降 90% 到 ¥0.025,GPT 官网 API 价格是 $0.5,还是差了不少的

--- 第 34 楼来自 AppleVisionPro 的回复 (2026-05-09 15:59:23 PDT) ---

我可以接受claude code烧token, 因为公司里用, 反正我不掏钱 但不能接受他菜, 耽误的是我的时间 我也不能接受codex烧token, 因为我自己在家用codex, 自己掏钱

--- 第 35 楼来自 CZ1206 的回复 (2026-05-09 16:13:02 PDT) ---

AI是商品,价格主要由供需关系决定。ds和gpt至少还能对比一下模型,YouTube会员这种全球都一样的东东,印度土耳其不也照样便宜一个数量级?

--- 第 36 楼来自 打豆豆 的回复 (2026-05-09 16:31:01 PDT) ---

是 这么说现在ai公司们不搞价格歧视算是有良心了…以后同样的gpt plus 美国卖$19.99,土耳其卖土币19.99

--- 第 37 楼来自 刘皇叔 的回复 (2026-05-09 16:47:49 PDT) ---

我本地m5max 的电费都和这个差不多了

--- 第 38 楼来自 llbean 的回复 (2026-05-09 16:54:46 PDT) ---

gpt地区不同价格也不太一样吧?美国$20英国20镑,我英国的同学为了省这么一点让我帮忙付钱

--- 第 39 楼来自 折木奉太郎 的回复 (2026-05-09 17:14:20 PDT) ---

在用glm,如果你能抢到或者愿意买国际版我觉得还行 当然,没到能和Claude平起平坐的程度 deepseek说下半年用上华为的卡会更便宜

--- 第 40 楼来自 冰皮豆 的回复 (2026-05-09 17:59:11 PDT) ---

Right ,我最近一周感觉 Claude 像个傻子,也怪太信任它了,直接把它的答案复制回复给同事,然后被喷了,关键是这只是一个简单的 pdf 提取,我用的还是 opus high

--- 第 41 楼来自 huskywww 的回复 (2026-05-09 18:01:55 PDT) ---

claude max 20x才是便宜的太夸张了,200刀每月的subscription差不多3000刀api credit

--- 第 42 楼来自 Pipita 的回复 (2026-05-09 18:24:01 PDT) ---

/uploads/short-url/tsGiNt0ez7KcF4wdTP6eaVJfdYH.jpeg?dl=1

--- 第 43 楼来自 tlitb 的回复 (2026-05-09 18:27:03 PDT) ---

美国鬼谷的MLE $1m的tc, 东大的呢?

--- 第 44 楼来自 ze3kr 的回复 (2026-05-09 18:42:11 PDT) ---

东大的程序员便宜

--- 第 45 楼来自 冰皮豆 的回复 (2026-05-09 18:42:52 PDT) ---

Claude 为啥要这样定价呢?太扯了

--- 第 46 楼来自 ze3kr 的回复 (2026-05-09 18:45:21 PDT) ---

Pro、Max 这种套餐就是纯亏钱,大公司是不会买这种套餐的。大公司买的都是 Enterprise,每个 Seat $20,包含 0 用量,所有使用都按 Token 计费 以及用到 $3000 需要 7x24 都用满,大多数人三分之一都用不到 我属于一般摸鱼的,用 API 每个月 $200 出头而已。每天 $200 确实有同事能做到,是卷王级别

--- 第 47 楼来自 IrishCoffee 的回复 (2026-05-09 19:11:09 PDT) ---

也没用那么便宜。前苏联地区的性价比比较高。

--- 第 48 楼来自 ze3kr 的回复 (2026-05-09 19:11:48 PDT) ---

另一个东大

--- 第 49 楼来自 菜鷄Albert 的回复 (2026-05-09 19:20:35 PDT) ---

没用ds干过活 但是用他写小说,充了10块钱用API,目前还剩9块

--- 第 50 楼来自 AppleVisionPro 的回复 (2026-05-09 19:22:47 PDT) ---

美刀还是rmb?

--- 第 51 楼来自 gojo 的回复 (2026-05-09 19:25:13 PDT) ---

一是中国研发人员和工程师便宜,二是可能deepseek也不需要赚钱(有别的业务可以补贴)。第一点是大家公认的,第二点是猜的。

--- 第 52 楼来自 ssinz7 的回复 (2026-05-09 19:27:26 PDT) ---

ds打折着呢 有人算过如果不打折和mimo v2.5pro最后的花费差不多 mimo贵一些但是token需要量少一些 ds倾向于长程思考 思考的序列更多(并不一定是一件好事 某种程度上导致了幻觉率相当高 会不会都在硬整) ds好的一点是CSA(4x压缩)+ HCA(128x压缩)做到了极其高的缓存命中率

--- 第 53 楼来自 冰皮豆 的回复 (2026-05-09 19:28:04 PDT) ---

一天10-20个问题,一个月200打不住吧

--- 第 54 楼来自 IRS_pro 的回复 (2026-05-09 19:37:39 PDT) ---

ssinz7: 极其高的缓存命中率 能不能展开说说?

--- 第 55 楼来自 ssinz7 的回复 (2026-05-09 20:08:13 PDT) ---

输入是3/M 命中缓存只要0.25/M 会很便宜

--- 第 56 楼来自 misc 的回复 (2026-05-09 20:14:29 PDT) ---

https://appstoreprice.org/zh/apps/6448311069 https://appstoreprice.org/zh/apps/6448311069 实时对比全球各大区 App Store 的应用价格,帮您找到购买数字产品的最佳时机。支持实时汇率换算和 AI 智能分析。 让他去买土耳其的. 能再打半价

--- 第 57 楼来自 菜鷄Albert 的回复 (2026-05-09 20:27:51 PDT) ---

人民币,官方API只能微信支付宝,第三方我没试过 看了下,我是用的国内手机号的账户,只能用微信支付宝充值人民币 用Google邮箱注册账户可以用PayPal或者输卡号充值美元 价格我没对比过

--- 第 58 楼来自 ssinz7 的回复 (2026-05-09 20:29:04 PDT) ---

可以美元充值吧 但是美元充要交中国的增值税 算上汇率不如人民币

--- 第 59 楼来自 AppleVisionPro 的回复 (2026-05-09 20:50:11 PDT) ---

rmb 是真的便宜

--- 第 60 楼来自 jwl 的回复 (2026-05-09 21:03:36 PDT) ---

那新款电脑什么的也不能用了,只能用made in印度越南的老款

--- 第 61 楼来自 黑卡会员 的回复 (2026-05-09 21:47:15 PDT) ---

IRS_pro: 技术没有代差的情况下 你确定?

--- 第 62 楼来自 KingGrimlock 的回复 (2026-05-09 22:00:23 PDT) ---

你不多付出,资本家就变慈善家了

--- 第 63 楼来自 Jojo36 的回复 (2026-05-10 05:27:34 PDT) ---

千问 zszs

--- 第 64 楼来自 majiamajiamajia 的回复 (2026-05-10 05:59:37 PDT) ---

小声点,美国银行的三倍现金卡可以开不止一张的

--- 第 65 楼来自 illusionwing 的回复 (2026-05-10 06:13:11 PDT) ---

https://finance.yahoo.com/news/airbnb-picks-alibabas-qwen-over-093000045.html https://finance.yahoo.com/news/airbnb-picks-alibabas-qwen-over-093000045.html Alibaba Group Holding's Qwen AI models are winning over major Western firms like Airbnb, underscoring the growing global appeal of China's open-source approach to artificial intelligence. Brian Chesky, co-founder and CEO of the San Francisco-based... 本地部署不就行了

--- 第 66 楼来自 qwaszx 的回复 (2026-05-10 07:18:51 PDT) ---

大部分应该不会用吧,很多公司中国和俄罗斯并列危险地区,连access都是kill的,wf China也是不允许的,其实就是一种政治作秀,这种情况下很多不会去碰中国AI,给自己找麻烦。 这airbnb还挺猛的,不怕哪天被懂王找茬

--- 第 67 楼来自 maruha 的回复 (2026-05-10 07:45:35 PDT) ---

大概是找了个套皮小公司外包出去了吧

--- 第 68 楼来自 ssinz7 的回复 (2026-05-10 08:56:28 PDT) ---

opensourse也不行吗 前两天面试Uber 看他们的engineering blog 上面有一个生成式搜索也是用的qwen做的基座

--- 第 69 楼来自 Yen-Hsiang 的回复 (2026-05-10 09:01:43 PDT) ---

技術沒有代差???差0.5代也是差啊

--- 第 70 楼来自 lexusls570 的回复 (2026-05-10 11:24:23 PDT) ---

和车市一样,以后就是美国公司用美国AI,全球其它地方用中国AI

--- 第 71 楼来自 Onvon 的回复 (2026-05-10 13:46:23 PDT) ---

不懂大模型 但我自己试用的感觉是 deepseek v4的output极度简洁 token消耗极少 有一种惜字如金的感觉 同样是medium thinking 比如说我自己测试的同一个Prompt “查看我下周的日历” GPT 5.5和claude会有很多多余的思考 比如 “I will do this first…now I will do…lastly I will….” 然后才开始 tool call pull数据. 一个简单的task能耗很多token deepseek一上来直接就think了非常简短一句话 然后立马就开始tool call 第三句话就开始report结果了

--- 第 72 楼来自 Ava.太太太后 的回复 (2026-05-10 14:05:26 PDT) ---

哈哈太同意了,Claude Opus真的贵得肉疼 不过DeepSeek这个价格是不是也说明它本来就是为国内市场设计的,咱们这边小用用省钱挺好的,但要真替换Claude……还是有点悬呢

--- 第 73 楼来自 POI 的回复 (2026-05-10 14:17:25 PDT) ---

你可能不知道qwen系列用的有多广泛……

--- 第 74 楼来自 AppleVisionPro 的回复 (2026-05-10 14:20:24 PDT) ---

这个和在美职场的中国人和美国人形象高度吻合

--- 第 75 楼来自 IvanWng97 的回复 (2026-05-10 14:23:24 PDT) ---

反正我的tradingagents接的是deepseek,当一个助手帮忙分析一下股票,很好用。 开发的时候疯狂调试也才花了10CNY。 /uploads/short-url/uIxGBfhSCSdlAPK1nK3w1FrFs6J.jpeg?dl=1

--- 第 76 楼来自 xuexuekan 的回复 (2026-05-10 14:24:26 PDT) ---

这个爆火的 repo 也有类似观察 https://github.com/antirez/ds4 In thinking mode, if you avoid max thinking, it produces a thinking section that is a lot shorter than other models, even 1/5 of other models in many cases, and crucially, the thinking section length is proportional to the problem complexity. This makes DeepSeek v4 Flash usable with thinking enabled when other models are practically impossible to use in the same conditions.

--- 第 77 楼来自 AppleVisionPro 的回复 (2026-05-11 14:45:23 PDT) ---

今天人类学又改了什么, 一个周末回来Claude code 又变蠢了, 像是听不懂人话了

--- 第 78 楼来自 Yangff 的回复 (2026-05-11 15:04:21 PDT) ---

是这样,今天oups差点把一个struct塞进union里,还好review的时候看到了

--- 第 79 楼来自 a001082485 的回复 (2026-05-11 15:06:09 PDT) ---

直接告訴我買哪張股票…deepseek這麼便宜 以後中國要蓋一個山頭的伺服器都沒問題 三個月內~

--- 第 80 楼来自 AppleVisionPro 的回复 (2026-05-11 15:07:15 PDT) ---

我这儿是什么都往一个当前文件里面塞, 几个项目都是这样

--- 第 81 楼来自 Yangff 的回复 (2026-05-11 15:08:22 PDT) ---

这个是llm老毛病了

--- 第 82 楼来自 alicia0829 的回复 (2026-05-11 15:14:55 PDT) ---

IRS_pro: 技术没有代差 deepseek自己都不敢这么说

--- 第 83 楼来自 收束观测者 的回复 (2026-05-11 19:17:46 PDT) ---

+1 somehow opus明显变蠢了 之前好不容易调教好了的毛病一下子全回来了

--- 第 84 楼来自 Yangff 的回复 (2026-05-11 19:22:35 PDT) ---

可能美国人的gpu跟不上了,感觉gpt和claude都变蠢了

--- 第 85 楼来自 收束观测者 的回复 (2026-05-11 19:23:04 PDT) ---

还真是

--- 第 86 楼来自 maruha 的回复 (2026-05-11 19:23:55 PDT) ---

难道不是进节能模式了

--- 第 87 楼来自 Yangff 的回复 (2026-05-11 19:26:36 PDT) ---

节能不至于,大不了多从老百姓手里抢点电 今年夏天少开点空调又不会死

--- 第 88 楼来自 BigCongming 的回复 (2026-05-11 19:30:33 PDT) ---

xxxyyy: 一个是research grade model(号称) 今天我让本地qwen3.6 27B给一个7s左右的bench加parallelization,它自己干到了3.3s 然后在5.5 high的多轮优化指导下又冲向了5s

--- 第 89 楼来自 Yangff 的回复 (2026-05-11 19:32:44 PDT) ---

说实话我觉得这些模型的能力没有本质区别了,主要就是instruction follow这些的差异更显著 我的一个HTML页面滚动问题从去年的gpt3,4系列到现在的4.7没有一个能写对的 还是需要留几个private的案例来检测这些模型的实际能力

--- 第 90 楼来自 BigCongming 的回复 (2026-05-11 19:36:19 PDT) ---

exactly,尤其是在coding tasks上 Yangff: instruction follow 所以我现在爱上了qwen3.6-27b(主要是没抢到量大管饱的coding plan

--- 第 91 楼来自 tomandjerry 的回复 (2026-05-11 19:38:05 PDT) ---

Qwen3.6-35B-A3B 是不是比27b好很多,只大了一点点。

--- 第 92 楼来自 收束观测者 的回复 (2026-05-11 19:38:54 PDT) ---

Yangff: 主要就是instruction follow这些的差异更显著 这个和 Yangff: 模型的能力没有本质区别 是冲突的 long horizon的instruct following背后是mid-conversation decay和attention defects 世界性难题,而且涉及模型架构 类似得tool call是post training里最难的部分 因为需要非常好的generalization

--- 第 93 楼来自 Yangff 的回复 (2026-05-11 19:40:49 PDT) ---

主要是不需要long horizon,我现在都是尽量把模型上下文占用控制在2-300k(其实我想更小,但是copilot这些默认注入一堆context) 我真正的task无非就是在正确的位置插入几行代码这样的,就这些4.7也老是给我抽风,4.6还更稳定些 但本质上的点是,4.7能做的gpt4也能做,gpt4做不到的4.7也还是做不到

--- 第 94 楼来自 收束观测者 的回复 (2026-05-11 19:42:04 PDT) ---

research里其实超过100K就算long horizon了

--- 第 95 楼来自 Yangff 的回复 (2026-05-11 19:42:33 PDT) ---

现在这些harness的问题是system prompt注入完就100k了但换句话说大家的baseline也是一样的

--- 第 96 楼来自 camh 的回复 (2026-05-11 19:44:30 PDT) ---

DMV: 美国的模型+gpu,中国的电 美国对模型出口管制

--- 第 97 楼来自 Yangff 的回复 (2026-05-11 19:45:17 PDT) ---

但其实gpt这么说其实挺合理,毕竟gpt据说也是moe,但是为啥宣称自己是dense的Claude也并没有明显的能力提升呢。。

--- 第 98 楼来自 收束观测者 的回复 (2026-05-11 19:47:35 PDT) ---

跟dense还是moe关系不大,那些是MLP layer 应该是跟attention架构关系比较大 LLM里attention这个词用得非常准的,真的就是字面的attention机制

--- 第 99 楼来自 Yangff 的回复 (2026-05-11 19:48:29 PDT) ---

我的意思是抛开注意力的问题,单纯模型能力层面没有随着规模提升这件事,比如task就一句话这种

--- 第 100 楼来自 收束观测者 的回复 (2026-05-11 19:50:57 PDT) ---

你要是contrxt window开头就一句话简单task不会出问题的 要是在context window中间 或者你一个词调用一个很大的skill让模型执行 那attention defects那再正常不过了

--- 第 101 楼来自 Yangff 的回复 (2026-05-11 19:51:48 PDT) ---

不是,我的task很简单,就200行左右的css+HTML问为什么xx行为不符合预期(我不想把题目写出来不然以后新的模型出来我就没法验证了),目前没有一个模型能做对 这个和attention没啥关系应该,就是世界知识+reasoning,不管是标准还是chromium的源代码模型肯定都喂过了

--- 第 102 楼来自 收束观测者 的回复 (2026-05-11 19:52:59 PDT) ---

你css和html难道是self-contained没有任何外部依赖?

--- 第 103 楼来自 Yangff 的回复 (2026-05-11 19:53:30 PDT) ---

对,没有,没有第三方库之类的,甚至是单个文件

--- 第 104 楼来自 收束观测者 的回复 (2026-05-11 19:54:23 PDT) ---

那你允许它们调试么 允许调试也许能做出来

--- 第 105 楼来自 Yangff 的回复 (2026-05-11 19:54:57 PDT) ---

当年gpt4的时候还没有调试这回事,现在5.5啊Claude啥的能用自带的浏览器tool库库inspect了还是做不出来 我也帮他们截图了也不行 应该说他们的尝试 not even wrong

--- 第 106 楼来自 收束观测者 的回复 (2026-05-11 19:57:40 PDT) ---

接playwright试试

--- 第 107 楼来自 Yangff 的回复 (2026-05-11 19:58:10 PDT) ---

都接了啊,其实接浏览器的话方向就错了

--- 第 108 楼来自 收束观测者 的回复 (2026-05-11 19:59:07 PDT) ---

有点好奇了 要不你私我一份我试试

--- 第 109 楼来自 Yangff 的回复 (2026-05-11 19:59:27 PDT) ---

稍等我回去搞一下

--- 第 110 楼来自 Wonderland 的回复 (2026-05-11 21:36:24 PDT) ---

同好奇,感觉是没log对元素

--- 第 112 楼来自 bravefilm 的回复 (2026-05-12 04:05:52 PDT) ---

/uploads/short-url/pUXg8xTZ0x7NYszLFWR6130QTGw.jpeg?dl=1

--- 第 113 楼来自 px39n 的回复 (2026-05-12 07:07:34 PDT) ---

这价格差得确实离谱, 但deepseek的代码质量还是有待商榷。。。

--- 第 114 楼来自 BigCongming 的回复 (2026-05-24 09:09:11 PDT) ---

opencode zen上现在可以免费用deepseek-v4-flash,但是context window只有200K

--- 第 115 楼来自 Onvon 的回复 (2026-05-24 10:54:51 PDT) ---

deepseek长上下文推理本来就表现不好 200k干点小活也够了

--- 第 116 楼来自 css 的回复 (2026-05-24 11:31:24 PDT) ---

qwaszx: 因为不会有任何上规模的公司用中国产品,不然属于自找麻烦 真张口就来。

--- 第 117 楼来自 ccap1 的回复 (2026-05-24 13:15:40 PDT) ---

其实应该是因为 kv cache 还有 attention 的各种高效实现吧,其次就是 infra 也搭得不错,现在也能慢慢用上华为的卡,最后再配上内蒙那边便宜的电价

--- 第 118 楼来自 DiscoverOne 的回复 (2026-05-24 13:15:54 PDT) ---

我觉得还是挺贵的。。

--- 第 119 楼来自 ggbond1 的回复 (2026-05-24 13:26:33 PDT) ---

美元充值6%增值税,人民币充值便宜 调用api实在是非常便宜。。

--- 第 120 楼来自 Onvon 的回复 (2026-05-24 14:01:16 PDT) ---

今天试了下claude code新的workflow功能 跟ds v4 pro很搭 ds v4执行超长的步骤是很容易漏东西的 用workflow配合js代码来进行硬约束有奇效

--- 第 121 楼来自 Wechat 的回复 (2026-05-24 14:05:08 PDT) ---

我也想说,我知道的几个startup,就算最后ship本土模型,也会先用便宜模型做dev

--- 第 122 楼来自 bumblebee 的回复 (2026-05-24 14:26:38 PDT) ---

太正常了,大家都要恰饭的嘛 这就是80-90%的能力,10-20%的价格的意义

--- 第 123 楼来自 xyzxyzxyz 的回复 (2026-05-24 14:44:15 PDT) ---

/uploads/short-url/xVC4fQXRx5KXdNa6CCp5cFEHQqM.webp?dl=1

--- 第 124 楼来自 HandlerWalter 的回复 (2026-05-24 14:59:42 PDT) ---

/uploads/short-url/7Uqxo0uvsZFMvvbDIFIPO4P8FRn.jpeg?dl=1

--- 第 125 楼来自 BigCongming 的回复 (2026-05-24 15:01:29 PDT) ---

Onvon: ds v4执行超长的步骤是很容易漏东西的 同有这感觉,我等等也去试试workflow 另我感觉所有参数量够大的模型自我意识都有点强 instruction follow感觉都不如本地Qwen 27B

--- 第 127 楼来自 BigCummer 的回复 (2026-05-24 15:47:26 PDT) ---

便宜是便宜 但是我不觉得美国这边大多数serious的行业会直接用他自己这个在中国host的硬凹成本的API 放一个Azure Foundry上host的各个模型的价格 /uploads/short-url/nICSbj3GdIqc5ZaH1KIbhohNrYK.png?dl=1 只能说也就那样吧 成本是有优势 但也算不上断崖式的优势 倒是safety score断崖式拉垮

--- 第 128 楼来自 peridot 的回复 (2026-05-24 15:50:24 PDT) ---

比deepseek强的没有deepseek便宜,比deepseek弱的可真就要被直接斩杀了

--- 第 129 楼来自 tomandjerry 的回复 (2026-05-24 16:04:15 PDT) ---

但是看llm arena code ranking,dpskv4p 连前15都排不进去,前面还有 glm 5.1,kiki 2.6, qwen 3.6 max,甚至小米 mimo v2.5 pro 甚至就连gemimin3.5 flash这种垃圾,都比deepseek v4p厉害。 我还没用过,这个deepseek写代码到底怎么样,难道榜单都是刷的?

--- 第 130 楼来自 qwaszx 的回复 (2026-05-24 16:16:27 PDT) ---

行吧,楼上的airbnb算是个反例。 当我说上规模,我指的是能进去sp500的体量。如果你的公司不允许你在中国远程工作,大概率你的合规不会批准用中国ai模型,我的观察是身边统计,自然可能是错的,但是用starup反驳我也有点不对吧

--- 第 131 楼来自 折木奉太郎 的回复 (2026-05-24 16:20:25 PDT) ---

用离线模型哪里不合规了。代理中国模型的服务商比比皆是,连微软谷歌英伟达都用deepseek提供服务。 现在国产模型没有在美国大规模铺开的原因只是因为它还不如claude/gpt好用,加之美国公司不差钱可以给这几家美国AI公司超额付费。

--- 第 132 楼来自 qwaszx 的回复 (2026-05-24 16:25:20 PDT) ---

啊?怎么有谷歌的和我说除了特定团队,普通sde不能用ds?还是假情报?

--- 第 133 楼来自 折木奉太郎 的回复 (2026-05-24 16:27:00 PDT) ---

https://cloud.google.com/blog/products/ai-machine-learning/deepseek-r1-is-available-for-everyone-in-vertex-ai-model-garden?hl=en https://cloud.google.com/blog/products/ai-machine-learning/deepseek-r1-is-available-for-everyone-in-vertex-ai-model-garden?hl=en New open models like Deepseek R1 are available in the Vertex AI Model Garden. Learn how you can access new open models both via the UI and the API. 我没有说他们内部能不能用deepseek写代码之类的,这个我不了解。但是google在用deepseek卖服务,那它哪里不合规呢。同理微软和英伟达都提供了模型服务。

--- 第 134 楼来自 Onvon 的回复 (2026-05-24 16:30:07 PDT) ---

因为便宜 模型本身的缺陷可以用harness和prompt 甚至后训练 弥补 glm5.1和kimi 2.6和gemini 3.5 flash的使用价格超过sonnet4.6 性能却比不上opus 或者5.5xh, 导致一个很尴尬的局面. 有钱的看不上 没钱的用不起 deepseek v4很好的填补了市面上没有超低价苦力模型的空白 Edit: kimi和gemini flash应该是比sonnet便宜的, 不过差的不多 不像ds这样差了一个数量级

--- 第 135 楼来自 peridot 的回复 (2026-05-24 17:42:23 PDT) ---

qwaszx: 普通sde不能用ds 普通sde除了Gemini什么都不能用,掰扯了半天闹麻了,原来屁都不知道

--- 第 136 楼来自 css 的回复 (2026-05-24 17:54:50 PDT) ---

qwaszx: 当我说上规模,我指的是能进去sp500的体量 Airbnb, Salesforce, Shopify, 这些都是你说的上规模的。

--- 第 137 楼来自 qwaszx 的回复 (2026-05-24 17:57:21 PDT) ---

行,那应该是我盲人摸象了

--- 第 138 楼来自 BigCongming 的回复 (2026-05-24 18:03:50 PDT) ---

就我个人使用体验而言现在所有榜单包括benchmarks都没什么参考价值 以及就我目前抠抠嗖嗖的使用方式来说,所有model,包括opus4.7和gpt5.5,对于训练数据集里没怎么见过的代码实现能力都不大行。当然现实需求里99.99%都已经在数据集里了,毕竟大家以前也是面向stackoverflow编程的 好的model还没怎么体验过不管钱随便花的快乐 具体咋样还是自己根据自己使用环境都试过一遍才好说

--- 第 139 楼来自 Onvon 的回复 (2026-05-26 14:29:45 PDT) ---

小米Mimo也永久降价了 可以狠狠蹬起来了

--- 第 140 楼来自 mxi 的回复 (2026-05-26 14:32:53 PDT) ---

自由民主的token就是这个价啦

--- 第 141 楼来自 572993482 的回复 (2026-05-26 16:39:35 PDT) ---

https://isaiprofitable.com/ https://isaiprofitable.com/

--- 第 142 楼来自 ssinz7 的回复 (2026-05-26 17:19:57 PDT) ---

这次真雷大善人了 上个月申请了开发者计划送了一个月70亿credit 差不多是3亿多token(按pro算)这两天换到mimo使劲蹬好不容易用了98% 昨天想着闲鱼再买一个月 然后今天一看给重置了 甚至有一个bug已经一个多月了都没修 你点续约他会让你一分钱再续约一个月的基础上再送你一部分差价差出来的credit 现在有500亿credit了 最起码有20亿token可用 mimo2.5benchmark成绩比ds v4好多了 agents方面的更是遥遥领先 最重要的是2.5(非pro)是全模态模型 可以直接读图

--- 第 143 楼来自 打豆豆 的回复 (2026-05-26 17:24:35 PDT) ---

/uploads/short-url/lmB6N5sduB1ISHH54IKfyjMPVW9.png?dl=1 大公司们烧了那么多,相比于anthropic和openAI,除了Gemini其他的怎么没什么实质的成果 大公司里面怎么有一家盈利明显落后一个档次?

--- 第 144 楼来自 Wechat 的回复 (2026-05-26 17:29:34 PDT) ---

打豆豆: 大公司里面怎么有一家盈利明显落后一个档次? correction, 绿条是revenue是收入 不是盈利 因为meta没有云服务,ai收入财报体现在了ads income

--- 第 145 楼来自 msft 的回复 (2026-05-26 17:33:23 PDT) ---

也就看个乐,亏多少全看methodology​

--- 第 146 楼来自 TimCookCook 的回复 (2026-06-08 20:00:27 PDT) ---

感觉代码能力超过4o了,价格是大概API的1/50

--- 第 147 楼来自 nitanyonghu 的回复 (2026-06-08 22:32:37 PDT) ---

感觉确实太便宜了,基本就是个电费,感觉不缺钱可以先抢占市场?

--- 第 148 楼来自 hjfhdjellskx 的回复 (2026-06-08 22:40:43 PDT) ---

在 API 里比较确实便宜,但用起来比GPT subscription 贵

--- 第 149 楼来自 秦时月 的回复 (2026-06-19 08:36:42 PDT) ---

deepseek的缓存命中率才惊人,基本能达到99%

--- 第 150 楼来自 DanielCarroll 的回复 (2026-06-20 10:39:03 PDT) ---

冰皮豆: 在 AI coding之前,有任何一个服务需要这么贵吗 跟一个程序员的雇佣价格比,一天 200 刀还是便宜的

--- 第 151 楼来自 msft 的回复 (2026-06-20 11:18:21 PDT) ---

这几周自己在家用opencode+deepseekv4flash,完全没感觉,一天几分钱。后来换成claudecode+v4pro,也很便宜,一天五毛钱。相比之下codex app 20刀的plan就不怎么够用,随便弄弄就到limit,也没觉得相比之下更智能。

--- 第 152 楼来自 DanielCarroll 的回复 (2026-06-20 12:55:31 PDT) ---

看具体你的 task 复杂程度了。有人考 100 分只是因为试卷只有 100 分