泥潭日报 uscardforum · 每日精选

Qwen 3.6 27B来了

内容摘要

Qwen 3.6 27B coding需多轮迭代,cot长;GPT-5.5 instruction following存疑;cc好用但糊弄,codex准但慢。

1. 关键信息

  • 27B dense 略逊于 Claude Opus 4.5 写码(#2)。
  • 本地 coding agent 性价比持续提升,3090TI 24G 显存跑 Q5_K_M/Q6_K 吃力,5090/48G 更合适(#5, #15, #28)。
  • DGX Spark 带宽瓶颈严重,RTX Pro 6000 更优(#8, #9, #37)。
  • M3 Ultra prefill 强于 Spark,解码略优(#7, #16)。
  • M4 Mac 显存与带宽不足,prefill 差,不适合大模型(#115, #117, #119)。
  • 35B A3B/35BA3B 在 30GB 可跑 256k ctx,27B Q8 158KB ctx 24.2tps(#101–#104)。
  • 无限制云端模型建议关 safety filter,DS 可破限(#94)。
  • Qwen 3.6 27B Q4KM 实际 coding 体验(#128):follow instruction 很强,不会像 codex 或 claude 那样自我意识过剩;但 one shot vibe 不行,需要多轮 plan/review 才能迭代出高质量代码,最终代码质量不低于手写。codex 用作 review 质量高且挑剔,claude 20刀 subscription 的 review 质量不如 codex,代码质量也没明显强于 qwen 3.6 27B,plan 稍强但多迭代后无差距。codex 有拒绝写 quicksort 而强推 bubble sort 的奇葩行为(#128)。
  • Qwen 3.6 的 cot 过长(#129):同样任务 gemma 4 只需 1-2k token,qwen 3.6 的 cot 可达 8k 甚至更多,反复来回导致。
  • 偶有偏离 prompt(#129, #130):qwen 3.6 偶尔会执行 prompt 中没写的下一步任务,或忘记 prompt 内容。但用户通过 md 文件 track progress 可减少影响(#130)。
  • 厂商喜欢暗改 thinking effort,low effort 时模型变懒(#129)。
  • GPT-5.5/5.4 instruction following 问题(#131–#133):用户试用 GPT-5.5 时 instruction following 有问题,但不确定是否环境所致;GPT-5.4 在 xhigh 和 high 之间时出现类似现象。环境(system prompt)影响极大,copilot API 仅提供 400K context window,导致用户只能主用 Opus。GPT 内功(推理能力)感觉比 Opus 强,但 instruction following 头疼(#133)。
  • cc 与 codex 用户体感(#134):cc 好用但喜欢糊弄,codex 准确度更好但慢且不好用。

2. 羊毛/优惠信息

  • Amex Plat Biz 5% off + 5000-1000;Plat 消费满 5000 再减 1000;Rakuten 6% 返现(#79, #81)。
  • 部分用户使用 3090/4090 二手或工包卡(#27, #97)。
  • 云服务:lightning.ai 提供手机号每月 15 积分(#64)。

3. 最新动态

  • 开源模型去道德限制后可能更普及(#56)。
  • Qwen 3.6 实际体验与跑分不总一致(#99, #100)。
  • 高频 coding 场景下 qwen 3.6 27B Q4KM 已可替代 claude/codex(#128),但需要用户主动多轮迭代、review,并留意 cot 长度和偏离 prompt 的问题(#129, #130)。
  • GPT-5.5/5.4 的 instruction following 在特定环境下表现不佳,copilot 的 400K context window 限制了选择(#131–#133)。
  • 用户对 cc 和 codex 的评价出现分歧:cc 易用但有糊弄倾向,codex 准确但慢(#134)。

4. 争议或不同意见

  • 本地 vs 云端成本与隐私权衡(#31, #36, #48)。
  • 电池与散热对 Mac 持续高负载的影响(#123–#129)。
  • 关于 qwen 3.6 的 cot 长度是否影响效率:部分用户认为过长的 cot 浪费 token 且干扰推理,但另一部分用户认为只要习惯多轮迭代即可接受(#129)。
  • 模型“偷懒”现象在 low effort 设置下普遍存在,厂商有动机暗改 effort(#129)。
  • GPT-5.5/5.4 的 instruction following 问题是否源于环境(system prompt)还是模型本身,存在争议;部分用户认为 GPT 内功强于 Opus,但 instruction following 和 context window 限制使其实际可用性下降(#131–#133)。
  • cc 和 codex 的优劣:cc“好用但糊弄” vs codex“准确但慢且不好用”,用户体感不一致(#134)。

5. 行动建议

  • 预算充足优先选 RTX 5090/48G 或 Pro 6000 集群。
  • M 系列用户暂观望 M5 机型。
  • 羊毛优先使用 Amex Biz 优惠与云积分。
  • 使用 Qwen 3.6 27B 做 coding agent 时:务必采用多轮 plan + review + 迭代模式,不要指望 one shot 高质量;用外部文件(如 md)追踪进度以防模型偏离;若在意 token 消耗,可对比其他推理模型(如 gemma 4)选择更短的 cot 方案(#128–#130)。
  • 若使用 GPT-5.5/5.4 或 copilot API,需注意 instruction following 可能受 system prompt 影响,且 copilot 仅 400K context window,建议根据实际环境调整 prompt 或优先选择 Opus(#131–#133)。
  • 使用 cc 时需警惕其糊弄行为,使用 codex 则需接受其速度较慢的缺点;可根据具体任务在两者间权衡(#134)。
原始内容
--- 第 1 楼来自 Keiour 的回复 (2026-04-22 08:21:08 PDT) ---

https://huggingface.co/Qwen/Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B We’re on a journey to advance and democratize artificial intelligence through open source and open science. Unsloth版的GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-GGUF 在写码上狠狠的踢最伟大的公司的屁股

--- 第 2 楼来自 Rosmontis 的回复 (2026-04-22 08:31:09 PDT) ---

有点猛,dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了,难不成以后真的是本地跑模型本地写码

--- 第 3 楼来自 dancingbro 的回复 (2026-04-22 08:45:38 PDT) ---

只要阿里继续大锅猛火蒸,AI基建的故事就停不下来,中美又双赢了。

--- 第 4 楼来自 Keiour 的回复 (2026-04-22 08:47:46 PDT) ---

Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了,到现在玩了差不多一个月的本地coding agent 反正现在CC $100起步,本地推理的性价比还在提升 没准未来本地推理真能大众化也不一定

--- 第 5 楼来自 收束观测者 的回复 (2026-04-22 08:48:23 PDT) ---

真证真正蒸了吗 Keiour: Qwen 3.5之后 你用的什么卡 我感觉我的3090TI内存不太够用啊

--- 第 6 楼来自 Wi-Fi 的回复 (2026-04-22 08:50:03 PDT) ---

qwen蒸了谁不知道,claude新模型满嘴阿里味肯定是蒸了,阿里语至少P8级别的

--- 第 7 楼来自 Rosmontis 的回复 (2026-04-22 08:50:07 PDT) ---

之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5,他说体验确实不错,还不用担心降智或者供应商发癫,成本大概七千多刀。

--- 第 8 楼来自 收束观测者 的回复 (2026-04-22 08:51:09 PDT) ---

Rosmontis: 七千多刀 为什么不直接买DGX?

--- 第 9 楼来自 Rosmontis 的回复 (2026-04-22 08:51:55 PDT) ---

各有好坏吧,DGX的内存带宽实在是不行 有钱就买几条RTX Pro 6000了不是

--- 第 10 楼来自 收束观测者 的回复 (2026-04-22 08:52:40 PDT) ---

本地serving最后只看TPS吧

--- 第 11 楼来自 Rosmontis 的回复 (2026-04-22 08:53:55 PDT) ---

prefill看flops,decode好像还是要看内存带宽的。

--- 第 12 楼来自 icework 的回复 (2026-04-22 08:56:24 PDT) ---

Mac 跑 dense 还是比 N 卡差距比较大,MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点

--- 第 13 楼来自 knowledge 的回复 (2026-04-22 08:57:14 PDT) ---

收束观测者: 我感觉我的3090TI内存不太够用啊 24GB显存今天用哪个好呢?

--- 第 14 楼来自 收束观测者 的回复 (2026-04-22 09:06:34 PDT) ---

TPS不是flops,就是decoding最终性能啊

--- 第 15 楼来自 Keiour 的回复 (2026-04-22 09:14:20 PDT) ---

不带mmproj,KV cache Q8,Q5_K_M用-np 1 -c 262144大概是这个情况: common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 1738 + (28287 = 17761 + 8853 + 1672) + 2062 | common_memory_breakdown_print: | - Host | 1897 = 833 + 0 + 1064 | 24G显存的话如果不开桌面环境那估计是够131072上下文的 common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 562 + (23253 = 17761 + 4501 + 990) + 8272 | common_memory_breakdown_print: | - Host | 1385 = 833 + 0 + 552 | Q6_K在24G显存下应该跑不起来,32G不带桌面的话应该能跑-np 1 -c 262144或者245760 开桌面环境就有点够呛了 收束观测者: 本地serving最后只看TPS吧 看很多mac用户都提到prefill慢,毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高,context都能cache到内存里随便切换那影响其实也没那么大。 knowledge: 24GB显存今天用哪个好呢? Q5_K_M或者略小一点的量化应该都没问题,其实27b和隔壁的26b moe是最适合24G的尺寸

--- 第 16 楼来自 Rosmontis 的回复 (2026-04-22 09:15:02 PDT) ---

哦哦哦我看错了,我没比较过DGX和M3 ultra,但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力,上限更高。也可能是之前llama.cpp对Spark优化不够。

--- 第 17 楼来自 无名之辈 的回复 (2026-04-22 09:16:00 PDT) ---

差一点 体验还是会很不一样吧

--- 第 18 楼来自 Rosmontis 的回复 (2026-04-22 09:17:12 PDT) ---

opus 4.5已经是去年11月份的水平了,那个时候已经在狂用vibe coding了,我感觉性能是足够了

--- 第 19 楼来自 Forlorner 的回复 (2026-04-22 09:22:49 PDT) ---

这配置本地推理时间怎么样?

--- 第 20 楼来自 Rosmontis 的回复 (2026-04-22 09:24:57 PDT) ---

主力模型是200多B的MoE GLM4.7,9t/s 勉强能用的水平。每天大概能对话个20来次,但长上下文就不太行了。其他的不太清楚,我目前还不想搞本地模型。

--- 第 21 楼来自 Keiour 的回复 (2026-04-22 09:27:40 PDT) ---

因为GB10带宽其实很小,远低于M3 / M5 Ultra DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。

--- 第 22 楼来自 Forlorner 的回复 (2026-04-22 09:33:05 PDT) ---

那还是慢 推理速度现在真的是限制本地模型最大的瓶颈

--- 第 23 楼来自 Rosmontis 的回复 (2026-04-22 09:34:10 PDT) ---

没办法,还是那句话,有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。

--- 第 24 楼来自 皮皮虾 的回复 (2026-04-22 09:36:42 PDT) ---

没点进来前就知道会看见“蒸”字 啥时候能在国产模型相关话题看不见这个字。。 ban 掉之后感觉很多人唯一能留的评论都没了

--- 第 25 楼来自 Keiour 的回复 (2026-04-22 09:37:55 PDT) ---

要速度只能直接用GPU了,双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下,48G显存现在也就2000出头。或者直接5090,今天3000不到,Q5可以跑到50 tps以上,缺点是显存小点。 Rosmontis: 有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。 留下了贫穷的泪水.png 后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了

--- 第 26 楼来自 DeutscheGrammophon 的回复 (2026-04-22 09:40:05 PDT) ---

蒸蚌!

--- 第 27 楼来自 匿名用户nitan 的回复 (2026-04-22 09:41:48 PDT) ---

那感觉某宝整个魔改32g的4080最划算?现在才12k人刀。不知道能跑多少tps

--- 第 28 楼来自 Keiour 的回复 (2026-04-22 09:51:03 PDT) ---

256 bit差不多700G的带宽,理论极限是20G的active param跑到35 tps,我估计跑27b dense Q5 30 tps不到一点吧,毕竟带宽一般是用不满的,有一点overhead。n卡prefill都是很快的TTFT可以忽略。 不知道4090 48现在啥价格,这玩意带宽更强显存也够。

--- 第 29 楼来自 匿名用户nitan 的回复 (2026-04-22 09:55:56 PDT) ---

22-24k人刀 贵不少了

--- 第 30 楼来自 Eric 的回复 (2026-04-22 10:18:28 PDT) ---

我觉得怎么搞都无所谓,只要能把token的价格打下来就行 什么,你不爽因为你是等着上市发财的A社员工啊,那没事了

--- 第 31 楼来自 pikachu12138 的回复 (2026-04-22 10:23:53 PDT) ---

这玩意macbook pro本地跑能行吗?有点想本地整一个,效率高吗

--- 第 32 楼来自 vwai 的回复 (2026-04-22 10:25:55 PDT) ---

5070ti能跑啥

--- 第 33 楼来自 Onvon 的回复 (2026-04-22 10:29:32 PDT) ---

24g以上的mbp应该可以 16g的也勉强行(7-9b)但是跑了之后就没法自己干活了 但只能做一些简单的工作 比如说总结email/写简单的python小工具什么的 而且没法像gpt和gemini那样做长对话 27b这种得顶配mbp了吧(128那种?)

--- 第 34 楼来自 pikachu12138 的回复 (2026-04-22 10:38:47 PDT) ---

我大概是m4pro 48g,我之前跑过32b的qwen但是那是前两年的事情了,那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了 主要是不太清楚新的模型到底是啥情况,我感觉如果不能一定程度上提供生产力就没必要玩了,除非能整点花活

--- 第 35 楼来自 Rosmontis 的回复 (2026-04-22 10:46:34 PDT) ---

48G的mac pro跑6bit应该没啥问题,但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。

--- 第 36 楼来自 Onvon 的回复 (2026-04-22 10:47:57 PDT) ---

主要的优势还是隐私吧 比如说很多ide的auto complete会把你的代码发到服务器上 然后有些搜索服务比如perplexity会用免费用户的data做训练和广告 但这两个use case本身并不需要什么很强的算力… 工具如果写得好 9b的模型也能做出还可以的效果

--- 第 37 楼来自 Brooklyn 的回复 (2026-04-22 10:55:57 PDT) ---

本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.

--- 第 38 楼来自 皮皮虾 的回复 (2026-04-22 14:08:24 PDT) ---

其实我觉得大部分llm从业者还挺客观的..

--- 第 39 楼来自 RATT 的回复 (2026-04-22 14:38:05 PDT) ---

啥卡跑27b模型能跟得上写码的速度

--- 第 40 楼来自 CF_Sam 的回复 (2026-04-22 15:22:06 PDT) ---

128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的,比如openclaw,直接让你感觉在和树懒交互。

--- 第 41 楼来自 BigCongming 的回复 (2026-04-22 15:29:19 PDT) ---

人也是llm啊 garbage in garbage out 都train成了看到“国产模型”下个token就是“蒸”了 RATT: 啥卡跑27b模型能跟得上写码的速度 这里有人说5090跑UD_Q5_K_XL可以有45 tps(这速度感觉够用,我自己5090跑35BA3B有>150tps感觉挺舒服), 128k ctx https://www.reddit.com/r/LocalLLaMA/comments/1sss5og/what_speed_is_everyone_getting_on_qwen36_27b/

--- 第 42 楼来自 Keiour 的回复 (2026-04-22 15:47:29 PDT) ---

他那个其实低了,5090 Q6_K跑起来能有59 tps(0上下文长度),Q5_K_M 64 tps在0上下文,同样是unsloth dynamic的GGUF。cuda 13.2,llama.cpp自己编译的。 我测下长上下文的表现,不过他的短上下文下推理速度远比我测的低,我自己的卡也没超过显存。 测了下32k上下文52.7 tps,64k上下文48.6 tps。

--- 第 43 楼来自 aluckyboy 的回复 (2026-04-22 15:49:13 PDT) ---

有点兴奋,之前用opus 4 已经能做到一个功能齐全的ios app,虽然不少bug 这个已经是个人免费生产力首选了吧

--- 第 44 楼来自 az8 的回复 (2026-04-22 15:51:51 PDT) ---

求拍醒,我要不要买 RTX PRO 5000 Blackwell Workstation Edition, 48 GB GDDR7 来跑这个? 4000不到可以 200max 买20个月了。

--- 第 45 楼来自 pikachu12138 的回复 (2026-04-22 15:54:09 PDT) ---

如果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型了

--- 第 46 楼来自 草莓饼饼酱 的回复 (2026-04-22 15:58:34 PDT) ---

pikachu12138: 果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型 +1 现在token本来就巨型折扣。。。 不行就多开薅羊毛

--- 第 47 楼来自 pikachu12138 的回复 (2026-04-22 16:02:06 PDT) ---

而且主要问题还是在于电子设备(硬件)这种东西我觉得属于出二手折价最狠的,目前看到的比较保值的也就显卡和apple的一些设备,apple设备显然不符合层主有要求,显卡的话感觉是之前挖矿时代游戏卡比较保值,专业卡我觉得出二手给个人买家是比较难的事情 而且再咋样自己买卡都比不过买coding plan的,新模型还是好用的

--- 第 48 楼来自 icework 的回复 (2026-04-22 16:04:32 PDT) ---

纯经济角度没必要本地模型的。文字和图片现在 API 都很便宜,唯一贵的就是视频模型。做视频的话,还是买显卡本地跑比较划算,API 是真用不起

--- 第 49 楼来自 tomandjerry 的回复 (2026-04-22 16:04:35 PDT) ---

如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好

--- 第 50 楼来自 TheWorld 的回复 (2026-04-22 16:05:36 PDT) ---

这个是不是秒杀gemma 4

--- 第 51 楼来自 pikachu12138 的回复 (2026-04-22 16:06:24 PDT) ---

你这个考虑也是很有道理的,我觉得比较刚需或者比较确定自己需要的可以买,像我这种不管咋样估计还是要订阅的那我买了显卡也没大作用 再就是也买不起5090这种显卡,做科研还可以找导师报销,实在不行组里cluster里面跑模型就行了,反正也有卡

--- 第 52 楼来自 BigCongming 的回复 (2026-04-22 16:11:36 PDT) ---

确实,我自己跑了Q4K_M的有60+tps prompt eval time = 220.84 ms / 17 tokens ( 12.99 ms per token, 76.98 tokens per second) eval time = 54042.74 ms / 3577 tokens ( 15.11 ms per token, 66.19 tokens per second) total time = 54263.57 ms / 3594 tokens 哦现在跑的时候要550W了,之前35BA3B只要300W

--- 第 53 楼来自 Keiour 的回复 (2026-04-22 16:12:38 PDT) ---

别急,在投资硬件之前建议先考虑一下硬件钱能买多少token,自己的硬件往死里烧能烧出多少token来 – 或者估计一下自己一天用多少token然后算下这点钱能买多少token。 还有个问题是电费,不过相比于capex电费是小头,而且冬天有个显卡暖脚还是比较舒服的。 显卡主要是玩两个:第一个是顺便要打游戏,另一个是玩NSFW内容,尤其是出图——出图API不好破甲还死贵。

--- 第 54 楼来自 tomandjerry 的回复 (2026-04-22 16:15:16 PDT) ---

m芯片能出图吗

--- 第 55 楼来自 Keiour 的回复 (2026-04-22 16:21:51 PDT) ---

没玩过苹果机器,但是comfyui全家在pytorch上跑,能跑GPU加速的pytorch就能出图 BigCongming: 哦现在跑的时候要550W了,之前35BA3B只要300W 是的,moe模型CPU瓶颈挺重的,dense模型能跑满 我一般降个压,2820 MHz锁900 mV用,大概410-430W跑满

--- 第 56 楼来自 折木奉太郎 的回复 (2026-04-22 16:22:44 PDT) ---

搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了

--- 第 57 楼来自 Keiour 的回复 (2026-04-22 16:25:50 PDT) ---

你要找的是不是Gemma 4 / Deepseek全家桶 Gemma 4可以直接被system prompt轻松破限,DS模型自身无限制。Qwen这种模型甲很重的开源模型是比较怪的,不过Qwen本身就不适合玩破甲。 甚至某些闭源模型都能关大部分的道德观限制,不过TOS还是不允许就是了。

--- 第 58 楼来自 BigCongming 的回复 (2026-04-22 16:29:21 PDT) ---

https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive We’re on a journey to advance and democratize artificial intelligence through open source and open science.

--- 第 59 楼来自 折木奉太郎 的回复 (2026-04-22 16:30:25 PDT) ---

这种用过,会降智

--- 第 60 楼来自 az8 的回复 (2026-04-22 19:01:03 PDT) ---

年纪大了老丢三落四,其实我想常开minecontext或者screenpipe,然后有什么事想不起来了就问AI。这个图片处理的token量应该比较大。 tomandjerry: 如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好 其实我也觉得照这个趋势显卡LLM可能会超opus 4.6,所以是很可能显卡会涨价。可是我买显卡的钱被SOXS亏掉了。

--- 第 61 楼来自 otonoco 的回复 (2026-04-22 19:07:53 PDT) ---

Keiour: 本地模型对写码 怎么用本地模型生成涩图?

--- 第 62 楼来自 tomandjerry 的回复 (2026-04-22 19:16:44 PDT) ---

https://www.uscardforum.com/t/topic/476665/1 /c/jobs/academics/48 By popular request, from my last thread on this topic ( https://www.uscardforum.com/t/topic/475986/14 ) (本来放在性爱,但想了想,也可以做其他东西,所以换到学术。Mod不允许可以换回去). #p-7458238-step-0-1Step 0: 假如你有时间,还是建议看完这个tutorial https://www.youtube.com/watch?v=HkoRkNLWQzY 别水了别水了,认真看帖吧

--- 第 63 楼来自 otonoco 的回复 (2026-04-22 19:17:45 PDT) ---

没有显卡咋办啊

--- 第 64 楼来自 tomandjerry 的回复 (2026-04-22 19:21:59 PDT) ---

https://www.uscardforum.com/t/topic/495721/14 /c/jobs/33 lightning.ai 每个手机号每个月免费15个积分,能用 h200。还有各种搭好的环境。 /uploads/short-url/ogRefRCHaVw0tsOLpvp5ve0bvH5.jpeg?dl=1

--- 第 65 楼来自 Rosmontis 的回复 (2026-04-22 19:24:18 PDT) ---

手搓一个不就行了: /uploads/short-url/iOeuwpZynozLVIuhqDfzJTYdqn8.jpeg?dl=1

--- 第 66 楼来自 otonoco 的回复 (2026-04-22 19:29:21 PDT) ---

用它们的东西做瑟图 他们也不管?

--- 第 67 楼来自 B1tWiz 的回复 (2026-04-22 19:32:46 PDT) ---

gpt早就干了,人体蜈蚣说是

--- 第 68 楼来自 tomandjerry 的回复 (2026-04-22 19:33:55 PDT) ---

又不是朝鲜开的网站,为什么不能生成成年人图片

--- 第 69 楼来自 哈耶克 的回复 (2026-04-22 19:36:07 PDT) ---

折木奉太郎: 搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了 早就有了,已严肃使用: /uploads/short-url/l75SuZkFHffndotd22jDz6uU3eN.png?dl=1 /uploads/short-url/twbEVTAQMeQ6iuEHbYjwwFQGIPK.png?dl=1 /uploads/short-url/r8zmVvhvMjSY4gDrHrk8BBKNvkN.png?dl=1 /uploads/short-url/4LLzwGKsSyKZBDGcVPg9YSZqCo0.png?dl=1 WSL2+5090推理大约40tps,够用 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 不高,但是够用 BigCongming: Q4效果不好吗,Q8感觉效率损失太大啊 之前Qwen3.5写色情文章Q4效果很差,我再试一试 /uploads/short-url/zKdkfX5EFGi1QT5wuQVje3g9Irm.png?dl=1 已严肃试用

--- 第 70 楼来自 makeapp 的回复 (2026-04-22 19:40:41 PDT) ---

这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗

--- 第 71 楼来自 BigCongming 的回复 (2026-04-22 19:46:16 PDT) ---

Q4效果不好吗,Q8感觉效率损失太大啊 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 内存塞得下都行,效率27B dense应该都能有10tps

--- 第 72 楼来自 Ansel 的回复 (2026-04-22 20:03:54 PDT) ---

现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了

--- 第 73 楼来自 icework 的回复 (2026-04-22 20:05:50 PDT) ---

minecontext 和screenpipe 的确,我也不敢用 API 干这个两个。

--- 第 74 楼来自 tomandjerry 的回复 (2026-04-22 20:23:22 PDT) ---

整点华强北魔改v100, 3090/4090 48g

--- 第 75 楼来自 Ava.太太太后 的回复 (2026-04-22 22:05:52 PDT) ---

长上下文不行有点遗憾,不过这样的配置一般用来干啥?

--- 第 76 楼来自 Keiour 的回复 (2026-04-22 22:50:13 PDT) ---

comfy UI,但是有很多模型可选可以找个LLM查下哪个模型适合你。 没显卡的话那只能花钱买API了 哈耶克: Qwen3.5写色情文章Q4效果很差 可以试试Gemma 4,NSFW还得看它,甲薄语言能力强 直接非破限模型system instruction给个好点的破限prompt就行,我自己用的是https://www.reddit.com/r/LocalLLaMA/comments/1sm3swd/gemma_4_jailbreak_system_prompt/ 的变化 Ansel: 现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了 美国一般是3090,从tps和残值角度5090也不错,如果不玩抽象服务器卡(SXM转接A100/V100)方案的话。 会玩A卡的话如果能找到合适价格的卡,XTX / R9700都是能玩的,甚至MI100都能玩。9700这卡不仅全新,27b Q5也能跑到25-30 tps,XTX和这速度上其实差不多。 B70看起来香但是单slot推理挺弱的。 中国有魔改Ada卡可以用。

--- 第 77 楼来自 az8 的回复 (2026-04-22 23:21:14 PDT) ---

完了,上头了。我已经下单了。这个价格用Amex Dell 5% offer, 三张Plat Biz卡减450,Plat Biz超5000再减1000,Rakuten 6%, 最后3500不到,反正SOXS已经亏了不止一张显卡了,就再亏一张吧。然后它是6/10才交货,中间还有机会反悔。 /uploads/short-url/1DzsPVkWd27U5tWDSd9j769zkMH.png?dl=1

--- 第 78 楼来自 Keiour 的回复 (2026-04-22 23:23:34 PDT) ---

3500要啥自行车,5090现在也要3000了。 5000-1000是啥方法啊

--- 第 79 楼来自 az8 的回复 (2026-04-22 23:24:08 PDT) ---

Plat Biz Dell 5000-1000。

--- 第 80 楼来自 Keiour 的回复 (2026-04-22 23:24:31 PDT) ---

我商白没开过,我有罪

--- 第 81 楼来自 az8 的回复 (2026-04-22 23:28:57 PDT) ---

我还有3张Biz的150要花,家里一堆键盘鼠标,连门锁都换了。为了花这些coupon,花太多心思,划不来。马上关关关。

--- 第 82 楼来自 otonoco 的回复 (2026-04-22 23:29:28 PDT) ---

爹地 我想要个ps5pro 可以给我买嘛

--- 第 83 楼来自 哈耶克 的回复 (2026-04-22 23:45:15 PDT) ---

az8: 反正SOXS已经亏了不止一张显卡了,就再亏一张吧 富哥草我

--- 第 84 楼来自 cnxcnx 的回复 (2026-04-22 23:48:48 PDT) ---

很多都是benchmaxxxx,来个坛友实际跑一下开发试试 kimi看reddit上说算是低价版的sonnet

--- 第 85 楼来自 收束观测者 的回复 (2026-04-23 00:22:13 PDT) ---

我艹你这么一算我都想下手了

--- 第 86 楼来自 Keiour 的回复 (2026-04-23 00:32:15 PDT) ---

纯看推理workload这卡在3500确实不错,48G新卡应该没有比这卡性价比更高的了。 而且这卡5090 2/3的SM也能打点游戏

--- 第 87 楼来自 CB2 的回复 (2026-04-23 00:32:18 PDT) ---

用m4max 64g内存跑的,用的omlx,小任务不开thinking还凑合,任务复杂了,或者thinking了,就慢的不行,一个prompt等十分钟那种

--- 第 88 楼来自 收束观测者 的回复 (2026-04-23 00:32:51 PDT) ---

算了我也就口胡 3090TI买了不记得多少年了就没怎么用过

--- 第 89 楼来自 az8 的回复 (2026-04-23 00:35:55 PDT) ---

那就快动手吧,我已经想了快半个月了。自从公司里有台RTX 6000 48G可以给我独享后我就琢磨着多玩点,可惜要经常跑任务不能老是开着QWen 3.6,还是自己搞一个玩可能更好玩些,也许还能上上课啥的。

--- 第 90 楼来自 收束观测者 的回复 (2026-04-23 00:45:55 PDT) ---

可是我实在没有什么必须要local的任务啊

--- 第 91 楼来自 peridot 的回复 (2026-04-23 01:19:21 PDT) ---

uncensored ai

--- 第 92 楼来自 收束观测者 的回复 (2026-04-23 01:23:21 PDT) ---

只要不炼铜走API没啥问题啊

--- 第 93 楼来自 peridot 的回复 (2026-04-23 01:29:33 PDT) ---

safeguard破事一大堆,我想写个爬航司api的bot都跟我bb半天这个是灰色地带

--- 第 94 楼来自 Keiour 的回复 (2026-04-23 01:44:14 PDT) ---

啥LLM啊这么婆妈,真要用无限制的云端模型的话认准谷歌vertex,把filter关完就行: safety_settings: - category: "HARM_CATEGORY_HATE_SPEECH" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_DANGEROUS_CONTENT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_SEXUALLY_EXPLICIT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_HARASSMENT" threshold: "BLOCK_NONE" 或者ds这种开源无甲的也行

--- 第 95 楼来自 peridot 的回复 (2026-04-23 01:58:01 PDT) ---

泡面头的opus

--- 第 96 楼来自 EndangeredZeegull 的回复 (2026-04-23 02:47:05 PDT) ---

Claude 在cc里的safety filter没有chat强,chat我基本上那几个微生物每次都可以触发0输出立刻terminate或者是research mode planning phase就死 可以处理大量chat里不能处理的,被mark成危险微生物的东西,可以说是写码爽死了 一个月大概20M-40M output token 我可能是claude opus的监工 本地llm目前用3.5 122b qx85 虽然不大聪明,但是我也就只需一个重写机器

--- 第 97 楼来自 jzcracker 的回复 (2026-04-23 04:12:53 PDT) ---

我的4090可以跑27b

--- 第 98 楼来自 BigCongming 的回复 (2026-04-23 05:08:26 PDT) ---

我在cc上大概跑了一晚上,产出感觉比3.6 35BA3B稳定 小task涉及到代码行数不多的完成的挺快质量也很好,涉及多的话就显著受限,完成时间快速增加也容易漏考虑很多东西需要配合其他model多轮review(当然大的model我这也得多轮review才能稳定就是就是完成效率高一些) 当然其他的我就用过sonnet4.6 opus4.6和codex5.4(体感codex在下午高峰期稳定的出工不出力,以及稳定的有自己的想法不follow instructions) 另:感觉所有model当reviewer比写代码更靠谱,可能是我的用法问题吧

--- 第 99 楼来自 tomandjerry 的回复 (2026-04-23 10:34:04 PDT) ---

据说qwen 跑分高,实际体验差。大家用起来如何

--- 第 100 楼来自 BigCongming 的回复 (2026-04-23 10:37:59 PDT) ---

tomandjerry: qwen 跑分高,实际体验差 对,一定是这样的,所以大家都别买阿里的coding plan让我抢一个吧

--- 第 101 楼来自 az8 的回复 (2026-04-23 11:01:07 PDT) ---

你用27B是什么版本?推荐的UD-Q4_K_XL还是33GB的UD-Q8_K_XL?

--- 第 102 楼来自 BigCongming 的回复 (2026-04-23 11:13:29 PDT) ---

暂时Q4KM感觉比较满意,还没试过别的,想开256k ctx,用太大的就爆显存剩个10tps了

--- 第 103 楼来自 az8 的回复 (2026-04-23 11:49:05 PDT) ---

我这个33GB的Q8, 158KB context , 24.2tps, 感觉挺不错的,拿来做我的个人助理完全够。

--- 第 104 楼来自 az8 的回复 (2026-04-23 14:16:28 PDT) ---

你的3.6 35BA3B是什么版本?如果27B只是用Q4的话,也许不会比35BA3B Q6强?我试了35BA3B UD_Q6_K_XL, 30GB size, 可以上到256K ctx,145 tps,太强了。

--- 第 105 楼来自 BigCongming 的回复 (2026-04-23 14:20:01 PDT) ---

我用的bartowski的Q5_K_M,回头试试你的那个看看 你的5090有host monitor吗还是单纯就跑model

--- 第 106 楼来自 Keiour 的回复 (2026-04-23 14:27:08 PDT) ---

有啥推荐的host monitor吗?

--- 第 107 楼来自 BigCongming 的回复 (2026-04-23 14:31:58 PDT) ---

我指的是有没有接显示器 自用的我都懒得看

--- 第 108 楼来自 az8 的回复 (2026-04-23 14:36:14 PDT) ---

我用的是6000 Ada单纯跑model,不知为何Xorg还占了4M,monitor应该用板载显卡就可以。网上搜了下,可能Coding 27B的还是强。

--- 第 109 楼来自 BigCongming 的回复 (2026-04-23 14:36:58 PDT) ---

az8: monitor应该用板载显卡就可以 那我毕竟还想玩游戏

--- 第 110 楼来自 az8 的回复 (2026-04-23 14:39:36 PDT) ---

个人用当然是一卡多用了,你还挖矿不?

--- 第 111 楼来自 BigCongming 的回复 (2026-04-23 14:43:13 PDT) ---

这年头挖矿感觉亏电费啊

--- 第 112 楼来自 Keiour 的回复 (2026-04-23 14:53:24 PDT) ---

我跑Q6模型的时候都直接退出桌面笔记本上玩的 KDE桌面要1.5G显存呢,退掉只剩几M了 hyprland会好一点但是不大喜欢

--- 第 113 楼来自 qwertyuiopqaz 的回复 (2026-04-23 15:01:50 PDT) ---

视频有什么开源好模型吗?最新的还是wan2.2吧,被seedance2.0按在地上锤

--- 第 114 楼来自 dayI 的回复 (2026-04-23 15:27:24 PDT) ---

500的税是不是其实可以考虑去免税州收?

--- 第 115 楼来自 az8 的回复 (2026-04-23 16:48:39 PDT) ---

测试了下48G mac pro m4 跑Ollama Qwen 3.6 23GB MoE 没问题,速度可以的,虽然比 6000 要慢一些,但是依旧很快。 问题来了,我到底是花3.5K 买5000 48GB 好呢?还是干脆干 mac pro m5, 64GB 可以干更大的模型,或者128GB 更更大,但是更贵了? 哦,非学生价加二百多。 /uploads/short-url/i4urnLDk8J9ASuvYDatjDvWKyAQ.jpeg?dl=1

--- 第 116 楼来自 BigCongming 的回复 (2026-04-23 17:28:46 PDT) ---

我还在观望,感觉可以等一个m5的mac studio

--- 第 117 楼来自 Ansel 的回复 (2026-04-23 18:39:35 PDT) ---

m4是不是prefill差强人意啊?不知道长context究竟如何?网上的测评太浮于表面了

--- 第 118 楼来自 CB2 的回复 (2026-04-23 18:44:51 PDT) ---

公司不配吗,自己花钱买这个真不如花钱买api…本地跑14寸macbook pro风扇拉满机身还贼烫,感觉用不了多久电池就要报废

--- 第 119 楼来自 Rosmontis 的回复 (2026-04-23 18:53:26 PDT) ---

Ansel: 差强人意 是刚刚能满意的意思,M4 prefill根本不行,4090,DGX Spark flops得是M4的十倍左右了吧

--- 第 120 楼来自 tomandjerry 的回复 (2026-04-23 18:54:07 PDT) ---

az8: Qwen 3.6 23GB MoE 这是什么,35b a3b? 哪有23b的moe?

--- 第 121 楼来自 BigCongming 的回复 (2026-04-24 19:15:32 PDT) ---

又用了一天感觉opencode好像比claude code更好用吗,更能follow instruction 可能是context问题,cc往ctx塞东西好像有点激进,虽然两者都存在忘掉plan的情况但是opencode少很多(体感)

--- 第 122 楼来自 EndangeredZeegull 的回复 (2026-04-24 19:27:03 PDT) ---

Quantized 模型在特定情况下损失很大,benchmark里coding 相关大幅度下降,写作和tool use也有不同程度下降 而且Q8/FP16的模型某些情况下大context 的时候MLX性能损失低 128GB真不行可以用来跑虚拟机啊,orbstack跑一个

--- 第 123 楼来自 EndangeredZeegull 的回复 (2026-04-24 19:28:25 PDT) ---

电池据我所知和键盘一体,可以applecare加速换大件,不是好事么 如果一直70wh左右进行120w的 discharge(我最高测出过130w),坏掉要4-800个高负载+充电循环 根本不用担心

--- 第 124 楼来自 tomandjerry 的回复 (2026-04-24 19:32:52 PDT) ---

怎么快速用坏电池?

--- 第 125 楼来自 CB2 的回复 (2026-04-24 22:05:14 PDT) ---

EndangeredZeegull: 电池据我所知和键盘一体 并不是一体的 高温电池还放电,一周应该就要鼓包了,还有14寸应该跑不上100w

--- 第 126 楼来自 CB2 的回复 (2026-04-24 22:06:28 PDT) ---

不停跑llm或者其他高温的任务,不插电,放完电再充电,充满电再放到没电

--- 第 127 楼来自 EndangeredZeegull 的回复 (2026-04-25 01:51:16 PDT) ---

Pro 14/16 电池是一体的,必须一起换top case,来源:Apple SSR,https://www.reddit.com/r/macbookpro/comments/1kypf69/does_apple_still_replace_whole_top_case_when/ 14寸有3个c口,每个支持15w,目前我测过的可以2口加起来大约30w,背光在betterdisplay HDR 160%时选择纯白背景大约25w,其他加起来可以stress ANE,CPU,GPU,RAM,NVME,键盘背光,以及摄像头。稳定不崩溃两个usb的情况下可以到110w-125w,见以下benchmark结果(自己做的软件),这个测试中键盘背光没有关闭,而且为了稳定性,我没有开全负荷nvme 和memory的stress。这台电脑的真实电池健康大约在77%,也就是说它可以支持接近2C的discharge。 不需要不插电,通过特殊脚本可以软件控制禁止和恢复充电行为 tomandjerry: 怎么快速用坏电池? 快速冲放 下面这台机器在90w负荷下测试了一百多个循环,每天充放电12个左右,充电到98%,放到2%,并没有鼓包。测试的原因是电池只有85%,而且键盘指纹有暗病。macos有多个评估电池的指标可以读出来,例如Qmax(这个长期不更新会影响充电速度稳定性和在快速放电的时候随机shutdown,更新大致需要半满放着待机)(在之前做过120w持续十几个循环,但是容易崩溃) 根据我的测试,我花了好久都没换成电池,反倒是容量在肉眼可见的下降(apple settings里电池容量并没有更新),我是傻逼 SSR: /uploads/short-url/86ENfDTyPzehc0rEuobbf3RQ0lR.jpeg?dl=1 刚刚新鲜的结果 [2026-04-25 01:43:27] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:31] Battery: 89%, 109.8W, 31.08°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:31] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:34] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:34] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:37] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:37] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:40] Battery: 89%, 109.5W, 31.14°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:40] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:43] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:43] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:46] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:46] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:49] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:49] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:52] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:52] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:55] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:55] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:58] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:58] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:44:01] Stopping Watchdog (pgid 82151) [2026-04-25 01:44:01] Stopping CPU+Memory stress (pgid 82106) [2026-04-25 01:44:01] Stopping GPU stress (pgid 82107) [2026-04-25 01:44:01] Stopping Media(HEVC) stress (pgid 82108) [2026-04-25 01:44:02] Stopping Media(H.264) stress (pgid 82109) [2026-04-25 01:44:02] Stopping ANE stress (pgid 82127) [2026-04-25 01:44:03] Stopping Camera stress (pgid 82128) [2026-04-25 01:44:04] Removed fio test file: /tmp/fio_stress_seq.dat [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended 电池容量参数 /uploads/short-url/6cj4eJVEAGYHKVnnDgwPL3HBvSb.png?dl=1 电池容量(使用的是另一个参数) /uploads/short-url/vKEfDtgMgH8vWRZYMz890ghirBE.png?dl=1

--- 第 128 楼来自 BigCongming 的回复 (2026-04-30 14:28:22 PDT) ---

高强度拿来复现一个paper好多天了,opencode+Qwen3.6 27B Q4KM 目前的感觉是 Qwen3.6 follow instruction很强,不用怎么需要担心像codex和sonnet/opus那样偶尔会自我意识过剩。不过看他思考过程,第一反应就是你说啥就是啥想都不想 one shot vibe别考虑了,不是小llm能干的事情,你需要hands on的做多轮plan多轮review,可以迭代出很高的代码质量,不比手写的差(可能是我菜),但话说回来codex opus one shot vibe也是在摸彩票,我第一轮让codex搞的框架最终是个灾难后面重新删光了re了一遍 codex 用来review质量很高,而且相当picky,claude找不到的bug他可以 至于claude,同样20刀的subscription拿来review code change也是两下花光quota,给的review质量还没codex高,代码质量没感觉比qwen3.6 27B强,plan可能稍微强一点,但是对比qwen+codex review多迭代两次出来的plan并没有差距,在我这可以丢进垃圾堆了就公司不管quota用用还不错 之前让codex one shot vibe的时候大概是这样的 我:给我写个quicksort codex:[blabla想了一堆写了一堆……] 我给你写好了一个bubble sort,带了很多test,很完美哦! 我:但你怎么写的bubblesort,我要quicksort codex:[blabla想了一堆写了一堆……] 啊你说的对,quicksort很复杂所以我写了个correctness first的bubble sort,确实不是quick sort,但我给你加了很多优化哦你看看 我:我要quicksort!!! codex:[blabla想了一堆,不写了……] 啊是我前面理解有误,但是quicksort很复杂,所以这个correctness first的bubble sort很好哦,如果你要quicksort的话,看看我这个refactor plan 我:refactor plan看着不错,开干吧 codex:[blabla想了一堆写了一堆……] 我成功的推进了refactor plan,但没有完成它,因为quick sort很难,看我新的优化厉不厉害 我:为啥没完成quicksort codex:因为quicksort很难,看我又有一个新的refactor plan来完成quick sort 从此开始无限循环

--- 第 129 楼来自 Keiour 的回复 (2026-04-30 14:43:58 PDT) ---

是的,本来用云端LLM搓的话one shot出来的代码也大概率是屎,也得要自己roll几次,测试,review,改代码,那其实本地LLM把任务切成小块慢慢喂也没差多少,还不用担心roll的次数多了把quota用完 唯一缺点就是cot还是长,一个gemma 4 1-2k token搞定的输出qwen 3.6的cot能到8k甚至更多,都是在cot里面反复来回造成的。还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 以及很多模型在low effort那是真懒啊,不过厂商就是喜欢暗改thinking effort

--- 第 130 楼来自 BigCongming 的回复 (2026-04-30 14:48:35 PDT) ---

Keiour: 还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 确实也遇到过,也遇到过干着干着忘了prompt的情况 还好我的习惯都是新开一个md来track progress的所以一般发生后影响不大

--- 第 131 楼来自 收束观测者 的回复 (2026-04-30 15:52:01 PDT) ---

BigCongming: 从此开始无限循环 这是哪个模型啥推理强度? 我试用GPT-5.5的instruction following确实有点问题,但是不确定是不是我环境的问题

--- 第 132 楼来自 BigCongming 的回复 (2026-04-30 15:52:51 PDT) ---

那时候还是5.4 xhigh和high之间

--- 第 133 楼来自 收束观测者 的回复 (2026-04-30 15:56:15 PDT) ---

我感觉环境(system prompt)的影响非常大 我之前试过把copilot的harness短路掉用自己的extension访问同样的copilot API,感觉蹦出来一个不认识的模型人格 GPT内功感觉是比Opus强的 但是一来instruction following很头疼二来copilot只给400K的context window,导致没得选只能主用opus

--- 第 134 楼来自 cnxcnx 的回复 (2026-04-30 17:35:30 PDT) ---

体感cc好用些但很喜欢糊弄 codex准确度更好但是慢以及不好用