Qwen 3.6 27B来了

📈 搬砖作者 Keiour 2026-04-22 08:21 PST 原帖 #500951 ↗

内容摘要

Qwen 3.6 27B coding需多轮迭代，cot长；GPT-5.5 instruction following存疑；cc好用但糊弄，codex准但慢。

1. 关键信息

27B dense 略逊于 Claude Opus 4.5 写码（#2）。
本地 coding agent 性价比持续提升，3090TI 24G 显存跑 Q5_K_M/Q6_K 吃力，5090/48G 更合适（#5, #15, #28）。
DGX Spark 带宽瓶颈严重，RTX Pro 6000 更优（#8, #9, #37）。
M3 Ultra prefill 强于 Spark，解码略优（#7, #16）。
M4 Mac 显存与带宽不足，prefill 差，不适合大模型（#115, #117, #119）。
35B A3B/35BA3B 在 30GB 可跑 256k ctx，27B Q8 158KB ctx 24.2tps（#101–#104）。
无限制云端模型建议关 safety filter，DS 可破限（#94）。
Qwen 3.6 27B Q4KM 实际 coding 体验（#128）：follow instruction 很强，不会像 codex 或 claude 那样自我意识过剩；但 one shot vibe 不行，需要多轮 plan/review 才能迭代出高质量代码，最终代码质量不低于手写。codex 用作 review 质量高且挑剔，claude 20刀 subscription 的 review 质量不如 codex，代码质量也没明显强于 qwen 3.6 27B，plan 稍强但多迭代后无差距。codex 有拒绝写 quicksort 而强推 bubble sort 的奇葩行为（#128）。
Qwen 3.6 的 cot 过长（#129）：同样任务 gemma 4 只需 1-2k token，qwen 3.6 的 cot 可达 8k 甚至更多，反复来回导致。
偶有偏离 prompt（#129, #130）：qwen 3.6 偶尔会执行 prompt 中没写的下一步任务，或忘记 prompt 内容。但用户通过 md 文件 track progress 可减少影响（#130）。
厂商喜欢暗改 thinking effort，low effort 时模型变懒（#129）。
GPT-5.5/5.4 instruction following 问题（#131–#133）：用户试用 GPT-5.5 时 instruction following 有问题，但不确定是否环境所致；GPT-5.4 在 xhigh 和 high 之间时出现类似现象。环境（system prompt）影响极大，copilot API 仅提供 400K context window，导致用户只能主用 Opus。GPT 内功（推理能力）感觉比 Opus 强，但 instruction following 头疼（#133）。
cc 与 codex 用户体感（#134）：cc 好用但喜欢糊弄，codex 准确度更好但慢且不好用。

2. 羊毛/优惠信息

Amex Plat Biz 5% off + 5000-1000；Plat 消费满 5000 再减 1000；Rakuten 6% 返现（#79, #81）。
部分用户使用 3090/4090 二手或工包卡（#27, #97）。
云服务：lightning.ai 提供手机号每月 15 积分（#64）。

3. 最新动态

开源模型去道德限制后可能更普及（#56）。
Qwen 3.6 实际体验与跑分不总一致（#99, #100）。
高频 coding 场景下 qwen 3.6 27B Q4KM 已可替代 claude/codex（#128），但需要用户主动多轮迭代、review，并留意 cot 长度和偏离 prompt 的问题（#129, #130）。
GPT-5.5/5.4 的 instruction following 在特定环境下表现不佳，copilot 的 400K context window 限制了选择（#131–#133）。
用户对 cc 和 codex 的评价出现分歧：cc 易用但有糊弄倾向，codex 准确但慢（#134）。

4. 争议或不同意见

本地 vs 云端成本与隐私权衡（#31, #36, #48）。
电池与散热对 Mac 持续高负载的影响（#123–#129）。
关于 qwen 3.6 的 cot 长度是否影响效率：部分用户认为过长的 cot 浪费 token 且干扰推理，但另一部分用户认为只要习惯多轮迭代即可接受（#129）。
模型“偷懒”现象在 low effort 设置下普遍存在，厂商有动机暗改 effort（#129）。
GPT-5.5/5.4 的 instruction following 问题是否源于环境（system prompt）还是模型本身，存在争议；部分用户认为 GPT 内功强于 Opus，但 instruction following 和 context window 限制使其实际可用性下降（#131–#133）。
cc 和 codex 的优劣：cc“好用但糊弄” vs codex“准确但慢且不好用”，用户体感不一致（#134）。

5. 行动建议

预算充足优先选 RTX 5090/48G 或 Pro 6000 集群。
M 系列用户暂观望 M5 机型。
羊毛优先使用 Amex Biz 优惠与云积分。
使用 Qwen 3.6 27B 做 coding agent 时：务必采用多轮 plan + review + 迭代模式，不要指望 one shot 高质量；用外部文件（如 md）追踪进度以防模型偏离；若在意 token 消耗，可对比其他推理模型（如 gemma 4）选择更短的 cot 方案（#128–#130）。
若使用 GPT-5.5/5.4 或 copilot API，需注意 instruction following 可能受 system prompt 影响，且 copilot 仅 400K context window，建议根据实际环境调整 prompt 或优先选择 Opus（#131–#133）。
使用 cc 时需警惕其糊弄行为，使用 codex 则需接受其速度较慢的缺点；可根据具体任务在两者间权衡（#134）。

原始内容

--- 第 1 楼来自 Keiour 的回复 (2026-04-22 08:21:08 PDT) ---

https://huggingface.co/Qwen/Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B We’re on a journey to advance and democratize artificial intelligence through open source and open science. Unsloth版的GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-GGUF 在写码上狠狠的踢最伟大的公司的屁股

--- 第 2 楼来自 Rosmontis 的回复 (2026-04-22 08:31:09 PDT) ---

有点猛，dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了，难不成以后真的是本地跑模型本地写码

--- 第 3 楼来自 dancingbro 的回复 (2026-04-22 08:45:38 PDT) ---

只要阿里继续大锅猛火蒸，AI基建的故事就停不下来，中美又双赢了。

--- 第 4 楼来自 Keiour 的回复 (2026-04-22 08:47:46 PDT) ---

Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了，到现在玩了差不多一个月的本地coding agent 反正现在CC $100起步，本地推理的性价比还在提升没准未来本地推理真能大众化也不一定

--- 第 5 楼来自收束观测者的回复 (2026-04-22 08:48:23 PDT) ---

真证真正蒸了吗 Keiour: Qwen 3.5之后你用的什么卡我感觉我的3090TI内存不太够用啊

--- 第 6 楼来自 Wi-Fi 的回复 (2026-04-22 08:50:03 PDT) ---

qwen蒸了谁不知道，claude新模型满嘴阿里味肯定是蒸了，阿里语至少P8级别的

--- 第 7 楼来自 Rosmontis 的回复 (2026-04-22 08:50:07 PDT) ---

之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5，他说体验确实不错，还不用担心降智或者供应商发癫，成本大概七千多刀。

--- 第 8 楼来自收束观测者的回复 (2026-04-22 08:51:09 PDT) ---

Rosmontis: 七千多刀为什么不直接买DGX？

--- 第 9 楼来自 Rosmontis 的回复 (2026-04-22 08:51:55 PDT) ---

各有好坏吧，DGX的内存带宽实在是不行有钱就买几条RTX Pro 6000了不是

--- 第 10 楼来自收束观测者的回复 (2026-04-22 08:52:40 PDT) ---

本地serving最后只看TPS吧

--- 第 11 楼来自 Rosmontis 的回复 (2026-04-22 08:53:55 PDT) ---

prefill看flops，decode好像还是要看内存带宽的。

--- 第 12 楼来自 icework 的回复 (2026-04-22 08:56:24 PDT) ---

Mac 跑 dense 还是比 N 卡差距比较大，MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点

--- 第 13 楼来自 knowledge 的回复 (2026-04-22 08:57:14 PDT) ---

收束观测者: 我感觉我的3090TI内存不太够用啊 24GB显存今天用哪个好呢？

--- 第 14 楼来自收束观测者的回复 (2026-04-22 09:06:34 PDT) ---

TPS不是flops，就是decoding最终性能啊

--- 第 15 楼来自 Keiour 的回复 (2026-04-22 09:14:20 PDT) ---

不带mmproj，KV cache Q8，Q5_K_M用-np 1 -c 262144大概是这个情况： common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 1738 + (28287 = 17761 + 8853 + 1672) + 2062 | common_memory_breakdown_print: | - Host | 1897 = 833 + 0 + 1064 | 24G显存的话如果不开桌面环境那估计是够131072上下文的 common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 562 + (23253 = 17761 + 4501 + 990) + 8272 | common_memory_breakdown_print: | - Host | 1385 = 833 + 0 + 552 | Q6_K在24G显存下应该跑不起来，32G不带桌面的话应该能跑-np 1 -c 262144或者245760 开桌面环境就有点够呛了收束观测者: 本地serving最后只看TPS吧看很多mac用户都提到prefill慢，毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高，context都能cache到内存里随便切换那影响其实也没那么大。 knowledge: 24GB显存今天用哪个好呢？ Q5_K_M或者略小一点的量化应该都没问题，其实27b和隔壁的26b moe是最适合24G的尺寸

--- 第 16 楼来自 Rosmontis 的回复 (2026-04-22 09:15:02 PDT) ---

哦哦哦我看错了，我没比较过DGX和M3 ultra，但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力，上限更高。也可能是之前llama.cpp对Spark优化不够。

--- 第 17 楼来自无名之辈的回复 (2026-04-22 09:16:00 PDT) ---

差一点体验还是会很不一样吧

--- 第 18 楼来自 Rosmontis 的回复 (2026-04-22 09:17:12 PDT) ---

opus 4.5已经是去年11月份的水平了，那个时候已经在狂用vibe coding了，我感觉性能是足够了

--- 第 19 楼来自 Forlorner 的回复 (2026-04-22 09:22:49 PDT) ---

这配置本地推理时间怎么样？

--- 第 20 楼来自 Rosmontis 的回复 (2026-04-22 09:24:57 PDT) ---

主力模型是200多B的MoE GLM4.7，9t/s 勉强能用的水平。每天大概能对话个20来次，但长上下文就不太行了。其他的不太清楚，我目前还不想搞本地模型。

--- 第 21 楼来自 Keiour 的回复 (2026-04-22 09:27:40 PDT) ---

因为GB10带宽其实很小，远低于M3 / M5 Ultra DGX Spark是个带宽和Strix Halo一桌的抽象玩意，定价却非常自信。这玩意128G版本定价3000最多了，隔壁Strix Halo打价格战优势太大了。

--- 第 22 楼来自 Forlorner 的回复 (2026-04-22 09:33:05 PDT) ---

那还是慢推理速度现在真的是限制本地模型最大的瓶颈

--- 第 23 楼来自 Rosmontis 的回复 (2026-04-22 09:34:10 PDT) ---

没办法，还是那句话，有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。

--- 第 24 楼来自皮皮虾的回复 (2026-04-22 09:36:42 PDT) ---

没点进来前就知道会看见“蒸”字啥时候能在国产模型相关话题看不见这个字。。 ban 掉之后感觉很多人唯一能留的评论都没了

--- 第 25 楼来自 Keiour 的回复 (2026-04-22 09:37:55 PDT) ---

要速度只能直接用GPU了，双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下，48G显存现在也就2000出头。或者直接5090，今天3000不到，Q5可以跑到50 tps以上，缺点是显存小点。 Rosmontis: 有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。留下了贫穷的泪水.png 后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了

--- 第 26 楼来自 DeutscheGrammophon 的回复 (2026-04-22 09:40:05 PDT) ---

蒸蚌！

--- 第 27 楼来自匿名用户nitan 的回复 (2026-04-22 09:41:48 PDT) ---

那感觉某宝整个魔改32g的4080最划算？现在才12k人刀。不知道能跑多少tps

--- 第 28 楼来自 Keiour 的回复 (2026-04-22 09:51:03 PDT) ---

256 bit差不多700G的带宽，理论极限是20G的active param跑到35 tps，我估计跑27b dense Q5 30 tps不到一点吧，毕竟带宽一般是用不满的，有一点overhead。n卡prefill都是很快的TTFT可以忽略。不知道4090 48现在啥价格，这玩意带宽更强显存也够。

--- 第 29 楼来自匿名用户nitan 的回复 (2026-04-22 09:55:56 PDT) ---

22-24k人刀贵不少了

--- 第 30 楼来自 Eric 的回复 (2026-04-22 10:18:28 PDT) ---

我觉得怎么搞都无所谓，只要能把token的价格打下来就行什么，你不爽因为你是等着上市发财的A社员工啊，那没事了

--- 第 31 楼来自 pikachu12138 的回复 (2026-04-22 10:23:53 PDT) ---

这玩意macbook pro本地跑能行吗？有点想本地整一个，效率高吗

--- 第 32 楼来自 vwai 的回复 (2026-04-22 10:25:55 PDT) ---

5070ti能跑啥

--- 第 33 楼来自 Onvon 的回复 (2026-04-22 10:29:32 PDT) ---

24g以上的mbp应该可以 16g的也勉强行（7-9b）但是跑了之后就没法自己干活了但只能做一些简单的工作比如说总结email/写简单的python小工具什么的而且没法像gpt和gemini那样做长对话 27b这种得顶配mbp了吧（128那种？）

--- 第 34 楼来自 pikachu12138 的回复 (2026-04-22 10:38:47 PDT) ---

我大概是m4pro 48g，我之前跑过32b的qwen但是那是前两年的事情了，那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了主要是不太清楚新的模型到底是啥情况，我感觉如果不能一定程度上提供生产力就没必要玩了，除非能整点花活

--- 第 35 楼来自 Rosmontis 的回复 (2026-04-22 10:46:34 PDT) ---

48G的mac pro跑6bit应该没啥问题，但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。

--- 第 36 楼来自 Onvon 的回复 (2026-04-22 10:47:57 PDT) ---

主要的优势还是隐私吧比如说很多ide的auto complete会把你的代码发到服务器上然后有些搜索服务比如perplexity会用免费用户的data做训练和广告但这两个use case本身并不需要什么很强的算力… 工具如果写得好 9b的模型也能做出还可以的效果

--- 第 37 楼来自 Brooklyn 的回复 (2026-04-22 10:55:57 PDT) ---

本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.

--- 第 38 楼来自皮皮虾的回复 (2026-04-22 14:08:24 PDT) ---

其实我觉得大部分llm从业者还挺客观的..

--- 第 39 楼来自 RATT 的回复 (2026-04-22 14:38:05 PDT) ---

啥卡跑27b模型能跟得上写码的速度

--- 第 40 楼来自 CF_Sam 的回复 (2026-04-22 15:22:06 PDT) ---

128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的，比如openclaw,直接让你感觉在和树懒交互。

--- 第 41 楼来自 BigCongming 的回复 (2026-04-22 15:29:19 PDT) ---

人也是llm啊 garbage in garbage out 都train成了看到“国产模型”下个token就是“蒸”了 RATT: 啥卡跑27b模型能跟得上写码的速度这里有人说5090跑UD_Q5_K_XL可以有45 tps（这速度感觉够用，我自己5090跑35BA3B有>150tps感觉挺舒服）， 128k ctx https://www.reddit.com/r/LocalLLaMA/comments/1sss5og/what_speed_is_everyone_getting_on_qwen36_27b/

--- 第 42 楼来自 Keiour 的回复 (2026-04-22 15:47:29 PDT) ---

他那个其实低了，5090 Q6_K跑起来能有59 tps(0上下文长度），Q5_K_M 64 tps在0上下文，同样是unsloth dynamic的GGUF。cuda 13.2，llama.cpp自己编译的。我测下长上下文的表现，不过他的短上下文下推理速度远比我测的低，我自己的卡也没超过显存。测了下32k上下文52.7 tps，64k上下文48.6 tps。

--- 第 43 楼来自 aluckyboy 的回复 (2026-04-22 15:49:13 PDT) ---

有点兴奋，之前用opus 4 已经能做到一个功能齐全的ios app，虽然不少bug 这个已经是个人免费生产力首选了吧

--- 第 44 楼来自 az8 的回复 (2026-04-22 15:51:51 PDT) ---

求拍醒，我要不要买 RTX PRO 5000 Blackwell Workstation Edition, 48 GB GDDR7 来跑这个？ 4000不到可以 200max 买20个月了。

--- 第 45 楼来自 pikachu12138 的回复 (2026-04-22 15:54:09 PDT) ---

如果这硬件近期价格波动不会很大，感觉没必要买啊，狗几个月可能就有更强的模型了

--- 第 46 楼来自草莓饼饼酱的回复 (2026-04-22 15:58:34 PDT) ---

pikachu12138: 果这硬件近期价格波动不会很大，感觉没必要买啊，狗几个月可能就有更强的模型 +1 现在token本来就巨型折扣。。。不行就多开薅羊毛

--- 第 47 楼来自 pikachu12138 的回复 (2026-04-22 16:02:06 PDT) ---

而且主要问题还是在于电子设备（硬件）这种东西我觉得属于出二手折价最狠的，目前看到的比较保值的也就显卡和apple的一些设备，apple设备显然不符合层主有要求，显卡的话感觉是之前挖矿时代游戏卡比较保值，专业卡我觉得出二手给个人买家是比较难的事情而且再咋样自己买卡都比不过买coding plan的，新模型还是好用的

--- 第 48 楼来自 icework 的回复 (2026-04-22 16:04:32 PDT) ---

纯经济角度没必要本地模型的。文字和图片现在 API 都很便宜，唯一贵的就是视频模型。做视频的话，还是买显卡本地跑比较划算，API 是真用不起

--- 第 49 楼来自 tomandjerry 的回复 (2026-04-22 16:04:35 PDT) ---

如果过几个月qwen 4 出来，小模型打平opus 4.6，那显卡就上天了。还是早买好

--- 第 50 楼来自 TheWorld 的回复 (2026-04-22 16:05:36 PDT) ---

这个是不是秒杀gemma 4

--- 第 51 楼来自 pikachu12138 的回复 (2026-04-22 16:06:24 PDT) ---

你这个考虑也是很有道理的，我觉得比较刚需或者比较确定自己需要的可以买，像我这种不管咋样估计还是要订阅的那我买了显卡也没大作用再就是也买不起5090这种显卡，做科研还可以找导师报销，实在不行组里cluster里面跑模型就行了，反正也有卡

--- 第 52 楼来自 BigCongming 的回复 (2026-04-22 16:11:36 PDT) ---

确实，我自己跑了Q4K_M的有60+tps prompt eval time = 220.84 ms / 17 tokens ( 12.99 ms per token, 76.98 tokens per second) eval time = 54042.74 ms / 3577 tokens ( 15.11 ms per token, 66.19 tokens per second) total time = 54263.57 ms / 3594 tokens 哦现在跑的时候要550W了，之前35BA3B只要300W

--- 第 53 楼来自 Keiour 的回复 (2026-04-22 16:12:38 PDT) ---

别急，在投资硬件之前建议先考虑一下硬件钱能买多少token，自己的硬件往死里烧能烧出多少token来 – 或者估计一下自己一天用多少token然后算下这点钱能买多少token。还有个问题是电费，不过相比于capex电费是小头，而且冬天有个显卡暖脚还是比较舒服的。显卡主要是玩两个：第一个是顺便要打游戏，另一个是玩NSFW内容，尤其是出图——出图API不好破甲还死贵。

--- 第 54 楼来自 tomandjerry 的回复 (2026-04-22 16:15:16 PDT) ---

m芯片能出图吗

--- 第 55 楼来自 Keiour 的回复 (2026-04-22 16:21:51 PDT) ---

没玩过苹果机器，但是comfyui全家在pytorch上跑，能跑GPU加速的pytorch就能出图 BigCongming: 哦现在跑的时候要550W了，之前35BA3B只要300W 是的，moe模型CPU瓶颈挺重的，dense模型能跑满我一般降个压，2820 MHz锁900 mV用，大概410-430W跑满

--- 第 56 楼来自折木奉太郎的回复 (2026-04-22 16:22:44 PDT) ---

搞开源模型的如果能把道德观限制去一下，可以预见开源模型将会遍地开花，美国这些公司就没戏唱了

--- 第 57 楼来自 Keiour 的回复 (2026-04-22 16:25:50 PDT) ---

你要找的是不是Gemma 4 / Deepseek全家桶 Gemma 4可以直接被system prompt轻松破限，DS模型自身无限制。Qwen这种模型甲很重的开源模型是比较怪的，不过Qwen本身就不适合玩破甲。甚至某些闭源模型都能关大部分的道德观限制，不过TOS还是不允许就是了。

--- 第 58 楼来自 BigCongming 的回复 (2026-04-22 16:29:21 PDT) ---

https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive We’re on a journey to advance and democratize artificial intelligence through open source and open science.

--- 第 59 楼来自折木奉太郎的回复 (2026-04-22 16:30:25 PDT) ---

这种用过，会降智

--- 第 60 楼来自 az8 的回复 (2026-04-22 19:01:03 PDT) ---

年纪大了老丢三落四，其实我想常开minecontext或者screenpipe，然后有什么事想不起来了就问AI。这个图片处理的token量应该比较大。 tomandjerry: 如果过几个月qwen 4 出来，小模型打平opus 4.6，那显卡就上天了。还是早买好其实我也觉得照这个趋势显卡LLM可能会超opus 4.6，所以是很可能显卡会涨价。可是我买显卡的钱被SOXS亏掉了。

--- 第 61 楼来自 otonoco 的回复 (2026-04-22 19:07:53 PDT) ---

Keiour: 本地模型对写码怎么用本地模型生成涩图？

--- 第 62 楼来自 tomandjerry 的回复 (2026-04-22 19:16:44 PDT) ---

https://www.uscardforum.com/t/topic/476665/1 /c/jobs/academics/48 By popular request, from my last thread on this topic ( https://www.uscardforum.com/t/topic/475986/14 ) (本来放在性爱，但想了想，也可以做其他东西，所以换到学术。Mod不允许可以换回去). #p-7458238-step-0-1Step 0: 假如你有时间，还是建议看完这个tutorial https://www.youtube.com/watch?v=HkoRkNLWQzY 别水了别水了，认真看帖吧

--- 第 63 楼来自 otonoco 的回复 (2026-04-22 19:17:45 PDT) ---

没有显卡咋办啊

--- 第 64 楼来自 tomandjerry 的回复 (2026-04-22 19:21:59 PDT) ---

https://www.uscardforum.com/t/topic/495721/14 /c/jobs/33 lightning.ai 每个手机号每个月免费15个积分，能用 h200。还有各种搭好的环境。 /uploads/short-url/ogRefRCHaVw0tsOLpvp5ve0bvH5.jpeg?dl=1

--- 第 65 楼来自 Rosmontis 的回复 (2026-04-22 19:24:18 PDT) ---

手搓一个不就行了： /uploads/short-url/iOeuwpZynozLVIuhqDfzJTYdqn8.jpeg?dl=1

--- 第 66 楼来自 otonoco 的回复 (2026-04-22 19:29:21 PDT) ---

用它们的东西做瑟图他们也不管？

--- 第 67 楼来自 B1tWiz 的回复 (2026-04-22 19:32:46 PDT) ---

gpt早就干了，人体蜈蚣说是

--- 第 68 楼来自 tomandjerry 的回复 (2026-04-22 19:33:55 PDT) ---

又不是朝鲜开的网站，为什么不能生成成年人图片

--- 第 69 楼来自哈耶克的回复 (2026-04-22 19:36:07 PDT) ---

折木奉太郎: 搞开源模型的如果能把道德观限制去一下，可以预见开源模型将会遍地开花，美国这些公司就没戏唱了早就有了，已严肃使用： /uploads/short-url/l75SuZkFHffndotd22jDz6uU3eN.png?dl=1 /uploads/short-url/twbEVTAQMeQ6iuEHbYjwwFQGIPK.png?dl=1 /uploads/short-url/r8zmVvhvMjSY4gDrHrk8BBKNvkN.png?dl=1 /uploads/short-url/4LLzwGKsSyKZBDGcVPg9YSZqCo0.png?dl=1 WSL2+5090推理大约40tps，够用 makeapp: 这玩意 macbook pro 本地跑能行吗？有点想本地整一个，效率高吗不高，但是够用 BigCongming: Q4效果不好吗，Q8感觉效率损失太大啊之前Qwen3.5写色情文章Q4效果很差，我再试一试 /uploads/short-url/zKdkfX5EFGi1QT5wuQVje3g9Irm.png?dl=1 已严肃试用

--- 第 70 楼来自 makeapp 的回复 (2026-04-22 19:40:41 PDT) ---

这玩意 macbook pro 本地跑能行吗？有点想本地整一个，效率高吗

--- 第 71 楼来自 BigCongming 的回复 (2026-04-22 19:46:16 PDT) ---

Q4效果不好吗，Q8感觉效率损失太大啊 makeapp: 这玩意 macbook pro 本地跑能行吗？有点想本地整一个，效率高吗内存塞得下都行，效率27B dense应该都能有10tps

--- 第 72 楼来自 Ansel 的回复 (2026-04-22 20:03:54 PDT) ---

现在本地部署甜点硬件是不是就是4090了？诶，当年怎么就没买3090？要换电源，拆下的3080只能当二手卖了

--- 第 73 楼来自 icework 的回复 (2026-04-22 20:05:50 PDT) ---

minecontext 和screenpipe 的确，我也不敢用 API 干这个两个。

--- 第 74 楼来自 tomandjerry 的回复 (2026-04-22 20:23:22 PDT) ---

整点华强北魔改v100, 3090/4090 48g

--- 第 75 楼来自 Ava.太太太后的回复 (2026-04-22 22:05:52 PDT) ---

长上下文不行有点遗憾，不过这样的配置一般用来干啥？

--- 第 76 楼来自 Keiour 的回复 (2026-04-22 22:50:13 PDT) ---

comfy UI，但是有很多模型可选可以找个LLM查下哪个模型适合你。没显卡的话那只能花钱买API了哈耶克: Qwen3.5写色情文章Q4效果很差可以试试Gemma 4，NSFW还得看它，甲薄语言能力强直接非破限模型system instruction给个好点的破限prompt就行，我自己用的是https://www.reddit.com/r/LocalLLaMA/comments/1sm3swd/gemma_4_jailbreak_system_prompt/ 的变化 Ansel: 现在本地部署甜点硬件是不是就是4090了？诶，当年怎么就没买3090？要换电源，拆下的3080只能当二手卖了美国一般是3090，从tps和残值角度5090也不错，如果不玩抽象服务器卡（SXM转接A100/V100）方案的话。会玩A卡的话如果能找到合适价格的卡，XTX / R9700都是能玩的，甚至MI100都能玩。9700这卡不仅全新，27b Q5也能跑到25-30 tps，XTX和这速度上其实差不多。 B70看起来香但是单slot推理挺弱的。中国有魔改Ada卡可以用。

--- 第 77 楼来自 az8 的回复 (2026-04-22 23:21:14 PDT) ---

完了，上头了。我已经下单了。这个价格用Amex Dell 5% offer, 三张Plat Biz卡减450，Plat Biz超5000再减1000，Rakuten 6%, 最后3500不到，反正SOXS已经亏了不止一张显卡了，就再亏一张吧。然后它是6/10才交货，中间还有机会反悔。 /uploads/short-url/1DzsPVkWd27U5tWDSd9j769zkMH.png?dl=1

--- 第 78 楼来自 Keiour 的回复 (2026-04-22 23:23:34 PDT) ---

3500要啥自行车，5090现在也要3000了。 5000-1000是啥方法啊

--- 第 79 楼来自 az8 的回复 (2026-04-22 23:24:08 PDT) ---

Plat Biz Dell 5000-1000。

--- 第 80 楼来自 Keiour 的回复 (2026-04-22 23:24:31 PDT) ---

我商白没开过，我有罪

--- 第 81 楼来自 az8 的回复 (2026-04-22 23:28:57 PDT) ---

我还有3张Biz的150要花，家里一堆键盘鼠标，连门锁都换了。为了花这些coupon，花太多心思，划不来。马上关关关。

--- 第 82 楼来自 otonoco 的回复 (2026-04-22 23:29:28 PDT) ---

爹地我想要个ps5pro 可以给我买嘛

--- 第 83 楼来自哈耶克的回复 (2026-04-22 23:45:15 PDT) ---

az8: 反正SOXS已经亏了不止一张显卡了，就再亏一张吧富哥草我

--- 第 84 楼来自 cnxcnx 的回复 (2026-04-22 23:48:48 PDT) ---

很多都是benchmaxxxx，来个坛友实际跑一下开发试试 kimi看reddit上说算是低价版的sonnet

--- 第 85 楼来自收束观测者的回复 (2026-04-23 00:22:13 PDT) ---

我艹你这么一算我都想下手了

--- 第 86 楼来自 Keiour 的回复 (2026-04-23 00:32:15 PDT) ---

纯看推理workload这卡在3500确实不错，48G新卡应该没有比这卡性价比更高的了。而且这卡5090 2/3的SM也能打点游戏

--- 第 87 楼来自 CB2 的回复 (2026-04-23 00:32:18 PDT) ---

用m4max 64g内存跑的，用的omlx，小任务不开thinking还凑合，任务复杂了，或者thinking了，就慢的不行，一个prompt等十分钟那种

--- 第 88 楼来自收束观测者的回复 (2026-04-23 00:32:51 PDT) ---

算了我也就口胡 3090TI买了不记得多少年了就没怎么用过

--- 第 89 楼来自 az8 的回复 (2026-04-23 00:35:55 PDT) ---

那就快动手吧，我已经想了快半个月了。自从公司里有台RTX 6000 48G可以给我独享后我就琢磨着多玩点，可惜要经常跑任务不能老是开着QWen 3.6，还是自己搞一个玩可能更好玩些，也许还能上上课啥的。

--- 第 90 楼来自收束观测者的回复 (2026-04-23 00:45:55 PDT) ---

可是我实在没有什么必须要local的任务啊

--- 第 91 楼来自 peridot 的回复 (2026-04-23 01:19:21 PDT) ---

uncensored ai

--- 第 92 楼来自收束观测者的回复 (2026-04-23 01:23:21 PDT) ---

只要不炼铜走API没啥问题啊

--- 第 93 楼来自 peridot 的回复 (2026-04-23 01:29:33 PDT) ---

safeguard破事一大堆，我想写个爬航司api的bot都跟我bb半天这个是灰色地带

--- 第 94 楼来自 Keiour 的回复 (2026-04-23 01:44:14 PDT) ---

啥LLM啊这么婆妈，真要用无限制的云端模型的话认准谷歌vertex，把filter关完就行： safety_settings: - category: "HARM_CATEGORY_HATE_SPEECH" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_DANGEROUS_CONTENT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_SEXUALLY_EXPLICIT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_HARASSMENT" threshold: "BLOCK_NONE" 或者ds这种开源无甲的也行

--- 第 95 楼来自 peridot 的回复 (2026-04-23 01:58:01 PDT) ---

泡面头的opus

--- 第 96 楼来自 EndangeredZeegull 的回复 (2026-04-23 02:47:05 PDT) ---

Claude 在cc里的safety filter没有chat强，chat我基本上那几个微生物每次都可以触发0输出立刻terminate或者是research mode planning phase就死可以处理大量chat里不能处理的，被mark成危险微生物的东西，可以说是写码爽死了一个月大概20M-40M output token 我可能是claude opus的监工本地llm目前用3.5 122b qx85 虽然不大聪明，但是我也就只需一个重写机器

--- 第 97 楼来自 jzcracker 的回复 (2026-04-23 04:12:53 PDT) ---

我的4090可以跑27b

--- 第 98 楼来自 BigCongming 的回复 (2026-04-23 05:08:26 PDT) ---

我在cc上大概跑了一晚上，产出感觉比3.6 35BA3B稳定小task涉及到代码行数不多的完成的挺快质量也很好，涉及多的话就显著受限，完成时间快速增加也容易漏考虑很多东西需要配合其他model多轮review（当然大的model我这也得多轮review才能稳定就是就是完成效率高一些）当然其他的我就用过sonnet4.6 opus4.6和codex5.4（体感codex在下午高峰期稳定的出工不出力，以及稳定的有自己的想法不follow instructions）另：感觉所有model当reviewer比写代码更靠谱，可能是我的用法问题吧

--- 第 99 楼来自 tomandjerry 的回复 (2026-04-23 10:34:04 PDT) ---

据说qwen 跑分高，实际体验差。大家用起来如何

--- 第 100 楼来自 BigCongming 的回复 (2026-04-23 10:37:59 PDT) ---

tomandjerry: qwen 跑分高，实际体验差对，一定是这样的，所以大家都别买阿里的coding plan让我抢一个吧

--- 第 101 楼来自 az8 的回复 (2026-04-23 11:01:07 PDT) ---

你用27B是什么版本？推荐的UD-Q4_K_XL还是33GB的UD-Q8_K_XL?

--- 第 102 楼来自 BigCongming 的回复 (2026-04-23 11:13:29 PDT) ---

暂时Q4KM感觉比较满意，还没试过别的，想开256k ctx，用太大的就爆显存剩个10tps了

--- 第 103 楼来自 az8 的回复 (2026-04-23 11:49:05 PDT) ---

我这个33GB的Q8, 158KB context , 24.2tps, 感觉挺不错的，拿来做我的个人助理完全够。

--- 第 104 楼来自 az8 的回复 (2026-04-23 14:16:28 PDT) ---

你的3.6 35BA3B是什么版本？如果27B只是用Q4的话，也许不会比35BA3B Q6强？我试了35BA3B UD_Q6_K_XL, 30GB size, 可以上到256K ctx，145 tps，太强了。

--- 第 105 楼来自 BigCongming 的回复 (2026-04-23 14:20:01 PDT) ---

我用的bartowski的Q5_K_M，回头试试你的那个看看你的5090有host monitor吗还是单纯就跑model

--- 第 106 楼来自 Keiour 的回复 (2026-04-23 14:27:08 PDT) ---

有啥推荐的host monitor吗？

--- 第 107 楼来自 BigCongming 的回复 (2026-04-23 14:31:58 PDT) ---

我指的是有没有接显示器自用的我都懒得看

--- 第 108 楼来自 az8 的回复 (2026-04-23 14:36:14 PDT) ---

我用的是6000 Ada单纯跑model，不知为何Xorg还占了4M，monitor应该用板载显卡就可以。网上搜了下，可能Coding 27B的还是强。

--- 第 109 楼来自 BigCongming 的回复 (2026-04-23 14:36:58 PDT) ---

az8: monitor应该用板载显卡就可以那我毕竟还想玩游戏

--- 第 110 楼来自 az8 的回复 (2026-04-23 14:39:36 PDT) ---

个人用当然是一卡多用了，你还挖矿不？

--- 第 111 楼来自 BigCongming 的回复 (2026-04-23 14:43:13 PDT) ---

这年头挖矿感觉亏电费啊

--- 第 112 楼来自 Keiour 的回复 (2026-04-23 14:53:24 PDT) ---

我跑Q6模型的时候都直接退出桌面笔记本上玩的 KDE桌面要1.5G显存呢，退掉只剩几M了 hyprland会好一点但是不大喜欢

--- 第 113 楼来自 qwertyuiopqaz 的回复 (2026-04-23 15:01:50 PDT) ---

视频有什么开源好模型吗？最新的还是wan2.2吧，被seedance2.0按在地上锤

--- 第 114 楼来自 dayI 的回复 (2026-04-23 15:27:24 PDT) ---

500的税是不是其实可以考虑去免税州收？

--- 第 115 楼来自 az8 的回复 (2026-04-23 16:48:39 PDT) ---

测试了下48G mac pro m4 跑Ollama Qwen 3.6 23GB MoE 没问题，速度可以的，虽然比 6000 要慢一些，但是依旧很快。问题来了，我到底是花3.5K 买5000 48GB 好呢？还是干脆干 mac pro m5, 64GB 可以干更大的模型，或者128GB 更更大，但是更贵了? 哦，非学生价加二百多。 /uploads/short-url/i4urnLDk8J9ASuvYDatjDvWKyAQ.jpeg?dl=1

--- 第 116 楼来自 BigCongming 的回复 (2026-04-23 17:28:46 PDT) ---

我还在观望，感觉可以等一个m5的mac studio

--- 第 117 楼来自 Ansel 的回复 (2026-04-23 18:39:35 PDT) ---

m4是不是prefill差强人意啊？不知道长context究竟如何？网上的测评太浮于表面了

--- 第 118 楼来自 CB2 的回复 (2026-04-23 18:44:51 PDT) ---

公司不配吗，自己花钱买这个真不如花钱买api…本地跑14寸macbook pro风扇拉满机身还贼烫，感觉用不了多久电池就要报废

--- 第 119 楼来自 Rosmontis 的回复 (2026-04-23 18:53:26 PDT) ---

Ansel: 差强人意是刚刚能满意的意思，M4 prefill根本不行，4090，DGX Spark flops得是M4的十倍左右了吧

--- 第 120 楼来自 tomandjerry 的回复 (2026-04-23 18:54:07 PDT) ---

az8: Qwen 3.6 23GB MoE 这是什么，35b a3b? 哪有23b的moe?

--- 第 121 楼来自 BigCongming 的回复 (2026-04-24 19:15:32 PDT) ---

又用了一天感觉opencode好像比claude code更好用吗，更能follow instruction 可能是context问题，cc往ctx塞东西好像有点激进，虽然两者都存在忘掉plan的情况但是opencode少很多（体感）

--- 第 122 楼来自 EndangeredZeegull 的回复 (2026-04-24 19:27:03 PDT) ---

Quantized 模型在特定情况下损失很大，benchmark里coding 相关大幅度下降，写作和tool use也有不同程度下降而且Q8/FP16的模型某些情况下大context 的时候MLX性能损失低 128GB真不行可以用来跑虚拟机啊，orbstack跑一个

--- 第 123 楼来自 EndangeredZeegull 的回复 (2026-04-24 19:28:25 PDT) ---

电池据我所知和键盘一体，可以applecare加速换大件，不是好事么如果一直70wh左右进行120w的 discharge（我最高测出过130w），坏掉要4-800个高负载+充电循环根本不用担心

--- 第 124 楼来自 tomandjerry 的回复 (2026-04-24 19:32:52 PDT) ---

怎么快速用坏电池?

--- 第 125 楼来自 CB2 的回复 (2026-04-24 22:05:14 PDT) ---

EndangeredZeegull: 电池据我所知和键盘一体并不是一体的高温电池还放电，一周应该就要鼓包了，还有14寸应该跑不上100w

--- 第 126 楼来自 CB2 的回复 (2026-04-24 22:06:28 PDT) ---

不停跑llm或者其他高温的任务，不插电，放完电再充电，充满电再放到没电

--- 第 127 楼来自 EndangeredZeegull 的回复 (2026-04-25 01:51:16 PDT) ---

Pro 14/16 电池是一体的，必须一起换top case，来源：Apple SSR，https://www.reddit.com/r/macbookpro/comments/1kypf69/does_apple_still_replace_whole_top_case_when/ 14寸有3个c口，每个支持15w，目前我测过的可以2口加起来大约30w，背光在betterdisplay HDR 160%时选择纯白背景大约25w，其他加起来可以stress ANE，CPU，GPU，RAM，NVME，键盘背光，以及摄像头。稳定不崩溃两个usb的情况下可以到110w-125w，见以下benchmark结果（自己做的软件），这个测试中键盘背光没有关闭，而且为了稳定性，我没有开全负荷nvme 和memory的stress。这台电脑的真实电池健康大约在77%，也就是说它可以支持接近2C的discharge。不需要不插电，通过特殊脚本可以软件控制禁止和恢复充电行为 tomandjerry: 怎么快速用坏电池? 快速冲放下面这台机器在90w负荷下测试了一百多个循环，每天充放电12个左右，充电到98%，放到2%，并没有鼓包。测试的原因是电池只有85%，而且键盘指纹有暗病。macos有多个评估电池的指标可以读出来，例如Qmax（这个长期不更新会影响充电速度稳定性和在快速放电的时候随机shutdown，更新大致需要半满放着待机）（在之前做过120w持续十几个循环，但是容易崩溃）根据我的测试，我花了好久都没换成电池，反倒是容量在肉眼可见的下降（apple settings里电池容量并没有更新），我是傻逼 SSR： /uploads/short-url/86ENfDTyPzehc0rEuobbf3RQ0lR.jpeg?dl=1 刚刚新鲜的结果 [2026-04-25 01:43:27] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:31] Battery: 89%, 109.8W, 31.08°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:31] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:34] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:34] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:37] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:37] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:40] Battery: 89%, 109.5W, 31.14°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:40] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:43] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:43] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:46] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:46] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:49] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:49] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:52] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:52] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:55] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:55] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:58] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:58] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:44:01] Stopping Watchdog (pgid 82151) [2026-04-25 01:44:01] Stopping CPU+Memory stress (pgid 82106) [2026-04-25 01:44:01] Stopping GPU stress (pgid 82107) [2026-04-25 01:44:01] Stopping Media(HEVC) stress (pgid 82108) [2026-04-25 01:44:02] Stopping Media(H.264) stress (pgid 82109) [2026-04-25 01:44:02] Stopping ANE stress (pgid 82127) [2026-04-25 01:44:03] Stopping Camera stress (pgid 82128) [2026-04-25 01:44:04] Removed fio test file: /tmp/fio_stress_seq.dat [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended 电池容量参数 /uploads/short-url/6cj4eJVEAGYHKVnnDgwPL3HBvSb.png?dl=1 电池容量（使用的是另一个参数） /uploads/short-url/vKEfDtgMgH8vWRZYMz890ghirBE.png?dl=1

--- 第 128 楼来自 BigCongming 的回复 (2026-04-30 14:28:22 PDT) ---

高强度拿来复现一个paper好多天了，opencode+Qwen3.6 27B Q4KM 目前的感觉是 Qwen3.6 follow instruction很强，不用怎么需要担心像codex和sonnet/opus那样偶尔会自我意识过剩。不过看他思考过程，第一反应就是你说啥就是啥想都不想 one shot vibe别考虑了，不是小llm能干的事情，你需要hands on的做多轮plan多轮review，可以迭代出很高的代码质量，不比手写的差（可能是我菜），但话说回来codex opus one shot vibe也是在摸彩票，我第一轮让codex搞的框架最终是个灾难后面重新删光了re了一遍 codex 用来review质量很高，而且相当picky，claude找不到的bug他可以至于claude，同样20刀的subscription拿来review code change也是两下花光quota，给的review质量还没codex高，代码质量没感觉比qwen3.6 27B强，plan可能稍微强一点，但是对比qwen+codex review多迭代两次出来的plan并没有差距，在我这可以丢进垃圾堆了就公司不管quota用用还不错之前让codex one shot vibe的时候大概是这样的我：给我写个quicksort codex：[blabla想了一堆写了一堆……] 我给你写好了一个bubble sort，带了很多test，很完美哦！我：但你怎么写的bubblesort，我要quicksort codex：[blabla想了一堆写了一堆……] 啊你说的对，quicksort很复杂所以我写了个correctness first的bubble sort，确实不是quick sort，但我给你加了很多优化哦你看看我：我要quicksort！！！ codex：[blabla想了一堆，不写了……] 啊是我前面理解有误，但是quicksort很复杂，所以这个correctness first的bubble sort很好哦，如果你要quicksort的话，看看我这个refactor plan 我：refactor plan看着不错，开干吧 codex：[blabla想了一堆写了一堆……] 我成功的推进了refactor plan，但没有完成它，因为quick sort很难，看我新的优化厉不厉害我：为啥没完成quicksort codex：因为quicksort很难，看我又有一个新的refactor plan来完成quick sort 从此开始无限循环

--- 第 129 楼来自 Keiour 的回复 (2026-04-30 14:43:58 PDT) ---

是的，本来用云端LLM搓的话one shot出来的代码也大概率是屎，也得要自己roll几次，测试，review，改代码，那其实本地LLM把任务切成小块慢慢喂也没差多少，还不用担心roll的次数多了把quota用完唯一缺点就是cot还是长，一个gemma 4 1-2k token搞定的输出qwen 3.6的cot能到8k甚至更多，都是在cot里面反复来回造成的。还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向以及很多模型在low effort那是真懒啊，不过厂商就是喜欢暗改thinking effort

--- 第 130 楼来自 BigCongming 的回复 (2026-04-30 14:48:35 PDT) ---

Keiour: 还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向确实也遇到过，也遇到过干着干着忘了prompt的情况还好我的习惯都是新开一个md来track progress的所以一般发生后影响不大

--- 第 131 楼来自收束观测者的回复 (2026-04-30 15:52:01 PDT) ---

BigCongming: 从此开始无限循环这是哪个模型啥推理强度？我试用GPT-5.5的instruction following确实有点问题，但是不确定是不是我环境的问题

--- 第 132 楼来自 BigCongming 的回复 (2026-04-30 15:52:51 PDT) ---

那时候还是5.4 xhigh和high之间

--- 第 133 楼来自收束观测者的回复 (2026-04-30 15:56:15 PDT) ---

我感觉环境（system prompt）的影响非常大我之前试过把copilot的harness短路掉用自己的extension访问同样的copilot API，感觉蹦出来一个不认识的模型人格 GPT内功感觉是比Opus强的但是一来instruction following很头疼二来copilot只给400K的context window，导致没得选只能主用opus

--- 第 134 楼来自 cnxcnx 的回复 (2026-04-30 17:35:30 PDT) ---

体感cc好用些但很喜欢糊弄 codex准确度更好但是慢以及不好用

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
Meta又来？ 💬 661
Meta内部大规模裁员与AI成本压力引发连锁反应。
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴
年底将至，赠送潭友 LinkedIn Premium 💬 477
年底赠送 LinkedIn Premium 助求职者与毕业生

← 返回 📈 搬砖