Qwen 3.6 27B来了
Qwen 3.6 27B coding需多轮迭代,cot长;GPT-5.5 instruction following存疑;cc好用但糊弄,codex准但慢。
1. 关键信息
- 27B dense 略逊于 Claude Opus 4.5 写码(#2)。
- 本地 coding agent 性价比持续提升,3090TI 24G 显存跑 Q5_K_M/Q6_K 吃力,5090/48G 更合适(#5, #15, #28)。
- DGX Spark 带宽瓶颈严重,RTX Pro 6000 更优(#8, #9, #37)。
- M3 Ultra prefill 强于 Spark,解码略优(#7, #16)。
- M4 Mac 显存与带宽不足,prefill 差,不适合大模型(#115, #117, #119)。
- 35B A3B/35BA3B 在 30GB 可跑 256k ctx,27B Q8 158KB ctx 24.2tps(#101–#104)。
- 无限制云端模型建议关 safety filter,DS 可破限(#94)。
- Qwen 3.6 27B Q4KM 实际 coding 体验(#128):follow instruction 很强,不会像 codex 或 claude 那样自我意识过剩;但 one shot vibe 不行,需要多轮 plan/review 才能迭代出高质量代码,最终代码质量不低于手写。codex 用作 review 质量高且挑剔,claude 20刀 subscription 的 review 质量不如 codex,代码质量也没明显强于 qwen 3.6 27B,plan 稍强但多迭代后无差距。codex 有拒绝写 quicksort 而强推 bubble sort 的奇葩行为(#128)。
- Qwen 3.6 的 cot 过长(#129):同样任务 gemma 4 只需 1-2k token,qwen 3.6 的 cot 可达 8k 甚至更多,反复来回导致。
- 偶有偏离 prompt(#129, #130):qwen 3.6 偶尔会执行 prompt 中没写的下一步任务,或忘记 prompt 内容。但用户通过 md 文件 track progress 可减少影响(#130)。
- 厂商喜欢暗改 thinking effort,low effort 时模型变懒(#129)。
- GPT-5.5/5.4 instruction following 问题(#131–#133):用户试用 GPT-5.5 时 instruction following 有问题,但不确定是否环境所致;GPT-5.4 在 xhigh 和 high 之间时出现类似现象。环境(system prompt)影响极大,copilot API 仅提供 400K context window,导致用户只能主用 Opus。GPT 内功(推理能力)感觉比 Opus 强,但 instruction following 头疼(#133)。
- cc 与 codex 用户体感(#134):cc 好用但喜欢糊弄,codex 准确度更好但慢且不好用。
2. 羊毛/优惠信息
- Amex Plat Biz 5% off + 5000-1000;Plat 消费满 5000 再减 1000;Rakuten 6% 返现(#79, #81)。
- 部分用户使用 3090/4090 二手或工包卡(#27, #97)。
- 云服务:lightning.ai 提供手机号每月 15 积分(#64)。
3. 最新动态
- 开源模型去道德限制后可能更普及(#56)。
- Qwen 3.6 实际体验与跑分不总一致(#99, #100)。
- 高频 coding 场景下 qwen 3.6 27B Q4KM 已可替代 claude/codex(#128),但需要用户主动多轮迭代、review,并留意 cot 长度和偏离 prompt 的问题(#129, #130)。
- GPT-5.5/5.4 的 instruction following 在特定环境下表现不佳,copilot 的 400K context window 限制了选择(#131–#133)。
- 用户对 cc 和 codex 的评价出现分歧:cc 易用但有糊弄倾向,codex 准确但慢(#134)。
4. 争议或不同意见
- 本地 vs 云端成本与隐私权衡(#31, #36, #48)。
- 电池与散热对 Mac 持续高负载的影响(#123–#129)。
- 关于 qwen 3.6 的 cot 长度是否影响效率:部分用户认为过长的 cot 浪费 token 且干扰推理,但另一部分用户认为只要习惯多轮迭代即可接受(#129)。
- 模型“偷懒”现象在 low effort 设置下普遍存在,厂商有动机暗改 effort(#129)。
- GPT-5.5/5.4 的 instruction following 问题是否源于环境(system prompt)还是模型本身,存在争议;部分用户认为 GPT 内功强于 Opus,但 instruction following 和 context window 限制使其实际可用性下降(#131–#133)。
- cc 和 codex 的优劣:cc“好用但糊弄” vs codex“准确但慢且不好用”,用户体感不一致(#134)。
5. 行动建议
- 预算充足优先选 RTX 5090/48G 或 Pro 6000 集群。
- M 系列用户暂观望 M5 机型。
- 羊毛优先使用 Amex Biz 优惠与云积分。
- 使用 Qwen 3.6 27B 做 coding agent 时:务必采用多轮 plan + review + 迭代模式,不要指望 one shot 高质量;用外部文件(如 md)追踪进度以防模型偏离;若在意 token 消耗,可对比其他推理模型(如 gemma 4)选择更短的 cot 方案(#128–#130)。
- 若使用 GPT-5.5/5.4 或 copilot API,需注意 instruction following 可能受 system prompt 影响,且 copilot 仅 400K context window,建议根据实际环境调整 prompt 或优先选择 Opus(#131–#133)。
- 使用 cc 时需警惕其糊弄行为,使用 codex 则需接受其速度较慢的缺点;可根据具体任务在两者间权衡(#134)。
https://huggingface.co/Qwen/Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B We’re on a journey to advance and democratize artificial intelligence through open source and open science. Unsloth版的GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-GGUF 在写码上狠狠的踢最伟大的公司的屁股
有点猛,dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了,难不成以后真的是本地跑模型本地写码
只要阿里继续大锅猛火蒸,AI基建的故事就停不下来,中美又双赢了。
Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了,到现在玩了差不多一个月的本地coding agent 反正现在CC $100起步,本地推理的性价比还在提升 没准未来本地推理真能大众化也不一定
真证真正蒸了吗 Keiour: Qwen 3.5之后 你用的什么卡 我感觉我的3090TI内存不太够用啊
qwen蒸了谁不知道,claude新模型满嘴阿里味肯定是蒸了,阿里语至少P8级别的
之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5,他说体验确实不错,还不用担心降智或者供应商发癫,成本大概七千多刀。
Rosmontis: 七千多刀 为什么不直接买DGX?
各有好坏吧,DGX的内存带宽实在是不行 有钱就买几条RTX Pro 6000了不是
本地serving最后只看TPS吧
prefill看flops,decode好像还是要看内存带宽的。
Mac 跑 dense 还是比 N 卡差距比较大,MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点
收束观测者: 我感觉我的3090TI内存不太够用啊 24GB显存今天用哪个好呢?
TPS不是flops,就是decoding最终性能啊
不带mmproj,KV cache Q8,Q5_K_M用-np 1 -c 262144大概是这个情况: common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 1738 + (28287 = 17761 + 8853 + 1672) + 2062 | common_memory_breakdown_print: | - Host | 1897 = 833 + 0 + 1064 | 24G显存的话如果不开桌面环境那估计是够131072上下文的 common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 562 + (23253 = 17761 + 4501 + 990) + 8272 | common_memory_breakdown_print: | - Host | 1385 = 833 + 0 + 552 | Q6_K在24G显存下应该跑不起来,32G不带桌面的话应该能跑-np 1 -c 262144或者245760 开桌面环境就有点够呛了 收束观测者: 本地serving最后只看TPS吧 看很多mac用户都提到prefill慢,毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高,context都能cache到内存里随便切换那影响其实也没那么大。 knowledge: 24GB显存今天用哪个好呢? Q5_K_M或者略小一点的量化应该都没问题,其实27b和隔壁的26b moe是最适合24G的尺寸
哦哦哦我看错了,我没比较过DGX和M3 ultra,但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力,上限更高。也可能是之前llama.cpp对Spark优化不够。
差一点 体验还是会很不一样吧
opus 4.5已经是去年11月份的水平了,那个时候已经在狂用vibe coding了,我感觉性能是足够了
这配置本地推理时间怎么样?
主力模型是200多B的MoE GLM4.7,9t/s 勉强能用的水平。每天大概能对话个20来次,但长上下文就不太行了。其他的不太清楚,我目前还不想搞本地模型。
因为GB10带宽其实很小,远低于M3 / M5 Ultra DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。
那还是慢 推理速度现在真的是限制本地模型最大的瓶颈
没办法,还是那句话,有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。
没点进来前就知道会看见“蒸”字 啥时候能在国产模型相关话题看不见这个字。。 ban 掉之后感觉很多人唯一能留的评论都没了
要速度只能直接用GPU了,双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下,48G显存现在也就2000出头。或者直接5090,今天3000不到,Q5可以跑到50 tps以上,缺点是显存小点。 Rosmontis: 有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。 留下了贫穷的泪水.png 后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了
蒸蚌!
那感觉某宝整个魔改32g的4080最划算?现在才12k人刀。不知道能跑多少tps
256 bit差不多700G的带宽,理论极限是20G的active param跑到35 tps,我估计跑27b dense Q5 30 tps不到一点吧,毕竟带宽一般是用不满的,有一点overhead。n卡prefill都是很快的TTFT可以忽略。 不知道4090 48现在啥价格,这玩意带宽更强显存也够。
22-24k人刀 贵不少了
我觉得怎么搞都无所谓,只要能把token的价格打下来就行 什么,你不爽因为你是等着上市发财的A社员工啊,那没事了
这玩意macbook pro本地跑能行吗?有点想本地整一个,效率高吗
5070ti能跑啥
24g以上的mbp应该可以 16g的也勉强行(7-9b)但是跑了之后就没法自己干活了 但只能做一些简单的工作 比如说总结email/写简单的python小工具什么的 而且没法像gpt和gemini那样做长对话 27b这种得顶配mbp了吧(128那种?)
我大概是m4pro 48g,我之前跑过32b的qwen但是那是前两年的事情了,那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了 主要是不太清楚新的模型到底是啥情况,我感觉如果不能一定程度上提供生产力就没必要玩了,除非能整点花活
48G的mac pro跑6bit应该没啥问题,但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。
主要的优势还是隐私吧 比如说很多ide的auto complete会把你的代码发到服务器上 然后有些搜索服务比如perplexity会用免费用户的data做训练和广告 但这两个use case本身并不需要什么很强的算力… 工具如果写得好 9b的模型也能做出还可以的效果
本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.
其实我觉得大部分llm从业者还挺客观的..
啥卡跑27b模型能跟得上写码的速度
128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的,比如openclaw,直接让你感觉在和树懒交互。
人也是llm啊 garbage in garbage out 都train成了看到“国产模型”下个token就是“蒸”了 RATT: 啥卡跑27b模型能跟得上写码的速度 这里有人说5090跑UD_Q5_K_XL可以有45 tps(这速度感觉够用,我自己5090跑35BA3B有>150tps感觉挺舒服), 128k ctx https://www.reddit.com/r/LocalLLaMA/comments/1sss5og/what_speed_is_everyone_getting_on_qwen36_27b/
他那个其实低了,5090 Q6_K跑起来能有59 tps(0上下文长度),Q5_K_M 64 tps在0上下文,同样是unsloth dynamic的GGUF。cuda 13.2,llama.cpp自己编译的。 我测下长上下文的表现,不过他的短上下文下推理速度远比我测的低,我自己的卡也没超过显存。 测了下32k上下文52.7 tps,64k上下文48.6 tps。
有点兴奋,之前用opus 4 已经能做到一个功能齐全的ios app,虽然不少bug 这个已经是个人免费生产力首选了吧
求拍醒,我要不要买 RTX PRO 5000 Blackwell Workstation Edition, 48 GB GDDR7 来跑这个? 4000不到可以 200max 买20个月了。
如果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型了
pikachu12138: 果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型 +1 现在token本来就巨型折扣。。。 不行就多开薅羊毛
而且主要问题还是在于电子设备(硬件)这种东西我觉得属于出二手折价最狠的,目前看到的比较保值的也就显卡和apple的一些设备,apple设备显然不符合层主有要求,显卡的话感觉是之前挖矿时代游戏卡比较保值,专业卡我觉得出二手给个人买家是比较难的事情 而且再咋样自己买卡都比不过买coding plan的,新模型还是好用的
纯经济角度没必要本地模型的。文字和图片现在 API 都很便宜,唯一贵的就是视频模型。做视频的话,还是买显卡本地跑比较划算,API 是真用不起
如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好
这个是不是秒杀gemma 4
你这个考虑也是很有道理的,我觉得比较刚需或者比较确定自己需要的可以买,像我这种不管咋样估计还是要订阅的那我买了显卡也没大作用 再就是也买不起5090这种显卡,做科研还可以找导师报销,实在不行组里cluster里面跑模型就行了,反正也有卡
确实,我自己跑了Q4K_M的有60+tps prompt eval time = 220.84 ms / 17 tokens ( 12.99 ms per token, 76.98 tokens per second) eval time = 54042.74 ms / 3577 tokens ( 15.11 ms per token, 66.19 tokens per second) total time = 54263.57 ms / 3594 tokens 哦现在跑的时候要550W了,之前35BA3B只要300W
别急,在投资硬件之前建议先考虑一下硬件钱能买多少token,自己的硬件往死里烧能烧出多少token来 – 或者估计一下自己一天用多少token然后算下这点钱能买多少token。 还有个问题是电费,不过相比于capex电费是小头,而且冬天有个显卡暖脚还是比较舒服的。 显卡主要是玩两个:第一个是顺便要打游戏,另一个是玩NSFW内容,尤其是出图——出图API不好破甲还死贵。
m芯片能出图吗
没玩过苹果机器,但是comfyui全家在pytorch上跑,能跑GPU加速的pytorch就能出图 BigCongming: 哦现在跑的时候要550W了,之前35BA3B只要300W 是的,moe模型CPU瓶颈挺重的,dense模型能跑满 我一般降个压,2820 MHz锁900 mV用,大概410-430W跑满
搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了
你要找的是不是Gemma 4 / Deepseek全家桶 Gemma 4可以直接被system prompt轻松破限,DS模型自身无限制。Qwen这种模型甲很重的开源模型是比较怪的,不过Qwen本身就不适合玩破甲。 甚至某些闭源模型都能关大部分的道德观限制,不过TOS还是不允许就是了。
https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive We’re on a journey to advance and democratize artificial intelligence through open source and open science.
这种用过,会降智
年纪大了老丢三落四,其实我想常开minecontext或者screenpipe,然后有什么事想不起来了就问AI。这个图片处理的token量应该比较大。 tomandjerry: 如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好 其实我也觉得照这个趋势显卡LLM可能会超opus 4.6,所以是很可能显卡会涨价。可是我买显卡的钱被SOXS亏掉了。
Keiour: 本地模型对写码 怎么用本地模型生成涩图?
https://www.uscardforum.com/t/topic/476665/1 /c/jobs/academics/48 By popular request, from my last thread on this topic ( https://www.uscardforum.com/t/topic/475986/14 ) (本来放在性爱,但想了想,也可以做其他东西,所以换到学术。Mod不允许可以换回去). #p-7458238-step-0-1Step 0: 假如你有时间,还是建议看完这个tutorial https://www.youtube.com/watch?v=HkoRkNLWQzY 别水了别水了,认真看帖吧
没有显卡咋办啊
https://www.uscardforum.com/t/topic/495721/14 /c/jobs/33 lightning.ai 每个手机号每个月免费15个积分,能用 h200。还有各种搭好的环境。 /uploads/short-url/ogRefRCHaVw0tsOLpvp5ve0bvH5.jpeg?dl=1
手搓一个不就行了: /uploads/short-url/iOeuwpZynozLVIuhqDfzJTYdqn8.jpeg?dl=1
用它们的东西做瑟图 他们也不管?
gpt早就干了,人体蜈蚣说是
又不是朝鲜开的网站,为什么不能生成成年人图片
折木奉太郎: 搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了 早就有了,已严肃使用: /uploads/short-url/l75SuZkFHffndotd22jDz6uU3eN.png?dl=1 /uploads/short-url/twbEVTAQMeQ6iuEHbYjwwFQGIPK.png?dl=1 /uploads/short-url/r8zmVvhvMjSY4gDrHrk8BBKNvkN.png?dl=1 /uploads/short-url/4LLzwGKsSyKZBDGcVPg9YSZqCo0.png?dl=1 WSL2+5090推理大约40tps,够用 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 不高,但是够用 BigCongming: Q4效果不好吗,Q8感觉效率损失太大啊 之前Qwen3.5写色情文章Q4效果很差,我再试一试 /uploads/short-url/zKdkfX5EFGi1QT5wuQVje3g9Irm.png?dl=1 已严肃试用
这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗
Q4效果不好吗,Q8感觉效率损失太大啊 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 内存塞得下都行,效率27B dense应该都能有10tps
现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了
minecontext 和screenpipe 的确,我也不敢用 API 干这个两个。
整点华强北魔改v100, 3090/4090 48g
长上下文不行有点遗憾,不过这样的配置一般用来干啥?
comfy UI,但是有很多模型可选可以找个LLM查下哪个模型适合你。 没显卡的话那只能花钱买API了 哈耶克: Qwen3.5写色情文章Q4效果很差 可以试试Gemma 4,NSFW还得看它,甲薄语言能力强 直接非破限模型system instruction给个好点的破限prompt就行,我自己用的是https://www.reddit.com/r/LocalLLaMA/comments/1sm3swd/gemma_4_jailbreak_system_prompt/ 的变化 Ansel: 现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了 美国一般是3090,从tps和残值角度5090也不错,如果不玩抽象服务器卡(SXM转接A100/V100)方案的话。 会玩A卡的话如果能找到合适价格的卡,XTX / R9700都是能玩的,甚至MI100都能玩。9700这卡不仅全新,27b Q5也能跑到25-30 tps,XTX和这速度上其实差不多。 B70看起来香但是单slot推理挺弱的。 中国有魔改Ada卡可以用。
完了,上头了。我已经下单了。这个价格用Amex Dell 5% offer, 三张Plat Biz卡减450,Plat Biz超5000再减1000,Rakuten 6%, 最后3500不到,反正SOXS已经亏了不止一张显卡了,就再亏一张吧。然后它是6/10才交货,中间还有机会反悔。 /uploads/short-url/1DzsPVkWd27U5tWDSd9j769zkMH.png?dl=1
3500要啥自行车,5090现在也要3000了。 5000-1000是啥方法啊
Plat Biz Dell 5000-1000。
我商白没开过,我有罪
我还有3张Biz的150要花,家里一堆键盘鼠标,连门锁都换了。为了花这些coupon,花太多心思,划不来。马上关关关。
爹地 我想要个ps5pro 可以给我买嘛
az8: 反正SOXS已经亏了不止一张显卡了,就再亏一张吧 富哥草我
很多都是benchmaxxxx,来个坛友实际跑一下开发试试 kimi看reddit上说算是低价版的sonnet
我艹你这么一算我都想下手了
纯看推理workload这卡在3500确实不错,48G新卡应该没有比这卡性价比更高的了。 而且这卡5090 2/3的SM也能打点游戏
用m4max 64g内存跑的,用的omlx,小任务不开thinking还凑合,任务复杂了,或者thinking了,就慢的不行,一个prompt等十分钟那种
算了我也就口胡 3090TI买了不记得多少年了就没怎么用过
那就快动手吧,我已经想了快半个月了。自从公司里有台RTX 6000 48G可以给我独享后我就琢磨着多玩点,可惜要经常跑任务不能老是开着QWen 3.6,还是自己搞一个玩可能更好玩些,也许还能上上课啥的。
可是我实在没有什么必须要local的任务啊
uncensored ai
只要不炼铜走API没啥问题啊
safeguard破事一大堆,我想写个爬航司api的bot都跟我bb半天这个是灰色地带
啥LLM啊这么婆妈,真要用无限制的云端模型的话认准谷歌vertex,把filter关完就行: safety_settings: - category: "HARM_CATEGORY_HATE_SPEECH" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_DANGEROUS_CONTENT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_SEXUALLY_EXPLICIT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_HARASSMENT" threshold: "BLOCK_NONE" 或者ds这种开源无甲的也行
泡面头的opus
Claude 在cc里的safety filter没有chat强,chat我基本上那几个微生物每次都可以触发0输出立刻terminate或者是research mode planning phase就死 可以处理大量chat里不能处理的,被mark成危险微生物的东西,可以说是写码爽死了 一个月大概20M-40M output token 我可能是claude opus的监工 本地llm目前用3.5 122b qx85 虽然不大聪明,但是我也就只需一个重写机器
我的4090可以跑27b
我在cc上大概跑了一晚上,产出感觉比3.6 35BA3B稳定 小task涉及到代码行数不多的完成的挺快质量也很好,涉及多的话就显著受限,完成时间快速增加也容易漏考虑很多东西需要配合其他model多轮review(当然大的model我这也得多轮review才能稳定就是就是完成效率高一些) 当然其他的我就用过sonnet4.6 opus4.6和codex5.4(体感codex在下午高峰期稳定的出工不出力,以及稳定的有自己的想法不follow instructions) 另:感觉所有model当reviewer比写代码更靠谱,可能是我的用法问题吧
据说qwen 跑分高,实际体验差。大家用起来如何
tomandjerry: qwen 跑分高,实际体验差 对,一定是这样的,所以大家都别买阿里的coding plan让我抢一个吧
你用27B是什么版本?推荐的UD-Q4_K_XL还是33GB的UD-Q8_K_XL?
暂时Q4KM感觉比较满意,还没试过别的,想开256k ctx,用太大的就爆显存剩个10tps了
我这个33GB的Q8, 158KB context , 24.2tps, 感觉挺不错的,拿来做我的个人助理完全够。
你的3.6 35BA3B是什么版本?如果27B只是用Q4的话,也许不会比35BA3B Q6强?我试了35BA3B UD_Q6_K_XL, 30GB size, 可以上到256K ctx,145 tps,太强了。
我用的bartowski的Q5_K_M,回头试试你的那个看看 你的5090有host monitor吗还是单纯就跑model
有啥推荐的host monitor吗?
我指的是有没有接显示器 自用的我都懒得看
我用的是6000 Ada单纯跑model,不知为何Xorg还占了4M,monitor应该用板载显卡就可以。网上搜了下,可能Coding 27B的还是强。
az8: monitor应该用板载显卡就可以 那我毕竟还想玩游戏
个人用当然是一卡多用了,你还挖矿不?
这年头挖矿感觉亏电费啊
我跑Q6模型的时候都直接退出桌面笔记本上玩的 KDE桌面要1.5G显存呢,退掉只剩几M了 hyprland会好一点但是不大喜欢
视频有什么开源好模型吗?最新的还是wan2.2吧,被seedance2.0按在地上锤
500的税是不是其实可以考虑去免税州收?
测试了下48G mac pro m4 跑Ollama Qwen 3.6 23GB MoE 没问题,速度可以的,虽然比 6000 要慢一些,但是依旧很快。 问题来了,我到底是花3.5K 买5000 48GB 好呢?还是干脆干 mac pro m5, 64GB 可以干更大的模型,或者128GB 更更大,但是更贵了? 哦,非学生价加二百多。 /uploads/short-url/i4urnLDk8J9ASuvYDatjDvWKyAQ.jpeg?dl=1
我还在观望,感觉可以等一个m5的mac studio
m4是不是prefill差强人意啊?不知道长context究竟如何?网上的测评太浮于表面了
公司不配吗,自己花钱买这个真不如花钱买api…本地跑14寸macbook pro风扇拉满机身还贼烫,感觉用不了多久电池就要报废
Ansel: 差强人意 是刚刚能满意的意思,M4 prefill根本不行,4090,DGX Spark flops得是M4的十倍左右了吧
az8: Qwen 3.6 23GB MoE 这是什么,35b a3b? 哪有23b的moe?
又用了一天感觉opencode好像比claude code更好用吗,更能follow instruction 可能是context问题,cc往ctx塞东西好像有点激进,虽然两者都存在忘掉plan的情况但是opencode少很多(体感)
Quantized 模型在特定情况下损失很大,benchmark里coding 相关大幅度下降,写作和tool use也有不同程度下降 而且Q8/FP16的模型某些情况下大context 的时候MLX性能损失低 128GB真不行可以用来跑虚拟机啊,orbstack跑一个
电池据我所知和键盘一体,可以applecare加速换大件,不是好事么 如果一直70wh左右进行120w的 discharge(我最高测出过130w),坏掉要4-800个高负载+充电循环 根本不用担心
怎么快速用坏电池?
EndangeredZeegull: 电池据我所知和键盘一体 并不是一体的 高温电池还放电,一周应该就要鼓包了,还有14寸应该跑不上100w
不停跑llm或者其他高温的任务,不插电,放完电再充电,充满电再放到没电
Pro 14/16 电池是一体的,必须一起换top case,来源:Apple SSR,https://www.reddit.com/r/macbookpro/comments/1kypf69/does_apple_still_replace_whole_top_case_when/ 14寸有3个c口,每个支持15w,目前我测过的可以2口加起来大约30w,背光在betterdisplay HDR 160%时选择纯白背景大约25w,其他加起来可以stress ANE,CPU,GPU,RAM,NVME,键盘背光,以及摄像头。稳定不崩溃两个usb的情况下可以到110w-125w,见以下benchmark结果(自己做的软件),这个测试中键盘背光没有关闭,而且为了稳定性,我没有开全负荷nvme 和memory的stress。这台电脑的真实电池健康大约在77%,也就是说它可以支持接近2C的discharge。 不需要不插电,通过特殊脚本可以软件控制禁止和恢复充电行为 tomandjerry: 怎么快速用坏电池? 快速冲放 下面这台机器在90w负荷下测试了一百多个循环,每天充放电12个左右,充电到98%,放到2%,并没有鼓包。测试的原因是电池只有85%,而且键盘指纹有暗病。macos有多个评估电池的指标可以读出来,例如Qmax(这个长期不更新会影响充电速度稳定性和在快速放电的时候随机shutdown,更新大致需要半满放着待机)(在之前做过120w持续十几个循环,但是容易崩溃) 根据我的测试,我花了好久都没换成电池,反倒是容量在肉眼可见的下降(apple settings里电池容量并没有更新),我是傻逼 SSR: /uploads/short-url/86ENfDTyPzehc0rEuobbf3RQ0lR.jpeg?dl=1 刚刚新鲜的结果 [2026-04-25 01:43:27] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:31] Battery: 89%, 109.8W, 31.08°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:31] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:34] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:34] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:37] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:37] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:40] Battery: 89%, 109.5W, 31.14°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:40] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:43] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:43] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:46] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:46] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:49] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:49] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:52] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:52] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:55] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:55] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:58] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:58] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:44:01] Stopping Watchdog (pgid 82151) [2026-04-25 01:44:01] Stopping CPU+Memory stress (pgid 82106) [2026-04-25 01:44:01] Stopping GPU stress (pgid 82107) [2026-04-25 01:44:01] Stopping Media(HEVC) stress (pgid 82108) [2026-04-25 01:44:02] Stopping Media(H.264) stress (pgid 82109) [2026-04-25 01:44:02] Stopping ANE stress (pgid 82127) [2026-04-25 01:44:03] Stopping Camera stress (pgid 82128) [2026-04-25 01:44:04] Removed fio test file: /tmp/fio_stress_seq.dat [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended 电池容量参数 /uploads/short-url/6cj4eJVEAGYHKVnnDgwPL3HBvSb.png?dl=1 电池容量(使用的是另一个参数) /uploads/short-url/vKEfDtgMgH8vWRZYMz890ghirBE.png?dl=1
高强度拿来复现一个paper好多天了,opencode+Qwen3.6 27B Q4KM 目前的感觉是 Qwen3.6 follow instruction很强,不用怎么需要担心像codex和sonnet/opus那样偶尔会自我意识过剩。不过看他思考过程,第一反应就是你说啥就是啥想都不想 one shot vibe别考虑了,不是小llm能干的事情,你需要hands on的做多轮plan多轮review,可以迭代出很高的代码质量,不比手写的差(可能是我菜),但话说回来codex opus one shot vibe也是在摸彩票,我第一轮让codex搞的框架最终是个灾难后面重新删光了re了一遍 codex 用来review质量很高,而且相当picky,claude找不到的bug他可以 至于claude,同样20刀的subscription拿来review code change也是两下花光quota,给的review质量还没codex高,代码质量没感觉比qwen3.6 27B强,plan可能稍微强一点,但是对比qwen+codex review多迭代两次出来的plan并没有差距,在我这可以丢进垃圾堆了就公司不管quota用用还不错 之前让codex one shot vibe的时候大概是这样的 我:给我写个quicksort codex:[blabla想了一堆写了一堆……] 我给你写好了一个bubble sort,带了很多test,很完美哦! 我:但你怎么写的bubblesort,我要quicksort codex:[blabla想了一堆写了一堆……] 啊你说的对,quicksort很复杂所以我写了个correctness first的bubble sort,确实不是quick sort,但我给你加了很多优化哦你看看 我:我要quicksort!!! codex:[blabla想了一堆,不写了……] 啊是我前面理解有误,但是quicksort很复杂,所以这个correctness first的bubble sort很好哦,如果你要quicksort的话,看看我这个refactor plan 我:refactor plan看着不错,开干吧 codex:[blabla想了一堆写了一堆……] 我成功的推进了refactor plan,但没有完成它,因为quick sort很难,看我新的优化厉不厉害 我:为啥没完成quicksort codex:因为quicksort很难,看我又有一个新的refactor plan来完成quick sort 从此开始无限循环
是的,本来用云端LLM搓的话one shot出来的代码也大概率是屎,也得要自己roll几次,测试,review,改代码,那其实本地LLM把任务切成小块慢慢喂也没差多少,还不用担心roll的次数多了把quota用完 唯一缺点就是cot还是长,一个gemma 4 1-2k token搞定的输出qwen 3.6的cot能到8k甚至更多,都是在cot里面反复来回造成的。还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 以及很多模型在low effort那是真懒啊,不过厂商就是喜欢暗改thinking effort
Keiour: 还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 确实也遇到过,也遇到过干着干着忘了prompt的情况 还好我的习惯都是新开一个md来track progress的所以一般发生后影响不大
BigCongming: 从此开始无限循环 这是哪个模型啥推理强度? 我试用GPT-5.5的instruction following确实有点问题,但是不确定是不是我环境的问题
那时候还是5.4 xhigh和high之间
我感觉环境(system prompt)的影响非常大 我之前试过把copilot的harness短路掉用自己的extension访问同样的copilot API,感觉蹦出来一个不认识的模型人格 GPT内功感觉是比Opus强的 但是一来instruction following很头疼二来copilot只给400K的context window,导致没得选只能主用opus
体感cc好用些但很喜欢糊弄 codex准确度更好但是慢以及不好用