Qwen 3.6 27B来了
Qwen 3.6 27B部署讨论延续,新增办公室硬件回收闲聊。
1. 关键信息
- Qwen 3.6 27B 部署实测:
- 概念辨析:过度自信 vs. 幻觉:
- 过度自信 (Overly Confident):模型能正确跟随思路,但输出存在细微错误或问题,且自身意识不到错误,导致需要用户不断重做或修正。这是一种“错误的确定性”(#198)。
- 幻觉 (Hallucination):模型基于看似合理的假设进行推理,但不做事实核查,直接按该假设展开后续逻辑。这属于基础的事实性错误(#199, #200)。
- 应对策略:对于幻觉问题,即使是云端高端模型(如 Opus)也需通过 Prompt 强制要求“先验证假设”(verify your hypothesis first);在 Agent 架构中,可引入另一个 Agent 进行交叉验证或监督(#200, #201)。
2. 最新动态
- 社区焦点转移:随着 Qwen 3.6 27B 的讨论深入,部分用户开始寻求替代方案或更强大的代码助手。有用户提出“万事不决问泥潭指定 Codex”,暗示在特定复杂场景下,Codex 可能被视为比当前本地部署模型更可靠的默认选择(#202)。
- 资源获取讨论:针对 Codex 的使用,社区成员提及了通过 Lounge 中的 Business Card 白嫖体验的情况,反映出用户对低成本或免费使用高端云端代码模型的持续关注(#203)。
3. 闲聊脉络
- 办公室硬件回收八卦:用户 @tomandjerry 分享趣闻,指出公司几年前购买的3台高性能PC因领导层扣留未回收,被用于“打豆豆”等闲职,侧面反映了部分企业IT资产管理的随意性或闲置资源的存在(#204)。
4. 经验与数据点
- 本地 Agent 工作流优化:
5. 争议或不同意见
- 模型行为归因讨论:用户深入探讨了本地与云端模型在“错误类型”上的共性。尽管本地模型常被批评稳定性差,但云端模型同样存在幻觉问题,区别仅在于程度和频率。核心矛盾已从“本地 vs 云端”转向“如何定义和缓解模型的具体错误模式”(#197-201)。
- 工具选择偏好:从讨论 Codex 的倾向来看,部分用户可能在权衡本地部署的资源成本与云端模型的准确性/便利性后,倾向于在关键任务中回归云端强模型(如 Codex),这反映了本地量化模型在极端复杂代码场景下仍面临信任度挑战。
6. 行动建议
https://huggingface.co/Qwen/Qwen3.6-27B https://huggingface.co/Qwen/Qwen3.6-27B We’re on a journey to advance and democratize artificial intelligence through open source and open science. Unsloth版的GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-GGUF 在写码上狠狠的踢最伟大的公司的屁股
有点猛,dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了,难不成以后真的是本地跑模型本地写码
只要阿里继续大锅猛火蒸,AI基建的故事就停不下来,中美又双赢了。
Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了,到现在玩了差不多一个月的本地coding agent 反正现在CC $100起步,本地推理的性价比还在提升 没准未来本地推理真能大众化也不一定
真证真正蒸了吗 Keiour: Qwen 3.5之后 你用的什么卡 我感觉我的3090TI内存不太够用啊
qwen蒸了谁不知道,claude新模型满嘴阿里味肯定是蒸了,阿里语至少P8级别的
之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5,他说体验确实不错,还不用担心降智或者供应商发癫,成本大概七千多刀。
Rosmontis: 七千多刀 为什么不直接买DGX?
各有好坏吧,DGX的内存带宽实在是不行 有钱就买几条RTX Pro 6000了不是
本地serving最后只看TPS吧
prefill看flops,decode好像还是要看内存带宽的。
Mac 跑 dense 还是比 N 卡差距比较大,MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点
收束观测者: 我感觉我的3090TI内存不太够用啊 24GB显存今天用哪个好呢?
TPS不是flops,就是decoding最终性能啊
不带mmproj,KV cache Q8,Q5_K_M用-np 1 -c 262144大概是这个情况: common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 1738 + (28287 = 17761 + 8853 + 1672) + 2062 | common_memory_breakdown_print: | - Host | 1897 = 833 + 0 + 1064 | 24G显存的话如果不开桌面环境那估计是够131072上下文的 common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted | common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 562 + (23253 = 17761 + 4501 + 990) + 8272 | common_memory_breakdown_print: | - Host | 1385 = 833 + 0 + 552 | Q6_K在24G显存下应该跑不起来,32G不带桌面的话应该能跑-np 1 -c 262144或者245760 开桌面环境就有点够呛了 收束观测者: 本地serving最后只看TPS吧 看很多mac用户都提到prefill慢,毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高,context都能cache到内存里随便切换那影响其实也没那么大。 knowledge: 24GB显存今天用哪个好呢? Q5_K_M或者略小一点的量化应该都没问题,其实27b和隔壁的26b moe是最适合24G的尺寸
哦哦哦我看错了,我没比较过DGX和M3 ultra,但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力,上限更高。也可能是之前llama.cpp对Spark优化不够。
差一点 体验还是会很不一样吧
opus 4.5已经是去年11月份的水平了,那个时候已经在狂用vibe coding了,我感觉性能是足够了
这配置本地推理时间怎么样?
主力模型是200多B的MoE GLM4.7,9t/s 勉强能用的水平。每天大概能对话个20来次,但长上下文就不太行了。其他的不太清楚,我目前还不想搞本地模型。
因为GB10带宽其实很小,远低于M3 / M5 Ultra DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。
那还是慢 推理速度现在真的是限制本地模型最大的瓶颈
没办法,还是那句话,有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。
没点进来前就知道会看见“蒸”字 啥时候能在国产模型相关话题看不见这个字。。 ban 掉之后感觉很多人唯一能留的评论都没了
要速度只能直接用GPU了,双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下,48G显存现在也就2000出头。或者直接5090,今天3000不到,Q5可以跑到50 tps以上,缺点是显存小点。 Rosmontis: 有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。 留下了贫穷的泪水.png 后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了
蒸蚌!
那感觉某宝整个魔改32g的4080最划算?现在才12k人刀。不知道能跑多少tps
256 bit差不多700G的带宽,理论极限是20G的active param跑到35 tps,我估计跑27b dense Q5 30 tps不到一点吧,毕竟带宽一般是用不满的,有一点overhead。n卡prefill都是很快的TTFT可以忽略。 不知道4090 48现在啥价格,这玩意带宽更强显存也够。
22-24k人刀 贵不少了
我觉得怎么搞都无所谓,只要能把token的价格打下来就行 什么,你不爽因为你是等着上市发财的A社员工啊,那没事了
这玩意macbook pro本地跑能行吗?有点想本地整一个,效率高吗
5070ti能跑啥
24g以上的mbp应该可以 16g的也勉强行(7-9b)但是跑了之后就没法自己干活了 但只能做一些简单的工作 比如说总结email/写简单的python小工具什么的 而且没法像gpt和gemini那样做长对话 27b这种得顶配mbp了吧(128那种?)
我大概是m4pro 48g,我之前跑过32b的qwen但是那是前两年的事情了,那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了 主要是不太清楚新的模型到底是啥情况,我感觉如果不能一定程度上提供生产力就没必要玩了,除非能整点花活
48G的mac pro跑6bit应该没啥问题,但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。
主要的优势还是隐私吧 比如说很多ide的auto complete会把你的代码发到服务器上 然后有些搜索服务比如perplexity会用免费用户的data做训练和广告 但这两个use case本身并不需要什么很强的算力… 工具如果写得好 9b的模型也能做出还可以的效果
本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.
其实我觉得大部分llm从业者还挺客观的..
啥卡跑27b模型能跟得上写码的速度
128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的,比如openclaw,直接让你感觉在和树懒交互。
人也是llm啊 garbage in garbage out 都train成了看到“国产模型”下个token就是“蒸”了 RATT: 啥卡跑27b模型能跟得上写码的速度 这里有人说5090跑UD_Q5_K_XL可以有45 tps(这速度感觉够用,我自己5090跑35BA3B有>150tps感觉挺舒服), 128k ctx https://www.reddit.com/r/LocalLLaMA/comments/1sss5og/what_speed_is_everyone_getting_on_qwen36_27b/
他那个其实低了,5090 Q6_K跑起来能有59 tps(0上下文长度),Q5_K_M 64 tps在0上下文,同样是unsloth dynamic的GGUF。cuda 13.2,llama.cpp自己编译的。 我测下长上下文的表现,不过他的短上下文下推理速度远比我测的低,我自己的卡也没超过显存。 测了下32k上下文52.7 tps,64k上下文48.6 tps。
有点兴奋,之前用opus 4 已经能做到一个功能齐全的ios app,虽然不少bug 这个已经是个人免费生产力首选了吧
求拍醒,我要不要买 RTX PRO 5000 Blackwell Workstation Edition, 48 GB GDDR7 来跑这个? 4000不到可以 200max 买20个月了。
如果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型了
pikachu12138: 果这硬件近期价格波动不会很大,感觉没必要买啊,狗几个月可能就有更强的模型 +1 现在token本来就巨型折扣。。。 不行就多开薅羊毛
而且主要问题还是在于电子设备(硬件)这种东西我觉得属于出二手折价最狠的,目前看到的比较保值的也就显卡和apple的一些设备,apple设备显然不符合层主有要求,显卡的话感觉是之前挖矿时代游戏卡比较保值,专业卡我觉得出二手给个人买家是比较难的事情 而且再咋样自己买卡都比不过买coding plan的,新模型还是好用的
纯经济角度没必要本地模型的。文字和图片现在 API 都很便宜,唯一贵的就是视频模型。做视频的话,还是买显卡本地跑比较划算,API 是真用不起
如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好
这个是不是秒杀gemma 4
你这个考虑也是很有道理的,我觉得比较刚需或者比较确定自己需要的可以买,像我这种不管咋样估计还是要订阅的那我买了显卡也没大作用 再就是也买不起5090这种显卡,做科研还可以找导师报销,实在不行组里cluster里面跑模型就行了,反正也有卡
确实,我自己跑了Q4K_M的有60+tps prompt eval time = 220.84 ms / 17 tokens ( 12.99 ms per token, 76.98 tokens per second) eval time = 54042.74 ms / 3577 tokens ( 15.11 ms per token, 66.19 tokens per second) total time = 54263.57 ms / 3594 tokens 哦现在跑的时候要550W了,之前35BA3B只要300W
别急,在投资硬件之前建议先考虑一下硬件钱能买多少token,自己的硬件往死里烧能烧出多少token来 – 或者估计一下自己一天用多少token然后算下这点钱能买多少token。 还有个问题是电费,不过相比于capex电费是小头,而且冬天有个显卡暖脚还是比较舒服的。 显卡主要是玩两个:第一个是顺便要打游戏,另一个是玩NSFW内容,尤其是出图——出图API不好破甲还死贵。
m芯片能出图吗
没玩过苹果机器,但是comfyui全家在pytorch上跑,能跑GPU加速的pytorch就能出图 BigCongming: 哦现在跑的时候要550W了,之前35BA3B只要300W 是的,moe模型CPU瓶颈挺重的,dense模型能跑满 我一般降个压,2820 MHz锁900 mV用,大概410-430W跑满
搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了
你要找的是不是Gemma 4 / Deepseek全家桶 Gemma 4可以直接被system prompt轻松破限,DS模型自身无限制。Qwen这种模型甲很重的开源模型是比较怪的,不过Qwen本身就不适合玩破甲。 甚至某些闭源模型都能关大部分的道德观限制,不过TOS还是不允许就是了。
https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive We’re on a journey to advance and democratize artificial intelligence through open source and open science.
这种用过,会降智
年纪大了老丢三落四,其实我想常开minecontext或者screenpipe,然后有什么事想不起来了就问AI。这个图片处理的token量应该比较大。 tomandjerry: 如果过几个月qwen 4 出来,小模型打平opus 4.6,那显卡就上天了。还是早买好 其实我也觉得照这个趋势显卡LLM可能会超opus 4.6,所以是很可能显卡会涨价。可是我买显卡的钱被SOXS亏掉了。
Keiour: 本地模型对写码 怎么用本地模型生成涩图?
https://www.uscardforum.com/t/topic/476665/1 /c/jobs/academics/48 By popular request, from my last thread on this topic ( https://www.uscardforum.com/t/topic/475986/14 ) (本来放在性爱,但想了想,也可以做其他东西,所以换到学术。Mod不允许可以换回去). #p-7458238-step-0-1Step 0: 假如你有时间,还是建议看完这个tutorial https://www.youtube.com/watch?v=HkoRkNLWQzY 别水了别水了,认真看帖吧
没有显卡咋办啊
https://www.uscardforum.com/t/topic/495721/14 /c/jobs/33 lightning.ai 每个手机号每个月免费15个积分,能用 h200。还有各种搭好的环境。 /uploads/short-url/ogRefRCHaVw0tsOLpvp5ve0bvH5.jpeg?dl=1
手搓一个不就行了: /uploads/short-url/iOeuwpZynozLVIuhqDfzJTYdqn8.jpeg?dl=1
用它们的东西做瑟图 他们也不管?
gpt早就干了,人体蜈蚣说是
又不是朝鲜开的网站,为什么不能生成成年人图片
折木奉太郎: 搞开源模型的如果能把道德观限制去一下,可以预见开源模型将会遍地开花,美国这些公司就没戏唱了 早就有了,已严肃使用: /uploads/short-url/l75SuZkFHffndotd22jDz6uU3eN.png?dl=1 /uploads/short-url/twbEVTAQMeQ6iuEHbYjwwFQGIPK.png?dl=1 /uploads/short-url/r8zmVvhvMjSY4gDrHrk8BBKNvkN.png?dl=1 /uploads/short-url/4LLzwGKsSyKZBDGcVPg9YSZqCo0.png?dl=1 WSL2+5090推理大约40tps,够用 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 不高,但是够用 BigCongming: Q4效果不好吗,Q8感觉效率损失太大啊 之前Qwen3.5写色情文章Q4效果很差,我再试一试 /uploads/short-url/zKdkfX5EFGi1QT5wuQVje3g9Irm.png?dl=1 已严肃试用
这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗
Q4效果不好吗,Q8感觉效率损失太大啊 makeapp: 这玩意 macbook pro 本地跑能行吗?有点想本地整一个,效率高吗 内存塞得下都行,效率27B dense应该都能有10tps
现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了
minecontext 和screenpipe 的确,我也不敢用 API 干这个两个。
整点华强北魔改v100, 3090/4090 48g
长上下文不行有点遗憾,不过这样的配置一般用来干啥?
comfy UI,但是有很多模型可选可以找个LLM查下哪个模型适合你。 没显卡的话那只能花钱买API了 哈耶克: Qwen3.5写色情文章Q4效果很差 可以试试Gemma 4,NSFW还得看它,甲薄语言能力强 直接非破限模型system instruction给个好点的破限prompt就行,我自己用的是https://www.reddit.com/r/LocalLLaMA/comments/1sm3swd/gemma_4_jailbreak_system_prompt/ 的变化 Ansel: 现在本地部署甜点硬件是不是就是4090了?诶,当年怎么就没买3090?要换电源,拆下的3080只能当二手卖了 美国一般是3090,从tps和残值角度5090也不错,如果不玩抽象服务器卡(SXM转接A100/V100)方案的话。 会玩A卡的话如果能找到合适价格的卡,XTX / R9700都是能玩的,甚至MI100都能玩。9700这卡不仅全新,27b Q5也能跑到25-30 tps,XTX和这速度上其实差不多。 B70看起来香但是单slot推理挺弱的。 中国有魔改Ada卡可以用。
完了,上头了。我已经下单了。这个价格用Amex Dell 5% offer, 三张Plat Biz卡减450,Plat Biz超5000再减1000,Rakuten 6%, 最后3500不到,反正SOXS已经亏了不止一张显卡了,就再亏一张吧。然后它是6/10才交货,中间还有机会反悔。 /uploads/short-url/1DzsPVkWd27U5tWDSd9j769zkMH.png?dl=1
3500要啥自行车,5090现在也要3000了。 5000-1000是啥方法啊
Plat Biz Dell 5000-1000。
我商白没开过,我有罪
我还有3张Biz的150要花,家里一堆键盘鼠标,连门锁都换了。为了花这些coupon,花太多心思,划不来。马上关关关。
爹地 我想要个ps5pro 可以给我买嘛
az8: 反正SOXS已经亏了不止一张显卡了,就再亏一张吧 富哥草我
很多都是benchmaxxxx,来个坛友实际跑一下开发试试 kimi看reddit上说算是低价版的sonnet
我艹你这么一算我都想下手了
纯看推理workload这卡在3500确实不错,48G新卡应该没有比这卡性价比更高的了。 而且这卡5090 2/3的SM也能打点游戏
用m4max 64g内存跑的,用的omlx,小任务不开thinking还凑合,任务复杂了,或者thinking了,就慢的不行,一个prompt等十分钟那种
算了我也就口胡 3090TI买了不记得多少年了就没怎么用过
那就快动手吧,我已经想了快半个月了。自从公司里有台RTX 6000 48G可以给我独享后我就琢磨着多玩点,可惜要经常跑任务不能老是开着QWen 3.6,还是自己搞一个玩可能更好玩些,也许还能上上课啥的。
可是我实在没有什么必须要local的任务啊
uncensored ai
只要不炼铜走API没啥问题啊
safeguard破事一大堆,我想写个爬航司api的bot都跟我bb半天这个是灰色地带
啥LLM啊这么婆妈,真要用无限制的云端模型的话认准谷歌vertex,把filter关完就行: safety_settings: - category: "HARM_CATEGORY_HATE_SPEECH" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_DANGEROUS_CONTENT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_SEXUALLY_EXPLICIT" threshold: "BLOCK_NONE" - category: "HARM_CATEGORY_HARASSMENT" threshold: "BLOCK_NONE" 或者ds这种开源无甲的也行
泡面头的opus
Claude 在cc里的safety filter没有chat强,chat我基本上那几个微生物每次都可以触发0输出立刻terminate或者是research mode planning phase就死 可以处理大量chat里不能处理的,被mark成危险微生物的东西,可以说是写码爽死了 一个月大概20M-40M output token 我可能是claude opus的监工 本地llm目前用3.5 122b qx85 虽然不大聪明,但是我也就只需一个重写机器
我的4090可以跑27b
我在cc上大概跑了一晚上,产出感觉比3.6 35BA3B稳定 小task涉及到代码行数不多的完成的挺快质量也很好,涉及多的话就显著受限,完成时间快速增加也容易漏考虑很多东西需要配合其他model多轮review(当然大的model我这也得多轮review才能稳定就是就是完成效率高一些) 当然其他的我就用过sonnet4.6 opus4.6和codex5.4(体感codex在下午高峰期稳定的出工不出力,以及稳定的有自己的想法不follow instructions) 另:感觉所有model当reviewer比写代码更靠谱,可能是我的用法问题吧
据说qwen 跑分高,实际体验差。大家用起来如何
tomandjerry: qwen 跑分高,实际体验差 对,一定是这样的,所以大家都别买阿里的coding plan让我抢一个吧
你用27B是什么版本?推荐的UD-Q4_K_XL还是33GB的UD-Q8_K_XL?
暂时Q4KM感觉比较满意,还没试过别的,想开256k ctx,用太大的就爆显存剩个10tps了
我这个33GB的Q8, 158KB context , 24.2tps, 感觉挺不错的,拿来做我的个人助理完全够。
你的3.6 35BA3B是什么版本?如果27B只是用Q4的话,也许不会比35BA3B Q6强?我试了35BA3B UD_Q6_K_XL, 30GB size, 可以上到256K ctx,145 tps,太强了。
我用的bartowski的Q5_K_M,回头试试你的那个看看 你的5090有host monitor吗还是单纯就跑model
有啥推荐的host monitor吗?
我指的是有没有接显示器 自用的我都懒得看
我用的是6000 Ada单纯跑model,不知为何Xorg还占了4M,monitor应该用板载显卡就可以。网上搜了下,可能Coding 27B的还是强。
az8: monitor应该用板载显卡就可以 那我毕竟还想玩游戏
个人用当然是一卡多用了,你还挖矿不?
这年头挖矿感觉亏电费啊
我跑Q6模型的时候都直接退出桌面笔记本上玩的 KDE桌面要1.5G显存呢,退掉只剩几M了 hyprland会好一点但是不大喜欢
视频有什么开源好模型吗?最新的还是wan2.2吧,被seedance2.0按在地上锤
500的税是不是其实可以考虑去免税州收?
测试了下48G mac pro m4 跑Ollama Qwen 3.6 23GB MoE 没问题,速度可以的,虽然比 6000 要慢一些,但是依旧很快。 问题来了,我到底是花3.5K 买5000 48GB 好呢?还是干脆干 mac pro m5, 64GB 可以干更大的模型,或者128GB 更更大,但是更贵了? 哦,非学生价加二百多。 /uploads/short-url/i4urnLDk8J9ASuvYDatjDvWKyAQ.jpeg?dl=1
我还在观望,感觉可以等一个m5的mac studio
m4是不是prefill差强人意啊?不知道长context究竟如何?网上的测评太浮于表面了
公司不配吗,自己花钱买这个真不如花钱买api…本地跑14寸macbook pro风扇拉满机身还贼烫,感觉用不了多久电池就要报废
Ansel: 差强人意 是刚刚能满意的意思,M4 prefill根本不行,4090,DGX Spark flops得是M4的十倍左右了吧
az8: Qwen 3.6 23GB MoE 这是什么,35b a3b? 哪有23b的moe?
又用了一天感觉opencode好像比claude code更好用吗,更能follow instruction 可能是context问题,cc往ctx塞东西好像有点激进,虽然两者都存在忘掉plan的情况但是opencode少很多(体感)
Quantized 模型在特定情况下损失很大,benchmark里coding 相关大幅度下降,写作和tool use也有不同程度下降 而且Q8/FP16的模型某些情况下大context 的时候MLX性能损失低 128GB真不行可以用来跑虚拟机啊,orbstack跑一个
电池据我所知和键盘一体,可以applecare加速换大件,不是好事么 如果一直70wh左右进行120w的 discharge(我最高测出过130w),坏掉要4-800个高负载+充电循环 根本不用担心
怎么快速用坏电池?
EndangeredZeegull: 电池据我所知和键盘一体 并不是一体的 高温电池还放电,一周应该就要鼓包了,还有14寸应该跑不上100w
不停跑llm或者其他高温的任务,不插电,放完电再充电,充满电再放到没电
Pro 14/16 电池是一体的,必须一起换top case,来源:Apple SSR,https://www.reddit.com/r/macbookpro/comments/1kypf69/does_apple_still_replace_whole_top_case_when/ 14寸有3个c口,每个支持15w,目前我测过的可以2口加起来大约30w,背光在betterdisplay HDR 160%时选择纯白背景大约25w,其他加起来可以stress ANE,CPU,GPU,RAM,NVME,键盘背光,以及摄像头。稳定不崩溃两个usb的情况下可以到110w-125w,见以下benchmark结果(自己做的软件),这个测试中键盘背光没有关闭,而且为了稳定性,我没有开全负荷nvme 和memory的stress。这台电脑的真实电池健康大约在77%,也就是说它可以支持接近2C的discharge。 不需要不插电,通过特殊脚本可以软件控制禁止和恢复充电行为 tomandjerry: 怎么快速用坏电池? 快速冲放 下面这台机器在90w负荷下测试了一百多个循环,每天充放电12个左右,充电到98%,放到2%,并没有鼓包。测试的原因是电池只有85%,而且键盘指纹有暗病。macos有多个评估电池的指标可以读出来,例如Qmax(这个长期不更新会影响充电速度稳定性和在快速放电的时候随机shutdown,更新大致需要半满放着待机)(在之前做过120w持续十几个循环,但是容易崩溃) 根据我的测试,我花了好久都没换成电池,反倒是容量在肉眼可见的下降(apple settings里电池容量并没有更新),我是傻逼 SSR: /uploads/short-url/86ENfDTyPzehc0rEuobbf3RQ0lR.jpeg?dl=1 刚刚新鲜的结果 [2026-04-25 01:43:27] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:31] Battery: 89%, 109.8W, 31.08°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:31] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:34] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:34] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:37] Battery: 89%, 109.4W, 31.12°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:37] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:40] Battery: 89%, 109.5W, 31.14°C, cap=4720mAh, cyc=401, phase=discharging [2026-04-25 01:43:40] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:43] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:43] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:46] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:46] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:49] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:49] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:52] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:52] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:55] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:55] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:43:58] Battery: 88%, 110.8W, 31.17°C, cap=4769mAh, cyc=401, phase=discharging [2026-04-25 01:43:58] No action needed (phase=discharging, pmset=discharging) [2026-04-25 01:44:01] Stopping Watchdog (pgid 82151) [2026-04-25 01:44:01] Stopping CPU+Memory stress (pgid 82106) [2026-04-25 01:44:01] Stopping GPU stress (pgid 82107) [2026-04-25 01:44:01] Stopping Media(HEVC) stress (pgid 82108) [2026-04-25 01:44:02] Stopping Media(H.264) stress (pgid 82109) [2026-04-25 01:44:02] Stopping ANE stress (pgid 82127) [2026-04-25 01:44:03] Stopping Camera stress (pgid 82128) [2026-04-25 01:44:04] Removed fio test file: /tmp/fio_stress_seq.dat [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended [2026-04-25 01:44:04] System sleep re-enabled [2026-04-25 01:44:04] Amphetamine: session ended 电池容量参数 /uploads/short-url/6cj4eJVEAGYHKVnnDgwPL3HBvSb.png?dl=1 电池容量(使用的是另一个参数) /uploads/short-url/vKEfDtgMgH8vWRZYMz890ghirBE.png?dl=1
高强度拿来复现一个paper好多天了,opencode+Qwen3.6 27B Q4KM 目前的感觉是 Qwen3.6 follow instruction很强,不用怎么需要担心像codex和sonnet/opus那样偶尔会自我意识过剩。不过看他思考过程,第一反应就是你说啥就是啥想都不想 one shot vibe别考虑了,不是小llm能干的事情,你需要hands on的做多轮plan多轮review,可以迭代出很高的代码质量,不比手写的差(可能是我菜),但话说回来codex opus one shot vibe也是在摸彩票,我第一轮让codex搞的框架最终是个灾难后面重新删光了re了一遍 codex 用来review质量很高,而且相当picky,claude找不到的bug他可以 至于claude,同样20刀的subscription拿来review code change也是两下花光quota,给的review质量还没codex高,代码质量没感觉比qwen3.6 27B强,plan可能稍微强一点,但是对比qwen+codex review多迭代两次出来的plan并没有差距,在我这可以丢进垃圾堆了就公司不管quota用用还不错 之前让codex one shot vibe的时候大概是这样的 我:给我写个quicksort codex:[blabla想了一堆写了一堆……] 我给你写好了一个bubble sort,带了很多test,很完美哦! 我:但你怎么写的bubblesort,我要quicksort codex:[blabla想了一堆写了一堆……] 啊你说的对,quicksort很复杂所以我写了个correctness first的bubble sort,确实不是quick sort,但我给你加了很多优化哦你看看 我:我要quicksort!!! codex:[blabla想了一堆,不写了……] 啊是我前面理解有误,但是quicksort很复杂,所以这个correctness first的bubble sort很好哦,如果你要quicksort的话,看看我这个refactor plan 我:refactor plan看着不错,开干吧 codex:[blabla想了一堆写了一堆……] 我成功的推进了refactor plan,但没有完成它,因为quick sort很难,看我新的优化厉不厉害 我:为啥没完成quicksort codex:因为quicksort很难,看我又有一个新的refactor plan来完成quick sort 从此开始无限循环
是的,本来用云端LLM搓的话one shot出来的代码也大概率是屎,也得要自己roll几次,测试,review,改代码,那其实本地LLM把任务切成小块慢慢喂也没差多少,还不用担心roll的次数多了把quota用完 唯一缺点就是cot还是长,一个gemma 4 1-2k token搞定的输出qwen 3.6的cot能到8k甚至更多,都是在cot里面反复来回造成的。还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 以及很多模型在low effort那是真懒啊,不过厂商就是喜欢暗改thinking effort
Keiour: 还有个问题是qwen 3.6偶尔会有干prompt里没有写的下一步任务的倾向 确实也遇到过,也遇到过干着干着忘了prompt的情况 还好我的习惯都是新开一个md来track progress的所以一般发生后影响不大
BigCongming: 从此开始无限循环 这是哪个模型啥推理强度? 我试用GPT-5.5的instruction following确实有点问题,但是不确定是不是我环境的问题
那时候还是5.4 xhigh和high之间
我感觉环境(system prompt)的影响非常大 我之前试过把copilot的harness短路掉用自己的extension访问同样的copilot API,感觉蹦出来一个不认识的模型人格 GPT内功感觉是比Opus强的 但是一来instruction following很头疼二来copilot只给400K的context window,导致没得选只能主用opus
体感cc好用些但很喜欢糊弄 codex准确度更好但是慢以及不好用
https://github.com/ggml-org/llama.cpp/pull/22673 https://github.com/ggml-org/llama.cpp/pull/22673 master ← am17an:mtp-clean 已打开 09:41AM - 04 May 26 UTC https://github.com/am17an https://github.com/ggml-org/llama.cpp/pull/22673/files ## Overview This PR adds support for MTP (Multi Token Prediction) heads. https://github.com/ggml-org/llama.cpp/pull/22673 I tested this on Qwen3.6 27B and Qwen3.6 35BA3B but in principle it should work for any MTP model. I've posted the detailed results below, but typically I see a steady-state acceptance of around 75% with 3 draft tokens, which is more than >2x speed-up over baseline. The design decisions I took to get to this stage are as follows: - The MTP model is a separate model which loads from the same GGUF, the idea is that MTP should automatically start and we shouldn't need to distribute the MTP gguf separately but also it has it's own context/kv-cache etc. - I saw a problem in #18039 where the hidden features weren't propagated correctly across multiple ubatches, so this PR adds a separate "hook" for the MTP to consume after each `ubatch` - The MTP speculative class is fairly trivial (although it does depend on #22400, but could work without it) > [!TIP] > MTP is compatible with Vision input and Tensor/Pipeline Parallelism > [!NOTE] > Prompt processing (PP) speed typically takes a negative hit when MTP is enabled mainly due to Device-To-Host (D2H) embedding transfers. It's something to be optimized in the future. > [!NOTE] > Parallel decoding with MTP is supported, but not fully optimized yet. ## Performance A simple bench for testing various prompts is here: https://gist.github.com/am17an/228edfb84ed082aa88e3865d6fa27090. Posting the results below: <details> <summary> Performance on DGX Spark :thread: </summary> ## No MTP (baseline) `./llama-server -m ../qwen3.6-q8_0.gguf -np 1 --chat-template-kwargs "{\"preserve_thinking\": true}"` ``` code_python pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.0 code_cpp pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.3 explain_concept pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.3 summarize pred= 53 draft= 0 acc= 0 rate=n/a tok/s=7.1 qa_factual pred= 177 draft= 0 acc= 0 rate=n/a tok/s=7.0 translation pred= 22 draft= 0 acc= 0 rate=n/a tok/s=7.7 creative_short pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.1 stepwise_math pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.2 long_code_review pred= 192 draft= 0 acc= 0 rate=n/a tok/s=7.0 Aggregate: { "n_requests": 9, "total_predicted": 1404, "total_draft": 0, "total_draft_accepted": 0, "aggregate_accept_rate": null, "wall_s_total": 201.07 } ``` ## MTP --spec-draft-max-n 3 `./llama-server -m ../qwen3.6-q8_0-mtp.gguf -np 1 --chat-template-kwargs "{\"preserve_thinking\": true}" --spec-type draft-mtp --spec-draft-n-max 3` ``` code_python pred= 192 draft= 153 acc= 139 rate=0.908 tok/s=21.6 code_cpp pred= 192 draft= 176 acc= 132 rate=0.750 tok/s=18.7 explain_concept pred= 192 draft= 191 acc= 126 rate=0.660 tok/s=16.3 summarize pred= 55 draft= 51 acc= 37 rate=0.726 tok/s=17.9 qa_factual pred= 177 draft= 174 acc= 118 rate=0.678 tok/s=16.5 translation pred= 22 draft= 24 acc= 13 rate=0.542 tok/s=13.9 creative_short pred= 192 draft= 200 acc= 123 rate=0.615 tok/s=15.8 stepwise_math pred= 192 draft= 171 acc= 133 rate=0.778 tok/s=19.3 long_code_review pred= 192 draft= 179 acc= 131 rate=0.732 tok/s=18.0 Aggregate: { "n_requests": 9, "total_predicted": 1406, "total_draft": 1319, "total_draft_accepted": 952, "aggregate_accept_rate": 0.7218, "wall_s_total": 83.8 } ``` ## MTP --spec-draft-max-n 2 `./llama-server -m ../qwen3.6-q8_0-mtp.gguf -np 1 --chat-template-kwargs "{\"preserve_thinking\": true}" --spec-type draft-mtp --spec-draft-n-max 2` ``` code_python pred= 192 draft= 134 acc= 123 rate=0.918 tok/s=17.4 code_cpp pred= 192 draft= 145 acc= 118 rate=0.814 tok/s=16.5 explain_concept pred= 192 draft= 148 acc= 116 rate=0.784 tok/s=16.1 summarize pred= 55 draft= 44 acc= 32 rate=0.727 tok/s=15.6 qa_factual pred= 192 draft= 132 acc= 125 rate=0.947 tok/s=18.2 translation pred= 22 draft= 18 acc= 12 rate=0.667 tok/s=15.2 creative_short pred= 192 draft= 149 acc= 116 rate=0.778 tok/s=16.1 stepwise_math pred= 192 draft= 139 acc= 121 rate=0.871 tok/s=17.2 long_code_review pred= 192 draft= 153 acc= 114 rate=0.745 tok/s=15.6 Aggregate: { "n_requests": 9, "total_predicted": 1421, "total_draft": 1062, "total_draft_accepted": 877, "aggregate_accept_rate": 0.8258, "wall_s_total": 90.44 } ``` ## Draft model (Qwen3.5 0.8B) with spec-draft-n-max 16 with partial rollback `llama-server -m ../qwen3.6/Qwen3.6-27B-Q8_0.gguf -hfd unsloth/Qwen3.5-0.8B-GGUF:Q8_0 --spec-draft-n-max 16 -np 1 --chat-template-kwargs "{\"preserve_thinking\": true}"` ``` code_python pred= 192 draft= 188 acc= 156 rate=0.830 tok/s=26.4 code_cpp pred= 192 draft= 201 acc= 126 rate=0.627 tok/s=16.8 explain_concept pred= 192 draft= 263 acc= 112 rate=0.426 tok/s=12.7 summarize pred= 57 draft= 63 acc= 39 rate=0.619 tok/s=16.9 qa_factual pred= 192 draft= 178 acc= 177 rate=0.994 tok/s=47.7 translation pred= 23 draft= 18 acc= 15 rate=0.833 tok/s=18.7 creative_short pred= 192 draft= 189 acc= 120 rate=0.635 tok/s=15.4 stepwise_math pred= 192 draft= 190 acc= 148 rate=0.779 tok/s=22.3 long_code_review pred= 192 draft= 207 acc= 120 rate=0.580 tok/s=14.5 Aggregate: { "n_requests": 9, "total_predicted": 1424, "total_draft": 1497, "total_draft_accepted": 1013, "aggregate_accept_rate": 0.6767, "wall_s_total": 81.39 } ``` ## Master with draft model with spec-draft-n-max 64 with no partial rollback `llama-server -m ../qwen3.6/Qwen3.6-27B-Q8_0.gguf -hfd unsloth/Qwen3.5-0.8B-GGUF:Q8_0 --spec-draft-n-max 64 -np 1 --chat-template-kwargs "{\"preserve_thinking\": true}"` ``` code_python pred= 192 draft= 174 acc= 159 rate=0.914 tok/s=27.2 code_cpp pred= 192 draft= 138 acc= 120 rate=0.870 tok/s=15.0 explain_concept pred= 192 draft= 170 acc= 101 rate=0.594 tok/s=11.4 summarize pred= 55 draft= 48 acc= 36 rate=0.750 tok/s=14.6 qa_factual pred= 177 draft= 126 acc= 106 rate=0.841 tok/s=13.9 translation pred= 22 draft= 13 acc= 13 rate=1.000 tok/s=16.5 creative_short pred= 192 draft= 136 acc= 104 rate=0.765 tok/s=12.8 stepwise_math pred= 192 draft= 172 acc= 147 rate=0.855 tok/s=22.0 long_code_review pred= 192 draft= 160 acc= 111 rate=0.694 tok/s=13.0 Aggregate: { "n_requests": 9, "total_predicted": 1406, "total_draft": 1137, "total_draft_accepted": 897, "aggregate_accept_rate": 0.7889, "wall_s_total": 97.13 } ``` </details> ## How to use I've uploaded the [GGUF](https://huggingface.co/am17an/Qwen3.6-27B-MTP-GGUF/) which I made by using the `convert_hf_to_gguf.py` changes in this PR. Here is another [GGUF](https://huggingface.co/am17an/Qwen3.6-35BA3B-MTP-GGUF) for the MoE (35BA3B) model These are some sample commands to get started with MTP: ```bash # MTP with draft size N (values for N: 2,3,...) llama-server -hf [model-with-mtp] --spec-type draft-mtp --spec-draft-n-max 2 # add `--no-mmproj` to disable vision support if not needed (uses less memory) llama-server ... --no-mmproj # [ADVANCED] # combine MTP + ngram-* (experimental, suitable for non-CUDA systems) # use these combinations only if you know what you are doing llama-server -hf [model-with-mtp] \ --spec-type draft-mtp --spec-draft-n-max 3 \ --spec-type ngram-mod --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 48 --spec-ngram-mod-n-max 64 # (same as above, but shorter) llama-server -hf [model-with-mtp] --spec-default --spec-type draft-mtp --spec-draft-n-max 3 ``` ### Models - https://huggingface.co/ggml-org/Qwen3.6-27B-MTP-GGUF - https://huggingface.co/ggml-org/Qwen3.6-35B-A3B-MTP-GGUF ### Quality check The results from 4 runs of the AIME2026 eval (4x30 questions in total) with MTP enabled, using [llama-eval](https://github.com/ggml-org/llama.cpp/tree/master/examples/llama-eval), are within expectation and match the [reported value by Qwen team](https://huggingface.co/Qwen/Qwen3.6-27B#benchmark-results). <img width="1160" height="821" alt="image" src="https://github.com/user-attachments/assets/cae5631f-2ff5-47ea-87bf-c3f26851ca04" /> Full data: [aime2026-qwen3.6-27b-mtp-q4_k-x4.json.html](https://github.com/user-attachments/files/27798291/aime2026-qwen3.6-27b-mtp-q4_k-x4.json.html) ## Next Steps until merge - [x] Wait for #22838 - [x] Support separate GGUF for `mtp` - [x] Fix recurrent state save/load with partial rollback - [x] Regen docs for new CLI arg spec type `draft-mtp` ## TODOs after merge - [x] Improve `ngram` compatibility with `mtp` - [ ] Add recurrent state tests to CI - [x] Re-enable `--spec-draft-p-min` support for `mtp` - [x] Fix partial rollback for `batch size > 1 + n_rs_seq` ([sample patch](https://gist.github.com/ggerganov/39538c4082ec0647cd4760f57eb74d86)) - [ ] Improve multi-seq performance of the recurrent memory for `n_rs_seq > 0` (currently the multi-seq states are not contiguous in memory so cannot be batched together) - [ ] Avoid D2H + H2D pre-norm embedding transfers somehow? - [ ] Metal drafting improvements https://github.com/ggml-org/llama.cpp/pull/23114 ? ## Requirements - I have read and agree with the [contributing guidelines](https://github.com/ggml-org/llama.cpp/blob/master/CONTRIBUTING.md) - AI usage disclosure: Yes, for debugging and reviewing. Also the convert_hf_to_gguf.py + model definitions. Writing bench for validation against vLLM. llama.cpp的MTP支持也来了 27B Q5 at 8192 context: non-MTP: 65.55 tok/s MTP with -mtp: 152.39 tok/s speedup: 2.32x MTP acceptance: 282 / 301 = 93.7%
Qwen3.6 35B A3B Q4_K_M跑在10G 3080,把专家层offload到CPU,100k上下文依然能有40tok/s,唯一的限制就是不能parallel,关键这货还能读图,AIPC是不是真要来了
az8: 完了,上头了。我已经下单了。这个价格用Amex Dell 5% offer, 三张Plat Biz卡减450,Plat Biz超5000再减1000,Rakuten 6%, 最后3500不到,反正SOXS已经亏了不止一张显卡了,就再亏一张吧。然后它是6/10才交货,中间还有机会反悔。 还没收到货,自从开了22个seats,忽然觉得5000不香了。 BigCongming: 我还在观望,感觉可以等一个m5的mac studio 感觉这个更靠谱。 之前还蹭公司的Copilot,今天开始按照token计价了,感觉不好蹭了。我明明1个request跑了13小时,今天1点的时候切换网络把我跑的给停了(另一条线居然没停,还在跑),然后给我show: 这是要秋后算账吗?
az8: 之前还蹭公司的Copilot,今天开始按照token计价了,感觉不好蹭了。我明明1个request跑了13小时,今天1点的时候切换网络把我跑的给停了(另一条线居然没停,还在跑),然后给我show: 太恐怖了一天烧掉$500 不过codex反代还是香啊我都想再开俩seat了 没有商金只能省着点开
可能不止,昨天一觉醒来发现早上5点多就被Copilot限流了,要按token算钱没法活了。汗颜啊,我昨天github上才104贡献点。真不知道那些大神一天4800贡献点是怎么来的。我本想定个目标有朝一日能达到一天1000点贡献点,现在看起来不可能啊,token远远不够啊。
某个二傻终于醒悟了 按token算才能不被你们薅羊毛
24gb我跑过9B的,感觉很他妈唐
Ansel: Qwen3.6 35B A3B Q4_K_M跑在10G 3080,把专家层offload到CPU,100k上下文依然能有40tok/s 还能这么玩 太高级了 我也是3080 这就让ai去给我部署一下看看效果 现在用的3.5 9B 感觉能和gemini 3.0 flash 打平,看看 3.6 35B会不会更好
Ansel: 把专家层offload到CPU 用羊驼跑的?
太牛了, 看看我2x3090 能不能搞
az8: 感觉这个更靠谱。 我都有点想从localllm叛变了,梁圣太便宜了 收束观测者: 用羊驼跑的? 估计llamacpp?目前我的体验是never羊驼
BigCongming: 我都有点想从localllm叛变了,梁圣太便宜了 会不会有一天,美国筑墙,token提价?现在的价格离破产不远了,我是指美国。
感觉不可能,因为开源模型最简单的操作就是直接开源让其他云服务商去host 美国的第三方API提供商会很开心的吃掉这部分市场份额,而且没有任何legitimate的理由去阻止美国的第三方API提供商提供开源模型 收束观测者: 用羊驼跑的? 羊驼不行,羊驼貌似只能按layer来放到GPU上,vllm和llama.cpp都可以 aiwandedx: 太牛了, 看看我2x3090 能不能搞 那肯定可以啊,48G显存可以直接q6模型开满256k fp16上下文了
llama.cpp跑的,唯一的限制就是np最好是1,不然显存容易oom,爆了重启也极快 Hermes设的262k context 0.6压缩阈值,很多次跑到四五次压缩100回合 差不多小窗口pp500+tp50,中等窗口pp400+tp40,120k上下文pp300+tp30
请问32G m4 Mac和32G 3060哪个快啊?要是m1呢?
3060哪来的32g,你自己焊的吗
我说RAM 纯小白,是只有显存重要吗,RAM 16G也行?
国产大模型我觉得已经大众化了 你看ds和mimo那定价 你如果把GPU折价和电价算进去不一定谁便宜谁贵
BigCongming: 梁圣太便宜了 朋友不会用ai和agent,我给他用我的deepseek账号的key。他说他爽用了一天,问我花了多少钱(非编程用途) 九毛四
打豆豆: 3.5 9B 感觉能和gemini 3.0 flash 打平 这么强吗,我听说qwen就是跑分牛,实际一坨。
很明显没咋用 /uploads/short-url/8SNH6lTUOZUx9C5OUicwZuagZmT.jpeg?dl=1 跑了个benchmark 比起来Claude和ChatGPT肯定是便宜的没边了 但是没有想象中那么便宜
你这个缓存命中好低啊,而且输出高,输出很贵的。 /uploads/short-url/hFFs2RbumpsSFpco0zWgVPzUxsn.png?dl=1
你要用cpu推expert layer的话16g不大行。你用3060 12G + 32G内存的话那要么玩8-14b的小模型全部放到卡上,要么大一档的moe用楼上3080玩家的CPU offload expert layer的方案。 我昨天还真测过这个方案,用的卡是6800XT,测试模型qwen 3.5 Q4KXL,prefill差不多500 tps,当n_cpu_moe = 24时开MTP=2能跑到32.6 tps的输出,在Q6K,prefill大概400 tps的速度,所有moe layer都在CPU上时开MTP=2能跑到22.3 tps。CPU那边用的DDR4 3600,高速内存对这个推理方案是有提升的。 作为对比,所有layer都在显卡上的gemma 4 26b Q3KXL不开MTP的情况下在同卡跑到1500 tps prefill,63 tps decode。 mac没玩过,查了下这玩意也就120G内存带宽,看了下vicnaum的测试,MLX在4k上下文时gemma 4 26b a4b Q4KM prefill 278 tps,decode 32.8 tps。我不知道他们有没有开MTP但估计是没开的。
昨天我用 3080 + 128G 八通道内存 试了试 3.6 35B 用q8 / q4 (忘了是不是这个说法,让ai跑几个常见的setup),速度上和 只用 3080 跑 3.5 9B 差别不大。质量有提升
打老师怎么都开始本地部署了
一个月给opwnrouter上供太多了 唉
new DP: 5090, unsloth的27B MTP Q5KM,200k ctx,llamacpp可以上80~90的output tps了
显卡一直满载,会不会容易坏,5090价格也不低
open router上的deepseek的cache hit价格是deepseek自家的7-10倍 感觉如果追求极致性价比还是去deepseek自家平台注册个账号 反正横竖都会拿你data去训练 还有我每个session结束前都会切成opus, 用skill-creator让它把经验总结成skill 这样下次调用deepseek干同样的活 就是cache hit的白菜价了
Onvon: open router上的deepseek的cache hit价格是deepseek自家的7-10倍 我是拿来写小说和总结一些帖子 感觉没什么cache能被hit是不是 电脑是公司的 电费 0.15一度 我让vps通过网络唤醒路由器再唤醒电脑 这样每天pc也就运行几个小时 电费也不是问题 感觉还是能省点钱
挖矿的时候都没心疼过……
在我的4090上部署了一下unsloth的gguf,笨得要死,还不如gemma4,不知道哪儿不对了
写小说可以试试这个claude code框架 会自动根据需求生成世界观 设计情节伏笔 默认文风有点网文味 应该可以给reference自己调 https://github.com/worldwonderer/oh-story-claudecode https://github.com/worldwonderer/oh-story-claudecode 网文/小说写作 skill 包,覆盖长篇与短篇网络小说的扫榜、拆文、写作、去AI味、封面图全流程
太强大了 等我对比着跑一跑。 打豆豆: 3.6 35B 用q8 / q4 (忘了是不是这个说法,让ai跑几个常见的setup),速度上和 只用 3080 跑 3.5 9B 差别不大。质量有提升 刚让AI 总结了一下,大概是这个表现 模型 类型 激活/总参数 运行方式 解码速度 (tok/s) Qwen3.5 9B Q4 密集 9B / 9B Ollama,全量加载进 GPU ~80–83 Qwen3.6 35B-A3B Q4 MoE 3B / 35B llama.cpp,专家层卸载到 CPU ~56–61 Qwen3.6 35B-A3B Q8 MoE 3B / 35B llama.cpp,专家层卸载到 CPU ~46 Qwen3 14B 密集 14B / 14B Ollama ~16 Qwen3 30B-A3B MoE 3B / 30B Ollama(默认,无专家卸载) ~18
一般来说笨不笨和你怎么部署没关系 这情况你就继续Gemma4呗
50tps不错了,你的CPU内存带宽估计挺高 不过看你是8通道的话估计开MTP还能提高tps 打豆豆: 速度上和 只用 3080 跑 3.5 9B 差别不大。质量有提升 我自己感觉是26b a4b的gemma Q3可以完爆q8的3.5 9b dense,35b qwen在Q3表现估计也差不多,模型大就是强啊
Gemma4的文本问答还是相当不错的,确实比qwen3.6 27b强。但qwen3.6是对coding做优化的,不是一个方向吧?
羡慕哭了,豆老师电脑这么强劲。
Onvon: skill-creator 是哪个harness里的
Claude Code自带的 https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md --- name: skill-creator description: Create new skills, modify and improve existing skills, and measure skill performance. Use when users want to create a skill from scratch, edit, or optimize an existing skill, run evals to test a skill, benchmark skill performance with variance analysis, or optimize a skill's description for better triggering accuracy. --- # Skill Creator A skill for creating new skills and iteratively improving them. At a high level, the process of creating a skill goes like this: - Decide what you want the skill to do and roughly how it should do it - Write a draft of the skill - Create a few test prompts and run claude-with-access-to-the-skill on them - Help the user evaluate the results both qualitatively and quantitatively - While the runs happen in the background, draft some quantitative evals if there aren't any (if there are some, you can either use as is or modify if you feel something needs to change about them). Then explain them to the user (or if they already existed, explain the ones that already exist) - Use the `eval-viewer/generate_review.py` script to show the user the results for them to look at, and also let them look at the quantitative metrics - Rewrite the skill based on feedback from the user's evaluation of the results (and also if there are any glaring flaws that become apparent from the quantitative benchmarks) - Repeat until you're satisfied - Expand the test set and try again at larger scale 此文件已被截断。 https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md
所以在MacbookPro M4 MAX 64GB 上, 现在最好run的模型是哪个而且有decent 的 performance?
个人觉得qwen3.6 35ba3b吧,但机子跑起来巨热
打豆豆: 128G 八通道内存 大户人家,屯了这么多金条
Onvon: 反正横竖都会拿你data去训练 本地模型qwen是不是没有这个担心?
我刚意识到这玩意是金条 这样的有二十多根 是不是可以摆摊了
我跑Qwen 3.6 35B/27B 都挺不错
现在Gemma 4 12b出来估计是3060 + 32G内存最优解了 这模型没测过,不过12G卡能完全装的下高量化,干活是可以用的还不用折腾CPU offload / 吃速度劣势。
Keiour: 干活 不需要最强模型吗,我觉得ChatGPT都不够用
那看你什么风格了 小模型干活当然需要更多的hands on相比于云端模型,但对于你可以piece meal给出instruction,同时模型也能读文档的情况我觉得最终结果是没多大差别的,只要prompt / skill写得好。 主要是云端模型太贵
问一下论坛大手子们 我的infra已经比较mature了 想问问LLM我应该怎么deployment比较好? 我的配置非常有泥潭气质,主打一个白嫖和捡垃圾 Hypervisor: Proxmox VE 9.2 Ubuntu VM: 12600KF (from TT) + 32GB RAM (from TT) → 最多可以给到48G GPU 1: 2080 TI 22G 魔改版本 @ PCIE 4.0x16 GPU 2: Tesla T10 16G, 同是Turing架构 @ PCIE 3.0x4 两个GPU都以vGPU的方式给到VM, 现在一共32G VRAM (16G + 16G)。2080TI上剩余的6G给到其它VM用 我上周第一次部署local LLM,用的是最简单的ollama + Open UI,部署了Gemma 4 31B dense。还没有高强度使用,chat的话感觉挺慢的,一般要先想个30s (包含思考过程), 然后出结果 我主要是想用n8n之类的工具来automate一些workflow, 写code次要,chat基本不需要 大方向上我应该怎么去deploy local LLM?
试试llama.cpp用layer parallel和tensor parallel测个速,你两张卡都是TU102那tensor parallel应该是值得试一试的。话说这俩能nvlink吗? 不过T10带宽小点核心规模也小点,不论是tensor还是layer parallel都建议使用llama.cpp的-ts选项分一下workload,2080 ti多给点layer。 测速的时候输入prompt最好长一点,短prompt测prefill一般都会极度偏低。你这个配置27b dense的qwen和31b的gemma都没问题的,不想折腾vllm的话qwen速度上好点因为llama.cpp有MTP
Keiour: 云端模型太贵 现在都是跑agent用了吗,有无能接入Qwen的科研agent
反正我主要是跑agent用的,不过主要是写码,用opencode,不玩非写码的龙虾之类 还有个最近在玩的是利用LLM整理文件
写码的话,像Qwen这种本地的模型和比较高端的OPUS相比主要差在哪里? 是迭代次数多吗(但如果是自动的是不是就也还行,只是多花点时间)?还是说幻觉严重(跑偏,忘记目标,没做却说做了之类的)需要很多的人力介入呢?
幻觉上我对qwen的体验是相反的:qwen 27b很喜欢多做事,非常的pre-emptive,而且是会mess things up的多做 所以现在还是喜欢gemma 31b虽然这模型上下文太吃显存了 我自己用4.6 opus很少,5.5比较多。和5.5比起来我的感觉是: 本地模型普遍容易在高难任务上打转,如果你的prompt没有明确写明怎么处理的话。所以需要prompt / skill把东西piece meal给agent;Agent本身也没有什么通用知识,搜索网页也不大积极,所以skill里面一定要提到。此外长skill有时候也是个问题,本地模型的长上下文能力还是比不上5.5。 确实需要更多迭代,不过很多迭代可以让agent自动跑,只要目标明确(所以最后还是prompt得写得好,而且5.5其实迭代也很多尤其是很多prompt写的比较懒比较模糊的情况) 幻觉问题反而感觉并不严重,但确实本地模型agent容易做出deformed edit或者tool call失败,这种一般能自己修就是花时间。 长上下文容易忘记东西,所以要么step by step把要做的东西喂进去要么用plan。而且compact丢失的信息感觉远比codex多,感觉更好的compact方案是让agent同时维护一个md文档把进度和重要知识写进去。
Keiour: 利用LLM整理文件 有啥推荐的吗,万一弄错了没有时间机器能回滚吗?要是文件太多没发现它误删了重要文件是不是就g了
唉 看来贵有贵的道理 我现在还嫌5.5和4.8不够聪明和听话 证据很有力,而且出现一个关键反转,我必须去进一步坐实再下结论 4.8也经常自我否定 可想而知换到本地模型就更。。。唉 不过做文字处理这种没什么确定性结果的还挺好的 https://slickdeals.net/f/19580583-micro-center-powercolor-amd-radeon-rx-9070-reaper-triple-fan-16gb-gddr6-pcie-5-0-graphics-card-579-99-free-store-pickup?attrsrc=JFYCarousel%3APosition%3A3%7CJFYCarousel%3AType%3Athread&src=jfy_carousel https://slickdeals.net/f/19580583-micro-center-powercolor-amd-radeon-rx-9070-reaper-triple-fan-16gb-gddr6-pcie-5-0-graphics-card-579-99-free-store-pickup?attrsrc=JFYCarousel%3APosition%3A3%7CJFYCarousel%3AType%3Athread&src=jfy_carousel Micro Center has PowerColor AMD Radeon RX 9070 Reaper Triple Fan 16GB GDDR6 PCIe 5.0 Graphics Card ( RX907016GA) for $579.99. Free store pickup is available where stoc 我刚看这个显卡比英伟达的便宜好多 还有16GB显存 为什么大家不买这个 为了AI说这个跑主流模型也完全没问题,比3080显存大效果更好。
自己写的项目,还在很初步的阶段只是能动起来处理文本文件而已,我自己的思路是有journal可以回滚,删除文件实质是丢进回收站自己手动清洁。 打豆豆: 可想而知换到本地模型就更。。。唉 本地模型让我感觉基本都是overly confident + mess around and find out的,所以需要迭代。文字处理确实是本地模型强项,比如说翻译任务和简单的OCR任务我现在已经可以完全丢给本地的LLM做了。 打豆豆: 我刚看这个显卡比英伟达的便宜好多 还有16GB显存 为什么大家不买这个 为了AI说这个跑主流模型也完全没问题,比3080显存大效果更好。 因为玩推理的很多用惯了CUDA环境不想搞其他环境了,A卡推理一般是rocm / vulkan二选一,llama.cpp有vulkan的后端但是很多其他软件是必须要用rocm的,比如说comfyUI就是需要torch环境,rocm很多人不会搞。另一方面rocm以前是Linux only,Windows下的rocm非常新而且环境比Linux更难搞。i卡一个道理,B70 pro这卡32G 1000块钱但是卖的也不好,就是因为环境更不好配。 我自己就有张6800XT拿来推理的,一直是用的Gemma 4 26b a4b,现在想换Gemma 4 12b,用的是rocm版本的llama.cpp完全没有问题,速度也正常。9070XT只会比AMD的老卡更好用。 顺便提一句你这个链接里面的是9070,看隔壁计算机硬件贴子里面的9070XT现在只要620更划算,或者买bundle。这卡有个32G版叫R9700,之前一直1300不过现在都卖断货了。 https://www.uscardforum.com/t/topic/472612 /c/shopping/tech/23 DIY还活着, 感恩P3. 且薅且珍惜. 尽量每日更新, 慢慢加入更多细节和不同选择, 方便大家无脑抄作业. 主要deal来源是Slickdeals,r/buildapcsales以及我个人乱刷. 同时感谢各位提供的deal和建议 隔壁https://www.uscardforum.com/t/topic/172627 Deal评级 ★★★★★ - Buy now, think later ★★★★ - Great price for a good pa…
Keiour: 打豆豆: 我刚看这个显卡比英伟达的便宜好多 还有16GB显存 为什么大家不买这个 为了AI说这个跑主流模型也完全没问题,比3080显存大效果更好。 因为玩推理的很多用惯了CUDA环境不想搞其他环境了,A卡推理一般是rocm / vulkan二选一,llama.cpp有vulkan的后端但是很多其他软件是必须要用rocm的,比如说comfyUI就是需要torch环境,rocm很多人不会搞。另一方面rocm以前是Linux only,Windows下的rocm非常新而且环境比Linux更难搞。i卡一个道理,B70 pro这卡32G 1000块钱但是卖的也不好,就是因为环境更不好配。 我自己就有张6800XT拿来推理的,一直是用的Gemma 4 26b a4b,现在想换Gemma 4 12b,用的是rocm版本的llama.cpp完全没有问题,速度也正常。9070XT只会比AMD的老卡更好用。 M3 Ultra现在彻底不行了吗?
唉 我先不买了 文字处理纯个人玩具 暂时也够用 (我倒是想过把手里的3台pc放车库插上网线,然后让vps里面的高级ai去调度,来增加速度。但现在就文字处理、翻译新闻、写写小说,一台也够用了,大部分时间都在休眠) jnnksn: M3 Ultra 主要是苹果的金子内存太贵吧 不过现在什么都贵 要不是我从办公室几年前薅了3台pc,现在估计也只有m1 16gb,什么都跑不起来。
不玩苹果硬件,我完全不懂M3 Ultra 不过这东西有512 bit内存位宽跑moe应该是行的,问题就在于太贵,M3 Ultra加大内存的价格比上一排专业推理卡都贵了那为啥我不上正经推理卡呢
omlx + qwen3.6 27b mxfp8 context window设置成200k,尽量别开其他任何占内存的应用。写代码很好用了。
Keiour: overly confident 和hallucination的区别是啥
感觉模型直接开编还是比较少见的,只要prompt还过得去。大部分情况都是能正确的跟随思路但是输出有问题需要不断重做,或者完全意识不到自己的输出有问题。
我能想到的是它做一个看起来有道理的假设但是不做事实核查就按这个假设走 这种我都是归入hallucination的
收束观测者: 我能想到的是它做一个看起来有道理的假设但是不做事实核查就按这个假设走 我在公司用的opus天天这样 我还得天天鞭策它verify your hypothesis first
让另一个agent鞭
万事不决问泥潭指定Codex。
惭愧 你指是的lounge里用business卡白嫖那个吗?(我没商业卡 )
打豆豆: 办公室几年前薅了3台pc 太强了,公司的电脑要回收,原来是被领导层扣下了