Qwen3.6也开源了,Qwen3.6-35B-A3B需要什么配置?如何部署?
Qwen3.6-35B-A3B是MoE模型,Q4量化版约21GB,需要24GB显存或32GB苹果统一内存。RTX 3090/4090/5090实测速度对比,Ollama和LM Studio部署教程。
最新的 Qwen3.6 模型 4 月 16 日刚刚开源,目前在开源模型热门榜第二名。第一名是 MiniMax-M2.7(229B),门槛太高,显卡成本 14 万起。本文主要看 Qwen3.6,消费级显卡就能跑。
Qwen3.6-35B-A3B 是什么?
这是一个 MoE(混合专家)模型:总参数 35B,但每次推理只激活其中 3B 的参数干活。体积大、速度快、显存省。
跑分方面:
- SWE-bench Verified(代码能力):73.4 分
- Terminal-Bench 2.0(终端操作能力):51.5 分
- AIME 2026(数学推理):92.7 分
- MMMU(多模态理解):81.7 分,比 Claude Sonnet 4.5 的 79.6 还高
不过跑分也就看看,实际还得看使用效果。这个开源版本主要的定位是本地智能体 agent,如龙虾 OpenClaw 或爱马仕 Hermes。
需要什么配置?
Q4_K_M 量化版约 21GB,加上运行时的上下文缓存,至少需要:
- 台式机:24GB 显存
- 苹果 Mac:32GB 统一内存
满足条件的设备可以直接跳到部署部分。不满足的,下面是新装机推荐方案。
台式机方案
24GB 显存的显卡主要三款:RTX 3090、RTX 4090、RTX 5090D。
网友实测输出速度(基于 Ollama):
| 显卡 | 输出速度 | 首 token 延迟 |
|---|---|---|
| RTX 3090 | 49.78 tok/s | 852ms |
| RTX 4090 | 118.93 tok/s | 686ms |
| RTX 5090(满血版) | 160.37 tok/s | 409ms |
以 RTX 5090D V2 为例的整机配置:
| 硬件 | 推荐型号 | 参考价格 |
|---|---|---|
| CPU | AMD Ryzen 7 9700X | ¥1949 |
| 主板 | B850M | ¥1300 |
| 内存 | 64GB DDR5(32G×2) | ¥5000 |
| 显卡 | RTX 5090DV2 24G | ¥19000 |
| 存储 | 2TB NVMe SSD | ¥1600 |
| 电源 | 1200W 金牌全模 | ¥1300 |
| 机箱+散热 | 360水冷+机箱 | ¥1000 |
| 合计 | 约¥31149 |
统一内存方案:苹果 Mac 32GB 或以上
苹果 Mac 的统一内存是 CPU 和 GPU 共用,32GB 完全装得下 Q4 量化版(约 21GB)。
MoE 模型每次只激活 3B 的权重做计算,对内存带宽的压力远低于同体积的密集模型,Mac 在这个模型上的体验比想象中流畅。
推荐机型:
- MacBook Air M5 32GB:约 ¥12926,便携 + 性能兼顾
- MacBook Pro M5 32GB:约 ¥14916,散热比 Air 更好
- Mac mini M4 32GB:约 ¥8999(需另配显示器),性价比最高,但目前无货,官网需等到 5 月末
两个方案怎么选: 已经在苹果生态或预算相对有限,选 Mac;要极致推理速度、同时跑多个任务,或本来就要组台高端 PC,选 5090 装机。
如何部署?
路线 A:Ollama(有一点技术基础的用户)
Ollama 是目前最主流的本地大模型管理工具,Windows 和 Mac 都支持,一行命令搞定。
1、 去 ollama.com 下载安装
2、 打开终端,输入:
ollama run qwen3.6:35b-a3b
3、 第一次运行会自动下载模型(约 21GB,需要等一会),下载完直接开始对话。
路线 B:LM Studio(推荐小白,纯图形界面)
1、 去 lmstudio.ai 下载安装,Windows 和 Mac 都有
2、 打开后在搜索栏输入 Qwen3.6-35B-A3B,找到 Q4_K_M 量化版下载
3、 加载模型后直接在内置对话界面使用,支持输入图片
踩坑提醒:
- 模型文件约 21GB,下载前先确认硬盘空间够用
- 第一次加载比较慢,正常现象,等就完了,不是卡死
免责声明:本文部分链接为联盟营销链接,通过链接购买不会产生额外费用,但可能会为我们带来一定佣金。推荐基于产品实际表现和性价比,不受商家影响。