Qwen3.6也开源了，Qwen3.6-35B-A3B需要什么配置？如何部署？

最新的 Qwen3.6 模型 4 月 16 日刚刚开源，目前在开源模型热门榜第二名。第一名是 MiniMax-M2.7（229B），门槛太高，显卡成本 14 万起。本文主要看 Qwen3.6，消费级显卡就能跑。

Qwen3.6-35B-A3B 是什么？

这是一个 MoE（混合专家）模型：总参数 35B，但每次推理只激活其中 3B 的参数干活。体积大、速度快、显存省。

跑分方面：

不过跑分也就看看，实际还得看使用效果。这个开源版本主要的定位是本地智能体 agent，如龙虾 OpenClaw 或爱马仕 Hermes。

Q4_K_M 量化版约 21GB，加上运行时的上下文缓存，至少需要：

满足条件的设备可以直接跳到部署部分。不满足的，下面是新装机推荐方案。

24GB 显存的显卡主要三款：RTX 3090、RTX 4090、RTX 5090D。

网友实测输出速度（基于 Ollama）：

以 RTX 5090D V2 为例的整机配置：

苹果 Mac 的统一内存是 CPU 和 GPU 共用，32GB 完全装得下 Q4 量化版（约 21GB）。

MoE 模型每次只激活 3B 的权重做计算，对内存带宽的压力远低于同体积的密集模型，Mac 在这个模型上的体验比想象中流畅。

推荐机型：

两个方案怎么选： 已经在苹果生态或预算相对有限，选 Mac；要极致推理速度、同时跑多个任务，或本来就要组台高端 PC，选 5090 装机。

Ollama 是目前最主流的本地大模型管理工具，Windows 和 Mac 都支持，一行命令搞定。

1、去 ollama.com 下载安装

2、打开终端，输入：

ollama run qwen3.6:35b-a3b

3、第一次运行会自动下载模型（约 21GB，需要等一会），下载完直接开始对话。

1、去 lmstudio.ai 下载安装，Windows 和 Mac 都有

2、打开后在搜索栏输入 Qwen3.6-35B-A3B，找到 Q4_K_M 量化版下载

3、加载模型后直接在内置对话界面使用，支持输入图片

踩坑提醒：