Qwen3.5-35B无限制版:需要什么配置?怎么部署?
Qwen3.5-35B去审查破解版登顶开源模型热门榜第一。Q4量化版约21GB,需要24GB显存或32GB苹果统一内存。两套方案 + Ollama/LM Studio部署教程。
Qwen3.5-35B 登顶开源模型热门榜第一。不过不是 Qwen 官方的模型,而是去审查破解版——模型 ID:HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive。
需要什么配置?
Q4 量化版约 21GB,再加上上下文,至少需要 24GB 显存。台式机的话,显卡只能选 RTX 3090、RTX 4090 或 RTX 5090 系列。另外一条路是 32GB 内存或以上的苹果 Mac。
如果已经有了满足要求的配置,现在就可以直接部署。没有的话,下面是两套方案。
台式机方案:RTX 5090D 显卡台式机
RTX 5090D V2 拥有 24GB GDDR7 显存,跑 Q4 量化版游刃有余。
| 硬件 | 推荐型号 | 参考价格 |
|---|---|---|
| CPU | AMD Ryzen 7 9700X | ¥1949 |
| 主板 | B850M | ¥1300 |
| 内存 | 64GB DDR5(32G×2) | ¥5000 |
| 显卡 | RTX 5090DV2 24G | ¥19000 |
| 存储 | 2TB NVMe SSD | ¥1600 |
| 电源 | 1200W 金牌全模 | ¥1300 |
| 机箱+散热 | 360水冷+机箱 | ¥1000 |
| 合计 | 约¥31149 |
统一内存方案:苹果 Mac 32GB 内存或以上
MacBook Air M5 32GB 统一内存,刚好能装下 Q4 量化版(约 21GB)。苹果的统一内存是 CPU 和 GPU 共用,不像 PC 那样有显存和内存之分。
这里要特别说一下:这个模型是 MoE 架构,推理时每次只激活 3B 的权重做计算,对内存带宽的实际需求远低于同尺寸的密集模型。Mac 在这个模型上的体验,比同等质量的密集 27B 模型更流畅。 这个模型确实有点例外。
推荐机型:
- MacBook Air M5 32GB:约 ¥14499,便携 + 性能兼顾
- Mac mini M4 32GB:约 ¥8999(需另配显示器),性价比更高,但目前无货,官网订购需等到 5 月末
两个方案怎么选: 已经在苹果生态或预算相对有限,选 Mac 方案;要极致推理速度、同时跑多个任务,或者本来就要组台高端 PC,选 5090 装机。
如何部署?
路线 A:Ollama(有一点技术基础的用户)
Ollama 是目前最主流的本地大模型管理工具,Windows 和 Mac 都支持。
- 去 ollama.com 下载安装
- 打开终端,输入对应的模型拉取命令(在 HuggingFace 模型页面可以找到 Ollama 命令格式)
- 第一次运行会自动下载模型(约 20GB,耐心等),下载完直接开始对话
Mac 用户建议在搜索时优先找 MLX 版本,推理速度更快。
路线 B:LM Studio(推荐小白,纯图形界面)
- 去 lmstudio.ai 下载安装,Windows 和 Mac 都有
- 打开后在搜索栏输入:
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive,找到 Q4_K_M 量化版下载 - 加载模型后直接在内置对话界面使用
LM Studio 的优势是能实时显示显存占用,方便判断当前配置能不能撑住。
踩坑提醒:
- 模型文件约 20GB,下载前先确认硬盘空间够用
- 第一次加载较慢,这是正常现象,等就完了,不是卡死
如果你已经有 Mac 并且是 32GB 版本,现在就可以直接试。
免责声明:本文部分链接为联盟营销链接,通过链接购买不会产生额外费用,但可能会为我们带来一定佣金。推荐基于产品实际表现和性价比,不受商家影响。