本地部署大模型，选硬件有哪些坑？

电商平台上有很多AI大模型主机，拆开看是2016上市的CPU，和停产多年的N手老显卡——重新包装，卖给你。

1、洋垃圾淘汰硬件

被商家骗，买了过时硬件，电商平台很多商家，卖的所谓的大模型主机，是国外10多年前淘汰的服务器硬件，比如CPU用英特尔E5-2699 v4，这是2016年的上市的，已经10年了，是服务器上淘汰了好几年的CPU，还有各种N手老显卡，比如矿卡2080Ti魔改22G版本，还有9年前的NVIDIA Tesla V100，早都停产了，所以都是二手货N手货。然后他们从新包装一下，变成了企业级AI大模型主机，成了高端货，实际是已经过了N手的电子垃圾。当然如果价格合适，也不是完全不能考虑，但精明的商家给自己留足了利润，所以基本都是坑。

2、AMD 395

AMD 锐龙 AI Max 395 的一体机，统一内存 128GB，理论上能装下 100B（1000亿）级别的大模型，价格比英伟达方案便宜很多，看着很香。

但用起来发现：速度慢到怀疑人生。原因是AMD AI 系列的统一内存带宽，比英伟达显卡的 GDDR 显存带宽低太多了。RTX 5090 的显存带宽接近 1792GB/s，而这类一体机方案通常只有256GB/s 左右。模型装进去了，输出速度就像便秘，正经干活根本用不了。

想流畅跑大模型，带宽和显存容量都很重要，这一点很多人买之前不了解，只看容量了。

3、小显存显卡，只能跑玩具模型

8G 显存的显卡，Q4 量化版的 9B 模型已经在边缘了，开着推理再跑点别的很容易崩。9B 以下的模型能力非常有限，复杂推理、长文写作、代码生成的效果，用过就知道有多拉垮。

真正探索一段时间，会发现真正好用的模型是 27B 或者 31B 这个级别的，自己这张卡根本跑不动。

4、AMD 显卡

AMD 显卡一直有一个卖点：同价位显存更大，而且便宜。比如 RX 7900 XTX 有 24G 显存，价格比 RTX 5090 便宜一大截，看着非常划算，实际使用非常难受。

本地跑大模型主要就是英伟达的CUDA 生态：Ollama、LM Studio、各种量化推理框架，默认都是对 NVIDIA 的 CUDA 优化的。AMD 对应的是 ROCm 框架，在 Linux 下凑合能用，Windows 下支持极差。教程里 98% 的报错解决方案都是 N 卡的，A 卡遇到问题基本就废炮了。

5、英伟达 DGX Spark—— AI专用研究机

DGX Spark 是英伟达专门为本地AI推理设计的设备，有128GB LPDDR5X统一内存，AI算力标称可达1000 TOPS。听着很猛对吧？但实际跑大模型解码的时候，内存带宽是瓶颈——273 GB/s，和AMD 395差不多。所以输出速度也是便秘，跑 Qwen3.5-27B 的输出速度也就约13 tps左右，和AMD 395差不多。

另外，DGX Spark 只跑 Ubuntu Linux，不支持 Windows。ARM 架构的 CPU 也意味着3A游戏基本没戏。这就是一台纯粹的 AI 研究工具，不是通用电脑，不适合普通用户。

本地部署大模型有很多坑，不过部署好了，探索过程也有很多乐趣，具体还是要看个人需求。