硬件选购指南2026-04-101 分钟阅读

本地部署大模型,选硬件有哪些坑?

电商平台卖的所谓AI大模型主机,可能是10年前的洋垃圾;AMD 395速度便秘;8G显存只能跑玩具模型……买之前先看完这5个坑。

电商平台上有很多AI大模型主机,拆开看是2016上市的CPU,和停产多年的N手老显卡——重新包装,卖给你。

1、洋垃圾淘汰硬件

被商家骗,买了过时硬件,电商平台很多商家,卖的所谓的大模型主机,是国外10多年前淘汰的服务器硬件,比如CPU用英特尔E5-2699 v4,这是2016年的上市的,已经10年了,是服务器上淘汰了好几年的CPU,还有各种N手老显卡,比如矿卡2080Ti魔改22G版本,还有9年前的NVIDIA Tesla V100,早都停产了,所以都是二手货N手货。然后他们从新包装一下,变成了企业级AI大模型主机,成了高端货,实际是已经过了N手的电子垃圾。当然如果价格合适,也不是完全不能考虑,但精明的商家给自己留足了利润,所以基本都是坑。

2、AMD 395

AMD 锐龙 AI Max 395 的一体机,统一内存 128GB,理论上能装下 100B(1000亿)级别的大模型,价格比英伟达方案便宜很多,看着很香。

但用起来发现:速度慢到怀疑人生。原因是AMD AI 系列的统一内存带宽,比英伟达显卡的 GDDR 显存带宽低太多了。RTX 5090 的显存带宽接近 1792GB/s,而这类一体机方案通常只有256GB/s 左右。模型装进去了,输出速度就像便秘,正经干活根本用不了。

想流畅跑大模型,带宽和显存容量都很重要,这一点很多人买之前不了解,只看容量了。

3、小显存显卡,只能跑玩具模型

8G 显存的显卡,Q4 量化版的 9B 模型已经在边缘了,开着推理再跑点别的很容易崩。9B 以下的模型能力非常有限,复杂推理、长文写作、代码生成的效果,用过就知道有多拉垮。

真正探索一段时间,会发现真正好用的模型是 27B 或者 31B 这个级别的,自己这张卡根本跑不动。

4、AMD 显卡

AMD 显卡一直有一个卖点:同价位显存更大,而且便宜。比如 RX 7900 XTX 有 24G 显存,价格比 RTX 5090 便宜一大截,看着非常划算,实际使用非常难受。

本地跑大模型主要就是英伟达的CUDA 生态:Ollama、LM Studio、各种量化推理框架,默认都是对 NVIDIA 的 CUDA 优化的。AMD 对应的是 ROCm 框架,在 Linux 下凑合能用,Windows 下支持极差。教程里 98% 的报错解决方案都是 N 卡的,A 卡遇到问题基本就废炮了。

5、英伟达 DGX Spark—— AI专用研究机

DGX Spark 是英伟达专门为本地AI推理设计的设备,有128GB LPDDR5X统一内存,AI算力标称可达1000 TOPS。听着很猛对吧?但实际跑大模型解码的时候,内存带宽是瓶颈——273 GB/s,和AMD 395差不多。所以输出速度也是便秘,跑 Qwen3.5-27B 的输出速度也就约13 tps左右,和AMD 395差不多。

另外,DGX Spark 只跑 Ubuntu Linux,不支持 Windows。ARM 架构的 CPU 也意味着3A游戏基本没戏。这就是一台纯粹的 AI 研究工具,不是通用电脑,不适合普通用户。


本地部署大模型有很多坑,不过部署好了,探索过程也有很多乐趣,具体还是要看个人需求。

免责声明:本文部分链接为联盟营销链接,通过链接购买不会产生额外费用,但可能会为我们带来一定佣金。推荐基于产品实际表现和性价比,不受商家影响。