Gemma4 硬件要求？如何本地部署？

2026年4月更新

一、Gemma 4 是什么？

Google 在 2026 年 4 月 2 日发布了 Gemma 4 系列开源模型，这是 Gemma 目前最强的版本。

4 个尺寸分别是：

模型	架构	大小（Q4量化）	适合场景
Gemma 4 E2B（超小杯）	Dense 2.3B	约2.5GB	手机/树莓派/入门体验
Gemma 4 E4B（小杯）	Dense 4.5B	约5GB	轻量日常使用
Gemma 4 26B（中杯）	MoE 激活3.8B	约18GB	主力推荐
Gemma 4 31B（大杯）	Dense 30.7B	约20GB	追求极限质量

几个值得关注的点：

1、超小杯版本手机就能跑。 手机安装完之后，即使开飞行模式也可以用，输出速度是可用的级别，不是只部署不能用的玩噱头。

2、原生多模态。 4 个尺寸全部支持图片输入，可以直接拿来做图文分析。

3、26B MoE 架构要专门说一下。 MoE（Mixture of Experts，混合专家）把它想象成一个有 128 位专家的团队，每次只请其中最相关的几个人来处理问题。结果就是：模型体积大（18GB），但每次推理实际激活的参数只有 3.8B，速度快、显存省，能力水平基本不减。16GB 显卡就能跑 26B，推理速度还快。

4、数学和编程能力突出。 在 AIME 2026 数学竞赛测试中，31B 得分 89.2%，MoE 版本也有 88.3%。

二、本地部署需要什么配置？

模型	Q4量化显存需求	全精度（BF16）显存需求
Gemma 4 E2B（超小杯）	~2GB	~5GB
Gemma 4 E4B（小杯）	~4GB	~10GB
Gemma 4 26B MoE（中杯）	~8GB（推理激活）/ ~18GB（完整加载）	—
Gemma 4 31B（大杯）	~20GB	~62GB

说明一个容易搞混的点：26B MoE 每次推理激活的参数是 3.8B（约需 8GB），但模型文件本身 18GB，需要放进内存或显存里。要么有 16GB 以上显存直接放进去，要么走 CPU+内存方案（需要 32GB 或以上内存，速度慢一些）。

显卡方案推荐

E2B / E4B（入门体验）

8GB 显存就能跑，RTX 5060 8G 或笔记本电脑都行。这两个模型更适合在手机、树莓派、NUC 这类设备上跑，台式机用来体验流程没问题，当主力还是差点意思。

26B MoE（主力推荐）

16GB 显存可以完整加载 26B MoE 的量化版，卡在生死线附近，不追求长上下文算是可用。要用得爽，最好 24GB 显存。

硬件	推荐型号	参考价格
CPU	AMD Ryzen 5 5600	¥789
主板	B550M	¥689
内存	32GB DDR4（16G×2）	¥1700
显卡	RTX 5060 Ti 16G	¥4599
存储	1TB NVMe SSD	¥1000
电源	750W 80Plus金牌	¥400
机箱散热		¥300
合计		约¥9477

31B（追求极限）

需要 24GB 显存起步。

硬件	推荐型号	预估价格
CPU	AMD Ryzen 9 9900X	¥3000
主板	X870E	¥2000
内存	128GB DDR5（32G×4）	¥10000
显卡	RTX 5090DV2 24G	¥19000
存储	4TB NVMe Gen5 SSD	¥3700
电源	1200W 金牌全模	¥1300
机箱散热	360水冷+高端机箱	¥1000
合计		约¥40000

如果你已经有了 5090D 或 4090，直接跑 31B 没任何问题。新装机只为跑 31B 的话投入不小，除非同时有其他高显存需求（AI 绘图、视频训练等）。

苹果 Mac 方案

苹果统一内存可以当显存用：

8GB 可跑 E2B（超小杯）
16GB 可跑 E4B（小杯）
32GB 可以跑 26B MoE（中杯）
32GB 或 48GB 可以跑 31B（大杯）

注意：Mac 的统一内存带宽和显存带宽还是有差距，推理速度比同等显存的 N 卡要慢一些。

三、部署教程（3分钟搞定）

方案 A：Ollama（推荐）

Ollama 是目前最主流的本地大模型管理工具，安装傻瓜、命令简单、Windows 和 Mac 都支持。

第一步： 去 ollama.com 下载安装包。Windows 直接双击装完，Mac 拖进应用程序目录，2 分钟搞定。注意要用 0.20 及以上版本，旧版本不支持 Gemma 4。

第二步： 打开终端（Windows 是命令提示符，Mac 是 Terminal），输入对应命令：

# 入门版（5GB，8GB显存可跑）
ollama run gemma4:e4b

# 主力推荐（18GB，16GB显存起步）
ollama run gemma4:26b

# 旗舰版（20GB，24GB显存起步）
ollama run gemma4:31b

第一次运行会自动下载模型文件，根据网速可能要等十几分钟到一个多小时，下完直接开始对话。

第三步： 下载完后终端里直接打字和模型对话。

方案 B：LM Studio（完全不用命令行）

第一步： 去 lmstudio.ai 下载，Windows 和 Mac 都有，安装完打开。

第二步： 点左侧搜索图标，搜索框输入 gemma4，选择你想要的尺寸，找到 Q4_K_M 量化版点下载。

第三步： 下载完，点左侧聊天图标，顶部选择刚才下载的模型，直接开始对话。

LM Studio 右侧会实时显示显存占用情况，方便判断当前配置压力大不大。第一次加载模型会慢几十秒，正常现象，等就行。

最后推荐： 目前最适合个人本地部署的模型是 Qwen3.5-27B 和 Gemma4 这两个，24G 显存或 32G 统一内存就能跑。英文任务、数学推理，Gemma 4 26B 更快；中文、日常对话、代码生成，Qwen3.5-27B 更强一点。