Gemma4 硬件要求?如何本地部署?
Google 发布 Gemma 4 全系列,26B MoE 版只需16GB显存就能跑,性价比极高。4个尺寸配置需求、两套装机方案、Ollama和LM Studio部署教程,3分钟搞定。
2026年4月更新
一、Gemma 4 是什么?
Google 在 2026 年 4 月 2 日发布了 Gemma 4 系列开源模型,这是 Gemma 目前最强的版本。
4 个尺寸分别是:
| 模型 | 架构 | 大小(Q4量化) | 适合场景 |
|---|---|---|---|
| Gemma 4 E2B(超小杯) | Dense 2.3B | 约2.5GB | 手机/树莓派/入门体验 |
| Gemma 4 E4B(小杯) | Dense 4.5B | 约5GB | 轻量日常使用 |
| Gemma 4 26B(中杯) | MoE 激活3.8B | 约18GB | 主力推荐 |
| Gemma 4 31B(大杯) | Dense 30.7B | 约20GB | 追求极限质量 |
几个值得关注的点:
1、超小杯版本手机就能跑。 手机安装完之后,即使开飞行模式也可以用,输出速度是可用的级别,不是只部署不能用的玩噱头。
2、原生多模态。 4 个尺寸全部支持图片输入,可以直接拿来做图文分析。
3、26B MoE 架构要专门说一下。 MoE(Mixture of Experts,混合专家)把它想象成一个有 128 位专家的团队,每次只请其中最相关的几个人来处理问题。结果就是:模型体积大(18GB),但每次推理实际激活的参数只有 3.8B,速度快、显存省,能力水平基本不减。16GB 显卡就能跑 26B,推理速度还快。
4、数学和编程能力突出。 在 AIME 2026 数学竞赛测试中,31B 得分 89.2%,MoE 版本也有 88.3%。
二、本地部署需要什么配置?
| 模型 | Q4量化显存需求 | 全精度(BF16)显存需求 |
|---|---|---|
| Gemma 4 E2B(超小杯) | ~2GB | ~5GB |
| Gemma 4 E4B(小杯) | ~4GB | ~10GB |
| Gemma 4 26B MoE(中杯) | ~8GB(推理激活)/ ~18GB(完整加载) | — |
| Gemma 4 31B(大杯) | ~20GB | ~62GB |
说明一个容易搞混的点:26B MoE 每次推理激活的参数是 3.8B(约需 8GB),但模型文件本身 18GB,需要放进内存或显存里。要么有 16GB 以上显存直接放进去,要么走 CPU+内存方案(需要 32GB 或以上内存,速度慢一些)。
显卡方案推荐
E2B / E4B(入门体验)
8GB 显存就能跑,RTX 5060 8G 或笔记本电脑都行。这两个模型更适合在手机、树莓派、NUC 这类设备上跑,台式机用来体验流程没问题,当主力还是差点意思。
26B MoE(主力推荐)
16GB 显存可以完整加载 26B MoE 的量化版,卡在生死线附近,不追求长上下文算是可用。要用得爽,最好 24GB 显存。
| 硬件 | 推荐型号 | 参考价格 |
|---|---|---|
| CPU | AMD Ryzen 5 5600 | ¥789 |
| 主板 | B550M | ¥689 |
| 内存 | 32GB DDR4(16G×2) | ¥1700 |
| 显卡 | RTX 5060 Ti 16G | ¥4599 |
| 存储 | 1TB NVMe SSD | ¥1000 |
| 电源 | 750W 80Plus金牌 | ¥400 |
| 机箱散热 | ¥300 | |
| 合计 | 约¥9477 |
31B(追求极限)
需要 24GB 显存起步。
| 硬件 | 推荐型号 | 预估价格 |
|---|---|---|
| CPU | AMD Ryzen 9 9900X | ¥3000 |
| 主板 | X870E | ¥2000 |
| 内存 | 128GB DDR5(32G×4) | ¥10000 |
| 显卡 | RTX 5090DV2 24G | ¥19000 |
| 存储 | 4TB NVMe Gen5 SSD | ¥3700 |
| 电源 | 1200W 金牌全模 | ¥1300 |
| 机箱散热 | 360水冷+高端机箱 | ¥1000 |
| 合计 | 约¥40000 |
如果你已经有了 5090D 或 4090,直接跑 31B 没任何问题。新装机只为跑 31B 的话投入不小,除非同时有其他高显存需求(AI 绘图、视频训练等)。
苹果 Mac 方案
苹果统一内存可以当显存用:
- 8GB 可跑 E2B(超小杯)
- 16GB 可跑 E4B(小杯)
- 32GB 可以跑 26B MoE(中杯)
- 32GB 或 48GB 可以跑 31B(大杯)
注意:Mac 的统一内存带宽和显存带宽还是有差距,推理速度比同等显存的 N 卡要慢一些。
三、部署教程(3分钟搞定)
方案 A:Ollama(推荐)
Ollama 是目前最主流的本地大模型管理工具,安装傻瓜、命令简单、Windows 和 Mac 都支持。
第一步: 去 ollama.com 下载安装包。Windows 直接双击装完,Mac 拖进应用程序目录,2 分钟搞定。注意要用 0.20 及以上版本,旧版本不支持 Gemma 4。
第二步: 打开终端(Windows 是命令提示符,Mac 是 Terminal),输入对应命令:
# 入门版(5GB,8GB显存可跑)
ollama run gemma4:e4b
# 主力推荐(18GB,16GB显存起步)
ollama run gemma4:26b
# 旗舰版(20GB,24GB显存起步)
ollama run gemma4:31b
第一次运行会自动下载模型文件,根据网速可能要等十几分钟到一个多小时,下完直接开始对话。
第三步: 下载完后终端里直接打字和模型对话。
方案 B:LM Studio(完全不用命令行)
第一步: 去 lmstudio.ai 下载,Windows 和 Mac 都有,安装完打开。
第二步: 点左侧搜索图标,搜索框输入 gemma4,选择你想要的尺寸,找到 Q4_K_M 量化版点下载。
第三步: 下载完,点左侧聊天图标,顶部选择刚才下载的模型,直接开始对话。
LM Studio 右侧会实时显示显存占用情况,方便判断当前配置压力大不大。第一次加载模型会慢几十秒,正常现象,等就行。
最后推荐: 目前最适合个人本地部署的模型是 Qwen3.5-27B 和 Gemma4 这两个,24G 显存或 32G 统一内存就能跑。英文任务、数学推理,Gemma 4 26B 更快;中文、日常对话、代码生成,Qwen3.5-27B 更强一点。
免责声明:本文部分链接为联盟营销链接,通过链接购买不会产生额外费用,但可能会为我们带来一定佣金。推荐基于产品实际表现和性价比,不受商家影响。