按模型分类2026-04-103 分钟阅读

Gemma4 硬件要求?如何本地部署?

Google 发布 Gemma 4 全系列,26B MoE 版只需16GB显存就能跑,性价比极高。4个尺寸配置需求、两套装机方案、Ollama和LM Studio部署教程,3分钟搞定。

2026年4月更新

一、Gemma 4 是什么?

Google 在 2026 年 4 月 2 日发布了 Gemma 4 系列开源模型,这是 Gemma 目前最强的版本。

4 个尺寸分别是:

模型架构大小(Q4量化)适合场景
Gemma 4 E2B(超小杯)Dense 2.3B约2.5GB手机/树莓派/入门体验
Gemma 4 E4B(小杯)Dense 4.5B约5GB轻量日常使用
Gemma 4 26B(中杯)MoE 激活3.8B约18GB主力推荐
Gemma 4 31B(大杯)Dense 30.7B约20GB追求极限质量

几个值得关注的点:

1、超小杯版本手机就能跑。 手机安装完之后,即使开飞行模式也可以用,输出速度是可用的级别,不是只部署不能用的玩噱头。

2、原生多模态。 4 个尺寸全部支持图片输入,可以直接拿来做图文分析。

3、26B MoE 架构要专门说一下。 MoE(Mixture of Experts,混合专家)把它想象成一个有 128 位专家的团队,每次只请其中最相关的几个人来处理问题。结果就是:模型体积大(18GB),但每次推理实际激活的参数只有 3.8B,速度快、显存省,能力水平基本不减。16GB 显卡就能跑 26B,推理速度还快。

4、数学和编程能力突出。 在 AIME 2026 数学竞赛测试中,31B 得分 89.2%,MoE 版本也有 88.3%。

二、本地部署需要什么配置?

模型Q4量化显存需求全精度(BF16)显存需求
Gemma 4 E2B(超小杯)~2GB~5GB
Gemma 4 E4B(小杯)~4GB~10GB
Gemma 4 26B MoE(中杯)~8GB(推理激活)/ ~18GB(完整加载)
Gemma 4 31B(大杯)~20GB~62GB

说明一个容易搞混的点:26B MoE 每次推理激活的参数是 3.8B(约需 8GB),但模型文件本身 18GB,需要放进内存或显存里。要么有 16GB 以上显存直接放进去,要么走 CPU+内存方案(需要 32GB 或以上内存,速度慢一些)。

显卡方案推荐

E2B / E4B(入门体验)

8GB 显存就能跑,RTX 5060 8G 或笔记本电脑都行。这两个模型更适合在手机、树莓派、NUC 这类设备上跑,台式机用来体验流程没问题,当主力还是差点意思。

26B MoE(主力推荐)

16GB 显存可以完整加载 26B MoE 的量化版,卡在生死线附近,不追求长上下文算是可用。要用得爽,最好 24GB 显存。

硬件推荐型号参考价格
CPUAMD Ryzen 5 5600¥789
主板B550M¥689
内存32GB DDR4(16G×2)¥1700
显卡RTX 5060 Ti 16G¥4599
存储1TB NVMe SSD¥1000
电源750W 80Plus金牌¥400
机箱散热¥300
合计约¥9477

31B(追求极限)

需要 24GB 显存起步。

硬件推荐型号预估价格
CPUAMD Ryzen 9 9900X¥3000
主板X870E¥2000
内存128GB DDR5(32G×4)¥10000
显卡RTX 5090DV2 24G¥19000
存储4TB NVMe Gen5 SSD¥3700
电源1200W 金牌全模¥1300
机箱散热360水冷+高端机箱¥1000
合计约¥40000

如果你已经有了 5090D 或 4090,直接跑 31B 没任何问题。新装机只为跑 31B 的话投入不小,除非同时有其他高显存需求(AI 绘图、视频训练等)。

苹果 Mac 方案

苹果统一内存可以当显存用:

  • 8GB 可跑 E2B(超小杯)
  • 16GB 可跑 E4B(小杯)
  • 32GB 可以跑 26B MoE(中杯)
  • 32GB 或 48GB 可以跑 31B(大杯)

注意:Mac 的统一内存带宽和显存带宽还是有差距,推理速度比同等显存的 N 卡要慢一些。

三、部署教程(3分钟搞定)

方案 A:Ollama(推荐)

Ollama 是目前最主流的本地大模型管理工具,安装傻瓜、命令简单、Windows 和 Mac 都支持。

第一步:ollama.com 下载安装包。Windows 直接双击装完,Mac 拖进应用程序目录,2 分钟搞定。注意要用 0.20 及以上版本,旧版本不支持 Gemma 4。

第二步: 打开终端(Windows 是命令提示符,Mac 是 Terminal),输入对应命令:

# 入门版(5GB,8GB显存可跑)
ollama run gemma4:e4b

# 主力推荐(18GB,16GB显存起步)
ollama run gemma4:26b

# 旗舰版(20GB,24GB显存起步)
ollama run gemma4:31b

第一次运行会自动下载模型文件,根据网速可能要等十几分钟到一个多小时,下完直接开始对话。

第三步: 下载完后终端里直接打字和模型对话。

方案 B:LM Studio(完全不用命令行)

第一步:lmstudio.ai 下载,Windows 和 Mac 都有,安装完打开。

第二步: 点左侧搜索图标,搜索框输入 gemma4,选择你想要的尺寸,找到 Q4_K_M 量化版点下载。

第三步: 下载完,点左侧聊天图标,顶部选择刚才下载的模型,直接开始对话。

LM Studio 右侧会实时显示显存占用情况,方便判断当前配置压力大不大。第一次加载模型会慢几十秒,正常现象,等就行。


最后推荐: 目前最适合个人本地部署的模型是 Qwen3.5-27B 和 Gemma4 这两个,24G 显存或 32G 统一内存就能跑。英文任务、数学推理,Gemma 4 26B 更快;中文、日常对话、代码生成,Qwen3.5-27B 更强一点。

免责声明:本文部分链接为联盟营销链接,通过链接购买不会产生额外费用,但可能会为我们带来一定佣金。推荐基于产品实际表现和性价比,不受商家影响。