如何在笔记本或手机本地运行 OpenAI GPT-OSS 20B 和 120B（超详细教程）

大约 4 分钟

如何在笔记本或手机本地运行 OpenAI GPT-OSS 20B 和 120B（超详细教程）

OpenAI深夜公告震撼AI社区：这是自GPT-2之后首次重新开源大语言模型。此次发布包含两个推理模型——GPT-OSS-20B和GPT-OSS-120B，能在高端笔记本甚至智能手机本地运行，性能接近o4-mini。全球开发者社区为之沸腾。

发布亮点

两款开源推理模型：GPT-OSS-20B（轻量版）与GPT-OSS-120B（旗舰版）
性能接近o4-mini，在编程、数学和医疗基准测试中超越多数开源模型
硬件要求极低：
- GPT-OSS-20B：最低16GB内存设备即可运行，适合本地/端侧推理
- GPT-OSS-120B：单张80GB GPU（如NVIDIA H100）即可驱动
Apache 2.0许可证：可商用可魔改，无版权与专利风险
支持微调与可调推理强度，完整输出思维链，具备函数调用等智能体能力

官方链接：

GitHub: https://github.com/openai/gpt-oss
Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
OpenAI博客: Introducing GPT-OSS
在线体验: https://www.gpt-oss.com/

快速上手：本地运行GPT-OSS

若想立即体验，可通过Playground在线测试，或从Hugging Face下载模型本地部署。以下是简易配置指南。

1. 环境准备

推荐Linux/macOS（Windows需WSL2）

# 创建Python环境
conda create -n gptoss python=3.10
conda activate gptoss

# 安装依赖
pip install torch transformers accelerate

2. 下载模型

以20B模型为例：

git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b

加速下载技巧：

pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1

3. 简易测试

创建demo.py文件：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")

prompt = "用简单语言解释量子计算。"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)

运行：

python demo.py

4. 调节推理强度

通过特殊标签控制推理深度：

prompt = "<reasoning:high>\n解这道数学题：2*(3+5)^2 = ?"

5. 部署为API

如需通过本地API提供服务：

pip install fastapi uvicorn

# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM

app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")

@app.post("/chat")
async def chat(prompt: str):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=200)
    return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}

运行：

uvicorn app:app --host 0.0.0.0 --port 8000

向http://localhost:8000/chat发送POST请求即可测试API。

核心总结

OpenAI携两款高性能推理模型重返开源，消费级硬件即可本地运行
Apache 2.0许可证使其成为研究、创业和商用的理想选择
Hugging Face下载量激增，建议先通过Playground体验再本地部署

在GPT-5仍处保密阶段时，GPT-OSS已然成为年度最激动人心的开源AI进展。预计未来数日将涌现大量基于这些模型的新项目和应用。

常见问题

1. 什么是GPT-OSS？

GPT-OSS是OpenAI最新开源推理模型系列，包含GPT-OSS-20B和GPT-OSS-120B，能在消费级硬件本地运行，提供接近o4-mini的高阶推理性能。

2. 笔记本或手机能运行GPT-OSS吗？

可以。GPT-OSS-20B最低16GB内存设备即可运行，高端笔记本甚至智能手机都能胜任。GPT-OSS-120B需要单张80GB GPU获得最佳性能。

3. GPT-OSS能否商用？

可以。模型采用Apache 2.0许可证，允许免费使用、修改和商业部署，无版权与专利风险。

4. 如何不下载直接体验？

OpenAI提供Playground，可在浏览器直接测试模型后再决定是否下载本地运行。