如何在笔记本或手机本地运行 OpenAI GPT-OSS 20B 和 120B(超详细教程)
大约 4 分钟
如何在笔记本或手机本地运行 OpenAI GPT-OSS 20B 和 120B(超详细教程)
OpenAI深夜公告震撼AI社区:这是自GPT-2之后首次重新开源大语言模型。此次发布包含两个推理模型——GPT-OSS-20B和GPT-OSS-120B,能在高端笔记本甚至智能手机本地运行,性能接近o4-mini。全球开发者社区为之沸腾。
发布亮点
- 两款开源推理模型:GPT-OSS-20B(轻量版)与GPT-OSS-120B(旗舰版)
- 性能接近o4-mini,在编程、数学和医疗基准测试中超越多数开源模型
- 硬件要求极低:
- GPT-OSS-20B:最低16GB内存设备即可运行,适合本地/端侧推理
- GPT-OSS-120B:单张80GB GPU(如NVIDIA H100)即可驱动
- Apache 2.0许可证:可商用可魔改,无版权与专利风险
- 支持微调与可调推理强度,完整输出思维链,具备函数调用等智能体能力
官方链接:
- GitHub: https://github.com/openai/gpt-oss
- Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
- Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
- OpenAI博客: Introducing GPT-OSS
- 在线体验: https://www.gpt-oss.com/
快速上手:本地运行GPT-OSS
若想立即体验,可通过Playground在线测试,或从Hugging Face下载模型本地部署。以下是简易配置指南。
1. 环境准备
推荐Linux/macOS(Windows需WSL2)
# 创建Python环境
conda create -n gptoss python=3.10
conda activate gptoss
# 安装依赖
pip install torch transformers accelerate
2. 下载模型
以20B模型为例:
git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b
加速下载技巧:
pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
3. 简易测试
创建demo.py文件:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")
prompt = "用简单语言解释量子计算。"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)
运行:
python demo.py
4. 调节推理强度
通过特殊标签控制推理深度:
prompt = "<reasoning:high>\n解这道数学题:2*(3+5)^2 = ?"
5. 部署为API
如需通过本地API提供服务:
pip install fastapi uvicorn
# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")
@app.post("/chat")
async def chat(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}
运行:
uvicorn app:app --host 0.0.0.0 --port 8000
向http://localhost:8000/chat发送POST请求即可测试API。
核心总结
- OpenAI携两款高性能推理模型重返开源,消费级硬件即可本地运行
- Apache 2.0许可证使其成为研究、创业和商用的理想选择
- Hugging Face下载量激增,建议先通过Playground体验再本地部署
在GPT-5仍处保密阶段时,GPT-OSS已然成为年度最激动人心的开源AI进展。预计未来数日将涌现大量基于这些模型的新项目和应用。
常见问题
1. 什么是GPT-OSS?
GPT-OSS是OpenAI最新开源推理模型系列,包含GPT-OSS-20B和GPT-OSS-120B,能在消费级硬件本地运行,提供接近o4-mini的高阶推理性能。
2. 笔记本或手机能运行GPT-OSS吗?
可以。GPT-OSS-20B最低16GB内存设备即可运行,高端笔记本甚至智能手机都能胜任。GPT-OSS-120B需要单张80GB GPU获得最佳性能。
3. GPT-OSS能否商用?
可以。模型采用Apache 2.0许可证,允许免费使用、修改和商业部署,无版权与专利风险。
4. 如何不下载直接体验?
OpenAI提供Playground,可在浏览器直接测试模型后再决定是否下载本地运行。
5. 相比其他开源LLM有何不同?
GPT-OSS具备可调推理强度、完整思维链透明度、智能体函数调用能力,在编程、数学和医疗基准测试中优于同规模模型。