如何在筆記本或手機本地運行 OpenAI GPT-OSS 20B 和 120B(超詳細教程)
大约 4 分鐘
如何在筆記本或手機本地運行 OpenAI GPT-OSS 20B 和 120B(超詳細教程)
OpenAI在深夜公告震撼AI界:這是自GPT-2以來首次再次開源大型語言模型。這次我們獲得兩個推理模型——GPT-OSS-20B與GPT-OSS-120B,能在高階筆電甚至智慧型手機本地運行,性能接近o4-mini。全球開發者社群為之沸騰。
發布亮點
- 兩款開源推理模型:GPT-OSS-20B(輕量版)與GPT-OSS-120B(旗艦版)
- 性能接近o4-mini,在編碼、數學和醫學基準測試中超越多數開源模型
- 硬體需求極低:
- GPT-OSS-20B:僅需16GB記憶體設備即可運行,適合本地或終端推理
- GPT-OSS-120B:單張80GB顯卡(如NVIDIA H100)即可驅動
- Apache 2.0授權:可免費商用與客製化,無版權與專利風險
- 可微調與調整推理強度,完整輸出思維鏈,具備函數調用等智能體能力
官方連結:
- GitHub: https://github.com/openai/gpt-oss
- Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
- Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
- OpenAI部落格: Introducing GPT-OSS
- 線上試玩: https://www.gpt-oss.com/
快速上手教學:本地運行GPT-OSS
若想立即體驗這些模型,可透過Playground線上測試,或從Hugging Face下載進行本地部署。以下是簡易設置指南。
1. 環境準備
推薦:Linux或macOS(Windows透過WSL2)
# 建立Python環境
conda create -n gptoss python=3.10
conda activate gptoss
# 安裝依賴套件
pip install torch transformers accelerate
2. 下載模型
以20B模型為例:
git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b
加速下載技巧:
pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
3. 執行簡易測試
建立demo.py檔案:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")
prompt = "用簡單的語言解釋量子計算。"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)
執行:
python demo.py
4. 調整推理強度
可用特殊標籤控制推理深度:
prompt = "<reasoning:high>\n解這個數學題:2*(3+5)^2 = ?"
5. 部署為API服務
若想透過本地API提供服務:
pip install fastapi uvicorn
# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")
@app.post("/chat")
async def chat(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}
執行:
uvicorn app:app --host 0.0.0.0 --port 8000
發送POST請求至http://localhost:8000/chat即可測試API。
重點總結
- OpenAI以兩款能在消費級硬體本地運行的強力推理模型重返開源戰場
- Apache 2.0授權使其成為研究、新創與商業應用的理想選擇
- Hugging Face下載量已暴增,建議先透過Playground試用再決定是否本地部署
在GPT-5仍保持神祕的當下,GPT-OSS已預定成為年度最激動人心的開源AI進展。預計未來數日將湧現大量基於這些模型的新專案與應用。
常見問答
1. 什麼是GPT-OSS?
GPT-OSS是OpenAI新開源的推理模型系列,包含GPT-OSS-20B與GPT-OSS-120B,能在消費級硬體本地運行,提供接近o4-mini的高階推理性能。
2. GPT-OSS能在筆電或手機運行嗎?
可以。GPT-OSS-20B僅需16GB記憶體即可運行,高階筆電甚至智慧型手機都能駕馭。GPT-OSS-120B則需單張80GB顯卡以發揮最佳效能。
3. GPT-OSS可免費商用嗎?
是的。模型採用Apache 2.0授權,允許免費使用、修改與商業部署,無需擔心版權與專利問題。
4. 如何不下載就線上試用GPT-OSS?
OpenAI提供Playground,可先在瀏覽器中測試模型功能,再決定是否下載本地運行。
5. GPT-OSS與其他開源LLM有何不同?
GPT-OSS具備可調式推理強度、完整思維鏈透明度、智能體函數調用能力,在編碼、數學與醫學基準測試中表現優於同級別模型。