如何在筆記本或手機本地運行 OpenAI GPT-OSS 20B 和 120B（超詳細教程）

大约 4 分鐘

如何在筆記本或手機本地運行 OpenAI GPT-OSS 20B 和 120B（超詳細教程）

OpenAI在深夜公告震撼AI界：這是自GPT-2以來首次再次開源大型語言模型。這次我們獲得兩個推理模型——GPT-OSS-20B與GPT-OSS-120B，能在高階筆電甚至智慧型手機本地運行，性能接近o4-mini。全球開發者社群為之沸騰。

發布亮點

兩款開源推理模型：GPT-OSS-20B（輕量版）與GPT-OSS-120B（旗艦版）
性能接近o4-mini，在編碼、數學和醫學基準測試中超越多數開源模型
硬體需求極低：
- GPT-OSS-20B：僅需16GB記憶體設備即可運行，適合本地或終端推理
- GPT-OSS-120B：單張80GB顯卡（如NVIDIA H100）即可驅動
Apache 2.0授權：可免費商用與客製化，無版權與專利風險
可微調與調整推理強度，完整輸出思維鏈，具備函數調用等智能體能力

官方連結：

GitHub: https://github.com/openai/gpt-oss
Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
OpenAI部落格: Introducing GPT-OSS
線上試玩: https://www.gpt-oss.com/

快速上手教學：本地運行GPT-OSS

若想立即體驗這些模型，可透過Playground線上測試，或從Hugging Face下載進行本地部署。以下是簡易設置指南。

1. 環境準備

推薦：Linux或macOS（Windows透過WSL2）

# 建立Python環境
conda create -n gptoss python=3.10
conda activate gptoss

# 安裝依賴套件
pip install torch transformers accelerate

2. 下載模型

以20B模型為例：

git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b

加速下載技巧：

pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1

3. 執行簡易測試

建立demo.py檔案：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")

prompt = "用簡單的語言解釋量子計算。"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)

執行：

python demo.py

4. 調整推理強度

可用特殊標籤控制推理深度：

prompt = "<reasoning:high>\n解這個數學題：2*(3+5)^2 = ?"

5. 部署為API服務

若想透過本地API提供服務：

pip install fastapi uvicorn

# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM

app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")

@app.post("/chat")
async def chat(prompt: str):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=200)
    return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}

執行：

uvicorn app:app --host 0.0.0.0 --port 8000

發送POST請求至http://localhost:8000/chat即可測試API。

重點總結

OpenAI以兩款能在消費級硬體本地運行的強力推理模型重返開源戰場
Apache 2.0授權使其成為研究、新創與商業應用的理想選擇
Hugging Face下載量已暴增，建議先透過Playground試用再決定是否本地部署

在GPT-5仍保持神祕的當下，GPT-OSS已預定成為年度最激動人心的開源AI進展。預計未來數日將湧現大量基於這些模型的新專案與應用。

常見問答

1. 什麼是GPT-OSS？

GPT-OSS是OpenAI新開源的推理模型系列，包含GPT-OSS-20B與GPT-OSS-120B，能在消費級硬體本地運行，提供接近o4-mini的高階推理性能。

2. GPT-OSS能在筆電或手機運行嗎？

可以。GPT-OSS-20B僅需16GB記憶體即可運行，高階筆電甚至智慧型手機都能駕馭。GPT-OSS-120B則需單張80GB顯卡以發揮最佳效能。

3. GPT-OSS可免費商用嗎？

是的。模型採用Apache 2.0授權，允許免費使用、修改與商業部署，無需擔心版權與專利問題。

4. 如何不下載就線上試用GPT-OSS？

OpenAI提供Playground，可先在瀏覽器中測試模型功能，再決定是否下載本地運行。

5. GPT-OSS與其他開源LLM有何不同？

GPT-OSS具備可調式推理強度、完整思維鏈透明度、智能體函數調用能力，在編碼、數學與醫學基準測試中表現優於同級別模型。