Как запустить OpenAI GPT-OSS 20B и 120B на ноутбуке или смартфоне (пошагово)

Около 3 мин

Как запустить OpenAI GPT-OSS 20B и 120B на ноутбуке или смартфоне (пошагово)

OpenAI удивила сообщество ИИ ночным анонсом: впервые со времён GPT-2 компания снова открывает исходный код больших языковых моделей. На этот раз представлены две модели для логических рассуждений — GPT-OSS-20B и GPT-OSS-120B, способные показывать производительность, близкую к o4-mini, при локальном запуске на мощных ноутбуках и даже смартфонах. Глобальное сообщество разработчиков в восторге.

Основные особенности релиза

Две open-source модели для логических рассуждений: GPT-OSS-20B (облегчённая версия) и GPT-OSS-120B (флагманская версия).
Производительность близка к o4-mini, превосходит многие другие open-source модели в тестах по программированию, математике и медицине.
Низкие требования к оборудованию:
- GPT-OSS-20B: работает на устройствах с 16 ГБ оперативной памяти, идеально подходит для локального или on-device вывода.
- GPT-OSS-120B: работает на одной видеокарте с 80 ГБ памяти (например, NVIDIA H100).
Лицензия Apache 2.0: бесплатна для коммерческого использования и модификации, без рисков нарушения авторских прав или патентов.
Настраиваемые уровни логических рассуждений, с полной цепочкой рассуждений (chain-of-thought) и агентскими возможностями, такими как вызов функций и использование инструментов.

Официальные ссылки:

GitHub: https://github.com/openai/gpt-oss
Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
Блог OpenAI: Introducing GPT-OSS
Playground: https://www.gpt-oss.com/

Быстрый старт: запуск GPT-OSS локально

Если вы хотите сразу попробовать эти модели, вы можете протестировать их онлайн через Playground или загрузить с Hugging Face для локального развёртывания. Ниже приведено простое руководство по настройке.

1. Настройка окружения

Рекомендуется: Linux или macOS (Windows через WSL2).

# Создание Python-окружения
conda create -n gptoss python=3.10
conda activate gptoss

# Установка зависимостей
pip install torch transformers accelerate

2. Загрузка модели

Пример для модели 20B:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b

Для ускорения загрузки:

pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1

3. Простой тест

Создайте файл demo.py:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")

prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)

Запустите:

python demo.py

4. Настройка уровня рассуждений

Вы можете управлять глубиной рассуждений с помощью специального тега:

prompt = "<reasoning:high>\nSolve this math problem: 2*(3+5)^2 = ?"

5. Развёртывание в виде API

Если вы хотите предоставить доступ к модели через локальный API:

pip install fastapi uvicorn

# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM

app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")

@app.post("/chat")
async def chat(prompt: str):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=200)
    return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}

Запустите:

uvicorn app:app --host 0.0.0.0 --port 8000

Отправьте POST-запрос на http://localhost:8000/chat для тестирования API.

Итоги

OpenAI возвращается в мир open source с двумя мощными моделями для логических рассуждений, которые могут работать локально на потребительском оборудовании.
Лицензия Apache 2.0 делает их идеальными для исследований, стартапов и коммерческого использования.
Загрузки с Hugging Face уже идут полным ходом, поэтому сначала попробуйте Playground, прежде чем настраивать локальное окружение.

Пока GPT-5 остаётся засекреченной, GPT-OSS уже становится одним из самых захватывающих open-source проектов в области ИИ в этом году. Ожидайте волну новых проектов и приложений, построенных на этих моделях, в ближайшие дни.

FAQ

1. Что такое GPT-OSS?

GPT-OSS — это новая open-source серия моделей для логических рассуждений от OpenAI, включающая GPT-OSS-20B и GPT-OSS-120B, разработанных для обеспечения высокой производительности, близкой к o4-mini, при работе на потребительском оборудовании.

2. Может ли GPT-OSS работать на ноутбуке или смартфоне?

Да. GPT-OSS-20B может работать на устройствах с 16 ГБ оперативной памяти, что делает возможным запуск на мощных ноутбуках и даже смартфонах. GPT-OSS-120B требует одной видеокарты с 80 ГБ памяти для оптимальной производительности.

3. Можно ли использовать GPT-OSS в коммерческих целях бесплатно?

Да. Модели выпущены под лицензией Apache 2.0, что разрешает бесплатное использование, модификацию и коммерческое развёртывание без проблем с авторскими правами или патентами.

4. Как попробовать GPT-OSS онлайн без загрузки?

OpenAI предоставляет Playground, где вы можете протестировать модели прямо в браузере, прежде чем загружать и запускать их локально.

5. Чем GPT-OSS отличается от других open-source LLM?

GPT-OSS предлагает настраиваемую глубину рассуждений, полную прозрачность цепочки рассуждений (chain-of-thought), агентские возможности вызова функций и более высокую производительность в тестах по программированию, математике и медицине по сравнению с моделями аналогичного размера.