Как запустить OpenAI GPT-OSS 20B и 120B на ноутбуке или смартфоне (пошагово)
Как запустить OpenAI GPT-OSS 20B и 120B на ноутбуке или смартфоне (пошагово)
OpenAI удивила сообщество ИИ ночным анонсом: впервые со времён GPT-2 компания снова открывает исходный код больших языковых моделей. На этот раз представлены две модели для логических рассуждений — GPT-OSS-20B и GPT-OSS-120B, способные показывать производительность, близкую к o4-mini, при локальном запуске на мощных ноутбуках и даже смартфонах. Глобальное сообщество разработчиков в восторге.
Основные особенности релиза
- Две open-source модели для логических рассуждений: GPT-OSS-20B (облегчённая версия) и GPT-OSS-120B (флагманская версия).
- Производительность близка к o4-mini, превосходит многие другие open-source модели в тестах по программированию, математике и медицине.
- Низкие требования к оборудованию:
- GPT-OSS-20B: работает на устройствах с 16 ГБ оперативной памяти, идеально подходит для локального или on-device вывода.
- GPT-OSS-120B: работает на одной видеокарте с 80 ГБ памяти (например, NVIDIA H100).
- Лицензия Apache 2.0: бесплатна для коммерческого использования и модификации, без рисков нарушения авторских прав или патентов.
- Настраиваемые уровни логических рассуждений, с полной цепочкой рассуждений (chain-of-thought) и агентскими возможностями, такими как вызов функций и использование инструментов.
Официальные ссылки:
- GitHub: https://github.com/openai/gpt-oss
- Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
- Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
- Блог OpenAI: Introducing GPT-OSS
- Playground: https://www.gpt-oss.com/
Быстрый старт: запуск GPT-OSS локально
Если вы хотите сразу попробовать эти модели, вы можете протестировать их онлайн через Playground или загрузить с Hugging Face для локального развёртывания. Ниже приведено простое руководство по настройке.
1. Настройка окружения
Рекомендуется: Linux или macOS (Windows через WSL2).
# Создание Python-окружения
conda create -n gptoss python=3.10
conda activate gptoss
# Установка зависимостей
pip install torch transformers accelerate
2. Загрузка модели
Пример для модели 20B:
git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b
Для ускорения загрузки:
pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
3. Простой тест
Создайте файл demo.py:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")
prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)
Запустите:
python demo.py
4. Настройка уровня рассуждений
Вы можете управлять глубиной рассуждений с помощью специального тега:
prompt = "<reasoning:high>\nSolve this math problem: 2*(3+5)^2 = ?"
5. Развёртывание в виде API
Если вы хотите предоставить доступ к модели через локальный API:
pip install fastapi uvicorn
# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM
app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")
@app.post("/chat")
async def chat(prompt: str):
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}
Запустите:
uvicorn app:app --host 0.0.0.0 --port 8000
Отправьте POST-запрос на http://localhost:8000/chat для тестирования API.
Итоги
OpenAI возвращается в мир open source с двумя мощными моделями для логических рассуждений, которые могут работать локально на потребительском оборудовании.
Лицензия Apache 2.0 делает их идеальными для исследований, стартапов и коммерческого использования.
Загрузки с Hugging Face уже идут полным ходом, поэтому сначала попробуйте Playground, прежде чем настраивать локальное окружение.
Пока GPT-5 остаётся засекреченной, GPT-OSS уже становится одним из самых захватывающих open-source проектов в области ИИ в этом году. Ожидайте волну новых проектов и приложений, построенных на этих моделях, в ближайшие дни.
FAQ
1. Что такое GPT-OSS?
GPT-OSS — это новая open-source серия моделей для логических рассуждений от OpenAI, включающая GPT-OSS-20B и GPT-OSS-120B, разработанных для обеспечения высокой производительности, близкой к o4-mini, при работе на потребительском оборудовании.
2. Может ли GPT-OSS работать на ноутбуке или смартфоне?
Да. GPT-OSS-20B может работать на устройствах с 16 ГБ оперативной памяти, что делает возможным запуск на мощных ноутбуках и даже смартфонах. GPT-OSS-120B требует одной видеокарты с 80 ГБ памяти для оптимальной производительности.
3. Можно ли использовать GPT-OSS в коммерческих целях бесплатно?
Да. Модели выпущены под лицензией Apache 2.0, что разрешает бесплатное использование, модификацию и коммерческое развёртывание без проблем с авторскими правами или патентами.
4. Как попробовать GPT-OSS онлайн без загрузки?
OpenAI предоставляет Playground, где вы можете протестировать модели прямо в браузере, прежде чем загружать и запускать их локально.
5. Чем GPT-OSS отличается от других open-source LLM?
GPT-OSS предлагает настраиваемую глубину рассуждений, полную прозрачность цепочки рассуждений (chain-of-thought), агентские возможности вызова функций и более высокую производительность в тестах по программированию, математике и медицине по сравнению с моделями аналогичного размера.