Cómo ejecutar OpenAI GPT-OSS 20B y 120B en tu portátil o móvil (Guía completa)

Alrededor de 3 min

Cómo ejecutar OpenAI GPT-OSS 20B y 120B en tu portátil o móvil (Guía completa)

OpenAI ha sorprendido a la comuniduelve a liberar modelos de lenguaje grandes como código abierto. Esta vez, obtenemos dos modelos de razonamiento – GPT-OSS-20B y GPT-OSS-120B, capaces de ofrecer un rendimiento cercano a o4-mini mientras se ejecutan localmente en laptops de gama alta o incluso en smartphones. La comunidad global de desarrolladores está entusiasmada.

Aspectos destacados del lanzamiento

Dos modelos de razonamiento de código abierto: GPT-OSS-20B (versión ligera) y GPT-OSS-120B (versión principal).
Rendimiento cercano a o4-mini, superando a muchos otros modelos de código abierto en benchmarks de codificación, matemáticas y medicina.
Bajos requisitos de hardware:
- GPT-OSS-20B: Se ejecuta en dispositivos con tan solo 16GB de memoria, ideal para inferencia local o en el dispositivo.
- GPT-OSS-120B: Se ejecuta en una sola GPU de 80GB (por ejemplo, NVIDIA H100).
Licencia Apache 2.0: Libre para uso comercial y personalización, sin riesgos de derechos de autor o patentes.
Ajustable en fine-tuning y niveles de razonamiento, con salida completa de cadena de pensamiento y capacidades agentes como llamadas a funciones y uso de herramientas.

Enlaces oficiales:

GitHub: https://github.com/openai/gpt-oss
Hugging Face 20B: https://huggingface.co/openai/gpt-oss-20b
Hugging Face 120B: https://huggingface.co/openai/gpt-oss-120b
Blog de OpenAI: Introducing GPT-OSS
Playground: https://www.gpt-oss.com/

Tutorial rápido: Ejecución de GPT-OSS localmente

Si deseas probar estos modelos de inmediato, puedes probarlos en línea a través del Playground o descargarlos desde Hugging Face para implementación local. A continuación, una guía de configuración sencilla.

1. Configura tu entorno

Recomendado: Linux o macOS (Windows mediante WSL2).

# Crear un entorno Python
conda create -n gptoss python=3.10
conda activate gptoss

# Instalar dependencias
pip install torch transformers accelerate

2. Descarga el modelo

Ejemplo para el modelo 20B:

git lfs install
git clone https://huggingface.co/openai/gpt-oss-20b

Para descargas más rápidas:

pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1

3. Ejecuta una prueba simple

Crea un archivo demo.py:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./gpt-oss-20b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto")

prompt = "Explain quantum computing in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True)

Ejecuta:

python demo.py

4. Ajusta la intensidad del razonamiento

Puedes controlar la profundidad del razonamiento con una etiqueta especial:

prompt = "<reasoning:high>\nSolve this math problem: 2*(3+5)^2 = ?"

5. Implementa como una API

Si deseas exponer el modelo a través de una API local:

pip install fastapi uvicorn

# app.py
from fastapi import FastAPI
from transformers import AutoTokenizer, AutoModelForCausalLM

app = FastAPI()
tokenizer = AutoTokenizer.from_pretrained("./gpt-oss-20b")
model = AutoModelForCausalLM.from_pretrained("./gpt-oss-20b", device_map="auto", torch_dtype="auto")

@app.post("/chat")
async def chat(prompt: str):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=200)
    return {"response": tokenizer.decode(outputs[0], skip_special_tokens=True)}

Ejecuta:

uvicorn app:app --host 0.0.0.0 --port 8000

Envía una solicitud POST a http://localhost:8000/chat para probar tu API.

Resumen

OpenAI regresa al juego del código abierto con dos potentes modelos de razonamiento que pueden ejecutarse localmente en hardware de consumo.
La licencia Apache 2.0 los hace ideales para investigación, startups y casos de uso comerciales.
Las descargas en Hugging Face ya están aumentando, así que prueba primero el Playground antes de configurarlo localmente.

Con GPT-5 aún en desarrollo, GPT-OSS ya se perfila como uno de los desarrollos más emocionantes de IA de código abierto del año. Espera una ola de nuevos proyectos y aplicaciones construidos sobre estos modelos en los próximos días.

Preguntas frecuentes

1. ¿Qué es GPT-OSS?

GPT-OSS es la nueva serie de modelos de razonamiento de código abierto de OpenAI, que incluye GPT-OSS-20B y GPT-OSS-120B, diseñados para ofrecer un rendimiento de razonamiento de alto nivel similar a o4-mini mientras se ejecutan localmente en hardware de consumo.

2. ¿Puede GPT-OSS ejecutarse en una laptop o smartphone?

Sí. GPT-OSS-20B puede ejecutarse en dispositivos con tan solo 16GB de RAM, lo que lo hace posible en laptops de gama alta o incluso smartphones. GPT-OSS-120B requiere una sola GPU de 80GB para un rendimiento óptimo.

3. ¿Es GPT-OSS gratuito para uso comercial?

Sí. Los modelos se publican bajo la licencia Apache 2.0, lo que permite su uso, modificación y despliegue comercial sin preocupaciones de derechos de autor o patentes.

4. ¿Cómo puedo probar GPT-OSS en línea sin descargarlo?

OpenAI proporciona un Playground donde puedes probar los modelos directamente en tu navegador antes de decidir descargarlos y ejecutarlos localmente.

5. ¿Qué hace diferente a GPT-OSS de otros LLM de código abierto?

GPT-OSS ofrece intensidad de razonamiento ajustable, transparencia completa de cadena de pensamiento, capacidades agentes de llamadas a funciones y mejor rendimiento en benchmarks de codificación, matemáticas y medicina en comparación con modelos de tamaño similar.