OpenAI lanza gpt-oss, sus primeros modelos de IA abiertos desde GPT-2

OpenAI lanza gpt-oss, sus primeros modelos de IA abiertos desde GPT-2

OpenAI acaba de cumplir su promesa de volver a lanzar una IA abierta. La compañía ha presentado gpt-oss, sus primeros modelos open weight desde GPT-2, de 2019. Están disponibles en versiones de 20.000 millones y 120.000 millones de parámetros bajo los nombres gpt-oss-20b y gpt-oss-120b, respectivamente.

De acuerdo con los de Sam Altman, sus nuevas IA abiertas superan en rendimiento a otros modelos de tamaños similares. Pero no solo eso, sino que además están optimizadas para ejecutarse en hardware comercial, haciendo especial énfasis en la eficiencia de su despliegue.

En su versión de 20.000 millones de parámetros, gpt-oss requiere de solo 16 GB de memoria RAM para ejecutarse. Esto significa que se puede correr en cualquier ordenador relativamente moderno, proveyendo una solución ideal para quienes necesitan una IA capaz que se pueda usar en entornos locales y sin infraestructuras costosas. OpenAI afirma que su desempeño es similar al de o3-mini en los benchmarks básicos.

Por otra parte, gpt-oss de 120.000 millones de parámetros se puede ejecutar en una única GPU con 80 GB de RAM —una NVIDIA H100 SXM, por ejemplo— para ofrecer un rendimiento muy parecido al de o4-mini. Según anunció OpenAI, ambos modelos están disponibles en Hugging Face bajo una licencia Apache 2.0.

Así es gpt-oss, la nueva IA abierta de OpenAI

OpenAI

De la mano de gpt-oss, OpenAI promete brindar alternativas ideales para desarrolladores. La firma californiana indica que sus nuevos modelos open weight son ideales para impulsar agentes de IA y que destacan por sus capacidades de razonamiento. La versión de 20.000 millones de parámetros no solo destaca por ser ejecutable en hardware comercial y no demasiado potente, sino también por ser una gran opción para tareas que requieran de baja latencia.

Por su parte, la versión de 120.000 millones de parámetros está pensada para labores de propósito general y que requieran de capacidades de razonamiento avanzadas. Los de Sam Altman explican que los usuarios pueden optar por tres niveles de razonamiento:

  • Bajo, para respuestas rápidas;
  • Medio, para balancear velocidad y nivel de detalle en la contestación;
  • Alto, para brindar análisis detallados y profundos en las respuestas.

Asimismo, gpt-oss destaca en su despliegue con agentes de IA, especialmente para navegar la web o para ejecutar tareas en un navegador. Asimismo, son capaces de ejecutar código Python y son compatibles con la API Responses de OpenAI.

Los creadores de ChatGPT también anunciaron el lanzamiento de implementaciones para ejecutar inferencias con PyTorch y usando la plataforma Metal de Apple. Y si bien los usuarios pueden hacer fine tuning de los modelos de gpt-oss para ajustarlos a sus casos de uso específicos, sus creadores afirman haber tomado precauciones especiales para que no se les aproveche con fines maliciosos.

“Una vez que se publica un modelo open weight, los adversarios podrían ajustarlo con fines maliciosos. Evaluamos directamente estos riesgos ajustando el modelo con datos especializados de biología y ciberseguridad, creando una versión específica para cada dominio, sin rechazo, tal como lo haría un atacante. Posteriormente, evaluamos el nivel de capacidad de estos modelos mediante pruebas internas y externas. […] Esta metodología de ajuste malicioso fue revisada por tres grupos de expertos independientes, quienes formularon recomendaciones para mejorar el proceso de capacitación y las evaluaciones, muchas de las cuales adoptamos. […] Estos procesos representan un avance significativo para la seguridad de los modelos abiertos”.

OpenAI

Vale recordar que, si bien gpt-oss es un nuevo acercamiento de OpenAI a la IA abierta, no son modelos de código abierto. Esto se debe a que open weight no necesariamente es lo mismo que open source, pues pese a que se libera su código, no sucede lo mismo con los datos que los conforman y que se usaron para entrenarlos.

“Debido a su tamaño, estos modelos ofrecen avances significativos tanto en la capacidad de razonamiento como en la seguridad. […] También reducen las barreras para los mercados emergentes, los sectores con recursos limitados y las organizaciones más pequeñas que podrían carecer del presupuesto o la flexibilidad para adoptar modelos propietarios”, remarca OpenAI.


Fuente original

Comments

No comments yet. Why don’t you start the discussion?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *