OpenAI lanza o1: así es su primer modelo de inteligencia artificial con capacidades de «razonamiento»

OpenAI continúa siendo una de las empresas especializadas en inteligencia artificial que más da de qué hablar. Desde que sacó ChatGPT-3 hace ya casi dos años, no han parado de trabajar en el desarrollo de algo mejor. Su último lanzamiento es o1-preview, una vista previa de un modelo de IA que aseguran que tiene capacidades de «razonamiento».
Los rumores ya estaban vaticinando la llegada de o1 hace unos días, aunque bajo otro nombre: Strawberry (fresa en inglés). Pese a que OpenAI se haya decantado por una denominación distinta, lo cierto es que sigue siendo lo mismo que las filtraciones prometían: el primer modelo de «razonamiento» de la marca.
El equipo de OpenAI ha explicado que o1 ha sido entrenado para responder preguntas verdaderamente complejas con rapidez. Con esta herramienta, la empresa quiere acercarse a esa IA soñada que imita el pensamiento humano. En un principio, la compañía tiene como propósito que mejore en los resultados de escribir código y resolver problemas de varios pasos.
De momento, lo que OpenAI ha lanzado es la vista previa de o1 (o1-preview), aunque también ha sacado o1-mini, una versión más pequeña y económica. Sin embargo, ha querido diferenciar estos modelos racionales de ChatGPT, por lo que marca un antes y un después en su desarrollo de inteligencia artificial.
OpenAI@OpenAIWe’re releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
12 de septiembre, 2024 • 19:09
15.2K
1.7K
¿Cómo probar o1-preview u o1-mini?
El anuncio de o1 ayer por parte de OpenAI fue acompañado del lanzamiento de la vista previa y la versión mini para algunos s. En concreto, los
La manera en la que han enseñado a o1 a resolver problemas por sí solo es a través de la técnica de aprendizaje de refuerzo. Es decir, han entrenado al modelo mediante un sistema de recompensas y penalizaciones. Así, han logrado que o1 tenga una «cadena de pensamiento» para procesar los prompts de los s de una manera similar a la que usamos los humanos para procesar los problemas.
Tworek cuenta que o1 tiene menos alucinaciones que los anteriores modelos anteriores, pero reconoce que es un problema que persiste y que no han resuelto por completo. Sin embargo, es realmente bueno para abordar problemas complejos. Lo pusieron a prueba con un examen de matemáticas y aseguran que su clasificación era digna de entrar en la Olimpiada Internacional de Matemáticas.