OpenAI GPT-4: multimodal, nuevas funciones, entrada de imágenes, cómo usar y más

OpenAI causó un gran revuelo cuando lanzó GPT-4 anoche. El modelo de lenguaje de IA de próxima generación es una mejora notable con respecto a su predecesor y es capaz de mucho más. Si sabe un par de cosas sobre ChatGPT y sus alternativas , ya sabe lo que esto significa para los chatbots y la inteligencia artificial en general. Sin embargo, para aquellos que desconocen los modelos de lenguaje o GPT-4 en particular, lo respaldamos. Hemos rastreado los blogs de OpenAI e Internet y hemos seleccionado una guía dedicada a GPT-4. Entonces, si usted es alguien con poca o ninguna idea al respecto, tome una taza de café y siéntese mientras le contamos todo sobre este modelo de IA.

GPT-4: todo lo que necesita saber (2023)

El tema de GPT-4 es muy amplio en lo que respecta a la información. Para ayudarlo a clasificarlo todo, hemos creado una tabla a continuación. Úselo si desea saltar rápidamente a un aspecto particular del modelo. Tabla de contenido

¿Qué es GPT-4?

En pocas palabras, GPT-4 es la última iteración de OpenAI en los grandes sistemas de modelo de lenguaje (LLM) de la empresa. Los sistemas de modelo de lenguaje, en general, son sistemas que intentan predecir la siguiente palabra en una oración y le agregan inteligentemente sus entradas. Lo hacen mediante el estudio de un gran conjunto de datos que les da la capacidad de identificar patrones y actuar sobre ellos.

Si quieres seguir leyendo este post sobre "[page_title]" dale click al botón "Mostrar todo" y podrás leer el resto del contenido gratis. aiso.la es un sitio especializado en Tecnología, Noticias, Juegos y gran cantidad de temas que te pueden interesar. Si quieres leer más información similar a [page_title], no dudes de sguir navegando por la web y suscribirte a las notificaciones del Blog y no perderte las últimas novedades.

Seguir leyendo


GPT-4 es el modelo más nuevo de esta serie y se espera que sea una gran mejora con respecto a los modelos de generaciones anteriores como GPT 3 y 3.5. Hay algunas cosas específicas en las que GPT-4 es mejor, que discutiremos en profundidad a continuación. Sin embargo, un punto simple que debe comprender es que este nuevo modelo permitirá que los chatbots como ChatGPT y MS Bing sean mucho más capaces en sus respuestas. Por lo tanto, puede esperar que den mejores respuestas, diseñen de manera más creativa y se desempeñen de manera diferente con las indicaciones de ChatGPT más antiguas y más nuevas.

GPT-4 es multimodal

Si ha utilizado los modelos GPT anteriores, es posible que sepa su capacidad limitada para interpretar el texto que ingresa. Sin embargo, una de las implementaciones más grandes y nuevas del nuevo modelo es que es multimodal. Esto significa que GPT-4 puede aceptar indicaciones tanto de texto como de imágenes.

Esto se traduce en que la IA no solo recibe la imagen, sino que la interpreta y la comprende. Esta comprensión se aplicará a las indicaciones intercaladas con entradas de texto y visuales. Además, la capacidad multimodal de GPT-4 se extenderá a todos los tamaños y tipos de imágenes y texto, incluidos documentos con texto y fotografías, diagramas (bocetados o dibujados a mano) o capturas de pantalla. La salida de GPT-4 seguirá siendo tan capaz como lo sería en entradas de solo texto.

En una transmisión en vivo para desarrolladores organizada por OpenAI, la compañía mostró la naturaleza multimodal de GPT-4. GPT-4 recibió una captura de pantalla de una ventana de Discord en la transmisión y se le pidió que la describiera con gran detalle .

El modelo tomó un poco más de un minuto y brindó una respuesta extremadamente descriptiva y precisa. La respuesta capturó casi todos los elementos de la pantalla de entrada. Desde el nombre del servidor en la esquina superior izquierda hasta los diferentes canales de voz e incluso nombrar a todos los miembros de Discord en línea en el panel derecho, GPT-4 capturó todo.

GPT-4 se sometió a algunas pruebas más en las que las personas enviaron varias obras de arte al azar, incluidas fotos de una ardilla sosteniendo una cámara. Luego se le pidió a la modelo que identificara “ qué tenía de gracioso esta imagen ”. Nuevamente generó una respuesta que decía que la foto era divertida porque las ardillas normalmente comen nueces y no actúan como humanos. Como se ve, nuevamente proporcionó una respuesta muy específica como lo haría un humano.

Sin embargo, como se mencionó anteriormente, la especificidad del modelo va más allá de las capturas de pantalla y en las entradas de texto e imágenes de todo tipo. OpenAI mostró lo mismo cuando Greg capturó una foto de una maqueta dibujada a mano de un sitio web de bromas. Luego subió lo mismo al servidor Discord conectado a la API de GPT-4. Luego se le pidió al modelo que ” escribiera un breve código HTML/JS para convertir la página en un sitio web y reemplazar los chistes con los reales “.

Sorprendentemente, GPT-4 compiló el código de trabajo para el mismo. Al probarlo, produjo un sitio web completamente funcional en el que al presionar los botones se revelaron los chistes. El hecho de que el modelo ChatGPT pueda descifrar la escritura humana y crear código a partir de una combinación de entradas de texto e imágenes es alucinante. La capacidad multimodal de GPT-4 es un gran paso en la dirección de que la IA comprenda completamente las indicaciones y brinde resultados con una precisión perfecta.

Si bien no hubo problemas considerables, OpenAI afirmó que la velocidad es algo con lo que GPT-4 podría trabajar y que podría llevar tiempo. Además, las entradas visuales para GPT-4 aún se encuentran en la vista previa de investigación y aún no están disponibles públicamente.

¿En qué es mejor GPT-4 que GPT 3.5/GPT-3?

Además de su impresionante enfoque multimodal, GPT-4 tiene otras áreas de mejora en las que el nuevo modelo no solo supera a sus hermanos mayores. Algunas de estas áreas son:

1. Comprender mejor las indicaciones matizadas

OpenAI afirma que puede ser difícil ver la diferencia entre GPT-4 y GPT-3.5 a primera vista. Sin embargo, las capacidades del primero salen a la luz cuando entras en el meollo de la cuestión. Para demostrar la diferencia, el nuevo modelo se comparó con GPT-3.5 en una variedad de exámenes a nivel humano. OpenAI usó las pruebas disponibles públicamente más recientes y no proporcionó a los modelos capacitación específica para esto. GPT-4 frente a 3.5

Los datos en sí pintan una mejor imagen de lo que podríamos decirle. En todos los resultados, GPT-4 salió a la cabeza y obtuvo una puntuación superior a su versión anterior. Si bien el umbral apenas se superó en algunos exámenes (como SAT EBRW), hubo un gran salto en el rendimiento en otros exámenes (examen de barra uniforme, química AP y más). OpenAI declaró: ” GPT-4 también es más confiable, creativo y, en general, capaz de manejar instrucciones más matizadas en comparación con GPT-3.5 “. Esto se traduce en que el bot comprende de manera efectiva indicaciones más complejas con facilidad.

2. Límite de palabras exponencialmente mayor

Si bien a todos les encantó GPT 3 y GPT 3.5, la gente deseaba que pudiera reconocer entradas aún más largas. La introducción de GPT-4 ha resuelto ese problema. El nuevo modelo de lenguaje GPT-4 AI viene con un asombroso límite de entrada de 25,000 palabras, que es significativamente grande. Por contexto, GPT 3.5 se limitó a 8000 palabras.

Esto significa que los usuarios podrán alimentar al bot con indicaciones de entrada mucho más largas para que lea y luego genere resultados. Entonces, cuando GPT-4 finalmente se lance, puede esperar dar una respuesta mucho más detallada y tomar entradas más largas sin problemas. Lo que esto significa para los desarrolladores es que podrán sentir nuevas API y documentación para el chatbot y obtener ayuda para escribir código o corregir errores en el código existente más fácilmente.

3. Admite más idiomas

ChatGPT ha sido utilizado predominantemente por hablantes de inglés en todo el mundo. Sin embargo, GPT-4 tiene en cuenta otros idiomas. El modelo más nuevo ha demostrado ser compatible con más de 26 idiomas diferentes. Esto incluye los idiomas ucraniano, coreano, germánico y muchos más.

OpenAI probó lo mismo al traducir los puntos de referencia de MMLU a una variedad de idiomas. De 26 idiomas, GPT-4 supera el rendimiento en inglés de GPT-3.5 en 24 de ellos. Sin embargo, hay que realizar más entrenamiento de datos antes de que GPT-4 sea totalmente compatible con todos los idiomas.

4. Personalidades diferentes

La capacidad de dirección es un concepto en el que puede indicar a la IA que actúe de cierta manera con un tono de voz fijo. Un buen ejemplo de esto es pedirle a ChatGPT que actúe como un vaquero o un oficial de policía (asignándole un rol como lo hicimos mientras creamos nuestro chatbot usando la API de ChatGPT ). GPT-4 obtiene esa capacidad de dirección, pero OpenAI ahora hace que sea más difícil para la IA romper el carácter. Los desarrolladores ahora pueden arreglar el estilo de su IA desde el primer momento describiendo esas direcciones en el mensaje del “sistema”. Dado que estos mensajes son fáciles de liberar, OpenAI también está trabajando para hacerlos más seguros.

A partir de las demostraciones que OpenAI mostró en su publicación de blog, fue bastante divertido ver al usuario tratando de que GPT-4 dejara de ser un tutor socrático y simplemente les dijera la respuesta a su consulta. Sin embargo, como estaba programado para ser un tutor, GPT-4 se negó a romper el carácter, que es lo mismo que muchos desarrolladores pueden esperar cuando entrenen a sus bots en el futuro.

¿Posibles aplicaciones de GPT-4?

Si bien los usuarios aún no pueden utilizar la aplicación multimodal de GPT-4, OpenAI ya se ha asociado con Be My Eyes, una aplicación destinada a personas con discapacidad visual. La inclusión de GPT-4 en la aplicación le permite tomar una foto de lo que está mirando y la IA describirá exactamente lo que hay en la pantalla, incluidos vestidos, plantas, máquinas en un gimnasio, lectura de mapas y mucho más.

GPT-4 también se ha asociado con otras aplicaciones como Duolingo, Khan Academy para el aprendizaje inteligente e incluso el gobierno de Islandia para la preservación del idioma. Si bien la API de GPT-4 está actualmente disponible en una lista de espera , podemos esperar que los desarrolladores obtengan experiencias increíbles una vez que finalmente se lance. Incluso antes de que eso suceda, las aplicaciones anteriores ya están activas para que las personas las usen.

¿GPT-4 tiene alguna limitación?

A pesar de que GPT-4 se anuncia como el próximo paso en inteligencia artificial, todavía tiene sus obstáculos.

Para empezar, GPT-4 carece de conocimiento mundial de eventos que hayan ocurrido después de septiembre de 2021. El modelo tampoco aprende de su experiencia. Esto puede llevar a que el modelo GPT-4 cometa errores de razonamiento e incluso sea propenso a aceptar declaraciones falsas obvias de un usuario.

GPT-4 también puede fallar en problemas como lo harían los humanos. Al igual que GPT 3.5, el nuevo modelo también puede alucinar y equivocarse con confianza en sus predicciones. Esto podría llevar a que GPT-4 no vuelva a verificar su trabajo cuando a veces comete un error.

Sin embargo, a pesar de eso, OpenAI promete que GPT-4 ha sido mejor entrenado que los modelos anteriores para evitar esto. En las propias evaluaciones adversarias de factualidad internas de la empresa, el modelo obtuvo una puntuación un 35 % más alta en comparación con GPT 3,5 en la reducción de las alucinaciones. Si bien las percepciones y predicciones del modelo han mejorado, sus resultados aún deben tomarse junto con el asesoramiento humano.

Evaluaciones de OpenAI: mejorar GPT-4 juntos

OpenAI utiliza su propio marco de software para crear y ejecutar puntos de referencia para modelos como GPT-4. Sin embargo, es de código abierto, por lo que la empresa ha compartido algunas de las plantillas que más se han utilizado. OpenAI ha comenzado que las evaluaciones serán una parte integral de los puntos de referencia de crowdsourcing que se pueden usar para garantizar que GPT-4 esté mejor capacitado y funcione aún mejor.

Como tal, la compañía ha invitado a todos (sí, a todos los usuarios de GPT-4) a probar sus modelos con puntos de referencia y enviar sus ejemplos. Puede encontrar más información sobre lo mismo en la página de investigación GPT-4 de OpenAI.

Cómo obtener acceso a GPT-4 ahora mismo

Desafortunadamente, GPT-4 aún no está disponible para todos. OpenAI ha lanzado actualmente el nuevo modelo solo para suscriptores de ChatGPT Plus con un límite de uso. Los suscriptores de Plus también obtienen acceso de token limitado a dos versiones diferentes de GPT-4. Mientras que algunos usuarios pueden usar el motor GPT-4s 32K , lo que les da un límite de palabras más largo, otros están restringidos a GPT-4 8K con una capacidad limitada. OpenAI ha declarado que esto se ajustará dinámicamente en función de la demanda. Los suscriptores de ChatGPT Plus que deseen acceder ahora deben consultar nuestra guía sobre cómo obtener acceso a GPT-4 aquí .

Si no puede molestarse en obtener ChatGPT Plus, le complacerá saber que Microsoft Bing ya está usando GPT-4. Si bien no podrá jugar con el modelo de lenguaje como en OpenAI, aún es bastante bueno experimentar y probar diferentes tipos de cosas. Vea cómo usar MS Bing en cualquier navegador web para comenzar.

Preguntas frecuentes (FAQ)

1. ¿GPT-4 llegará a ChatGPT?

De hecho, GPT-4 ya está llegando a ChatGPT. Como se mencionó anteriormente, el nuevo modelo ya está disponible para los suscriptores de ChatGPT Plus. Si ha iniciado sesión, todo lo que necesita hacer es seleccionar el modelo correcto y comenzar a chatear. También puede seguir nuestro enlace anterior sobre cómo obtener ChatGPT Plus si aún no lo ha hecho.

2. ¿GPT-4 será de uso gratuito?

A partir de ahora, lamentablemente, GPT-4 no es de uso gratuito. Requiere una suscripción a ChatGPT Plus, que cuesta 20€ al mes. Pero OpenAI ha declarado que espera ofrecer consultas GPT-4 gratuitas a todos en algún momento. La compañía también podría introducir un nuevo nivel de suscripción para brindar un acceso mejorado a nuevos modelos de lenguaje de IA como GPT-4.

3. ¿Puedo confiar plenamente en GPT-4?

No, no puede confiar en GPT-4 como medida completa. El nuevo modelo todavía tiene algunas limitaciones, incluido un conjunto de datos antiguo y alucinaciones ocasionales. El modelo también puede dar con confianza respuestas incorrectas que, si bien no tienen malas intenciones, pueden ser maliciosas. Si bien GPT-4 ha mejorado en comparación con GPT 3.5, todavía tiene su parte de problemas. Entonces, si termina usando el modelo más nuevo, use el juicio humano adecuado junto con él.

4. ¿Cuál es el tamaño del conjunto de datos de GPT-4?

Si bien circulaban muchos rumores acerca de que GPT-4 tenía 100 billones de parámetros en comparación con los 175 mil millones de GPT-3, lo más probable es que sea falso. En una entrevista con StriclyVC, el CEO de OpenAI, Sam Altman, declaró indirectamente que ese no será el caso y que “los rumores de GPT-4 son algo ridículo “.

Quizás por esta razón, OpenAI ha moderado las expectativas en lo que respecta al tamaño del conjunto de datos de GPT-4 y no ha proporcionado un número exacto. El tiempo dirá si realmente se revela. No obstante, creemos que debería funcionar bastante bien en su demostración inicial.

5. ¿Cómo se ha entrenado GPT-4?

Al igual que sus modelos de idioma anteriores, el modelo base de GPT-4 ha sido entrenado para predecir la siguiente palabra en un documento. Como tal, los datos utilizados son una combinación de datos disponibles públicamente y los propios datos con licencia de OpenAI.

Estos datos contienen una mezcla de información correcta e incorrecta, razonamiento débil y sólido, declaraciones autocontradictorias y varias otras ideas. Esto le da a GPT-4 un amplio nivel de datos para analizar y reconocer lo que se le pide.

Prepárese para el nuevo modelo de IA multimodal GPT-4 de OpenAI

Esperamos que esté dejando este explicador con más información sobre GPT-4 que antes de llegar a él. GPT-4 es un modelo que está repleto de oportunidades y deletrea mucha emoción para todos. Una vez que esté completamente implementado en ChatGPT para todos, será interesante ver cómo todos hacen un uso completo del nuevo modelo para crear experiencias. Sin embargo, no tiene que esperar a que experimente ChatGPT. ¡Vea todas las cosas geniales que puede hacer en ChatGPT y luego integre ChatGPT con Siri e incluso obtenga ChatGPT en su Apple Watch ! Entonces, ¿qué piensas acerca de este nuevo y emocionante modelo? ¡Deja tus pensamientos en los comentarios a continuación!

Scroll al inicio