Meta presenta CM3leon, su nueva IA para la generación de imágenes a partir de texto

Meta presenta CM3leon, un modelo de base única que genera tanto texto a imagen como imagen a texto. En los últimos meses, ha surgido un creciente interés por la inteligencia artificial (IA) y la investigación de los modelos generativos .

Los avances en el procesamiento del lenguaje natural han abierto las puertas a un nuevo horizonte de posibilidades, lo que se ha convertido en una auténtica revolución en la capacidad de las máquinas para comprender y expresar el lenguaje humano de una manera más precisa y creíble. Los sistemas de IA han alcanzado un hito notable al lograr generar imágenes a partir de texto, desatando un mundo de posibilidades creativas y prácticas.

CM3leon tambin es el primer modelo bsico único en su tipo que tambin puede generar texto a partir de imgenes.
CM3leon también es el primer modelo básico, único en su tipo, que también puede generar texto a partir de imágenes.
¿Te imaginas máquinas capaces de entender y expresar el lenguaje humano con una precisión sorprendente? Pues bien, esta fantasía se ha convertido en una realidad gracias a los avances en el procesamiento del lenguaje natural. Los investigadores han desatado todo su ingenio para desarrollar técnicas revolucionarias, como el aprendizaje profundo, que permiten a las máquinas comprender la estructura y el significado de nuestras palabras con una destreza asombrosa.

Meta presenta CM3leon, un modelo entrenado con una receta innovadora basada en modelos lingüísticos de texto. A través de un proceso de preentrenamiento ampliado y una etapa de ajuste fino supervisado, este modelo demuestra que los transformadores basados en tokenizadores pueden alcanzar un rendimiento excepcional en la generación de texto a imagen. Sorprendentemente, CM3leon, la nueva IA de Meta, logra estos resultados con una capacidad de entrenamiento cinco veces menor que los enfoques anteriores basados en transformadores. Lo impresionante de CM3leon es su versatilidad y eficiencia. Combina la funcionalidad de los modelos autorregresivos con costos de entrenamiento y una eficacia de inferencia más bajos. Este modelo mixto, conocido como CM3, tiene la capacidad de generar tanto texto como imágenes, condicionadas por cualquier secuencia de texto o imagen. Esto representa una enorme expansión de las capacidades de los modelos anteriores, que solo podían generar texto a imagen o imagen a texto.

CM3leon representa un paso enorme hacia la generación y entendimiento de imgenes de alta fidelidad.
CM3leon representa un paso enorme hacia la generación y entendimiento de imágenes de alta fidelidad.
Su enfoque para generar contenido multimodal lo convierten en un avance significativo en el campo de la inteligencia artificial. Además de tener un rendimiento SOTA en la generación de imágenes a partir de texto, CM3leon también es el primer modelo básico, único en su tipo, que también puede generar texto a partir de imágenes. CM3leon tiene la versatilidad y eficiencia de los modelos autorregresivos, y mantienen bajos los costos de capacitación y la eficiencia de la inferencia.

Aunque los modelos generativos de solo texto suelen enfocarse en múltiples tareas para mejorar su capacidad de seguir instrucciones, los modelos de generación de imágenes suelen especializarse en tareas específicas. Sin embargo, Meta dice que han aplicado un enfoque “multitarea a gran escala en CM3leon”, tanto para la generación de imágenes como de texto.

Collage de la cara de una persona hecho a partir de una fotografía y trozos de papel de colores recortados
La inteligencia artificial reescribirá los límites de nuestra memoria
Las nuevas herramientas de manipulación fotográfica de Google y Adobe están difuminando las fronteras entre lo real y lo creado con IA.
“Aplicamos a CM3leon un ajuste de instrucciones multitarea a gran escala tanto para la generación de imágenes como de texto y demostró que mejora significativamente el rendimiento en tareas como la generación de pies de foto, la respuesta a preguntas visuales, la edición basada en texto y la generación de imágenes condicionales. Este es otro buen ejemplo de cómo las técnicas de escalado desarrolladas para modelos de solo texto se generalizan directamente a nuestros modelos de generación de imágenes basados en tokenización”, dijo la empresa tecnológica en un comunicado.

“Cuando se compara el rendimiento con la referencia de generación de imágenes más utilizada (zero-shotMS- COCO), CM3leon alcanza una puntuación FID (Fréchet Inception Distancie) de 4,88, estableciendo un nuevo récord en la generación de texto a imagen y superando al modelo de texto a imagen de Google, Parti. Este logro subraya el potencial del aumento de la recuperación y pone de relieve el impacto de las estrategias de escalado en el rendimiento de los modelos autorregresivos”, explica la empresa. “CM3leon también muestra una impresionante capacidad para generar objetos de composición compleja, como el cactus en maceta con gafas de sol y sombrero de los ejemplos siguientes”.

CM3leon obtiene buenos resultados en diversas tareas de visión y lenguaje, como la respuesta a preguntas visuales y los subtítulos largos. Incluso con el entrenamiento en conjunto de datos compuesto por solo tres mil millones de tokens, el rendimiento de CM3leon con cero disparos se compara favorablemente con modelos más grandes entrados en conjuntos de datos más extensos.

Así fue como Meta construyó CM3leon

La arquitectura de CM3Leon utiliza un transformador decodificador, similar a los modelos basados en texto bien establecidos. Sin embargo, lo que diferencia a CM3Leon es su capacidad para introducir y generar tanto texto como imágenes. Esto permite a CM3Leon manejar con éxito la variedad de tareas que compartimos anteriormente.

Pantallas dividiendo y distorsionando el rostro de una persona
Inteligencia artificial generativa: ‘nueva’ tecnología, viejos problemas
El renacimiento tecnológico que se avecina traerá consigo el asombro, el desastre y una pérdida total del control sobre tu imagen.
Los modelos generativos son cada vez más sofisticados. Estos modelos aprenden la relación entre imágenes y texto entrenándose con millones de imágenes de ejemplo, pero también pueden reflejar cualquier sesgo presente en los datos de entrenamiento. Aunque el sector aún se encuentra en las primeras fases de comprensión y resolución de estos retos, la transparencia será clave para acelerar el progreso. "Por ello, hemos entrenado a CM3leon utilizando un conjunto de datos interno con licencia", aseguró Meta en un comunicado" y agregó que modelos como CM3leon podrían contribuir en última instancia a impulsar la creatividad y mejorar las aplicaciones en el metaverso. “Esperamos seguir explorando los límites de los modelos lingüísticos multimodales y publicar más modelos en el futuro”.

La capacidad de las máquinas para generar contenido original y de calidad ha sido un objetivo perseguido por los investigadores de IA durante décadas. Sin embargo, estamos viendo que los avances recientes han acelerado el progreso en esta área y han abierto nuevas puertas hacia la creación de sistemas que pueden crear textos y gráficos convincentes.

Por favor, entra o regístrate para responder a esta publicación.

Etiquetas más populares