Meta ha anunciado un nuevo modelo de inteligencia artificial de código abierto llamado ImageBind que vincula múltiples flujos de datos, incluyendo texto, audio, datos visuales, temperatura y lecturas de movimiento generadas por una unidad de medición inercial (IMU). Este modelo es un proyecto de investigación que señala un futuro de sistemas de IA generativos que pueden crear experiencias multisensoriales inmersivas. El concepto principal de la investigación es vincular múltiples tipos de datos en un único espacio de incrustación multidimensional. Esta idea es la misma que subyace en el auge reciente de la IA generativa. Meta afirma que su modelo ImageBind es el primero en combinar seis tipos de datos en un único espacio de incrustación. Los tipos de datos incluidos son visual (tanto en forma de imagen como de vídeo), térmica (imágenes infrarrojas), texto, audio, información de profundidad y lecturas de movimiento. Meta dice que otros flujos de entrada sensorial podrían agregarse en futuros modelos, incluyendo el tacto, el habla, el olfato y las señales de fMRI cerebral.
Mira el artículo original en inglés aquí o también traducido al español aquí
