Millones de incrustaciones de artículos de Wikipedia en muchos idiomas.

Se está viviendo una época revolucionaria para la inteligencia artificial en lenguaje natural. Los desarrolladores están descubriendo las grandes capacidades de los modelos de comprensión y generación de lenguaje. Una de las claves para esta nueva generación de aplicaciones son los embeddings que impulsan los sistemas de búsqueda. Para ayudar a los desarrolladores a empezar rápidamente con conjuntos de datos comúnmente utilizados, se ha lanzado un archivo masivo de vectores de embedding que se pueden descargar y utilizar de forma gratuita. Este archivo contiene millones de artículos de Wikipedia en varios idiomas, divididos en pasajes con un vector de embedding calculado para cada uno. Las posibilidades de construir con este archivo son infinitas, como sistemas de búsqueda neural, búsqueda específica de secciones de Wikipedia, o utilizar múltiples idiomas en una aplicación.

Mira el artículo original en inglés aquí o también traducido al español aquí