Gemini genera texto, código, video, imagen y audio

(Global) Un modelo multimodal es un modelo de AA (aprendizaje automático) capaz de procesar información de diferentes modalidades, como imágenes, videos y texto. Por ejemplo, el modelo multimodal de Google, Gemini, puede recibir una foto de un plato de galletas y generar una receta escrita como respuesta, y viceversa.

Esto significa que los usuarios no están limitados a un tipo de entrada y de salida, y pueden pedirle a un modelo con casi cualquier entrada que genere prácticamente cualquier tipo de contenido.

Google ha presentado una nueva versión de sus modelos de inteligencia artificial dentro de la familia Gemini 2.5, ampliando la disponibilidad de sus productos innovadores. Además de Gemini 2.5 Flash y Gemini 2.5 Pro, que ya están accesibles para integración y uso general, la compañía ha lanzado Gemini 2.5 Flash-Lite, una variante más rápida y económica que se encuentra en fase de vista previa.

Cómo la Inteligencia Artificial remodela la banca

La versión Gemini 2.5 Flash-Lite destaca por ofrecer mejoras en áreas como codificación, matemáticas, ciencia y razonamiento, así como en benchmarks multimodales, logrando reducir significativamente la latencia respecto a versiones anteriores como Gemini 2.0 y 2.5. Esto permite realizar traducciones y clasificaciones con mayor eficiencia y menor tiempo de respuesta.

Desde el medio señalan que la función aún no está disponible de forma generalizada y que varía según cuentas y dispositivos. Pueden utilizarla tanto cuentas gratuitas como de pago en Android e iOS, pero aún no está disponible en la versión web. Presumiblemente, por ahora, solo en el mercado estadounidense.

Esta es una mejora importante sobre la multimodalidad que actualmente ofrecen tanto ChatGPT como Copilot, que probablemente no tarden demasiado en incorporar esa capacidad.

Foto: tynmagazine.com

Gemini genera texto, código, video, imagen y audio

Etiquetas :