Google lanza Gemini, su nueva inteligencia artificial multimodal para aventajar a ChatGPT


Google ha anunciado el lanzamiento de la primera versión (1.0) de Gemini, una Inteligencia Artificial (IA) multimodal y flexible que se presenta en tres niveles de uso –Gemini Ultra, Gemini Pro y Gemini Nano– para diferentes aplicaciones, como pueden ser dispositivos o centros de datos.

A finales del pasado mes de marzo, The Information adelantó que el equipo de inteligencia artificial (IA) de Google y DeepMind estaban trabajando en una nueva iniciativa con la que buscaban competir y superar el dominio de la desarrolladora de ChatGPT.

Esta iniciativa, que internamente se conocía como Gemini (Geminis) aunaba ambos equipos dedicados a la IA de Alphabet, matriz de Google para crear un nuevo modelo de IA, de la que no trascendieron datos.

Google ha presentado ahora la primera versión de Gemini (1.0), un modelo de IA que inicia una “nueva era de modelos” y que “representa uno de los mayores esfuerzos de ciencia e ingeniería” de Google, según ha comentado el CEO de la firma, Sundar Pichai, en un comunicado.

El director ejecutivo y cofundador de Google DeepMind, Demis Hassabis, ha comentado por su parte que Gemini se ha construido desde cero para ser multimodal de forma nativa, lo que quiere decir que puede comprender, operar y combinar sin problemas distintos tipos de información, “incluidos texto, código, audio, imagen y video”.

Esta IA también se caracteriza por ser flexible, de modo que se puede ejecutar de manera eficiente tanto en centros de datos como en dispositivos móviles, motivo por el que se ha optimizado en tres tamaños diferentes.

Gemini Ultra, por su parte, es el modelo más grande y capaz para dedicarse a tareas altamente complejas. Google ha señalado, por otra parte, que Gemini Pro es idóneo para escalar en una amplia gama de tareas y que Gemini Nano es el más eficiente para tareas en el dispositivo.

Algunos ejemplos de lo que puede hacer Gemini

Hands-on With Gemini  Interacting With Multimodal Ai

Mejor puntaje que los humanos

Google ha explicado que el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM, por sus siglas en inglés).

Esta versión de la nueva IA de Google también supera a los expertos humanos en comprensión masiva de lenguajes multitarea (MMLU) con un 90 por ciento, al utilizar una combinación de 57 materias, como matemáticas, física, historia, derecho o medicina.

Por otra parte, ha indicado que con los puntos de referencia de imágenes que ha probado para su desarrollo, Gemini Ultra “Superó a los modelos de última generación anteriores” sin la ayuda de sistema de reconocimiento óptico de caracteres (OCR), que extraen texto para su posterior procesamiento.

Esta IA también puede extraer información “de cientos de miles de documentos” mediante la lectura, el filtrado y la comprensión de la información, lo que según la compañía ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas”.