Google lanza Gemini 2.0, su modelo de inteligencia artificial capaz de «pensar varios pasos por delante»

Ha llegado el momento de que todas las empresas de inteligencia artificial muestren en qué han estado trabajando este año. Para no quedarse atrás, Google ha presentado su modelo de IA de próxima generación, Gemini 2.0, que promete ser un gran paso adelante en cuanto a inteligencia y capacidades.
Si Gemini 1.0 se centraba en la multimodalidad (es decir, en la capacidad de combinar y comprender distintos tipos de información, como texto e imágenes), Gemini 2.0 se centra en los agentes, una inteligencia artificial capaz de actuar de forma más autónoma y resolver problemas de varios pasos con una menor intervención humana.
«Durante el último año, hemos estado invirtiendo en el desarrollo de modelos más agenciales, lo que significa que pueden entender más sobre el mundo que te rodea, pensar varios pasos por delante y tomar decisiones por ti, con tu supervisión», ha detallado el CEO de Google, Sundar Pichai, en un artículo que ha sido publicado en su blog oficial este miércoles.
Los usuarios pueden probar algunas de las nuevas capacidades de Gemini 2.0 esta misma semana, incluida una nueva función de «Investigación profunda» que hará que el modelo de IA busque en internet información sobre un tema y la condense en un informe fácil de leer.
Según la propia Google, esta función, que estará disponible para los suscriptores de Gemini Advanced, actuará como un humano en la forma en la que busca y localiza información relevante en internet antes de iniciar una nueva búsqueda basada en lo que ha aprendido.
La firma de Mountain View tiene previsto incorporar Gemini 2.0 a la función de resúmenes generados por inteligencia artificial que ya incluye su buscador. Esta herramienta, que ya ha transformado radicalmente la forma en la que Google ofrece las respuestas de las webs, tuvo un comienzo especialmente accidentado (pizza con pegamento mediante). Google retrasó entonces sus planes e introdujo varios ajustes técnicos para mejorar el rendimiento de su modelo de IA.
Con Gemini 2.0, la tecnológica afirma que sus resúmenes de inteligencia artificial pueden hacer frente a búsquedas más complejas, incluidas preguntas de varios pasos o consultas multimodales que utilizan texto e imágenes. Google ha anunciado que esta semana ha empezado a probar las mejoras en los resúmenes y que a principios del año que viene las pondrá a disposición del público general.
La compañía dirigida por Sundar Pichai también tiene intención de lanzar una versión experimental de Gemini 2.0 Flash, un modelo de inteligencia artificial diseñado para desempeñar tareas de gran volumen a gran velocidad, con la que ya pueden hacer pruebas los desarrolladores. Cualquiera que acceda al chatbot Gemini a través del navegador o de su aplicación también va a poder probar este nuevo modelo.
Google ha asegurado que Flash 2.0 hará que Gemini sea más rápido, más inteligente y más capaz a la hora de razonar. Además, este modelo ahora es capaz de generar imágenes de forma nativa (antes, Google utilizaba un modelo de IA independiente para crear imágenes en Gemini).
Según la propia empresa, esto debería mejorar la generación de imágenes, puesto que ahora estaría basado en el vasto conocimiento del mundo de Gemini 2.0.
Proyecto Astra
La mayoría de las demás novedades interesantes que Google ha anunciado no estarán disponibles para el público general hasta dentro de un tiempo.
Una de ellas sería el Proyecto Astra, que la tecnológica ya presentó en mayo de este año. Google mostró entonces un asistente de inteligencia artificial en tiempo real que podía ver el mundo que le rodeaba y responder a preguntas.
Ahora, Google ha mostrado una versión todavía mejor de Astra, basada en Gemini 2.0, que al parecer puede aprovechar algunos de los servicios más populares de Google, como Lens o Maps.
En una nueva demostración virtual, la organización ha mostrado a una persona que acercaba la cámara de su teléfono a un autobús londinense y Astra respondía a una pregunta sobre si ese autobús podía llevarle a Chinatown. Además, el nuevo y mejorado Astra también podría conversar en varios idiomas (mezclados entre sí).
Google pondrá Astra a disposición de un número limitado de usuarios, pero todavía no ha aclarado cuándo podrá acceder a él un mayor número de personas. Bibo Xu, jefe de Producto de Astra en Google DeepMind, ha explicado a los periodistas durante una conversación posterior que la compañía espera que estas funciones se extiendan a través de sus aplicaciones con el tiempo, lo que sugiere que Astra podría llegar de forma gradual y no como un gran lanzamiento.
Google también ha anunciado que Astra se podrá ejecutar en unas gafas de realidad aumentada.
Proyecto Mariner
Además, la tecnológica también ha dado a conocer el Proyecto Mariner, una herramienta que permite a la IA tomar el control de un navegador y buscar información por su cuenta en internet. Puede reconocer píxeles, imágenes, texto y código de una página web y utilizarlos para navegar y encontrar respuestas.
Google se ha referido a Mariner como un prototipo de investigación temprana y ha señalado que solo está dejando que un selecto grupo de usuarios lo prueben a través de una extensión de Chrome.
«Somos conscientes de los riesgos asociados a los modelos de inteligencia artificial que pueden realizar acciones en nombre de un usuario», ha declarado Jaclyn Konzelmann, responsable de producto de Google Labs.
Por ejemplo, Google ha confirmado que va a limitar determinadas acciones, como hacer que Mariner pida una confirmación final al usuario antes de realizar una compra online.