Google ha dado un nuevo paso adelante con su inteligencia artificial generativa al dotarla de la capacidad de “ver”. Esto es lo más destacado de los últimos anuncios del gigante tecnológico. El 11 de diciembre, Google presentó la segunda versión de su modelo de IA multimodal, capaz de procesar texto, imágenes y archivos de audio: “Gemini 2.0”.
Por ahora, solo se ha revelado la versión más pequeña de la familia, llamada “Gemini 2.0 Flash”. Esta versión ya se considera dos veces más rápida y más eficiente que su predecesor, el Gemini 1.5 Pro. El modelo está actualmente disponible para desarrolladores y será accesible al público general a partir de enero.
La era de los agentes autónomos de IA
Con Gemini 2.0, Google entra de lleno en la era de los agentes de IA. Esta tendencia emergente va mucho más allá de los modelos de conversación tradicionales como ChatGPT. Estas nuevas inteligencias no solo responden preguntas, sino que también pueden realizar tareas, planificar acciones e incluso operar de manera autónoma, interactuando con las interfaces del usuario.
Este avance supone un cambio hacia una IA proactiva, capaz de ofrecer soluciones mientras ejecuta tareas de manera fluida e inteligente. Con Gemini 2.0, Google abre la puerta a nuevas oportunidades para la interacción en tiempo real y la automatización avanzada.
Este desarrollo refleja la ambición de Google de liderar la carrera de la inteligencia artificial y establecer nuevos estándares en la interacción entre humanos y máquinas.
