Gemini 2.0
Googles neuer KI-Agent erledigt Aufgaben selbstständig
12.12.2024 – 12:06 UhrLesedauer: 2 Min.
Google stellt mit Gemini 2.0 eine neue Generation von KI-Agenten vor, die eigenständig Aufgaben erledigen und multimodale Daten verarbeiten können.
Google hat eine neue Version seiner Künstlichen Intelligenz Gemini vorgestellt. Das System soll künftig in der Lage sein, als digitaler Assistent eigenständig bestimmte Aufgaben zu erledigen. Wie der Technologiekonzern in einem Blogbeitrag mitteilte, kann die KI beispielsweise Bauteile für Hobbyprojekte in Onlineshops suchen und sie selbstständig in den Warenkorb des Shops legen. Die finale Kaufentscheidung bleibe dabei aber beim Menschen.
Die neue Version baut auf dem Vorgängermodell Gemini 1.5 auf und erweitert dessen Fähigkeiten deutlich. Das System kann nun nicht nur Text, Bilder und Audiodaten verarbeiten, sondern auch selbst Bilder und Audioausgaben erzeugen. Zudem kann Gemini 2.0 eigenständig auf Google-Produkte wie die Suchfunktion zugreifen und Programmcode ausführen.
Ein Kernstück der Entwicklung ist das „Project Mariner“. Dieser Forschungsprototyp ermöglicht es der KI, wie ein Mensch durch Webseiten zu navigieren. „Es kann klicken, tippen und scrollen, genau wie Sie als Anwender“, erläuterte Google-Managerin Tulsee Doshi. Das System sei dabei so programmiert, dass es bestimmte sensible Aktionen nicht ohne Rückfrage ausführt. So muss etwa vor dem Abschluss eines Kaufs die ausdrückliche Zustimmung des Nutzers eingeholt werden.
Google-CEO Sundar Pichai bezeichnete die Entwicklung als „neue Ära der Agenten“. Während es bei der ersten Generation Gemini 1.0 darum gegangen sei, Informationen zu organisieren und zu verstehen, solle die Version 2.0 deutlich nützlicher sein. Die KI könne nun mehrere Schritte im Voraus denken und Aufgaben im Auftrag der Nutzer erledigen – stets unter deren Kontrolle.
Neben dem Browser-Assistenten entwickelt Google weitere Anwendungen auf Basis von Gemini 2.0. Im „Project Astra“ arbeitet der Konzern an einer smarten Brille, die ähnlich wie das Modell von Meta zusätzliche Informationen zu Bauwerken oder Kunstwerken einblenden kann. Auch für Entwickler gibt es Neuerungen: Die Systemvariante Gemini Flash 2.0 kann nun auch lokal auf Computern und bestimmten Smartphone-Modellen laufen.
Die neue Version wird zunächst von ausgewählten Entwicklern und Testpersonen erprobt, bevor sie einer breiteren Öffentlichkeit zur Verfügung gestellt wird. Die multimodale Ausgabe soll ab Januar allen Entwicklern zugänglich sein. Parallel dazu plant Google, Gemini 2.0 in weitere Produkte des Unternehmens zu integrieren.