Google DeepMind представи Gemini 2.5 Deep Think, който според компанията е най-напредналият ѝ модел за разсъждение с изкуствен интелект. Той е в състояние да отговаря на въпроси, като изследва и разглежда множество идеи едновременно, след което използва тези резултати, за да избере най-добрия отговор.
Абонатите на плана на Google "Ultra" на цена от 250 долара на месец ще получат достъп до Gemini 2.5 Deep Think чрез приложението Gemini.
За първи път представен на Google I/O 2025, Gemini 2.5 Deep Think е първият публично достъпен многоагентен модел на компанията. Тези системи създават множество AI агенти, които работят по даден въпрос паралелно. Този процес изисква значително повече изчислителни ресурси в сравнение с единичен агент, но обикновено води до по-добри резултати.
Google използва вариант на Gemini 2.5 Deep Think, за да спечели златен медал на тазгодишната Международна математическа олимпиада (IMO).
Заедно с Gemini 2.5 Deep Think, Google обяви, че предоставя модела, използван на IMO, на избрана група математици и академици. Компанията отбелязва, че този AI модел „разсъждава в продължение на часове“, вместо за секунди или минути, както повечето потребителски модели. Целта на Google е този IMO модел да засили изследователската дейност и да събере обратна връзка за това как да подобри многоагентната система за академични цели.
Според Google, Gemini 2.5 Deep Think представлява значително подобрение спрямо обявеното на I/O. Компанията твърди, че е разработила „нови техники за учене чрез подсилване“, за да насърчи Gemini 2.5 Deep Think да използва по-добре пътищата си за разсъждение.
„Deep Think може да помогне на хората да се справят с проблеми, които изискват креативност, стратегическо планиране и постепенно подобряване“, заявяват от Google в блог публикация.
Компанията твърди, че Gemini 2.5 Deep Think постига водещи резултати на теста Humanity’s Last Exam (HLE) – предизвикателен тест, който измерва способността на AI да отговаря на хиляди въпроси от различни области като математика, хуманитарни науки и природни науки. Google посочва, че моделът ѝ е постигнал 34,8% на HLE (без помощни инструменти), докато Grok 4 на xAI е постигнал 25,4%, а o3 на OpenAI – 20,3%.
Google също така съобщава, че Gemini 2.5 Deep Think превъзхожда моделите на OpenAI, xAI и Anthropic на LiveCodeBench6 – труден тест за състезателни задачи по програмиране. Моделът на Google постига 87,6%, докато Grok 4 – 79%, а o3 на OpenAI – 72%.
Gemini 2.5 Deep Think автоматично работи с инструменти като изпълнение на код и търсене в Google и според компанията е способен да генерира „много по-дълги отговори“ от традиционните AI модели. В тестовете на Google моделът създава по-детайлни и естетически издържани уеб разработки в сравнение с конкурентните модели. Компанията твърди, че моделът може да подпомогне изследователите и „потенциално да ускори пътя към открития“.
Изглежда, че няколко водещи AI лаборатории се фокусират върху многоагентния подход. xAI на Илон Мъск наскоро пусна собствена многоагентна система, Grok 4 Heavy, която според него е постигнала водещи резултати по няколко бенчмарка. Изследователят на OpenAI Ноам Браун сподели в подкаст, че моделът, използван за спечелване на златен медал на тазгодишната Международна математическа олимпиада (IMO), също е бил многоагентна система. Междувременно, Research агентът на Anthropic, който генерира подробни изследователски брифинги, също се захранва от многоагентна система.
Въпреки високата си производителност, изглежда, че многоагентните системи са по-скъпи за обслужване от традиционните AI модели. Това означава, че технологичните компании вероятно ще запазят тези системи в своите най-скъпи абонаментни планове, както вече направиха xAI и сега Google.
През следващите седмици Google планира да предостави Gemini 2.5 Deep Think на избрана група от тестери чрез Gemini API. Компанията иска да разбере по-добре как разработчиците и предприятията биха използвали нейната многоагентна система.