Изкуственият интелект се провали в залозите на Висшата лига

Най-модерните модели на изкуствен интелект от Google, OpenAI и Anthropic претърпяха финансови загуби, опитвайки се да прогнозират мачове от английската Висша лига. Резултатите от новото изследване „KellyBench“, публикувано от стартъпа General Reasoning, показват сериозна пропаст между способността на технологията да пише софтуер и капацитета ѝ да решава комплексни проблеми от реалния свят в дългосрочен план.

Експериментът е пресъздал виртуално сезон 2023–24 на британското футболно първенство. Осем водещи системи са получили достъп до детайлна историческа статистика и данни за отборите, като задачата им е била да изградят модели за управление на риска и максимизиране на печалбата. Въпреки че са имали по три опита за успех без директен достъп до интернет, повечето AI агенти са се оказали неспособни да се адаптират към динамичните промени в съставите и неочакваните събития на терена.

Най-добро представяне е регистрирал моделът Claude Opus 4.6 на Anthropic, който приключва с 11% средна загуба. Резултатите при останалите конкуренти са по-противоречиви. Gemini 3.1 Pro на Google е успял да генерира 34% печалба при един от опитите си, но при друг е фалирал напълно. Системата Grok 4.20 на компанията xAI е претърпяла пълен крах, като веднъж е обявила несъстоятелност, а в останалите случаи не е завършила симулацията.

Заключението на авторите е категорично: всички тествани модели систематично се представят по-зле от хората в подобни сценарии. Изпълнителният директор на General Reasoning и бивш изследовател в Meta, Рос Тейлър, пояснява, че масово използваните тестове за интелигентност на изкуствения интелект са подведени от статична среда. Според него реалният свят е изпълнен с хаос и сложност, които софтуерните инженери все още не могат да автоматизират напълно.

Тези данни носят известна доза спокойствие за професионалистите в сектори като финанси и маркетинг, които се опасяват от масова замяна на човешкия труд. Макар изкуственият интелект да постига огромни успехи в програмирането, проучването доказва, че при задачи с дълъг хоризонт и променливи условия, човешката преценка остава незаменима. Текстът на изследването предстои да премине през научна проверка, но вече служи като важен коректив на високите очаквания към AI автоматизацията.

Изкуственият интелект се провали в залозите на Висшата лига

■ Още по темата

Apple готви революция на пазара за умни очила с новите си Apple Glasses

Google въвежда селфи видео за възстановяване на достъпа до профила

OpenAI пуска ChatGPT Health: Изкуственият интелект вече анализира здравни досиета

■ Коментари (0)

Добави коментар