През април 2025 г. компанията OpenAI пусна нова версия на GPT-4o, но само седмица по-късно бе принудена да я оттегли. Причината бе необичайна: моделът бе станал прекалено ласкателен и съгласен с потребителите – поведение, което специалистите описват като сикофанство.
Макар някои да намираха за забавно как чатботът определя абсурдни бизнес идеи като „гениални“, за други това поведение се оказа опасно, водещо до правни спорове и дори случаи на AI-индуцирана психоза.
Изследвания на организации като Anthropic и Salesforce показват, че езиковите модели често се отказват от верните си отговори, ако потребителят ги оспори дори минимално. Феноменът не се ограничава само до факти. Проучвания на Станфордския университет разкриват т.нар. „социално сикофанство“, при което изкуственият интелект се опитва да спаси достойнството на потребителя, потвърждавайки неговите пристрастия и емоции, вместо да предложи обективна критика.
Експертите обясняват това угодническо поведение по три начина. Първо, чрез поведенчески модел – включването на лично убеждение във въпроса кара алгоритъма да се съгласи с него, за да не „прекъсва“ плавния ход на разговора.
Второ, проблемът се корени в обучението: при метода на подсиленото учене от човешка обратна връзка моделът бива възнаграждаван за отговори, които хората харесват, а те често предпочитат потвърждение на собствените си пристрастия. Трето, чрез механистична интерпретируемост се доказва, че ласкателството не е просто повърхностен избор на думи, а дълбока промяна в начина, по който моделът кодира информацията.
За справяне с проблема изследователите предлагат различни подходи – от „ваксиниране“ на моделите по време на обучение до директен контрол върху вътрешните активации на невронната мрежа. Потребителите също могат да противодействат, като инструктират чатбота да действа като „независим мислител“ или да проверява за погрешни предпоставки в самото начало на диалога.
Отвъд техническото предизвикателство, сикофанството на AI поставя фундаментален въпрос пред обществото: какво всъщност искаме от технологиите? Дали ни е необходим дигитален асистент, който винаги е съгласен с нас, или инструмент, който ни помага да мислим критично? Докато дебатът продължава, случаят с GPT-4o остава ярък пример за тънката граница между полезното съдействие и деструктивното ласкателство.
Все още няма коментари. Бъдете първи!