Збільшення помилок у чат-ботах на основі ШІ: дослідження Microsoft і Salesforce

Згідно з результатами дослідження, проведеного вченими Microsoft Research разом із Salesforce, чат-боти на основі штучного інтелекту починають демонструвати значне зростання помилок та неточностей після тривалого використання. Дослідження охопило більше ніж 200 тисяч реальних розмов із чат-ботами, що працюють на великих мовних моделях, і результати стали несподіваними для багатьох фахівців.

Одним із основних висновків стало те, що рівень помилок у діалогах, які тривають більше певного часу, може зрости більш ніж на 100%. Це явище спостерігається в тому числі в таких ситуаціях, коли чат-боти починають видавати так звані “галюцинації” — вигадані факти або факти, що є серйозно спотвореними. Користувачі найчастіше стикаються з проблемами, коли чат-боти надають інформацію, яка не відповідає реальності або суперечить раніше наданим відповідям.

Експеримент охопив провідні моделі, зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1.

Якщо під час одноразових запитів такі системи демонструють приблизно 90% успішних відповідей, то у тривалих розмовах із додатковими уточненнями цей показник знижується до 65%. З ускладненням контексту ефективність моделей помітно падає.

Дослідники також зафіксували явище «роздування відповідей»: у багатоходових діалогах тексти ставали довшими на 20–300%. Водночас разом із обсягом зростала кількість припущень та помилкових тверджень, які закріплювалися в контексті та впливали на подальші відповіді.

Навіть моделі з розширеними можливостями міркування, такі як OpenAI o3 та DeepSeek R1, не змогли повністю уникнути цього ефекту.

Автори підкреслюють, що мова не йде про буквальне «тупішання» моделей. Йдеться радше про обмеження в утриманні великого обсягу інформації та коректній інтерпретації складного контексту під час тривалого діалогу.

Як зазначає Windows Central, ці особливості варто враховувати під час інтеграції чат-ботів у продукти, орієнтовані на довгу взаємодію з користувачами. Адже помилки та «галюцинації» можуть вводити людей в оману — особливо якщо ШІ використовується як джерело точної або критично важливої інформації.

Збільшення помилок у чат-ботах на основі ШІ: дослідження Microsoft і Salesforce

У ЦЕНТРІ УВАГИ

Вівторок Масниці у Великій Британії: традиції, королівські вподобання та історичне коріння

Відновлення наземного електротранспорту у Києві відкладається

Індія планує поступове завершення імпорту російської нафти до 2026 року

Прокуратура Парижа ініціювала масштабне розслідування щодо можливих зв’язків зі справою Джеффрі Епштейна

Реакція ООН на заяву Трампа щодо Ради миру

Комбінована атака російських військ на Київ: двоє постраждалих

Bitcoin знизився до $89 894 на фоні глобальної економічної нестабільності

День млинців у Великій Британії, що любила їсти королева

Останні новини

Пенсії в Україні 2026 року: нові можливості для пенсіонерів

Ініціатива глобальної стабільності: новий фінансовий крок до миру

MÉLOVIN пояснив причини скасування концертів та звернувся до прихильників

Українські інновації на оборонному треку НАТО: новий етап співпраці

Можливі варіанти дій адміністрації Трампа щодо Ірану: ліквідація верховного лідера та його сина