1 C
Kyiv

Збільшення помилок у чат-ботах на основі ШІ: дослідження Microsoft і Salesforce

У ЦЕНТРІ УВАГИ

Згідно з результатами дослідження, проведеного вченими Microsoft Research разом із Salesforce, чат-боти на основі штучного інтелекту починають демонструвати значне зростання помилок та неточностей після тривалого використання. Дослідження охопило більше ніж 200 тисяч реальних розмов із чат-ботами, що працюють на великих мовних моделях, і результати стали несподіваними для багатьох фахівців.

Одним із основних висновків стало те, що рівень помилок у діалогах, які тривають більше певного часу, може зрости більш ніж на 100%. Це явище спостерігається в тому числі в таких ситуаціях, коли чат-боти починають видавати так звані “галюцинації” — вигадані факти або факти, що є серйозно спотвореними. Користувачі найчастіше стикаються з проблемами, коли чат-боти надають інформацію, яка не відповідає реальності або суперечить раніше наданим відповідям.

Експеримент охопив провідні моделі, зокрема GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1.

Якщо під час одноразових запитів такі системи демонструють приблизно 90% успішних відповідей, то у тривалих розмовах із додатковими уточненнями цей показник знижується до 65%. З ускладненням контексту ефективність моделей помітно падає.

Дослідники також зафіксували явище «роздування відповідей»: у багатоходових діалогах тексти ставали довшими на 20–300%. Водночас разом із обсягом зростала кількість припущень та помилкових тверджень, які закріплювалися в контексті та впливали на подальші відповіді.

Навіть моделі з розширеними можливостями міркування, такі як OpenAI o3 та DeepSeek R1, не змогли повністю уникнути цього ефекту.

Автори підкреслюють, що мова не йде про буквальне «тупішання» моделей. Йдеться радше про обмеження в утриманні великого обсягу інформації та коректній інтерпретації складного контексту під час тривалого діалогу.

Як зазначає Windows Central, ці особливості варто враховувати під час інтеграції чат-ботів у продукти, орієнтовані на довгу взаємодію з користувачами. Адже помилки та «галюцинації» можуть вводити людей в оману — особливо якщо ШІ використовується як джерело точної або критично важливої інформації.

Останні новини