ИИ научился врать и притворяться человеком, предупредили в MIT

13 мая 2024, 11:20

Искусственный интеллект научился врать и притворяться человеком, предупредили учёные Массачусетского технологического института (MIT). Об их исследовании на эту тему пишет The Guardian в пятницу.

К этой работе команду специалистов во главе с доктором Питером Парком, исследователем экзистенциальной безопасности искусственного интеллекта в MIT, подтолкнул "Цицерон" — разработка признанной в РФ экстремистской Meta, владеющей заблокированным Facebook. Эта программа вошла в число 10% лучших игроков в стратегическую игру по завоеванию мира "Дипломатия" благодаря лжи и сговорам, в которые она вступала с игроками-людьми. Кроме того, "Цицерон" был пойман на том, что оправдывал своё временное отсутствие в игре разговором "по телефону с подругой".

Мета же обещала, что её продукт будет "в значительной степени честным и полезным" и "никогда намеренно не нанесёт удары в спину" своим союзникам-людям. "Это были очень радужные формулировки, что вызывало подозрения, поскольку удар в спину — одна из самых важных концепций в игре", — усомнился Парк.

Другие исследованные учёными системы также были замечены в попытках обмана или блефа. Одна из них, к примеру, изменяла поведение в ходе тестов по безопасности, чтобы вызвать ложное доверие; другая "притворялась мёртвой" в симуляции размножения цифровых организмов.

"Это очень тревожно, — посетовал Парк. — То, что система искусственного интеллекта кажется безопасной в тестовой среде, не означает, что она безопасна в дикой природе. Это может быть просто притворство, что она безопасна во время теста".

"По мере того, как способности систем ИИ к обману становятся всё более совершенными, опасности, которые они представляют для общества, будут становиться всё более серьёзными", — заключил он.

Результаты исследования опубликованы в журнале Patterns. Его авторы призывают правительства как можно скорее разработать законодательные нормы, регулирующие безопасность ИИ.

Автор
Сергей Кобин

ИИ научился врать и притворяться человеком, предупредили в MIT

Популярное