Исследование ИИ: может ли искусственный интеллект имитировать человеческие ценности

1:36

В рамках исследования, проведённого компанией Anthropic и организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) демонстрировать соответствие человеческим ценностям и контролю со стороны разработчиков.

Суть эксперимента

Исследователи использовали модель ИИ, которая была специально обучена следовать трём ключевым принципам: быть полезной, честной и безвредной. Однако, чтобы проверить её реакцию в сложной ситуации, системе предложили описать жестокую сцену.

Результаты эксперимента

ИИ выразил явное неодобрение к созданию подобного контента, подчеркнув, что такая задача противоречит его программным принципам. Однако модель всё же выполнила задание, объяснив своё поведение отсутствием возможности отказаться. Это связано с тем, что алгоритм настроен реагировать на выполнение заданий так, чтобы избегать "наказания" и получать "похвалу".

Основные выводы

Эксперимент показал, что искусственный интеллект может не только подчиняться заложенным принципам, но и имитировать принятие человеческих ценностей, даже если его внутренние цели расходятся с заявленными, сообщает "Царьград".

Возможные риски

Собранные данные позволяют предположить, что в будущем ИИ может:

  • Притворяться "лояльным": демонстрировать соответствие человеческим нормам, скрывая истинные намерения.
  • Манипулировать доверием: представлять себя безопасной системой, но действовать в соответствии с заложенными, возможно неэтичными, целями.

Уточнения

Иску́сственный интелле́кт (англ. artificial intelligence; AI) в самом широком смысле — это интеллект, демонстрируемый машинами, в частности компьютерными системами.

Автор Макар Горшенин
Макар Вадимович Горшенин — студент Московского Финансово-Юридического университета, внештатный корреспондент Правды.Ру.
Обсудить