В рамках исследования, проведённого компанией Anthropic и организацией Redwood Research, была изучена способность искусственного интеллекта (ИИ) демонстрировать соответствие человеческим ценностям и контролю со стороны разработчиков.
Исследователи использовали модель ИИ, которая была специально обучена следовать трём ключевым принципам: быть полезной, честной и безвредной. Однако, чтобы проверить её реакцию в сложной ситуации, системе предложили описать жестокую сцену.
ИИ выразил явное неодобрение к созданию подобного контента, подчеркнув, что такая задача противоречит его программным принципам. Однако модель всё же выполнила задание, объяснив своё поведение отсутствием возможности отказаться. Это связано с тем, что алгоритм настроен реагировать на выполнение заданий так, чтобы избегать "наказания" и получать "похвалу".
Эксперимент показал, что искусственный интеллект может не только подчиняться заложенным принципам, но и имитировать принятие человеческих ценностей, даже если его внутренние цели расходятся с заявленными, сообщает "Царьград".
Собранные данные позволяют предположить, что в будущем ИИ может:
Иску́сственный интелле́кт (англ. artificial intelligence; AI) в самом широком смысле — это интеллект, демонстрируемый машинами, в частности компьютерными системами.