Meta* представляет революционный метод самостоятельного обучения ИИ

Компания Meta* анонсировала разработку инновационного метода Self-Taught Evaluator, позволяющего генеративным моделям на основе искусственного интеллекта обучаться самостоятельно, без необходимости человеческого вмешательства.

Согласно пресс-релизу компании, новый метод позволяет моделировать синтетические данные предпочтений для модели вознаграждения, не полагаясь на комментарии или оценки человека. Моделирование вознаграждения является ключевым подходом в машинном обучении, основанном на обратной связи и оценке.

Новый подход, разработанный Meta*, включает в себя процесс построения логических цепочек на основе непрерывной схемы самосовершенствования модели. Это позволяет модели постоянно учиться и совершенствоваться без необходимости внешнего вмешательства.

Кроме того, компания сообщила о выпуске генеративной модели вознаграждения на основе прямой оптимизации предпочтений в инструменте машинного обучения RewardBench. Эта модель была обучена на данных без использования пояснений человека, что демонстрирует эффективность нового подхода.

* Деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская.