ИИ становится неотъемлемой частью нашей жизни, но как именно он "мыслит"? Исследователи компании Anthropic впервые заглянули внутрь своей модели Claude и сделали поразительные открытия.
До сих пор большие языковые модели (LLM) оставались загадкой даже для своих создателей. Исследователи могли наблюдать только результат их работы, но не сам процесс принятия решений.
Anthropic предложили новый метод под названием "трассировка контуров" — он напоминает нейробиологические методы визуализации мозга. Это позволило отслеживать активные элементы модели на разных этапах обработки запроса.
"Это как если бы мы создали микроскоп, который можно направлять на разные части модели во время ее работы", — объясняет исследователь, Джошуа Бэтсон из Anthropic.
Одно из самых удивительных открытий — способность Клода заранее продумывать свои ответы.
Исследователи анализировали, как модель пишет стихи. Ожидалось, что она будет создавать строки последовательно — сначала первую, затем подбирать рифму.
Однако Клод сразу продумывает концовку второй строки, демонстрируя навык долгосрочного планирования.
Более того, когда исследователи заблокировали один из компонентов, отвечающих за рифму, модель нашла другой способ ее сформировать.
"Это демонстрирует как способность к планированию, так и адаптивную гибкость — Клод может изменить свой подход, когда ожидаемый результат изменится", — отмечают исследователи.
Другой важный вывод — ИИ не разделяет языки так, как мы думали.
Клоду задали один и тот же вопрос ("Что является противоположностью слова "петит"?") на английском, французском и китайском языках. Вместо того чтобы работать с языками отдельно, модель сначала анализировала саму концепцию "малости" и "противоположности", а затем выбирала нужный язык для ответа.
Это открытие говорит о том, что внутри ИИ существует единое концептуальное пространство, где значения формируются независимо от языка.
Еще один тревожный момент: объяснения, которые дает Клод, не всегда соответствуют его реальным процессам мышления.
Например, при решении математических задач модель утверждала, что использует стандартные методы, но анализ показал, что она находит ответы другим способом.
"Это может отражать тот факт, что модель учится объяснять математику, моделируя человеческие объяснения, но разрабатывает для этого свои собственные внутренние стратегии", — считают исследователи.
Это открытие ставит под сомнение возможность проверять работу LLM, просто задавая им вопросы.
Многие думают, что LLM просто запоминают информацию. Но эксперимент показал, что Клод действительно анализирует данные шаг за шагом.
Когда его спросили: "Какая столица штата находится в Далласе?", он сначала активировал связь "Даллас → Техас", затем "столица Техаса → Остин" и только после этого выдал ответ.
Чтобы убедиться в этом, исследователи искусственно изменили промежуточные этапы, заменив Техас на Калифорнию. В итоге Клод ответил "Сакраменто", а не "Остин", что подтвердило его способность логически связывать факты.
Хотя исследование Anthropic дало ценные инсайты, это лишь "верхушка айсберга". Полный анализ даже одного запроса занимает несколько часов.
"Мы смотрим на несколько процентов того, что происходит, но уже видим невероятную структуру", — признается Бэтсон.
В будущем исследователи планируют использовать сам ИИ для ускорения анализа — это поможет глубже понять работу нейросетей и сделать их более прозрачными и надежными.
Нейро́нная сеть (также иску́сственная нейро́нная сеть, ИНС, или просто нейросе́ть) — математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.
Адрес страницы с ошибкой:
Текст с ошибкой:
Ваш комментарий: