Разработан метод предотвращения галлюцинаций больших языковых моделей

Большие языковые модели (LLM), такие как ChatGPT, научились генерировать тексты, почти не отличимые от написанных человеком, и давать убедительные ответы. Но иногда случаются сбои, и тогда на вполне внятный запрос нейросеть выдаёт какую-то белиберду.

Это явление получило название галлюцинации LLM. К нему же относятся связные ответы ИИ, содержащие искажённые или даже выдуманные факты.

Исследователи из DeepMind недавно разработали способ борьбы с такими реакциями LLM. Процедура подразумевает самопроверку, которую нейросеть проводит, сравнивая подготовленную информацию со своими же более ранними ответами.

"Опираясь на ранние подходы, которые используют самосогласованность как более надёжную меру достоверности модели, мы предлагаем использовать саму LLM для самооценки сходства между каждым из выбранных ответов для данного запроса", — написали Ясин Аббаси Ядкори, Илья Кузборский и их коллеги в статье на сервере препринтов arXiv.

Они испытали свою методику на Gemini Pro, нейросети, разработанной Google и выпущенной в 2023 году, и получили обнадёживающие результаты. При недостатке или недостоверности данных вместо галлюцинаций LLM честно отвечает: "Я не знаю".

Разработчики подхода, превзошедшего применяемые сейчас алгоритмы, надеются, что повышение надёжности LLM будет способствовать их более широкому использованию профессионалами во всём мире.