Российские ученые из Сколтеха, возглавляемые Сергеем Баранниковым, разработали уникальный метод идентификации текстов, созданных искусственным интеллектом.
Проблема распознавания машинных текстов становится все более актуальной из-за стремительного прогресса ИИ, способного генерировать тексты, неотличимые от человеческих.
Основной инновацией методики стало использование "замороженных" моделей, которые не адаптируются к новым данным. Эти модели позволяют надежно определять характерные признаки машинных текстов, избегая переобучения.
Существующие методы, включая трансформеры вроде RoBERTa, показали низкую эффективность при работе с текстами из разных областей знаний. Чтобы преодолеть эти ограничения, команда внедрила подходы, базирующиеся на анализе перплексии, которая оценивает предсказуемость текста. Высокая перплексия свойственна текстам, созданным человеком, в то время как низкая — характерна для машинных.
Исследование также учло структурные особенности текстов, такие как длина и форма предложений, которые могут дезориентировать алгоритмы.