Twitter не может контролировать ложные данные о коронавирусе

Автоматизированная технология, которую Twitter начал использовать для маркировки твитов, содержащих дезинформацию о пандемии коронавируса, допускает ошибки, вызывая обеспокоенность по поводу зависимости компании от искусственного интеллекта при сортировке контента.

Что случилось

11 мая Twitter начал маркировать твиты, которые распространяли "теорию заговора" о том, что технология 5G вызывает коронавирус. Во многих странах эти данные побудили жителей сломать вышки сотовой связи, так что в Twitter занялись вопросом серьезно и стали удалять дезинформацию. Дополнительно компания добавила специальную метку, которые нужно ставить при публикации всего, что связано с коронавирусом. Ссылка с метки ведет на страницу с опровержением мифов о "COVID-19".

Казалось бы — проблема решена. Но технология, в основе которой — "сортировка роботами" (то есть люди практически не задействованы, потому что массив данных слишком большой) допускает множество ошибок, которые мешают распространять качественный контент. В частности, твиты с данными информагентств Reuters, BBC, Wired и Voice of America также получили метку про "опровержением мифов", что выставило данные журналистов как минимум недостоверными.

Позднее оказалось, что система не особо разбирается, кто прав, а кто виноват, и маркирует практически все записи с хэштегами типа #coronavirus или #5G. Эксперты отмечают, что неправильно маркированные твиты просто путают пользователей — при этом никак их не уведомляя, если твиты получают "черную метку".

Как прокомментировали представители Twitter

"Неправильная маркировка приносит больше вреда, чем пользы. Люди доверяют меткам системы, полагаются на нее, начинают читать только "достоверные" твиты", — отмечает Хани Фарид, профессор компьютерных наук в Калифорнийском университете в Беркли.

Разумеется, в Twitter посыпались запросы от прессы, но в компании отказались сообщить, сколько твитов с "криминальными" хэштегами было в целом и сколько они промаркировали. Представители соцсети сообщили только, что "…автоматизированные системы являются новыми и со временем будут улучшаться. Мы создаем и тестируем новые инструменты, чтобы более точно сортировать контент. Естественно, в процессе работы появляются ошибки".

Относительно автоматических систем модерации контента в Twitter сообщили, что "…автоматизация помогает работникам более эффективно просматривать отчеты, выполняя поиск некачественного контента. В частности, автоматизация помогает более точно определить, какие твиты просмотреть в первую очередь".

По словам экспертов, проблема автоматизации в том, что алгоритм просто не понимает суть написанного.

"Сортировка идет по словам или группам слов. Но часто в контексте записи значение диаметрально меняется. Например, если система читает заголовок типа "Коронавирус: мифы, которые опровергли врачи", то первым видит слово "Коронавирус", потом слово "Мифы" и может подсказать оператору: да, маркируй этот твит как "некачественный". Нужно полное понимание языка, а его пока не разработали", — сообщают они.

Что делать: помогут пользователи?

В апреле 2020 года представили Оксфордского университета опубликовали исследование, которое показало, что около 20% различных "фэйковых" или просто непроверенных данных привнесли в соцсеть политики, знаменитости и медиа-персоны.

Также большие сомнения вызывает и качество доработки алгоритма.

33-летний видеоблогер Ян Александр (специализируется на обзоре технологий) в качестве эксперимента написал такой твит: "Если вы напишете 5G, COVID-19 или Coronavirus, то к сообщению автоматически добавится метка". После публикации метка действительно появилась.

Дэвид Рэнд, профессор Школы менеджмента Слоана в Массачусетском технологическом институте, отмечает: хорошим решением вопроса стало бы привлечение пользователей.

"Они могли бы самостоятельно оценивать контент как хороший или плохой. Это поможет не только обучить алгоритмы, но и научить людей более качественно фильтровать поступающие из Twitter-а данные", — отметил он.

Фото: twitter. com