Автоматизированная технология, которую Twitter начал использовать для маркировки твитов, содержащих дезинформацию о пандемии коронавируса, допускает ошибки, вызывая обеспокоенность по поводу зависимости компании от искусственного интеллекта при сортировке контента.
11 мая Twitter начал маркировать твиты, которые распространяли "теорию заговора" о том, что технология 5G вызывает коронавирус. Во многих странах эти данные побудили жителей сломать вышки сотовой связи, так что в Twitter занялись вопросом серьезно и стали удалять дезинформацию. Дополнительно компания добавила специальную метку, которые нужно ставить при публикации всего, что связано с коронавирусом. Ссылка с метки ведет на страницу с опровержением мифов о "COVID-19".
Казалось бы — проблема решена. Но технология, в основе которой — "сортировка роботами" (то есть люди практически не задействованы, потому что массив данных слишком большой) допускает множество ошибок, которые мешают распространять качественный контент. В частности, твиты с данными информагентств Reuters, BBC, Wired и Voice of America также получили метку про "опровержением мифов", что выставило данные журналистов как минимум недостоверными.
Позднее оказалось, что система не особо разбирается, кто прав, а кто виноват, и маркирует практически все записи с хэштегами типа #coronavirus или #5G. Эксперты отмечают, что неправильно маркированные твиты просто путают пользователей — при этом никак их не уведомляя, если твиты получают "черную метку".
"Неправильная маркировка приносит больше вреда, чем пользы. Люди доверяют меткам системы, полагаются на нее, начинают читать только "достоверные" твиты", — отмечает Хани Фарид, профессор компьютерных наук в Калифорнийском университете в Беркли.
Разумеется, в Twitter посыпались запросы от прессы, но в компании отказались сообщить, сколько твитов с "криминальными" хэштегами было в целом и сколько они промаркировали. Представители соцсети сообщили только, что "…автоматизированные системы являются новыми и со временем будут улучшаться. Мы создаем и тестируем новые инструменты, чтобы более точно сортировать контент. Естественно, в процессе работы появляются ошибки".
Относительно автоматических систем модерации контента в Twitter сообщили, что "…автоматизация помогает работникам более эффективно просматривать отчеты, выполняя поиск некачественного контента. В частности, автоматизация помогает более точно определить, какие твиты просмотреть в первую очередь".
По словам экспертов, проблема автоматизации в том, что алгоритм просто не понимает суть написанного.
"Сортировка идет по словам или группам слов. Но часто в контексте записи значение диаметрально меняется. Например, если система читает заголовок типа "Коронавирус: мифы, которые опровергли врачи", то первым видит слово "Коронавирус", потом слово "Мифы" и может подсказать оператору: да, маркируй этот твит как "некачественный". Нужно полное понимание языка, а его пока не разработали", — сообщают они.
В апреле 2020 года представили Оксфордского университета опубликовали исследование, которое показало, что около 20% различных "фэйковых" или просто непроверенных данных привнесли в соцсеть политики, знаменитости и медиа-персоны.
Также большие сомнения вызывает и качество доработки алгоритма.
33-летний видеоблогер Ян Александр (специализируется на обзоре технологий) в качестве эксперимента написал такой твит: "Если вы напишете 5G, COVID-19 или Coronavirus, то к сообщению автоматически добавится метка". После публикации метка действительно появилась.
Дэвид Рэнд, профессор Школы менеджмента Слоана в Массачусетском технологическом институте, отмечает: хорошим решением вопроса стало бы привлечение пользователей.
"Они могли бы самостоятельно оценивать контент как хороший или плохой. Это поможет не только обучить алгоритмы, но и научить людей более качественно фильтровать поступающие из Twitter-а данные", — отметил он.
Фото: twitter. com