Технологии обмана. Как нейросети создают фальшивые личности граждан и политиков
Практически любая технология может использоваться не только с хорошими, но и с плохими намерениями. Это касается и искусственного интеллекта
Едва ли не каждый день мы читаем о новых достижениях нейронных сетей, которые учатся диагностировать болезни, создавать новые лекарства, искать полезные ископаемые и управлять автомобилями. Но в то же время нейросети совершенствуют свое умение обманывать людей и друг друга.
"Привет, это я"
Начнем с того, как искусственный интеллект может менять нас, разговаривая с кем-то нашим голосом. Мы привыкли, что наш голос – это фундаментальная часть нашей личности. Недаром голос называют "слуховым лицом" человека. Но, к сожалению, человеческий голос не столь уникален, как хотелось бы.
Последние достижения в области глубокой машинной учебы вызвали появление широкого спектра инструментов, способных имитировать голос конкретного человека. В руках злоумышленника такой инструмент может причинить немалый вред.
В частности, он мог бы обойти системы аутентификации на основе голоса, уже развернутые в автоматизированных телефонных линиях обслуживания клиентов (например, в крупнейшем американском банковском холдинге JP Morgan Chase и крупнейшем британском банке HSBC), так же как и в некоторых мобильных сервисах для обмена сообщениями (например, в китайской платформе WeChat). Это также нарушит контроль доступа на основе голоса пользователей в устройствах IoT (интернет вещей), таких как цифровые домашние помощники (например, Amazon Alexa, Google Home).
Кроме того, такие инструменты могут обманывать непосредственно людей, дополняя традиционные фишинговые мошенничества знакомым человеческим голосом. The Wall Street Journal рассказала, как в марте 2019 г. мошенники использовали имитированный нейросетью голос руководителя немецкой компании, чтобы заставить руководителя дочерней британской компании срочно перевести 220 тыс. евро какой-то венгерской фирме. Британец был уверен, что говорит с немецким боссом, потому что четко узнал его акцент и мелодию его голоса.
Конечно, хотелось бы надеяться, что подобные мошенничества не получат широкого распространения, поскольку они сложны в технологическом плане. Так ли это, выяснила команда исследователей из Чикагского университета. Свои результаты она обнародовала в сентябре 2021 г. В финансировании исследования приняли участие NSF (Национальный научный фонд США) и DARPA (Агентство передовых оборонных исследовательских проектов минобороны США). Их эта проблема, похоже, пугает всерьез.
Чикагские исследователи поставили себя на место злоумышленника, желающего сымитировать чей-то голос. Для этого нужны три шага, которые они обрисовали в своей статье. Прежде всего злоумышленник получает голосовые образцы от жертвы — либо путем тайной их записи, либо путем загрузки доступных носителей. Затем злоумышленник использует систему синтеза речи для создания ложной речи, имитирующей голос жертвы. Третий шаг – злоумышленник использует эту фальшивую речь, чтобы выдавать себя за жертву, например, пытаясь получить доступ к личной или финансовой информации или осуществить какое-либо мошенничество.
Исследователи использовали записи голосов 90 человек из публичных датасетов VCTK, LibriSpeech и SpeechAccent. Общая длина записи одного голоса – не более 5 минут. Для создания ложных речей были использованы общедоступные алгоритмы SV2TTS и AutoVC. Исследователи опробовали эти речи, чтобы ввести в заблуждение современные системы распознавания Resemblyzer и Microsoft Azure. И вот результат эксперимента: "Используя комплекс всесторонних экспериментов над 90 разными говорящими, мы выясняем, что инструменты синтеза речи на основе нейросетей высокоэффективны для введения в заблуждение современных систем распознавания говорящих (50–100% успеха)".
Также исследователи попытались обмануть системы WeChat и Amazon Alexa. Эти системы связаны с индивидуальными учетными записями, поэтому для эксперимента были приглашены 14 добровольцев. Они пытались войти в собственные аккаунты, используя синтезированные образцы речи. Alexa был одурачен всеми людьми, а войти в WeChat удалось 9 из 14 участников эксперимента.
Кроме того, 200 добровольцев приняли участие в опросе, проведенном с целью оценить способность людей различать подлинных и поддельных говорящих. Оказалось, что человеческая точность – на уровне 50%.
Общий вывод исследования: "Наши результаты демонстрируют, что синтетическая речь, созданная с помощью общедоступных систем, уже может обмануть как людей, так и современные популярные программные системы, и существующих защитных средств недостаточно".
Лица-отмычки
Все чаще мы сталкиваемся с системами биометрической аутентификации по чертам лица. Они применяются в таких областях, как пограничный контроль, обслуживание и регистрация пассажиров, допуск в офисные помещения, работа с электронными идентификационными документами и картами. Распознавание лица – это также модный тренд в авторизации пользователей смартфонов. Кроме того, системы распознавания лица очень популярны у различных государственных и частных служб, следящих за общественной безопасностью. Этому способствует растущее использование видеокамер в местах скопления людей, таких как улицы и площади, аэропорты, железнодорожные и автовокзалы.
Но как надежно идентифицируют людей такие системы? Этим вопросом заинтересовались исследователи из Тель-Авивского университета. Их работу профинансировал Европейский исследовательский совет (ERC) в рамках программы исследований и инноваций Европейского Союза Horizon 2020.
О своей работе израильские исследователи отчитались в августе 2021 г. Они разработали нейронную сеть StyleGAN, способную генерировать лица-отмычки для систем распознавания. В качестве базы данных они использовали общедоступное хранилище Labeled Faces in the Wild (LFW) Университета Массачусетса, содержащее более 13 тыс. изображений лиц. Перед StyleGAN была поставлена задача, используя лицо из LFW, создать небольшое количество, менее десятка, "обобщенных лиц", которые можно было бы использовать в качестве отмычек для систем распознавания лиц. Для этого было разработано три метода.
Работа нейросети была испытана на трех общедоступных системах распознавания лиц: Dlib, FaceNet и SphereFace. Для каждой из этих систем нейросеть генерировала девять "обобщенных лиц". После этого проверялось, сколько лиц из базы данных LFW система определит как идентичные одному из этих "обобщенных лиц".
И вот результат тестирования для метода, который оказался лучшим: Dlib – 63,92%, FaceNet – 43,82%, SphereFace – 44,15%. Эти цифры означают, что всего девяти лиц-отмычек достаточно, чтобы обмануть системы распознавания лиц примерно в половине случаев (44–64%).
"Наши результаты свидетельствуют о том, что аутентификация на основе лица чрезвычайно уязвима", — резюмировали исследователи.
Как обмануть "старшего брата"
Обратная сторона этой проблемы — может ли человек изменить лицо до неузнаваемости, например, чтобы его не идентифицировала ни одна система видеонаблюдения ни одной службы общественной безопасности. Эту возможность исследовала израильско-японская команда исследователей из Университета им. Бен-Гуриона и NEC Corporation. Свои результаты она обнародовала в сентябре 2021 г.
Исследователи искали технологию, которую каждый человек мог бы использовать многократно, чуть ли не каждый день. Поэтому они отвергли радикальные варианты изменения внешности типа хирургического вмешательства и ограничились нанесением грима. А вот задачу подобрать грим поручили нейросети.
Новая технология прежде всего определяет те части лица, которые наиболее часто считывает система распознавания. Далее нейросеть подбирает специальный макияж, который поможет обмануть систему. Этот процесс состоит из нескольких этапов.
Первоначально алгоритм считывает несколько фотографий человека и случайных людей одного с ним пола. Затем нейросеть составляет карту лица, где отмечает основные области, являющиеся отличительными чертами конкретного человека. Далее на основе карты создается виртуальное лицо, на которое наносится виртуальный макияж. Это лицо снова пропускают через систему распознавания, и это повторяется несколько раз, пока система не перестанет узнавать лицо. Затем этот виртуальный результат воспроизводится в настоящей реальности, то есть настоящий грим наносят на подлинное лицо.
Исследователи проверили эффективность такой технологии изменения внешности на 20 добровольцах (10 женщин и 10 мужчин), используя систему распознавания лиц ArcFace. Итоги эксперимента звучат так: "Система распознавания лиц смогла идентифицировать участников только в 1,22% кадров (по сравнению с 47,57% без макияжа и 33,73% со случайным естественным макияжем), что ниже разумного порога реалистической рабочей среды". То есть нейросеть подбирает грим, с помощью которого можно обмануть систему распознавания лиц почти в 99% случаев. Авторы отмечают, что их разработка обманывает не только системы распознавания, но всех окружающих людей. Макияж смотрится естественно, и человек не выделяется из толпы.
Война нейросетей
В последние пять лет незаурядного развития достигла технология дипфейков (deepfake). Буквально deepfake переводится как "глубокий подлог", однако смысл термина deepfake, извините за каламбур, гораздо глубже. Deepfake – это фейк, созданный не человеком, а искусственным интеллектом, прошедшим deep learning – глубокое обучение.
Как и любые фейки, дипфейки имеют разнообразное применение. В частности, их не раз использовали для дискредитации политиков. Например, в мае 2019 г. жертвой дипфейка стала спикер Палаты представителей Конгресса США Нэнси Пелоси. В социальных сетях появилось видео с "пьяной" Пелоси: реальная видеосъемка ее речи была замедлена, соответственно, и сама речь была замедлена, а голос был пропущен через нейросеть, чтобы он звучал, как естественный — как в "подлинно пьяной" Пелоси. Это видео набрало миллионы просмотров по всему миру.
В июне 2019 г. появилось видео, где основатель Facebook Марк Цукерберг рассуждает, как классно владеть данными миллиардов людей. "Тот, кто владеет информацией, владеет будущим", — заявил дипфейковый "Цукерберг". Его движения и мимика были настолько реалистичными, что многие поверили в подлинность видео. Неудивительно, что в сентябре 2019 г. Facebook объявил конкурс алгоритмов, распознающих дипфейки, с призовым фондом $10 млн, а в начале 2020 г. объявил об усилении борьбы с дипфейками, созданными для манипуляции общественным мнением. Подобные мероприятия объявил и Twitter. В сентябре 2020 г. Microsoft анонсировала программное обеспечение Microsoft Video Authenticator, позволяющее определить вмешательство в видео. Сейчас уже немало разных классификаторов контента, которые пытаются выявлять дипфейки.
В дипфейках лицо субъекта меняется, чтобы создать убедительно реалистичные кадры событий, которые никогда не происходили. Поэтому типичные детекторы дипфейков фокусируются именно на лице видео: сначала отслеживают его, а затем передают эти данные в нейронную сеть, которая определяет, настоящее лицо или поддельное. Например, моргание плохо воспроизводится в дипфейках, поэтому детекторы сосредотачиваются на движениях глаз как на одном из способов определить это.
Самые современные сенсоры дипфейков возлагаются на модели глубочайшего машинного обучения. То есть нейросети, которые создают дипфейки, постоянно совершенствуются, и одновременно нейросети, которые обнаруживают дипфейки, постоянно совершенствуются.
Так началась война искусственных интеллектов и вместе с ней гонка вооружений между создателями дипфейков и разработчиками систем борьбы с дипфейками. Команды, создающие дипфейки, начали обучать свои нейросети обманывать защитные системы.
Конечно, злоумышленники своими успехами не кичатся публично. Но их возможности попытались оценить исследователи из Калифорнийского университета в Сан-Диего. Они сами создали нейросеть, способную обманывать детекторы дипфейков. Свои результаты ученые представили на онлайн-конференции WACV 2021.
Новый алгоритм вставляет в фейковое видео специальный шум, заставляющий классификаторы контента признавать видео оригинальным и не отредактированным. Опасаясь, что технологией воспользуются злоумышленники, исследователи решили ее не рассекречивать и сообщили о ее принципе работы только в общих чертах. Но они рассказали о результатах тестирования своей нейросети.
Итак, исследователи проверили свою технологию по двум сценариям. Первый — когда у злоумышленников есть полная информация о детекторе дипфейков, который нужно обмануть. Второй – когда им известно только о модели машинного обучения защитной нейросети.
В первом сценарии уровень успеха обмана превысил 99% для несжатых видео, а для сжатых составил 84,96%. Во втором сценарии показатель успеха составил 86,43% для несжатых видео и 78,33% для сжатых. Таким образом, исследование продемонстрировало успешный обман современных детекторов дипфейков.
"Чтобы использовать детекторы дипфейков на практике, важно оценить их эффективность против противника, знающего об этих средствах защиты и намеренно пытающегося сорвать эту защиту, — пишут исследователи. — Мы показываем, что современные методы обнаружения дипфейков можно легко обойти, если противник имеет полное или даже частичное знание о детекторе".
Чтобы улучшить детекторы, исследователи рекомендуют подход, известный как состязательное обучение. Нейросети злоумышленников совершенствуют свое умение генерировать дипфейки, которые способны обмануть текущее состояние детектора. Поэтому детекторы тоже должны постоянно совершенствоваться, чтобы обнаруживать новые дипфейки.
В этой гонке вооружений вряд ли кто-то одержит окончательную победу. Собственно, то же самое можно сказать и о всех других технологиях обмана с использованием искусственного интеллекта. Виртуальная реальность просачивается и диффундирует в нашу подлинную реальность, и отличить одну от другой становиться все сложнее.