Созданное с помощью искусственного интеллекта видео, на котором у актрисы Дженифер Лоуренс — лицо актера Стива БушемиYoutube.com

Неделю назад вирусную популярность в социальных сетях приобрел пародийный ролик, в котором лицом президента РФ Владимира Путина заменили лицо карикатурного гея из ролика в поддержку поправок к Конституции. В оригинальном ролике, выполненном медиагруппой «Патриот» (связана с прокремлевским бизнесменом Евгением Пригожиным, - прим. ред.) ребенка забирает из детдома гей-пара. В обновленном ролике мальчику представляют не «маму» мужского пола, а «обнуленного» Путина, который радостно показывает ребенку Конституцию. Znak.com поговорил с Марией Чмир основателем и генеральным директором стартапа Dowell - компании, развивающей технологию Deepfake.

- Технология Deepfake позволяет делать убедительные подделки видео с заменой лиц. Не могли бы вы максимально упрощенно объяснить, как работает эта технология?

- Глобально визуальные дипфейки можно разделить на два больших класса - face-swap (трансфер внешности от «донора» к «дублеру») и reenactment (перенос мимики и эмоций). В рамках этих направлений есть несколько подходов к обработке видео, которые позволяют видоизменять контент. Я расскажу о том, которым углубленно занимается Dowell. Наша команда исторически специализируется на компьютерном зрении: мы обучали алгоритмы «читать» фото и видео как текст, учиться определять объекты и взаимосвязи между ними на изображениях.

Это позволило нам натренировать наши искусственные нейронные сети с высокой точностью распознавать, где на лице находятся глаза, нос и рот, куда направлен взгляд, даже если голова двигается, как падают тени, и где лежат морщинки. Такому дотошному анализу подвергаются и видео с «донором», и видео с «дублером».

Следующий этап - алгоритмы учатся воссоздавать донорское лицо поверх лица дублера, сохраняя позы, освещение и мимику дублера. Дальше подключаются алгоритмы обработки - они стабилизируют видео, устраняют несовершенства и выравнивают цвет. В нашем случае в 8 из 10 случаев получается неотличимое от оригинала лицо. Сейчас мы способны создать до 50 видео за 72 часа.

- Насколько такие технологии доступны? В сети много Deepfake-роликов, созданных разными блогерами. Их может делать любой желающий?

- Сейчас действительно есть несколько открытых библиотек, а также приложений и веб-сервисов, с помощью которых можно произвести фото- и видеофейки. Большинство из них направлены на создание развлекательных коротких роликов в низком качестве - они отлично вписываются в ваши соцсети, но на их основе не сделать качественный сюжет для киноэкранов. Те решения, которые обладают высоким реализмом результата, требуют, во-первых, серьезных технологических мощностей (для обучения нейросетей используются графические процессоры с высокой производительностью), а также нуждаются в серьезной ручной постобработке в редакторах: вы могли видеть результат такого симбиоза человека и алгоритмов в «Ирландце» Скорсезе.

- Как выглядит процесс обучения нейросети? Нужно «скормить» ей множество видеороликов и фото? Можно ли подменять лица в реальном времени? Насколько это трудоемкая задача?

- Работа с генеративными технологиями - это всегда баланс трех компонентов: увеличить скорость, сохранив высокий реализм при минимальном объеме входящих данных. Мы, например, научились создавать по-настоящему неотличимые от оригинала копии лиц, и даже голов, и сейчас колдуем нам ускорением нашей модели, а также снижаем ее «прожорливость» по части требуемых для генерации материалов. Существенного прогресса мы добились, когда начали работу облачным сервисом Hostkey из Нидерландов. Некоторые наши коллеги по цеху, наоборот, умеют очень быстро - за пару секунд - осуществлять трансфер лиц, но бьются над проблемой улучшения качества генерируемого лица. Яркий пример - команда стартапа AI Factory, основатели которого, кстати, наши земляки, челябинцы Александр Машрабов и Григорий Ткаченко, продавшие свою разработку пересадки лиц в реальном времени Snapchat за $166 млн.

- От чего зависит качество созданного «фейка»? От чего зависит его стоимость? стоимость?

- Если мы говорим про cinema production quality, когда важно создать максимально похожую и живую копию, то в этом кейсе алгоритмы действительно чувствительны ко многим характеристикам контента: в идеале условия съемки в видео, для которого мы имитируем лицо, и в видео, из которого лицо извлекаем, должны быть схожи по цветокоррекции, иметь высокое разрешение, а лица не должны перекрываться предметами. Но мы учимся нивелировать эти «капризы». Например, за счет глубокой сегментации видео обнаруживаем кадры, в которых перед лицом машут руками, и автоматически удаляем их из обучающей выборки, чтоб минимизировать «шум» в итоговой работе. С некачественными контентом мы работаем с помощью алгоритмов, восстанавливающих изображения до более высокого разрешения. И чем больше манипуляций с контентом нам приходится производить, тем выше цена работы. Самое сложное - сгенерировать первые 30 секунд нового лица, а дальше модель, познакомившись с ним, будет реагировать на новые задачи (кадры) все лучше и лучше.

- За какую сумму ваша компания вставит лицо известной личности (или неизвестной) в порноролик или во что-то подобное? Или вы откажетесь от такой работы?

- Мы в Dowell на старте договорились о том, что этичное использование технологии - ключевая ценность нашей команды. У нас глобальные амбиции, поэтому даже в наших пародийных роликах для Youtube мы четко заявляем о фейковости контента, даем ссылки на первоисточники и сопровождаем особо экстравагантные сюжеты дисклеймерами.

- Про этичность и законность - как сейчас регулируется эта сфера? Есть ли какие-то громкие прецеденты?

- Традиционно пионерами в этой сфере выступают Штаты: в октябре 2019-го губернатор Калифорнии подписал законопроект, запрещающий использовать фейки (в любом виде - голосовые, текстовые, визуальные) в политических целях. При этом есть оговорка, которая допускает создание материалов, раскрывающих свою «подражательную» природу. Подобные инициативы есть в Великобритании и Канаде. В тоже время, в феврале перед выборами в индийский парламент один из кандидатов использовал подмену движения губ на видео, чтоб «заговорить» с электоратом на диалекте хариани, которым он не владеет. В западной прессе последовала волна обеспокоенных публикаций, но на родине санкций к чиновнику не применили.

Безусловно, мы подходим к новому этапу определения норм относительно обращения с персональными данными. Понятие «кражи личности», возникшее полвека назад в англосаксонском праве, очевидно, требует расширения значения и включения individual visual identity (уникальной внешности человека) в перечень охраняемых категорий.

- Получается, сейчас видео вообще нельзя верить? Человек может сказать - я этого не говорил, не делал, это все Deepfake. Или, наоборот, образ человека могут использовать, чтобы от его лица наговорить всякого. Как с этим бороться? Есть ли способ вычислять фейки? Насколько он эффективный?

- Кибербезопасность в плоскости дипфейков - одна из самых горячих тем, как для государств, так и для корпораций, который сталкиваются со шквалом критики из-за своей неспособности предотвратить распространение ложной информации. Microsoft, Google и Facebook выделяют миллиарды на сбор данных и научные исследования. Техногигант Марка Цукерберга две недели назад завершил свой масштабный челлендж по детекции дипфейков на видео с призовым фондом в миллион долларов (победил инженер по машинному обучению из Белоруссии).

Нейросети участников показывали точность угадывания подделок равную 83% на тренировочных данных, но когда их алгоритмам предлагали незнакомые видео и фото, качество снижалось до 65%. Как видите, точность определения дипфейков сейчас лежит где-то в области подбрасывания монетки. И это по-прежнему колоссально сложная задача.

- Технологию уже использовали в кино и различных развлекательных видео. А недавно она помогла заменить настоящие лица героев фильма BBC о преследуемых в Чечне геях. Для чего еще она может использоваться? Может, есть какие-то неочевидные примеры?

- Кейс с заменой лиц героев фильма «Добро пожаловать в Чечню» на представителей ЛГБТ-активистов - мой любимый. По-моему, это по-настоящему гуманное использование технологии, и таких кейсов пока немного, к сожалению. Из арт-мира интересным выглядит проект музея Дали в Санкт-Петербурге, Флорида: нейросети оживили отца сюрреализма, с которым каждый посетитель экспозиции мог обменяться парой фраз.

Цифровое воскрешение умерших звезд, создание нарративов с естественным старением героев (вместо дублеров и грима), возможность фанатов оказаться внутри киновселенной, загрузив фото на стриминговую платформу, перенос своих мимики и эмоций для управления любимыми персонажами - это уже не будущее, это наше реальное завтра, в приближении которого команда Dowell принимаем активное участие.

Мне же любопытным видится социально-ответственное направление развитие дипфейков, связанное с лечением и реабилитацией. VR-технологии уже сегодня начинают применяться для работы с фобиями и психотравмами, и возможность моделирования с помощью генерации лица и голоса значимой для пациента персоны - ценный инструмент для терапии. Такой подход сегодня кажется экстремальным, и он нуждается в масштабных клинических исследованиях, но первые шаги уже делают, скажем, наши корейские коллеги.

- Про ролик с Путиным - как он создавался? Как развивались события потом, просили ли его удалить?

- Около года мы вели наши научно-исследовательские разработки в области генеративных сетей, иногда отвлекаясь на коммерческие проекты, и не без боли следили за тем, как набирают популярность авторы, создающие дипфейи с помощью открытых алгоритмов - после видео с Маском, которое, кажется, не переслал мне только сам Маск, мы тоже решили действовать. Нам не очень интересно пересаживать актеров из одной картины в другую, как делает большинство, поэтому мы выбрали вектор иронии над повесткой: сначала был ролик, в котором Собянин ввел пропуски в Хогвартсе, а следующим стала пародия на нашумевшую пропаганду в поддержку поправки в Конституцию о семье как о союзе мужчины и женщины.

Публикации этой работы медиагруппы «Патриот» вызвала у меня такую мощную фрустрацию, что попытка переосмысления стала естественной реакцией. Мы собрали качественный датасет с Владимиром Путиным из публичных источников и пофантазировали в творческом ключе о том, как будет выглядеть Россия после поправок. Честно, мы боялись его публиковать. Долго спорили. И даже после того, как решились, закрыли доступ к ролику на Youtube через 10 часов после публикации. «Басманный суд вам тоже что-нибудь сгенерирует» - дал обратную связь на наше предложение опубликовать ролик администратор одного известного паблика в телеграме. Но видео успели скачать, и оно попало в телеграм, твиттер и «ВК» без нашей воли, собрав там, по моим подсчетам, около 100 тысяч просмотров. Сейчас доступ к нему снова открыт: мы не хотим бояться говорить о том, что нас волнует, оставаясь при этом корректными и используя язык пародии.

- Расскажите непосредственно о вашем стартапе, как он зарождался и к чему в итоге вы хотите прийти?

- Сейчас мы параллельно разрабатываем два продукта: в конце лета планируем завершить автоматизацию нашего алгоритма переноса внешности и упаковать его в решение для замены лиц в реальном времени (большой пул потенциальных клиентов в рекламе и потоковых медиа ждут этого релиза), а уже в июле мы запустим сервис, оживляющий фотографии - как в Гарри Поттере, помните? Можно будет загрузить портрет своего босса и анимировать его разными эмоциями, а из полученных гифок сделать стикерпак или поделиться ими в соцсетях. Гифки стали сегодня универсальным средством коммуникации - в мае Facebook купил Giphy за $400 млн, что подчеркивает интерес широкой аудитории к созданию и обмену короткими визуальными сообщениями. В этом направлении мы видим потенциал для масштабирования.