ディープフェイクと生成ディープラーニング

Kotaro Nakayama
2021年6月7日
読了時間: 43分

更新日：2024年6月17日

1 導入

GANによって生成された架空の人物の写真[1]

上の画像は本物の人間の写真のように見えるが、実は、写真に写っているのはすべて実在しない人物だ。全てGANと言われるディープラーニング技術を用いて生成された人物写真である。GANは2014年に当時モントリオール大学で研究をしていたIan Goodfellow氏やYoshua Bengio氏らの研究グループによって、最初のモデルが発表された[2]。その後、ディープラーニング向けのGPUの計算能力が大幅に向上する中で、世界中の研究者がモデルの改良を進め、GANの技術は指数関数的な勢いで進化した。現在では、人間が識別できないほど高精細でリアルな画像を生成できるだけでなく、リアルタイムで動画を変換したり、テキストから画像を生成することも可能だ。ディープラーニングの権威の一人であるYann LeCun氏は、「GANはこの10年間で最も興味深いアイデアである」と語っている。その一方で、急激な技術の進化は、様々な社会現象や問題を引き起こしている。

「ディープフェイク」は、近年急速に進化したAI技術の中でも、特に大きな社会問題を起こしつつある技術の一つだ。2020年8月の「犯罪科学（Crime Science）」誌に掲載されたUniversity College London（UCL）の研究グループによるレポート「AIが可能にする未来の犯罪（AI-enabled future crime）」[3]によると、ディープフェイクは、数あるAI犯罪の中でも、最も深刻かつ差し迫った脅威の一つであると結論付けられている。実際、ディープフェイクという言葉が2017年に登場して以降、ネット空間におけるフェイク動画の数が急激に増加し、2020年9月にはFacebook社が「AIによって操作（生成）されたフェイク動画を排除する」といった運営ポリシーを発表するなど、社会的な影響や懸念は大きくなる一方だ。

このディープフェイク技術が急速に進化した背景には、オートエンコーダーやGANと呼ばれる、本物のようなデータを生成できる技術の進展が大きく関係している。これらの技術は、汎用性の高い有用な技術であり、様々な産業に変革をもたらすことが期待されている一方で、その人が行っていない発言を、実際に行ったかのように見せることができるなど、使い方によっては悪用されうる技術で、すでにそのような事例がいくつも出てきている。本ホワイトペーパーでは、ディープフェイクとその基盤となっている技術について、技術の進化を振り返りつつ、今後の社会変化・技術動向について考察する。

2 ディープフェイク概要

ディープフェイク技術によって作成されたオバマ大統領の偽動画[4]

「トランプ大統領は救いようのないマヌケだ」──。2018年初めにYouTubeで公開された動画で、バラク・オバマ前大統領（当時）が発言するビデオが公開され、話題になった。オバマ前大統領の日頃の言葉遣いや態度から考えると驚くような内容だが、動画を見ると本人に思える。しかし、このビデオは、「BuzzFeed」と俳優兼監督のJordan Peele氏が作成した偽動画であり、急速に進化する技術が社会にもたらす問題について警告することを目的として作成されたものであった。このように、その人が実際は行っていない動作を行っているように見せたり、発言しているかのように見せることを目的として合成された動画は、「フェイク動画」と呼ばれ、大きな社会問題を引き起こしつつある。「ディープフェイク」とは、このようなフェイク動画をディープラーニング（深層学習）の技術を利用して高精度に作り出す技術の総称だ。

ディープフェイクは、いくつかの要素から構成される合成技術だが、大きく分けると「顔画像処理」と「音声処理」の２つの技術的要素から構成される技術だと言える[5]。これら２つの技術は、どちらもディープラーニング技術の進化によって大きく進化してきた。以下、この２つの技術について詳述する。

生成深層学習とディープフェイク技術の関係

2.1 顔画像処理と分類

顔画像処理（Face Manipulation）は、ディープラーニングおよびGANなどのデータを生成する技術の進化と密接に関わっており、相互に進化を促してきた側面がある。車や動物などの幅広い画像の識別を行う「一般物体認識」などの問題設定に比べると、顔画像の処理はデータの対象を大幅に限定している問題設定であり、かつ大量にデータを収集しやすいという特徴がある。また、同一人物であると特定されたデータ（同じ属性を持つデータ）をWeb検索などを利用することで比較的容易に収集することが可能であるため、データとしての質・量ともに、技術を高度化させるための好材料が揃っていたといえる。ディープラーニングなどの機械学習系の技術は、モデルに与えるデータの質が出力結果や成果の質に直結するため、質の高いデータが揃っていることは技術の進化に大きな役割を果たす。顔画像処理の分野では技術が進化することでさらに多くの研究者やエンジニアがデータを整備し、さらに技術の進化が促される、という好循環が生まれ、短い時間で技術が急速に進化した。また、そこで生まれた技術の一部は、汎用性の高い技術として顔画像処理以外の分野でも活用されている。

「DeepFakes and Beyond: A Survey of Face Manipulation and Fake Detection」[6]によると、顔画像処理は技術や用途に基づいて、１）顔の生成（Entire Face Synthesis）、２）顔の入れ替え（Identity Swap）、３）特徴変更（Attribute Manipulation）、４）表情操作（Expression Swap）の４つのカテゴリに分類できることが示されている。「ディープフェイク」という言葉を広義に捉えた場合、実在しないデータを作り出すという意味ではこれら全ての技術が含まれるが、このうち、ディープフェイクの技術として最も良く知られ、社会的に大きな問題を引き起こしているのは、「顔の入れ替え（Identity Swap）」である。以下、各カテゴリの技術について説明する。

2.1.1 顔の生成（Entire Face Synthesis）

１つ目のカテゴリは、実在しない架空の人間の顔を生成することができる「顔の生成」技術だ。産業的な応用としては、ゲームでのキャラクター作成や、広告用の架空モデルの起用などの面で期待されている。このような、キャラクターや写真は、著作権、肖像権の面で自由度が高く、制作コストや撮影コストを抑えながら目的に合う制作が可能になると期待されている。一方で、SNSにおいて、偽のプロフィールを作成するために利用されるといった危険性もある。

生成された顔画像(「This person does not exist」[7])

2.1.2 顔の入れ替え（Identity Swap）

２つ目のカテゴリは、画像や動画の中にいる人物の顔を別の人物の顔と入れ替えることを目的とした技術だ。一般的に「ディープフェイク」と呼ばれる技術としては、このカテゴリの技術が多用されている。アプローチとしては、大別すると１）古典的なコンピュータグラフィックス（CG）の技術を使う方法と、２）ディープラーニング技術を使う方法の２通りのアプローチがある。古典的なアプローチではCGなどの高度な専門的知識と設備に加え、多くの労力を要するが、ディープラーニング技術を利用することで、容易に自然な画像や動画を作成することが可能になった。産業的な応用としては、映画や映像作品といった製作の現場で利用することが期待されている。しかし、技術が進化する一方で、証拠動画の捏造、詐欺、ポルノ動画の生成といった用途で悪用されつつある技術であり、すでに日本を含むいくつかの国で逮捕者が出ている。

Identity Swapによって顔を入れ替えた画像（Celeb-DFデータセット[8]）

本物の動画（画像）とフェイク動画を大量に集めた「データセット」（Dataset、データ集合）は、顔の入れ替え技術の進化に大きく貢献している。フェイク動画としては、古典的な手法で作成されたものや、当時のディープフェイク技術を利用して作成されたものなどが集められている。[6]によると、フェイク動画のデータセットは第一世代と第二世代の２種類に分類することができる。第一世代のビデオは、第二世代に比べると不自然さが目立つ。顔画像の合成の質が低いことや、元々の肌と合成された顔の肌の色が違うことの違和感、生成された顔と元々の顔の境界線が浮かび上がるなどの不自然さ、元々の画像の一部の要素が不自然に残ってしまうこと、フレーム間で不自然な結果になってしまう、といった問題があった。

一方で、第二世代のデータセットでは大幅にクオリティが向上し、シーンのバリエーションも豊富になった。屋内で撮影したものと屋外で撮影したものなど様々なシナリオを用意しており、ビデオに登場する人物の光の当たり方や、カメラからの距離、そしてポーズなど、様々なバリエーションのビデオが存在する。また、いくつかのフェイク動画を判別するAIで検証した結果、第一世代のデータセットより第二世代のデータセットの方が、フェイク動画を見破るのが困難である、という結果になった。

フェイク動画のデータベースの第一世代と第二世代の比較(第一世代の写真はFaceForensics++[9]、第二世代の写真はCeleb-DFデータセット[8])

2.1.3 特徴変更（Attribute Manipulation）

３つ目のカテゴリは、髪型や性別、年齢など、顔を特徴づける属性を変更・修正する技術だ。産業的な応用としては、美容・整形外科でのシミュレーションで利用することで、手術前に完成像を想像することなどが可能になると期待されている。また、映画やドラマにおいて、年齢や属性を自在に変化させることなどができるため、特殊メイク主体の制作プロセスを変革することなどが期待されている。

Attribute Manipulationによって特徴が修正された画像（元の人物の画像はFFHQデータセット[10]を利用し、FaceApp[11]を利用して特徴を変更して画像を作成）

2.1.4 表情操作（Expression Swap）

４つ目のカテゴリは、動画や画像において人間の表情を操作・変更する技術だ。産業的な応用としては、動画製作、編集、オンラインミーティングやYouTubeのアバター操作といった用途で産業的に期待されている技術だ。一方、詐欺や不正な意見誘導に使われる可能性も示唆されており、有名なMark Zuckerberg氏のフェイク動画もこの技術が利用されている[12][6]。

Expression Swapによって表情が操作された顔画像（FaceForensics++[9]）

2.2 音声処理と分類

前述の通り、ディープフェイクは動画の合成と音声の合成、２つの技術を組み合わせて実現される技術だ。ここでは、後者の音声合成技術について説明する。

音声の合成技術も、動画の合成技術と同様に、ディープラーニング技術の進化に伴ってここ数年で急速に進化した技術領域だ[13]。一般的に、音声処理（Speech Processing）は、音声をテキストに変換する音声認識（Speech-to-text）とその逆にテキストから音声データを作成する音声合成（Text-to-speech）の２分野に大きく分かれ[13][14]、両分野で長く研究が行われている。この２分野に加え、特定の人物の音声を複製する音声クローニングという技術領域がここ数年で急速に発達し、ディープフェイクの技術として多用されている。以下、各カテゴリの技術について説明する。

音声処理技術の分類

2.2.1 音声認識

音声認識は、音声データの内容をコンピュータが認識する技術の総称であり、主に人間の音声をテキストに変換させる技術を指す。音声認識はスマート家電やスマートフォン、コンピュータの入力など、様々な場面で活用されている。従来の音声認識技術は、1) 音響分析、2) デコーダといった各種処理と、3) 音響モデル、4) 言語モデルなどのデータ（辞書）等、多くの構成要素を組み合わせて実現されることが一般的だった。各々の構成要素は別々に研究・開発されることが多かったため、音声認識全体としての性能を向上させるためには、各処理の性能を向上させる他に、これらの技術を適切に統合（連結）する技術も必要だった。その結果、前の処理が後続の処理の性能に影響を及ぼすことも多く、全体として高い性能を実現することは一般的に技術的に難易度の高い問題として知られていた。

一方、近年急成長してきたディープラーニングをベースとした手法は、上記の処理のうち、複数もしくは多数の処理を統合的に処理する。これにより、処理全体としてのパイプラインがシンプル化され、柔軟性が高まったと同時に、データ量の増加と計算機技術の発展の後押しもあり、音声認識の精度は飛躍的に向上した。ディープラーニングをベースとしたアプローチが採用されている製品としては、“Alexa Conversations” [15]などがある。

2.2.2 テキストからの音声合成（Text-to-speech）

音声認識とは逆に、合成された音声を出力する技術は、音声合成（Speech Synthesis）と呼ばれる。その中でも、テキストを入力として音声を合成する技術は、テキスト音声合成（Text-to-speech, TTS）と呼ばれる。従来の技術では不自然なイントネーションや単語間のつながりなどが目立っていたが、近年、ディープラーニングをベースにした手法が一般的になる中で、この分野の技術は性能が飛躍的に向上している。長い文章の抑揚を表現することができるようになり、自然な音声を合成することが可能になった他、複数話者の切り替え、トーンや感情などをコントロールすることも可能になった。その後の改良版が様々なところで実用化されており、GoogleアシスタントやGoogle Cloudの多言語対応の音声合成サービスなどに実用化されている。

テキストからの音声合成技術の産業的応用の例としては、音声読み上げがあげられる。運転中のユーザへの音声でのガイド、バーチャルアシスタント、視覚障害者などに対するインタフェースなど、応用は多岐に渡り、既に多くのサービスや製品が上記のような技術によって実現されている。

2.2.3 音声クローニング（Voice Cloning）

音声合成技術の発展形として、テキストに加えて、特定の話者の音声も入力として同時に受け取り、あたかもその人物が喋っているかのような音声を合成して出力することができる技術が誕生した。このような技術は 音声クローニング（Voice Cloning）と呼ばれ、ディープフェイクで多用されている。従来、高度な技術とクローン先の話者の音声データを大量に集める必要があるなど、扱いの難しい技術だったが、現在の技術では変換先の話者の音声サンプルが数秒程度あればクローンが可能となっている。

音声クローニング技術は、産業的に既にいくつか応用例があり、（その是非は議論されるべきとしても）故人の音声で重要なメッセージを伝える動画を作成することや、ブログからのウェブラジオ自動作成・配信といった用途で既に利用されている。また、ALS患者などの声を失ってしまった人々の声を復元してコミュニケーションを支援したり、吹き替え動画の制作などへの応用も期待されている。さらに、ラジオや配信のために録音された長い音声データや、再録が難しい音声データなどについて、部分的に修正するような編集目的の用途でも利用されている。

その一方で、詐欺などの用途で悪用された事例も既に発生しており、悪用されることで社会的に大きな損失を与えうる技術でもある。

3 生成ディープラーニング（Generative Deep Learning）

ディープフェイク技術の進化に大きく貢献した技術はいくつかあるが、その中でも特に重要なものとして、生成モデル（Generative Models）という技術領域がある。機械学習の実応用という面では、データを分類するための識別モデルが広く利用されているが、生成モデルは識別モデルとは異なり、データの分布をモデル化するアプローチであり、人工的にデータを生成できることが特徴である[16]。生成モデルの中でも、ディープラーニングなどのニューラルネットワーク技術を利用したものは深層生成モデル[17][18]と呼ばれ、（変分）オートエンコーダとGANがその代表例となる。また、音声やテキストなどの系列データを生成するために適した技術として、エンコーダ・デコーダモデルと呼ばれる技術がある。本ホワイトペーパーでは、これらデータを生成することが可能な３つの技術を含む大きな技術領域をまとめて「生成ディープラーニング」と呼ぶ。

識別モデルと生成モデル

これらの技術は、非常に汎用性が高く、可能なことは画像の生成だけではない。実写の写真を絵画風の画像に変換するようなスタイル変換（Style Transfer）や、低解像度の画像を高解像度の画像にする、超解像（Super Resolution）といった技術、テキストや音声を生成する技術なども開発されている。本節では、これらの技術について、技術進化の歴史も振り返りながら説明する。

ディープフェイクと生成ディープラーニングに関する年表

3.1 オートエンコーダー

オートエンコーダ（Autoencoder, 自己符号化器）とは、ニューラルネットワークのモデルの一種であり、入力されたデータを復元（コピー）するようにモデルが訓練される[19]。入力されたものを出力する、という動作は一見すると、意味が無い処理のように思えるが、一旦、データを高密度に圧縮した潜在空間と呼ばれる情報空間に写像し、その後に復元するのがポイントだ。

オートエンコーダの概念図

このように、一度高密度に圧縮された小さな情報に変換することで、大きな情報量を持つデータ（画像など）を、より少ない情報量で表現したり、圧縮されたデータから元のデータ（画像など）を再構成するようなモデルを得ることが可能になる。1987年に、入力を再構成するニューラルネットワークのアイデア[20]が提案された後、2007年にBengio氏らが率いるモントリオール大学の研究グループが、データの中の重要な特徴を抽出するための技術として利用できることを示した[21]ことで、ディープラーニングのコンテキストで再び着目されるようになった。そして、2013年に「変分オートエンコーダー」（VAE: Variational Auto-Encoder）がKingma氏によって発表され、深層生成モデルの主要なアプローチとして幅広く認知されるようになった。現在、変分オートエンコーダの技術は、多くの後続のオートエンコーダーの手法の基盤となっている。

オートエンコーダは、今日では多くの目的で使われており、データから重要な特徴を抽出するだけでなく、与えられたデータが正常か異常かを判断する異常検知、これまでの購買データからユーザーが購入しそうな商品を提案する推薦システムなど、幅広い目的で利用されている[22]。

3.2 GAN

GAN（Generative adversarial network、敵対的生成ネットワーク）は、Ian Goodfellow氏らによって考案された、生成深層学習の代表的技術の一つである[2]。GANは、生成器（Generator）と識別器（Discriminator）の２つのニューラルネットワークで構成されている。生成器は画像を生成する機能を担当し、識別器は、画像が生成されたものか、本物かどうかを識別する機能を担当する。生成器は、識別器に見破られないように、より本物に似た画像を生成するように訓練され、逆に識別器は、より精度良く本物の画像か偽物の画像かを判別するように訓練される。これら２つのニューラルネットワークのモデルが競い合いながら性能を上げ続けることで、相互に進化が促進され、最終的には生成器が本物に近いようなデータを生成する能力を得ることになる。

GANの概念図

生成器は潜在空間と呼ばれる、情報を高密度に圧縮した空間に作成されたランダムなデータを入力データとして受け取り、画像へ変換する。最初に生成器が生成する画像は全くのランダムな画像だが、モデルの訓練が進むにつれて、段々意味のある画像が出力されるようになり、最終的には潜在空間の情報をもとに、本物に近い画像を出力できるようになる。この際、最初に生成器から出力されるのは、意味の無いランダムな画像なので、識別器が本物か生成された画像かを判別することは比較的容易だが、訓練が進むと、生成器が出力する画像が高度化されるため、より高度な判別の仕組み（特徴）を見つけ出す必要がある。一方で、識別器は最初は判別性能が低いため、生成器としては偽物だと見破られない画像を生成することは比較的容易だが、訓練が進むと、識別器の判別能力が向上するので、画像を生成するための仕組みを高度化させる作る必要がある。GANでは、このように、２つのニューラルネットワークのモデルが競い合いながら性能を上げ続けることで、最終的には本物に近いようなデータを生成することができるようになる。

GANのアイデアの根幹は、ユニークながらもシンプルで強力なモデル訓練のメカニズムだ。その仕組みのシンプルさ故に、世界中の研究者やエンジニアが加速度的に様々な改良を加えることになり、結果、今日では多種多様なモデルが開発され、公開されている。GANの亜種を集めたサイト “The GAN Zoo”[23]によると、500種類以上のGANのバリエーションが存在している（2018年更新終了）。以下に、2014年から2018年までのGANを利用した顔画像生成技術の性能の進化を示す。[18]。

GANを利用した顔画像生成技術の性能進化 (2014[2], 2015[24], 2016[25], 2017[26], 2018[1])

3.3 エンコーダ・デコーダモデル（Encoder-Decoder Models）

オートエンコーダに似た概念として、エンコーダ・デコーダモデル（Encoder-Decoder Models）という概念がある。エンコーダ・デコーダモデルは、ニューラルネットワークのモデル構造であり、ある系列のデータを別の系列のデータに変換するために適している。主に自然言語処理や音声処理などの領域で発達してきた。アプリケーションの具体例としては、機械翻訳（自動翻訳）が挙げられる。機械翻訳とは、ある言語で記述された文章を別の文章に変換する技術の総称であり、文章を文字や単語の系列として扱う。エンコーダ・デコーダモデルを利用した機械翻訳では、エンコーダと言われるニューラルネットワークで変換元の文章における単語の系列を解析し、デコーダと言われるニューラルネットワークで変換先の文章を生成するような構成になっている。ただし、オートエンコーダと同様にエンコーダとデコーダという概念や言葉が利用されているが、系列データを扱うために適した構造のニューラルネットワークが利用されることが多く、内部構造は大きく異なる。

エンコーダ・デコーダモデル

3.4 高精細な顔画像生成

画像の生成はGANの得意分野の一つだが、その中でも顔画像生成は、均質かつ良質なデータが大量に得やすいことや、適度に限定された問題設定であることなどが好材料となり、急速に進化した分野だ。高精細な顔画像を生成する技術の開発をリードしてきた研究グループの一つが、半導体メーカーであるNVIDIA社だ。ここでは、NVIDIA社の開発した２つのモデルを紹介する。

まず、高解像度の画像を生成できないという従来のGANの弱点を克服した画期的な手法が、Progressive GAN[26]だ。従来のGANでは高解像度の画像を生成するようなモデルを訓練することためには、莫大な時間とリソースを要する上に、性能が安定しないという問題があった。一方で、低解像度の画像を生成するモデルであれば、短時間で安定して訓練することが可能であることがわかっていた。そのため、Progressive GANでは、低解像度のモデルから開始し、徐々にモデルを大きくしながら高解像度の画像を出力できるように訓練させる、というように段階的にモデルを高度化させるこれにより、安定して高解像度の画像を生成できるようになった。

Progressive GANによって生成した画像[26]

NVIDIA社はその一年後、Progressive GANから発展させたGANである、StyleGAN[1]を発表した。StyleGANはマッピングネットワーク（Mapping Network）と合成ネットワーク（Synthesis network）という２つのネットワークを導入することで、年齢や性別などの属性が画像へ影響を及ぼす特徴量を抽出し、重要なスタイルとそうでないノイズを選り分けながらデータを訓練することができるようになった。これにより、従来のGANよりもさらに高品質な画像を生成することが出来るようになり、本ホワイトペーパー冒頭に示したような高精細な顔画像が生成できるようになった。

3.5 画像のスタイル変換

初期のGANにおいては、ランダムにデータが生成されるため、どのようなデータを出力するかといった制御ができなかった。2014年に発表されたConditional GAN（以降CGAN）[27]は、訓練時に画像に加えて属性情報を与えることで、属性を制御しながらデータを生成できる技術だ。これにより、例えば、年齢や顔の形などの属性を指定して顔画像を生成することが可能となった。その後発表されたPix2Pix[28]は、内部的にCGANを利用することで、ある種の画像を別の種の画像に変換する「スタイル変換」を実現する技術だ。Pix2Pixを利用することで、例えば線画を実写に変換することや、その逆の変換などが可能となった。

Pix2Pixを用いてスタイル変換した画像[28]

Pix2Pixは、２つのスタイルの画像がペアで入手できる場合には有効だったが、現実にはこのようにペアとなっている画像を大量に含むデータセットを入手することは一般的には困難であり、用途が限定されてしまうという問題があった。CycleGAN[29]は、この課題を解決し、対となった画像が存在しないようなデータに対してもスタイル変換を可能にした。CycleGANでは画像間の関係を訓練するために、２組の生成器と識別器に異なるスタイルのデータセットを訓練させることに加え、変換→逆変換を一連の処理として実行して元の画像が復元できるようにモデルを訓練する。これによって、２つのスタイルに共通するペアの画像がなくても双方向に変換することができるようになった。

CycleGANによってスタイル変換した画像[29]

3.6 超解像（Super Resolution）

解像度が低い画像を高精細な画像に変換する技術として、「超解像（Super Resolution）」と呼ばれる技術がある。SRGAN[30]は超解像にGANを用いた先駆的な研究だ。高解像度の画像と低解像度の画像がペアになっているデータを用いて、モデルを訓練する。まず、生成器は、低解像度の画像から高精細な画像を生成しようと試みる。次に、あらかじめ用意した高解像度の画像と、生成器が生成した画像を識別器に渡し、生成された画像か本物かどうかを判定する。生成器はより本物の高精細な画像に近い画像を出力しようと訓練され、識別器は生成された画像が本物かどうか判断するというように、敵対的に学習される。この訓練プロセスを繰り返すことにより、最終的には生成器は低解像度の画像から高解像度の画像を生成できるようになる。以下の図に示すとおり、SRGANは、元の高精細な画像とほぼ見分けられない程度の高い質の超解像画像を生成できることがわかる。

低解像度の画像から超解像した画像の各手法の比較[30]（左から双三次補間、SRResNet、SRGANを用いて超解像した画像と元の高解像度の画像）

SRGANの登場後、RankSRGAN[31]やPULSE[32]といった、より高性能な超解像技術が登場しており、これらの技術の一部はディープフェイクの実装に取り入れられている。

3.7 音声合成

代表的な音声合成に関する研究の一つは、WaveNet[14]だ。WaveNetは、2016年にDeepMind社から発表されたエンコーダ・デコーダモデルで、生の音声波形を生成することが可能だ。WaveNetは、当時画像処理の分野で高い性能を発揮していた畳み込みニューラルネットワーク（CNN: Convolutional Neural Network）を改良したアーキテクチャを採用することで、長い文章の抑揚を表現することができるようになり、自然な音声を合成することが可能になった他、複数話者の切り替え、トーンや感情などをコントロールすることも可能になった。その後の改良版が様々なところで実用化されており、GoogleアシスタントやGoogle Cloudの多言語対応の音声合成サービスなどに実用化されている。

この技術を発展させたのがTacotron[33][34]だ。上記のWaveNetは、１）テキスト分析、音響モデル、音声合成といったいくつかの構成要素を組み合わせて最終的に合成された音声を出力していたが、これらすべての処理を一つの大きなディープラーニングのモデルで構成したのがTacotronであり、その性能も飛躍的に向上している。このように、入力から出力まで、一つのモデルで多くの処理が行われるため、エンドツーエンド式の音声合成技術（End-to-End Speech Synthesis）と呼ばれている。

音声合成技術の発展形として、特定の話者の音声も入力として同時に受け取り、あたかもその人物が喋っているかのような音声を合成して出力する技術が発達してきた。これが 音声クローニング（Voice Cloning）であり、ディープフェイクで多用されている技術だ。「SV2TTS」[35]は、このような音声クローニング技術の代表例の一つで、WaveNetとTacotronを発展させた技術であり、変換先の話者の音声サンプルが５秒程度あればクローンが可能となっている。

4 ディープフェイクの作成プロセス

4.1 顔画像の生成

フェイク動画の作成自体は、ディープラーニング技術やGANの技術が普及する前から技術的には可能だったが、専門的な技術と多くの労力を要する大変な作業となることが一般的だった。特に、フレームごとに自然な形で合成することは、根気のいる大変な作業だった。また、人間が１フレーム毎に手作業で処理するため、どうしても不自然な部分が残ってしまう点が技術的な課題だった。しかし、ディープフェイク技術を利用することで、データとある程度のPCがあれば高画質で自然な動画を短い時間で簡単に作成できるようになった。

ディープフェイクの有名な実装としては、DeepFaceLab[36][37]、FaceSwap[38]、faceswap-GAN[39]（2019年に開発停止）などがあるが、ここでは、DeepFaceLabを例に、ディープフェイクにおける顔画像処理プロセスについて説明する。

顔画像の抽出
顔画像変換のためのモデル訓練
顔画像変換処理
後処理

ディープフェイクの作成プロセス

まず、顔の場所と向きを特定して顔画像を抽出（ステップ1）するところから一連の処理は開始される。ここでは主にディープラーニング技術を画像認識用のモデルとして利用することで、画像の中から顔と各部位を検知し、顔の中から目や鼻などの目印を獲得し、顔の向きと大きさを特定する。この処理においては、セグメンテーションと呼ばれる技術を用いてピクセル単位で顔部分を特定し、顔画像を抽出する[36]。

次に、顔画像変換のためのモデル訓練（ステップ2）だ。変換する２人の顔画像をデータセットとして利用し、オートエンコーダーを用いて、二人の顔画像をそれぞれ生成（再構成）するようなモデルを訓練（ステップ2）する[36]。この際、入れ替え対象の顔データを大量に利用して訓練することができれば、性能が向上し、より自然な動画が作成可能になる。この部分については、DeepFaceLabとFaceSwapではオートエンコーダを、faceswap-GANではGANを主に利用している。

そして、顔画像変換処理（ステップ3）においては、学習の際に用いた顔生成用のモデルを用いて、入れ替え対象の場所に対して、対象の顔を生成する。最後に、後処理（ステップ4）として、ブレンディングとシャープニングの過程がある[36]。ブレンディングでは、入れ替えた顔のサイズ変更や背景の継ぎ目を調節したり、顔の輪郭をぼやかしたり、入れ替えた顔の継ぎ目がスムーズになるようにするといった処理施すことで、より自然な出力が得られる。そして、シャープニングでは、その出力を超解像などの技術を利用して、高精細な画像に変換する。

4.2 顔生成モデルの学習

ディープフェイクの一連の処理の中でも、ステップ2の「顔画像変換のためのモデル訓練」およびステップ3の「顔画像変換処理」は、中心的な処理となるので、さらに詳しく説明する。この部分の実装としては、GANを利用するものなど、いくつかの種類があるが、ここではいくつかの有名なディープフェイクの実装において採用されている、比較的一般的な方法として、オートエンコーダを利用する方法を例に説明する。

顔生成モデルの学習プロセス

まず、変換元の人物をA、変換先の人物をBとした際に、一つの共通したエンコーダと、それぞれの人物に対応する２つの異なるデコーダを用意する。次に、人物AおよびB、それぞれの顔画像を別々に生成できるように、デコーダを２つに分けつつも、一つのエンコーダを共有して利用する。前述の通り、オートエンコーダは入力された情報（画像）の重要な特徴を抽出することで、小さな情報量で表現し、最終的には再度復元できるような能力を持つモデルだ。人物の顔画像をエンコーダ・デコーダに大量に与えることで、それぞれの人物の顔画像を生成できるようなデコーダができる。この際、エンコーダは顔画像を小さな情報量で表現するための特徴として、重要な属性（顔の向きなど）を抽出するが、エンコーダを共有することで、共通の特徴を内部的に獲得し、対応する顔画像を生成できるようになる。変換元の人物Aの画像から抽出した特徴を元に、対応するような変換先の人物Bの画像を生成し、該当する箇所に顔を埋め込むことで、変換処理が実現されている。

ディープフェイクにおける顔画像の変換

ディープフェイクの実装で活用されている、２つのデコーダと共通のエンコーダを持つようなネットワーク構造は、元々は2017-2018年頃に、機械翻訳の分野を中心に進展してきた技術だ。二つのデコーダに対して共通の一つのエンコーダを用いることで、エンコーダは言語に依存しない普遍的な表現を得ることができる[40]。その後、このような手法がディープフェイクの実装において採用され、自然な変換を実現できるようになった。

4.3 音声の合成

ディープフェイクにおいて、指定した声（特定の人の音声）で任意の内容の音声を合成するためには、前述のSV2TTSのような音声クローンの技術が利用される。本節ではSV2TTSを例に、音声合成の処理の流れを説明する。

音声処理におけるディープフェイク技術の仕組み[35]

SV2TTSは、大きく分けて３つのニューラルネットワークから構成されるモデルだ。まずはじめに、大量の話者の音声データから、話し方の特徴を学習したニューラルネットワークである「話者エンコーダ」（Speaker Encoder）を構築する。高い性能を得るためには、大規模かつ多様な話者のデータセットが必要となる。このネットワークは、クローンしたい人物の音声情報を入力すると、その人物の話し方を特徴づけるベクトル情報を出力する。次のニューラルネットワーク「シンセサイザー」（Synthesizer）は、話者の特徴情報と、発言させたい内容をテキスト情報として受け取り、発言したい内容に関する情報について、発話情報を表現するために適した特殊な形式（メルスペクトログラム）を出力する。この部分には、エンコーダ・デコーダモデルの一種である、Tacotron2[34]などを利用することが可能であり、テキスト情報とターゲットとなる音源をペアにしてモデルを訓練する。最後のニューラルネットワーク「ヴォコーダー」は、出力した発話情報を受け取り、音声波形を合成して出力する。この部分には、WaveNet[14]やWaveGlow[41]などを利用することが可能であり、これらのよく開発されたモデルを利用することで、自然な音声を出力することが可能となる。

5 社会への影響とフェイク検知技術

5.1 ディープフェイクに関係する事件

ディープフェイク技術の進化は、高度な技術がなくても、プログラミングやPCの操作が一定以上できる人であれば、架空の動画や画像などを作成することを可能にした。技術の民主化により、今までは困難であったような創造的な活動について個人レベルで可能になった一方で、無許可で有名人のポルノ動画を作成するなど、一部の人々を貶めるような悪質な事件・犯罪も発生している。ここでは、その一部について紹介する。

5.1.1 Redditでのポルノ動画事件

2017年12月、”Deepfakes" というのハンドルネームのRedditユーザーがインターネットにいくつかのポルノ動画を投稿した[42]。女優やアーティストを題材にしており、社会に大きな衝撃を与えましたが、ほどなくして偽物と判明した。この事件は、「ディープフェイク」という言葉が広まるきっかけにもなった。

5.1.2 エネルギー会社CEOなりすまし事件

2019年3月に、英国のエネルギー企業が音声のディープフェイク技術によって多額の詐欺被害に遭った。このエネルギー会社のCEOは、電話で22万ユーロ（約2600万円）を至急送金するようにドイツの親会社のCEOから求められたので、その通りに振り込んだところ、実はこれは音声クローンの技術を利用した詐欺師からの指示であったことが判明した。この事件を調査した保険会社によると、ドイツ話者の訛りや発音などが再現されており、合成された音声であると気づけなかった、と報告されている[43]。

5.1.3 日本のフェイクポルノ動画事件

2020年10月、熊本市の大学生と兵庫県のシステムエンジニアがディープフェイク技術を使い、芸能人の顔を合成したポルノ動画をインターネットに投稿した容疑で逮捕された[44]。動画１本あたり３万枚の画像を訓練に利用し、１週間ほどモデルを訓練して作成されたと言われている。この事件は、日本でディープフェイク技術が悪用された初めての刑事事件だと考えられている。

5.1.4 ペンシルバニア州のチアリーダー・フェイク動画事件

2021年3月10日、ペンシルバニア州で、チアリーダーとして活動する高校生の娘のチームメイトを陥れるために、全裸で飲酒し、喫煙している写真や動画をディープフェイク技術を用いて捏造し、チームメイトやコーチに送った母親が逮捕された[45]。さらに、地方検事官の告発によると、この母親は犠牲者である娘のチームメイトに、自殺を促すようなメッセージを匿名で送っていた。判決文を引用した報道によると、娘は母親がそのような犯行をしていたことを一切知らなかった。

5.2 フェイク動画の検知技術

年々ディープフェイク技術が高度化する中で、動画や画像が本物か偽物かを人間が見て判断することが困難になりつつある。一方で、ディープフェイク技術に対抗して、ディープフェイクによって作成されたコンテンツを検知する技術も発達してきている。ここでは、フェイク動画の検知技術の概要と、いくつかの先進的な取り組みについて紹介する。

5.2.1 検知技術の概要

ディープフェイク技術によって作られたフェイク動画は、よく見ると不自然な部分や、合成した部分につなぎ目があったり、不自然な点が残っていることが多い。このような不自然な点は、「アーティファクト」と呼ばれ、フェイク動画かどうかを判定するための手がかりとして利用される。アーティファクトは、大別すると人間が特徴量を設計する人為的なものと、ディープラーニング技術などを利用して自動的に抽出するものに分かれる。人為的に設計される特徴としては、以下のようなものがあり、フェイク動画かどうかを識別するために有効であることがわかっている。

唇の動きと音声の不一致（矛盾）に着目[46]
眼の色彩や光の反射の消失、眼や歯の部分的な消失[47]
顔の表現や、頭の動きに着目した方法[48]
頭の動き：顔部分の特徴のみで算出した3Dの動きと、顔全体の特徴で算出した3Dの動きを比較[49]
表情：頬の上がり方の動き、鼻のシワ、口のストレッチ[50]
まばたきのパターン、回数[51]

このような特徴量は、抽出された後には最終的には機械学習のモデルに入力され、フェイク動画かどうか判定される。

次に、ディープラーニング技術などを利用して自動的にアーティファクトとなるような特徴量を抽出する手法として、2つの事例を紹介する。1つ目は、顔の変換処理に利用されるモデルは、多くの場合解像度に限界があり、特定の解像度（例えば256 x 256など）でしか出力できないという仮定に基づく方法だ。現実的にはこの仮定（制約）は、多くの場合で正しく、顔の入れ替えの際には、後処理によってどうしても入れ替えの痕跡が残る。そのような痕跡をディープラーニングのモデル（ResNet）などに学習させるために、顔領域およびその外周領域についてデータをサンプリングし、フェイク動画を検知するために有効なアーティファクトを発見する。この手法も、良い性能を出している。また、目に見えない特徴量を利用する方法も研究されている。もともとは、テロリストなどが画像や音声の中にデータを秘匿することがあり、そのデータを分析して犯罪を防止する目的で生まれた技術だが、ディープフェイクの検知技術としても利用されている。

5.2.2 Microsoft Video Authenticator

Microsoft Video Authenticatorは、フェイク動画検知のためにMicrosoft社が2020年に開発したソフトウェアだ。画像や動画を解析して、ディープフェイク技術によって発生する、人間の目では認知しづらいレベルの色あせやグレースケールなどを検出し、ディープフェイク技術による編集が行われたかどうかを判定する信頼スコアを算出する。このスコアをもとに、フェイク動画かどうかを判断することができる[52]。

Microsoft Video Authenticator[52]

5.2.3 DeepFake Detection Challenge

2019年9月に、AWS社・Facebook社・Microsoft社などの大手IT企業や学識経験者などが協力し、DeepFake Detection Challenge (DFDC)と呼ばれるプロジェクトを立ち上げた[53]。このプロジェクトの目的は、世界中のエンジニアや研究者が、ディープフェイク技術などで操作されたメディアの検出に役立つ技術を生み出すことだ。世界中のエンジニアや研究者が集まって機械学習やデータサイエンスの技術を競い合う、「Kaggle」というサービスの中で、コンペティションとして開催された[54]。12月にコンペティションはスタートし、最終的に2,000人以上の参加者が集まり、このチャレンジのために作成された独自の新しいデータセットを使ってモデルの訓練と検証を行った。参加者は、AIによって作成されたフェイク動画を見破るようなモデルを設計し、そのモデルの精度を競った。

5.2.4 Pindrop社 - 音声通話の不正検知

Pindrop社は、電話の音声データを分析して、企業や個人が電話詐欺に遭うことを防ぐ、音声解析に特化したセキュリティ企業だ。Pindrop社は、年々高度化する音声通信による詐欺に対応した、本人識別・不正検知のためのソリューションを提供している[55]。ディープラーニング技術を利用して、音声のディープフェイク技術を検知する技術を確立しており、成果をあげている[56]。

6 生成ディープラーニングの社会実装

ディープフェイクの技術と、その進化に大きく貢献した生成ディープラーニングの技術は、使い方によっては悪用されかねない技術であることは本稿で繰り返し説明してきた通りだが、同時に大きな産業的可能性を秘めた技術でもある。今後、この技術領域においてはさらに多くの製品やサービスが生まれると予想される。本節では、既に市場に投入されている製品・サービス、近いうちに投入される予定の技術について、紹介する。

6.1 NVIDIA社 - Maxine

従来のビデオ圧縮技術とMaxineの帯域幅の比較[57]

2020年10月、NVIDIA社はAI技術を活用したビデオ会議プラットフォーム「Maxine」を発表した。NVIDIA社の発表によると、Maxineでは内部的にGANを利用して圧縮したデータを復元しており[58]、ビデオ会議ソフトウェアに必要な帯域幅（通信データ量）を約10分の1に削減することが出来る。Maxineは、入力として動画を撮影・送信する代わりに、送信元のビデオから抽出されたキーポイントの集合を抽出する。このデータは、通常の動画よりもはるかに小さなデータとして表現できるため、通信量を大幅に削減することや、より多くのフレームを送信することなどが可能となる。受信側では、GANを利用して、キーポイントの集合から元の顔画像を再構成する。Maxineのような技術は、ネットワーク帯域幅が限定されているような環境下でも、高いビデオの品質で通信できるため、オンライン会議の急増によって逼迫している通信帯域の問題を解決できる可能性を秘めている。

6.2 Descript社 - Overdub

Descript社は、1分間のサンプル音声さえあれば、その音声で任意の内容を発言させることが可能な音声クローニング技術「Overdub」を公開・提供している[59]。Descriptというポッドキャスト用のツールの一部として提供されており、主な用途としては、配信用に録音した音声の一部を編集したり、音声を追加するような利用方法が想定されている。元々はモントリオールに拠点を持つLyrebirdというベンチャー企業が開発していた技術だが、現在はDescript社に買収され、AI研究部門として技術開発を続けている。

6.3 Generated Media社 - Generated Photos

「Generated Photos」は、Generated Media社が提供するサービスで、GANによって生成された架空の人物画像が10万点以上ダウンロード可能だ。写真を確認すると、人間が見ても生成された画像であることを判別することは非常に難しいほど高い品質の顔画像が生成できていることがわかる。架空の人物の顔画像を生成する技術は、肖像権の面で自由度が高いため、アバターのプロフィールやゲームキャラクターの生成など、産業的に様々な応用が期待されている。内部的には、顔生成（Entire Face Synthesis）技術としてStyleGANが利用されている。

Generated Photos[60]

6.4 GANによる人工歯のデザイン

カリフォルニア大学バークレー校とGlidewell Dental Labは人工歯をデザインするGANを共同で開発した[61]。新しい人工歯を制作する際には、出来上がった人工歯が患者の歯列にフィットし、噛み合わせもうまく機能し、かつ美しくなければならないなど、多くの要件を同時に満たす必要がある。そのため、通常は何年もトレーニングを受けた技術者が担当するような、専門性の高い難しい作業となる。設計支援ツールの導入によって人工歯のデザインの負担を少なくできるものの、歯科医がデザインを評価し、調整する作業は未だに必要だ。新しいGANを利用した手法では、人間が得た知識からだけではなく、反対の歯との空間も考慮し、自動的に設計することが可能だ。失われた歯と、反対の歯の間のスペースを考慮して設計することは、歯科医にとっては難しい作業となるが、良い噛み合わせを実現する上では重要な要素で、最終的に出来上がる人工歯の質に大きな影響を与える。発表された研究結果によると、GAN技術で作った人工歯の方がより患者の口に合い、噛み合わも良いとの結果が報告されている（図における赤い部分は反対の歯とぶつかってしまう部分を示している）。

失われた歯のデザインに関する歯科医と提案手法の比較[61]

6.5 デザイン・芸術への応用

生成ディープラーニングの技術は、デザインや芸術の制作工程に大きな影響を与える可能性があると言われており、既にこのような技術を利用した作品を目にする機会が増えてきている。本節では、デザイン・芸術に関係する技術のうち、既に身近な存在となっている事例をくつか紹介する。

１つ目の事例は、Preferred Networks社が開発した「PaintsChainer」[62]だ。PaintsChainerは、モノクロの線画に対して自動で着色する技術で、内部的にはPix2Pixに似た構造を持つニューラルネットワークで構成されている。入力された線画からカラー画像を生成するような問題を考えた際に、技術的に難しいのは、正解が一意に決まらない、という点だ。着色の方法は無数にパターンがあり、例えば青に着色されているところを赤と着色しても間違いではないことが多々ある。このように正解が一意に決まらない場合、従来の手法では良い出力を得られるようなモデルを作ることが難しいという問題があったが、PaintsChainerではGANを導入することで、Descriminatorが「本物らしいか」を判断し、生成器がより自然な着色画像を生成するように、敵対的に訓練するモデルを構築して解決した。本技術は、モノクロの漫画をカラー版に自動で変換して配信するサービスに利用されている（PaintsChainerは2019年11月にピクシブ社の運営へ移行し、Petalica Paintとして運営されている）。

PaintsChainerで自動着色した画像[63][62]

２つ目の事例は、「GauGAN」[64]だ。GauGANは、大まかなレイアウトを入力するだけで、写真のような風景画像を生成できるアプリケーションであり、NVIDIA社によって開発された。どのような風景画像を出力するかを制御できるようになっており、一つのレイアウトから、夕暮れや海辺といったスタイルを変えながら画像を生成できる。NVIDIA社の報告によると、2019年に一般公開された際には一ヶ月で50万枚の画像が作成された。内部的には、SPADE[65]と言われるGANのモデルが利用されている。各種のアートワークの風景部分は自動で作成しつつ、前景部分の作成に集中できるような製作のプロセスが可能になると期待されている。作成できる画像は限定的であることや、実用性の面で課題もあるが、今後、このような技術が高度化していく中で、より幅広い製作、各種の映像製作の工程が効率化されることなどが期待されている。

GauGAN[64]

6.6 工業製品検査への応用

生成ディープラーニングの技術の多くは、本物のデータが持つ分布に近いデータ（本物に近いデータ）を作り出すことを目的とするが、その内部処理には、本物のデータに近いかどうかを判定するロジックが含まれている。これをうまく利用することで、本物のデータに近いかどうかを数値化したり判定することなどが可能となる。今まで観察してきたデータの特性から離れた特性を持つデータを発見する技術は、「異常検知」と呼ばれ、工業製品の検査工程などで利用できる。

AnoGANは、GAN技術を異常検知に適用した手法の中で先駆け的存在の技術である[66]。製品の製造工程において、異常な特徴（傷や不具合など）が含まれるものの数は、正常な製品の数に比べて極端に少ないというケースや、異常な製品のデータを作ることが難しいケースが多い。このように、検出したいデータが含まれる割合が非常に少ないデータは、「不均衡データ」と呼ばれ、通常の機械学習の手法では、このようなデータから異常な特徴を持つデータを見つけることは、難しい問題となる。そのため、簡単かつ大量に入手可能な正常な部品のデータのみから、正常か異常かを判定することができるような技術が必要とされているが、このような場面では生成ディープラーニングの手法が利用できる。

AnoGANでは、まず正常な製品のみのデータを大量に利用してGANのモデルを訓練し、正常な製品のパターンや特徴を把握することで、本物（正常品）に近いデータを生成できるようなモデルを構築する。次に、検査対象のデータ（画像）を入力とし、先に訓練したGANのモデルを通じて画像を再構成する。この際、傷や不具合など、今までに見たことの無いパターンが含まれるデータは、うまく生成できないので、元の画像と生成された画像の差分を取ることで、異常品であるかを判定することや、異常を含む可能性が高い部位を検知すること、異常度などの数値を算定することなどが可能になる。

AnoGANによる異常検知の発見[66]

生成ディープラーニングの手法を利用した異常検知の技術は、汎用性が高い技術であり、工業製品の検品作業以外にも様々な分野での応用が期待されている。例えば、医療用画像における疾患の発見や、サイバーセキュリティにおけるマルウェア検知などにも応用されることが期待されている。

7 まとめ

本ワイトペーパーでは、近年AI犯罪の中でも最も深刻な脅威の一つとなりつつあるディープフェイクおよびその基盤となっている技術について解説した。ディープフェイクの技術は年々高度化しており、もはや人間が眼で見て判別することは困難なレベルの高い画質の画像が生成できるようになりつつある。実際、世界中ですでにいくつも悪質な事件が発生しており、社会的な懸念は大きくなる一方だ。また、画像や動画だけでなく、音声をクローンする技術も進化している。しかし、Microsoft Video Authenticatorのように、フェイクを検知する技術の開発も同時に進むと同時に、フェイク画像や音声による被害を防ぐためのサービス・プロダクトも開発されている。今後、ディープフェイクの技術開発は益々進化することが想定されるが、検知技術と共に、法整備やモラル教育など、社会としての基盤や対応のための仕組みづくりなどが重要となることが考えられる。

一方、ディープフェイクの進化に関係していた生成ディープラーニングの技術は、利用方法次第では大きな可能性を秘めた技術であり、様々な産業に大きな変革をもたらす可能性がある。実際、データ圧縮・復元、デザイン・芸術への応用、工業への応用、異常検知への応用など、すでに様々な基盤技術やプロダクトが開発されている。

今後、様々な分野でAI技術が産業の構造を変え、社会に変化をもたらすと予想されている。その際に重要となるのは、表面的に理解して漠然と恐れたり期待するのではなく、できることや限界などを理解し、警戒するべきことは適切なレベルで警戒して対応し、活用するべきことは活用する姿勢ではないだろうか。このホワイトペーパーが、そのような技術的な限界や可能性などを知るきっかけになれば幸いである。

参考文献

[1] T. A. Tero Karras Samuli Laine, “A style-based generator architecture for generative adversarial networks,” arxiv arXiv:1812.04948, 2018. [2] M. M. Ian J. Goodfellow Jean Pouget-Abadie, “Generative adversarial networks,” arxiv arXiv:1406.2661, 2014. [3] M. Caldwell, J. Andrews, T. Tanay, and L. Griffin, “AI-enabled future crime,” Crime Science, vol. 9, no. 1, pp. 1–13, 2020. [4] “You Won’t Believe What Obama Says In This Video!” BuzzFeedVideo; https://www.youtube.com/watch?v=cQ54GDm1eL0. [5] “What are deepfakes – and how can you spot them?” https://www.theguardian.com/technology/2020/jan/13/what-are-deepfakes-and-how-can-you-spot-them, Jan. 2020. [6] R. Tolosana, R. Vera-Rodriguez, J. Fierrez, A. Morales, and J. Ortega-Garcia, “Deepfakes and beyond: A survey of face manipulation and fake detection,” Information Fusion, 2020. [7] “This Person Does Not Exist.” https://thispersondoesnotexist.com/, 2019. [8] Y. Li, P. Sun, H. Qi, and S. Lyu, “Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics,” 2020. [9] A. Rössler, D. Cozzolino, L. Verdoliva, C. Riess, J. Thies, and M. Nießner, “FaceForensics++: Learning to detect manipulated facial images,” 2019. [10] “Flickr-Faces-HQ Dataset (FFHQ).” Flickr; https://github.com/NVlabs/ffhq-dataset, 2019. [11] “FaceApp - AI Face Editor.” https://apps.apple.com/gb/app/faceapp-ai-face-editor/id1180884341. [12] “Facebook lets deepfake Zuckerberg video stay on Instagram.” BBC News; https://www.bbc.com/news/technology-48607673, 2019. [13] D. Y. Geoffrey Hinton Li Deng and B. Kingsbury, “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, vol. 29, 2012. [14] H. Z. Aaron van den Oord Sander Dieleman, “WaveNet: A generative model for raw audio,” arXiv arXiv:1609.03499, 2016. [15] About alexa conversations. Amazon. [16] C. M. Bishop, Pattern recognition and machine learning. springer, 2006. [17] A. C. Ian Goodfellow Yoshua Bengio, Deep learning. MIT press Cambridge, 2016. [18] D. Foster, Generative deep learning: Teaching machines to paint, write, compose, and play. Oreilly & Associates Inc, 2019. [19] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT Press, 2016. [20] D. E. Rumelhart and J. L. McClelland, “Learning internal representations by error propagation,” in Parallel distributed processing: Explorations in the microstructure of cognition: Foundations, 1987, pp. 318–362. [21] P. Vincent, H. Larochelle, Y. Bengio, and P.-A. Manzagol, “Extracting and composing robust features with denoising autoencoders,” in Proceedings of the 25th international conference on machine learning, 2008, pp. 1096–1103. [22] D. Bank, N. Koenigstein, and R. Giryes, “Autoencoders.” 2021, [Online]. Available: http://arxiv.org/abs/2003.05991. [23] “the GAN zoo.” https://github.com/hindupuravinash/the-gan-zoo. [24] S. C. Alec Radford Luke Metz, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arxiv arXiv:1511.06434, 2015. [25] M.-Y. Liu and O. Tuzel, “Coupled generative adversarial networks.” 2016, [Online]. Available: http://arxiv.org/abs/1606.07536. [26] S. L. Tero Karras Timo Aila, “Progressive growing of gans for improved quality, stability, and variation,” arxiv arXiv:1710.10196, 2017. [27] M. Mirza and S. Osindero, “Conditional generative adversarial nets.” 2014, [Online]. Available: http://arxiv.org/abs/1411.1784. [28] T. Z. Phillip Isola Jun-Yan Zhu, “Image-to-image translation with conditional adversarial networks,” arxiv arXiv:1611.07004, 2016. [29] P. I. Jun-Yan Zhu Taesung Park, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” arxiv arXiv:1703.10593, 2017. [30] C. Ledig et al., “Photo-realistic single image super-resolution using a generative adversarial network.” 2017, [Online]. Available: http://arxiv.org/abs/1609.04802. [31] W. Zhang, Y. Liu, C. Dong, and Y. Qiao, “RankSRGAN: Generative adversarial networks with ranker for image super-resolution.” 2019, [Online]. Available: http://arxiv.org/abs/1908.06382. [32] S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, “PULSE: Self-supervised photo upsampling via latent space exploration of generative models,” 2020. [33] D. S. Yuxuan Wang RJ Skerry-Ryan, “Tacotron: Towards end-to-end speech synthesis,” arXiv arXiv:1703.10135, 2017. [34] R. J. W. Jonathan Shen Ruoming Pang, “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv arXiv:1712.05884, 2017. [35] R. J. W. Ye Jia Yu Zhang, “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” arxiv arXiv:1806.04558, 2018. [36] I. Petrov et al., “Deepfacelab: A simple, flexible and extensible face swapping framework,” arXiv preprint arXiv:2005.05535, 2020. [37] “DeepFaceLab.” https://github.com/iperov/DeepFaceLab. [38] “faceswap.” https://github.com/deepfakes/faceswap. [39] “faceswap-GAN.” https://github.com/shaoanlu/faceswap-GAN. [40] M. Artetxe, G. Labaka, E. Agirre, and K. Cho, “Unsupervised neural machine translation,” arXiv preprint arXiv:1710.11041, 2017. [41] R. Prenger, R. Valle, and B. Catanzaro, “WaveGlow: A flow-based generative network for speech synthesis.” 2018, [Online]. Available: http://arxiv.org/abs/1811.00002. [42] “Deepfakes: An Unknown and Uncharted Legal Landscape.” owards Data Science; https://towardsdatascience.com/deepfakes-an-unknown-and-uncharted-legal-landscape-faec3b092eaf, 2019. [43] “Fraudsters Used AI to Mimic CEO’s Voice in Unusual Cybercrime Case.” THE WALL STREET JOURNAL; https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402, 2019. [44] “「ディープフェイク」脅威に　国内初摘発、海外被害も.” 日本経済新聞; https://www.nikkei.com/article/DGXMZO64577690S0A001C2CZ8000/, 2020. [45] “Mother ’used deepfake to frame cheerleading rivals’.” BBC News; https://www.bbc.com/news/technology-56404038, 2021. [46] P. Korshunov and S. Marcel, “DeepFakes: A new threat to face recognition? Assessment and detection.” 2018, [Online]. Available: http://arxiv.org/abs/1812.08685. [47] F. Matern, C. Riess, and M. Stamminger, “Exploiting visual artifacts to expose deepfakes and face manipulations,” in 2019 ieee winter applications of computer vision workshops (wacvw), 2019, pp. 83–92, doi: 10.1109/WACVW.2019.00020. [48] S. Agarwal, H. Farid, Y. Gu, M. He, K. Nagano, and H. Li, “Protecting world leaders against deep fakes,” 2019. [49] X. Yang, Y. Li, and S. Lyu, “Exposing deep fakes using inconsistent head poses.” 2018, [Online]. Available: http://arxiv.org/abs/1811.00661. [50] T. Baltrusaitis, A. Zadeh, Y. C. Lim, and L.-P. Morency, “OpenFace 2.0: Facial behavior analysis toolkit,” in 2018 13th ieee international conference on automatic face gesture recognition (fg 2018), 2018, pp. 59–66, doi: 10.1109/FG.2018.00019. [51] T. Jung, S. Kim, and K. Kim, “DeepVision: Deepfakes detection using human eye blinking pattern,” IEEE Access, vol. 8, pp. 83144–83154, 2020, doi: 10.1109/ACCESS.2020.2988660. [52] “New steps to combat disinformation.” https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-authenticator/, 2020. [53] “Think like the bad guys: An interview with cristian canton ferrer, ai red team lead.” https://tech.fb.com/dfdc/, 2020. [54] “Deepfake detection challenge.” https://www.kaggle.com/c/deepfake-detection-challenge, 2019. [55] “CALL center fraud prevention.” https://www.pindrop.com/solutions/anti-fraud/, 2020. [56] T. Chen, A. Kumar, P. Nagarsheth, G. Sivaraman, and E. Khoury, “Generalization of Audio Deepfake Detection,” in Proc. Odyssey 2020 the speaker and language recognition workshop, 2020, pp. 132–137, doi: 10.21437/Odyssey.2020-19. [57] “AI-Powered Video Conferencing with NVIDIA Maxine.” NVIDIA; https://www.youtube.com/watch?v=eFK7Iy8enqM. [58] “AI Can See Clearly Now: GANs Take the Jitters Out of Video Calls.” NVIDIA; https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine. [59] A. Mason, “Introducing Descript Podcast Studio & Overdub.” https://blog.descript.com/introducing-descript-podcast-studio-overdub/, 2019. [60] “Generated Photos.” https://generated.photos/. [61] A. A. E. Jyh-Jing Hwang Sergei Azernikov, “Learning beyond human expertise with generative models for dental restorations,” arxiv arXiv:1804.00064, 2018. [62] 米辻泰山, “線画自動着色サービス「PaintsChainer」について,” 映像情報メディア学会誌, vol. 72, no. 5, pp. 353–357, 2018, doi: 10.3169/itej.72.353. [63] Preferred Networks; https://github.com/pfnet/PaintsChainer. [64] “GauGAN.” Nvidia; http://nvidia-research-mingyuliu.com/gaugan. [65] T. Park, M.-Y. Liu, T.-C. Wang, and J.-Y. Zhu, “Semantic image synthesis with spatially-adaptive normalization,” in Proceedings of the ieee/cvf conference on computer vision and pattern recognition, 2019, pp. 2337–2346. [66] S. M. W. Thomas Schlegl Philipp Seeböck, “Unsupervised anomaly detection with generative adversarial networks to guide marker discovery,” arXiv arXiv:1703.05921, 2017.