「クリエーティブAI」は人間の創造力と想像力を拡張するか

超リアルな人物画像などを自動生成するAIの新しい可能性

「アイドル自動生成AI」をご存じでしょうか。この世に存在しない、しかし、“アイドルらしさ”を備えた顔の画像を無限に生成する新技術で、新たなAIの利用方法として期待されています。
ポイントは、2014年に開発され、進化を続ける「GAN」という技術にありました。モノづくりを支える将来性も高いAIの進化について、株式会社データグリッドの岡田侑貴さんにお話を伺いました。

INDEX

「いそうでいない」人物の画像をAIが作り出す
GANは２つのAIが切磋琢磨する独自の技術
人とAIが力を合わせて「創作」する時代が来る

「いそうでいない」人物の画像をAIが作り出す

――SNSなどでも話題の「アイドル自動生成AI」。どのようなものでしょうか。

AIがアイドルの顔写真を学習して、新たなアイドルの顔画像を作り出すというものです。本物のように見えますが、すべて実在しない架空の人物です。

2018年に私たちが開発したものですが「本物のアイドルの顔写真と見分けがつかないほどリアリティが高い」と、多くの企業やメディアから注目を集めました。
反響に比例して「岡田さんの会社はアイドルを作っているんですか？」と質問されることも増えましたが（笑）、目的はアイドル作りではなく、あくまで「クリエーティブAI」の活用の事例です。

——クリエーティブAIとは、どのようなAIを指すのですか？

クリエーティブAIは「何かを作るAI」という意味の造語です。学術的には、ディープ・ラーニング（AIのコアテクノロジー）に関連して、「データ生成技術」もしくは「生成系」と呼ばれることがあります。
人物に限らず、画像、音や文字、文章の生成、画像変換など、さまざまなデータをAIによって生み出すことを可能にします。

AIで生成したリアルな画像の例。どれもこの世には実在しない架空の生き物や風景
出典: Brock et al. 2018: Large Scale GAN Training for High Fidelity Natural Image Synthesis.

AIでクリエーティブを実現するための技術はいくつかありますが、私たちが主に研究しているのが「Generative Adversarial Network」、通称GAN（ギャン）です。日本語で「敵対的生成ネットワーク」と訳します。

GANは一般的な予測型のAIとは異なる、データ生成というタスクをこなすことができます。AIは元となるデータ、いわゆる「教師データ」が多いほど精度が上がるのがセオリーです。GANを用いると、この教師データを自動生成して、増やすこともできるのです。

「GAN」は2014年にGoogleのデータサイエンティストであるイアン・グッドフェロー氏らが開発。画像はGANによる人物画像生成の進化を示すもの
参考：データグリッドのまとめによる

GANは２つのAIが切磋琢磨する独自の技術

――GANが高度なクリエーティブを実現する理由を、もう少し詳しく教えてください。

株式会社データグリッド代表取締役社長　岡田侑貴（おかだ・ゆうき）さん

ご存じの通り、これまでAIは主に予測や認識に使われてきました。株価の予測や与信の自動化、医療診断などに実用化されていますね。膨大な教師データを元にAIが学習し、結果の予測や正誤の判定に働きます。
しかし、GANは教師なし学習モデルです。解答ではなく、構造や法則を導き出すことで、画像などを生成します。

仕組みを簡単に説明すると、GANは「生成器」と「識別器」という2つのAIから構成されています。生成器は乱数に対応したデータを生成して、識別器の反応を見ながら学習していきます。一方、識別器は生成器が作ったデータを受け止めて、その真偽を判定します。

——２つが敵対的に働きかけて、精度を高め合うということでしょうか。

その通りです。識別器は、生成器の作ったデータが本物か偽物かをジャッジします。生成器が、識別器を騙せるようなデータをうまく作るために進化すると、識別器はさらに生成器が作ったデータを見破る判定をシビアにしていきます。

双方が切磋琢磨し合うことで、アイドルの画像であれば「よりアイドルらしい顔画像」に近づけていきます。

——GANに向いているクリエーティブとしては、どのようなものが挙げられるのでしょう。

「より本物らしい」画像の生成や、工業デザインとは相性がいいですね。写真や絵画を「ゴッホ風にする」「モダンアート風にする」など、一定の作風や特徴に従ったデータ変換も得意です。

AIが写真を「ゴッホ風」に加工した例。CGとは違って自動で生成でき、元にも戻せる
出典: Zhu et al. 2017: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks.

「超解像」や「ノイズ除去」といった処理を行うことで、もともと粗い画像の解像度を上げるなど、「より本物らしく補完する」ことも可能にします。従来の超解像を超える品質で、画像や映像の修復や、色付け、デジタルリマスターなどに活用できます。

AIが自動で着色したモノクロ写真の例
出典: Zhang et al. 2016: Colorful Image Colorization.

もちろん、画像だけではなく音声などにも活用できますから、「ビートルズ風のまったく新しい曲」といった創作も可能です。

ほかにも、ある人の動きを動画からキャプチャして、別の人間の画像データの処理を行い、同じ動きの動画を生成することなどもできます。プロのダンサーによる高度なダンスを、動画上なら、誰でも踊っているように見せることができるのです。

——顔だけではなく、全身AIから生まれたアイドルが、自発的に歌って踊ることもできるようになりそうですね。

はい。実はその方向への進化を目指して、現在は人物のボディを高解像度で自動生成できるように研究を行っているところです。顔だけではなくボディまで生成可能になると、サービスやエンタテインメント分野での活用が進むでしょう。

最近はVチューバーによるコンテンツ、AIチャットボットを用いた問い合わせ応対が浸透してきましたが、これをリアルな人間の姿に置き換えて表現することなどが可能になります。受付、道案内、単純な販売など、人間でなくても構わないけれども、ヒューマンタッチが求められる機会も多いですよね。

反対に、映画などのエキストラやCMのモデルなど、必ずしも現実の人間ではなくてもよい場合や、特定のタレントなどによるイメージをむしろ避けたい場合などにも、AIが作り出す架空の人物などが活躍すると思います。

——逆に、クリエーティブAIに不得意なことはあるのでしょうか。

多様性の高いものを作る場合は、難しいところがあります。AIは何から学習していいのかを理解しえないものを作りにくいのです。
AIがアイドルを上手に作れたのは、人間の顔が複雑でありながら、多様性は低いからです。顔のパーツは目、鼻、口と決まっていて、並びもほぼ一緒ですね。

その他にも、バナー広告画像やロゴデザインの生成は、AIでかなり自動化できます。しかし、新規の絵画やポスター、映像のように、発想も素材も配置もすべてが自由というものは、作れてもなかなか上手にはなりません。

人とAIが力を合わせて「創作」する時代が来る

——クリエーティブAIの活躍で、将来、人の仕事の形は変わるでしょうか。

クリエーティビティの高い業務で、クリエーターのサポート役になれると考えています。過去のデータさえあれば、無数にバリエーションを生成できるのがクリエーティブAIの強みですから、大量のデザイン案を一瞬で作ることができます。実際に、工業デザインを、AIで作るアイデアが出ています。

AIはありそうでない提案や、人が思いつかなかった提案をくれることもあります。AIが何千という案を出した中からクリエーターがピンときたものを膨らませる、ブラッシュアップするといったように、発想の起点として利用できるという意見もあります。人がいくつかラフを描き、色を指定するだけで、あとはAIが仕上げてくれる、というような使い方も便利でしょう。

単純な業務だけではなく、クリエーティブに関しても、1から10まで人間がやっていたところの1から3～6程度まではAIがサポートする、というような共創スタイルになっていくのではないでしょうか。「人とAIとが共に創造する社会」は、充分に実現可能だと考えています。

「制作の現場で誰もがAIを使って自己表現できる世界を作りたいですね。まずは、世の中で広く使われるサービスの展開を目指しています」

AIによるクリエーティブは、具体的な活用まであと一歩というところまで進化しています。中でも、画像や動画の生成に関しては、いままで高い技術力やコストが求められてきましたが、今後は高品質で人間そっくりのCGモデルなどを、自動で大量に得られるようになりそうです。
AIの生成が、ARやVR空間の世界観の制作や、コミュニケーションツールやサービスに取り込まれる可能性も高く、クリエーティブAIにまつわるツールなども、今後、めまぐるしく発展しそうです。

Written by： BAE編集部