不適切映像を探せ！映像加工でも活躍するAI

お気に入り

テレビ、雑誌、ネットの映像の多くの映像に含まれる「モザイク」や「ぼかし」。その加工の自動化に、人工知能（AI）が入り込もうとしている。

CGの学会・展示会「SIGGRAPH2013」における「バレ消し」説明の様子。バケツを持った人々やトラックは消され、水柱のみが残る。（英The Foundryのブースにて）

　映像に「モザイク」や「ぼかし」を入れるDVE（Digital Video Effect）。ニュースではあまり目にしないが、プライバシー保護などの観点から、情報番組では入っていないものを探す方が難しい。

　実は、こうした映像加工の世界では、21世紀に入った頃からひっそりとAIが使われていた。代表的なのが、業界で「バレ消し」と呼ばれる不要物の消去だ。スタントマンが付けるワイヤー、時代劇中の背景に見える飛行機雲や携帯電話基地局、このようなものを「不自然さが残らないように消す」ことをいう。

　バレ消しの根底には、「画面からの特定部分の切り出し」「合成の境界合わせ」といった基礎技術がある。切り出しと境界合わせのそれぞれに機械学習が使われ、処理の精度が高められてきた。

　機械学習を行うには、多くのデータを集めなければならない。現在は、Webサイトを巡回して、ここから必要なデータを取ってくる「スクレイピング」が使われる。ネットにアップされている映像から集めた膨大なデータが、機械学習に使われるのである。膨大な「お手本」を使って学習させることでフォトレタッチソフトやビデオ編集ソフトは飛躍的にバレ消しの性能を向上させた。

時間軸が効いてくる

　きれいに消す能力は十分にあったが、初期のバレ消しは、修正したこと自体目立たないよう人間が気を遣う必要があった。静止画で観るときれいに消えていても、動画にするとなんとなく不自然、ということがあったからだ。動画にすると「処理済みと未処理の部分の境界」が不安定に動くことで、処理を行っていることがわかってしまう。また、フレームごとに処理が微妙に異なり、動画にすると「そこに何かがあった」ことがわかってしまうこともあった。

　しかし、ここ数年のAIの発達で、そのような配慮が不要になってきた。「消したい場所」を選ぶだけで手軽に動画を加工し、バレ消しできるようになった。

生放送の悪夢

　放送関係者の頭を悩ませるのは、事故により、不適切な映像や言葉が放送されてしまうこと。有名なのは2004年に米国で起きた不適切映像事件である。スーパーボウルのハーフタイムショーで、「衣装の故障」により不適切映像が流れた。これに対して、放送事業者を監督する米連邦通信委員会（FCC）は、放送事業者に責任があるとして55万ドルの罰金を科した。一方、放送事業者側は、自らの制御外で起きた事故であり処罰には当たらないと反論した。２回の上告審を経るという異例の経過をたどり、2012年6月に２度目の最高裁判決で無罪が確定した。罰金よりはるかに多くの費用を払って、判決を確定させたと見られる。

　この間、放送機器業界は素早く対応策を打ち出した。最も早く商用化されたのは、ハードディスクを利用した「バッファ」で、データの送出を数秒間遅らせるものである。巨大な赤いボタンも装備されており、不適切なものが見えたらこのボタンを押す。送出される映像は数秒遅れなので、電波に乗る前に送出が止まる。この装置は、誰かがモニターを見ながら赤ボタンに手を掛けていなければならない。間違えて押せば大問題となり、押すのが遅れればやはり大問題となる。担当者の緊張は相当のものだっただろう。

　生放送のインタビューなどでは、放送禁止語が使われることも警戒しなければならない。録画では、このような言葉は「ピー」音に置き換えるし、国によってはその際の口の動きもモザイクにする。しかし、生放送ではそのような加工を行う余裕はない。責任の有無はともかく、関係者が気を揉むことは確かだ。

「バレ消し」から「ヤバイ消し」へ

　4月に米国で開催された電子メディアの展示会「NABショー2019」では、このような映像、音声の「ヤバイ」ものまで見張って、修正するAIが登場した。IBMはNABで、「Watson」により、リアルタイムに「不適切映像」や「不適切音声」をマスクする様子を見せた。AIが不適切なものを「見つける」ところまでやれるなら、もう、人が指定する必要はない。（写真は電子メディアの展示会「NAB Show」には、世界のコンテンツ業界関係者が機材やサービスを探してやってくる。（NAB Show 2019にて））

　デモで使われた不適切映像は、「指を立てる」シーンである。ここれが見事にモザイクに置き換わった。また、不適切な用語も「ピー」という音で覆われた。AIを通すことによる遅れはほんのわずかだそうだ。これなら、ニュース番組中のインタビューのシーンでも利用できる。

IBMは、人工知能Watsonを使い、自動的に不適切ジェスチャーを発見しモザイクを掛けるデモを行った。字幕も自動的に生成されている。（NAB Show 2019にて）

　これらの技術は、放送だけでなくインターネットの動画配信サイトでも導入が進んでいるという。現在は、多くの「ネット監視人」がアップされたコンテンツを見て、適／不適を判断している。この作業の多くがAIの支援を受ける日も近そうだ。

　また、この技術をフィルター的に、受信側で使うこともできる。ベースとして、読み書きしたファイルにウイルスが含まれているかをリアルタイムに発見するソフトが使われている。同様に、画像データを与えるとフィルターとして働き、不適切映像、音声を排除するソフトもある。子供に与えるスマートフォンやタブレットには必須だろう。