単なるお遊びが、知らないところで役立つこともあるんですねぇ。
2016年、SNSにマネキンの真似をした動画を投稿するのが流行ったこと、憶えていますか? ですがアレ、ミームの海にアーカイヴされる単なる砂粒にとどまらず、実はGoogleの科学者たちがそれらを利用して、ロボットが周囲をうまくナビゲートできるよう訓練しているのだそうです。
当時は著名人もチャレンジした
かつては大規模にN.Y.のグランド・セントラル・ターミナルで大人数が挑戦したり、ヒラリー・クリントンやポール・マッカートニーまでもが流行りに乗っかったマネキン・チャレンジ。もし当時を憶えているならば、あれは複数名がひとつの場所でピタっと、そして時としてダイナミックなポージングで固まったところを、カメラだけが動き回ってさまざま角度から撮影する、というものでした。
たとえばこちらは、学校内のいくつかの施設をまたぎ、数えきれないほどの人数が参加したチャレンジ動画です。
たまにウッカリ動いている生徒もいたりしますが、先生までもが協力して、文字通りマネキンのように固まっている感じがします。
ロボットは奥行きを認識できない
人間は3Dの空間を撮影した2Dの映像を見ただけで、意識せずともその奥行など立体感を認識できますよね。ですがロボットたちの能力は、まだそこまで行っていないんです。ロボットたちが新しい場所で上手く自律移動をできないのは、それが理由のひとつでもあります。加えて、自律運転車を作るときにも同じことが障害になるのです。
ということで、かつて流行ったマネキン・チャレンジが、ロボットに2D画像の奥行きを認識させる方法を教えるための、完璧なデータセットを提供することになったのです。
上の動画が最たる例ですが、動画がポーズしているとベタっとした1枚の画像に見えるとしても、再生しているとカメラがどんどん奥に進むので、ある意味ナビゲートされている形になりますよね。周囲でマネキン化した人間たちは障害物同様の扱いになり、彼らを避けて進むカメラワークが空間認識を訓練することに繋がるのです。
訓練の方法
まず研究者たちは、YouTubeに投稿された数限りない動画から2,000本を選び、それらをフィルタリングして訓練に適さないものを除外しました。それらはたとえば、ピタっと静止できていなかったり、魚眼レンズを使っていたり、またクロマキー合成などをして望ましい結果が出なさそうな動画だったそうです。次に、最終的なデータセットを使い、動画内の動く物体の奥行きを予測できるニューラル・ネットワークを訓練したのでした。研究をまとめた報告書によりますと、この方法により従来の最先端の方法よりも、はるかに精度が高い結果を得られたのだそうです。
とはいえ、そこには限界があります。研究者いわくこの方法では、映像に自動車と影が映っていると正確さが損なわれてしまうことがあるんですって。しかし彼らはそのデータセットを公開しました。
では、どうやったら動画を投稿していた人たちが、自分の姿が使われたってわかるのでしょうか? 簡単にいうと……それは見てもわからないそうな。
研究者たちは一般人が投稿したものを資料にする
MIT Technology Reviewによりますと、最初に報告された研究では「人工知能の研究者は常識的に、一般に公開されている画像を収集してロボットを訓練する」とあります。そして研究者たちが使うモデルが高度であればあるほど、ニューラル・ネットワークを訓練するために必要なデータも増えることになります。
なのでもしアナタがYouTubeに動画を投稿したら、それを見たAI研究者たちが「ニューラル・ネットワークに上手なナビの仕方を訓練するのに使えるぞ? 」と思うかもしれません。まぁ投稿された動画は、設定しない限り一般公開されているワケなので、そういう使われ方をする可能性もありますよね。
望まれない使われ方をされることもある
最近Microsoftが、ネット上にある著名人の顔画像のデータベース「MS Celeb」から10万人のデータを削除したことがありました。登録されているのは公人のみのはずでしたが、そうではない私人の顔も多数見つかったのが理由でした。それに、そのデータは学術的な目的にのみ使用されることを意図していたのに、中国の顔認証監視システムを含む、民間企業にも多く利用されていたことも判明したから、というのもあります。
これは決着を付けるのが大変そうですが、それがSNSユーザーにとって自撮り写真を投稿し、人生を謳歌する歯止めにはなりません。ちなみに今では、SNSに投稿したピッツァ写真までもがAIの助けになる時代だったりします。
今後も人工知能発展のため、いろんな動画や写真を投稿しましょう!
Source: YouTube, Cornell University, Know Your Meme, Learning the Depths of Moving People by Watching Frozen People, MIT Technology Review