進化するのは生き物だけじゃなかった。
これからゲームや仮想世界が大きく変わるかもしれません。まだ実験段階ですが、人間が思いもつかないような進化をボットが自らやってのける「強化学習」という機械学習の一種が研究されています。機械学習(マシンラーニング)は今もっとも注目を浴びている分野ですね。今回の実験でわかったことは、ボットが「自分で自分を進化させることができる」ということ。米ギズモードのGeorge Dvorsky記者がGoogleのAIラボ「Google Brain」で行なわれた実験をレポートしてくれました。
レプリカントがどんどん進化していく『ブレードランナー』とか、これからはありえるのかもしれません。SFの世界がひろがります~。
強化学習でボットは進化するのか
このボットに与えた課題は、障害物を越えながらゴールを目指すこと。
AI技術で世界一を目指す、米Google Brain で行なわれた「強化学習」とよばれる技術を使った研究をご紹介します。この研究ではコンピュータ上のボットが環境に適応するために、なんと自分自身の体の部位を設計しなおして進化していく、というお話。
リスの思考プロセス・問題解決戦略はタコや象、カモメのものとは異なりますよね。どんな動物もそれぞれ自分に与えられた体を使って、独自の方法で世渡り・環境適応しなくてはなりません。したがって、それぞれに違った考え方や学習方法が存在するのは自然なことです。「進化は生物が環境に適応してそれぞれの体を形作るうえで重要な役割を担っています」とGoogle BrainのAI研究者であるデビッド・ハーさんは言います。この研究について説明してくれました。
脳と脳のもつ学習能力は共同で進化していく、わたしたちのさまざまな身体部位のうちのひとつにしかすぎません。この学習進化現象は現実世界では確認されていますが、デビッドさんが着目したのはこの進化が仮想世界でも起こるのかということ。それを確認するためにデビッドさんは、この強化学習が「ウォーカー」と呼ばれる仮想ロボットにも起こりえるのか、さまざまな実験を行ないました。はたして環境に適応し、難関を乗り越えるために、ボットは自身をつくりかえるでしょうか。
強化学習は人工知能で使用されるツールのひとつです。今回の場合、ボットがあらゆる進化パターンを試行し、結果が良いものに報酬が与えられ、最終的に1番報酬が大きくなるように進化を進めることになります。
このウォーカーたちの環境はデビッドさんによってOpenAI Gymフレームワークを使用して作り出されました。このフレームワークはちょっぴり懐かしい2次元ビデオゲームのようです。ですが、複雑な仮想物理学を駆使して自然にある条件をシミュレーションしているもの。土地の地形やゲーム内のアイテムをランダムに作成してくれるハードコアな仮想世界。ウォーカーは2本の足を生やしています。
この2本足ボットたちは、仮想環境を生きていくため、時間がたつごとにパフォーマンスを向上させて、学習しなくてはなりません。
仮想環境で進化するボットたち
デビッドさんのウォーカーには自分の体や身体部位を設計しなおすことができるという能力が与えられていました。このロボットは、もともと設計された足の最大75パーセントの大きさまで、それぞれ2節に分かれた2本の足の長さと幅を変えることができます。
このウォーカーの五角形の頭部は修正できません。ウォーカーは定期間隔でレーザービームのような光線を放射していますが、これは自分の目の前に広がる土地がどれくらいあるのかを光を用いたリモートセンシング技術の1つ、LIDAR(レーザー画像検出と測距)のデジタル版を使って計算しているためです。
強化学習アルゴリズムを使用して新しい身体部位を設計するために、ボットには数日時間が与えられました。
この学習プロセスは試行錯誤プロセスに近いものです。強化学習では、よい戦略を思いついたボットには報酬が与えられるよう設定ができます。これにより、最適な解決策に行きつくことができるのです。
強化学習はパワフルです。ボットがさまざまな解決策を打ち出す学習プロセスを高速化することができました。多くの解決策は、通常人間には思いも及ばないようなものであり、人間には予測が困難なものでした。
最初のテスト(上)では、デビッドさんは起伏が少なく障害物がまったくない環境にウォーカーを入れました。もともとの身体設計を使って、ボットは楽しそうに跳ね回っています。学習段階の後に、ボットは自分の足を細く、長くつくりかえています。足をつくりかえることにより、ウォーカーは足をバネのように進化させて、地面をすばやく飛び回ることができるようになりました。
モチベーションアップで思いもよらない進化も
障害を乗り越えたり、起伏の激しい部分や穴を飛び越えなくてはならないなど、さらに困難な地形(上の画像)になり、過激なポリシーが導入されたところ、また進化が見られます。先っぽが大きくなった尻尾の登場です。
この新しい進化により、ウォーカーは障害物を乗り越えることができるようになりました。
実験のこの時点で、デビッドさんは強化学習が作用していることを確かめることができました。ウォーカーが「身体能力のすぐれた新しい足をつくりだすことを学習したことで、パフォーマンスを向上させることができた」としています。
ここで研究が終わったわけではありません。デビッドさんはウォーカーにモチベーションを与えることで必ずしもパフォーマンスにメリットのない身体設計を適用させることができたのです。どういうことかというと、「エージェントに、最小限の素材を使いながら、タスクに対し満足のいく結果が得られるような身体設計を学習させたかった」とのこと。
まず、とても短い足に発達させたときに(上)エージェントに報酬を与えることにしました。モチベーションアップしたボットは最小限の足で効率的にちょこちょこ地面を動くことができるようになりました(この時点では75パーセントルールは適用せず。脚部は元の設計のわずか8パーセントに)。
しかし、ウォーカーは困難な地形を移動するときには、すこし困っている様子でした。その中でもあみだしたベスト戦略と思われる上記の例では、ウォーカーは元のデザインよりも27パーセントも大きく身体部位を進化させています。強化学習では必ずしもすばらしいアイディアが得られるわけでないようです。一部の場合には、よい解決策が得られないこともあるようです。
まだまだ人間の介入が必要
「困難なタスクが与えられたときに、エージェントを進化させることで、タスクにとってベストな解決策を見つけるだけでなく、より早く学習する方法を習得することができるのです」とデビッドさんはこう論文にも記しています。彼の実験では、認知の具現化は仮想世界にも適用されることが示されたのです。また与えられたタスクに適した身体構造を思いつくように動機づけをすることができるということも証明しています。
さらに実用的なことには、強化学習の適用により、コンピュータが空気力学的形状を設計したり、ストレスの多い条件下で材料を試験したり、超高性能ロボットを構築するという機械学習支援デザインにも使用できるということも意味します。
また、コンピュータグラフィックスやビデオゲームプレイにも適用できるとのこと。ミスを重ねることにより学習も重ねて進化していくボットと対戦するんですよ?想像できます?
ほっとするのは、今の時点の強化学習には人間の介入が最小限必要となります。ですが仮想ボットによって編み出された多くの解決策はびっくりするようなおかしなものや不条理なものまでありました。自己学習システムがこれからより力をつけ、幅を広げていくにつれ、ボットたちは人間には思いもつかないような進化の方法を編み出してくれるかもしれません。
どうですか、仮想ボットが進化する世界。怖いような楽しみなような。