新型コロナで露呈したAIの限界と、それを乗り越える方法

  • 12,654

  • author Ben Dickson - Gizmodo US
  • [原文]
  • 福田ミホ
  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
新型コロナで露呈したAIの限界と、それを乗り越える方法
Image: Angelica Alzona/Gizmodo US

過去データから学習してるだけでは、新しい事態に対応できない、と。

新型コロナウイルスの影響でいろいろと調子が狂ってしまう今日この頃ですが、それはAI(人工知能)にとっても同じことのようです。スマホの顔認証が通らなくなったり、Amazonで生活必需品を買おうとしても買えなかったりといったことの背景には、激変した現実についていけずにいるAIがあった…と、エンジニアでありTechTalksのファウンダーであるBen Dickson氏が米Gizmodoへの寄稿記事で書いています。

Dickson氏によれば、そんな現在のAIの限界は、今多分もっとも普及している「機械学習」という手法のやり方、考え方に問題があるとのこと。じゃあそれをどう変えていけばいいのか、以下Dickson氏から、どうぞ。


新型コロナウイルスが世界を崩壊させつつあった2020年3月、オンライン小売の巨人Amazon(アマゾン)はこのパンデミックが引き起こした急激な変化への対応に苦慮していました。水やトイレットペーパーといった、通常決して売り切れるはずのない日用品の在庫が払底し始めたんです。本来なら翌日または翌々日だった配送スケジュールが延びて数日後になりました。Amazonのジェフ・ベゾスCEOはコロナで240億ドル稼いだと言われる一方で、会社としてのAmazonは当初、優先度の高い商品の在庫確保と配送だけでも処理すべく、物流や配送、サプライチェーン、仕入れ、サードパーティ販売者の手続きなどの調整で四苦八苦していました。

普通の状況なら、Amazonの複雑な物流のほとんどを人工知能(AI)アルゴリズムが管理しています。無数の販売、配送の経験で磨き上げられたAmazonのシステムは、各商品がどれくらい売れて、配送センターの在庫をいつ補充すればよくて、どうまとめれば配送距離を最小化できるかを的確に予測できます。でもこのコロナ危機で我々の行動パターンが大きく変化し、これまでの予測が通じないようになってしまいました。

消費財業界では、このパンデミック下で消費者の購入パターンは大きく変化しました。

人工知能(AI)コンサルタント会社のPactera Edgeのシニアバイスプレジデントで、法人向けAIソリューションと認知エンジニアリングの責任者を務めるRajeev Sharma氏は言います。

パニック購買の傾向があり、より大量に買おうとする動きがさまざまな規模で起きています。(AIの)モデルが今までこれほど急激な増加を経験したことがないため、その予測はより不正確になっていると考えられます

AIを使ったアルゴリズムは、過去10年ほどの我々の生活におけるたくさんの変化を支えてきました。メールボックスからスパムメールが締め出され、ソーシャルメディアからは暴力的なコンテンツが(精度はさておき)排除されました。銀行での詐欺やマネーロンダリングの防止にも、投資家の取引の判断にも、怖いところでは企業の採用担当者が応募書類を審査するときの支援としても、AIが使われています。AIはそうした判断を1日何百万回と、たいていは効率よく行なっています。でも新型コロナウイルスによるパンデミックのようなまれに見る事態が起こると、信頼性が低くなる傾向にあります。

新型コロナウイルスが明らかにしたことのひとつが、AIシステムの脆さなのです。生活の中で自動化システムがますます大きくなり続ける中で、我々はアプローチを改めて、通常ありえないようなブラックスワン・イベントに直面しても正しく動けるようなAIシステムを作っていく必要があります。

AIはなぜ失敗するのか

AIが商業的に成功した要因は、機械学習の進化にあります。機械学習とはアルゴリズムの1カテゴリで、非常に大きなデータセットからパターンを発見し、それに基づいた挙動をします。機械学習、中でも深層学習(ディープラーニング)は、もう数十年間存在してきましたが、大量のデータとそれを処理する計算能力が必要になるので、用途が限られていました。でもこの10年ほど、手に入るデータが爆発的に増えるとともにプロセッサ技術もますます進化したことで、機械学習アルゴリズムはそれまであまり使われていなかった分野、たとえば画像認識や音声認識、自然言語処理といった分野で企業が使うことも可能になりました。

巨大なデータセットで学習した機械学習アルゴリズムは、人間の分析者が気づかないような微妙な相関を発見することがよくあります。アルゴリズムはこうしたパターンを見つけることで、その目的に合った予測・予想を立てることが可能になりますが、その内容は必ずしもロジカルではありません。たとえば顧客行動を予測する機械学習アルゴリズムは、「レストランで外食する人たちは○○なタイプのスーパーで買い物しがちだ」とか、「オンラインで買い物する顧客は○○ブランドのものを買うことが多い」といった傾向を発見します。

こうしたいろいろな要素の相関は、機械学習モデルを使うのにうってつけでした。機械学習モデルは、発見した相関を使ってよりよい予測ができるからです。でもこのような相関は一過性で、文脈に強く依存します

MIT-IBM Watson AI Labのディレクター、David Cox氏は言います。

新型コロナウイルスで世界中がそうであったように、大元の条件が変化したらどうなるでしょうか? 顧客行動は劇的に変化し、過去の相関はもはや通用しません。外食の回数からどこで食品を買うかを予測することはもはやできません。外食する人が劇的に減ったのですから

消費者が行動を変化させるとともに、サプライチェーンの挙動を定義してきた無数の要素の間の相関もまた崩壊し、古いモデルはその意義を失っていきます。それによって、Amazonも他社もそうだったように、倉庫からは商品が消え、配送は遅れていきます。「要素の相関に基づいた予測だけをしていて、相関を生み出す要因や背景を理解していない場合、予測は外れるようになります」とCox氏は警告します。

他の分野、たとえば銀行などでもこの影響が現れています。銀行では口座の不正利用を検知するために、お金の使い方が急変した口座を発見する機械学習アルゴリズムを使っています。データ分析や機械学習サービスを行なうTeradataによれば、彼らのプラットフォームを使ってリスクの高い取引を検知しているあるユーザー企業では、モバイル決済が15倍になりました(Teradataはポリシーとして、その企業の名前は明かしませんでした)。背景には新型コロナの影響でオンラインでの購買が増え、リアル店舗での購入が減ったことがあります。不正利用検知アルゴリズムはユーザー行動の異常を探すのですが、このパンデミックのような突然の変化のせいで、正当な取引でさえも怪しいとフラグを立てられてしまうかもしれません。ちなみにTeradataいわく、彼らはロックダウン時の急激な変化にあたっても、銀行取引のアルゴリズムの正確さを維持することができたそうです。

でも他の分野、たとえば画像認識システムではもっと根本的な悪影響がありました。画像認識システムでは、画像内のモノや人物を検知するアルゴリズムが使われています。

新型コロナウイルスによって、ベースとなるデータにいくつかの変化がありました。新型コロナウイルスは個々のAIモデルだけでなく、AIの処理の流れのあらゆる部分に影響してきました

Teradataのグローバル新興技術・AI・ディープラーニング担当バイスプレジデントであるAtif Kureishy氏は言います。

新型コロナウイルスで多くの人がマスクを着け始め、顔が覆われていることで検知漏れが起こるようになり、パフォーマンスが落ちてしまいました

TeradataのRetail Visionという技術では、数千の画像で学習したディープラーニングモデルを使って、小売店内のカメラで捉えた動画ストリームの中の人を検知し位置を特定します。AIは、ともすれば恐ろしいほど強力に、動画を分析して人の活動や感情まで分析でき、それを他のデータと総合して小売店に対し知見を提供します。このシステムのパフォーマンスは動画から顔を見つけ出す能力と連動しているので、ほとんどの人がマスクを着けるようになった今、性能が劇的に低下しています。

一般に機械学習・ディープラーニングは、正確ながら表層的なモデルを提供するものであり、変化に敏感です。その変化とはさまざまな環境条件かもしれないし、銀行顧客のパニック購買かもしれません

とKureishy氏は言います。

200804_aiundercorona2
Image: Angelica Alzona/Gizmodo US

AIの犠牲者たち

人間は、世界の中で見るデータからその下にあるルールを読み取ることができます。我々は因果関係を考え、未知の状況に直面しても、そこに既知の世界の仕組みのモデルを応用します。

車が橋から飛び出して水の中に落ちるところを見たら、過去に同じような事故を見たことがなくても、車がどうなるかを人間は予想できます

とCox氏。

我々は(少なくとも直感的には)ものがなぜ浮くのかをある程度知っていて、車が何でできているか、どう作られているかについても多少知識があります。それによって『車はしばらく水に浮くが、最後は水が入ってきて沈むだろう』という推論ができるのです

一方、機械学習アルゴリズムは、すでに見たことがあるもの同士の間を埋めることはできますが、背景にあるルールや、環境を支配する因果モデルを発見できません。学習モデルは、新しいデータと古いデータが大きく変わらなければ機能しますが、環境が劇的に変化するやいなや破たんし始めます。

我々の機械学習・深層学習モデルは、既知のデータと似たデータを扱う『内挿』(ないそう)に優れている傾向があります。でも外挿(がいそう)、つまり経験外の状況から予測することは、非常に苦手なのです

とCox氏は言います。

因果モデルの欠如は機械学習コミュニティ特有の問題で、それで常に間違いが発生しています。自動運転モードのテスラがコンクリートの壁に衝突したり、Amazonの今は使われなくなったAI採用ツールが「女性チェスクラブのキャプテン」を履歴書に入れた応募者を低く評価したりしたのもそのせいです。

AIが文脈を理解しなかったことによる明らかな(そして痛ましい)例は、2019年3月に起こりました。ニュージーランドでテロリストが51人を殺害し、それをFacebook上でライブストリームしたんです。FacebookのAIはその動画を検知しませんでした。その動画が一人称視点で撮られていて、アルゴリズムは同じようなコンテンツで学習していなかったからです。それは手動で削除されましたが、他のユーザーがコピーを再投稿し続けたため、Facebookはその削除に追われました。

今回の世界的パンデミックのような大規模な出来事は多くの自動化システムの弱みを突いてあらゆるエラーを同時に引き起こし、これまで以上の悪影響を及ぼす可能性があります。

ブラックスワン・イベントにどう対処すべきか

消費者行動データで学習したAI・MLモデルは、このパンデミックのようなブラックスワン・イベントにおいて、予測が不正確に、推奨が不適切になる宿命であることを理解すべきです

PacteraのSharma氏は言います。

これはAI/MLモデルは、その学習の過程ではそんな変化を見たことがないかもしれないからです。すべてのAIプラットフォームエンジニアは、このことを知っています

ただしこのことは、AIモデルそのものが間違っているという意味ではないとSharma氏は言います。いわく、モデルは常に新たなデータとシナリオで継続的に学習させる必要があるのです。また企業や組織におけるAIシステムの限界を理解し、その対策をしておくことも重要です。

Sharma氏は例として、信用スコアの申請を受けて「高い信用度」と「低い信用度」に分類し、申請の承認/却下をする自動化システムにその結果を渡すAIについて説明しました。

(このパンデミックのような)何らかの状況のせいで、悪い信用度の申請者数が急増したら、モデルの性能に問題が出てくるかもしれません

とSharma氏は言います。

今や世界中の企業がこうしたAIソリューションを導入していますが、信用スコアをはじき出すようなAIの判断は、生身の顧客の人生を大きく左右します。パンデミックでもなんでもない平常時に設計通りに動いていたとしても、ときには人の生活を破壊しうるほどの影響力があるのです。この信用スコアAIの例では、システムに新たな現状に合わせたルールを教え、明確に調整しておく必要があります。または最終判断を人間の専門家に委ねることになるかもしれません。

現在のパンデミックの状況下で、モデルの精度や推奨がもはや妥当でないとき、その後のプロセスで人間のようなブレーキ役を通して精査する必要があるかもしれません

とSharma氏は言います。

IBMのCox氏は、我々が世界に対する知見をAIに統合できれば、新型コロナウイルスのようなブラックスワン・イベントにも対処できるようになるかもしれないと考えています。

我々は世界の因果構造を本当にモデル化するようなシステムを作らねばなりません。そうすれば急激に変化する世界にも適応し、より柔軟に問題を解決できることでしょう

とCox氏は言います。

Cox氏の属するMIT-IBM Watson AI Labは、ディープラーニングとクラシックな記号的(シンボリック)AIの技術を統合した「ニューロシンボリックシステム」と呼ぶものを作ろうとしています。記号的AIはデータで学習するのではなく、人間のプログラマーが直接、ルールやシステムの挙動といったディテールを与えます。記号的AIはディープラーニングが盛り上がる前に主流だった考え方で、ルールがはっきりしている環境には適していますが、画像や文書といった非構造化データを扱うのは苦手です。一方ディープラーニングは、非構造化データの扱いを得意としています。

記号的AIと機械学習の組み合わせは、「世界から学び、かつロジックや推論を使って問題を解決できるシステム」を作り出すことに役立つとCox氏は言います。

ただしIBMのニューロシンボリックAIは、まだ研究開発段階です。彼らは銀行を含むいくつかの分野でテストを進めています。

新たな状況には新たなデータが必要

TeradataのKureishy氏は、AIコミュニティに根付いたもうひとつの問題を指摘します。それは「ラベル付きデータ」の問題です。ほとんどの機械学習システムは「教師あり学習」、つまり人間がラベル付けした巨大なデータ群に正解を教えてもらって学習する必要があります。なので条件が大きく変われば、新たなラベル付きデータが必要になります。

Kureishy氏は「アクティブラーニング」の手法を使うことである程度その問題を解決できると提案します。アクティブラーニングモデルでは、人間のオペレーターが常に機械学習アルゴリズムの性能を監視し、性能が落ち始めた分野に対し新たなラベル付きデータを与えます。

アクティブラーニングには人間の参加と、質的制約に基づいて人間の介入を促し、必要なラベル付きデータを選択させるアラームが必要です

でも自動化システムが拡大するにつれ、人手はラベル付きデータの需要に追いつかなくなります。大量のデータを必要とするディープラーニングシステムの普及により、データのラベル付けビジネスは数十億ドル市場言われるまでに急成長しましたが、そこで働く人たちは貧しい国の低賃金労働者であることも多いのです。そこまでやってもまだ、機械学習モデルを最新に保つのに十分なデータを作り出せていません。必要なのは、人間の介入がゼロまたはゼロに近い状態で、新しいデータから学習できるディープラーニングシステムです。

企業では教師あり学習モデルがより多く使われているので、変化により速く適応するためには、データを効率よく学習できることが必要です

Kureishy氏は言います。

ラベル付きデータを与える人間に依存し続ければ、AIを新しい状況に適応させられるかどうかは、人間がラベルを提供できるスピードに常に縛られてしまいます

人手でラベル付けしたデータをほとんど、またはまったく必要としないディープラーニングモデルの研究は、活発に進んでいます。2019年の米国人工知能学会では、ディープラーニングのパイオニアのYann LeCun氏が「自己教師あり学習」の進展について論じました。それは人間から手取り足取り細かく指示されなくても、子供と同じように世界を探索できるディープラーニングアルゴリズムです。

私は、自己教師あり学習こそ未来だと思います。それによってAIシステムは次のレベルに到達できます。おそらくは観察に基づいて世界の背景となる知識を十分に学び、ある種の常識を形成していくのかもしれません

LeCun氏はカンファレンスで語りました。

ただしAI産業ではよくあるように、この努力が商用製品として実を結ぶには何年も(何十年ではないにしろ)かかります。今のところ、我々は今あるAIの力とその限界を受け入れなくてはなりません

「これは固定的なITシステムではありません」とSharma氏は言います。

企業のAIソリューションは決して完成せず、常に再学習を必要とします。それはインフラの中に息づく、生きたエンジンです。AIプラットフォームを作ったらそれでおしまいと言う考えは、間違っています


Source: TechTalks(1234)、The GuardianMITFT

Reference: Wikipedia