基本読書

基本的に読書のこととか書く日記ブログです。

データ化すれば客観的に評価できるという考えの落とし穴──『測りすぎ──なぜパフォーマンス評価は失敗するのか?』

測りすぎ――なぜパフォーマンス評価は失敗するのか?

測りすぎ――なぜパフォーマンス評価は失敗するのか?

僕の本業はWebプログラマで、こうした職業としてはありがちなこととして何社も転々としながら(時にフリーで)仕事をしているのだが、極少人数の企業をのぞけばだいたい「どうやって社員の成果を評価するか」といったところで試行錯誤している。

メンター的な存在が評価するようなケースもあれば、成果をできるだけ定量的・客観的に評価しようとするところもありと様々だが、やはりIT界隈ということもあり後者の機運の方が高い。より納得感のある評価制度があれば会社側も勤めている側もウィンウィンなので、定量的・客観的な評価が「本当に」できるのであればそれは良いことなのだけれども、あんまり「こりゃうまくいっている!」というところは、ないねえ。正直にいえばひとつもない。本当にそんな数字で個人のパフォーマンスが測れるかぁ? 数字ごまかすだけやぞ、と疑問が湧いてくるものばかりで、難しい。

で、本書はまさにそのような話をする本だ。客観的、定量的な評価を人々は求め、なんでも数字で測ろうとするけれども、実際はそうすることで人は数字だけを操作しようとする。たとえば、外科医が成功率に基づいて評価されたり報酬を決められたりすると、より複雑であったりリスクの高い症状の患者の手術を拒否する場合があることが複数の調査で証明されている。医師としてはそうすることで成功率は上がり、評判も上がり、報酬も高くなる。だが、その対価として患者が犠牲となっている。

 本書で見ていくが、測定基準の改竄はあらゆる分野で起きている。警察で、小中学校や高等教育機関で、医療業界で、非営利組織で、もちろんビジネスでも。そして改竄は、報酬や懲罰の根拠に実績基準を使うと必然的に起こる問題のひとつでしかない。世の中には測定できるものがある。測定するに値するものもある。だが測定できるものが必ずしも測定に値するものだとは限らない。測定のコストは、そのメリットよりも大きくなってしまうかもしれない。測定されるものは、実際に知りたいこととなんの関係もないかもしれない。あるいは、本当に注力するべきことから労力を奪ってしまうかもしれない。そして測定は、ゆがんだ知識を提供するかもしれない──確実に見えるが、実際には不正な知識を。

本書の中では先に挙げたような医師や、警察の例(犯罪発生率の引き下げを目標に掲げたら、現場の警官たちは犯罪を隠すようになった)が無数に取り上げられていくわけだけれども、しかしなぜそこまで人は数値的測定基準に頼ろうとしてしまうのだろうか? といえば、別にそう難しい話ではない。数値化されると透明性と客観性の印象が与えられるし、より多くの人間を一人一人適切に評価・観察したりするのは不可能なのだから、一律の基準でそれができたら費用対効果は高いと判断される。

訴訟大国アメリカ(と誰もがイメージする)では、訴訟への防御、リスク回避としての実績測定も、動機のひとつであったという。全体の流れがそうなっているよね。

無論、測定が悪なわけではない。

無論、測定が悪というわけではない。実際に測定しているもの/できるものが、本当に測定したいものの適切な代理変数で、さらにその賞罰体系をきちんと組み上げられるならば、それは正しく機能するからだ。実際、生活のあらゆる側面にプログラムが入り込み、IOTだなんだと言っている現代において、この「なんでも測定するぞ!」という流れが増すことはあっても衰えることはないように思える。*1

その傾向は中国ではより顕著で、アリババ傘下の金融会社アント・フィナンシャルが始めた芝麻信用は膨大なオンラインの購買データや返済記録などから個人の信用をスコア化しており、点数が高くなるといろいろな特典がつく(賃貸が借りやすくなる、個人融資が受けやすくなる、人に証明としてみせることで個人売買が促進されるなど)。ぱっと見個々人の信用がスコア化される社会はディストピア感半端ないが、何冊も本を読む限り・少なくとも現地の人の言葉では、自分の信用が客観視されることで選択肢が増え、さらには誰もが信用スコアを上げようと行動するのでマナー面、倫理面での向上もみられるなど、わりと好意的に受け入れられているようである。

他にも、同じく中国のタクシー配車アプリでも測定はわりとうまく取り入れられているようだ。ここではドライバーの評価システムが導入されているのだが、ドライバーはランクが上がるごとに得られる収入=とれる金額がどんどん上がる(最低ランクと最高ランクの差は9〜10倍という)。その評価基準として用いられているのが、1.配車リクエストに対する応答時間。2.配車リクエストを受けた後のユーザーをまたせた時間。3.GPSとジャイロセンサーのデータから算出される、安全運転度の3つで、ようは「タクシーで最も満足度を高めるのは、安心してすばやく目的地にいけること」であるとしてそこに評価軸を置いているわけだが、これなんかはわりとうまくいっているようにみえる(無論、これだって完璧な測定ではまったくないのだけれども)。

おわりに

測定が難しいケースではどうしたらいいんだろう? うまくいっている測定とはどういうケース化? というのが実際には一番知りたい情報だが、それは標準化された測定基準では解決できない複雑な判断と解釈が必要になるということだから簡単には書けないというジレンマが本書にはある。とはいえ、落とし穴の数々を事前に知り、「世の中は測定測定うるせーけど、『もっともすぐれた測定でさえ、汚職や目標のずれを生む恐れがあることを覚えておく』」ということを意識しておくだけで、はかどる面が多いだろう。

*1:とはいえ、プライバシーがどんどんなくなっていく社会に対するカウンターがないとも考えづらく、結局のところそのバランスがどこに落ち着くのか僕には検討もつかないが