AIは時計を読むのが苦手らしい。そんなの信じられますか? 人間では簡単に解けない難しい計算を一瞬で解き、長文の要約や、翻訳、ビジネスカジュアルぽい文章への編集、物語や画像、動画も生成してしまう人工知能。
あのAIが、小学校低学年で習う時計の読み方が苦手なんて、まさかそんなこと…。
時計読み取りは複雑な能力が必要
イギリスのエディンバラ大学研究チームが、一般的にも知られるマルチモーダル対応の大規模言語モデルを調査。時計やカレンダーが含まれる画像をベースに、AIに対してさまざまな質問をしてみました。
調査対象となったのは、OpenAIのGPT-4o・GPT-o1、Google DeepmindのGemini 2.0、AnthropicのClaude 3.5 Sonnet、MetaのLlama 3.2-11B-Vision-Instruct、AlibabaのQwen2-VL7B-Instruct、そしてModelBestのMiniCPM-V-2.6。これら7つの言語モデルには、さまざまなアナログ時計の画像と10年分のカレンダー画像をインプットしました。
時計画像に関して、大規模言語モデルに問うたのは「画像の中の時計は何時をさしていますか?」というシンプルな質問。カレンダー画像では「元旦は何曜日ですか?」「今年153日目は何曜日ですか?」などを質問。
研究チームによれば、アナログ時計やカレンダーを読むのは、実は複雑な認識手順が必要だそう。(時計の針まで読む)詳細な画像認識能力はもちろん、簡単ではない数学的推察力が不可欠だからです。
結果、今回の調査では、AIは時計やカレンダーをうまく読み取ることができませんでした。アナログ時計の正解率はわずか25%未満。とくに、秒針がない時計や、ローマ数字で書かれた時計、また針に装飾が施された時計が苦手。アングルによる盤面の見やすさや針の認識が難しいようです。
アナログ時計でトップの成績を収めたモデルはGemini-2.0。一方、カレンダーはGPT-o1で、精度80%と圧勝。しかし、逆に言えば最も優れたモデルですら、2割近くもこの簡単なタスクを間違ってしまうということ。
時間は勉強し忘れ?
「視覚収集から時間を判断する能力は、スケジュール調整から自動システムまでリアルで多様なアプリケーションで必要不可欠な力です。マルチモーダル対応の大規模言語モデルのが化しているにも関わらず、多くの場合、モノの認識や画像の解説、状況理解にフォーカスされてしまい、時間推察能力は未開状態にあります」と語る研究チーム。
どうやら難しいことは勉強してきたけど、時計というある意味日常的な簡単なタスクは勉強モレしているようです。
論文共同執筆者のRohit Saxena氏は以下のように語っています。
多くの人は、小さい頃から時間やカレンダーを読むことができます。今回、人間の基本スキルにおいてAIの能力には大きなギャップがあることが明らかになりました。
こういった不足部分を指摘することで、AIシステムは時間把握能力があがり、スケジューリングや自動化、アシスタント技術として現実的なアプリにより組み込まれていけるようになるでしょう。
この研究露文は、現在、arXivに投稿されています。