すでにヒトと同じレベルに到達。音声認識技術の歴史と現在

  • 6,339

  • MugendaiMugendai
  • author 渡邊徹則
  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
すでにヒトと同じレベルに到達。音声認識技術の歴史と現在

積み重ねた苦労のおかげです。

Siri、Alexa、Googleアシスタント、LINE Clovaなど、今や数多くの音声入力装置が登場しています。時間や天気を聞く、買い物をするといったことが、ただ「声」だけでできるなんて、あらためて考えたらSFの世界ですよね。

それにしてもこの音声認識技術って、一体どのような仕組みでどう実現したものなのでしょうか。IBMのWebメディアMugendai(無限大)にて、その歴史が紹介されていました。

記事によると、同社が音声認識の研究を始めたのは、なんと1960年代から。代表的な成果の一つとして「電話会話音声認識」があり、これは音質の低い電話回線の音声を対象に、人間同士の自然な会話を認識するためのシステムなのだそう。

具体的には、入力された音声信号がどの音に対応するかをモデル化した「音響モデル」と、自然な単語の並びをモデル化した「言語モデル」の2つから成り立っているそうで、近年ではこれにディープラーニングが導入され、その精度は格段に上昇。何と、人間と同じ程度の音声認識が可能になったそうですよ。

関係機関の予測によれば、音声を使ったショッピングは現在の20億ドル(約2200億円)から、2022年には400億ドル(約4兆4000億円)以上に成長すると見込まれているそうで、もしかしたらその頃にはキーボードやスマートフォンも使っていないのかもしれませんね。

音声認識技術の歴史と現状についてご興味のある方は、Mugendai(無限大)よりぜひ続きをお楽しみください。

Source: Mugendai(無限大)