積み重ねた苦労のおかげです。
Siri、Alexa、Googleアシスタント、LINE Clovaなど、今や数多くの音声入力装置が登場しています。時間や天気を聞く、買い物をするといったことが、ただ「声」だけでできるなんて、あらためて考えたらSFの世界ですよね。
それにしてもこの音声認識技術って、一体どのような仕組みでどう実現したものなのでしょうか。IBMのWebメディアMugendai(無限大)にて、その歴史が紹介されていました。
記事によると、同社が音声認識の研究を始めたのは、なんと1960年代から。代表的な成果の一つとして「電話会話音声認識」があり、これは音質の低い電話回線の音声を対象に、人間同士の自然な会話を認識するためのシステムなのだそう。
具体的には、入力された音声信号がどの音に対応するかをモデル化した「音響モデル」と、自然な単語の並びをモデル化した「言語モデル」の2つから成り立っているそうで、近年ではこれにディープラーニングが導入され、その精度は格段に上昇。何と、人間と同じ程度の音声認識が可能になったそうですよ。
関係機関の予測によれば、音声を使ったショッピングは現在の20億ドル(約2200億円)から、2022年には400億ドル(約4兆4000億円)以上に成長すると見込まれているそうで、もしかしたらその頃にはキーボードやスマートフォンも使っていないのかもしれませんね。
音声認識技術の歴史と現状についてご興味のある方は、Mugendai(無限大)よりぜひ続きをお楽しみください。
Source: Mugendai(無限大)