「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

    2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

    音声をリアルタイムで文字変換してくれる、Googleのアプリ。この文章は、太宰治の「人間失格」を筆者が音読しているものなんですけれど……。

    音声文字変換(Live Transcribe)は、聴覚障害の方がコミュニケーションをとりやすくするために、Googleがギャローデット大学の協力のもと開発したAndroidの無料アプリです。


    特筆すべきは、入力した文字が文脈を読み込んで修正されるところ。

    「来の→この」、「動画の→道化の」、「一閃→一線」、「対応→体重→絶えず」「LINE→内診→内心」と、話者が気が付かない速度で修正されています。

    6月のアップデートでコピーアンドペーストができるようになり、文字起こしアプリとしても使いやすくなりました。

    ますます便利になる音声文字変換。一体どういう仕組みを使っているのか。これからどんな機能向上が見込めるのか。

    来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞きました。

    AIで人の話と環境音を切り分ける

    音声文字認識は、音をスピーチか環境音かを判断します。前者の場合は 同社のクラウド上のシステムに飛ばされ、後者はデバイス上で「これは犬の鳴き声」「これは笑い声」と認識され、文字変換されないようにします。

    ■周辺音の機会学習はYouTubeから

    左下に「ノックの音」というアノテーション(注釈)が出るようになりました。これは、GoogleのAudio Setという、YouTube上で公に利用可能な動画から環境音を切り出したサウンドクリップを活用しています。

    Audio Setでは210万の動画の環境音を632種類に分類し、アノテーションをつけています。この膨大なデータの中から、音声文字変換では「風の音」「ノックの音」「音楽」「犬の鳴き声」など、60個の分類を採用。

    視覚で環境の音を示せば、耳が聞こえづらい人でも安心して会話が楽しめるようになります。

    ■文脈で文字を修正するのはクラウド上で

    スピーチと判断された音は Google Cloud Speech APIで文字変換されます。プライバシーの面が不安になりますが、ブライアン氏によると、人の会話音声はクラウド上には残らないとのこと。音を文字に変換した時点で消えてしまうそうです。

    「人の会話なセンシティブな情報なので、デバイスにもクラウドにも保管しません」

    音声文字認識は、録音機能はついておらず、音声を文字化するだけ

    「この機能は聴覚障害を持つ方と会話を楽しむものです。話している内容が録音されていると思うと、自然な会話はできませんよね。機械学習の精度を上げるためにGoogleが行っているのは、アルゴリズムの改善です。既存のデータで機械学習のクオリティを上げているんです」

    「使う技術は異なりますが、今後、デバイス上で音声文字変換が可能になり、すべての動画に字幕がつくLive Captionという新機能(英語)が登場します」

    Googleでも試行錯誤するUI。ボツになった案。これから対応したい案

    音声文字変換の開発では、聴覚障害を持つ方のユーザーテストが欠かせません。Google社内でも、突発性難聴を持ったメンバーがアサインされ、機能向上に務めています。ユーザーテストの結果、ボツになったのが「信頼度」の表示です。

    当初は、文字を書き起こす時に信頼度に応じて色付けする予定だったといいます。上の画像で言うと、黄色は高、緑色は中、青色は低信頼度。白は信頼度の計算を待っている状態。

    「自分たちは良いと思っていたのですが、ユーザーに見てもらったところ、不評でして……。会話中に色が変わると、気が散ってしまうんですね。そこで、このアプリではテキストをわかりやすく表示することを優先しました」

    「ダークテーマを採用し、バッテリー消費を減らしました。当初は白い背景に黒い文字を表示していたのですが、このアプリは会話中ずっと起動している必要があるため、消費電力は節約した方がいいんです。勿論、白い背景に変更することも可能です」

    現在、実装を目指しているのは、話者によって表示を変更する機能。「最も多くのリクエストを頂いている機能ですが、かなりの技術を要します。信号処理、機械学習、マイクの出入力を変えるとか。実装に向けて日々模索しているところです」

    Googleの音声文字変換はこんな感じ。文脈を判断して修正するのがすごい。

    さて、他のGoogle製アプリのようにiOS版のリリースはあるのでしょうか?

    「Google Speech APIはオープンなものですし、Audio Setもまた同様です。より多くの人に届けるには、世界的にもよく使われているAndroidでの開発を優先しました」