ソフトウェア

Amazonが400万以上の単語で構成された会話データセット「Topical Chat」を一般向けに公開する予定

by Gerd Altmann from Pixabay

AIアシスタントのAlexaなど、音声認識技術の研究開発に積極的に取り組むAmazonが、400万を超える単語で構成された音声データセットを一般向けに公開すると発表しました。

Topical Chat Dataset Helps Researchers Address Hard Challenges in Natural Conversation : Alexa Blogs
https://developer.amazon.com/blogs/alexa/tag/Alexa+Prize


Topical ChatはもともとAmazonが主催する大学生向けのコンテスト「Alexa Prize」のために開発されたもので、コンテストの出場チームはこのTopical Chatとその拡張データセットにアクセスできるようになるそうです。出場チームが本格的に開発をスタートするのが2019年9月を予定しているとのことで、Topical Chatの一般公開はその直後となる模様です。

Amazonの上級主席研究員であるDilek Hakkani-Tur氏によると、Topical Chatは410万語以上、21万以上の発言で構成されていて、その会話はAmazon Alexaのユーザーとの対話ではなくクラウドワーカーから提供されたもの。Topical Chatに収録されている会話のテーマや知識はクラウドワーカー個人が選択したものとなっていて、データセット化にあたって特に整理・構造化はされていないとのこと。

by Tumisu from Pixabay

Hakkani-Tur氏は「Topical Chatは研究コミュニティが公に利用可能なデータセットのなかでも最大の社会的会話と知識を含み、高品質で再現可能な研究発表をサポートするものです。会話中のトピックの遷移や知識の選択、事実や意見を織り交ぜていく会話など、これまでのデータセットでは解決できない『自然な会話における困難な課題』に取り組みながら、知識ベースの神経反応生成システムをさらに次のステップへ進めることができます」と述べました。

この記事のタイトルとURLをコピーする

・関連記事
AmazonとMicrosoftが音声認識AIアシスタント「Alexa」と「Cortana」でまさかの協業体勢へ - GIGAZINE

Mozillaによる18言語・1361時間にもおよぶパブリックドメインの音声データセット「Common Voice」 - GIGAZINE

リアル写真と判別不能なレベルの偽画像をAIが生成可能になるGANs向けアーキテクチャをNVIDIAが作成 - GIGAZINE

27TB以上の研究用データセットをBitTorrentで共有する「Academic Torrents」 - GIGAZINE

コンピューターが人間を超える「AI」「ディープラーニング」「機械学習」とは何かについて解説する「Machine Learning 101」 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article here.