研究テーマの紹介
李研では、音声認識を基盤として、言語処理・音声対話を中心として理論から実践まで様々なトピックをミックスして幅広い研究を行っています。以下は研究分野の一例です。
- 音声認識
- 音声対話システム
- 自然言語処理
- 会話型音声インタフェース
- 音声インタラクション
- 音声対話コンテンツとメディア
以下、それぞれの研究内容について概要と研究テーマの例を紹介します。
音声認識アルゴリズムとアーキテクチャ
人間の音声をテキストに書き下す自動音声認識は、音声メディア処理の基礎となる重要な技術です。信号処理から言語処理、発話理解まで、さまざまな情報処理技術を統合して作られています。李研では長年、統計モデルおよび機械学習に基づく音声認識に関する研究を重ねています。
音声認識アルゴリズム
音声認識では、音声や言語の大量の統計モデルを駆動しながらリアルタイム・低遅延な処理を行うことが求められます。研究室では、特にエッジデバイスからクラウド環境まで、多様な環境・デバイス・タスクで動作する音声認識ソフトウェアに関する実践的な研究を行っています。
音声操作インタフェース (Voice User Interface)
リアルタイム操作のための音声インタフェースでは、少量の応答の遅延でもUI全体としては大きな問題となる。発話終了後ただちに、あるいは発話終了する前に認識結果を確定させる手法等により、リズムよくレスポンスを行えるリアルタイム音声認識アルゴリズムの研究を行っている。
音声発話分類問題
人の音声信号に内在する様々な情報を抽出し、分類を行う手法の研究。具体的には、第二言語学習者のための言語習熟度判別、講演における発話スタイルの推定、音声感情分類、会話のセンチメント分析、話者交代検出とその応用など。
音環境理解
日常の生活に含まれる様々な音響イベント・音響シーンの自動分類および識別に関する研究。
音声対話システム
機械に音声で話しかけ、音声で返事を受け取る音声対話システムに関する研究を行っています。人間のような知的な対話を実現するには、音声認識および音声合成だけでなく、発話理解や対話管理などさまざまな知的処理が必要です。当研究室ではモデル、設計、あるいは実際のシステム運用に関する研究に取り組んでいます。
モバイル対話システム
いつでもどこでも対話できる、モバイル環境における対話システムの構築や、社会実装に関する研究。
統計的音声対話
対話シナリオの自動補完や少量のタスクデータからのシステム構築、タスク適応、自動シナリオ拡張など、データに基づく統計的音声対話のモデリングに関する研究。
特に、対話におけるユーザの発話の理解および対話の流れの把握を統合した対話状態追跡(Dialog State Tracking; DST)について、ニューラルベースの DST システムの改善やモバイル化等の研究を行っています。
マルチモーダル音声対話システム
実環境における対話システムは、ユーザのコンテキストをよく把握する必要がある。音声だけでなく、ユーザ自身の振る舞いや周囲環境からコンテキストを把握し適切な応答を行う、マルチモーダルな対話システムに関する研究。
言語制約を緩めた応答選択
多くの音声対話システムでは、まず音声を認識してテキストに変換してからテキストベースの対話システムに投入する手法がよく用いられるが、テキストを中間表現とすることで声に含まれるノンバーバルな情報等のロスが生じる。そこで、音素レベル、senone レベル、あるいはフレームレベルの音響情報を直接用いて対話応答選択を行う研究を行っている。
対話の評価とセンチメント分析
ある人と会話したあと、その会話の価値を単純に数値化することはできるだろうか。検索や質問といった対話の目的が達成されるかどうか、が一次的な評価となるが、そのような客観的な尺度だけでなく、会話後の心地よさや安心感といった体験・経験的な尺度も実際には重要な要素となる。研究室では様々な対話システムや音声インタフェースにおける評価尺度の研究に関わっている。近年はその一環として、対話において変遷するユーザのセンチメント(システムに関する態度・感情)を会話内容から分析する研究を行っている。
自然言語処理
2017年度よりNNベースの自然言語処理に基づく end-to-end 音声対話・応答文生成の研究を行っています。DSTC等の国際コンペにも参加しています。
話題の自然な遷移を行うE2E対話文
E2E対話における小規模コーパスからの発話スタイル強調
発話の個人性のモデル化
複数人会話における応答文選択
頑健なNNベースの発話意味抽出・対話状態追跡
会話型音声インタフェース
機械を音声で操作する音声インタフェースは、既存のキーボードやマウス、タッチに変わる次世代の主要インタフェースとなる可能性を持っています。我々は簡単なやりとりを、まるで人に話すように誰でも自然に行える対話的音声インタフェースの研究を行っています。
音声インタフェースのユーザビリティ評価
ユーザの心理負荷や認知負荷を含めた、音声インタフェースのユーザビリティに関する研究。音声インタフェースにおける対話性認知 、機械を話せる相手と感じて自然に話せるようになるための「対話性認知」をユーザに獲得させるための技法やデザイン、評価尺度に関する研究。
マルチエージェントインタフェース
扱う複数のタスクに合わせて複数の対話エージェントを同時に提示するマルチエージェントインタフェースに関する研究。
音声インタラクション
主に人型エージェントとの会話におけるバリアを低減するための研究。対話性認知や会話のアフォーダンス、情動の役割等、主に認知的側面からのアプローチを工学的に分析・評価するものです。パラ言語的な側面や認知科学的側面、インタラクションの側面などから基礎的な研究を行っています。
音声対話のアフォーダンス
万人が機械に向かってごく自然に話しかけられるようにするために、音声対話システム・音声インタフェースが表出すべき「音声入力のアフォーダンス」「会話のアフォーダンス」の解明に関する研究
人を引き込む音声対話システム
人の状態やプロパティを推定し、同調する人にやさしい音声対話システムに関する研究
音声対話コンテンツと社会メディア
対話的音声インタフェースや音声対話システムが幅広く実用化される近未来では、スマートフォンやOS、車のようにさまざまなデザイン(発話様式、性格)の対話機械をユーザが自由に選ぶことができるようになると予想されます。そのとき、対話の内容や受け答えの内容、見た目のデザインなどの要素は徐々に技術そのものから切り離され、社会において生成・消費される「コンテンツ」として独立していくことになるでしょう。本研究室では、そのような音声対話システムの中身、すなわち音声認識用辞書や音声合成用声モデル、対話管理部等を「音声対話コンテンツ」と定義し、その性質や成り立ちについて、基礎的な検討から実際にコンテンツ収集システムを作成したデータ収集実験まで幅広く研究しています。
音声対話システムのコンテンツ化
音声対話の要素をシステムから独立したコンテンツとして扱うための基盤設計に関する研究。試験実装としてのオープンソースツールキット MMDAgent の開発。
音声対話コンテンツの構造と流通
音声対話コンテンツが自由に流通・流用・改変されるようになるための要素定義やコンテンツ構造、記述方法に関する研究
音声対話クリエイションツール
クリエイターが自由に音声対話コンテンツを構築するためのツール設計および構築。
ユーザ生成型音声対話システム
YouTubeやWikipediaのようなユーザ生成型のコンテンツとして音声対話コンテンツを成立させることを目指す研究。ユーザ側の動機、インセンティブ、実証実験など。
CG キャラクター対話
近年の社会変化の一つに、VTuber に代表されるように、画面上のCGキャラクターや仮想の存在との対話・会話が、人間社会において広く受け入れられ浸透しつつあることがある。本研究室では、特にアニメーションキャラクターのような抽象的な CG キャラクターとの対話システムについて対象を絞った研究を開始しています。特に、これまで研究されてきたCGキャラクターを持つ音声対話システムに、そのキャラクターをいわゆる「アバター」として人が遠隔操作するモードを併用し必要に応じてユーザが意識することなく切り替えられるようにすることで、自律音声対話システムの壁を超える、新たな対話システムの研究を行っています。
自律・遠隔融合型対話エージェントにおける対話性認知
自律・遠隔融合型対話エージェントシステムにおいては、ユーザから見たキャラクター認知(いったい「誰が」しゃべっていると認知されるか)の一貫性について適切なデザイン設計が必要となる。遠隔アバターシステムは、操作者の個人性を声や動きで伝えることで「そのアバターと話している」ではなく「奥にいる操作者と話している」という感覚を与えることが重要である。このため、汎用のアバターはキャラクター性を排除したニュートラルな存在であることが望ましい。一方で、自律音声対話システムとしては人格(キャラクター)が排除されたニュートラルな存在と自然に会話することは人間には難しく、何らかのキャラクター表出が実質的に必要である。また、これらのキャラクター性の整合性を取るためには話者やキャラクターに適合させる音声合成や声質変換の技術が必要である。
また、この問題はそもそも、我々が遠隔操作CGアバターを見るとき、それを「CGキャラクター」として見ているのか、それともキャラクターの動きを通じて「中の人」を見ているのか、という問題とも関連する。いわゆる VTuber における事例をもとに、自律・遠隔融合型対話エージェントにおけるキャラクターデザインおよび対話性認知の諸相について明らかにしていく。
CGキャラクターエージェントとの対話における認知問題
人間がCGキャラクターに対して「自然に、円滑に、持続的に会話を行える相手である」という認知(対話性認知)を容易に獲得するためのCG特有のデザイン要件および対話制御について研究する。また、遠隔操作付き対話システムにおける会話対象認知の諸相に実験的に取り組んでいく。
CGキャラクター特有の対話ふるまいの自動生成・変換
CG特有の誇張や強調を含む会話における言葉・声・動きのモデル化に関する研究。CG特有のふるまいを含む対話エージェントのふるまいをテキストから生成する研究や、遠隔操作において人間の通常の動きをCGキャラクター特有のふるまいに自動変換する仕組みを研究する。CG特有のふるまいについては、現代社会において受けいられつつあるCGキャラクターとの会話・インタラクションの実例として、いわゆる VTuber と呼ばれる方たちの様式を参考に、データドリブンなモデル化を目指す。