ソフトウェア

当研究室では研究成果の一部をオープンソース・ソフトウェアとして制作し、他の研究機関との協力のもと研究開発の基盤ソフトウェアとして無償で公開しています。以下、研究室で開発されているソフトウェアを紹介します。

MMDAgent-EX

MMDAgent-EX は 音声対話システム・アバターコミュニケーションのオープンソース研究開発プラットフォームです。高精細な CG キャラクターの表示と細やかな制御が可能で、音声認識や音声合成、自然言語処理を組み合わせたエージェントインタラクションシステムを自在に構築できます。様々なモジュールを容易に追加可能であるほか、動作コマンドや音声データを外部からネットワーク経由で送り込むことで外部から制御することもできます。Windows, macOS, Linux で動作し、軽量でノートPCでも滑らかに動く本システムは、AI対話、身体インタラクション、マルチモーダル会話、遠隔操作アバターなど、人型キャラクターをインタフェースとするさまざまなシステムの開発基盤として機能します。

MMDAgent-EX は MMDAgent の後継版であり、対応フォーマット拡張、ネットワーク対応、UIの整備、外部からのマニピュレーション機能、マルチOS対応などの拡張が行われており、現在も精力的に開発が進んでいます。特に、2020年12月より ムーンショット型研究開発事業「アバター共生社会」において、CGキャラクターを介して会話するCGアバターコミュニケーションのプラットフォームとしても研究開発が進められています。

本システムは利用可能なCGアバターとともにGitHub で公開されています。また公式サイトにはチュートリアル・使い方などの解説と、コマンドや仕様の技術文書があります。

Julius

Julius” は 音声認識システムの開発・研究のためのオープンソースの汎用大語彙連続音声認識エンジンです.C言語で書かれたこのシステムは、数万語彙の連続音声認識を一般のPC上で実時間で実行できる効率の高いアルゴリズムが特徴で、他のツールで作成された発音辞書や言語モデル・音響モデルを組み替えることが容易です。

Julius は京都大学河原研にて、当研究室PIである 李 が学生時代に開発した音声認識ソフトウェアです。1996 年に最初のバージョンが公開されて以来、京大と名工大で約30年に渡りメンテナンスと開発が行われてきました。コンパクトで汎用性が高くオープンソースで動作する大語彙連続音声認識エンジンとして、国外を含め多くの研究機関や企業で広く利用されてきました。これまでに100万件近いダウンロードと1000万近いページビューを集めています。現在はメインの開発は行われておらず、メンテナンスのみ行われていますが、end-to-end アプローチ以前の小型・軽量な音声認識システムのリファレンスとして公開を続けています。

ホームページ ではソフトウェアの説明,キットの配布,およびチュートリアルやマニュアルを掲載しています。最新の開発中のコードは現在も GitHub にて公開しています。

MMDAgent

MMDAgent は MMDAgent-EX の前身であり、音声インタラクションや音声対話システムを構築するための基盤ツールキットです.音声認識,音声合成エンジンを統合して提供しており,高速・軽量な会話を実現できます.3D-CGによるレンダリングモジュールは既存のCGソフトウェアと互換性を持っており,対話スクリプトと組み合わせて表情豊かなインタラクションを作りこむことができます.システムはオープンソースで公開されており,Windows/MacOS/Linux/Android で動作します.メッセージによるシンプルなモジュール統合で扱いやすく,プラグインを追加することで機能の拡張が容易に行なえます.2011年に CEATEC で発表・公開して以来、対話やインタラクションの研究や一般ユーザに利用されています。

HELEN

HELEN は、MMDAgentの対話シナリオファイル(fstファイル)を編集するための Atom エディタ用拡張パッケージです.HELENでは主に以下の3つの機能を利用することができます.

  • fstファイル編集の補助(対話フローのグラフ表示、認識辞書の自動チェック等)
  • MMDAgent のリアルタイムデバッグ(状態遷移をリアルタイム可視化、任意メッセージの送信)
  • 動作ログによるフィードバック(MMDAgent の動作ログ → 解析 → 対話シナリオにフィードバック表示)

本ソフトウェアは当研究室のメンバーの研究成果として2018年に開発・公開されたものです。 GitHub のサイト から入手可能です。

正門メイ&タクミ (2011.4~2022.9)

(↑ 2022/9 サービス終了直前の最後の写真)

正門メイ&タクミは名古屋工業大学の正門前に設置された、音声で大学のキャンパス案内や掲示物の案内をインタラクティブに行える全天候型屋外大型音声情報案内デジタルサイネージです。李研・徳田研・山本研の共同で開発された本システムは、学内サービスから学生や事務方が掲示物を掲示したり、背景画像が公開で募集される等、大学として教員・学生・事務の協力のもと運営されていました。名工大の公式サイトに公式ページがあります。

正門メイ&タクミは 2011 年に設置されて以来、大学の顔として内外の多くの人々に親しまれておりましたが、新型コロナの影響もあり、2022年9月にサービス終了となりました。11年半の運用は関連研究室における研究開発の基盤となったほか、CRESTやムーンショット等の研究プロジェクトにも繋がりました。