制作ソフトウェア

当研究室では研究成果の一部をオープンソース・ソフトウェアとして制作し、他の研究機関との協力のもと無償で公開しています。これらは研究基盤ソフトウェアとして国内外の多くの研究者に利用されています。以下、現在も公開され入手できるソフトウェアを紹介します。

汎用大語彙連続音声認識エンジン Julius

Julius” は,音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンです.数万語彙の連続音声認識を一般のPC上で実時間で実行できます.高い汎用性を持ち,発音辞書や言語モデル・音響モデルなどのモジュールを組み替えることで,様々な幅広い用途に応用できます.機能はライブラリで提供されており,アプリケーションへの組み込みも可能です.

コンパクトで汎用性の高い音声認識エンジンとして国外を含め多くの研究機関や企業で利用されており,特に国内の大学では事実上のデファクトスタンダードとなっています.1996年の公開以来、これまでに41万件以上のダウンロードと600万近いページビューが行われています.

ホームページ ではソフトウェアの説明,キットの配布,およびチュートリアルやマニュアルを掲載しています。最新の開発中のコードは現在も GitHub にて随時公開しています。

対話エージェント実験プラットフォーム MMDAgent-EX

MMDAgent-EX は MMDAgent を拡張したモバイル対話エージェントアプリケーションです。Windows, MacOS, Linux のデスクトップOSだけでなく、iOS, Android アプリでも、全ての環境で同一の音声対話コンテンツが端末上で完全に動作します。当アプリは MMDAgent の上位互換であり、Webを通じて個人が作成した対話コンテンツを配信する仕組みを持つほか、ログデータ収集・コンテンツ保護・PMXモデルへの対応といった様々な拡張を含んでいます。クラウド環境における音声対話インタラクションの研究、データ収集、会話エージェントの創作のために 2019 年にベータ版が作成・公開されました。

ホームページ からアプリが入手可能です。ドキュメント のページでは全ての仕様が公開されています。

音声インタラクション構築ツールキット MMDAgent

MMDAgent は,音声インタラクションや音声対話システムを構築するための基盤ツールキットです.最先端の音声認識,音声合成技術を高度に統合しており,高速・軽量で高精度な会話を実現できます.3D-CGによるレンダリングモジュールは既存のCGソフトウェアと互換性を持っており,対話スクリプトと組み合わせて表情豊かなインタラクションを作りこむことができます.音声からレンダリングまで全てのモジュールを含めてオープンソースで公開されており,Windows/MacOS/Linux/Android で動作します.メッセージによるシンプルなモジュール統合で扱いやすく,プラグインを追加することで機能の拡張が容易に行なえます.2011年に CEATEC で発表・公開して以来、多くの研究者や一般ユーザに利用されているほか、このソフトウェアを軸に CREST のプロジェクトが立ち上がるなど、大きな影響を及ぼしています。

対話シナリオビルダー HELEN

HELEN は、MMDAgentの対話シナリオファイル(fstファイル)を編集するための Atom エディタ用拡張パッケージです.HELENでは主に以下の3つの機能を利用することができます.

  • fstファイル編集の補助(対話フローのグラフ表示、認識辞書の自動チェック等)
  • MMDAgent のリアルタイムデバッグ(状態遷移をリアルタイム可視化、任意メッセージの送信)
  • 動作ログによるフィードバック(MMDAgent の動作ログ → 解析 → 対話シナリオにフィードバック表示)

本ソフトウェアは当研究室のメンバーの研究成果として2018年に開発・公開されたものです。 GitHub のサイト から入手可能です。

正門メイちゃん

正門メイちゃんは名古屋工業大学の正門前に設置された,全天候型屋外大型音声情報案内デジタルサイネージです。MMDAgentをベースとした独自システムで、音声で大学のキャンパス案内や掲示物の案内をインタラクティブに行えます。名工大の公式サイトに公式ページもあり、2011年の設置以来、現在も学内外で多くの人に親しまれ、活用されています。

エージェントキャラクターのメイは当研究室と徳田研究室との共同開発で生まれたキャラクターです。現在は男性エージェントのタクミくんも加わり、メイ&タクミ として大学の顔として活躍しています。名工大へお立ち寄りの際はぜひご利用下さい。