1.1 ロボット聴覚ソフトウエアは総合システム

人は,色々な音が聞こえる多様な環境で音を「聞き分けて」処理を行い, 人とコミュニケーションを行ったり,TV,音楽,映画などを楽しんだりしている. このような聞き分ける処理を提供するロボット聴覚機能は,実環境で 聞こえる多様な音を様々なレベルで処理するための機能を包含する必要があり, ロボットビジョンの機能と同様に一言で定義できない. 実際,オープンソース画像処理ソフトウエア OpenCV が膨大な処理モジュール の集合体であるように,ロボット聴覚ソフトウエアも最低限必要な機能を 含んだ集合体を成していることが不可欠である.

ロボット聴覚ソフトウエア HARK は『聴覚のOpenCV』を目指したシステムである. OpenCV のように「聞き分ける」ために必要なモジュールをデバイスレベルから 信号処理アルゴリズム,測定ツール,GUIまで包含するだけでなく, さらに,オープンソースとして公開をしている.

音情報を基に音環境を理解する音環境理解 (Computational Auditory Scene Analysis)研究での3つの主要課題は, 音源定位 (sound source localization),音源分離 (sound source separation), 及び,分離音声の音声認識 (automatic speech recognition) である. HARK第1版は,これらの研究の成果として開発してきた. 現在,研究用にはオープンソースとして無償公開 1を行っている.

以下,第2節でHARKの設計思想について述べ, HARKがミドルウエアとして利用している HARK middleware について概説する. 第3節でHARKのモジュール群について概説する. 第4節で今後の開発予定を述べる.

Footnotes

  1. https://www.hark.jp/