THETAと全方位マイクを組み合わせたアプリを作りました

WebRTC
2016/08/30

こんにちは。インフォコム技術企画室のo2です。

今回、RICOH THETA x IoT デベロッパーズコンテストに応募しました。
ここでは応募したアプリケーション（以下、聖徳玉子）の説明やダウンロードについて掲載します。

お知らせ

2019/05/07 勝手ではありますが、アプリケーションの配布を終了しました。

このブログの対象

聖徳玉子に興味のある方

技術企画室の取り組みについて

技術企画室では、VR/ARをはじめとした新しいユーザー体験を調査、研究をしており、

最近では、interop併設のアプリジャパンに「360°リモート空間体験」を出展しました。これは、 THETA SとHMDを使い3Dサウンドを実現したシステムです。参考資料)

その次の取り組みとして、今回「RICOH THETA x IoT デベロッパーズコンテスト」に応募致しました。

アプリケーションの説明

聖徳玉子では、音声センサーを使った方向の検出と、360度カメラを組み合わせることで、新たな価値を創出しました。

どのようなことが可能になるかと言いますと、360度の映像と発話者の方位をWebRTCを介して中継することで、中継先では発話者に照準を合わせることが出来ます。

360度の映像には「THETA S」、方位は「たまご型マイクアレイ」の集音を「HARK」(ロボット聴覚システム)で音源定位しています。

「聖徳玉子」という名前ですが、アプリケーションでは複数の音を同時に処理が可能な点と、たまご型マイクアレイの独特なフォルムからそのように名付けました。

上の画像では1対多での会議イメージになります。

THETA Sとマイクアレイをもう１セット用意することで多対多での利用も可能です。

HARKとは？

日本にはロボット聴覚に関して先進的な研究があります。
音源定位・音源分離・音声認識の３つを主軸とした研究です。
2008年にはオープンソースHARK(HRI-JP Audition for Robots with Kyoto Univ)として公開され、現在も研究成果が反映され発展を続けています。
※ HRI-JP(ホンダ・リサーチ・インスティチュート・ジャパン )

HARKのライセンスについて

HARKのライセンスはHARK Licenceとなっており、研究用途でのみ無償公開となります。

HARKはホンダと京都大学との共同研究、共有資産と記載されておりますが、昨年ホンダが権利を買い取り、現在はホンダが全権利を有しているそうです。
弊社では今回のコンテストにあたり、HRI-JPに研究用途であり、商用でない旨の了承を得ての応募としております。

HRI-JPに問い合わせの際ですが、現在公開しているライセンスは最新ではないと伺っており、今後ライセンスに何かしらの調整を行うそうです。(現在: 2016/08/22)

HARKの音源定位

今回の聖徳玉子ではHARKの音源定位技術を利用しています。
HARKの設定はブラウザから「HARK Designer」を利用して行います。
「HARK Designer」はHARKのデータフローを表すネットワークを作成するためのGUIです。

「HARK Designer」で作成した内容は、ネットワークファイル(拡張子.n)として保存されます。
ネットワークファイルはXMLで記述されており、内容の変更も容易です。また、ネットワークファイルをbatchflowコマンドに渡すことで、直接処理の実行ができます。
~~今回アプリケーションに同梱している「LocalizationTamago.n」がネットワークファイルにあたります。~~

HARKの利用にはマイクアレイが必要

音源定位を行うために、複数のマイクが必要となります。
HARKでは多用なマルチチャネルA/D装置のサポートを行っており、
今回は、システムインフロンティアのたまご型マイクアレイ（TAMAGO-01）を利用しました。

たまご型マイクアレイは8chのマイクで全方位を捉えることができます。
また、HARKではKinect(4ch 方位180度)の利用も可能で、初期の評価では技術企画室でもKinectを利用していました。
ただ、設定の問題か解りませんが、たまご型マイクアレイの方が精度はよかったです。

WebRTCとは？

ブラウザ同士で双方向のメディア/データ通信を行うAPIです。
詳しくは、本ブログの

を参照ください。

やり残したこと

課題として、音源から発話しているかを評価した場合、人以外の音まで拾います。
映像認識の利用や、音声の判断に人工知能を利用する手法等に今後は取り組んでいきたいと考えております。