THETAと全方位マイクを組み合わせたアプリを作りました


こんにちは。インフォコム技術企画室のo2です。

今回、RICOH THETA x IoT デベロッパーズコンテストに応募しました。
ここでは応募したアプリケーション(以下、聖徳玉子)の説明やダウンロードについて掲載します。

このブログの対象

  • 聖徳玉子に興味のある方
  • 聖徳玉子のソフトをダウンロードする方

logo.png


ページ下部に記載の免責事項をご承諾の方のみご利用することができます。
ダウンロードした時点で承諾したものとみなします。
聖徳玉子ユーザーマニュアル(PDF)

技術企画室の取り組みについて

技術企画室では、VR/ARをはじめとした新しいユーザー体験を調査、研究をしており、
最近では、interop併設のアプリジャパンに「360°リモート空間体験」を出展しました。これは、THETA SとHMDを使い3Dサウンドを実現したシステムです。(参考資料)

その次の取り組みとして、今回「RICOH THETA x IoT デベロッパーズコンテスト」に応募致しました。

アプリケーションの説明

聖徳玉子では、音声センサーを使った方向の検出と、360度カメラを組み合わせることで、新たな価値を創出しました。

どのようなことが可能になるかと言いますと、360度の映像と発話者の方位をWebRTCを介して中継することで、中継先では発話者に照準を合わせることが出来ます。

360度の映像には「THETA S」、方位は「たまご型マイクアレイ」の集音を「HARK」(ロボット聴覚システム)で音源定位しています。

「聖徳玉子」という名前ですが、アプリケーションでは複数の音を同時に処理が可能な点と、たまご型マイクアレイの独特なフォルムからそのように名付けました。

kousei.png

上の画像では1対多での会議イメージになります。
THETA Sとマイクアレイをもう1セット用意することで多対多での利用も可能です。

HARKとは?

日本にはロボット聴覚に関して先進的な研究があります。
音源定位・音源分離・音声認識の3つを主軸とした研究です。
2008年にはオープンソースHARK(HRI-JP Audition for Robots with Kyoto Univ)として公開され、現在も研究成果が反映され発展を続けています。
※ HRI-JP(ホンダ・リサーチ・インスティチュート・ジャパン )

HARKのライセンスについて

HARKのライセンスはHARK Licenceとなっており、研究用途でのみ無償公開となります。
HARKはホンダと京都大学との共同研究、共有資産と記載されておりますが、昨年ホンダが権利を買い取り、現在はホンダが全権利を有しているそうです。
弊社では今回のコンテストにあたり、HRI-JPに研究用途であり、商用でない旨の了承を得ての応募としております。
HRI-JPに問い合わせの際ですが、現在公開しているライセンスは最新ではないと伺っており、今後ライセンスに何かしらの調整を行うそうです。(現在: 2016/08/22)

HARKの音源定位

今回の聖徳玉子ではHARKの音源定位技術を利用しています。
HARKの設定はブラウザから「HARK Designer」を利用して行います。
「HARK Designer」はHARKのデータフローを表すネットワークを作成するためのGUIです。

harkDesiger.png

harkDesigerMain.png


「HARK Designer」で作成した内容は、ネットワークファイル(拡張子.n)として保存されます。
ネットワークファイルはXMLで記述されており、内容の変更も容易です。
また、ネットワークファイルをbatchflowコマンドに渡すことで、直接処理の実行ができます。
今回アプリケーションに同梱している「LocalizationTamago.n」がネットワークファイルにあたります。

HARKの利用にはマイクアレイが必要

音源定位を行うために、複数のマイクが必要となります。
HARKでは多用なマルチチャネルA/D装置のサポートを行っており、
今回は、システムインフロンティアのたまご型マイクアレイ(TAMAGO-01)を利用しました。

tamago.png

たまご型マイクアレイは8chのマイクで全方位を捉えることができます。
また、HARKではKinect(4ch 方位180度)の利用も可能で、初期の評価では技術企画室でもKinectを利用していました。
ただ、設定の問題か解りませんが、たまご型マイクアレイの方が精度はよかったです。

WebRTCとは?

ブラウザ同士で双方向のメディア/データ通信を行うAPIです。
詳しくは、本ブログの

を参照ください。

やり残したこと

課題として、音源から発話しているかを評価した場合、人以外の音まで拾います。
映像認識の利用や、音声の判断に人工知能を利用する手法等に今後は取り組んでいきたいと考えております。

聖徳玉子免責事項

MITライセンスです。
下記の免責事項をご承諾の方のみご利用することができます。
ダウンロードした時点で承諾したものとみなします。

以下に定める条件に従い、本ソフトウェアおよび関連文書のファイル(以下「ソフトウェア」)の複製を取得するすべての人に対し、ソフトウェアを無制限に扱うことを無償で許可します。これには、ソフトウェアの複製を使用、複写、変更、結合、掲載、頒布、サブライセンス、および/または販売する権利、およびソフトウェアを提供する相手に同じことを許可する権利も無制限に含まれます。

上記の著作権表示および本許諾表示を、ソフトウェアのすべての複製または重要な部分に記載するものとします。

ソフトウェアは「現状のまま」で、明示であるか暗黙であるかを問わず、何らの保証もなく提供されます。ここでいう保証とは、商品性、特定の目的への適合性、および権利非侵害についての保証も含みますが、それに限定されるものではありません。 作者または著作権者は、契約行為、不法行為、またはそれ以外であろうと、ソフトウェアに起因または関連し、あるいはソフトウェアの使用またはその他の扱いによって生じる一切の請求、損害、その他の義務について何らの責任も負わないものとします。

Copyright 2016 © INFOCOM CORPORATION All rights reserved.
Released under the MIT license

アプリケーションの導入について詳しくは聖徳玉子ユーザーマニュアル(PDF)をお読みください。

THETAと全方位マイクを組み合わせたアプリを作りました


こんにちは。インフォコム技術企画室のo2です。

今回、RICOH THETA x IoT デベロッパーズコンテストに応募しました。
ここでは応募したアプリケーション(以下、聖徳玉子)の説明やダウンロードについて掲載します。

このブログの対象

  • 聖徳玉子に興味のある方
  • 聖徳玉子のソフトをダウンロードする方

logo.png


ページ下部に記載の免責事項をご承諾の方のみご利用することができます。
ダウンロードした時点で承諾したものとみなします。
聖徳玉子ユーザーマニュアル(PDF)

技術企画室の取り組みについて

技術企画室では、VR/ARをはじめとした新しいユーザー体験を調査、研究をしており、
最近では、interop併設のアプリジャパンに「360°リモート空間体験」を出展しました。これは、THETA SとHMDを使い3Dサウンドを実現したシステムです。(参考資料)

その次の取り組みとして、今回「RICOH THETA x IoT デベロッパーズコンテスト」に応募致しました。

アプリケーションの説明

聖徳玉子では、音声センサーを使った方向の検出と、360度カメラを組み合わせることで、新たな価値を創出しました。

どのようなことが可能になるかと言いますと、360度の映像と発話者の方位をWebRTCを介して中継することで、中継先では発話者に照準を合わせることが出来ます。

360度の映像には「THETA S」、方位は「たまご型マイクアレイ」の集音を「HARK」(ロボット聴覚システム)で音源定位しています。

「聖徳玉子」という名前ですが、アプリケーションでは複数の音を同時に処理が可能な点と、たまご型マイクアレイの独特なフォルムからそのように名付けました。

kousei.png

上の画像では1対多での会議イメージになります。
THETA Sとマイクアレイをもう1セット用意することで多対多での利用も可能です。

HARKとは?

日本にはロボット聴覚に関して先進的な研究があります。
音源定位・音源分離・音声認識の3つを主軸とした研究です。
2008年にはオープンソースHARK(HRI-JP Audition for Robots with Kyoto Univ)として公開され、現在も研究成果が反映され発展を続けています。
※ HRI-JP(ホンダ・リサーチ・インスティチュート・ジャパン )

HARKのライセンスについて

HARKのライセンスはHARK Licenceとなっており、研究用途でのみ無償公開となります。
HARKはホンダと京都大学との共同研究、共有資産と記載されておりますが、昨年ホンダが権利を買い取り、現在はホンダが全権利を有しているそうです。
弊社では今回のコンテストにあたり、HRI-JPに研究用途であり、商用でない旨の了承を得ての応募としております。
HRI-JPに問い合わせの際ですが、現在公開しているライセンスは最新ではないと伺っており、今後ライセンスに何かしらの調整を行うそうです。(現在: 2016/08/22)

HARKの音源定位

今回の聖徳玉子ではHARKの音源定位技術を利用しています。
HARKの設定はブラウザから「HARK Designer」を利用して行います。
「HARK Designer」はHARKのデータフローを表すネットワークを作成するためのGUIです。

harkDesiger.png

harkDesigerMain.png


「HARK Designer」で作成した内容は、ネットワークファイル(拡張子.n)として保存されます。
ネットワークファイルはXMLで記述されており、内容の変更も容易です。
また、ネットワークファイルをbatchflowコマンドに渡すことで、直接処理の実行ができます。
今回アプリケーションに同梱している「LocalizationTamago.n」がネットワークファイルにあたります。

HARKの利用にはマイクアレイが必要

音源定位を行うために、複数のマイクが必要となります。
HARKでは多用なマルチチャネルA/D装置のサポートを行っており、
今回は、システムインフロンティアのたまご型マイクアレイ(TAMAGO-01)を利用しました。

tamago.png

たまご型マイクアレイは8chのマイクで全方位を捉えることができます。
また、HARKではKinect(4ch 方位180度)の利用も可能で、初期の評価では技術企画室でもKinectを利用していました。
ただ、設定の問題か解りませんが、たまご型マイクアレイの方が精度はよかったです。

WebRTCとは?

ブラウザ同士で双方向のメディア/データ通信を行うAPIです。
詳しくは、本ブログの

を参照ください。

やり残したこと

課題として、音源から発話しているかを評価した場合、人以外の音まで拾います。
映像認識の利用や、音声の判断に人工知能を利用する手法等に今後は取り組んでいきたいと考えております。

聖徳玉子免責事項

MITライセンスです。
下記の免責事項をご承諾の方のみご利用することができます。
ダウンロードした時点で承諾したものとみなします。

以下に定める条件に従い、本ソフトウェアおよび関連文書のファイル(以下「ソフトウェア」)の複製を取得するすべての人に対し、ソフトウェアを無制限に扱うことを無償で許可します。これには、ソフトウェアの複製を使用、複写、変更、結合、掲載、頒布、サブライセンス、および/または販売する権利、およびソフトウェアを提供する相手に同じことを許可する権利も無制限に含まれます。

上記の著作権表示および本許諾表示を、ソフトウェアのすべての複製または重要な部分に記載するものとします。

ソフトウェアは「現状のまま」で、明示であるか暗黙であるかを問わず、何らの保証もなく提供されます。ここでいう保証とは、商品性、特定の目的への適合性、および権利非侵害についての保証も含みますが、それに限定されるものではありません。 作者または著作権者は、契約行為、不法行為、またはそれ以外であろうと、ソフトウェアに起因または関連し、あるいはソフトウェアの使用またはその他の扱いによって生じる一切の請求、損害、その他の義務について何らの責任も負わないものとします。

Copyright 2016 © INFOCOM CORPORATION All rights reserved.
Released under the MIT license

アプリケーションの導入について詳しくは聖徳玉子ユーザーマニュアル(PDF)をお読みください。

コメントする