よくあるご質問 <API技術サポート>

「音声による感情認識API」の技術に関するFAQまとめです。
下記インデックス、または検索をご利用ください。

INDEX

技術サポート

技術サポート以外のよくあるご質問(総合)はこちら

全般

音声感情認識APIとは何ですか?

送信された音声データの5秒毎のsoft, rough値を解析・返却するクラウドAPIです。

アクセストークンを取得するには?

会員登録をしていただくと、マイページより発行できます。

音声ファイルについて

入力する音声は、非圧縮のものでも大丈夫ですか?

非圧縮(wav, aiff)でも可能です。詳しくはAPIの使い方/入力音声ファイル仕様をご覧ください。

認識可能なファイル形式はなんですか?

非圧縮(wav, aiff), 非可逆圧縮(aac, mp3, wma), 可逆圧縮(flac)が対応しております。

音声データ容量に上限はありますか?

10 MBまでの制限を設けております

再生時間はどのくらいの長さまで対応していますか?

再生時間の制限は設けておりませんが、タイムアウト時間5秒を超えるものは利用できません。

ノイズがひどい音声でも認識できますか?

解析は行えますが、適切な結果が得られることを保証しません。

感情認識について

感情認識率はどのぐらいですか?

利用シーンを限定することにより、70%以上の認識率を記録しています。

感情認識速度はどのぐらいですか?

導入環境により多少の差が発生する場合もありますが、SDK形式で約300ms(0.3秒)程度、API形式(クラウド)で約500ms(0.5秒)です。

どのように音声から感情を判定しているのですか?

音声自体の持つ特徴量をベースとして「音響解析型」という方法で感情を判断しています。言語や固有名詞に左右されることなく、怒鳴り声などでも感情を検知することが可能です。

どのような感情が認識できますか?

「怒り」「喜び」「平静」の3つとなります。

感情結果以外の成分も分析可能でしょうか?

本エンジンは、声帯の力み・かすれを特徴量としていますので、音声データの力みパラメータ、かすれパラメータの取得も可能です。

前もって音声のサンプルデータ(教師データ)を用意する必要はありますか?

当技術は、音声自体の持つ特徴量をベースとした「音響解析型」を採用しているため、あらかじめ音声のデータを収集したり教師データをご用意いただく必要はございません。導入後すぐにパフォーマンスを発揮します。