音声データから発話者の年齢と性別の判定を

実装できるソースコードなどを色々教えてください。

回答の条件
  • URL必須
  • 1人3回まで
  • 登録:
  • 終了:2016/11/18 14:25:04
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:dev2 No.1

回答回数67ベストアンサー獲得回数26

ポイント50pt

音声データから発話者の年齢と性別の判定


自分の声を認識するには「フォルマント」の影響が大きい - 首都大 | マイナビニュース

男女で発声のフォルマント分布が異なるので、それを認識することで判定可能です。ただし、変声期前の子供は性差が小さくて判別が難しい、複数人の同時発音や環境からの雑音に弱いなど、限界もあるので過度に期待しないでください。スキャナで画像を文字認識するときに、誤字脱字がポロポロ出るのと同じようなことです。

そもそも、フォルマントっていうのが何かという話ですが、ここでは簡単に音声波形の特徴くらいに考えてください。フーリエ解析などの手法で抽出しますので、数学的な知識が必要です。このフーリエ解析は、三角関数や微積分の延長線上なので、そう簡単でもありませんが、極端に難解でもありません。



実装できるソースコードなど


具体的な実装方法は、音声認識の書籍を参考にしてください。Amazonなどで「音声認識」と検索すれば、すぐ見つけられると思います。

ここでは参考に、ライブラリやAPIを貼っておきます。今回、直接に求めている方向性とは少し違うかもしれませんが、なんせマイクロソフトやグーグルが出しているものなので、どこかで使い出はあると思います。

その他の回答1件)

id:dev2 No.1

回答回数67ベストアンサー獲得回数26ここでベストアンサー

ポイント50pt

音声データから発話者の年齢と性別の判定


自分の声を認識するには「フォルマント」の影響が大きい - 首都大 | マイナビニュース

男女で発声のフォルマント分布が異なるので、それを認識することで判定可能です。ただし、変声期前の子供は性差が小さくて判別が難しい、複数人の同時発音や環境からの雑音に弱いなど、限界もあるので過度に期待しないでください。スキャナで画像を文字認識するときに、誤字脱字がポロポロ出るのと同じようなことです。

そもそも、フォルマントっていうのが何かという話ですが、ここでは簡単に音声波形の特徴くらいに考えてください。フーリエ解析などの手法で抽出しますので、数学的な知識が必要です。このフーリエ解析は、三角関数や微積分の延長線上なので、そう簡単でもありませんが、極端に難解でもありません。



実装できるソースコードなど


具体的な実装方法は、音声認識の書籍を参考にしてください。Amazonなどで「音声認識」と検索すれば、すぐ見つけられると思います。

ここでは参考に、ライブラリやAPIを貼っておきます。今回、直接に求めている方向性とは少し違うかもしれませんが、なんせマイクロソフトやグーグルが出しているものなので、どこかで使い出はあると思います。

id:disillusionist No.2

回答回数40ベストアンサー獲得回数17

ポイント50pt

こんな例があったので参考にしてみたらどうでしょう。
http://www.petrsebek.cz/2014/05/age-and-gender-speech-recognition.html
https://github.com/Artimi/stws2014

こういったライブラリも前処理に使えそうな気がします。
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0144610

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません