JP6915637B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6915637B2 JP6915637B2 JP2019041638A JP2019041638A JP6915637B2 JP 6915637 B2 JP6915637 B2 JP 6915637B2 JP 2019041638 A JP2019041638 A JP 2019041638A JP 2019041638 A JP2019041638 A JP 2019041638A JP 6915637 B2 JP6915637 B2 JP 6915637B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- excitement
- degree
- information processing
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 53
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000001514 detection method Methods 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 32
- 238000000034 method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 206010039740 Screaming Diseases 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000036387 respiratory rate Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.情報処理システムの構成
2.実施形態の詳細な説明
3.ハードウェア構成
4.変形例
まず、本開示の実施形態による情報処理システムの構成について、図1を参照して説明する。図1に示すように、当該情報処理システムは、サーバ10、端末20、および、通信網22を含む。
端末20は、ユーザが使用する情報処理端末である。例えば、端末20は、ユーザの発話などの音を集音したり、表示画面を表示することが可能である。
なお、図1では、端末20がスマートフォンである例を示しているが、かかる例に限定されない。例えば、端末20は、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォン以外の電話機、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばHMD(Head Mounted Display)、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。
サーバ10は、本開示における情報処理装置の一例である。サーバ10は、音声認識機能を有する。例えば、サーバ10は、通信網22を介して端末20から受信される音声データに対して音声認識(クラウド音声認識)を行うことが可能である。また、サーバ10は、音声認識結果から得られる文字列群に対して各種の言語処理を行うことが可能である。ここで、文字列群は、一以上の文字列である。
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態による情報処理システムの構成について説明した。ここで、本実施形態の特徴をより明確に示すために、本開示の比較例による音声認識の方法について説明する。本比較例は、集音された音声に対して、常に音響モデルおよび言語モデルの両方を用いて音声認識を行う。しかしながら、例えば、認識対象の音声の中に「叫ぶような発話」が含まれる場合には、本比較例では誤認識が生じる可能性が高いという問題がある。
<2−1.構成>
次に、本実施形態による構成について詳細に説明する。図3は、本実施形態によるサーバ10の構成例を示した機能ブロック図である。図3に示すように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
制御部100は、サーバ10に内蔵される、例えば、後述するCPU(Central Processing Unit)150や、後述するRAM(Random Access Memory)154などのハードウェアを用いて、サーバ10の動作を統括的に制御する。また、図3に示すように、制御部100は、興奮度特定部102、音声認識部104、および、まとめ部110を有する。また、音声認識部104は、特徴抽出部106、および、認識部108を有する。
興奮度特定部102は、本開示における取得部の一例である。興奮度特定部102は、例えば端末20から音声データが受信された場合などに、当該音声データの集音状況における興奮度を示す情報を取得する。ここで、当該音声データの集音状況は、基本的には、当該音声データの集音時の状況であるが、かかる例に限定されず、当該音声データの集音時の直前や直後の状況であってもよい。また、当該音声データは、端末20を所持するユーザの発話の音のみを含んでもよいし、例えば当該ユーザの周囲に位置する別のユーザの発話の音のみを含んでもよいし、または、当該ユーザの音声および当該別のユーザの音声の両方を含んでもよい。
ここで、当該興奮度を示す情報は、当該音声データの音の属性情報(例えば音量や、音の周波数など)を含み得る。例えば、興奮度特定部102は、当該音の音量の検出に基いて当該興奮度を特定する。例えば、興奮度特定部102は、検出された当該音の音量が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。
また、当該興奮度を示す情報は、当該音声データに関する音量やピッチの変化の程度を示す情報を含み得る。例えば、短時間において音量やピッチが急激に大きくなること(つまり、スパイクが強いこと)が検出された場合には、興奮度特定部102は、例えば該当の期間のみ、当該興奮度が第1の閾値よりも大きい値であると特定する。
また、当該興奮度を示す情報は、ユーザの過去の発話の学習結果から得られる音声の特徴と、当該音声データの特徴との差異に関する情報を含み得る。この場合、ユーザの過去の発話のデータが予め蓄積され、そして、当該ユーザの発話の音の特徴(例えば、音量と音の周波数特性との組み合わせに関する特徴など)が予め学習され得る。そして、興奮度特定部102は、当該音声データの特徴と、当該学習結果から得られる特徴とを比較することにより当該興奮度を特定する。例えば、興奮度特定部102は、当該音声データの特徴と、当該学習結果から得られる特徴との差異を示す値の絶対値が大きいほど当該興奮度がより大きくなるように、当該興奮度を特定する。つまり、該当の発話が当該ユーザの普段の発話と大きく異なると判定される場合には、当該興奮度は一定以上大きい値に設定され得る。
また、当該興奮度を示す情報は、該当の音声の発話者とは別のユーザの状態に関する情報を含み得る。ここで、別のユーザの状態に関する情報は、当該音声の集音時における、例えば、当該発話者が利用中のコンテンツ(例えばテレビジョン番組、映画、音楽など)やサービス(例えばSNS(Social Networking Service)やオンラインゲームなど)における別のユーザの盛り上がりの程度の検出結果を含み得る。なお、例えば、当該音声の集音時における、所定のサービスに参加中の別のユーザの表情(笑っているか否かなど)や笑っているユーザの人数の検出結果や、別のユーザの発話状況(発話の音量が所定の閾値よりも大きいか否かや、笑い声が検出されるか否かなど)の検出結果などに基いて、別のユーザの盛り上がりの程度は特定され得る。または、別のユーザが例えばSNSに投稿した文章の意味解析の結果に基いて、別のユーザの盛り上がりの程度が特定されてもよい。
また、当該興奮度を示す情報は、該当の音声の発話者の生体情報を含み得る。ここで、生体情報は、例えば、体温、脈拍数、呼吸速度、血圧、瞳孔(または目)の開き具合、脳波、および/または、発汗量などを含み得る。例えば、興奮度特定部102は、予め定められた、当該発話者の生体情報が示す値と興奮度との関係性に基いて当該興奮度を特定する。一例として、当該発話者の脈拍数や血圧が大きいほど当該興奮度がより大きくなるように、興奮度特定部102は、当該興奮度を特定する。また、当該発話者の瞳孔の開き具合が大きいほど当該興奮度がより大きくなるように、興奮度特定部102は、当該興奮度を特定する。
また、当該興奮度を示す情報は、該当の音声の発話者の行動状況に関する情報を含み得る。例えば、当該興奮度を示す情報は、当該発話者による所定の機器(例えば端末20やゲームコントローラなど)の操作状況を示す情報を含み得る。例えば、発話時において、当該発話者がゲームコントローラを連打していたり、素早く動かしていたり、または、大きく動かしていることなどが検出された場合には、興奮度特定部102は、当該興奮度が第1の閾値よりも大きい値であると特定する。
また、興奮度特定部102は、上述した複数の種類の情報の組み合わせに基いて、当該興奮度を特定することも可能である。例えば、当該音声データに含まれる発話の音量が小さくても、他の種類の情報から興奮度が高いことが特定される場合には、興奮度特定部102は、当該興奮度が第1の閾値よりも大きい値であると特定し得る。
特徴抽出部106は、端末20から受信される音声データを分析することにより、所定の特徴量を抽出する。例えば、特徴抽出部106は、当該音声データに含まれる音声信号に対してフーリエ変換および離散コサイン変換などを適用することにより、例えばMFCC(Mel−Frequency Cepstral Coefficient)などの特徴量を抽出する。
(2−1−4−1.認識例1)
認識部108は、特徴抽出部106により抽出された特徴量と、興奮度特定部102により特定された興奮度とに基いて、受信された音声データの認識を行う。例えば、認識部108は、特定された興奮度と第1の閾値とを比較することにより、当該音声データに対して、当該音声データの音素に基づいた第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。一例として、当該興奮度が第1の閾値よりも大きい場合には、認識部108は、当該音声データに対して第1の音声認識を行う。また、当該興奮度が第1の閾値以下である場合には、認識部108は、当該音声データに対して第2の音声認識を行う。
または、認識部108は、当該興奮度が第1の閾値よりも大きい継続時間の長さに基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定することも可能である。例えば、認識部108は、当該継続時間の長さと第2の閾値との比較に基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。一例として、当該継続時間の長さが第2の閾値よりも大きい場合には、認識部108は、当該音声データのうち、当該継続時間に対応する第1の音声に対して第1の音声認識を行い、かつ、第1の音声以外の音声に対して第2の音声認識を行う。また、当該継続時間の長さが第2の閾値以下である場合には、認識部108は、当該音声データ全体に対して第2の音声認識を行う。
ここで、図4を参照して、上記の機能についてより詳細に説明する。図4は、図2に示した発話30の音声データに対する、認識部108による音声認識の例を示した説明図である。図4に示したように、発話30の音声データのうち、“coooooooooooooooooooooooooool”に対応する音声(以下、「音声A」と称する)の音量は第1の閾値Vtよりも大きく、かつ、音声A以外の音声の音量はVt以下とする。また、音声Aに対応する時間の長さは第2の閾値よりも大きいものとする。
または、認識部108は、当該興奮度と第1の閾値との比較結果と、当該音声データに関して同一の音素が継続する時間の長さとに基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定することも可能である。例えば、認識部108は、当該興奮度が第1の閾値よりも大きい期間における同一の音素が継続する時間の長さと第2の閾値との比較に基いて、当該音声データに対して第1の音声認識を行うか、もしくは、第2の音声認識を行うかを決定する。
まとめ部110は、認識部108による認識結果から得られる文字列群に基いて、一以上のまとまりを決定する。例えば、まとめ部110は、第1の音声認識の結果に対応する文字列群と、第2の音声認識の結果に対応する文字列群とがそれぞれ別々のまとまりに含まれるように、複数のまとまりを決定する。
通信部120は、例えば通信網22を介して他の装置との間で情報の送受信を行う。例えば、通信部120は、音声データを端末20から受信する。また、通信部120は、制御部100の制御に従って、まとめ部110により決定された一以上のまとまりを表示させるための制御情報を端末20へ送信する。
記憶部122は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部122は、辞書DB124を記憶する。
以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図6〜図10を参照して説明する。なお、以下では、ユーザが端末20に対して文字列群を音声入力する場面における処理の流れの例について説明する。また、以下では、「興奮度を示す情報」が音量である例について説明する。また、以下では、端末20が、一回の音声入力時の音声データをまとめてサーバ10へ送信する例について説明する。
図6は、本実施形態による処理の流れの例の一部を示したフローチャートである。図6に示したように、まず、例えば端末20に対するユーザの所定の操作に基いて、端末20は音声入力アプリケーションを起動する(S101)。そして、ユーザは、端末20に対して発話し、そして、集音部200は、当該発話の音を集音する(S103)。
次に、図9を参照して、S119における「認識方法制御処理」の流れについて説明する。図9に示したように、まず、音声認識部104は、現在保存中の、音量大の状態の継続時間の長さが第2の閾値よりも大きいか否かを判定する(S201)。音量大の状態の継続時間の長さが第2の閾値よりも大きい場合には(S201:Yes)、音声認識部104は、後述する「第1の音声認識処理」を行う(S203)。その後、音声認識部104は、現在保存中の音情報、および、現在保存中の「音量大の状態の継続時間」をクリアする(S205)。
次に、図10を参照して、S203における「第1の音声認識処理」の流れについて説明する。図10に示したように、まず、音声認識部104は、現在保存中の音情報から音素情報を抽出する(S301)。続いて、音声認識部104は、抽出した音素情報に基いて文字列群を特定し、そして、当該文字列群を取得する(S303)。その後、音声認識部104は、取得した文字列群に対して例えば「!」などの所定の文字を一以上追加する(S305)。
{2−3−1.効果1}
以上説明したように、本実施形態によれば、サーバ10は、音声の集音状況における興奮度を示す情報を取得し、そして、当該興奮度を示す情報に基いて、当該音声に対して第1の音声認識、もしくは、第2の音声認識を行う。このため、例えば集音時における発話者や他のユーザの興奮度に応じて音声認識方法を動的に変更することができる。
また、例えば当該音声の音量が小さくても、ユーザの興奮度が高いことが特定される場合には、サーバ10は、集音された音声データに対して第1の音声認識を行う。このため、例えば大きい声を出すことをユーザが躊躇する状況下であっても、集音時においてユーザ(または他のユーザ)の興奮度が高いことが特定される場合には、サーバ10は、当該音声データを、興奮度が高いこと(または抱いている感情が強いこと)を示唆するような文字列群に変換することができる。従って、例えば本開示の比較例と比べて、より適切な音声認識結果が得られる。
また、サーバ10は、個々の第1の音声認識の結果に対応する文字列群をそれぞれ一つのまとまりとして決定することが可能である。これにより、例えば「叫ぶような発話」の認識結果と、それ以外の発話の認識結果とがそれぞれ別々のまとまりに含まれるように、複数のまとまりが決定され得る。その結果、例えばまとまりごとに文字列を編集するアプリケーションにおいて、ユーザによる文字列の修正作業が容易になり得るので、例えば音声認識結果が誤りを含む場合などにおいて利便性が高い。
次に、本実施形態によるサーバ10のハードウェア構成について、図11を参照して説明する。図11に示すように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および、通信装置162を備える。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、図4に示した例では、サーバ10(認識部108)は、第1の音声認識の結果に対応する文字列(つまり文字列群360b)の末尾に所定の文字(「!」など)を付加する例を説明したが、かかる例に限定されない。例えば、認識部108は、該当の文の末尾(図4に示した例では文字列群360cの末尾)に所定の文字を付加してもよい。または、認識部108は、第1の音声認識の結果に対応する文字列の前後に、例えばダブルクォーテーションやシングルクォーテーションなどの文字を(所定の文字として)付加してもよい。
また、本実施形態による情報処理システムの構成は、図1に示した例に限定されない。例えば、図1では、サーバ10が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したサーバ10の機能が実現されてもよい。また、図1では、端末20が一台だけ図示されているが、かかる例に限定されず、当該情報処理システムは、端末20を複数台含み得る。
また、本実施形態によるサーバ10の構成は、図3に示した例に限定されない。例えば、まとめ部110はサーバ10に含まれる代わりに、例えば端末20など、サーバ10が通信可能な他の装置に含まれてもよい。
また、上述した実施形態では、本開示における情報処理装置がサーバ10である例について説明したが、本開示はかかる例に限定されない。例えば、少なくとも興奮度特定部102および音声認識部104の機能を端末20が有する場合には、当該情報処理装置は、端末20であってもよい。
また、図6〜図10に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
(1)
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部と、
を備える、情報処理装置。
(2)
前記音声認識部は、前記興奮度と第1の閾値との比較に基いて、前記第1の音声認識を行う、前記(1)に記載の情報処理装置。
(3)
前記興奮度が前記第1の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第1の音声認識を行い、
前記興奮度が前記第1の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、前記(2)に記載の情報処理装置。
(4)
前記音声認識部は、前記興奮度が前記第1の閾値よりも大きい継続時間の長さに基いて、前記第1の音声認識を行う、前記(2)または(3)に記載の情報処理装置。
(5)
前記音声認識部は、前記継続時間の長さと第2の閾値との比較に基いて、前記第1の音声認識を行う、前記(4)に記載の情報処理装置。
(6)
前記継続時間の長さが前記第2の閾値よりも大きい場合には、前記音声認識部は、前記音声のうち、前記継続時間に対応する第1の音声に対して、前記第1の音声の音素に基づいた第1の音声認識を行い、かつ、
前記音声のうち、前記第1の音声以外の第2の音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、前記(5)に記載の情報処理装置。
(7)
前記継続時間の長さが前記第2の閾値以下である場合には、前記音声認識部は、前記音声に対して前記第2の音声認識を行う、前記(6)に記載の情報処理装置。
(8)
前記取得部は、前記音声から特定される、同一の音素が継続する時間の長さを示す情報をさらに取得し、
前記音声認識部は、さらに、前記同一の音素が継続する時間の長さに基いて、前記第1の音声認識を行う、前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(9)
前記音声認識部は、前記興奮度と第1の閾値との比較、および、前記同一の音素が継続する時間の長さと第2の閾値との比較に基いて、前記第1の音声認識を行う、前記(8)に記載の情報処理装置。
(10)
前記音声認識部は、前記興奮度が前記第1の閾値よりも大きい間における前記同一の音素が継続する時間の長さが前記第2の閾値よりも大きいか否かに基いて、前記第1の音声認識、もしくは、前記第1の音声認識とは異なる第2の音声認識を行う、前記(9)に記載の情報処理装置。
(11)
前記興奮度を示す情報は、前記音声の音量を含む、前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含む、前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記興奮度を示す情報は、前記音声を発した第1のユーザとは異なる第2のユーザの状態に関する情報を含む、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記興奮度を示す情報は、前記音声を発した第1のユーザの生体情報を含む、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記興奮度を示す情報は、前記音声を発した第1のユーザの行動状況に関する情報を含む、前記(1)〜(14)のいずれか一項に記載の情報処理装置。
(16)
前記第1のユーザの行動状況に関する情報は、前記第1のユーザによる所定の機器の操作状況を含む、前記(15)に記載の情報処理装置。
(17)
前記第2の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、前記(3)または(6)に記載の情報処理装置。
(18)
前記第1の音声認識は、言語モデルを使用しない音声認識であり、
前記第2の音声認識は、前記言語モデルを使用する音声認識である、前記(17)に記載の情報処理装置。
(19)
音声の集音状況における興奮度を示す情報を取得することと、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識をプロセッサが行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基いて、前記音声の音素に基づいた第1の音声認識を行う音声認識部、
として機能させるための、プログラム。
20 端末
22 通信網
100 制御部
102 興奮度特定部
104 音声認識部
106 特徴抽出部
108 認識部
110 まとめ部
120 通信部
122 記憶部
124 辞書DB
200 集音部
202 操作表示部
Claims (15)
- 音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第1の音声認識を行う音声認識部と、
を備え、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、情報処理装置。 - 前記音声認識部は、前記興奮度と第1の閾値との比較に基づいて、前記第1の音声認識を行う、請求項1に記載の情報処理装置。
- 前記興奮度が前記第1の閾値よりも大きい場合には、前記音声認識部は、前記音声に対して前記第1の音声認識を行い、
前記興奮度が前記第1の閾値以下である場合には、前記音声認識部は、前記音声に対して、前記第1の音声認識とは異なる第2の音声認識を行う、請求項2に記載の情報処理装置。 - 前記興奮度を示す情報は、前記音声の音量を含む、請求項1〜3のいずれか一項に記載の情報処理装置。
- 前記取得部は、前記音声の音量が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、請求項4に記載の情報処理装置。
- 前記興奮度を示す情報は、前記音声を発した第1のユーザとは異なる第2のユーザの状態に関する情報を含む、請求項1〜5のいずれか一項に記載の情報処理装置。
- 前記第2のユーザの状態に関する情報は、前記第2のユーザの盛り上がりの程度の検出結果を含む、
請求項6に記載の情報処理装置。 - 前記興奮度を示す情報は、前記音声を発した第1のユーザの生体情報を含む、請求項1〜7のいずれか一項に記載の情報処理装置。
- 前記取得部は、予め定められた、前記第1のユーザの生体情報が示す値と前記興奮度との関係性に基づいて前記興奮度を特定する、
請求項8に記載の情報処理装置。 - 前記興奮度を示す情報は、前記音声を発した第1のユーザの行動状況に関する情報を含む、請求項1〜9のいずれか一項に記載の情報処理装置。
- 前記第1のユーザの行動状況に関する情報は、前記第1のユーザによる所定の機器の操作状況を含む、請求項10に記載の情報処理装置。
- 前記第2の音声認識は、認識対象の音声の音素、および、複数の文字列のつながりに関する確率に基づいた音声認識である、請求項3に記載の情報処理装置。
- 前記第1の音声認識は、言語モデルを使用しない音声認識であり、
前記第2の音声認識は、前記言語モデルを使用する音声認識である、請求項12に記載の情報処理装置。 - 音声の集音状況における興奮度を示す情報を取得することと、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第1の音声認識をプロセッサが行うことと、
を含み、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記興奮度は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように特定される、情報処理方法。 - コンピュータを、
音声の集音状況における興奮度を示す情報を取得する取得部と、
前記興奮度を示す情報に基づいて、前記音声の音素に基づいた第1の音声認識を行う音声認識部、
として機能させるためのプログラムであって、前記興奮度を示す情報は、前記音声の特徴と、前記音声を発した第1のユーザの発話の学習結果から得られる音声の特徴との差異に関する情報を含み、前記取得部は、前記差異を示す値の絶対値が大きいほど前記興奮度がより大きくなるように、前記興奮度を特定する、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016145967 | 2016-07-26 | ||
JP2016145967 | 2016-07-26 | ||
JP2018529364A JP6496942B2 (ja) | 2016-07-26 | 2017-04-24 | 情報処理装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018529364A Division JP6496942B2 (ja) | 2016-07-26 | 2017-04-24 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019124952A JP2019124952A (ja) | 2019-07-25 |
JP6915637B2 true JP6915637B2 (ja) | 2021-08-04 |
Family
ID=61015970
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018529364A Active JP6496942B2 (ja) | 2016-07-26 | 2017-04-24 | 情報処理装置 |
JP2019041638A Active JP6915637B2 (ja) | 2016-07-26 | 2019-03-07 | 情報処理装置、情報処理方法、およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018529364A Active JP6496942B2 (ja) | 2016-07-26 | 2017-04-24 | 情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10847154B2 (ja) |
EP (1) | EP3493201B1 (ja) |
JP (2) | JP6496942B2 (ja) |
CN (1) | CN109074809B (ja) |
WO (1) | WO2018020763A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7052630B2 (ja) * | 2018-08-08 | 2022-04-12 | 富士通株式会社 | 音源方向推定プログラム、音源方向推定方法、および音源方向推定装置 |
CN109767769B (zh) * | 2019-02-21 | 2020-12-22 | 珠海格力电器股份有限公司 | 一种语音识别方法、装置、存储介质及空调 |
JP2022104190A (ja) * | 2020-12-28 | 2022-07-08 | シャープ株式会社 | 双方向通信支援システム、及び、コンピュータプログラム |
JP2024021190A (ja) * | 2022-08-03 | 2024-02-16 | 株式会社Jvcケンウッド | 音声コマンド受付装置、および音声コマンド受付方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002073634A (ja) * | 2000-09-05 | 2002-03-12 | Alpine Electronics Inc | 行動パターン処理装置 |
WO2003073417A2 (en) * | 2002-02-26 | 2003-09-04 | Sap Aktiengesellschaft | Intelligent personal assistants |
US8204884B2 (en) * | 2004-07-14 | 2012-06-19 | Nice Systems Ltd. | Method, apparatus and system for capturing and analyzing interaction based content |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8204747B2 (en) * | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
JP5550496B2 (ja) | 2010-08-31 | 2014-07-16 | 富士フイルム株式会社 | 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム |
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9105042B2 (en) * | 2013-02-07 | 2015-08-11 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
JP2016020963A (ja) * | 2014-07-14 | 2016-02-04 | シャープ株式会社 | 対話評価装置、対話評価システム、対話評価方法および対話評価プログラム |
US10127927B2 (en) * | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
-
2017
- 2017-04-24 JP JP2018529364A patent/JP6496942B2/ja active Active
- 2017-04-24 EP EP17833774.7A patent/EP3493201B1/en active Active
- 2017-04-24 CN CN201780024800.9A patent/CN109074809B/zh not_active Expired - Fee Related
- 2017-04-24 WO PCT/JP2017/016152 patent/WO2018020763A1/ja unknown
- 2017-04-24 US US16/095,052 patent/US10847154B2/en active Active
-
2019
- 2019-03-07 JP JP2019041638A patent/JP6915637B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3493201A1 (en) | 2019-06-05 |
EP3493201A4 (en) | 2019-07-03 |
JPWO2018020763A1 (ja) | 2019-01-17 |
CN109074809A (zh) | 2018-12-21 |
CN109074809B (zh) | 2020-06-23 |
US10847154B2 (en) | 2020-11-24 |
JP6496942B2 (ja) | 2019-04-10 |
EP3493201B1 (en) | 2020-07-29 |
JP2019124952A (ja) | 2019-07-25 |
WO2018020763A1 (ja) | 2018-02-01 |
US20190103110A1 (en) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
JP6915637B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
WO2021159688A1 (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
US20240153505A1 (en) | Proactive command framework | |
WO2017084360A1 (zh) | 一种用于语音识别方法及*** | |
CN108962227B (zh) | 语音起点和终点检测方法、装置、计算机设备及存储介质 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
JP2014077969A (ja) | 対話システム及び対話システム向け発話の判別方法 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN108536668B (zh) | 唤醒词评估方法及装置、存储介质、电子设备 | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN112466302A (zh) | 语音交互的方法、装置、电子设备和存储介质 | |
JP6462936B1 (ja) | 音声認識システム、及び音声認識装置 | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
JP6930538B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN113129895A (zh) | 一种语音检测处理*** | |
CN110808050A (zh) | 语音识别方法及智能设备 | |
CN114121022A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 | |
CN113160821A (zh) | 一种基于语音识别的控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210330 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210628 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6915637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |