JP2013072974A - 音声認識装置、方法及びプログラム - Google Patents
音声認識装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2013072974A JP2013072974A JP2011211469A JP2011211469A JP2013072974A JP 2013072974 A JP2013072974 A JP 2013072974A JP 2011211469 A JP2011211469 A JP 2011211469A JP 2011211469 A JP2011211469 A JP 2011211469A JP 2013072974 A JP2013072974 A JP 2013072974A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- information
- voice
- unit
- work
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 239000000284 extract Substances 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 35
- 230000008859 change Effects 0.000 description 30
- 239000003814 drug Substances 0.000 description 28
- 238000003860 storage Methods 0.000 description 20
- 238000001356 surgical procedure Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 230000004048 modification Effects 0.000 description 16
- 229940079593 drug Drugs 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000001802 infusion Methods 0.000 description 4
- 238000002347 injection Methods 0.000 description 4
- 239000007924 injection Substances 0.000 description 4
- 230000036760 body temperature Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/63—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Surgery (AREA)
- Urology & Nephrology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】一実施形態に係る音声認識装置は、業務推定部、音声認識部及び特徴量抽出部を含む。業務推定部は、利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する。音声認識部は、前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する。特徴量抽出部は、前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する。前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行う。
【選択図】図1
Description
図1は、第1の実施形態に係る音声認識装置100を概略的に示している。この音声認識装置100は、利用者が発した音声を示す音声情報に対して音声認識を行い、この音声情報に対応するテキストデータを音声認識結果として出力若しくは記録するものである。音声認識装置100は、独立した装置として実施されてもよく、或いは、携帯端末などの他の装置に組み込まれて実施されてもよい。本実施形態では、音声認識装置100が携帯端末に組み込まれており、利用者がこの携帯端末を携帯しながら使用するとして説明する。さらに、具体的な説明を行う際には、音声認識装置100が病院内で使用される場合を例に挙げる。音声認識装置100が病院で使用される場合、利用者は、例えば看護師であり、「手術」、「配膳」などの種々の業務(作業)を行う。利用者が看護師である場合、音声認識装置100は、例えば、入院患者の看護記録及びメモを取るために利用される。
図2は、本実施形態に係る音声認識装置100を備える携帯端末200を概略的に示している。この携帯端末200は、図2に示されるように、入力部201、マイクロホン202、表示部203、無線通信部204、GPS(global positioning system)受信機205、記憶部206及び制御部207を備える。入力部201、マイクロホン202、表示部203、無線通信部204、GPS受信機205、記憶部206及び制御部207は、バス210を介して互いに通信可能に接続されている。以下では、携帯端末を単に端末と呼ぶ。
音声認識装置100は、業務推定部101、音声認識部102、特徴量抽出部103、非音声情報取得部104及び音声情報取得部105を備えている。
まず、非音声情報取得部104について説明する。前述したように、非音声情報としては、例えば、位置情報、スケジュール情報などの利用者情報、周囲の人に関する情報、周囲の物に関する情報、時間情報などがある。非音声情報取得部104は、ここに例示される情報を全て取得する必要はなく、例示した情報及び他の情報のうちの少なくとも1つを取得すればよい。
さらに他の例では、非音声情報取得部104は、RFIDを利用して位置情報を取得することができる。この場合、位置情報を格納したRFIDタグを器具及び部屋の入口などに取り付けておき、非接触通信部によりRFIDタグから位置情報を読み出す。さらにまた他の例では、特定の場所に設置されているパーソナルコンピュータ(PC)へログインするといった、利用者の位置を特定することを可能にする行動を利用者が実行した場合に、位置情報が外部装置から非音声情報取得部104に通知される。
前述したように、音声情報取得部105は、マイクロホン202を含む。一例では、入力部201内の所定の操作ボタンが押下されている期間中に、マイクロホン202で受音された利用者からの音声が音声情報として取得される。他の例では、利用者が所定の操作ボタンを押下することで入力開始を指示し、無音区間を検出することで音声情報取得部105が入力終了を認識し、音声情報取得部105は、入力開始から入力終了までの間にマイクロホン202で受音された利用者からの音声を音声情報として取得する。
業務推定部101は、統計的処理に基づく方法を利用して利用者の業務を推定することができる。統計的処理に基づく方法は、例えば、ある情報(非音声情報及び特徴量の少なくとも一方)が入力されたときに何の業務であるかを学習させたモデルを予め作成しておき、実際に得られた情報(非音声情報及び特徴量の少なくとも一方)からそのモデルを用いた確率計算によって業務を推定する。利用するモデルとしては、SVM(Support Vector Machine)、対数線形モデル(Log Linear Model)などの既存の確率モデルがある。
本実施形態では、音声認識部102は業務情報に対応する音声認識手法に従って音声認識を行う。このため、音声認識結果は業務情報に応じて変化する。音声認識方法としては、次に例示する3つの方法がある。
第2の方法は、音声認識に用いられる言語モデルに各業務での単語のつながりを記述しておき、業務情報に応じて単語のつながりを変化させた言語モデルを用いて音声認識を行う。第3の方法は、予め定められる複数の業務それぞれに対応付けて複数の言語モデルを保持しておき、業務情報によって示される業務に対応する言語モデルを選択し、選択した言語モデルを用いて音声認識を行う。ここでいう言語モデルとは、文法形式で記述されているもの、単語や単語列の出現確率を記述しているものなどのように、音声認識の際に言語的情報として用いられるものを指す。
ここで、業務情報に対応する音声認識手法に従って音声認識を行うとは、業務情報に従って音声認識方法(例えば、上記第1の方法)を実行することを意味し、業務情報に従って音声認識方法(例えば、上述した第1、第2及び第3の方法)を切り替えて音声認識を行うことを意味するものではない。
利用者が行っている業務に関連する特徴量として、音声認識部102が前述したN−bestアルゴリズムに従って音声認識を行う場合は、業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度などを用いることができる。業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度は、音声認識結果に含まれる各単語が業務情報によって示される業務において使用される頻度に対応し、音声認識結果が業務情報によって示される業務とどれだけマッチしているかを表す。この場合、予め定められる複数の業務ごとに収集されたテキストデータを解析することにより、業務ごとに複数の単語を出現頻度と対応付けて保持する参照テーブルが予め作成される。特徴量抽出部103は、業務情報によって示される業務と音声認識結果に含まれる各単語とを用いて参照テーブルを参照することで、その業務での各単語の出現頻度を得る。
図4は、音声認識装置100が実行する音声認識処理の一例を示している。まず、利用者によって音声認識装置100が起動されると、非音声情報取得部104は、非音声情報を取得する(ステップS401)。業務推定部101は、非音声情報取得部104によって取得された非音声情報に基づいて利用者が現在行っている業務を推定し、該業務の内容を示す業務情報を生成する(ステップS402)。
図1に示される音声認識装置100は、1回の音声情報の入力に対して業務の再推定を1回だけ行っている。これに対し、第1の実施形態の変形例1に係る音声認識装置は、1回の音声情報の入力に対して業務の再推定を複数回行う。
図11は、音声認識装置1000が実行する音声認識処理の一例を示している。図11のステップS1101、S1102、S1104、S1106、S1107、S1108はそれぞれ図4のステップS401、S402、S403、S404、S405、S406と同様の処理であるので、その説明を適宜省略する。
音声認識装置1000は、図7の例のように、非音声情報に基づいて「バイタル」、「ケア」及び「配膳」の3つの業務に利用者の業務を絞り込んでおり、この時点で、「投薬変更」に関連する音声情報が入力されたとする。音声認識装置1000は、入力された音声情報に対して音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を用いて利用者が行っている業務を再推定する。再推定の結果、利用者の業務は、利用者が行っている可能性がある業務に拡大される。例えば、業務情報には、「バイタル」、「ケア」、「配膳」及び「投薬変更」が含まれる。さらに、音声認識装置1000は、記憶されている「投薬変更」に関連する音声情報に対して再度音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を利用者が行っている業務を再推定する。その結果、利用者が行っている業務は「投薬変更」であると推定される。この後に、利用者が「投薬変更」に関連する音声情報を入力すると、音声認識装置1000は、入力された音声情報を正しく認識することができる。
図1に示される音声認識装置100は、音声情報の入力に対して、非音声情報に基づいて生成された業務情報に対応する音声認識手法に従って音声認識を行っている。しかしながら、図6の事例のように、音声認識結果を用いずに非音声情報を用いて利用者が行っている業務を推定し、推定の結果得られる業務情報に対応する音声認識手法に従って音声認識を行う場合、入力された音声情報を誤認識する可能性がある。第1の実施形態の変形例2に係る音声認識装置は、正しく音声認識が行われたか否かを判断し、正しく音声認識が行われたと判断した場合に音声認識結果を出力する。
図13は、音声認識装置1200が実行する音声認識処理の一例を示している。図13のステップS1301、S1302、S1304、S1305、S1306、S1307はそれぞれ図4のステップS401、S402、S405、S403、S404、S406と同じ処理であるので、その説明を適宜省略する。
図7を再び参照すると、看護師Aが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点では、看護師Aが「投薬変更」業務に関連する音声を入力したとしても、業務情報に「投薬変更」が含まれていないので、図6の事例と同様に正しく認識されない可能性がある。音声認識装置1200は、入力された音声情報を誤認識した可能性があると判断し、音声認識結果を出力しない。その後、音声認識装置1200が業務の再推定を行い、その結果、業務情報に「投薬変更」業務が含まれるようになる。業務情報に「投薬変更」業務が含まれている状態で、「投薬変更」業務に関連する音声情報が入力されると、音声認識装置1200は、音声認識結果を正しく得られたと判断し、音声認識結果を出力する。それにより、看護師が言い直しをすることなく精度のよい音声認識結果を出力することができる。
図1に示される音声認識装置100は、特徴量抽出部103で得られた特徴量を業務推定部101に送ることにより、業務の再推定を行うように促している。第1の実施形態の変形例3に係る音声認識装置は、特徴量抽出部103で得られた特徴量に基づいて、業務の再推定を行う必要があるか否かを判断し、必要ありと判断した場合に業務の再推定を行う。
図15は、音声認識装置1400が実行する音声認識処理の一例を示している。図15のステップS1501〜S1506は図4のステップS401〜S406と同じ処理であるので、その説明を省略する。
第2の実施形態では、業務の構造を階層構造で記述できる場合について説明する。
図16は、第2の実施形態に係る音声認識装置1600を概略的に示している。図16に示される音声認識装置1600は、図1に示される音声認識装置100の構成に加えて、言語モデル選択部1601を備えている。言語モデル選択部1601は、予め用意される複数の言語モデルから、業務推定部101から受け取る業務情報に従って言語モデルを選択する。本実施形態では、音声認識部102は、言語モデル選択部1601で選択された言語モデルを用いて音声認識を行う。
図18は、音声認識装置1600が実行する音声認識処理の一例を示している。図18のステップS1801、S1802、S1804、S1806、S1807はそれぞれ図4のステップS401、402、403、405、406と同じ処理であるので、その説明を適宜省略する。
第1の実施形態では、業務情報に対応する音声認識手法に従って音声認識を行って得られた結果から、業務の再推定に用いる特徴量を抽出している。業務情報により示される業務とは異なる業務に対応する音声認識手法に従って音声認識を行い、音声認識結果から特徴量を抽出し、この特徴量を併用して業務の再推定を行うことにより、より高精度な業務の再推定が可能となる。
図20は、音声認識装置1900が実行する音声認識処理の一例を示している。図20のステップS2001〜S2005は、図4のステップS401〜S405と同じ処理であるので、その説明を省略する。
第1の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第4の実施形態では、音素認識結果から利用者が行っている業務に関連する特徴量をさらに抽出する。音声認識結果から得られる特徴量と音素認識結果から得られる特徴量とを用いて業務の再推定を行うことにより、より高精度な業務の推定が可能となる。
図22は、音声認識装置2100が実行する音声認識処理の一例を示している。図22のステップS2201〜S2205は、それぞれ図4のステップS401〜S405と同じ処理であるので、その説明を省略する。
第1の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第5の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出するとともに、入力された音声情報そのものから、利用者が行っている業務に関連する特徴量を抽出する。これらを併用することにより、より高精度な業務の推定が可能となる。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (12)
- 利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定部と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、第1音声認識結果を生成する第1音声認識部と、
前記第1音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出部と、
を具備し、
前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記第1音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行うことを特徴とする音声認識装置。 - 前記特徴量抽出部は、前記業務情報により示される業務の内容での前記第1音声認識結果に含まれる各単語の出現頻度と、前記第1音声認識結果の言語部分の尤度と、前記第1音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第1音声認識結果の単語列内に存在する回数又は割合と、の少なくとも1つを、前記特徴量として抽出することを特徴とする請求項1に記載の音声認識装置。
- 前記業務情報に従って、予め用意される複数の言語モデルの中から言語モデルを選択する言語モデル選択部をさらに具備し、
前記第1音声認識部は、前記選択された言語モデルを用いて音声認識を行うことを特徴とする請求項1に記載の音声認識装置。 - 予め定められる複数の業務が階層構造で記述され、前記複数の言語モデルがそれぞれ前記階層構造の末端に位置する複数の業務に対応付けられており、
前記言語モデル選択部は、前記業務情報により示される業務の内容に対応する言語モデルを選択することを特徴とする請求項3に記載の音声認識装置。 - 予め定められる複数の業務の中から業務の再推定に利用する関連業務を選択し、該選択した関連業務を示す関連業務情報を生成する関連業務選択部と、
前記関連業務情報に対応する音声認識手法に従って前記音声情報に対して音声認識を行い、第2音声認識結果を生成する第2音声認識部と、をさらに具備し、
前記特徴量抽出部は、前記第1音声認識結果及び前記第2音声認識結果から、前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。 - 前記関連業務選択部は、前記複数の業務の全てを組み合わせたものと前記入力された非音声情報により特定される業務とのいずれか一方を前記関連業務として選択し、
前記特徴量抽出部は、前記第1音声認識結果の言語部分の尤度と前記第2音声認識結果の言語部分の尤度とを前記特徴量として抽出することを特徴とする請求項5に記載の音声認識装置。 - 前記音声情報に対して音素認識を行い、音素認識結果を生成する音素認識部をさらに具備し、
前記特徴量抽出部は、前記第1音声認識結果と前記音素認識結果とから前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。 - 前記特徴量抽出部は、前記第1音声認識結果の音響部分の尤度と前記音素認識結果の尤度とを前記特徴量として抽出することを特徴とする請求項7に記載の音声認識装置。
- 前記特徴量抽出部は、前記第1音声認識結果と前記音声情報とから前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。
- 前記特徴量抽出部は、
前記業務情報により示される業務での前記第1音声認識結果に含まれる各単語の出現頻度、前記第1音声認識結果の言語部分の尤度、及び前記第1音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第1音声認識結果の単語列内に存在する回数又は割合のうちの少なくとも1つと、
前記音声情報の長さ、及び前記音声情報に含まれる周囲雑音の大きさのうちの少なくとも1つと、を前記特徴量として抽出することを特徴とする請求項9に記載の音声認識装置。 - 利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成することと、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成することと、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出することと、
少なくとも前記特徴量を用いて前記利用者の業務を再推定することと、
再推定の結果得られる業務情報に基づいて音声認識を行うことと、
を具備することを特徴とする音声認識方法。 - コンピュータを、
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定手段と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する音声認識手段と、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出手段として機能させ、前記業務推定手段は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識手段は、再推定の結果得られる業務情報に基づいて音声認識を行う、音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211469A JP2013072974A (ja) | 2011-09-27 | 2011-09-27 | 音声認識装置、方法及びプログラム |
US13/628,818 US20130080161A1 (en) | 2011-09-27 | 2012-09-27 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011211469A JP2013072974A (ja) | 2011-09-27 | 2011-09-27 | 音声認識装置、方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015019458A Division JP2015092286A (ja) | 2015-02-03 | 2015-02-03 | 音声認識装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013072974A true JP2013072974A (ja) | 2013-04-22 |
Family
ID=47912239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011211469A Pending JP2013072974A (ja) | 2011-09-27 | 2011-09-27 | 音声認識装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130080161A1 (ja) |
JP (1) | JP2013072974A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015097065A (ja) * | 2013-11-15 | 2015-05-21 | 株式会社東芝 | 手術情報管理装置 |
WO2019193661A1 (ja) * | 2018-04-03 | 2019-10-10 | 株式会社ウフル | 機械学習済みモデル切り替えシステム、エッジデバイス、機械学習済みモデル切り替え方法、及びプログラム |
JP2020528590A (ja) * | 2017-10-20 | 2020-09-24 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者−医師間会話からの詳細構造の取込み |
WO2022185437A1 (ja) * | 2021-03-03 | 2022-09-09 | 日本電気株式会社 | 音声認識装置、音声認識方法、学習装置、学習方法、及び、記録媒体 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697827B1 (en) * | 2012-12-11 | 2017-07-04 | Amazon Technologies, Inc. | Error reduction in speech processing |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US9812130B1 (en) * | 2014-03-11 | 2017-11-07 | Nvoq Incorporated | Apparatus and methods for dynamically changing a language model based on recognized text |
JP6375706B2 (ja) * | 2014-06-11 | 2018-08-22 | 富士ゼロックス株式会社 | 属性推定プログラム及び情報処理装置 |
US10650805B2 (en) * | 2014-09-11 | 2020-05-12 | Nuance Communications, Inc. | Method for scoring in an automatic speech recognition system |
WO2020041945A1 (en) | 2018-08-27 | 2020-03-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Artificial intelligent systems and methods for displaying destination on mobile device |
WO2019172734A2 (ko) * | 2019-05-30 | 2019-09-12 | 엘지전자 주식회사 | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 |
JP7248564B2 (ja) * | 2019-12-05 | 2023-03-29 | Tvs Regza株式会社 | 情報処理装置及びプログラム |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57111600A (en) * | 1980-12-29 | 1982-07-12 | Tokyo Shibaura Electric Co | Device for identifying sound |
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
JPH0772899A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH11288297A (ja) * | 1998-04-06 | 1999-10-19 | Mitsubishi Electric Corp | 音声認識装置 |
JP2002229585A (ja) * | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | 音声認識文章入力装置 |
JP2006133478A (ja) * | 2004-11-05 | 2006-05-25 | Nec Corp | 音声処理システム及び方法並びに音声処理用プログラム |
JP2007183516A (ja) * | 2006-01-10 | 2007-07-19 | Nissan Motor Co Ltd | 音声対話装置及び音声認識方法 |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
JP2008097082A (ja) * | 2006-10-06 | 2008-04-24 | Mitsubishi Electric Corp | 音声対話装置 |
JP2010066519A (ja) * | 2008-09-11 | 2010-03-25 | Brother Ind Ltd | 音声対話装置、音声対話方法、および音声対話プログラム |
JP2010191223A (ja) * | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | 音声認識方法、携帯端末及びプログラム。 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5335313A (en) * | 1991-12-03 | 1994-08-02 | Douglas Terry L | Voice-actuated, speaker-dependent control system for hospital bed |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
US6944447B2 (en) * | 2001-04-27 | 2005-09-13 | Accenture Llp | Location-based services |
JP2003114698A (ja) * | 2001-10-03 | 2003-04-18 | Denso Corp | コマンド受付装置及びプログラム |
US20060074660A1 (en) * | 2004-09-29 | 2006-04-06 | France Telecom | Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US8005675B2 (en) * | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
KR100735559B1 (ko) * | 2005-11-18 | 2007-07-04 | 삼성전자주식회사 | 언어 모델 구축 장치 및 방법 |
JP4718987B2 (ja) * | 2005-12-12 | 2011-07-06 | 本田技研工業株式会社 | インターフェース装置およびそれを備えた移動ロボット |
JP4446313B2 (ja) * | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
EP2225870A4 (en) * | 2007-12-14 | 2011-08-17 | Promptu Systems Corp | AUTOMATIC VEHICLE RECALL AND PREPARATION SYSTEM AND METHOD |
CA2659698C (en) * | 2008-03-21 | 2020-06-16 | Dressbot Inc. | System and method for collaborative shopping, business and entertainment |
US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
KR101631496B1 (ko) * | 2008-06-03 | 2016-06-17 | 삼성전자주식회사 | 로봇 장치 및 그 단축 명령 등록 방법 |
DK2293289T3 (da) * | 2008-06-06 | 2012-06-25 | Raytron Inc | Talegenkendelsessystem og fremgangsmåde |
KR101556594B1 (ko) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
JP4973722B2 (ja) * | 2009-02-03 | 2012-07-11 | 株式会社デンソー | 音声認識装置、音声認識方法、及びナビゲーション装置 |
JP2010183289A (ja) * | 2009-02-04 | 2010-08-19 | Seiko Epson Corp | 携帯端末及びその管理システム |
JP2010282199A (ja) * | 2009-06-02 | 2010-12-16 | Honda Motor Co Ltd | 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム |
KR101604692B1 (ko) * | 2009-06-30 | 2016-03-18 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
EP2275953B1 (en) * | 2009-06-30 | 2018-10-24 | LG Electronics Inc. | Mobile terminal |
KR20110028095A (ko) * | 2009-09-11 | 2011-03-17 | 삼성전자주식회사 | 실시간 화자 적응을 통한 음성 인식 시스템 및 방법 |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
MX2009010902A (es) * | 2009-10-08 | 2011-04-20 | Magno Alcantara Talavera | Metodos y sistema de control por voz. |
KR20110072847A (ko) * | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
US8442827B2 (en) * | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
JP5328744B2 (ja) * | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US8886532B2 (en) * | 2010-10-27 | 2014-11-11 | Microsoft Corporation | Leveraging interaction context to improve recognition confidence scores |
US9679562B2 (en) * | 2012-09-06 | 2017-06-13 | GM Global Technology Operations LLC | Managing in vehicle speech interfaces to computer-based cloud services due recognized speech, based on context |
-
2011
- 2011-09-27 JP JP2011211469A patent/JP2013072974A/ja active Pending
-
2012
- 2012-09-27 US US13/628,818 patent/US20130080161A1/en not_active Abandoned
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57111600A (en) * | 1980-12-29 | 1982-07-12 | Tokyo Shibaura Electric Co | Device for identifying sound |
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
JPH0772899A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH11288297A (ja) * | 1998-04-06 | 1999-10-19 | Mitsubishi Electric Corp | 音声認識装置 |
JP2002229585A (ja) * | 2001-01-31 | 2002-08-16 | Mitsubishi Electric Corp | 音声認識文章入力装置 |
JP2006133478A (ja) * | 2004-11-05 | 2006-05-25 | Nec Corp | 音声処理システム及び方法並びに音声処理用プログラム |
JP2007183516A (ja) * | 2006-01-10 | 2007-07-19 | Nissan Motor Co Ltd | 音声対話装置及び音声認識方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
JP2008097082A (ja) * | 2006-10-06 | 2008-04-24 | Mitsubishi Electric Corp | 音声対話装置 |
JP2010066519A (ja) * | 2008-09-11 | 2010-03-25 | Brother Ind Ltd | 音声対話装置、音声対話方法、および音声対話プログラム |
JP2010191223A (ja) * | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | 音声認識方法、携帯端末及びプログラム。 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015097065A (ja) * | 2013-11-15 | 2015-05-21 | 株式会社東芝 | 手術情報管理装置 |
JP2020528590A (ja) * | 2017-10-20 | 2020-09-24 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者−医師間会話からの詳細構造の取込み |
JP7174717B2 (ja) | 2017-10-20 | 2022-11-17 | グーグル エルエルシー | 臨床ドキュメンテーションで使用される患者-医師間会話からの詳細構造の取込み |
US11521722B2 (en) | 2017-10-20 | 2022-12-06 | Google Llc | Capturing detailed structure from patient-doctor conversations for use in clinical documentation |
WO2019193661A1 (ja) * | 2018-04-03 | 2019-10-10 | 株式会社ウフル | 機械学習済みモデル切り替えシステム、エッジデバイス、機械学習済みモデル切り替え方法、及びプログラム |
JPWO2019193661A1 (ja) * | 2018-04-03 | 2021-02-12 | 株式会社ウフル | 機械学習済みモデル切り替えシステム、エッジデバイス、機械学習済みモデル切り替え方法、及びプログラム |
WO2022185437A1 (ja) * | 2021-03-03 | 2022-09-09 | 日本電気株式会社 | 音声認識装置、音声認識方法、学習装置、学習方法、及び、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20130080161A1 (en) | 2013-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013072974A (ja) | 音声認識装置、方法及びプログラム | |
US11423898B2 (en) | Voice identification in digital assistant systems | |
JP5158174B2 (ja) | 音声認識装置 | |
CN109313896B (zh) | 可扩展的动态类语言建模方法、用于生成话语转录的***、计算机可读介质 | |
US11238871B2 (en) | Electronic device and control method thereof | |
KR101577607B1 (ko) | 상황 및 의도인지 기반의 언어 표현 장치 및 그 방법 | |
US20100281435A1 (en) | System and method for multimodal interaction using robust gesture processing | |
US20130166279A1 (en) | System and method for recognizing a user voice command in noisy environment | |
US20080201135A1 (en) | Spoken Dialog System and Method | |
WO2008113063A1 (en) | Speech-centric multimodal user interface design in mobile technology | |
US10409547B2 (en) | Apparatus for recording audio information and method for controlling same | |
CN106796788A (zh) | 基于用户反馈来改善自动语音识别 | |
US20140304606A1 (en) | Information processing apparatus, information processing method and computer program | |
CN104699784A (zh) | 一种基于交互式输入的数据搜索方法及装置 | |
US20140303975A1 (en) | Information processing apparatus, information processing method and computer program | |
WO2014085049A1 (en) | Speech transcription including written text | |
WO2015102082A1 (ja) | ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置 | |
KR20170141970A (ko) | 번역 서비스를 제공하는 전자 장치 및 방법 | |
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
WO2020242595A1 (en) | Voice identification in digital assistant systems | |
JP5326549B2 (ja) | 音声認識装置及び方法 | |
KR102355903B1 (ko) | 컨텐츠를 제공하는 전자 장치 및 방법 | |
WO2017199486A1 (ja) | 情報処理装置 | |
CN111919251B (zh) | 语音解析*** | |
JP6347939B2 (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130730 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140530 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141104 |