JP6585022B2 - 音声認識装置、音声認識方法およびプログラム - Google Patents

音声認識装置、音声認識方法およびプログラム Download PDF

Info

Publication number
JP6585022B2
JP6585022B2 JP2016220855A JP2016220855A JP6585022B2 JP 6585022 B2 JP6585022 B2 JP 6585022B2 JP 2016220855 A JP2016220855 A JP 2016220855A JP 2016220855 A JP2016220855 A JP 2016220855A JP 6585022 B2 JP6585022 B2 JP 6585022B2
Authority
JP
Japan
Prior art keywords
symbol
input
output
information
additional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016220855A
Other languages
English (en)
Other versions
JP2018077440A (ja
Inventor
学 永尾
学 永尾
浩司 藤村
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016220855A priority Critical patent/JP6585022B2/ja
Priority to US15/686,410 priority patent/US10803858B2/en
Priority to CN201710759611.8A priority patent/CN108074562B/zh
Publication of JP2018077440A publication Critical patent/JP2018077440A/ja
Application granted granted Critical
Publication of JP6585022B2 publication Critical patent/JP6585022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。
フィラーおよび言い淀み等を、言語情報と同時に評価することができる音響モデルが知られている。このような音響モデルを用いた音声認識システムでは、フィラーおよび言い淀み等を除去して音声認識することができるので、認識精度を高くすることができる。
しかし、フィラーおよび言い淀み等を除去した場合、認識結果を用いるアプリケーションは、フィラーまたは言い淀み等が付加されていた単語を検出することができない。従って、音声認識結果を用いるアプリケーションは、フィラーおよび言い淀み等を用いた情報処理をすることができなかった。
特開2015−143800号公報
那須悠、藤村浩司、「LSTM−CTMを用いた音響イベント検出・除去音声認識システムの検討」、電子情報通信学会、信学技報 Vol.116 No.208、PRMU2016−69、p.121−126、2016年9月 Hiroya Fujisaki, "Computing PROSODY:Computational Models for Processing Spontaneous Speech", ISBN-13:978-1461274766, Springer New York,1997,PP.28-29 Alex Graves and Navdeep Jaitly, "Towards end-to-end speech recognition with recurrent neural networks", in Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014, pp.1764−1772 Yichuan Tang, "Deep Learning using Linear Support Vector Machines", arXiv:1306.0239v4 [cs.LG] 21, Feb 2015
発明が解決しようとする課題は、音声信号に含まれる言語情報と、言語情報に付随するパラ言語情報および/または非言語情報とを認識することにある。
実施形態に係る音声認識装置は、算出部と、探索部と、付加記号取得部と、出力部とを備える。前記算出部は、音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する。前記探索部は、前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する。前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得する。前記出力部は、前記出力記号と、取得した前記付加記号とを対応付けて出力する。
実施形態に係る音声認識装置の構成を示す図。 スコア算出部の構成の一例を示す図。 経路探索部の構成を示す図。 経路探索部の処理フローを示す図。 アルファベットの入力記号列の一例を示す図。 図5の入力記号列から連続する認識対象記号を削除する処理を示す図。 図6の入力記号列から認識対象記号以外を削除する処理を示す図。 アルファベットの出力記号を生成する処理を示す図。 アルファベットの入力記号列における出力記号に対応する範囲を示す図。 アルファベットの出力記号および付加記号の一例を示す図。 日本語の入力記号列の一例を示す図。 図11の入力記号列から連続する認識対象記号を削除する処理を示す図。 日本語の入力記号列から認識対象記号以外を削除する処理を示す図。 日本語の出力記号を生成する処理を示す図。 日本語の入力記号列における出力記号に対応する範囲の一例を示す図。 日本語の出力記号および付加記号の一例を示す図。 音声認識装置による処理を表す疑似コードの一例を示す図。 疑似コードにより認識されるアルファベットの記号の一例を示す図。 疑似コードにより認識される日本語の記号の一例を示す図。 第2変形例に係る音声認識装置による処理を表す疑似コードを示す図。 第4変形例に係る音声認識装置による処理を表す疑似コードを示す図。 音声認識装置のハードウェアブロック図。
以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置10は、音声信号に含まれる言語情報を認識し、認識して得られた言語情報を表す出力記号を出力する。これとともに、音声認識装置10は、言語情報に付随して音声信号に含まれるパラ言語情報および/または非言語情報を認識し、認識したパラ言語情報および/または非言語情報を表す付加記号を、出力記号に対応させて出力する。
(定義)
まず、実施の形態で用いる用語について説明する。
音響情報とは、音声信号に含まれる情報である。音響情報には、言語情報、パラ言語情報、非言語情報および無音情報が含まれる。
言語情報は、音響情報の一つであり、話し手が言語を発声することにより音声信号に付加した、文字により表すことができる情報である。例えば、言語情報は、音素、音節、モーラ単位でまとめた音素、サブワード、文字、単語等である。日本語の場合、言語情報は、仮名であってよい。また、英語の場合、言語情報は、発音記号であってもよいし、アルファベットであってもよい。日本語の促音のように、言語情報になりうる無音はここに含まれる。
パラ言語情報は、音響情報の一つであり、話し手が発声することにより音声信号に付加した、言語情報からは識別できない情報である。パラ言語情報は、例えば、話し手が考え中であることを示すフィラー、および、イントネーションの方向により表される言語情報が相手への質問であるのか等を識別するための情報である。例えば、「そうですか」という言語情報の後半のイントネーションが高くなっている場合、その言語情報は質問であることを表す。また、「そうですか」という言語情報の後半のイントネーションが低くなっている場合には、その言語情報は肯定を示す。従って、質問を表すパラ言語情報は、例えば言語情報の後半のイントネーションが高くなっていることを示す。なお、パラ言語情報は、フィラーおよび質問に限らず、他の情報をさらに表してもよい。
非言語情報は、音響情報の一つであり、音声信号に含まれる話し手の特徴を表す情報である。例えば、非言語情報は、話し手の性別、話し手の年齢、話し手の身体的特徴、話し手の個性、話し手の感情、言い淀み、語断片、および、言い直し等の情報である。なお、非言語情報は、話し手の特徴を表す情報であれば、例えば話し手がコントロールできないような他の情報および話し手の状態等を表す情報であってもよい。
無音情報は、音響情報の一つであり、音声信号に言語情報、パラ言語情報、非言語情報の何れも含まれない状態(例えば無音および雑音)を表す情報である。
入力記号は、音響情報を表す記号である。記号集合は、入力記号を要素とする集合である。記号集合は、予め定義されている。記号集合は、入力記号として、少なくとも1つの認識対象記号と、少なくとも1つの付加記号と、対象外記号とを含む。
認識対象記号は、入力記号の一つであり、認識対象の言語情報を表す記号である。記号集合は、音声信号に含むことが可能な全ての言語情報に対応する文字(例えば、全ての発音記号)を、認識対象記号として含んでよい。また、音声認識装置10が特定の単語のみを認識する場合(例えば「こんにちは」のみを認識する場合)、特定の単語を認識するために必要な言語情報に対応する文字を、認識対象記号として含んでもよい。無音情報を認識する場合には、認識対象記号の一つとして、無音情報を表す無音記号を認識対象記号に含んでもよい。
付加記号は、入力記号の一つであり、パラ言語情報および/または非言語情報を表す記号である。記号集合は、音声信号に含むことが可能な全てのパラ言語情報および非言語情報に対応する文字を、付加記号として含んでよい。また、音声認識装置10が特定のパラ言語情報または非言語情報のみを認識する場合(例えばフィラーのみを認識する場合)、特定のパラ言語情報または非言語情報に対応する文字を、付加記号として含んでもよい。
対象外記号は、入力記号の一つであり、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。つまり、対象外記号は、音声認識装置10が認識対象記号または付加記号をまだ認識できないことを表す記号である。より具体的には、対象外記号は、後述するスコア算出部26がどの認識対象記号または付加記号のスコアを良くするか決める処理を保留していることを表す記号である。対象外記号の音響スコアは、処理を保留しているとき良くなり、処理を保留していないとき悪くなる。従って、後述するフレーム1つ分の音声を入力したときに計算される対象外記号のスコアが良いとき、その音声は、無音情報、認識対象の言語情報、認識対象外の言語情報、認識対象のパラ言語情報、認識対象外のパラ言語情報、認識対象の非言語情報、認識対象外の非言語情報のうちの、一部または全部に対応することがある。
入力記号列は、音声信号を認識して得られる尤もらしい入力記号の系列である。音声認識装置10は、1つの音声信号に対して、1個の入力記号列を生成してよい。また、音声認識装置10は、1つの音声信号に対して、M個(Mは2以上の整数)の入力記号列を生成してもよい。
出力記号は、音声信号の認識結果を表す。出力記号は、単語、文字、サブワード単語列等であってよい。出力記号は、入力記号列に含まれる認識対象記号に基づき生成される。音声認識装置10は、1個の入力記号列から時系列に並んだ複数の出力記号を生成してもよい。時系列に並んだ複数の出力記号を、出力記号列と呼ぶ場合もある。
(実施形態)
図1は、実施形態に係る音声認識装置10の構成を示す図である。音声認識装置10は、特徴抽出部22と、音響モデル記憶部24と、スコア算出部26と、探索モデル記憶部28と、経路探索部30とを備える。
特徴抽出部22は、認識対象の音声信号を取得する。特徴抽出部22は、例えば集音装置により検出された音声信号を取得する。
特徴抽出部22は、フレーム毎に音声信号を解析して、フレーム毎に特徴ベクトルを算出する。特徴ベクトルは、音声の特徴を表す複数種類の特徴量を含む。フレームは、1つの特徴ベクトルを算出するための音声信号の区間である。フレームは、中心時刻が所定間隔毎にずれるように設定される。また、複数のフレームは、例えば互いに同一の時間長である。それぞれのフレームは、他のフレームと一部の区間が重なってもよい。
音響モデル記憶部24は、音響モデルを記憶する。音響モデルは、音声信号をパターン認識するためにスコア算出部26により用いられるデータである。音響モデルは、音声認識装置10による音声信号の認識に先だって、学習装置により適切に訓練されている。音響モデル記憶部24は、例えばネットワーク上のサーバにより実現されてもよい。
スコア算出部26は、特徴抽出部22によりフレーム毎に算出された特徴ベクトルに基づき、音響モデル記憶部24に記憶された音響モデルを用いて、複数のスコアベクトルが並んだスコアベクトル列を算出する。それぞれのスコアベクトルは、予め定められた記号集合の要素である入力記号毎の音響スコアを含む。
スコアベクトルに含まれるそれぞれの音響スコアは、何れかの入力記号に対応している。音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている尤もらしさを表す。なお、音声信号に含まれている音響情報と、入力記号が表す音響情報とは、フレーム同期(時間同期)していなくてよい。すなわち、入力記号が表す音響情報は、音声信号に含まれている音響情報から遅延してもよい。例えば、15番目のフレームの特徴ベクトルの入力によってスコア算出部26が計算するスコアベクトルに含まれる音響スコアのうち、最も良い音響スコアが対応する入力記号が表す音響情報が、1〜10番目のフレームに含まれていてもよい。
スコアベクトルは、含まれる全ての音響スコアを合成した場合、特定値(例えば1)となるように正規化されている。例えば、音響スコアが確率または尤度である場合、スコアベクトルは、含まれる全ての音響スコアを加算すると、特定値となるように正規化されている。また、音響スコアが対数確率または対数尤度である場合、スコアベクトルは、含まれるそれぞれの音響スコアに対して指数演算したのち、全ての音響スコアを加算すると、特定値となるように正規化されている。
例えば、音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている確率、尤度、対数尤度または対数確率であってよい。音響スコアは、値が大きい程、良い(すなわち、尤もらしい)ことを示してもよいし、値が小さい程、良いことを示してもよい。例えば、音響スコアは、確率、尤度、対数確率または対数尤度である場合には、値が大きい程、良いことを示す。また、例えば、音響スコアは、符号を反転した対数確率または符号を反転した対数尤度である場合には、値が小さい程、良いことを示す。また、音響スコアは、音声信号(特徴ベクトル)と音響モデルとの何らかの距離を音響スコアとする場合には、値が小さい程、良いことを示す。
スコアベクトル列は、複数のスコアベクトルが並んだ情報である。スコア算出部26は、算出したスコアベクトル列を経路探索部30に与える。なお、特徴抽出部22およびスコア算出部26は、音声信号に基づきスコアベクトル列を算出する算出部に対応する。
探索モデル記憶部28は、探索モデルを記憶する。探索モデルは、スコアベクトル列から入力記号列および出力記号列を生成するために経路探索部30により用いられるデータである。探索モデルは、音声認識装置10による音声信号の認識に先だって、学習装置により適切に訓練されている。探索モデル記憶部28は、例えばネットワーク上のサーバにより実現されてもよい。
経路探索部30は、スコア算出部26により算出されたスコアベクトル列における尤もらしい音響スコアを辿る入力記号の経路を探索することにより、入力記号列を生成する。さらに、経路探索部30は、入力記号列に含まれる入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、音声信号の認識結果を表す出力記号を生成する。経路探索部30は、探索モデル記憶部28に記憶された探索モデルを用いて入力記号列および出力記号を生成してよい。入力記号の経路とは、スコアベクトルごとに選択した入力記号の系列である。なお、記号集合の要素の数をx、スコアベクトル列の長さをyとすると、入力記号の経路としてありうる組み合わせの数はx個となる。経路探索部30は、入力記号の経路を入力記号の系列としてそのまま記憶してもよいし、探索モデルを参照することで間接的に記憶してもよい。
さらに、経路探索部30は、入力記号列における出力記号に対応する範囲に含まれる入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得する。そして、経路探索部30は、出力記号と、取得した付加記号とを対応付けて出力する。
図2は、スコア算出部26の構成の一例を示す図である。スコア算出部26は、例えば図2に示すような、コネクショニスト時系列分類法(CTC)を適用した再帰型ニューラルネットワーク(RNN)であってよい。
例えば、スコア算出部26は、入力層42と、少なくとも1つの中間層44と、出力層46とを有する。入力層42、中間層44および出力層46のそれぞれは、少なくとも1つの信号の取得処理、取得した信号に対する演算処理、および、少なくとも1つの信号の出力処理を実行する。
入力層42と、少なくとも1つの中間層44と、出力層46とは、直列に接続される。入力層42は、特徴ベクトルを受け取り、演算処理を実行する。そして、入力層42は、演算結果として得られた少なくとも1つの信号を、次段の中間層44へ出力する。また、それぞれの中間層44は、前段から受け取った少なくとも1つの信号に対して演算処理を実行する。そして、それぞれの中間層44は、演算結果として得られた少なくとも1つの信号を、次段の中間層44または出力層46へと出力する。さらに、それぞれの中間層44は、自身への信号を帰還させる帰還路を有してもよい。
出力層46は、前段の中間層44から受け取った信号に対して演算処理を実行する。そして、出力層46は、演算結果としてスコアベクトルを出力する。出力層46は、入力記号の数分の信号を出力する。出力層46は、出力する信号が、入力記号のそれぞれに対応付けられている。例えば、出力層46は、ソフトマックス関数による演算を実行する。
また、それぞれの層が演算処理に用いるパラメータは、音響モデル記憶部24に記憶された音響モデルから与えられる。音響モデルは、特徴ベクトルに基づき、予め定められた記号集合に含まれるそれぞれの入力記号の音響スコアを出力するように、予め学習装置により訓練されている。すなわち、音響モデルは、認識対象の言語情報を表す少なくとも1つの認識対象記号、パラ言語情報および/または非言語情報を表す少なくとも1つの付加記号、および、認識対象外の音響スコアを表す対象外記号のそれぞれの音響スコアを出力するように、学習装置により訓練されている。
これにより、スコア算出部26は、記号集合に含まれるそれぞれの入力記号についての音響スコアを同時に出力することができる。つまり、スコア算出部26は、認識対象記号、付加記号および対象外記号のそれぞれについての音響スコアを同時に出力することができる。
なお、スコア算出部26は、RNNに代えて、RNNを拡張した長・短期記憶(Long Shor−Term Memory)と呼ばれるネットワークであってもよい。また、出力層46は、ソフトマックス関数に代えて、サポートベクタマシーンを用いてもよい(例えば、非特許文献4)。
図3は、経路探索部30の構成を示す図である。経路探索部30は、探索部52と、入力記号取得部54と、出力記号取得部56と、対応関係取得部58と、入力記号記憶部60と、出力記号記憶部62と、対応関係記憶部64と、付加記号取得部66と、出力部68とを有する。
探索部52は、スコア算出部26により算出されたスコアベクトル列における尤もらしい音響スコアを辿る入力記号の経路を探索することにより、入力記号列を生成する。さらに、探索部52は、入力記号列に含まれる入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、音声信号の認識結果を表す出力記号を生成する。探索部52は、探索モデル記憶部28に記憶された探索モデルを用いて入力記号列を生成してよい。また、探索部52は、探索モデルを用いて出力記号を生成してもよい。
また、探索部52は、入力記号列を生成した後に、入力記号列に基づき出力記号を生成してもよい。また、探索部52は、入力記号列および出力記号を一括して生成してもよい。また、探索部52は、1個の入力記号列を生成してもよいし、M個の入力記号列を生成してもよい。また、探索部52は、それぞれの入力記号列から、1つの出力記号を生成してもよいし、時系列に並んだ複数の出力記号を生成してもよい。
探索モデルは、探索部52に対して探索のために用いるデータを与える。例えば、探索部52が用いる探索モデルは、重み付き有限状態トランスデューサ(WFST)である。この場合、探索部52は、ビタビアルゴリズムにより音響スコアの累積値が最良となるような入力記号の経路を探索する。また、探索部52が用いる探索モデルは、RNNまたはRNNから派生したネットワークであってもよい。このような探索モデルを用いることによって、探索部52は、入力記号の経路として探索できる経路に制限を設けたり、探索時に優先する経路を指定したり、音響スコアが悪くても優先的に生成する入力記号列を指定することができる。さらに、探索モデルは、入力記号列と出力記号との対応関係を表す情報を含む。探索モデルがWFSTの場合、探索部52は、入力記号の経路をWFST上の経路、すなわち、WFSTの状態と遷移の組み合わせによって記憶してもよい。
入力記号取得部54は、探索部52が探索により生成した入力記号列を取得する。入力記号取得部54は、探索部52がM個の入力記号列を生成した場合には、M個の入力記号列を取得する。
出力記号取得部56は、探索部52が探索により得た出力記号を取得する。出力記号取得部56は、探索部52が1個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、複数の出力記号を取得する。また、出力記号取得部56は、探索部52が探索によりM個の入力記号列を生成した場合には、それぞれの入力記号列について出力記号を取得する。
対応関係取得部58は、探索部52が探索により得た入力記号列および出力記号に基づき、入力記号列における出力記号に対応する範囲を示す対応関係情報を取得する。対応関係取得部58は、探索部52が1個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、それぞれの出力記号について、対応関係情報を取得する。また、出力記号取得部56は、探索部52がM個の入力記号列を生成した場合には、それぞれの入力記号列について対応関係情報を取得する。
入力記号記憶部60は、入力記号取得部54が取得した入力記号列を記憶する。出力記号記憶部62は、出力記号取得部56が取得した出力記号を記憶する。対応関係記憶部64は、対応関係取得部58が取得した対応関係情報を記憶する。
付加記号取得部66は、出力記号記憶部62に記憶された出力記号および対応関係記憶部64に記憶された対応関係情報を読み出す。そして、付加記号取得部66は、入力記号記憶部60に記憶された入力記号列における出力記号に対応する範囲に含まれる入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得する。また、付加記号取得部66は、1個の入力記号列から時系列に並んだ複数の出力記号を生成した場合には、それぞれの出力記号について、付加記号を取得する。また、付加記号取得部66は、探索部52がM個の入力記号列を生成した場合には、それぞれの入力記号列に含まれる出力記号について、付加記号を取得する。
出力部68は、出力記号と、取得した付加記号とを対応付けて出力する。出力部68は、探索部52が時系列に並んだ複数の出力記号を生成した場合には、複数の出力記号の時系列が識別可能なように出力するとともに、それぞれの出力記号に対応付けて、対応する付加記号を出力する。また、探索部52がM個の入力記号列を生成した場合には、それぞれの入力記号列に含まれる出力記号について、出力記号と、取得した付加記号とを対応付けて出力する。
図4は、経路探索部30の処理フローを示す図である。経路探索部30は、最良の1個の入力記号列を生成する場合、図4に示すような手順で処理を実行する。
まず、S11において、経路探索部30は、スコアベクトル列を取得する。続いて、S12において、経路探索部30は、スコアベクトル列に基づき、尤もらしい入力記号の経路を探索して、1個の入力記号列を生成する。例えば、経路探索部30は、フレーム毎に音響スコアが最も良い入力記号を選択して連結することにより、入力記号列を生成してもよい。また、例えば、経路探索部30は、WFST等の探索モデルを用いてビタビアルゴリズム等により最良の経路を探索して、入力記号列を生成してもよい。
続いて、S13において、経路探索部30は、入力記号列の中で、複数の認識対象記号が連続する部分を検出し、連続する複数の認識対象記号のうち何れか1つを残し、他を削除する。これにより、経路探索部30は、同一の言語情報が重複して認識されてしまうことを回避することができる。
例えば、経路探索部30は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の1つを残し、2番目以降を削除する。これに代えて、経路探索部30は、入力記号列の中で、連続する複数の認識対象記号のうち、最後の1つを残し、他を削除してもよい。
続いて、S14において、経路探索部30は、S13の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。すなわち、経路探索部30は、入力記号列から、付加記号および対象外記号を削除する。
続いて、S15において、経路探索部30は、S13およびS14の処理をした後の入力記号列から、出力記号を生成する。すなわち、経路探索部30は、認識対象記号のみを含む入力記号列から、出力記号を生成する。
例えば、経路探索部30は、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、入力記号列と出力記号との対応表である探索モデルは、発音記号の列と単語とを対応付けた発音辞書であってよい。また、経路探索部30は、1個の入力記号列から時系列に複数の出力記号を生成してもよい。
なお、経路探索部30は、S12、S13、S14およびS15の処理をそれぞれ独立に実行してもよい。また、経路探索部30は、探索モデルがWFSTである場合、S12、S13、S14およびS15の処理を一括して処理してよい。この場合、経路探索部30は、入力記号列および出力記号を後から参照できるように探索結果を記憶しておく。
続いて、S16において、経路探索部30は、それぞれの出力記号について、対応関係情報を生成する。対応関係情報は、入力記号列における、その出力記号に対応する範囲を示す。
ここで、入力記号列における出力記号に対応する範囲は、出力記号の生成の元となる認識対象記号を全て含む連続した範囲である。さらに、入力記号列における出力記号に対応する範囲は、前後の他の出力記号に対応する範囲と境界が隣接する範囲であってもよい。
なお、経路探索部30は、出力記号と入力記号列との対応関係を解析して、範囲の境界を検出する。これに代えて、経路探索部30は、探索モデルまたは他の情報に基づき、境界を検出してもよい。
続いて、S17において、経路探索部30は、それぞれの出力記号について、入力記号列における対応関係情報に示された範囲に含まれる入力記号の中から、付加記号を取得する。続いて、S18において、経路探索部30は、出力記号と、取得した付加記号とを対応付けて出力する。
なお、経路探索部30は、M個の入力記号列を生成してもよい。この場合、経路探索部30は、S12〜S18の処理をそれぞれの入力記号列について実行する。また、探索モデルがWFSTの場合、経路探索部30は、S12から15までの処理を一括して実行することにより、M個の入力記号列を生成することができる。
図5、図6、図7、図8、図9および図10は、アルファベットを認識する場合における経路探索部30の処理内容を説明するための図である。経路探索部30は、図4の処理フローに従ってアルファベットを認識する場合には、次のような処理を実行する。
なお、この場合、音響モデルは、記号集合に含まれるアルファベットの入力記号を認識するように学習装置により予め訓練されている。また、認識対象記号は、音素記号である場合が多いが、ここでは、アルファベットを認識するように音響モデルが学習されている。このような学習方法は、例えば、非特許文献3に記載されている。
例えば、S12において、経路探索部30は、図5に示すような、入力記号列を生成する。ここで、例えば、予め定められた記号集合が下記の通りであったとする。
記号集合(入力記号の集合)={ε,a,d,g,h,o,<f>,<g>,<q>}
また、入力記号のうち、認識対象記号が下記の通りであったとする。
認識対象記号の集合={a,d,g,h,o}
また、入力記号のうち、付加記号が下記のとおりであったとする。なお、<f>は、パラ言語情報の一つであるフィラーを表す記号である。また、<g>は、非言語情報の一つである語断片を表す記号である。<q>は、パラ言語情報の一つである質問を表す記号である。
付加記号の集合={<f>,<g>,<q>}
また、入力記号のうち、対象外記号が下記の通りであったとする。なお、εは、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。
対象外記号=ε
S13において、経路探索部30は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の1つを残し、2番目以降を削除する。例えば、図6の例においては、3番目の入力記号および4番目の入力記号が共に“a”である。また、13番目の入力記号および14番目の入力記号が共に“g”である。そこで、S13において、経路探索部30は、3番目の入力記号を残し、4番目の入力記号を削除する。また、経路探索部30は、13番目の入力記号を残し、14番目の入力記号を削除する。
続いて、S14において、経路探索部30は、S13の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。例えば、図7の例に示すように、経路探索部30は、入力記号列から、“<f>”、“<g>”、“<q>”および“ε”を削除し、“a”,“d”,“g”,“h”,“o”を残存させる。
続いて、S15において、経路探索部30は、S13およびS14の処理をした後の入力記号列から、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、図8に示すように、経路探索部30は、入力記号列である“ahggood”から、3つの出力記号“h=ah”、“h=g”および“h=good”を生成する。なお、出力記号“h”の下付の添え字は、出力記号の発生順序を表す。
続いて、S16において、経路探索部30は、それぞれの出力記号について、対応関係情報を生成する。ここで、入力記号列における出力記号に対応する範囲は、出力記号の生成の元となる認識対象記号を全て含む連続した範囲である。さらに、入力記号列における出力記号に対応する範囲は、前後の他の出力記号に対応する範囲と境界が隣接する範囲であってもよい。
例えば、図9に示す例において、1番目の出力記号“h=ah”について、入力記号列の対応する範囲は、1番目の入力記号から12番目の入力記号までである。また、2番目の出力記号“h=g”について、入力記号列の対応する範囲は、13番目の入力記号から18番目の入力記号までである。また、3番目の出力記号“h=good”について、入力記号列の対応する範囲は、19番目の入力記号から32番目の入力記号までである。
図9の例において、範囲の先頭側の境界は、1番目の出力記号の場合、入力記号列の先頭であり、2番目以降の出力記号の場合、その出力記号に対応する先頭の認識対象記号の直前である。また、図9の例において、範囲の末尾側の境界は、最後の出力記号の場合、入力記号列の最後であり、最後以外の出力記号の場合、次の出力記号の先頭側の境界と同一である。これにより、経路探索部30は、入力記号列における出力記号に対応する範囲を、前後の他の出力記号に対応する範囲と境界が隣接する範囲とすることができる。
なお、経路探索部30は、S13において連続する複数の認識対象記号のうち先頭の1つを残し、2番目以降を削除する場合には、この図9のように境界を定める。しかし、S13において連続する複数の認識対象記号のうち、最後の1つを残し、他を削除する場合には、範囲の末尾側の境界は、最後の出力記号の場合、入力記号列の最後であり、最後以外の出力記号の場合、その出力記号に対応する最後の認識対象記号の直後である。そして、範囲の先頭側の境界は、1番目の出力記号の場合、入力記号列の先頭であり、2番目以降の出力記号の場合、直前の出力記号の末尾側の境界と同一である。
続いて、S17において、経路探索部30は、それぞれの出力記号について、入力記号列における対応関係情報に示された範囲に含まれる入力記号の中から、付加記号を取得する。
例えば、図10の例の場合、1番目の出力記号“h=ah”における入力記号列の対応する範囲(1番目から12番目)には、“<f>”が含まれる。従って、経路探索部30は、1番目の出力記号“h=ah”に対応させて“<f>”を取得する。また、例えば、2番目の出力記号“h=g”における入力記号列の対応する範囲(13番目から18番目)には、“<g>”が含まれる。従って、経路探索部30は、2番目の出力記号“h=g”に対応させて“<g>”を取得する。例えば、3番目の出力記号“h=good”における入力記号列の対応する範囲(19番目から32番目)には、“<q>”が含まれる。従って、経路探索部30は、2番目の出力記号“h=good”に対応させて“<q>”を取得する。
続いて、S18において、経路探索部30は、出力記号と、取得した付加記号とを対応付けて出力する。例えば、図10の例の場合、経路探索部30は、1番目の出力記号“h=ah”に対応させて、取得した付加記号を含む付加情報“p={<f>}”を出力する。また、経路探索部30は、2番目の出力記号“h=g”に対応させて、取得した付加記号を含む付加情報“p={<g>}”を出力する。また、経路探索部30は、3番目の出力記号“h=good”に対応させて、取得した付加記号を含む付加情報“p={<q>}”を出力する。
図11、図12、図13、図14、図15および図16は、日本語を認識する場合における経路探索部30の処理内容を説明するための図である。経路探索部30は、図4の処理フローに従って日本語を認識する場合には、次のような処理を実行する。なお、この場合、音響モデルは、記号集合に含まれる日本語の入力記号を認識するように学習装置により予め訓練されている。
例えば、S12において、経路探索部30は、図11に示すような、入力記号列を生成する。ここで、例えば、予め定められた記号集合が下記の通りであったとする。
記号集合(入力記号の集合)={ε,あ,い,き,す,て,わ,ん,<f>,<g>,<q>}
また、入力記号のうち、認識対象記号が下記の通りであったとする。
認識対象記号の集合={あ,い,き,す,て,わ,ん}
また、入力記号のうち、付加記号が下記のとおりであったとする。
付加記号の集合={<f>,<g>,<q>}
また、入力記号のうち、対象外記号が下記の通りであったとする。
対象外記号=ε
続いて、S13において、経路探索部30は、入力記号列の中で、連続する複数の認識対象記号のうち、先頭の1つを残し、2番目以降を削除する。例えば、図12の例においては、3番目の入力記号および4番目の入力記号が共に同一の認識対象記号である。また、11番目の入力記号および12番目の入力記号が共に同一の認識対象記号である。また、26番目の入力記号および27番目の入力記号が共に同一の認識対象記号である。そこで、S13において、経路探索部30は、これらのうち、先頭の入力文字を残し、残りを削除する。
続いて、S14において、経路探索部30は、S13の処理をした後の入力記号列に対して、認識対象記号を残存させ、認識対象記号以外の入力記号を削除する。例えば、図13の例に示すように、経路探索部30は、入力記号列から、“<f>”、“<g>”、“<q>”および“ε”を削除する。
続いて、S15において、経路探索部30は、S13およびS14の処理をした後の入力記号列から、入力記号列と出力記号との対応表である探索モデルを参照して、入力記号列の先頭から順に、入力記号列の一部分と一致する出力記号を順次に抽出する。例えば、図14に示すように、経路探索部30は、入力記号列から、6つの出力記号を生成する。
続いて、S16において、経路探索部30は、それぞれの出力記号について、対応関係情報を生成する。
例えば、図15に示す例において、1番目の出力記号“h”について、入力記号列の対応する範囲は、1番目の入力記号から7番目の入力記号までである。また、2番目の出力記号“h”について、入力記号列の対応する範囲は、8番目の入力記号から10番目の入力記号までである。また、3番目の出力記号“h”について、入力記号列の対応する範囲は、11番目の入力記号から22番目の入力記号までである。また、4番目の出力記号“h”について、入力記号列の対応する範囲は、23番目の入力記号から30番目の入力記号までである。また、5番目の出力記号“h”について、入力記号列の対応する範囲は、31番目の入力記号から34番目の入力記号までである。また、6番目の出力記号“h”について、入力記号列の対応する範囲は、35番目の入力記号から44番目の入力記号までである。
続いて、S17において、経路探索部30は、それぞれの出力記号について、入力記号列における対応関係情報に示された範囲に含まれる入力記号の中から、付加記号を取得する。
例えば、図16の例の場合、1番目の出力記号“h”における入力記号列の対応する範囲(1番目から7番目)には、付加記号が含まれない。また、例えば、2番目の出力記号“h”における入力記号列の対応する範囲(8番目から10番目)には、付加記号が含まれない。例えば、3番目の出力記号“h”における入力記号列の対応する範囲(11番目から22番目)には、“<f>”が含まれる。また、例えば、4番目の出力記号“h”における入力記号列の対応する範囲(23番目から30番目)には、付加記号が含まれない。例えば、5番目の出力記号“h”における入力記号列の対応する範囲(31番目から34番目)には、“<g>”が含まれる。例えば、6番目の出力記号“h”における入力記号列の対応する範囲(35番目から44番目)には、“<q>”が含まれる。
続いて、S18において、経路探索部30は、出力記号と、取得した付加記号とを対応付けて出力する。
例えば、図16の例の場合、経路探索部30は、1番目の出力記号“h”に対応させて、何れの付加記号を含まない付加情報“p={}”を出力する。また、経路探索部30は、2番目の出力記号“h”に対応させて、何れの付加記号を含まない付加情報“p={}”を出力する。また、経路探索部30は、3番目の出力記号“h”に対応させて、取得した付加記号を含む付加情報“p={<f>}”を出力する。また、経路探索部30は、4番目の出力記号“h”に対応させて、何れの付加記号を含まない付加情報“p={}”を出力する。また、経路探索部30は、5番目の出力記号“h”に対応させて、取得した付加記号を含む付加情報“p={<g>}”を出力する。また、経路探索部30は、6番目の出力記号“h”に対応させて、取得した付加記号を含む付加情報“p={<q>}”を出力する。
図17は、音声認識装置10による認識処理を表す疑似コードの一例を示す図である。音声認識装置10は、一例として、図17に示す疑似コードを1行目から順次に実行する。
1行目では、音声認識装置10は、ξに、ξinitialを代入する。ξは、探索中の複数の入力記号列および対応する出力記号を格納する。例えば、ξは、ビタビアルゴリズムで探索したWFSTの経路を格納してもよい。ξinitialは、ξの初期状態を示す。音声認識装置10は、1行目を実行することにより、ξを初期化することができる。
2行目は、iに1からNまでの整数を順次に代入し、iに整数を代入する毎に、3行目から5行目までの処理を繰り返すことを示す。iは、変数である。Nは、音声信号のフレームの総数である。音声認識装置10は、音声信号の1番目のフレームからN番目のフレームのそれぞれについて、3行目から5行目までの処理を実行する。
3行目では、音声認識装置10は、vに、extract_features(f)の処理結果を代入する。vは、特徴ベクトルを格納する変数である。fは、i番目のフレームの音声信号である。extract_features(f)は、i番目のフレームの音声信号から特徴ベクトルを算出する関数である。音声認識装置10は、3行目を実行することにより、i番目のフレームの特徴ベクトルを算出することができる。
4行目では、音声認識装置10は、sに、calc_scores(v)を代入する。sは、スコアベクトルを格納する変数である。calc_scores(v)は、特徴ベクトルからスコアベクトルを算出する関数である。音声認識装置10は、4行目を実行することにより、i番目のフレームのスコアベクトルを算出することができる。
5行目では、音声認識装置10は、ξに、search(ξ,s)の処理結果を代入する。search(ξ,s)は、新たなスコアベクトルを追加したスコアベクトル列から、入力記号列および出力記号の探索結果を取得する関数である。音声認識装置10は、5行目を実行することにより、1からi番目のフレームまでを探索した段階における、入力記号列および出力記号を生成することができる。ビタビアルゴリズムでWFSTの経路を探索している場合は、音声認識装置10は、新たなスコアベクトル1つ分だけWFSTの経路を延ばし、その経路を処理結果としてξに格納してもよい。
そして、音声認識装置10は、i=Nとなるまで3行目から5行目の処理を繰り返すことにより、音声信号を認識した結果である入力記号列および出力記号を生成することができる。
6行目では、音声認識装置10は、hに、best(ξ)の処理結果を代入する。hは、出力記号と、出力記号の順序を表すインデックスとの組を要素とする集合を格納する変数である。best(ξ)は、ξに保持されている1または複数の出力記号と、それぞれの出力記号の順序とを取得する関数である。音声認識装置10は、6行目を実行することにより、音声信号の認識結果である1または複数の出力記号およびそれぞれの出力記号の順序を取得することができる。ビタビアルゴリズムでWFSTの経路を探索している場合、best(ξ)は、ξに保持されている経路から、1または複数の出力記号と、それぞれの出力記号の順序とを取得する。
7行目では、音声認識装置10は、Ψに、空集合を代入する。図中の0に/を重ねた記号は空集合を表している。Ψは、出力記号の順序を表すインデックスと、その出力記号に対応する付加記号の集合との組を、要素とする集合を格納する変数である。音声認識装置10は、7行目を実行することにより、Ψを空集合にすることができる。
8行目は、iに1から|h|までの整数を順次に代入し、iに整数を代入する毎に、9行目から14行目までの処理を繰り返すことを示す。|h|は、Ψに保持されている出力記号の個数である。従って、音声認識装置10は、1番目の出力記号から|h|番目の出力記号のそれぞれについて、9行目から14行目までの処理を実行する。
9行目では、音声認識装置10は、Aに、空集合を代入する。Aは、付加記号の集合である。音声認識装置10は、9行目を実行することにより、Aを空集合にすることができる。
10行目では、音声認識装置10は、πに、get_symbol_sequence(h)を代入する。πは、入力記号の集合である。get_symbol_sequence(h)は、ξに保持されている入力記号列における、i番目の出力記号に対応する範囲に含まれる1または複数の入力記号を取得する関数である。音声認識装置10は、10行目を実行することにより、入力記号列における、i番目の出力記号に対応する範囲に含まれる1または複数の入力記号を取得することができる。ビタビアルゴリズムでWFSTの経路を探索している場合、get_symbol_sequence(h)は、ξに保持されている経路のうち、i番目の出力記号に対応する部分に含まれる1または複数の入力記号を取得する。
11行目は、R\Lに含まれる要素であるσ毎に、12行目から13行目までの処理を実行することを示す。Rは、全ての認識対象記号と全ての付加記号とを含む集合である。Lは、全ての認識対象記号を含む集合である。R\Lは、RからLを除いた集合である。すなわち、R\Lは、全ての付加記号を含む集合である。従って、音声認識装置10は、全ての付加記号毎に、12行目から13行目までの処理を繰り返し実行する。
12行目では、音声認識装置10は、πにσが含まれるか否かを判断する。音声認識装置10は、πにσが含まれると判断した場合、13行目を実行する。
13行目では、音声認識装置10は、Aにσを代入する。従って、音声認識装置10は、12行目および13行目を実行することにより、入力記号列におけるi番目の出力記号に対応する範囲に含まれる付加記号を取得することができる。
14行目では、音声認識装置10は、出力記号の順序を表すインデックスであるiと、付加記号の集合であるAとの組を、Ψに追加する。これにより、音声認識装置10は、i番目の出力記号に対応する付加記号をΨに追加することができる。
15行目では、音声認識装置10は、hおよびΨを上位のプログラムに返す。これにより、音声認識装置10は、複数の出力記号と、それぞれの出力記号に対応する付加記号とを出力することができる。
図18は、図17の疑似コードにより認識されるアルファベットの記号の一例を示す図である。図18のAは、記号集合(入力記号の集合)であるΣ、認識対象記号の集合であるL、認識対象記号と付加記号との集合であるR、付加記号の集合であるR\Lの一例を示す。図18のBは、入力記号列であるπの一例を示す。図18のCは、出力記号h、h、hの一例を示す。
図18に示す入力記号列“π”における、1番目の出力記号“h=ah”に対応する範囲は、例えば、下記の通りであったとする。
εεaa<f>εεh<f>εε
この場合、hについて、疑似コードの10行目が実行されると、π=“εεaa<f>εεh<f>εε”となる。続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<f>}となる。続いて、14行目が実行されると、Ψ={1,{<f>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、1番目の出力記号が、フィラーであることを識別することができる。
また、入力記号列“π”における、2番目の出力記号“h=g”に対応する範囲は、例えば、下記の通りであったとする。
ggεε<g>ε
この場合、hについて、疑似コードの10行目が実行されると、π=“ggεε<g>ε”となる。続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<g>}となる。続いて、14行目が実行されると、Ψ={2,{<g>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、2番目の出力記号が、語断片であることを識別することができる。
また、もし、2番目の出力記号“h=g”に対応する入力記号列が、例えば下記の通りであったとする。
ggεε<g>ε<f>ε
この場合、Ψ={2,{<f>,<g>}}となり、複数の付加記号が含まれる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、2番目の出力記号が、フィラーかつ語断片であることを識別することができる。
また、入力記号列“π”における、3番目の出力記号“h=good”に対応する範囲は、例えば、下記の通りであったとする。
gεoεεεoεdε<q>εεε
この場合、hについて、疑似コードの10行目が実行されると、π=“gεoεεεoεdε<q>εεε”となる。続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<q>}となる。続いて、14行目が実行されると、Ψ={3,{<q>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、3番目の出力記号である出力記号が、語断片であることを識別することができる。
図19は、図17の疑似コードにより認識される日本語の記号の一例を示す図である。図19のAは、記号集合(入力記号の集合)であるΣ、認識対象記号の集合であるL、認識対象記号と付加記号の集合であるR、付加記号の集合であるR\Lの一例を示す。図19のBは、入力記号列であるπの一例を示す。図19のCは、出力記号h、h、h、h、h、hの一例を示す。
入力記号列“π”における、1番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
εεああεすε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=εεああεすε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={}となる。続いて、14行目が実行されると、Ψ={1,{}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、1番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。ここで、{}は空集合を表す。すなわち、この場合、{}は何れの付加記号も含まないことを意味する。
図19に示す入力記号列“π”における、2番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
わεε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=わεε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={}となる。続いて、14行目が実行されると、Ψ={2,{}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、2番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。
入力記号列“π”における、3番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
ああεε<f>εあεεε<f>ε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=ああεε<f>εあεεε<f>ε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<f>}となる。続いて、14行目が実行されると、Ψ={3,{<f>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、3番目の出力記号が、フィラーであることを識別することができる。
入力記号列“π”における、4番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
いεεいいεεε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=いεεいいεεε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={}となる。続いて、14行目が実行されると、Ψ={4,{}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、4番目の出力記号が、パラ言語情報および非言語情報ではないことを識別することができる。
入力記号列“π”における、5番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
て<g>んε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=て<g>んε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<g>}となる。続いて、14行目が実行されると、Ψ={5,{<g>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、5番目の出力記号が、語断片であることを識別することができる。
入力記号列“π”における、6番目の出力記号“h”に対応する範囲は、例えば、下記の通りであったとする。
てεんεεきεε<q>ε
この場合、hについて、疑似コードの10行目が実行されると、下記のようになる。
π=てεんεεきεε<q>ε
続いて、hについて、疑似コードの11行目から13行目が実行されると、A={<q>}となる。続いて、14行目が実行されると、Ψ={6,{<q>}}となる。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、6番目の出力記号が、質問であることを識別することができる。
以上のように本実施形態に係る音声認識装置10によれば、音声信号に含まれる言語情報と、言語情報に付随するパラ言語情報および/または非言語情報とを認識することができる。そして、音声認識装置10によれば、認識した言語情報に対応する出力記号と、認識した言語情報に付随するパラ言語情報および/または非言語情報に対応する付加記号とを対応付けて出力することができる。
(第1変形例)
第1変形例において、出力部68は、出力記号と、入力記号列における出力記号に対応する範囲に含まれる全ての入力記号と対応付けて出力してもよい。この場合、音声認識装置10により認識された結果を用いるアプリケーションは、受け取った1または複数の入力記号の中に付加記号が含まれるか否かを解析する。
例えば、図16の疑似コードにおける、14行目の(i,A)を、(i,π)と置き換える。これにより、音声認識装置10は、出力記号と、入力記号列における出力記号に対応する範囲に含まれる全ての入力記号と対応付けて出力することができる。また、この場合、音声認識装置10により認識された結果を用いるアプリケーションは、図16の疑似コードにおける11行目から13行目に対応する処理を実行する。これにより、アプリケーションは、それぞれの出力記号に対応する付加記号を取得することができる。
(第2変形例)
図20は、第2変形例に係る音声認識装置10による認識処理を表す疑似コードの一例を示す図である。第2変形例において、付加記号取得部66は、入力記号列における出力記号に対応する範囲に含まれる付加記号の個数に基づき、取得した付加記号の信頼度を算出する。そして、出力部68は、算出した信頼度を対応する付加記号とともに出力する。
例えば、付加記号取得部66は、入力記号列における出力記号に対応する範囲に含まれる認識対象記号の個数に対する、入力記号列における出力記号に対応する範囲に含まれる付加記号の個数の割合を信頼度として算出する。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、パラ言語情報または非言語情報を、信頼度に応じて用いることができる。
第2変形例に係る音声認識装置10は、例えば、図20に示す疑似コードを1行目から順次に実行する。図20に示す疑似コードは、図17に示した疑似コードの一部を変更したコードである。具体的には、図17に示した疑似コードの12行目および13行目が、図20に示す疑似コードの12行目から19行目までに置き換わっている。また、図17に示した疑似コードの14行目および15行目が、図20に示す疑似コードの20行目および21行目に置き換わっている。以下、相違点を中心に説明する。
11行目は、R\Lに含まれる要素であるσ毎に、12行目から20行目までの処理を実行することを示す。従って、音声認識装置10は、全ての付加記号毎に、12行目から20行目までの処理を繰り返し実行する。
12行目では、音声認識装置10は、cに0を代入し、dに0を代入する。cおよびdは、変数である。
13行目では、jに1から|π|までの整数を順次に代入し、jに整数を代入する毎に、14行目から17行目までの処理を繰り返すことを示す。|π|は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる入力記号の個数である。従って、音声認識装置10は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる、1番目の入力記号から|π|番目の入力記号のそれぞれについて、14行目から17行目までの処理を実行する。
14行目では、音声認識装置10は、πとσとが同一であるか否かを判断する。πは、入力記号列におけるi番目の出力記号に対応する範囲における、j番目の入力記号である。音声認識装置10は、πとσとが同一である場合、15行目を実行し、同一でない場合、15行目をスキップする。
15行目では、音声認識装置10は、cに1を加算する。
16行目では、音声認識装置10は、πがLに含まれるか否かを判断する。Lは、全ての認識対象記号を含む集合である。すなわち、音声認識装置10は、πが何れかの認識対象記号であるかを判断する。音声認識装置10は、πがLに含まれる場合、17行目を実行し、含まれない場合、17行目をスキップする。
17行目では、音声認識装置10は、dに1を加算する。
18行目では、音声認識装置10は、cが0より大きいか否かを判断する。18行目において、cは、入力記号列におけるi番目の出力記号に対応する範囲に含まれるσで特定される付加記号の個数を表す。従って、音声認識装置10は、18行目を実行することにより、入力記号列におけるi番目の出力記号に対応する範囲に、σで特定される付加記号が含まれているか否かを判断している。音声認識装置10は、cが0より大きい場合、19行目を実行し、含まれない場合、19行目をスキップする。
19行目では、音声認識装置10は、Aに、σとc/dとの組を代入する。c/dは、入力記号列におけるi番目の出力記号に対応する範囲に含まれる認識対象記号の個数に対する、入力記号列におけるi番目の出力記号に対応する範囲に含まれるσで特定される付加記号の個数である。すなわち、c/dは、付加記号であるσの信頼度を表す。従って、音声認識装置10は、19行目を実行することにより、入力記号列におけるi番目の出力記号に対応する範囲に含まれる付加記号と、その付加記号の信頼度との組を取得することができる。
20行目では、音声認識装置10は、出力記号の順序を表すインデックスであるiと、付加記号と信頼度との組の集合であるAとの組を、Ψに追加する。これにより、音声認識装置10は、i番目の出力記号に対応する付加記号と信頼度との組をΨに追加することができる。
21行目では、音声認識装置10は、hおよびΨを上位のプログラムに返す。これにより、音声認識装置10は、複数の出力記号と、それぞれの出力記号に対応する付加記号および信頼度とを出力することができる。
(第3変形例)
第3変形例に係る付加記号取得部66は、入力記号列における出力記号に対応する範囲に含まれる付加記号の位置に基づき、取得した付加記号の信頼度を算出する。例えば、付加記号取得部66は、入力記号列における出力記号に対応する範囲の後ろの方に付加記号が位置する程、高い信頼度としてもよい。反対に、付加記号取得部66は、入力記号列における出力記号に対応する範囲の前の方に付加記号が位置する程、高い信頼度としてもよい。
例えば、図20の疑似コードにおける、15行目を下記のように置き換える。これにより、音声認識装置10は、入力記号列における出力記号に対応する範囲の後ろの方に付加記号が位置する程、高い信頼度とすることができる。
c←c+j
また、例えば、図20の疑似コードにおける、15行目を下記のように置き換える。これにより、音声認識装置10は、入力記号列における出力記号に対応する範囲の前の方に付加記号が位置する程、高い信頼度とすることができる。
c←c+|π|−j+1
(第4変形例)
図21は、第4変形例に係る音声認識装置10による認識処理を表す疑似コードの一例を示す図である。
第4変形例において、付加記号取得部66は、入力記号列における出力記号に対応する範囲内の予め定められた位置に含まれる付加記号を取得する。例えば、付加記号取得部66は、入力記号列における出力記号に対応する範囲内の、最後の認識対象記号より後ろに含まれる付加記号を取得する。これにより、音声認識装置10により認識された結果を用いるアプリケーションは、言語情報が発声された後の音響情報から抽出された、パラ言語情報または非言語情報を用いることができる。なお、付加記号取得部66は、予め定められた位置であれば、入力記号列における出力記号に対応する範囲内の何れの位置から付加記号を取得してもよい。
第4変形例に係る音声認識装置10は、例えば、図21に示す疑似コードを1行目から順次に実行する。図21に示す疑似コードは、図17に示した疑似コードの一部を変更したコードである。具体的には、図17に示した疑似コードの12行目および13行目が、図21に示す疑似コードの12行目から16行目までに置き換わっている。また、図17に示した疑似コードの14行目および15行目が、図20に示す疑似コードの17行目および18行目に置き換わっている。以下、相違点を中心に説明する。
12行目では、jに|π|から1までの整数を1ずつ値を減じながら順次に代入し、jに整数を代入する毎に、13行目から16行目までの処理を繰り返すことを示す。|π|は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる入力記号の個数である。従って、音声認識装置10は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる、|π|番目の入力記号から1番目の入力記号までのそれぞれについて、後の入力記号から順に、13行目から16行目までの処理を実行する。
13行目では、音声認識装置10は、πがLに含まれるか否かを判断する。Lは、全ての認識対象記号を含む集合である。πは、入力記号列におけるi番目の出力記号に対応する範囲における、j番目の入力記号である。すなわち、音声認識装置10は、πが何れかの認識対象記号であるかを判断する。音声認識装置10は、πがLに含まれる場合、14行目を実行し、含まれない場合、14行目をスキップする。
14行目では、音声認識装置10は、13行目から16行目までの繰り返しの処理を中断し、処理を11行目に戻す。
15行目では、音声認識装置10は、πとσとが同一であるか否かを判断する。音声認識装置10は、πとσとが同一である場合、16行目を実行し、同一でない場合、16行目をスキップする。
16行目では、音声認識装置10は、Aに、σを代入する。
17行目では、音声認識装置10は、出力記号の順序を表すインデックスであるiと、付加記号の集合であるAとの組を、Ψに追加する。これにより、音声認識装置10は、入力記号列における出力記号に対応する範囲内の、最後の認識対象記号より後ろに含まれる付加記号をΨに追加することができる。
なお、付加記号取得部66は、入力記号列における出力記号に対応する範囲内の、最初の認識対象記号より前の付加記号を取得してもよい。この場合、例えば、図21の疑似コードにおける、12行目を下記のように置き換える。これにより、音声認識装置10は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる、1番目の入力記号から|π|番目の入力記号までのそれぞれについて、前の入力記号から順に、13行目から16行目までの処理を実行する。
for j from 1 to |π|
また、付加記号取得部66は、入力記号列における出力記号に対応する範囲内の、中央位置から最後までの間の付加記号を取得してもよい。この場合、図21の疑似コードにおける13行目と14行目を除去して、12行目を下記のように置き換える。これにより、音声認識装置10は、入力記号列におけるi番目の出力記号に対応する範囲に含まれる、中央位置から|π|番目の入力記号までのそれぞれについて、順次に、15行目から16行目までの処理を実行する。
for j ceil(|π|/2)to |π|
なお、ceil(|π|/2)は、|π|/2の小数点以下を切り上げる関数である。なお、付加記号取得部66は、コードにより特定することが可能な位置であれば、入力記号列における出力記号に対応する範囲内の何れの位置から付加記号を取得してもよい。
図22は、音声認識装置10のハードウェアブロック図である。音声認識装置10は、一例として、一般のコンピュータ(情報処理装置)と同様のハードウェア構成により実現される。音声認識装置10は、CPU(Central Processing Unit)101と、操作部102と、表示部103、マイクロフォン104と、ROM(Read Only Memory)105と、RAM(Random Access Memory)106と、記憶部107と、通信装置108と、バス109とを備える。各部は、バス109により接続される。
CPU101は、RAM106の所定領域を作業領域としてROM105または記憶部107に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置10(特徴抽出部22、スコア算出部26および経路探索部30(入力記号取得部54、出力記号取得部56、対応関係取得部58、付加記号取得部66および出力部68を含む))を構成する各部の動作を統括的に制御する。また、CPU101は、ROM105または記憶部107に予め記憶されたプログラムとの協働により、操作部102、表示部103、マイクロフォン104および通信装置108等を実現させる。
操作部102は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU101に出力する。
表示部103は、LCD(Liquid Crystal Display)等の表示装置である。表示部103は、CPU101からの表示信号に基づいて、各種情報を表示する。例えば、表示部103は、出力記号および付加記号等を表示する。なお、通信装置108または記憶部107等に出力記号および付加記号等を出力する場合には、音声認識装置10は、表示部103を備えなくてもよい。
マイクロフォン104は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置108から入力される音声信号のパターン認識をする場合には、音声認識装置10は、マイクロフォン104を備えなくてもよい。
ROM105は、音声認識装置10の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。RAM106は、SDRAM(Synchronous Dynamic Random Access Memory)等の揮発性の記憶媒体である。RAM106は、CPU101の作業領域として機能する。具体的には、音声認識装置10が用いる各種変数およびパラメータ等を一時記憶するバッファ等として機能する。
記憶部107は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶部107は、音声認識装置10の制御に用いられるプログラムおよび各種設定情報等を記憶する。また、記憶部107は、音響モデル記憶部24、探索モデル記憶部28、入力記号記憶部60、出力記号記憶部62および対応関係記憶部64等が記憶する情報を記憶する。
通信装置108は、外部の機器と通信して、出力記号および付加記号等の出力等に用いられる。予め記録された音声信号またはマイクロフォン104から入力した音声信号のパターン認識をする場合であり、出力記号および付加記号等を表示部103または記憶部107に出力する場合には、音声認識装置10は、通信装置108を備えなくてもよい。
本実施形態の音声認識装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施形態の音声認識装置10で実行されるプログラムは、上述した特徴抽出モジュール、スコア算出モジュールおよび経路探索モジュール(入力記号取得モジュール、出力記号取得モジュール、対応関係取得モジュール、付加記号取得モジュールおよび出力モジュールを含む)を含むモジュール構成となっており、CPU101(プロセッサ)が記憶媒体等からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、特徴抽出部22、スコア算出部26および経路探索部30(入力記号取得部54、出力記号取得部56、対応関係取得部58、付加記号取得部66および出力部68を含む)が主記憶装置上に生成されるようになっている。なお特徴抽出部22、スコア算出部26および経路探索部30の一部または全部がハードウェアにより構成されていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10 音声認識装置
22 特徴抽出部
24 音響モデル記憶部
26 スコア算出部
28 探索モデル記憶部
30 経路探索部
42 入力層
44 中間層
46 出力層
52 探索部
54 入力記号取得部
56 出力記号取得部
58 対応関係取得部
60 入力記号記憶部
62 出力記号記憶部
64 対応関係記憶部
66 付加記号取得部
68 出力部
101 CPU
102 操作部
103 表示部
104 マイクロフォン
105 ROM
106 RAM
107 記憶部
108 通信装置
109 バス

Claims (18)

  1. 音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する算出部と、
    前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する探索部と、
    前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得する付加記号取得部と、
    前記出力記号と、取得した前記付加記号とを対応付けて出力する出力部と
    を備える音声認識装置。
  2. 前記入力記号は、前記音声信号に含まれる音響情報を表し、
    前記音響スコアは、対応する前記入力記号により表される前記音響情報が、前記音声信号に含まれている尤もらしさを表す
    請求項1に記載の音声認識装置。
  3. 前記パラ言語情報は、話し手が発声することにより前記音声信号に付加した、前記言語情報からは識別できない情報であり、
    前記非言語情報は、前記音声信号に含まれる前記話し手の特徴を表す情報である
    請求項2に記載の音声認識装置。
  4. 前記言語情報、前記パラ言語情報および前記非言語情報のそれぞれは、前記音響情報の一つであり、
    前記記号集合は、前記入力記号として、前記認識対象記号および前記付加記号を含む
    請求項3に記載の音声認識装置。
  5. 無音情報は、前記音響情報の一つであり、
    前記記号集合は、前記認識対象記号として、前記無音情報を表す無音記号をさらに含む
    請求項4に記載の音声認識装置。
  6. 対象外記号は、前記認識対象記号および前記付加記号が表す前記音響情報のうち、何れの前記音響情報が前記音声信号に含まれているかが未定であることを表す記号であり、
    前記記号集合は、前記入力記号として、対象外記号をさらに含む
    請求項4または5に記載の音声認識装置。
  7. 前記出力部は、前記入力記号列に基づき生成した複数の前記出力記号を出力する
    請求項1から6の何れか1項に記載の音声認識装置。
  8. それぞれの前記出力記号について、前記入力記号列における前記出力記号に対応する範囲を示す対応関係情報を取得する対応関係取得部をさらに備え、
    前記付加記号取得部は、それぞれの前記出力記号について、前記入力記号列における前記対応関係情報に示された範囲に含まれる前記入力記号の中から、前記付加記号を取得する
    請求項7に記載の音声認識装置。
  9. 前記入力記号列における前記出力記号に対応する範囲は、前記出力記号の生成の元となる前記認識対象記号を全て含む連続した範囲である
    請求項8に記載の音声認識装置。
  10. 前記入力記号列における前記出力記号に対応する範囲は、前後の他の前記出力記号に対応する範囲と境界が隣接する範囲である
    請求項9に記載の音声認識装置。
  11. 前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記付加記号の個数に基づき、取得した前記付加記号の信頼度を算出し、
    前記出力部は、前記信頼度を対応する前記付加記号とともに出力する
    請求項1から10の何れか1項に記載の音声認識装置。
  12. 前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲に含まれる前記付加記号の位置に基づき、取得した前記付加記号の信頼度を算出し、
    前記出力部は、前記信頼度を対応する前記付加記号とともに出力する
    請求項1から10の何れか1項に記載の音声認識装置。
  13. 前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲内の予め定められた位置に含まれる前記付加記号を取得する
    請求項1から12の何れか1項に記載の音声認識装置。
  14. 前記付加記号取得部は、前記入力記号列における前記出力記号に対応する範囲内の、最後の前記認識対象記号より後ろに含まれる前記付加記号を取得する
    請求項13に記載の音声認識装置。
  15. 前記探索部は、前記スコアベクトル列を探索して、1個の前記入力記号列を生成する
    請求項1から14の何れか1項に記載の音声認識装置。
  16. 前記探索部は、前記スコアベクトル列を探索して、M個(Mは2以上の整数)の前記入力記号列を生成し、
    前記探索部は、それぞれの前記入力記号列について、前記出力記号を生成し、
    前記付加記号取得部は、それぞれの前記入力記号列について、前記付加記号を取得し、
    前記出力部は、それぞれの前記入力記号列について、前記出力記号と前記付加記号とを対応付けて出力する
    請求項1から14の何れか1項に記載の音声認識装置。
  17. 情報処理装置が、音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出し、
    前記情報処理装置が、前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成し、
    前記情報処理装置が、前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得し、
    前記情報処理装置が、前記出力記号と、取得した前記付加記号とを対応付けて出力する
    音声認識方法。
  18. 情報処理装置を、
    音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含む複数のスコアベクトルが並んだスコアベクトル列を算出する算出部と、
    前記スコアベクトル列における尤もらしい前記音響スコアを辿る前記入力記号の経路を探索することにより入力記号列を生成し、前記入力記号列に含まれる前記入力記号のうちの認識対象の言語情報を表す認識対象記号に基づき、前記音声信号の認識結果を表す出力記号を生成する探索部と、
    前記入力記号列における前記出力記号に対応する範囲に含まれる前記入力記号の中から、パラ言語情報および/または非言語情報を表す付加記号を取得する付加記号取得部と、
    前記出力記号と、取得した前記付加記号とを対応付けて出力する出力部と
    して機能させるためのプログラム。
JP2016220855A 2016-11-11 2016-11-11 音声認識装置、音声認識方法およびプログラム Active JP6585022B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016220855A JP6585022B2 (ja) 2016-11-11 2016-11-11 音声認識装置、音声認識方法およびプログラム
US15/686,410 US10803858B2 (en) 2016-11-11 2017-08-25 Speech recognition apparatus, speech recognition method, and computer program product
CN201710759611.8A CN108074562B (zh) 2016-11-11 2017-08-30 语音识别装置、语音识别方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016220855A JP6585022B2 (ja) 2016-11-11 2016-11-11 音声認識装置、音声認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018077440A JP2018077440A (ja) 2018-05-17
JP6585022B2 true JP6585022B2 (ja) 2019-10-02

Family

ID=62108000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016220855A Active JP6585022B2 (ja) 2016-11-11 2016-11-11 音声認識装置、音声認識方法およびプログラム

Country Status (3)

Country Link
US (1) US10803858B2 (ja)
JP (1) JP6585022B2 (ja)
CN (1) CN108074562B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7199264B2 (ja) * 2019-03-18 2023-01-05 株式会社東芝 認識装置、認識方法及びプログラム
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
CN110310624A (zh) * 2019-07-03 2019-10-08 中山大学新华学院 一种高效副语音检测识别方法及装置
JP7290507B2 (ja) * 2019-08-06 2023-06-13 本田技研工業株式会社 情報処理装置、情報処理方法、認識モデルならびにプログラム
CN112420028B (zh) * 2020-12-03 2024-03-19 上海欣方智能***有限公司 一种用于对语音信号进行语义识别的***及方法
US20240062021A1 (en) * 2022-08-22 2024-02-22 Oracle International Corporation Calibrating confidence scores of a machine learning model trained as a natural language interface

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287594A (ja) * 1994-04-20 1995-10-31 Hitachi Ltd 音声認識・言語処理装置
US6574595B1 (en) 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
US7103543B2 (en) 2001-05-31 2006-09-05 Sony Corporation System and method for speech verification using a robust confidence measure
EP1425737A4 (en) 2001-08-14 2005-11-09 Sony Electronics Inc SYSTEM AND METHOD FOR LANGUAGE VERIFICATION USING A ROBUST CONFERENCE MEASURE
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
US7711560B2 (en) 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP4790208B2 (ja) 2003-06-24 2011-10-12 中国塗料株式会社 エポキシ樹脂組成物、該組成物から形成された防食皮膜、および該防食皮膜で被覆された防食皮膜付き基材、並びに基材の防食方法
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
US7464031B2 (en) 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
JP2005352311A (ja) * 2004-06-11 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置および音声合成プログラム
JP4552533B2 (ja) * 2004-06-30 2010-09-29 ソニー株式会社 音響信号処理装置及び音声度合算出方法
CN1300763C (zh) * 2004-09-29 2007-02-14 上海交通大学 嵌入式语音识别***的自动语音识别处理方法
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4987530B2 (ja) * 2007-03-27 2012-07-25 三菱電機株式会社 音声認識辞書作成装置および音声認識装置
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
CN101647021B (zh) * 2007-04-13 2013-03-27 麻省理工学院 语音数据检索装置、语音数据检索方法、语音数据检索程序和包含有语音数据检索程序的计算机可用介质
JP2009146043A (ja) * 2007-12-12 2009-07-02 National Institute Of Information & Communication Technology 音声翻訳装置、音声翻訳方法、及びプログラム
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101763855B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
KR20120066530A (ko) * 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
CN102592595B (zh) * 2012-03-19 2013-05-29 安徽科大讯飞信息科技股份有限公司 语音识别方法及***
US8972243B1 (en) * 2012-11-20 2015-03-03 Amazon Technologies, Inc. Parse information encoding in a finite state transducer
DE112013006770B4 (de) * 2013-03-06 2020-06-18 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US20140337031A1 (en) 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
CN103680505A (zh) * 2013-09-03 2014-03-26 安徽科大讯飞信息科技股份有限公司 语音识别方法及***
JP6315980B2 (ja) 2013-12-24 2018-04-25 株式会社東芝 デコーダ、デコード方法およびプログラム
CN103730115B (zh) * 2013-12-27 2016-09-07 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
JP6301664B2 (ja) 2014-01-31 2018-03-28 株式会社東芝 変換装置、パターン認識システム、変換方法およびプログラム

Also Published As

Publication number Publication date
CN108074562A (zh) 2018-05-25
CN108074562B (zh) 2021-12-03
JP2018077440A (ja) 2018-05-17
US10803858B2 (en) 2020-10-13
US20180137863A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP6618884B2 (ja) 認識装置、認識方法およびプログラム
CN111798840B (zh) 语音关键词识别方法和装置
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JPS63259697A (ja) 音声認識方法
KR102298901B1 (ko) 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US10042345B2 (en) Conversion device, pattern recognition system, conversion method, and computer program product
CN112397056B (zh) 语音评测方法及计算机存储介质
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Kim et al. Improving end-to-end contextual speech recognition via a word-matching algorithm with backward search
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2000099084A (ja) 音声認識方法及びその装置
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
KR20230064466A (ko) 음성 인식 방법 및 장치
JP3586644B2 (ja) パターン認識装置とパターン認識方法および記録媒体
JPH0744188A (ja) 音声認識装置
JP2013045321A (ja) 発音複雑度算出装置、音声認識装置、発音複雑度算出方法、音声認識方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190904

R151 Written notification of patent or utility model registration

Ref document number: 6585022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151