JP6312942B2 - 言語モデル生成装置、言語モデル生成方法とそのプログラム - Google Patents

言語モデル生成装置、言語モデル生成方法とそのプログラム Download PDF

Info

Publication number
JP6312942B2
JP6312942B2 JP2017544150A JP2017544150A JP6312942B2 JP 6312942 B2 JP6312942 B2 JP 6312942B2 JP 2017544150 A JP2017544150 A JP 2017544150A JP 2017544150 A JP2017544150 A JP 2017544150A JP 6312942 B2 JP6312942 B2 JP 6312942B2
Authority
JP
Japan
Prior art keywords
paraphrase
original
language model
unit
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017544150A
Other languages
English (en)
Other versions
JPWO2017061027A1 (ja
Inventor
伍井 啓恭
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2017061027A1 publication Critical patent/JPWO2017061027A1/ja
Application granted granted Critical
Publication of JP6312942B2 publication Critical patent/JP6312942B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

本発明は、学習用の例文に加えて例文に含まれる語句の類義の語句(換言句)から学習したNグラムを用いて言語モデルを生成する技術に関するものである。
音声認識により音声をテキスト化する技術は、医療や法律分野の書き起こし、放送字幕の作成など、多くの分野において有用である。音声をテキスト化することによりデータベースの検索が容易にできるようになる。
例えば、コールセンターにおいて通話音声をテキスト化し、音声をテキストと紐付けると、テキストを文字列検索することにより、テキストに紐付けされた音声を容易に検索することができる。これにより、通話音声の中に含まれる顧客名や品番などを検索キーワードとして絞り込み、ピンポイントにモニタリングチェックすることが可能となる。しかしながら、音声認識の結果には誤認識が含まれている場合があり、誤認識が検索精度の低下の原因となる。この誤認識をいかに低減するかが、課題である。
現在の音声認識技術では音声の特徴と音素を対応付ける音響モデルと、連鎖する単語間の関係を表現した言語モデルとを用いるのが一般的である。音声を精度よく認識するための言語モデルとして、非特許文献1〜3に記載されているNグラムモデルを用いる方式が注目されている。Nグラムモデルは、学習用の例文から学習することにより生成され、直前の(N−1)個の単語から、次に出現する単語を予測する確率的言語モデルである。
Nグラムモデルでは、学習用の例文に存在しない単語連鎖の出現確率は0となってしまう問題があり、この問題はスパースネスの問題と呼ばれる。この問題に対処するため、スムージングを用いるのが一般的である(下記非特許文献2参照)。
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社,平成13年5月15日、p.53−155 北研二、辻井潤一著、「確率的言語モデル」、東京大学出版会、1999年11月25日、p.57〜99 長尾真著、「自然言語処理」、岩波書店、1996年4月26日、p.118〜137
しかしながら、スムージングでは、現在のNの値よりも小さい値の確率値を用いて予測するため、実際には起こり得ない単語連鎖が言語モデルに含まれるようになり、誤認識の可能性が高くなるという問題点があった。
本発明は上記のような問題点を解決するためになされたもので、学習用の例文に存在しない単語連鎖でも音声認識の誤認識を低減させるような言語モデルを生成する言語モデル生成装置を得ることを目的としている。
この発明の言語モデル生成装置は、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成部と、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出部と、学習用の例文から語句を含む原文を抽出し、出力する原文抽出部と、換言文抽出部から入力される換言文が原文抽出部から入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出部と、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出部と、換言句抽出部から抽出された換言句と学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成部と、を備えた。
この発明の言語モデル生成方法は、換言句生成部が、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、換言文抽出部が、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、原文抽出部が、学習用の例文から語句を含む原文を抽出し、出力する原文抽出ステップと、尤度算出部が、換言文抽出部から入力される換言文が原文抽出部から入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、換言句抽出部が、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、言語モデル生成部が、換言句抽出部から抽出された換言句と学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成ステップと、を有する。
この発明の言語モデル生成プログラムは、複数の文から成る学習用の例文に含まれる語句の各形態素と形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、複数の文を含むコーパスから複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、学習用の例文から語句を含む原文を抽出し、出力する原文抽出ステップと、換言文ステップにより入力される換言換言文が原文抽出ステップにより入力される原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、尤度が閾値より原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、換言句抽出ステップにより抽出された換言句と学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成ステップと、をコンピュータに実行させるものである。
本発明によれば、学習用の例文に加えて例文に含まれる語句の類義の語句である換言句から学習したNグラムを用いて言語モデルを生成するので、学習用の例文に存在しない単語連鎖でも音声認識の誤認識を低減させる言語モデルを得ることができる。
実施の形態1に係るに係る言語モデル生成装置の構成を示すブロック図。 実施の形態1に係る類義語辞書のデータの例を示す図。 実施の形態1に係る学習例文に含まれる語句「いい音で聞く」を示す図。 実施の形態1に係る換言句生成部の処理の流れを示すフローチャート。 実施の形態1に係る形態素列を示す図。 実施の形態1に係る類義語を付与した形態素を示す図。 実施の形態1に係る換言句を示す図。 実施の形態1に係る原文抽出部、Nグラム生成部、換言文抽出部、尤度算出部および換言句抽出部の処理の流れを示すフローチャート。 実施の形態1に係る原文を示す図。 実施の形態1に係る換言文を示す図。 実施の形態1に係る換言文の尤度情報を示す図。 実施の形態1に係る換言句とその平均尤度の一覧を示す図。 実施の形態1に係る閾値より小さい平均尤度を有する換言句の一覧を示す図。 実施の形態1に係る言語モデル生成装置のハードウェア構成を示すブロック図。 実施の形態1に係る言語生成装置により生成された言語モデルを用いる音声認識装置の構成を示すブロック図。 実施の形態1に係る言語生成装置により生成された言語モデルを用いる音声認識装置のハードウェア構成を示すブロック図。 実施の形態1に係るに係る言語モデル生成装置の構成を示すブロック図。 実施の形態2に係る言語モデル生成装置の構成を示すブロック図。 実施の形態2に係る異表記記憶部が記憶するデータの例を示す図。 実施の形態2に係る異表記を統一した換言句とその平均尤度の一覧を示す図。 実施の形態2に係る閾値より小さい平均尤度を有する換言句の一覧を示す図。 実施の形態3に係る原文を示す図。 実施の形態3に係る換言句を示す図。 実施の形態3に係る原文を形態素解析した形態素解析結果を示す図。 実施の形態3に係る形態素解析結果から変換した原文.textファイルを示す図。 実施の形態3に係る言語モデル作成ツールを用いて言語モデルを生成する手順を示す図。 実施の形態3に係るNグラム言語モデルの一例である原文.arpaファイルを示す図。 実施の形態3に係る換言文を形態素解析した形態素解析結果を示す図。 実施の形態3に係るPPおよびカバー率の算出結果を示す図。 実施の形態3に係る換言文.annoファイルを示す図。
実施の形態1.
図1は、実施の形態1に係る言語モデル生成装置100の構成を示すブロック図である。言語モデル生成装置100は、語句入力部101、換言句生成部102、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106、換言句抽出部107および言語モデル生成部108から構成される。言語モデル生成装置100は、学習例文記憶部110、類義語辞書111、コーパス112を入力として、言語モデル113を出力する。
学習例文記憶部110は、言語モデルを生成するための学習用の例文を記憶する記憶部である。学習例文は音声認識の対象の分野の例文を用いる。本実施の形態では、家電機器の問い合わせに対応するコールセンターにおいてやり取りされる音声を認識する場合を想定し、学習例文を家電機器の取扱説明書に掲載されている文章全体とする。取扱説明書には、例えば「いい音で聞くには、サラウンドモードにして・・・」といったように、家電機器の操作および設定の方法が記述されている。取扱説明書を学習例文として言語モデルに取り込むことにより、取扱説明書に記載されている単語連鎖の認識率を向上させることができる。
類義語辞書111は、類義語を掲載した辞書のデータである。
図2は、実施の形態1に係る類義語辞書111のデータの例を示す図である。原表記に対応付けて類義語を示している。「いい」の類義語は、「素晴らしい」、「正しい」、「可愛い」である。「音」の類義語は、「音調」、「声」である。「聞く」の類義語は、「聴く」、「差し出す」である。
コーパス112は、自然言語の文書を集積した大規模なデータである。コーパス112は、文書の各文を形態素に分解した上で、各形態素に品詞の情報を付与したタグ付きコーパスとする。
語句入力部101は、ユーザからの指示により学習例文記憶部110に記憶された学習例文から語句を順に読み出し、読み出した語句を換言句生成部102および原文抽出部103に出力する。
換言句生成部102は、類義語辞書111を参照し、語句入力部101から入力された語句の類義の語句である換言句を生成し、生成した換言句を換言文抽出部105に出力する。
原文抽出部103は、学習例文記憶部110を参照し、語句入力部101から入力された語句が含まれる文を学習例文からすべて抽出し、抽出した文を原文としてNグラム生成部104に出力する。
Nグラム生成部104は、原文から学習してNグラムを生成し、生成したNグラムを尤度算出部106に出力する。
換言文抽出部105は、コーパス112を参照し、換言句生成部102から入力された換言句が含まれる文をコーパス112から抽出し、抽出した文を換言文として尤度算出部106に出力する。
尤度算出部106は、Nグラム生成部104から入力されたNグラムと換言文抽出部105から入力された換言文とから、各換言文が原文の文脈に近いかどうかを示す尤度を算出し、換言文とその尤度を換言句抽出部107に出力する。
換言句抽出部107は、尤度算出部106から入力された換言文のうち、尤度が閾値以下の換言文を抽出し、抽出した換言文を言語モデル生成部108に出力する。本実施の形態における尤度は、値が小さいほうが原文の文脈に近いことを示す。
言語モデル生成部108は、換言句抽出部107から入力された換言句と学習例文記憶部110に記憶された学習例文とによりNグラムを学習し、言語モデル113を生成し、生成した言語モデル113を出力する。
次に、語句入力部101が学習例文記憶部110から読み出した語句を「いい音で聞く」として、詳細な動作を説明する。
図3は、実施の形態1に係る学習例文に含まれる語句501「いい音で聞く」を示す図である。
まず、換言句生成部102の動作について図4〜7を用いて説明する。
図4は、実施の形態1に係る換言句生成部102の処理の流れを示すフローチャートである。
図5は、実施の形態1に係る形態素列502を示す図である。「/」は形態素の区切りを示す。
図6は、実施の形態1に係る類義語を付与した形態素503を示す図である。「,」は類義語の区切り、「[」、「]」は類義語の単語列を表現するリストの開始、終了を示す記号である。
図7は、実施の形態1に係る換言句504を示す図である。
換言句生成部102は、語句入力部101から入力された語句「いい音で聞く」を形態素解析する。形態素解析では、入力した語句を、意味を持つ最小の単位である形態素に分解する。「いい音で聞く」は形態素解析により、形態素列502「いい/音/で/聞く」となる。形態素列502を図5に示す(図3のステップS11)。
次に、換言句生成部102は、類義語辞書111を参照し、助詞を除くすべての形態素について類義語を調べる。
換言句生成部102は、形態素列502の1番目の形態素「いい」を原表記とする類義語を類義語辞書111で検索し、「素晴らしい,正しい,可愛い」を読み出す。換言句生成部102は、原表記に類義語を追加した「[いい,素晴らしい,正しい,可愛い]」というリストを生成し、形態素列502の1番目の形態素「いい」と入れ替える。次に、換言句生成部102は、形態素列502の2番目の形態素「音」の類義語を類義語辞書111で検索し、「音調,声」を読み出す。換言句生成部102は、原表記に類義語を追加した「[音,音調,声]」というリストを生成し、形態素列502の2番目の形態素「音」と入れ替える。
形態素列502の3番目の形態素「で」は助詞のため、換言句生成部102は何もしない。次に、換言句生成部102は、形態素列502の4番目の形態素「聞く」の類義語を類義語辞書111で検索し、「聴く,差し出す」を読み出す。換言句生成部102は、原表記に類義語を追加した「[聞く,聴く,差し出す]」というリストを生成し、形態素列502の4番目の形態素「聞く」と入れ替える。このようにして、換言句生成部102は、形態素列502に類義語を付与した形態素列503「[いい,素晴らしい,正しい,可愛い]/[音,音調,声]/で/[聞く,聴く,差し出す]」を生成する。類義語を付与した形態素列503を図6に示す(図3のステップS12)。
次に、換言句生成部102は、類義語を付与した形態素列503から各形態素を組み合わせた換言句504を生成し、換言句504を換言句抽出部105に出力する。但し、各形態素すべてを原表記とする組み合わせは換言句504に含めない。類義語を含めて「いい」は4通り、「音」は3通り、「聞く」は3通りの単語があるため、「いい音で聞く」の換言句504は、4×3×3−1=35通りの組み合わせとなる。換言句504は、語句501の複数の形態素のうち1以上の形態素を原表記の類義語に置き換えたものである。「いい音で聞く」の換言句504を図7に示す(図3のステップS13)。
次に、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106および換言句抽出部107の動作について図8〜12を用いて説明する。
図8は、実施の形態1に係る原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106および換言句抽出部107の処理の流れを示すフローチャートである。
図9は、実施の形態1に係る原文505を示す図である。
図10は、実施の形態1に係る換言文506を示す図である。
図11は、実施の形態1に係る換言文506の尤度情報を示す図である。
図12は、実施の形態1に係る換言句504とその平均尤度の一覧508を示す図である。
原文抽出部103は、学習例文記憶部110が記憶する学習例文を参照し、学習例文のうち語句501「いい音で聞く」を含む文をすべて抽出する。本実施の形態において、抽出されたこれらの文を原文と呼ぶ。原文抽出部103は、原文をNグラム生成部104に出力する。「いい音で聞く」を含む原文505を図9に示す(図8のステップS21)。
次に、Nグラム生成部104は、原文抽出部103から入力された原文に基づいてNグラム言語モデルを生成し、尤度算出部106に出力する。Nグラム言語モデルを生成する処理は、周知の方法を適用すればよい。Nグラム生成部104は、例えば非特許文献1のp.53〜65に記載されている方法でNグラム言語モデルを生成する(図8のステップS22)。
次に、換言文抽出部105は、コーパス112を参照し、換言句生成部102から入力された換言句504のうちいずれかが含まれる文をすべて抽出する。換言文抽出部105は、抽出した文を換言文として、尤度算出部106に出力する。換言文の例として、換言句「いい音で聴く」を含む換言文506を図10に示す(図8のステップS23)。
次に、尤度算出部106は、Nグラム生成部104から入力されたNグラム言語モデルと換言文抽出部105から入力された換言文506とを用いて単語テストセットパープレキシティ(以降、PPと称す)とカバー率(本実施の形態では単語カバー率)を算出する。PPは、言語モデルを評価するための尺度であり、ある単語1個が出現する確率の相乗平均の逆数で定義される。PPが低いと、その言語モデルは認識したい文とそうでない文を峻別する能力が高いことを意味する。カバー率は、言語モデルが単語連鎖をカバーしている割合を示す値である。PPとカバー率は、Nグラム言語モデルと換言文506を用いて周知の方法で求められる。PPとカバー率を求める方法の詳細を実施の形態3に記載する。
尤度算出部106は、PPとカバー率Cを用いて数式(1)により尤度Lを求める。このとき、αは未知語補正定数で本実施の形態においては4とする。
Figure 0006312942
換言文506の尤度情報を図11に示す。「スピーカーでいい音で聴くためにオーディオを揃えるのもいいが・・・」はカバー率が100.0%、PPが108.7、尤度が2.04である。「このいい音で聴くためにはいろいろな条件がありますがスピーカーに・・・」は、カバー率が100.0%、PPが128.2、尤度が2.11である。尤度は、原文に対する各換言文506のクロスエントロピーをカバー率で補正した値であるといえる。尤度は、各換言文506の文脈と原文505全体との近さを表している(図8のステップS24)。
次に、尤度算出部106は、各換言句504について平均尤度を算出する。平均尤度μは数式(2)で求められる。このとき、同一の換言句の数をn、同一の換言句の尤度をTnとする。
Figure 0006312942
尤度算出部106は、換言句504とその平均尤度の一覧508を換言句抽出部107に出力する。換言句504とその平均尤度の一覧508を図12に示す(図8のステップS25)。
次に、換言句抽出部107は、換言句504のうち閾値より小さい平均尤度のものを抽出する。換言句抽出部107は、本実施の形態において、あらかじめ閾値2.68を保持しているものとする。尤度が低いほどクロスエントロピーが低く、文脈が近いことから、換言句の意味が原文に類似している確率が高くなる。
図13は、実施の形態1に係る閾値より小さい平均尤度を有する換言句の一覧509を示す図である。
換言句抽出部107は、閾値より小さい平均尤度を有する換言句の一覧509を言語モデル生成部108に出力する(図8のステップS26)。
言語モデル生成部108は、換言句抽出部107から入力された換言句と学習例文記憶部110に記憶された学習例文を用いてNグラムモデルの言語モデルを生成し、出力する。言語モデルは、例えば非特許文献1のp.53〜65に記載されている方法で生成する。
次に、本実施の形態の言語モデル生成装置のハードウェア構成について説明する。
図14は、実施の形態1に係る言語モデル生成装置100のハードウェア構成を示すブロック図である。言語モデル生成装置100は、メモリ121およびプロセッサ122から構成される。
メモリ121は、語句入力部101、換言句生成部102、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106、換言句抽出部107および言語モデル生成部108の各機能を実現するためのプログラム及びデータを記憶する。メモリ121は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)で構成される。
プロセッサ122は、メモリ121に記憶されたプログラム及びデータを読み出し、語句入力部101、換言句生成部102、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106、換言句抽出部107および言語モデル生成部108の各機能を実現する。プロセッサ122は、メモリ121に記憶されたプログラムを実行するCPU、システムLSI(Large Scale Integration)等の処理回路により、実現される。
なお、複数の処理回路が連携して、語句入力部101、換言句生成部102、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106、換言句抽出部107および言語モデル生成部108の機能を実行するように構成してもよい。また、語句入力部101、換言句生成部102、原文抽出部103、Nグラム生成部104、換言文抽出部105、尤度算出部106、換言句抽出部107および言語モデル生成部108の各機能は、メモリ121およびプロセッサ122で構成される処理回路によりハードウェアで実現するようにしてもよい。
次に、このようにして生成した言語モデル113を利用した音声認識装置について説明する。
図15は、実施の形態1に係る言語生成装置100により生成された言語モデル113を用いる音声認識装置200の構成を示すブロック図である。音声認識装置200は、音声入力部201、音声認識部202、言語モデル記憶部203、音響モデル記憶部204および表示部205から構成される。
音声入力部201は、ユーザが発した音声をデジタル処理可能なデジタル音声信号に変換する。音声入力部201が出力するデジタル音声信号は音声認識部202に入力される。
言語モデル記憶部203は、上述の言語モデル生成装置100から出力される言語モデル113を記憶している。
音響モデル記憶部204は、音素の単位で音声の標準的な特徴量のパターンから成る音響モデルを記憶している。音響モデルは音声認識処理において入力音声の特徴量と照合され、音素単位での入力音声の認識に用いられるものである。
音声認識部202は、入力されたデジタル音声信号について、音響モデル記憶部203に記憶された音響モデルと言語モデル記憶部202に記憶された言語モデル113とを参照して、音声認識を行う。音声認識部202は、最尤の音声認識の結果の単語系列を表示部205に出力する。
表示部205は、音声認識部202から入力された単語系列を表示する。
次に、本実施の形態の音声認識装置200のハードウェア構成について説明する。
図16は、実施の形態1に係る言語生成装置100により生成された言語モデル113を用いる音声認識装置200のハードウェア構成を示すブロック図である。音声認識装置200は、マイクロホン211、メモリ212、プロセッサ213およびディスプレイ214から構成される。
マイクロホン211は、音声入力部201の機能を実現する。
メモリ212は、音声認識部202、言語モデル記憶部203および音響モデル記憶部204の各機能を実現するためのプログラム及びデータを記憶する。メモリ212は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)で構成される。
プロセッサ213は、メモリ212に記憶されたプログラム及びデータを読み出し、音声認識部202の各機能を実現する。プロセッサ213は、メモリ212に記憶されたプログラムを実行するCPU、システムLSI(Large Scale Integration)等の処理回路により、実現される。
なお、複数の処理回路が連携して、音声認識部202の機能を実行するように構成してもよい。
ディスプレイ214は、表示部205の機能を実現する。
同じような意味であってもユーザによって「いい音で聞く」を「素晴らしい音で聞く」、「優れた音質で聴く」のように表現することもあり、家電機器の取扱説明書の文章を学習例文とするだけでは、音声認識部202が認識できない言い回しがあるが、本実施の形態により、音声認識部202はより広い言い回しを認識できるようになる。
本実施の形態において、「いい音で聞く」を例に換言句を抽出する処理を説明したが、言語モデル生成装置100は、学習例文記憶部110に記憶される学習例文からすべての語句を読み出し、すべての語句について原文の文脈に近い換言句を抽出し、学習例文と抽出した換言句とから言語モデルを生成する。しかし、学習例文のすべての語句について処理を行うと計算量が多くなるため、例えば取扱説明書の章および節のタイトルに使われている語句に限定して本実施の形態の処理を行い、言語モデルを生成するようにしても音声認識の誤認識を低減させる効果がある。
また、本実施の形態において、換言句生成部102で生成した換言句504から尤度を用いて原文の文脈に近い換言句を換言句抽出部107にて抽出するようにしたが、換言句生成部102で生成した換言句と学習例文から言語モデルを作成するようにしてもよい。
図17は、実施の形態1に係る言語モデル生成装置120の構成を示すブロック図である。換言句生成部102は、類義語辞書111を参照し、語句入力部101から入力された語句の類義の語句である換言句504を生成し、生成した換言句504を言語モデル生成部108に出力する。言語モデル生成部108は、換言句生成部102から入力された換言句504と学習例文記憶部110に記憶された学習例文とによりNグラムモデルを生成し、生成したNグラムモデルを言語モデルとして出力する。言語モデル生成装置120は、学習例文に加えて換言句504からNグラムモデルを生成するので、学習例文に存在しない単語連鎖でも音声認識の誤認識を低減させる言語モデルを生成することができる。
なお、言語モデル生成装置100は、換言句のうち原文の文脈に近い換言句と学習例文とから言語モデルを生成するので、言語モデル生成装置120と比較して言語モデル生成部108の処理量を削減した上で、さらに誤認識を低減させるような言語モデルを生成することができる。
したがって、本実施の形態では、学習例文に加えて原文の文脈に近い換言句から学習したNグラムを用いて言語モデルを生成するので、学習例文に存在しない単語連鎖でも音声認識の誤認識を低減させるような言語モデルを生成することができる。また、音声認識装置200は、このような言語モデルを用いて音声認識をすることにより、誤認識を低減することができる。
また、分野によっては学習例文を多く用意できない場合がある。そのような場合でも本実施の形態は学習例文に加えて原文の文脈に近い換言句から学習したNグラムを用いて言語モデルを生成するので、音声認識の誤認識を低減させる言語モデルを生成することができる。
実施の形態2.
以上の実施の形態1では、各換言句について平均尤度を求めるようにしたものであるが、本実施の形態においては、換言句に含まれる単語の異表記を統一した後に平均尤度を求める実施の形態を示す。これにより、換言句の尤度のばらつきを抑制し、より高精度に尤度を推定できる効果を奏する。
図18は、実施の形態2に係る言語モデル生成装置100の構成を示すブロック図である。言語モデル生成装置100の構成は、尤度算出部106が異表記記憶部114を参照するようにした以外は実施の形態1と同じである。
図19は、実施の形態2に係る異表記記憶部114が記憶するデータの例を示す図である。異表記記憶部114は、同じ意味で異なる表記である単語を対応付けて記憶している。「いい」、「よい」および「良い」、「かわいい」および「可愛い」はいずれも同じ意味の異なる表記である。
尤度算出部106は、図8のステップS25において、各換言句について平均尤度を算出するときに、異表記記憶部114を参照し、同じ表記の換言句に加えて異表記の換言句の尤度をすべて相加平均し、平均尤度を求める。
図20は、実施の形態2に係る異表記を統一した換言句とその平均尤度の一覧601を示す図である。図20では、実施の形態1の図12と比較して、「いい音で聴く」、「良い音で聴く」、および「よい音で聴く」を「いい音で聴く」に統一している。また、「かわいい声で聞く」、「可愛い声で聞く」を「かわいい声で聞く」に統一している。
尤度算出部106は、異表記を統一した換言句とその平均尤度の一覧601を換言句抽出部107に出力する。
換言句抽出部107は、図8のステップS26において、換言句のうち閾値より小さい平均尤度のものを抽出する。閾値は実施の形態1と同様に2.68である。
図21は、実施の形態2に係る閾値より小さい平均尤度を有する換言句の一覧602を示す図である。
換言句抽出部107は、閾値より小さい平均尤度を有する換言句の一覧602を言語モデル生成部108に出力する。
なお、本実施の形態において、異表記記憶部114があらかじめ同じ意味で異なる表記である単語を対応付けて記憶し、尤度算出部106が異表記記憶部114を参照して異表記の換言句を統一するようにしたが、異表記記憶部114を設けず、異表記の換言句をユーザが指示し、その指示にしたがって尤度算出部106が異表記の換言句を統一するようにしてもよい。
したがって、本実施の形態では、異なる表記の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出するので、異なる表記による換言句の尤度のばらつきを抑制し、より高精度に尤度を推定することができる。また、異表記が統一されるため、音声認識でも言語モデルの尤度のばらつきを抑制するという効果を奏する。
実施の形態3.
上述の実施の形態1に、PPとカバー率は、Nグラム言語モデルと換言文を用いて周知の方法で求められると記載した。本実施の形態において、PPとカバー率を求める方法の詳細を説明する。
本実施の形態では、PPとカバー率を求める方法について、日本語のNグラム言語モデルと換言文を用いて説明する。
Nグラム言語モデルは、非特許文献1のp.147〜155に記載されている「CMU−Cambridge SLM Toolkit」(以下、言語モデル生成ツールと称す)を用いて生成されたものである。形態素解析は、非特許文献1のp.135に記載されている形態素解析器「茶筅」を用いて行われる。形態素解析では、文頭、文末は<s>の表記で表される。また、PPとカバー率は、非特許文献1のp.153〜154に記載されている言語モデルの評価方法により求められる。
図22は、実施の形態3に係る原文701を示す図である。
図23は、実施の形態3に係る換言句702を示す図である。
図24は、実施の形態3に係る原文701を形態素解析した形態素解析結果703を示す図である。各行が1つの形態素を示しており、それぞれの列が形態素の表記、読み、原型、品詞を示す。EOSは文末を示す。
図25は、実施の形態3に係る形態素解析結果703から変換した原文.textファイル704を示す図である。原文.textファイル704では、各形態素が「表記+読み+品詞」で示され、次の形態素との区切りは空白で示されている。
図26は、実施の形態3に係る言語モデル作成ツールを用いて言語モデルを生成する手順705を示す図である。
図27は、実施の形態3に係るNグラム言語モデルの一例である原文.arpaファイル706を示す図である。
図28は、実施の形態3に係る換言文702を形態素解析した形態素解析結果707を示す図である。
図29は、実施の形態3に係るPPおよびカバー率の算出結果708を示す図である。
図30は、実施の形態3に係る換言文.annoファイル709を示す図である。
以下、詳細を説明する。原文は図22の原文701、換言文は図23の換言文702を用いる。Nグラム生成部104は、原文抽出部103から入力された原文701を形態素解析器「茶筅」で形態素解析し、形態素解析結果703を得る。次に、Nグラム生成部104は、形態素解析結果703から原文.textファイル704に変換する。次に、Nグラム生成部104は、図26に示す言語モデル生成手順により、原文.textファイル704から原文.arpaファイル706を生成し、原文.arpaファイル706をNグラム言語モデルとして尤度算出部106に出力する。図27に示す原文.arpaファイル706では、ディスカウント手法としてGood−Turingのパラメータ値、Nグラムのエントリ数、1−gram、2−gram、3−gramのそれぞれの対数尤度とバックオフ計数が示されている。
さらに、Nグラム生成部104は、原文701と同様の手順で換言文702を形態素解析器「茶筅」で形態素解析し、形態素解析結果707を得る。次に、Nグラム生成部104は、形態素解析結果707を換言文.text707に変換し、換言文.text707を尤度算出部106に出力する。
尤度算出部106は、原文.arpaファイル706と換言文.text707から言語モデル生成ツールを用いてPPとカバー率を算出する。原文.arpaファイル706は、Nグラム生成部104から出力されたNグラム言語モデルである。PPおよびカバー率の算出結果708を図29に示す。言語モデル生成ツールにおいて、evallmコマンドで原文.arpaファイルが入力され、続いてperplexityコマンドで、換言文.textが入力されることにより、Perplexity = 9.07、OOVs (50.00%)が得られる。OOVは未知語率を表し、この結果からPP=9.07、カバー率=100.0−50.0=50.0%が得られる。この計算過程は換言文.annoファイル709として出力される。
換言文.annoファイル709の各行が、Nグラム言語モデルで計数可能な単語の生起確率を示している。換言文.text707の12単語に対して計算可能な単語が6行の6単語であるから、カバー率は6÷12×100=50で50%となる。また、計算可能な単語が6単語であるから、PPはPP=(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)^(−1÷6))=9.0698440となり、小数点以下第3位を四捨五入して9.07となる。なお、計算の簡単のため、対数確率であるlogprobを用いても良い。
このようにして、原文と換言文とを用いて、PPとカバー率を算出することができる。
したがって、本実施の形態では、尤度算出部106は、原文と換言文とを用いてPPとカバー率を算出するので、換言文が原文の文脈に近いかどうかを示す尤度を算出することができる。
100、120 言語モデル生成装置
101 語句入力部
102 換言句生成部
103 原文抽出部
104 Nグラム生成部
105 換言文抽出部
106 尤度算出部
107 換言句抽出部
108 言語モデル生成部
110 学習例文記憶部
111 類義語辞書
112 コーパス
113 言語モデル
200 音声認識装置
201 音声入力部
202 音声認識部
203 言語モデル記憶部
204 音響モデル記憶部
205 表示部
121、212 メモリ
122、213 プロセッサ
211 マイクロホン
214 ディスプレイ
501 語句
502、503 形態素列
504 換言句
505、701 原文
506、702 換言文
507 尤度の一覧
508、509 平均尤度の一覧
703、707 形態素解析結果
704 原文.textファイル
705 手順
706 原文.arpaファイル
708 PPおよびカバー率の算出結果
709 換言文.annoファイル

Claims (5)

  1. 複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成部と、
    複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出部と、
    前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出部と、
    前記換言文抽出部から入力される前記換言文が前記原文抽出部から入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出部と、
    前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出部と、
    前記換言句抽出部から抽出された換言句と前記学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成部と、
    を備えることを特徴とする言語モデル生成装置。
  2. 前記尤度算出部は、同一の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出し、
    前記換言句抽出部は、前記平均尤度が前記閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出することを特徴とする請求項に記載の言語モデル生成装置。
  3. 前記尤度算出部は、異なる表記の換言句が含まれる複数の換言文の尤度を相加平均した平均尤度を算出し、異なる表記を統一した換言句の尤度とすることを特徴とする請求項に記載の言語モデル生成装置。
  4. 換言句生成部が、複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、
    換言文抽出部が、複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、
    原文抽出部が、前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出ステップと、
    尤度算出部が、前記換言文抽出部から入力される前記換言文が前記原文抽出部から入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、
    換言句抽出部が、前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、
    言語モデル生成部が、前記換言句抽出部から抽出された換言句と前記学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成ステップと、
    を有する言語モデル生成方法。
  5. 複数の文から成る学習用の例文に含まれる語句の各形態素と前記形態素の原表記に対する類義語とを用いて、形態素の原表記と形態素の原表記に対する類義語との組み合わせ、および各形態素の原表記に対する類義語同士の組み合わせから成る複数の換言句を生成する換言句生成ステップと、
    複数の文を含むコーパスから前記複数の換言句のうちいずれかを含む換言文を抽出し、出力する換言文抽出ステップと、
    前記学習用の例文から前記語句を含む原文を抽出し、出力する原文抽出ステップと、
    前記換言文ステップにより入力される前記換言換言文が前記原文抽出ステップにより入力される前記原文と文脈が近いかどうかを示す尤度を算出する尤度算出ステップと、
    前記尤度が閾値より前記原文と文脈が近い旨を示す値となる換言文に含まれる換言句を抽出する換言句抽出ステップと、
    前記換言句抽出ステップにより抽出された換言句と前記学習用の例文とからNグラムモデルの言語モデルを生成する言語モデル生成ステップと、
    をコンピュータに実行させるためのプログラム。
JP2017544150A 2015-10-09 2015-10-09 言語モデル生成装置、言語モデル生成方法とそのプログラム Active JP6312942B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/078749 WO2017061027A1 (ja) 2015-10-09 2015-10-09 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム

Publications (2)

Publication Number Publication Date
JPWO2017061027A1 JPWO2017061027A1 (ja) 2018-03-01
JP6312942B2 true JP6312942B2 (ja) 2018-04-18

Family

ID=58488224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017544150A Active JP6312942B2 (ja) 2015-10-09 2015-10-09 言語モデル生成装置、言語モデル生成方法とそのプログラム

Country Status (6)

Country Link
US (1) US10748528B2 (ja)
EP (1) EP3349125B1 (ja)
JP (1) JP6312942B2 (ja)
CN (1) CN108140019B (ja)
TW (1) TWI582754B (ja)
WO (1) WO2017061027A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210040851A (ko) * 2020-06-03 2021-04-14 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146604B (zh) * 2017-04-27 2020-07-03 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11036926B2 (en) * 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots
JP2020102131A (ja) * 2018-12-25 2020-07-02 株式会社日立製作所 テキスト生成方法、テキスト生成装置および学習済みモデル
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及***
KR20210043894A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 문장 제공 방법
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치
JP7326596B2 (ja) * 2020-04-21 2023-08-15 株式会社Nttドコモ 音声データ作成装置
CN111933129B (zh) * 2020-09-11 2021-01-05 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
WO2022226811A1 (zh) * 2021-04-27 2022-11-03 华为技术有限公司 构建语音识别模型和语音处理的方法和***
CN113971394A (zh) * 2021-10-26 2022-01-25 上海交通大学 文本复述改写***
CN117057414B (zh) * 2023-08-11 2024-06-07 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628245B2 (ja) 2000-09-05 2005-03-09 日本電信電話株式会社 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
JP4269625B2 (ja) 2002-10-08 2009-05-27 三菱電機株式会社 音声認識辞書作成方法及びその装置と音声認識装置
CN1934570B (zh) * 2004-03-18 2012-05-16 日本电气株式会社 文本挖掘装置和其方法
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
JP2008293457A (ja) * 2007-05-22 2008-12-04 Ryoma Terao 言語処理システムおよびプログラム
WO2010021368A1 (ja) 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN102341843B (zh) * 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置
CN101639826B (zh) * 2009-09-01 2012-07-04 西北大学 一种基于中文句式模板变换的文本隐藏方法
JP5276610B2 (ja) 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
SG194709A1 (en) * 2011-05-10 2013-12-30 Nec Corp Device, method and program for assessing synonymous expressions
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
CA2793268A1 (en) * 2011-10-21 2013-04-21 National Research Council Of Canada Method and apparatus for paraphrase acquisition
CN103871403B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN103823794B (zh) * 2014-02-25 2016-08-17 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210040851A (ko) * 2020-06-03 2021-04-14 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
KR102497945B1 (ko) 2020-06-03 2023-02-09 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체

Also Published As

Publication number Publication date
CN108140019B (zh) 2021-05-11
JPWO2017061027A1 (ja) 2018-03-01
WO2017061027A1 (ja) 2017-04-13
EP3349125A1 (en) 2018-07-18
TW201714167A (en) 2017-04-16
TWI582754B (zh) 2017-05-11
EP3349125B1 (en) 2019-11-20
US10748528B2 (en) 2020-08-18
EP3349125A4 (en) 2018-08-29
CN108140019A (zh) 2018-06-08
US20190080688A1 (en) 2019-03-14

Similar Documents

Publication Publication Date Title
JP6312942B2 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム
CN110797006B (zh) 端到端的语音合成方法、装置及存储介质
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
US10360904B2 (en) Methods and apparatus for speech recognition using a garbage model
CN112346696B (zh) 虚拟助理的语音比较
CN105390137A (zh) 响应生成方法、响应生成装置和响应生成程序
JP2012037790A (ja) 音声対話装置
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP2008276543A (ja) 対話処理装置、応答文生成方法、及び応答文生成処理プログラム
Kurian et al. Connected digit speech recognition system for Malayalam language
Aylett et al. A flexible front-end for HTS
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
TWI409802B (zh) 音頻特徵處理方法及其裝置
JP2006243976A (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
JP6277659B2 (ja) 音声認識装置および音声認識方法
Kolehmainen et al. Personalization for bert-based discriminative speech recognition rescoring
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Thirion et al. Multilingual pronunciations of proper names in a Southern African corpus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171005

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171005

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171122

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20171214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20171228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180320

R150 Certificate of patent or registration of utility model

Ref document number: 6312942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250