JP6869835B2 - 音声認識システム、端末装置、及び辞書管理方法 - Google Patents

音声認識システム、端末装置、及び辞書管理方法 Download PDF

Info

Publication number
JP6869835B2
JP6869835B2 JP2017132708A JP2017132708A JP6869835B2 JP 6869835 B2 JP6869835 B2 JP 6869835B2 JP 2017132708 A JP2017132708 A JP 2017132708A JP 2017132708 A JP2017132708 A JP 2017132708A JP 6869835 B2 JP6869835 B2 JP 6869835B2
Authority
JP
Japan
Prior art keywords
recognition
reading
phrase
dictionary
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017132708A
Other languages
English (en)
Other versions
JP2019015838A (ja
Inventor
浩明 小窪
浩明 小窪
松本 卓也
卓也 松本
則男 度會
則男 度會
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Faurecia Clarion Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd, Faurecia Clarion Electronics Co Ltd filed Critical Clarion Co Ltd
Priority to JP2017132708A priority Critical patent/JP6869835B2/ja
Priority to EP18181133.2A priority patent/EP3425629B1/en
Priority to US16/027,500 priority patent/US10818283B2/en
Publication of JP2019015838A publication Critical patent/JP2019015838A/ja
Application granted granted Critical
Publication of JP6869835B2 publication Critical patent/JP6869835B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識システム、端末装置、及び辞書管理方法に関する。
近年、スマートフォンやカーナビゲーション等の端末装置には、サーバ側に搭載された音声認識エンジンを使用した音声入力機能を有するものがある。サーバ側の音声認識エンジンは、端末装置に比べて豊富な計算リソース(例えば、演算処理速度や記憶容量)を活用することができる。これにより、サーバ側の音声認識エンジンは、幅広い語彙を認識できる可能性を持っており、また、さまざまな音環境で入力された音声を精度よく認識できる可能性を持っている。
しかし、サーバ側の音声認識エンジンは、過疎地やトンネル内などの端末装置とデータ通信を確立できない環境では、使用することができない。そこで、端末装置側にも音声認識エンジンを搭載し、状況に応じて音声認識処理を端末装置側又はサーバ側に振り分けるように、システムを構成することもできる。
特許文献1には、「振り分け判定部102は、解析した入力モードが該当項目選択モードであるか否かを判定する(ステップ104)。現在の入力モードが該当項目選択モードである場合には肯定判断が行われる。次に、車載装置1に内蔵された音声認識処理部100は、マイクロホン22によって集音された利用者の音声に対して音声認識処理を行う(ステップ106)。」、「一方、現在の入力モードがテキスト入力モードである場合にはステップ104の判定において否定判断が行われる。次に、音声データ送信部56は、マイクロホン22から入力されて圧縮処理部26によって圧縮処理された音声データをネットワーク3を介してサーバ2に向けて送信して、サーバ2内の音声認識処理部200による音声認識処理を依頼する(ステップ110)。」と記載されている。
特開2013−88477号公報
端末装置に搭載される音声認識エンジンは、当該端末装置の計算リソースの制約のため、サーバ側の音声認識エンジンに比べて、認識できる語句が少ない。一方、サーバ側の音声認識エンジンは、端末装置と比べて自由にメンテナンス可能であることから、語句を新たに音声認識辞書に追加することが容易である。そのため、サーバ側の音声認識エンジンでは正しく認識できるものの、端末装置側の音声認識エンジンでは認識できない語句が多く存在する。このような語句は、サーバ側の音声認識エンジンを使用することができない環境では、端末装置によって認識されず、端末装置のユーザは不便を強いられることになる。
そこで、サーバ側の音声認識エンジンで認識された語句のうちユーザの使用頻度が高い語句を、そのユーザの端末装置側の音声認識辞書に追加すれば、端末装置側で音声認識可能な語彙を増やすことができる。
ここで、一般的に、サーバ側の音声認識エンジンから得られる認識結果は、テキスト表記された文字列である。従って、端末装置は、サーバの認識結果を端末装置の音声認識辞書に登録するには、テキスト文字列に読みを付ける読み付与機能を備える必要がある。
しかしながら、読み付与機能は、下記のような問題を有する。例えば、奈良県御所市の「御所」は、「ごしょ」ではなく「ごぜ」と読むといったように、地名などの固有名詞は、独特の読み方をするものも多く、読み付与機能は、必ずしも正しい読みを文字列に対して付与できるとは限らない。また例えば、読み付与機能により正しい読みが付与された語句が音声認識辞書に登録されていても、当該語句をユーザが正しい読み方を知らずに間違った読み方で発声する場合には、音声認識能力の向上を期待できない。
本発明は、上記の問題を鑑みてなされたものであり、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる音声認識システム、端末装置、及び辞書管理方法を提供することを目的とする。
本発明は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。
本発明の一態様は、端末装置であって、ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第1の認識結果を受信する通信制御部と、音声認識のための音声認識辞書を記憶する記憶部と、前記音声データを前記音声認識辞書を用いて音声認識し、第2の認識結果を得る音声認識部と、前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する辞書管理部と、を備える。前記辞書管理部は、前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析部と、前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択部と、を備える。前記辞書管理部は、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する。
本発明によれば、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる音声認識システム、端末装置、及び辞書管理方法を提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
第1実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。 第1実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。 第1実施形態に係る端末装置の読み付与処理の一例を示すフローチャートである。 認識語句に対して形態素解析により付与された読みの例を示す図である。 第1実施形態に係る認識語句に対する読み付与の例を説明する模式図である。 Nベストの認識結果の例を示す図である。 第2実施形態に係る認識語句に対する読み付与の例を説明する模式図である。 Nベストの認識結果から選択された各形態素と読みの例を示す図である。 第3実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。
以下、本発明の複数の実施形態について、図面を参照して説明する。なお、各実施形態は、本発明の原理に則った具体的な例を示しているが、これらは本発明の理解のためのものであり、本発明を限定的に解釈するために用いられるものではない。
[第1実施形態]
図1は、第1実施形態に係る音声認識システムのシステム構成及び機能構成の一例を示す図である。
音声認識システムは、端末装置102と、音声認識サーバ103とを備える。端末装置102と音声認識サーバ103は、例えば携帯電話網、インターネット等の通信ネットワーク(図示せず)を介して、互いに通信することができる。端末装置102には、内部あるいは外部にマイクロフォン101が接続される。
端末装置102は、例えばスマートフォン、フィーチャーフォン、タブレットコンピュータ、PC(Personal Computer)、ウェアラブルデバイス、車載カーナビゲーション機、車載オーディオ機器、車載ECU(Electronic Control Unit)などの情報通信機器である。音声認識サーバ103は、例えばサーバコンピュータなどの情報通信機器である。
端末装置102は、マイクロフォン101を介して入力されるユーザの音声データに対する音声認識機能を有する。また、端末装置102は、ユーザの音声データを音声認識サーバ103に送信することにより、音声認識サーバ103の有する音声認識機能を利用することができる。音声認識サーバ103は、端末装置102から受信した音声データに対する音声認識機能を有し、その認識結果を端末装置102に送信する。
端末装置102は、音声認識サーバ103と比べて、計算機リソース(例えば、演算処理速度や記憶容量)が少ない。そのため、端末装置102における音声認識機能は、音声認識辞書に登録されている語句数が少ないことや処理速度が遅いことにより、認識能力が低く制限される。一方で、音声認識サーバ103における音声認識機能は、音声認識辞書に登録されている語句数が多いことや処理速度が速いことにより、認識能力が高い。音声認識サーバ103の音声認識辞書は、例えば、正式名称以外にも通称名や省略名称など多様な言い回しを認識できるよう語彙を拡張することが可能である。また、音声認識サーバ103の音声認識辞書は、集中管理によるメンテナンスが可能なため、例えば、新しい施設のオープン、新曲のリリース等に合わせて音声認識辞書の内容を更新することが容易である。ただし、端末装置102と音声認識サーバ103の通信を確立できない場合には、音声認識サーバ103における音声認識機能を利用できないというデメリットはある。
そこで、本実施形態の端末装置102は、音声認識サーバ103から受信した音声認識の結果が示す語句を、その音声認識辞書に登録する機能を有する。これにより、端末装置102の音声認識辞書に、ユーザによって使用される可能性の高い語句を効率的に追加し、音声認識サーバ103と通信を確立できない環境でも、ユーザの利便性を向上することができる。
端末装置102は、音声認識部104と、システム辞書105及びユーザ辞書106(これらを「音声認識辞書」と呼んでもよい)と、通信制御部107と、認識結果取得部108と、インターフェイス制御部109と、辞書管理部110とを有する。辞書管理部110は、形態素解析部111と、読み選択部112とを有する。
音声認識部104は、ユーザの音声データの入力を、マイクロフォン101を介して受け付け、その音声データの音声認識処理を実行し、認識結果として、例えば、認識された語句(文字列)と、認識の信頼度と、その語句の読みデータとを出力する。具体的には、音声認識部104は、システム辞書105及びユーザ辞書106を参照して、それらに登録されている語句の中から、入力された音声に最も類似する読みを持つ語句あるいは複数の語句により表現される語句を推定する。また、音声認識部104は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。
システム辞書105は、予め登録された複数の語句を含む音声認識辞書である。ユーザ辞書106は、システム辞書105に登録されていない、端末装置102のユーザにより使用された新規語句を登録するための音声認識辞書である。これらの辞書には、語句の文字列とともにその語句の読みデータが登録される。
通信制御部107は、端末装置102の備える通信装置(図示せず)を介して音声認識サーバ103と通信する。例えば、通信制御部107は、マイクロフォン101を介してユーザの音声データの入力を受け付け、その音声データを音声認識サーバ103に送信する。通信制御部107は、送信する音声データに圧縮処理を施してデータサイズを小さくしてもよい。また例えば、通信制御部107は、送信した音声データに対する音声認識処理の認識結果を、音声認識サーバ103から受信して、認識結果取得部108に出力する。音声認識サーバ103からの認識結果は、例えば、認識された語句(文字列)と、認識の信頼度とを含み、その語句の読みデータを含んでいない。もちろん、通信制御部107は、音声認識サーバ103以外の機器と通信してもよい。
認識結果取得部108は、音声認識部104から出力される認識結果を取得する。また、認識結果取得部108は、通信制御部107を介して音声認識サーバ103からの認識結果を取得する。認識結果取得部108は、取得した2つの認識結果のいずれかを選択し、インターフェイス制御部109に出力する。認識結果取得部108は、例えば各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。
また、認識結果取得部108は、音声認識サーバ103による認識結果(「第1の認識結果」ともいう)と音声認識部104による認識結果(「第2の認識結果」ともいう)との両方を、辞書管理部110に出力する。
インターフェイス制御部109は、端末装置102に接続されるディスプレイやスピーカ等の出力装置(図示せず)を介してユーザに情報を出力する。また、インターフェイス制御部109は、端末装置102の備えるソフトキーやハードキー等の入力装置(図示せず)を介してユーザからの情報の入力を受け付ける。なお、インターフェイス制御部109は、認識結果取得部108から入力された認識結果をユーザに提示し、当該認識結果を許可するかキャンセルするかをユーザから受け付けてもよい。
辞書管理部110は、システム辞書105及びユーザ辞書106を管理する。具体的には、辞書管理部110は、認識結果取得部108により選択された認識結果(音声認識部104による認識結果、又は音声認識サーバ103による認識結果)を参照し、当該認識結果が示す認識語句がシステム辞書105又はユーザ辞書106に登録されているか否かを判定する。辞書管理部110は、認識語句が登録されているか否かを文字列の一致で判定する。認識語句がシステム辞書105及びユーザ辞書106に登録されていない場合、辞書管理部110は、当該認識語句を新規語句としてユーザ辞書106に登録する。
ここで、認識結果取得部108により選択された認識結果が音声認識サーバ103による認識結果である場合、その認識結果には、認識語句の読みが含まれていない。この場合、辞書管理部110は、形態素解析部111と読み選択部112を用いて、認識語句に読みデータを付与する。そして、辞書管理部110は、認識語句の文字列とともに付与されたその語句の読みデータを、ユーザ辞書106に登録する。
形態素解析部111は、認識語句の文字列に対して形態素解析を実行する。形態素解析とは、テキストデータを、文法や単語の品詞情報等を用いて、形態素と呼ばれる言語の単位に分割し、それぞれの形態素の品詞や読み等の情報を付与する技術である。日本語の形態素解析ツールは、例えば、非特許文献(MeCab: Yet Another Part-of-Speech and Morphological Analyzer, http://taku910.github.io/mecab/)に開示されている「Mecab」が知られており、本実施形態はこれを利用することができる。形態素解析についての詳細な説明は省略する。
具体的には、形態素解析部111は、音声認識サーバ103による第1の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割するとともに、各形態素に読みを付与する。また、形態素解析部111は、音声認識部104による第2の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割する(各形態素に対する読みの付与は必須ではない)。
読み選択部112は、第1の認識結果が示す語句を構成する各形態素に対して、付与すべき読みを選択する。具体的には、読み選択部112は、第1の認識結果が示す語句を構成する各形態素(「対象形態素」とも呼ぶ)に対して、文字列の表記が一致する形態素を第2の認識結果が示す語句を構成する各形態素(「候補形態素」とも呼ぶ)の中から特定する。
読み選択部112は、表記が一致する候補形態素を特定できた対象形態素に対して、第2の認識結果(読みデータを含む)から当該候補形態素の読みを抽出し、当該対象形態素に付与すべき読みとして選択する。
読み選択部112は、表記が一致する候補形態素を特定できなかった対象形態素に対して、形態素解析部111により付与された読みを抽出し、当該対象形態素に付与すべき読みとして選択する。
辞書管理部110は、上述のようにして読み選択部112により選択された各対象形態素の読みを取得し、認識語句の文字列とともにその語句の読みデータを、ユーザ辞書106に登録する。
音声認識サーバ103は、端末装置102からユーザの音声データを受信し、その音声データの音声認識処理を実行し、認識結果として、例えば、認識された語句(文字列)と認識の信頼度を、端末装置102に送信する。上述したように、認識結果には、読みデータが含まれない。具体的には、音声認識サーバ103は、自装置の備える音声認識辞書(図示せず)を参照して、その中に登録されている語句の中から、入力された音声に最も類似する読みを持つ語句あるいは複数の語句により表現される語句を推定する。また、音声認識サーバ103は、語句の推定とともに、当該推定の信頼度を算出する。このような音声認識処理は、既存の技術を用いて実現できるため、詳細な説明を省略する。
なお、音声認識サーバ103の備える音声認識辞書には、予め複数の語句が登録されている。また、当該音声認識辞書には、例えば管理者によってあるいはプログラムによって自動的に新しい語句が追加される。また、当該音声認識辞書に登録されている語句は、例えば管理者によってあるいはプログラムによって自動的に更新することができる。
端末装置102は、例えば、演算装置、主記憶装置、外部記憶装置、通信装置、入力装置、出力装置等を備えるコンピュータにより実現することができる。演算装置は、例えば、CPU(Central Processing Unit)などの装置である。主記憶装置は、例えば、RAM(Random Access Memory)などの記憶装置である。外部記憶装置は、例えば、ハードディスクやSSD(Solid State Drive)、あるいはフラッシュROM(Read Only Memory)などの記憶装置である。通信装置は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。入力装置は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。出力装置は、ディスプレイ、プリンタ、スピーカなどを含む、出力情報を出力する装置である。
端末装置102の各機能(図1参照、これらを1つの制御部と呼んでもよい)は、例えば、演算装置が所定のアプリケーションプログラムを実行することによって実現することができる。このアプリケーションプログラムは、例えば、主記憶装置又は外部記憶装置内に記憶され、実行にあたって主記憶装置上にロードされ、演算装置によって実行される。音声認識辞書は、例えば、主記憶装置及び外部記憶装置の少なくとも一方の記憶部に格納される。音声認識サーバ103も、上述したようなコンピュータにより実現することができる。
図2は、第1実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。本フローチャートは、音声データの入力及びその音声認識処理が実行された後の処理を示している。端末装置102と音声認識サーバ103の通信は確立されているものとする。
まず、認識結果取得部108は、入力された音声データの音声認識結果を取得したか否かを判定する(ステップS1)。具体的には、認識結果取得部108は、音声認識部104及び音声認識サーバ103のそれぞれから認識結果を取得したか否かを判定する。2つの認識結果を取得していないと判定した場合(ステップS1:NO)、認識結果取得部108は、ステップS1の処理を継続する。
認識結果取得部108は、2つの認識結果を取得したと判定した場合(ステップS1:YES)、認識結果を選択する(ステップS2)。具体的には、認識結果取得部108は、ステップS1で取得した2つの認識結果うち、各認識結果に含まれる信頼度を比較して、信頼度が高い方の認識結果を選択する。信頼度の範囲が最小値0〜最大値1である場合を考える。例えば、音声認識部104から得られた認識結果が「東京国際空港」(信頼度0.92)、音声認識サーバ103から得られた認識結果が「東京国際空港」(信頼度0.97)の場合は、どちらの認識結果も信頼度が高いが、より信頼度が高い方が選択される。また例えば、音声認識部104から得られた認識結果が「成田国際空港」(信頼度0.32)、音声認識サーバ103から得られた認識結果が「セントレア国際空港」(信頼度0.94)の場合は、異なる語句の信頼度ではあるが、音声認識部104の認識結果は誤っている可能性が高いため、信頼度が高い方が選択される。
なお、端末装置102と音声認識サーバ103の通信が確立されていない場合、認識結果取得部108は、ステップS1において、音声認識部104から認識結果を取得したか否かを判定し、ステップS2において、信頼度に関わらず音声認識部104の認識結果を選択する。
次に、認識結果取得部108は、選択した認識結果がキャンセルされたか否かを判定する(ステップS3)。具体的には、インターフェイス制御部109は、ステップS2で選択された認識結果が示す語句(あるいは当該語句に対応する操作コマンド)を、ディスプレイやスピーカを介してユーザに提示するとともに、当該語句(あるいは操作コマンド)を許可するかキャンセルするかの選択を、入力装置を介してユーザから受け付ける。インターフェイス制御部109は、提示した語句(あるいは操作コマンド)の修正をユーザから受け付けてもよい。
インターフェイス制御部109がキャンセルの選択を受け付けた場合、認識結果取得部108は、認識結果がキャンセルされたと判定し(ステップS3:YES)、処理をステップS1に戻し、次の音声データに関する処理を実行する。
インターフェイス制御部109が許可の選択を受け付けた場合、認識結果取得部108は、認識結果が許可されたと判定し(ステップS3:NO)、処理をステップS4に進める。このとき、認識結果取得部108は、ステップS2で選択されかつステップS3で許可された認識結果を辞書管理部110に出力する。ステップS3で語句が修正された場合には、認識結果取得部108は、その修正後の認識結果を辞書管理部110に出力すればよい。なお、ユーザに提示した語句(あるいは操作コマンド)が許可された場合、端末装置102の処理部(図示せず)は、当該語句(あるいは操作コマンド)に対応付けられた機能を実行してもよい。
次に、辞書管理部110は、認識語句が音声認識辞書に登録済であるか否かを判定する(ステップS4)。具体的には、辞書管理部110は、ステップS3で認識結果取得部108から出力された認識結果を参照し、当該認識結果が示す語句がシステム辞書105又はユーザ辞書106に登録されているか否かを判定する。なお、当該認識結果が音声認識部104による認識結果である場合、当該認識結果が示す認識語句は、システム辞書105又はユーザ辞書106に登録されている。一方、当該認識結果が音声認識サーバ103による認識結果である場合、当該認識結果が示す認識語句は、システム辞書105又はユーザ辞書106に登録されていない場合がある。辞書管理部110は、認識語句がシステム辞書105又はユーザ辞書106に登録済であると判定した場合(ステップS4:YES)、処理をステップS1に戻し、認識結果取得部108は次の音声データに関する処理を実行する。
辞書管理部110は、認識語句がシステム辞書105及びユーザ辞書106に登録済でないと判定した場合(ステップS4:NO)、当該認識語句をユーザ辞書106に登録するか否かを判定する(ステップS5)。具体的には、辞書管理部110は、同一の認識語句について、ステップS4で登録されていないと判定した回数を記録する。そして、辞書管理部110は、当該認識語句の回数が所定閾値を超えた場合に、ユーザ辞書106に登録すると判定する。このようにすれば、少ない回数しか認識されていない語句(すなわち、使用頻度が低いと推測される語句)が、即座にユーザ辞書106に登録されてしまうのを避けることができる。
ステップS5の判定方法は、上述の例に限られない。例えば、辞書管理部110は、当該認識語句の信頼度を参照してもよい。そして、辞書管理部110は、当該信頼度が所定閾値より大きい場合に、ユーザ辞書106に登録すると判定する。このようにすれば、認識の信頼度が低い語句が、ユーザ辞書106に登録されてしまうのを避けることができる。もちろん、ステップS5の処理を省略して、辞書管理部110は、無条件で認識語句をユーザ辞書106に登録してもよい。
辞書管理部110は、認識語句をユーザ辞書106に登録しないと判定した場合(ステップS5:NO)、処理をステップS1に戻し、認識結果取得部108は次の音声データに関する処理を実行する。
辞書管理部110は、認識語句をユーザ辞書106に登録すると判定した場合(ステップS5:YES)、当該認識語句に読みを付与する(ステップS6)。ステップS6については、図3を用いて後に詳述する。
辞書管理部110は、ステップS6の処理の後、認識語句を新規語句としてユーザ辞書106に登録する(ステップS7)。具体的には、辞書管理部110は、認識語句の文字列とともにステップS6で付与されたその語句の読みデータを、ユーザ辞書106に登録する。そして、辞書管理部110は、処理をステップS1に戻し、認識結果取得部108は次の音声データに関する処理を実行する。
図3は、第1実施形態に係る端末装置の読み付与処理の一例を示すフローチャートである。本フローチャートは、図2のステップS6の処理の詳細を示している。
まず、辞書管理部110は、音声認識サーバ103による第1の認識結果を、認識結果取得部108から取得する(ステップS61)。また、辞書管理部110は、音声認識部104による第2の認識結果を、認識結果取得部108から取得する(ステップS62)。
次に、形態素解析部111は、ステップS61で取得された第1の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割するとともに、各形態素に読みを付与する(ステップS63)。また、形態素解析部111は、ステップS62で取得された第2の認識結果が示す語句の文字列に対して形態素解析を実行し、当該語句を複数の形態素に分割する(ステップS64)。
次に、読み選択部112は、ステップS63で解析された第1の認識結果が示す語句を構成する各対象形態素に対して、文字列の表記が一致する形態素をステップS64で解析された第2の認識結果が示す語句を構成する各候補形態素の中から特定する(ステップS65)。
次に、読み選択部112は、ステップS65において表記が一致する候補形態素を特定できた対象形態素に対して、第2の認識結果から当該候補形態素の読みを抽出し、当該対象形態素に付与すべき読みとして選択する(ステップS66)
次に、読み選択部112は、ステップS65において表記が一致する候補形態素を特定できなかった対象形態素に対して、ステップS63で形態素解析部111により付与された読みを抽出し、当該対象形態素に付与すべき読みとして選択する(ステップS67)。
なお、辞書管理部110は、ステップS66及びステップS67で読み選択部112により選択された各対象形態素の読みを取得し、認識語句に対して付与し、本フローチャートの処理を終了する。
以下に、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与することができる読み付与の原理について、具体例を用いて説明する。
図4は、認識語句に対して形態素解析により付与された読みの例を示す図である。図4では、符号401は、ユーザが発声した発話内容を示し、符号402は、音声認識サーバ103から得られた認識結果のテキスト文字列を示し、符号403は、テキスト文字列を形態素解析した結果を示す。形態素解析結果において、「」は各形態素の区切り位置を示し、()内は各形態素の読みを示す。図4では、No.1〜3の例が示されている。
例No.1は、形態素解析結果が正しい場合である。例No.1は、「さっぽろぜんくうほてる」というユーザの発話に対して、「札幌全空ホテル」という認識結果が得られ、「札幌(さっぽろ)」「全空(ぜんくう)」「ホテル(ほてる)」という形態素解析結果が得られた場合を示している。認識結果が示す語句「札幌全空ホテル」と、形態素解析結果が示す読み「さっぽろぜんくうほてる」とが併せてユーザ辞書106に追加されれば、その後、「さっぽろぜんくうほてる」というユーザの発話に対しては、端末装置102内の音声認識部104により正しい認識結果「札幌全空ホテル」が得られるようになる。
例No.2は、形態素解析結果が誤っている場合である。例No.2は、「じゅーそーしょーてんがい」というユーザの発話に対して、「十三商店街」という認識結果が得られ、「十三(じゅーさん)」「商店街(しょーてんがい)」という形態素解析結果が得られた場合を示している。正しくは「十三」に対して「じゅーそー」読みが付与されるべきところ、誤って「じゅうさん」という読みが付与されている。
例No.3は、ユーザが正式な読み方を知らなかった場合である。例No.3は、「さっぽろあかほてる」というユーザの発話に対して、「札幌AKAホテル」という認識結果が得られ、「札幌(さっぽろ)」「AKA(えいけいえー)」「ホテル(ほてる)」という形態素解析結果が得られた場合を示している。「AKA」の正式な読み方は「えいけいえー」であるが、ユーザはそれを知らずに「さっぽろあかほてる」と発話してしまい、形態素解析では正式な「さっぽろえいけいえーほてる」という読みが付与されている。
例No.2及び例No.3のいずれの場合も、ユーザの実際の発話と形態素解析により付けられた読みとの間に齟齬が生じている。このような齟齬が解消される原理について図5を参照して説明する。
図5は、第1実施形態に係る認識語句に対する読み付与の例を説明する模式図である。
図5の例では、ユーザは「さっぽろあかほてる」と発話し(501)、音声認識サーバ103から「札幌AKAホテル」という認識結果が得られ(502)、音声認識部104からは「AKAプラザホテル」という認識結果が得られている(503)。
音声認識サーバ103から得られる認識結果(502)は、テキスト文字列を含むが、読みは含まれていない。一方、音声認識部104から得られる認識結果(503)は、音声認識辞書への参照が可能であるため、読みが含まれている。ここでは、「AKAプラザホテル」に対して「あかぷらざほてる」という読みが付与されている。
音声認識サーバ103から得られた認識結果(502)に対して形態素解析が実施されると、各形態素の読みが得られる(504)。ここでは、認識結果は「札幌」「AKA」「ホテル」の3つの形態素に分割され、各形態素にはそれぞれ「さっぽろ」「えいけいえー」「ほてる」という読みが付与されている。
同様に、音声認識部104から得られた認識結果(503)に対しても形態素解析が実施される(505)。ここでは、認識結果は「AKA」「プラザ」「ホテル」の3つの形態素に分割される。このとき、各形態素の読みには、認識結果(503)で得られた読みが使用される。従って、各形態素にはそれぞれ「あか」「ぷらざ」「ほてる」という読みが付与されていると扱える。
続いて、形態素解析結果(504)に含まれる各形態素のそれぞれに対して、表記が一致する形態素が形態素解析結果(505)に存在するか否かが判定され、一致する形態素の読みが抽出される(506)。ここでは、「AKA」「ホテル」の2つの形態素が対象となる。これらの形態素については、認識結果(503)に基づいた読み(505)が選択される。すなわち、「AKA」の読みには、「えいけいえー」の代わりに「あか」が選択される。「ホテル」の読みには、形態素解析結果(504)と同じ「ほてる」が選択される。一方、表記が一致する形態素が存在しなかった「札幌」の読みには、形態素解析結果(504)に含まれる「さっぽろ」がそのまま選択される。
このようにして、形態素解析結果(504)に含まれる各形態素の一部の読みが入れ替えられた結果、「札幌AKAホテル」の読みは、「さっぽろあかほてる」となる(507)。そして、この表記「札幌AKAホテル」と読み「さっぽろあかほてる」のセットが、ユーザ辞書106に新規語句として登録される。その後、「さっぽろあかほてる」というユーザの発話に対しては、端末装置102内の音声認識部104により適切な認識結果「札幌AKAホテル」が得られるようになる。
以上、本発明の第1実施形態について説明した。本実施形態の端末装置102は、音声認識サーバ103の認識結果に基づいて端末装置102の音声認識辞書に存在しない語句を新たに登録する際に、音声認識部104の認識結果から得られた読み情報を参照する。これにより、独特の読みを持つ語句やユーザにより誤って使用されている読みを持つ語句に対して適切な読みを付与して、音声認識辞書に新規語句を登録することができる。
[第2実施形態]
第1実施形態では、辞書管理部110は、音声認識部104で得られた単一の認識結果を参照して読みを修正している。この場合、音声認識部104の認識結果に、表記が一致する形態素が現れない場合、読みを修正することができない。第2実施形態では、音声認識部104で得られる複数の認識結果を参照する。以下、第1実施形態と異なる点を中心に説明する。
一般的な音声認識処理は、入力された音声に対応する文字列の候補として複数の仮説を生成し、それぞれの仮説に付けられたスコア(上述の信頼度)を参照してスコアの一番高い仮説を認識結果として出力する。スコアの高い上位N個の仮説は、認識結果のNベストと呼ばれる。
音声認識部104は、NベストのN個の認識結果を生成して、これらの認識結果をスコアとともに認識結果取得部108に出力する。なお、音声認識部104は、Nに定数を設定してN個の認識結果を得るようにしてもよいし、スコアが一定値以上である認識結果の数をNとしてもよい。
認識結果取得部108は、図2のステップS2において、N個の認識結果のうちスコアの一番高い認識結果と、音声認識サーバ103から取得した認識結果とを比較して、いずれかの認識結果を選択する。
辞書管理部110は、図3のステップS62において、音声認識部104によるNベストのN個の第2の認識結果を、認識結果取得部108から取得する。形態素解析部111は、ステップS64において、ステップS62で取得されたN個の第2の認識結果それぞれについて形態素解析を実行する。
読み選択部112は、図3のステップS65において、ステップS63で解析された第1の認識結果が示す語句を構成する各対象形態素に対して、文字列の表記が一致する形態素をステップS64で解析されたN個の第2の認識結果が示す各語句を構成する各候補形態素の中から特定する。なお、読み選択部112は、ステップS66において、ステップS65で表記が一致する複数の候補形態素を特定した場合、スコアが高い(順位が高い)認識結果から当該候補形態素の読みを抽出し、対象形態素に付与すべき読みとして選択する。
以下に、Nベストの認識結果を用いた読み付与の原理について、具体例を用いて説明する。
図6は、Nベストの認識結果の例を示す図である。図6は、音声認識部104で得られる認識結果のNベストを示している。図6では、符号601は、認識結果の順位を示し、符号602は、認識結果を示し、符号603は、スコアを示す。
図7は、第2実施形態に係る認識語句に対する読み付与の例を説明する模式図である。図7は、N=2の場合を示している。
図7の例では、ユーザは「さっぽろあかほてる」と発話し(701)、音声認識サーバ103から「札幌AKAホテル」という認識結果が得られ(702)、音声認識部104からは「札幌アサホテル」及び「AKAプラザホテル」の2つの認識結果が得られている(703)。
音声認識サーバ103から得られる認識結果(702)は、テキスト文字列を含むが、読みは含まれていない。一方、音声認識部104から得られる2つの認識結果(703)は、音声認識辞書への参照が可能であるため、それぞれ読みが含まれている。ここでは、「札幌アサホテル」に対して「さっぽろあさほてる」という読みが付与され、「AKAプラザホテル」に対して「あかぷらざほてる」という読みが付与されている。
音声認識サーバ103から得られた認識結果(702)に対して形態素解析が実施されると、各形態素の読みが得られる(704)。ここでは、認識結果は「札幌」「AKA」「ホテル」の3つの形態素に分割され、各形態素にはそれぞれ「さっぽろ」「えいけいえー」「ほてる」という読みが付与されている。
同様に、音声認識部104から得られた2つの認識結果(703)に対しても形態素解析が実施される(705)。ここでは、「札幌アサホテル」は「札幌」「アサ」「ホテル」の3つの形態素に分割され、「AKAプラザホテル」は「AKA」「プラザ」「ホテル」の3つの形態素に分割される。このとき、各形態素の読みには、認識結果(703)で得られた読みが使用される。従って、各形態素「札幌」「アサ」「ホテル」には、それぞれ「さっぽろ」「あさ」「ほてる」という読みが付与され、各形態素「AKA」「プラザ」「ホテル」には、それぞれ「あか」「ぷらざ」「ほてる」という読みが付与されていると扱える。
続いて、形態素解析結果(704)に含まれる各形態素のそれぞれに対して、表記が一致する形態素が形態素解析結果(705)に存在するか否かが判定され、一致する形態素の読みが抽出される(706)。ここでは、「札幌」「AKA」「ホテル」の3つの形態素が対象となる。これらの形態素については、認識結果(703)に基づいた読み(705)が選択される。すなわち、「札幌」の読みには、形態素解析結果(704)と同じ「さっぽろ」が選択される。「AKA」の読みには、「えいけいえー」の代わりに「あか」が選択される。「ホテル」の読みには、形態素解析結果(704)と同じ「ほてる」が選択される。
このようにして、形態素解析結果(704)に含まれる各形態素の読みが入れ替えられた結果、「札幌AKAホテル」の読みは、「さっぽろあかほてる」となる(707)。そして、この表記「札幌AKAホテル」と読み「さっぽろあかほてる」のセットが、ユーザ辞書106に新規語句として登録される。その後、「さっぽろあかほてる」というユーザの発話に対しては、端末装置102内の音声認識部104により適切な認識結果「札幌AKAホテル」が得られるようになる。
なお、図7では説明を簡単にするため、N=2としているが、Nが3以上の場合も同様の原理で新規語句を登録ことができる。
また、Nベストの認識結果から読みを取得することにより、仮に、音声認識部104での2つの認識結果「札幌アサホテル」及び「AKAプラザホテル」のうち、「札幌アサホテル」のスコアの方が高かった場合においても、「AKA」の読み「あか」を取得することが可能となる。
ここで、Nベストの認識結果から読みを取得する場合、対象形態素に対して、表記が一致する複数の候補形態素が特定されることがある。このような場合について説明する。
図8は、Nベストの認識結果から選択された各形態素と読みの例を示す図である。図8では、符号801は、認識結果の順位を示し、符号802は、認識結果を示し、符号803は、スコアを示し、符号804は、認識結果を形態素解析した結果を示し、符号805は、選択された形態素と読みを示す。
図7と同様に、音声認識サーバ103から得られた認識結果の形態素解析結果が、「札幌」「AKA」「ホテル」である場合を考える。この場合、各対象形態素と表記が一致する候補形態素は、No.1,3,4の「札幌(さっぽろ)」、No.2の「AKA(あか)」、No.4の「AKA(えいけいえー)」、No.1〜4の「ホテル(ほてる)」である。それぞれの対象形態素に対して複数の候補が存在する。
対象形態素「札幌」については、いずれの候補形態素も同じ読みを有するため、どの候補を選択しても同じ読みが付与される。同様に、対象形態素「ホテル」についても、いずれの候補形態素も同じ読みを有するため、どの候補を選択しても同じ読みが付与される。一方、対象形態素「AKA」については、異なる読みを有する2つの候補形態素が存在する。No.2の「AKA(あか)」を選ぶか、No.4の「AKA(えいけいえー)」を選ぶかで読みが異なってしまう。そこで、本実施形態では、このような読みの競合を防止するため、表記が一致する候補形態素が複数存在する場合には、スコアが高い方の候補形態素の読みを選択するようにする。
図8の例では、対象形態素「札幌」については、No.1の「札幌(さっぽろ)」が選択され、対象形態素「ホテル」についても、No.1の「ホテル(ほてる)」が選択され、対象形態素「AKA」については、No.2の「AKA(あか)」が選択される。この結果、「札幌AKAホテル」には、「さっぽろあかほてる」という読みが付与される。
[第3実施形態]
第1実施形態では、図2のステップS4において、認識語句がシステム辞書105又はユーザ辞書106に登録済である場合は、当該語句はユーザ辞書106に登録されない。第3実施形態では、認識語句がシステム辞書105又はユーザ辞書106に登録済であっても、読みが異なる場合は、当該語句をユーザ辞書106に登録する。以下、第1実施形態と異なる点を中心に説明する。
図9は、第3実施形態に係る端末装置の音声認識処理および認識語句登録処理の一例を示すフローチャートである。図2のフローチャートと異なり、ステップS6の処理が、ステップS3とステップS4の間に挿入されている。
認識結果取得部108が認識結果が許可されたと判定した場合(ステップS3:NO)、辞書管理部110は、ステップS6の処理を実行し、その後、ステップS4の処理を実行する。なお、辞書管理部110は、当該認識結果が音声認識部104による認識結果である場合、既に読みが付与されているため、ステップS6の処理をスキップしてステップS4の処理を実行する。辞書管理部110は、認識語句をユーザ辞書106に登録すると判定した場合(ステップS5:YES)、ステップS7の処理を実行する。
ステップS4において、辞書管理部110は、認識語句及び当該語句の読みのセットが、システム辞書105又はユーザ辞書106に登録されているか否かを判定する。辞書管理部110は、認識語句及びその読みのセットがシステム辞書105又はユーザ辞書106に登録済であると判定した場合(ステップS4:YES)、処理をステップS1に戻す。辞書管理部110は、認識語句及びその読みのセットがシステム辞書105及びユーザ辞書106に登録済でないと判定した場合(ステップS4:NO)、処理をステップS5に進める。
本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。実施形態および各変形例を適宜組み合わせることもできる。
例えば、上述の実施形態では、読みを付与する処理に形態素解析を利用しているが、この方法に限られない。
また例えば、上述の実施形態では、音声認識部104からの認識結果を形態素解析部111により形態素に分割しているが、別の方法により分割してもよい。具体的には、端末装置102の音声認識辞書を、語句の文字列と、その語句の読みデータと、その語句を構成する各形態素の情報とを格納するように構成する。音声認識部104は、音声データに対する音声認識処理において、辞書を参照して認識語句を形態素に分割すればよい。
図1の端末装置102の構成は、当該装置の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本発明が制限されることはない。端末装置102の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。
図2、図3、及び図9で示したフローチャートの処理単位は、端末装置102の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本発明が制限されることはない。端末装置102の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。
上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態や変形例の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態や変形例の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部及び処理手段などは、それらの一部又は全部を、プロセッサが各々の機能を実現するプログラムにより実現しても良い。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記憶装置、又は、ICカード、SD(Secure Digital)メモリカード、DVD(Digital Versatile Disk)などの記憶媒体に置くことができる。なお、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。
本発明は、音声認識システム、端末装置に限らず、辞書管理方法、コンピュータ読み取り可能なプログラム等の様々な形態で提供することができる。また、本発明は、日本語に限らず、英語その他の様々な言語の音声認識に適用可能である。
101…マイクロフォン、102…端末装置、103…音声認識サーバ、104…音声認識部、105…システム辞書、106…ユーザ辞書、107…通信制御部、108…認識結果取得部、109…インターフェイス制御部、110…辞書管理部、111…形態素解析部、112…読み選択部、401…ユーザの発話、402…認識結果、403…形態素解析の結果、601…順位、602…認識結果、603…スコア、801…順位、802…認識結果、803…スコア、804…形態素解析の結果、805…選択された形態素と読み

Claims (9)

  1. ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第1の認識結果を受信する通信制御部と、
    音声認識のための音声認識辞書を記憶する記憶部と、
    前記音声データを前記音声認識辞書を用いて音声認識し、第2の認識結果を得る音声認識部と、
    前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
    前記辞書管理部は、
    前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析部と、
    前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
    前記辞書管理部は、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
    端末装置。
  2. 請求項1に記載の端末装置であって、
    前記読み選択部は、前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれの形態素とも表記が一致しない形態素に対して、前記形態素解析部により付与された読みを選択する
    端末装置。
  3. 請求項1に記載の端末装置であって、
    前記第1の認識結果と、前記第2の認識結果とを比較し、いずれか一方の認識結果を選択する認識結果取得部を備え、
    前記辞書管理部は、前記選択された認識結果が前記第1の認識結果である場合に、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
    端末装置。
  4. 請求項1に記載の端末装置であって、
    前記音声認識部は、複数の前記第2の認識結果を得るものであり、
    前記形態素解析部は、前記各第2の認識結果が示す各第2の語句を形態素に分割し、
    前記読み選択部は、前記第1の語句を構成する形態素うち、前記各第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する
    端末装置。
  5. 請求項4に記載の端末装置であって、
    前記複数の第2の認識結果には、それぞれ順位が設定されており、
    前記読み選択部は、前記第1の語句を構成する形態素に対して、表記が一致する複数の形態素が前記各第2の語句中に存在する場合、前記順位が高い前記第2の認識結果が示す当該形態素の読みを選択する
    端末装置。
  6. 請求項1に記載の端末装置であって、
    前記辞書管理部は、前記第1の語句が前記音声認識辞書に登録されていない場合に、前記第1の語句を前記音声認識辞書に登録する
    端末装置。
  7. 請求項6に記載の端末装置であって、
    前記辞書管理部は、前記第1の語句が前記音声認識辞書に登録されている場合でも、読みが異なるときは、別の語句として前記音声認識辞書に登録する
    端末装置。
  8. ユーザの音声データを音声認識する音声認識サーバと、端末装置とを備える音声認識システムであって、
    前記端末装置は、
    前記音声認識サーバに前記音声データを送信し、前記音声認識サーバから第1の認識結果を受信する通信制御部と、
    音声認識のための音声認識辞書を記憶する記憶部と、
    前記音声データを前記音声認識辞書を用いて音声認識し、第2の認識結果を得る音声認識部と、
    前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する辞書管理部と、を備え、
    前記辞書管理部は、
    前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析部と、
    前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択部と、を備え、
    前記辞書管理部は、前記第1の語句を、前記読み選択部により選択された読みとともに、前記音声認識辞書に登録する
    音声認識システム。
  9. 端末装置の辞書管理方法であって、
    通信制御部が、ユーザの音声データを音声認識サーバに送信し、前記音声認識サーバから第1の認識結果を受信する第1の認識ステップと、
    音声認識部が、前記音声データを前記端末装置が備える音声認識辞書を用いて音声認識し、第2の認識結果を得る第2の認識ステップと、
    辞書管理部が、前記第1の認識結果が示す第1の語句を前記音声認識辞書に登録する登録ステップと、を含み、
    前記登録ステップは、
    前記第1の語句を形態素に分割するとともに各形態素に読みを付与し、前記第2の認識結果が示す第2の語句を形態素に分割する形態素解析ステップと、
    前記第1の語句を構成する形態素うち、前記第2の語句を構成するいずれかの形態素と表記が一致する形態素に対して、前記第2の認識結果が示す当該形態素の読みを選択する読み選択ステップと、
    前記第1の語句を、前記読み選択ステップで選択された読みとともに、前記音声認識辞書に登録するステップと、を含む
    辞書管理方法。
JP2017132708A 2017-07-06 2017-07-06 音声認識システム、端末装置、及び辞書管理方法 Active JP6869835B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017132708A JP6869835B2 (ja) 2017-07-06 2017-07-06 音声認識システム、端末装置、及び辞書管理方法
EP18181133.2A EP3425629B1 (en) 2017-07-06 2018-07-02 Speech recognition system, terminal device, and dictionary management method
US16/027,500 US10818283B2 (en) 2017-07-06 2018-07-05 Speech recognition system, terminal device, and dictionary management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017132708A JP6869835B2 (ja) 2017-07-06 2017-07-06 音声認識システム、端末装置、及び辞書管理方法

Publications (2)

Publication Number Publication Date
JP2019015838A JP2019015838A (ja) 2019-01-31
JP6869835B2 true JP6869835B2 (ja) 2021-05-12

Family

ID=62845983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017132708A Active JP6869835B2 (ja) 2017-07-06 2017-07-06 音声認識システム、端末装置、及び辞書管理方法

Country Status (3)

Country Link
US (1) US10818283B2 (ja)
EP (1) EP3425629B1 (ja)
JP (1) JP6869835B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
SG10201801749PA (en) * 2018-03-05 2019-10-30 Kaha Pte Ltd Methods and system for determining and improving behavioural index
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
US11152001B2 (en) * 2018-12-20 2021-10-19 Synaptics Incorporated Vision-based presence-aware voice-enabled device
KR20220052468A (ko) * 2020-10-21 2022-04-28 현대자동차주식회사 차량 및 그 제어 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP3911178B2 (ja) * 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004012653A (ja) 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP2007140194A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 番組検索装置および形態素辞書管理サーバ
US8719027B2 (en) * 2007-02-28 2014-05-06 Microsoft Corporation Name synthesis
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010097239A (ja) * 2008-10-14 2010-04-30 Nec Corp 辞書作成装置、辞書作成方法、および辞書作成プログラム
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
JP2012088370A (ja) 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
CN103635962B (zh) * 2011-08-19 2015-09-23 旭化成株式会社 声音识别***、识别字典登记***以及声学模型标识符序列生成装置
JP2013088477A (ja) 2011-10-13 2013-05-13 Alpine Electronics Inc 音声認識システム
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
JP2015143866A (ja) 2015-02-25 2015-08-06 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
KR102443087B1 (ko) * 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법

Also Published As

Publication number Publication date
US20190013010A1 (en) 2019-01-10
US10818283B2 (en) 2020-10-27
EP3425629B1 (en) 2019-11-20
EP3425629A1 (en) 2019-01-09
JP2019015838A (ja) 2019-01-31

Similar Documents

Publication Publication Date Title
JP6869835B2 (ja) 音声認識システム、端末装置、及び辞書管理方法
JP6923332B2 (ja) 自動通訳方法及び装置
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
KR20190046623A (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
US20140350934A1 (en) Systems and Methods for Voice Identification
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
KR102396983B1 (ko) 문법 교정 방법 및 장치
JP5868544B2 (ja) 音声認識装置および音声認識方法
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
JP5996152B2 (ja) 音声認識システム及び音声認識方法
JP5396530B2 (ja) 音声認識装置および音声認識方法
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP6833203B2 (ja) 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
US10600405B2 (en) Speech signal processing method and speech signal processing apparatus
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
US20200243092A1 (en) Information processing device, information processing system, and computer program product
US20180033425A1 (en) Evaluation device and evaluation method
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
US11308936B2 (en) Speech signal processing method and speech signal processing apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210414

R150 Certificate of patent or registration of utility model

Ref document number: 6869835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150