JP7107228B2 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP7107228B2
JP7107228B2 JP2018563262A JP2018563262A JP7107228B2 JP 7107228 B2 JP7107228 B2 JP 7107228B2 JP 2018563262 A JP2018563262 A JP 2018563262A JP 2018563262 A JP2018563262 A JP 2018563262A JP 7107228 B2 JP7107228 B2 JP 7107228B2
Authority
JP
Japan
Prior art keywords
information
speech recognition
user
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018563262A
Other languages
English (en)
Other versions
JPWO2018135302A1 (ja
Inventor
真一 河野
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018135302A1 publication Critical patent/JPWO2018135302A1/ja
Application granted granted Critical
Publication of JP7107228B2 publication Critical patent/JP7107228B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より利便性の高い音声認識サービスを提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。
例えば、特許文献1には、文章内の前後文脈に基づいた言語モデルに基づいて、音声認識された文章に含まれている単語を置き換えることにより、音声認識結果として得られた文章の正確度を向上させる技術が開示されている。
特開2016-110087号公報
しかしながら、上述の特許文献1で開示されている技術では、過去の学習結果などに依存して単語の置き換えが行われているため、適切な学習が行われていない場合には、単語の置き換えを期待通りに行うことは困難であった。そのため、音声認識結果として得られた文章の正確度を向上させるのに寄与することができない結果、音声認識サービスとしての利便性が低くなってしまっていた。
本開示は、このような状況に鑑みてなされたものであり、より利便性の高い音声認識サービスを提供することができるようにするものである。
本開示の一側面の情報処理装置は、ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と、前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部とを備え、前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
本開示の一側面の情報処理方法またはプログラムは、ユーザの発話に基づく音声情報に対する音声認識を行い、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、前記修正箇所の推定に必要となる前記照合情報を取得するステップを含み、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
本開示の一側面においては、ユーザの発話に基づく音声情報に対する音声認識が行われ、音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、文章に対して修正が必要となる修正箇所が推定される。そして、音声認識結果として得られた文章が、推定された修正箇所とともにユーザに提示され、修正箇所の推定に必要となる照合情報が取得される。そして、ユーザの視線の先にある物体を認識した物体認識情報が、照合情報として取得され、文章の内容と物体認識情報とを照合することにより修正箇所が推定される。
本開示の一側面によれば、より利便性の高い音声認識サービスを提供することができる。
本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。 クライアント端末の構成例を示すブロック図である。 音声認識サーバの構成例を示すブロック図である。 行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例を示す図である。 行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例を示す図である。 天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例を示す図である。 天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例を示す図である。 ユーザの視線の先にある物体の認識について説明する図である。 物体認識情報に基づいて推定された修正箇所を提示するユーザインタフェースの例を示す図である。 音声認識処理の一例について説明する図である。 音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。 編集対応処理について説明する図である。 編集を反映した音声認識結果の表示を説明する図である。 再発話の音声情報を接続する箇所の前に、特定の音声情報を追加する例を説明する図である。 音声認識結果に対して編集を行うユーザインタフェースの一例を示す図である。 編集用の音声認識向けの音声情報の生成に参照するデータベースの一例を示す図である。 発話以外の音情報を用いた編集用の音声認識向けの音声情報の例を説明する図である。 ユーザの再発話に基づいた様々な編集を行う事例を説明する図である。 クライアント端末において実行される処理を説明するフローチャートである。 音声認識サーバにおいて実行される処理を説明するフローチャートである。 編集対応処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
<音声認識システムの構成例>
図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。
図1に示すように、音声認識システム11は、インターネットなどのネットワーク12を介して、複数台(図1の例ではN台)のクライアント端末13-1乃至13-Nおよび音声認識サーバ14が接続されて構成される。なお、クライアント端末13-1乃至13-Nは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末13と称する。
また、ネットワーク12には、一般的なニュースや天候などに関する情報を提供するニュースサーバ15、および、様々な分野についての知識や解説などに関する情報を提供する百科事典サーバ16が接続されている。なお、以下で説明する本実施の形態では、ニュースサーバ15および百科事典サーバ16により提供される情報を事実情報とも称する。
例えば、音声認識システム11では、それぞれのクライアント端末13を所持するユーザの発話に基づいた音声情報が、ネットワーク12を介して音声認識サーバ14に送信され、音声認識サーバ14において音声認識処理が実行される。そして、音声認識サーバ14は、音声認識結果として得られる単語列からなる文章(文字情報)を、ネットワーク12を介して、発話を行ったユーザのクライアント端末13に送信する。これにより、クライアント端末13は、ユーザの発話に対する音声認識結果を表示し、ユーザに提示することができる。
このように構成される音声認識システム11は、例えば、より高性能で最新の音声認識処理を音声認識サーバ14に実装することで、個々のクライアント端末13の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。
図2は、クライアント端末13の構成例を示すブロック図である。
図2に示すように、クライアント端末13は、音声情報取得部21、映像出力部22、操作入力部23、音声出力部24、行動情報取得部25、環境情報取得部26、視線情報取得部27、物体認識部28、記録部29、通信部30、および音声認識結果対応処理部31を備えて構成される。
音声情報取得部21は、例えば、音声情報を取得するためのマイクロホンなどにより構成され、ユーザの発話した音声に基づいた音声情報を取得して、通信部30に供給する。そして、その音声情報は、通信部30により、図1のネットワーク12を介して音声認識サーバ14に送信される。
映像出力部22は、例えば、映像を出力するためのディスプレイなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を表示して、ユーザに提示する。また、映像出力部22は、例えば、後述の図4乃至17を参照して説明するように、音声認識結果に対する修正または編集を行う処理において利用される各種のユーザインタフェースを表示する。
操作入力部23は、例えば、映像出力部22を構成するディスプレイに対するユーザのタッチ操作を入力するためのタッチパネルにより構成される。そして、操作入力部23は、映像出力部22に表示されるユーザインタフェースに対してユーザのタッチ操作が行われると、そのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部31に供給する。
音声出力部24は、例えば、音声を出力するためのスピーカなどにより構成され、ユーザの発話に基づいた音声情報に対する音声認識結果を、合成音声(TSS:Text to Speech)により出力する。
行動情報取得部25は、例えば、GPS(Global Positioning System)装置や加速度センサなどにより構成され、ユーザの行動に伴う位置情報や加速度情報などを行動情報として定期的に取得し、逐次、記録部29に供給する。
環境情報取得部26は、例えば、温度センサや湿度センサなどにより構成され、ユーザの周辺の環境を表す温度や湿度などを環境情報として定期的に取得し、逐次、記録部29に供給する。
視線情報取得部27は、例えば、ユーザの瞳の動きを撮像可能な撮像装置により構成され、ユーザの視線の方向を示す視線情報を取得して、物体認識部28に供給する。
物体認識部28は、例えば、ユーザの視線の先を撮像可能な撮像装置により構成され、視線情報取得部27から供給される視線情報に基づいて、ユーザが視認している物体を特定し、その特定した物体に対する物体認識処理を行う。そして、物体認識部28は、物体を認識した結果を示す物体認識情報を、視線情報とともに記録部29に供給する。
記録部29は、例えば、メモリやハードディスクドライブなどにより構成され、行動情報取得部25から供給される行動情報、環境情報取得部26から供給される環境情報、並びに、物体認識部28から供給される視線情報および物体認識情報を記録する。
通信部30は、ネットワーク12を介した通信を行うための通信モジュールにより構成され、音声認識サーバ14との間で各種の情報を送受信する。例えば、記録部29は、音声情報取得部21から供給される音声情報を音声認識サーバ14に送信したり、音声認識サーバ14から送信されてくる音声認識結果を受信して音声認識結果対応処理部31に供給したりする。また、通信部30は、後述するように音声認識サーバ14から照合情報を要求する情報が送信されてくると、記録部29に記録されている各種の情報の中から、その要求に応じた情報を照合情報として読み出して音声認識サーバ14に送信する。
音声認識結果対応処理部31は、音声認識サーバ14から送信された音声認識結果が通信部30から供給されると、音声認識結果を示す文章(文字情報)を映像出力部22に供給して表示させる。また、音声認識結果対応処理部31は、修正箇所を確認する情報が音声認識結果に付加されている場合には、その情報に従って、修正箇所を確認するユーザインタフェースを生成して、音声認識結果とともに映像出力部22に表示させる。そして、音声認識結果対応処理部31は、修正箇所を確認するユーザインタフェースに対するユーザのタッチ操作に応じた操作情報が操作入力部23から供給されると、その操作情報に従って、音声認識結果に対する修正を反映させる。
また、音声認識結果対応処理部31は、映像出力部22に表示されている音声認識結果に対して編集を指示する操作情報が操作入力部23から供給されると、ユーザにより指示された編集対象を特定する。そして、音声認識結果対応処理部31は、その編集対象を示す情報を、通信部30を介して音声認識サーバ14に送信するとともに、編集対象として特定された編集箇所を削除して置き換えるための再発話を促すユーザインタフェースを映像出力部22に表示させる。その後、音声情報取得部21により取得された再発話の音声情報が音声認識サーバ14に送信され、再発話の音声情報に対する音声認識が行われて、修正箇所を置き換える置き換え情報が送信されてくる。これにより、音声認識結果対応処理部31は、修正箇所を置き換え情報で置き換えることにより編集を反映した音声認識結果を映像出力部22に供給して、ユーザに提示させる。
図3は、音声認識サーバ14の構成例を示すブロック図である。
図3に示すように、音声認識サーバ14は、通信部41、入力音処理部42、音声認識部43、自然言語処理部44、意味解析処理部45、修正箇所推定処理部46、照合情報取得部47、編集対応処理部48、および音声認識結果出力処理部49を備えて構成される。
通信部41は、ネットワーク12を介した通信を行うための通信モジュールにより構成され、クライアント端末13との間で各種の情報を送受信する。例えば、通信部41は、クライアント端末13から送信されてくる音声情報を受信して入力音処理部42に供給したり、音声認識結果出力処理部49から供給される音声認識結果情報をクライアント端末13に送信したりする。
入力音処理部42は、通信部41から供給される音声情報に対して、音声認識部43において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部42は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するVAD(Voice Activity Detection)処理を行って、発話区間の音声情報を音声認識部43に供給する。
音声認識部43は、入力音処理部42から供給される音声情報に対する音声認識を行い、音声情報に基づいたユーザの発話を単語ごとに認識して、それらの単語列からなる文章を音声認識結果として自然言語処理部44に供給する。
自然言語処理部44は、音声認識部43から供給される音声認識結果を表す文章を、人間が日常的に使用している自然言語として認識する自然言語処理(形態素解析や構文解析など)を行い、自然言語処理が施された音声認識結果を意味解析処理部45に供給する。例えば、自然言語処理部44は、自然言語処理を行うことで、文章を構成する単語ごとの品詞を特定することができる。
意味解析処理部45は、自然言語処理部44において自然言語処理が施された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容(意味解析結果)を修正箇所推定処理部46に供給する。
修正箇所推定処理部46は、意味解析処理部45から供給される音声認識結果が示す文章の内容の正確性に基づいて、その文章に対して修正が必要となる修正箇所を推定する処理を行う。このとき、修正箇所推定処理部46は、音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を、照合情報取得部47を介して取得する。例えば、照合情報として、行動データや、天候データ、統計データなどの各種のデータを含む事実情報を利用することができる。即ち、上述したように、クライアント端末13に記録されている行動情報や、環境情報、視線情報、物体認識情報などを照合情報として利用することができる。また、ニュースサーバ15により提供されるニュース記事や天候情報など、百科事典サーバ16により提供される各種の記事を照合情報として利用する他、例えば、「前日の○○テーマパークの入場者数は100万人」や「前日の○○高速道路の渋滞は平均15km」などの事実として確認された各種の事実情報を照合情報として利用することができる。そして、修正箇所推定処理部46は、図4乃至9を参照して後述するように、音声認識結果が示す文章の内容と照合情報とを照合し、修正が必要となる修正箇所があると推定した場合、その修正箇所を音声認識結果出力処理部49に通知する。
照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報を要求する情報を、通信部41を介して送信し、その要求に応じて送信されてくる照合情報を取得して修正箇所推定処理部46に供給する。例えば、照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報が、ユーザの行動情報である場合、クライアント端末13に対してユーザの行動情報を要求する。また、照合情報取得部47は、修正箇所推定処理部46が必要とする照合情報が、天候情報である場合、ニュースサーバ15に対して天候情報を要求する。
編集対応処理部48は、図10乃至図13を参照して後述するように、保持している音声認識結果の音声情報から、編集対象として特定された単語の音素情報を削除し、その削除した編集箇所に再発話の音声情報を接続して、編集用の音声認識向けの音声情報を作成する。そして、編集対応処理部48は、編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせることにより、再発話の音声情報が示す単語を置き換え情報として取得して、その置き換え情報を音声認識結果出力処理部49に供給する。
音声認識結果出力処理部49は、修正箇所推定処理部46により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定された場合、その推定された修正箇所を確認する情報を音声認識結果に付加し、通信部41を介してクライアント端末13に送信する。なお、音声認識結果出力処理部49は、修正箇所推定処理部46により音声認識結果が示す文章に対して修正が必要となる修正箇所が推定されなかった場合には、音声認識結果だけをクライアント端末13に送信する。
また、音声認識結果出力処理部49は、編集対応処理部48から置き換え情報が供給されると、その置き換え情報を、通信部41を介してクライアント端末13に送信する。さらに、音声認識結果出力処理部49は、音声認識結果として合成音声を送信する場合には、音声認識結果が示す文章を読み上げる合成音声を生成して送信することができる。
以上のように構成されるクライアント端末13および音声認識サーバ14からなる音声認識システム11では、音声認識サーバ14は、音声認識結果として得られた文章の内容を、その内容の正確性を判断するために必要な照合情報と照合し、文章に対して修正が必要な修正箇所を推定することができる。ここで、照合情報としては、ニュースサーバ15および百科事典サーバ16により提供される事実情報や、クライアント端末13に記録されるユーザの行動情報などが利用される。
そして、音声認識サーバ14は、修正箇所を確認する情報を音声認識結果とともにクライアント端末13に送信する。これに応じて、クライアント端末13は、音声認識サーバ14において推定された修正箇所の確認を行うためのユーザインタフェースを表示して、その修正箇所に対する修正を指示する操作がユーザにより行われると、音声認識結果に対して修正を反映することができる。
さらに、音声認識システム11では、クライアント端末13は、音声認識結果の文章に対して編集を指示する操作がユーザにより行われると、編集対象を特定することができる。そして、クライアント端末13は、再発話の音声情報を音声認識サーバ14に送信する。これに応じて、音声認識サーバ14は、保持していた音声情報から、編集対象とされた編集箇所を削除し、その編集個所に再発話の音声情報を接続した後に音声認識を行って、編集が反映された音声認識結果をクライアント端末13に送信する。
これにより、クライアント端末13は、編集が反映された音声認識結果を表示して、ユーザに提示することができる。なお、音声認識システム11では、例えば、音声認識サーバ14により推定された修正箇所を修正する際に、その修正箇所を編集対象として特定してもよく、修正箇所を修正するための再発話を音声情報に従って、修正箇所を修正(編集)することができる。
このように、音声認識システム11は、音声認識結果の文章に対する修正箇所を推定したり、ユーザによる編集を反映したりすることにより、音声認識結果として得られた文章を容易に修正または編集することができる。これにより、音声認識システム11は、より利便性の高い音声認識サービスを提供することができる。
<修正箇所を提示するユーザインタフェースの例>
図4乃至9を参照して、音声認識結果として得られた文章に対して推定された修正箇所を提示するユーザインタフェースについて説明する。
図4には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日は昼に恵比寿へ行って17時まで池袋で買い物したよ」を行ったとする。
まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「今日は昼に恵比寿へ行って17時まで池袋で買い物したよ」を取得する。そして、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(時間帯および場所)の正確性を判断するための照合情報として、ユーザの行動情報が必要であると認識する。これに応じて、照合情報取得部47は、音声認識結果が示す文章に基づく時間帯におけるユーザの行動情報を、照合情報として要求する情報をクライアント端末13に送信する。
このようなユーザの行動情報を照合情報として要求する情報に従って、クライアント端末13では、通信部30が、記録部29に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
これに応じ、音声認識サーバ14では、照合情報取得部47が、クライアント端末13から送信されてきた行動情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部46は、音声認識結果が示す時間帯における場所と、その時間帯において行動情報に示されている場所とが一致しない場合、音声認識結果が示す場所を、修正箇所として推定することができる。
図4に示す例では、修正箇所推定処理部46は、音声認識結果が示す時間帯「昼」における場所「恵比寿」を、その時間帯において行動情報に示されている場所と照合する。同様に、修正箇所推定処理部46は、音声認識結果が示す時間帯「17時」における場所「池袋」を、その時間帯において行動情報に示されている場所と照合する。その結果、修正箇所推定処理部46は、音声認識結果が示す時間帯「17時」における場所「池袋」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、音声認識結果が示す場所「池袋」を、修正箇所として推定する。
これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
図4に示す例では、修正箇所として推定された場所「池袋」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「ここはあっていますか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(はいボタン/いいえボタン)が表示されている。なお、修正箇所として推定された場所「池袋」の文字に対して強調表示したり、色や大きさを変更して表示したり、点滅表示を行ったりすることができる。また、「ここはあっていますか?」という合成音声を出力してもよい。
ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「池袋」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「池袋」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。これにより、ユーザは、音声認識結果が示す場所「池袋」に対する修正を容易に行うことができる。例えば、この場合、修正箇所を削除して、ユーザに対して再発話を促すユーザインタフェースを表示し、その再発話の音声情報に基づいて修正箇所を置き換えるような処理を行うことができる。
次に、図5には、音声認識結果として得られた文章に対して、行動情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日は昼に恵比寿へ行って17時にXYZショップで買い物したよ」を行ったとする。
図4を参照して説明したのと同様に、修正箇所推定処理部46は、音声認識結果が示す文章の内容(時間帯および場所)の正確性を判断するための照合情報として、ユーザの行動情報を要求し、音声認識結果が示す文章の内容と、ユーザの行動情報とを照合する。その結果、図5に示す例では、音声認識結果が示す時間帯「17時」における場所「XYZショップ」と、その時間帯において行動情報に示されている場所「新宿」とが一致しないため、修正箇所推定処理部46は、音声認識結果が示す場所「XYZショップ」を、修正箇所として推定する。
これに基づき、修正箇所として推定された場所「XYZショップ」に対して、その場所が正しいか否かを確認するためのユーザインタフェース「記録では「新宿」となっています。これ(XYZショップ)で、正しいですか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(はいボタン/いいえボタン)が表示されている。
ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「XYZショップ」が正しいと思う場合には、はいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す場所「XYZショップ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、音声認識結果が示す場所「XYZショップ」が間違っていると思う場合には、いいえボタンに対するタッチ操作を行う。この場合、音声認識結果が示す場所「XYZショップ」が「新宿」に修正される。
図4および図5を参照して説明したように、音声認識システム11は、クライアント端末13に記録されている情報の粒度と、音声認識結果を示す文章における情報の粒度とに差がある場合、その情報を修正箇所として推定し、音声認識結果とともに提示することができる。
次に、図6には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第1の例が示されている。例えば、就寝前などのように一日の行動が終了し、その日の出来事を示すメッセージを作成する際に、ユーザが、クライアント端末13に対して発話「今日の天気は晴れ」を行ったとする。
まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「今日の天気は荒れ」を取得(発音が似ているため、音声認識を間違って取得)する。これにより、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(天候)が正確であるか否かを判断するための照合情報として、当日の天候情報が必要であると認識する。従って、照合情報取得部47は、ニュースサーバ15に対して当日の天候情報の送信を要求する。
その後、音声認識サーバ14では、照合情報取得部47が、ニュースサーバ15から送信されてきた天候情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、天候情報とを照合した結果、その文章に対して修正が必要となる箇所を推定する。例えば、修正箇所推定処理部46は、天候情報と一致していない音声認識結果の天候を、修正箇所として推定することができる。
図6に示す例では、修正箇所推定処理部46は、音声認識結果の天候「荒れ」を、天候情報と照合する。そして、修正箇所推定処理部46は、天候情報に従って当日の天候が「荒れ」でないことを認識すると、音声認識結果の天候「荒れ」を、修正箇所として推定することができる。
これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
図6に示す例では、音声認識結果における修正箇所として推定された天候「荒れ」を自動的に天候「晴れ」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(これでよいボタン/元の情報(荒れ)に戻すボタン)が表示されている。
ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す天候「晴れ」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す天候「晴れ」が間違っていると思う場合には、元の情報(荒れ)に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す天候「晴れ」が「荒れ」に修正される。
次に、図7には、音声認識結果として得られた文章に対して、天候情報に基づいて推定された修正箇所を提示するユーザインタフェースの第2の例が示されている。例えば、音声認識システム11により提供される音声認識機能を利用したバーチャルなエージェントと会話する際に、ユーザが、クライアント端末13に対して発話「今日の天気は晴れだったね」を行ったとする。
これに応じて、上述の図6を参照して説明したのと同様に、修正箇所推定処理部46は、天候情報が「荒れ」でないことより、音声認識結果の天候「荒れ」を、修正箇所として推定する。
そして、図7に示す例では、ユーザの発話「今日の天気は晴れだったね」に対するエージェントの応答「ここでは、今日の天気は晴れだったよ/荒れていたのは正しいですか?」を表示することにより、修正すべき情報を通知する。このようなエージェントの応答に対して、ユーザは、自身の認識に基づいて返答することで、エージェントとの会話を行うことができる。そして、このようなエージェントとの会話を複数ターン繰り返すことで、ユーザは、ストレスを軽減することができる。
図6および図7を参照して説明したように、音声認識システム11は、天候情報などのような事実情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。
次に、図8および図9を参照して、音声認識システム11により提供される音声認識機能を利用して翻訳を行う際に、ユーザの視線の先にある物体を認識して自動的に修正を行う処理について説明する。
例えば、図8に示すように、ユーザは、図2の視線情報取得部27および物体認識部28を内蔵したウェアラブルゴーグル61を装着している。そして、視線情報取得部27は、図8において一点鎖線の矢印で示すようなユーザの視線を認識し、物体認識部28は、ユーザが視認している物体に対する物体認識を行うことができる。
図8に示す例では、子供が、ピンクのボール62と青のボール63とを両手に持っていて、ユーザの視線は、青のボール63に向かっている状態が示されている。従って、物体認識部28は、ユーザの視線を認識した結果を示すユーザインタフェース(瞳のマーク)を、青のボールに重ねて表示するとともに、物体認識結果が青のボール(Ball:Blue)であることが示されている。
このような状況において、図9に示すように、ユーザが、クライアント端末13に対して発話「緑のボールをとってください」を行ったとする。
まず、クライアント端末13では、音声情報取得部21が、ユーザの発話に基づいた音声情報を取得し、通信部30は、その音声情報を音声認識サーバ14に送信する。
そして、音声認識サーバ14では、音声認識部43が、音声情報に対する音声認識を行うことにより、音声認識結果「緑のボールをとってください」を取得する。そして、修正箇所推定処理部46は、このような音声認識結果が示す文章の内容(物体)の正確性を判断するための照合情報として、物体認識情報が必要であると認識する。これに応じて、照合情報取得部47は、ユーザの発話が行われたときの物体認識情報を、照合情報として要求する情報をクライアント端末13に送信する。
このような物体認識情報を照合情報として要求する情報に従って、クライアント端末13では、通信部30が、記録部29に記録されている各種の情報の中から、その要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
これに応じ、音声認識サーバ14では、照合情報取得部47が、クライアント端末13から送信されてきた物体認識情報を取得し、修正箇所推定処理部46に供給する。修正箇所推定処理部46は、音声認識結果が示す文章の内容と、物体認識情報とを照合し、その文章に対して修正が必要となる修正箇所があるか否かを推定する。例えば、修正箇所推定処理部46は、音声認識結果が示す物体と、物体認識情報に示されている物体とが一致しない場合、音声認識結果が示す物体を、修正箇所として推定することができる。
図9に示す例では、修正箇所推定処理部46は、音声認識結果が示す物体「緑のボール」を、図8を参照して説明したような物体認識情報「青のボール(Ball:Blue)」と照合する。その結果、修正箇所推定処理部46は、音声認識結果が示す物体「緑のボール」と、物体認識情報「青のボール(Ball:Blue)」とが一致しないため、音声認識結果が示す物体「緑のボール」を、修正箇所として推定する。
これに基づき、修正箇所推定処理部46は、修正箇所を確認する情報を音声認識結果に付加して、クライアント端末13に送信させる。従って、クライアント端末13では、修正箇所を確認する情報に従って、音声認識結果を示す文章とともに、修正箇所として推定された単語に対して、その確認を行うためのユーザインタフェースを表示することができる。
図9に示す例では、音声認識結果における修正箇所として推定された物体の色「緑」を自動的に、物体の色「青」に修正するとともに、その修正が正しいか否かを確認するためのユーザインタフェース「ここを自動で修正しました」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(これでよいボタン/元の情報(緑)に戻すボタン)が表示されている。さらに、音声認識結果を利用して翻訳を行った翻訳結果「Please pass blue balls」が表示されている。
ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が正しいと思う場合には、これでよいボタンに対するタッチ操作を行う。これにより、音声認識結果が示す物体の色「青」が確定する。一方、ユーザは、このようなユーザインタフェースに対し、自動的に修正された音声認識結果が示す物体の色「青」が間違っていると思う場合には、元の情報(緑)に戻すボタンに対するタッチ操作を行う。この場合、自動的に修正された音声認識結果が示す物体の色「青」が「緑」に修正される。
図8および図9を参照して説明したように、音声認識システム11は、クライアント端末13に記録されている物体認識情報と照合して、音声認識結果を示す文章における情報の正確性が低い場合、その情報を修正箇所として推定し、音声認識結果を自動的に修正して提示することができる。
<音声認識結果の編集を受け付けるユーザインタフェースの例>
図10乃至図13を参照して、音声認識システム11による音声認識処理に基づく音声認識結果に対して編集を行うユーザインタフェースについて説明する。
例えば、図10に示すように、ユーザの発話「I drove your car to airport every day」に従って、クライアント端末13では、音声情報取得部21が、図示するような波形の音声情報を取得する。そして、音声認識サーバ14では、音声認識部43が、音声情報に基づいて音声認識処理を実行して、音声認識結果とし認識された単語列からなる文章(文字情報)を取得するとともに、それぞれの単語と音声情報から得られる音素情報との対応関係を特定する。さらに、音声認識サーバ14では、自然言語処理部44が、音声認識結果の単語ごとの品詞を特定して品詞情報を取得する。ここで、音声認識サーバ14では、音声情報、単語と音素情報との対応関係、および品詞情報が、一時的に保持される。
そして、修正箇所推定処理部46が、上述したような修正箇所の推定を行った結果、修正箇所がない場合、音声認識結果「I drove your car to airport every day」が、クライアント端末13の映像出力部22に表示される。
ところで、ユーザの発話と音声認識結果とが一致していても、ユーザが、発話内容の編集を希望することがある。
例えば、図11に示すように、ユーザが、映像出力部22に表示されている単語「airport」を単語「station」に編集することを希望した場合、ユーザは、編集を希望する単語「airport」が表示されている箇所を長押しタッチする。これに応じ、操作入力部23は、その操作の内容を示す操作情報を音声認識結果対応処理部31に供給し、音声認識結果対応処理部31は、映像出力部22に表示されている単語「airport」を編集対象として特定する。そして、音声認識結果対応処理部31は、音声認識結果に対して編集を行うユーザインタフェースを表示することができる。
図11に示す例では、編集対象として特定された単語「airport」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか?」が表示される。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(OKボタン/NGボタン)が表示されている。
ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「airport」の削除に同意する場合には、OKボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部31は、編集対象として特定された単語「airport」を削除することを示す情報を、音声認識サーバ14に送信する。
これに応じ、音声認識サーバ14では、編集対応処理部48は、ユーザの発話「I drove your car to airport every day」に基づいた音声情報から、単語「airport」に対応付けられている音素情報を削除する。従って、音声認識サーバ14で保持されている音声情報は、図11に示すように、編集対象の単語以外の単語に対応する音素情報のみ(以下、適宜、編集対象外の音声情報と称する)により構成されることになる。
なお、図11に示す例の他、例えば、ユーザの発話「airportを削除してstation」に従って編集対象とする単語を特定してもよい。また、例えば、ユーザが、編集を希望する単語に対して視線を止めている時間が所定時間(例えば、3秒)以上である場合に、その単語を編集対象として特定してもよい。これらの場合にも、図11と同様のユーザインタフェースを表示し、そのユーザインタフェースに対するユーザのタッチ操作に従って、編集対象の単語を削除することができる。
一方、図12に示すように、クライアント端末13では、音声認識結果対応処理部31は、再発話を促すユーザインタフェースを映像出力部22に表示する。このユーザインタフェースでは、音声認識結果から編集対象の単語を削除した箇所が空白となった単語列が表示されるとともに、その空白箇所の単語を編集するための再発話を促すメッセージ「ここへの再発話を待っています」が表示される。
このようなユーザインタフェースに応じて、音声情報取得部21は、ユーザの発話「station」に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。音声認識サーバ14では、編集対応処理部48は、編集対象外の音声情報において単語「airport」に対応付けられている音素情報を削除した箇所に、再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成する。
そして、編集対応処理部48は、編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせる。これにより、音声認識部43は、音声認識結果「I drove your car to station every day」を取得して、編集対応処理部48に供給する。編集対応処理部48は、この音声認識結果から編集対象外の音声情報を削除して、ユーザに提示している音声認識結果から削除した単語「airport」に対して置き換えを行う置き換え情報となる単語「station」を取得し、クライアント端末13に送信する。
これに応じ、図13に示すように、クライアント端末13では、音声認識結果対応処理部31は、置き換え情報となる単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を表示する。さらに、音声認識結果対応処理部31は、その置き換え情報の他の候補を提示するユーザインタフェース「もしかして・・・」を表示する。このユーザインタフェースには、置き換え情報の他の候補(stay、attention)を入力するためのGUI、および、置き換え情報の単語「station」による編集の決定を指示するGUI(このままボタン)が表示されている。
このようなユーザインタフェースに対し、置き換え情報の単語「station」による編集を決定する場合には、このままボタンに対するタッチ操作を行う。これに応じ、音声認識結果対応処理部31は、置き換え情報の単語「station」による編集を反映した音声認識結果「I drove your car to station every day」を決定することができる。なお、この他、音声(「このまま」と発話)や視線などにより、置き換え情報の単語「station」による編集を決定してもよい。
なお、編集用の音声認識向けの音声情報は、少なくとも1つ作成されていればよく、例えば、いくつかのパターンで複数作成してもよい。また、再発話の音声情報は、1つだけについて説明したが複数であってもよく、この場合、いくつかのパターンの編集用の音声認識向けの音声情報が作成される。
例えば、編集対応処理部48は、音声認識の精度を高めるために、再発話の音声情報を接続する箇所の前に、特定の音声情報を追加して、編集用の音声認識向けの音声情報を作成することができる。
例えば、図14に示すように、編集対応処理部48は、再発話の音声情報を接続する箇所の前に、音声情報「new」を追加して、音声情報「new」に続いて再発話の音声情報「station」を接続する処理を行って、編集用の音声認識向けの音声情報を作成してもよい。例えば、編集対応処理部48は、事前言語処理により認識される単語「airport」の品詞が名詞であることより、その削除された箇所に名詞が入る可能性が高いため、音声情報「new」を追加する。また、編集対応処理部48は、音声情報「new」として、ユーザが過去に発話したときに保存していた音声情報を追加したり、ネットワーク12を介して取得可能な音声情報を繋ぎ合わせて追加したり、合成音声(TSS)により作成した音声情報を追加したりすることができる。
そして、このように再発話の音声情報を接続する箇所の前に、音声情報「new」を追加することにより、音声認識部43が、編集用の音声認識向けの音声情報を行う際に、再発話の音声情報を認識する精度を向上させることができる。
<発話以外の音情報を用いた編集用の音声認識向けの音声情報>
図15乃至図17を参照して、再発話の音声情報に対する音声認識処理を行うための編集用の音声認識向けの音声情報に、発話以外の音情報を用いる例について説明する。
図15に示すように、例えば、ユーザが、クライアント端末13に対して発話「今日買ってきたリンゴがめちゃめちゃおいしい」を行い、その音声認識結果が、クライアント端末13の映像出力部22に表示される。
このような音声認識結果に対し、ユーザが、映像出力部22に表示されている単語「リンゴ」を単語「桃」に編集することを希望した場合、ユーザは、編集を希望する単語「リンゴ」が表示されている箇所を長押しタッチする。これにより、音声認識結果対応処理部31は、その単語を編集対象として特定する。
そして、音声認識結果対応処理部31は、編集対象として特定された単語「リンゴ」に対して、その単語の削除を確認するためのユーザインタフェース「削除しますか?」を表示する。また、ユーザインタフェースには、ユーザによる確認結果を入力するためのGUI(OKボタン/NGボタン)が表示されている。
ユーザは、このようなユーザインタフェースに対し、編集対象として特定された単語「リンゴ」の削除に同意する場合には、OKボタンに対するタッチ操作を行い、再発話「桃」を行う。これに応じて、音声情報取得部21は、ユーザの再発話「桃」に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。
このとき、編集対応処理部48は、図16に示すように、品詞およびカテゴリが対応付けられているデータベースと、カテゴリ、付属しやすい情報、および文章のひな形が対応付けられているデータベースとを参照して、編集用の音声認識向けの音声情報を生成する。
そして、編集対応処理部48は、ユーザの再発話「桃」がカテゴリ「果物名称」に対応付けられている場合、カテゴリ「果物名称」に対して付属しやすい情報「甘い」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部48は、図17のAに示すような文字列「きょうかってきた あまい もも がめちゃめちゃおいしい」を生成する。このような文字列のうち、「きょうかってきた」および「がめちゃめちゃおいしい」は、ユーザが発話した音声情報が用いられ、「あまい」は、合成音声(TSS)で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。
また、編集対応処理部48は、ユーザの再発話「桃」のカテゴリ「果物名称」に対応付けられている文章のひな形「おいしい果物は+(対象文字)+です」に従った文字列を、編集用の音声認識向けの音声情報として生成することができる。例えば、編集対応処理部48は、図17のBに示すような文字列文字列「おいしいくだものは もも です」という文字列を生成する。このような文字列のうち、「おいしいくだものは」および「です」は、合成音声(TSS)で出力され、「もも」は、ユーザの再発話の音声情報が用いられる。
このように、編集対応処理部48は、発話以外の音情報として合成音声(TSS)を用いて編集用の音声認識向けの音声情報を生成し、再発話の音声情報に対する音声認識を行わせることができる。これにより、例えば、編集対応処理部48は、再発話の音声情報の単体に対する音声認識よりも、音声認識の精度を高めることができる。
即ち、音声認識システム11は、上述したような発話以外の音情報や、カテゴリに付属しやすい情報を表す合成音声、文章のひな形から生成される文章を表す合成音声などに、再発話の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。
さらに、音声認識システム11は、上述したように、ユーザの再発話に基づいて単語の入れ替えを行う編集(airportをstationに編集)をする他、ユーザの再発話に基づいた様々な編集を行う事例に適用することができる。
例えば、図18に示すように、音声認識システム11は、ユーザの再発話に基づいて、動詞の活用を編集(likeをlikedに編集)したり、名詞の変化を編集(carsをcarに編集)したりすることができる。また、音声認識システム11は、ユーザの再発話に基づいて、類似音による間違いを編集(HeをSheに編集)することができる。また、音声認識システム11は、ユーザの再発話に基づいて、語句単位での認識失敗を編集(hadをwould likeに編集)することができる。
そして、音声認識システム11は、このようなユーザによる再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、再発話に対する音声認識を高精度に行うことができる。
例えば、類似音による間違いを編集(例えば、HeをSheに編集)するとき、再発話の音声情報のみを用いて音声認識を行った場合には、音声認識が失敗(例えば、CやSeeと誤認識)し易くなることが想定される。これに対し、音声認識システム11は、再発話の音声情報を発話以外の音情報に接続して、その全体の音声情報に対する音声認識を行うので、このような音声認識の失敗を回避することができる。
なお、類似音による間違いを編集する他の例として、音声認識システム11は、ユーザの発話「I want to go to a hospital to day」に対する音声認識結果「I want to go to a hospital to die」が得られたとき、ユーザの再発話に基づいて、間違いを編集(dieをdayに編集)することができる。
ところで、音声認識技術の精度がどんなに高くなっても音声認識結果が期待通りにならないケースがある。例えば、ヒトの記憶は完璧でないため、間違いを含んで発話してしまうことにより、音声認識に成功しても、その間違いを含んだ音声認識結果は、期待通りではない。また、そのような間違いを含んだ音声認識結果を提示しても、ヒトは、内容の間違いに気が付くことができないと想定される。
これに対し、音声認識システム11は、行動情報や天候情報などを照合することにより、間違いを含んだ発話に対して修正箇所を推定し、その修正箇所を提示することにより、上述したような間違いに気づき易くすることができる。これにより、音声認識システム11は、音声修正システムの精度向上を図ることができる。
さらに、音声入力の結果で得られた文字列の一部分を編集箇所として、再発話を行って編集を反映させるとき、その再発話の部分のみの音声認識を行っても、元々の発話に含まれていた発話コンテキストを活用することができないと、認識精度が低くなり期待通りの修正が行えないと想定される。
これに対し、音声認識システム11は、再発話の音声情報に対して、その再発話の音声情報以外の音声情報を接続することにより、元々の発話に含まれていた発話コンテキストを活用して、再発話に対する音声認識を高精度に行うことができる。
<クライアント端末における処理>
図19は、クライアント端末13において実行される処理を説明するフローチャートである。
例えば、クライアント端末13は、ユーザが音声入力を行っていないときでも常にバックグランドで処理を行っており、ステップS11において、行動情報取得部25は、ユーザの行動を示す行動情報を取得して、記録部29に記録する。
ステップS12において、環境情報取得部26は、ユーザの周辺における環境を示す環境情報を取得して、記録部29に記録する。
ステップS13において、視線情報取得部27は、ユーザの視線の方向を示す視線情報を取得し、物体認識部28は、ユーザが視認している物体の認識結果を示す物体認識情報を取得する。そして、それらの視線情報および物体認識情報が、ユーザをセンシングした結果得られるユーザセンシング情報として記録部29に記録される。
ステップS14において、音声情報取得部21は、ユーザによる音声入力が開始されたか否かを判定する。例えば、図示しないボタンに対する特定の操作が行われたり、音声入力の開始を指示する特定のキーワードをユーザが発話したりすると、音声情報取得部21は、ユーザによる音声入力が開始されたと判定することができる。
ステップS14において、音声情報取得部21が、ユーザによる音声入力が開始されていないと判定した場合、処理はステップS11に戻り、以下、上述した処理が繰り返して行われる。一方、ステップS14において、音声情報取得部21が、音声入力が開始されたと判定した場合、処理はステップS15に進む。
ステップS15において、音声情報取得部21は、ユーザの発話に基づいた音声情報を取得する。そして、音声情報取得部21は、その音声情報を通信部30に供給し、通信部30は、ネットワーク12を介して音声認識サーバ14に音声情報を送信する。
ステップS16において、通信部30は、音声認識サーバ14の照合情報取得部47による要求(例えば、後述する図20のステップS35)に応じた照合情報を、ネットワーク12を介して音声認識サーバ14に送信する。上述したように、記録部29には、行動情報、環境情報、およびユーザセンシング情報が記録されており、通信部30は、それらの情報の中から、照合情報取得部47による要求に応じた情報を読み出し、照合情報として音声認識サーバ14に送信する。
ステップS17において、通信部30は、後述する図20のステップS39またはS39で音声認識サーバ14から送信されてくる音声認識結果を取得して、音声認識結果対応処理部31に供給する。ここで、音声認識サーバ14において、音声認識結果に対して修正が必要となる修正箇所があると推定されている場合、音声認識結果には、修正箇所を確認する情報が付加されている。
ステップS18において、音声認識結果対応処理部31は、修正箇所を確認する情報が音声認識結果に付加されているか否かに基づいて、音声認識結果に対して修正箇所があると推定されているか否かを判定する。
ステップS18において、音声認識結果対応処理部31が、音声認識結果に対して修正箇所があると推定されていると判定した場合、処理はステップS19に進む。
ステップS19において、音声認識結果対応処理部31は、音声認識結果を示す文章を映像出力部22に表示させるとともに、修正箇所を確認するユーザインタフェースを生成して映像出力部22に表示させる。このユーザインタフェースには、図4乃至9を参照して上述したように、ユーザによる修正の確認を受け付けるためのGUI(ボタン)が表示されている。
ステップS20において、操作入力部23は、ユーザによる修正の確認を受け付けるためのGUIに対するユーザのタッチ操作により入力される操作の内容を示す操作情報を音声認識結果対応処理部31に供給する。そして、音声認識結果対応処理部31は、その操作情報に従って、修正箇所に対する確認結果を反映した音声認識結果を映像出力部22に表示させる。
一方、ステップS18において、音声認識結果対応処理部31が、音声認識結果に対して修正箇所があると推定されていないと判定した場合、処理はステップS21に進み、音声認識結果対応処理部31は、音声認識結果を示す文章を映像出力部22に表示させる。
ステップS20またはS21の処理後、処理はステップS22に進み、音声認識結果対応処理部31は、映像出力部22に表示されている音声認識結果に対し、ユーザが発話内容の編集を指示したか否かを判定する。例えば、上述の図11を参照して説明したように、ユーザは、音声認識結果が示す文章における編集を希望する単語が表示されている箇所を長押しタッチし、このタッチ操作に応じた操作情報が操作入力部23から供給されると、音声認識結果対応処理部31は、ユーザにより発話内容の編集が指示されたと判定することができる。
ステップS22において、音声認識結果対応処理部31が、ユーザにより発話内容の編集が指示されたと判定した場合、処理はステップS23に進む。
ステップS23において、音声認識結果対応処理部31は、操作情報に基づいた編集箇所、即ち、編集対象とする単語を特定する。そして、音声認識結果対応処理部31は、上述の図11を参照して説明したように、その単語の削除を確認するためのユーザインタフェースを表示する。その後、ユーザが、編集対象として特定された単語の削除に同意する操作を行うと、音声認識結果対応処理部31は、編集対象として特定された単語を削除することを示す情報を、音声認識サーバ14に送信する。
ステップS24において、音声認識結果対応処理部31は、上述の図12を参照して説明したように、再発話を促すユーザインタフェースを映像出力部22に表示する。そして、音声情報取得部21は、ユーザの発話に基づいた再発話の音声情報を取得して、音声認識サーバ14に送信する。
ステップS25において、音声認識結果対応処理部31は、後述する図21のステップS56で音声認識サーバ14から送信されてくる置き換え情報を、通信部30を介して取得する。そして、音声認識結果対応処理部31は、その置き換え情報を編集箇所に置き換えることにより、編集を反映した音声認識結果を映像出力部22に表示する。
ステップS25の処理後、または、ステップS22においてユーザにより発話内容の編集が指示されていないと判定された場合、処理はステップS11に戻り、以下、同様の処理が繰り返して行われる。
<音声認識サーバにおける処理>
図20および図21は、音声認識サーバ14において実行される処理を説明するフローチャートである。
例えば、通信部41が、図19のステップS15でクライアント端末13から送信される音声情報を受信して入力音処理部42に供給すると処理が開始される。ステップS31において、入力音処理部42は、通信部41から供給される音声情報に対して、例えば、VAD処理などの前処理を行って、音声認識部43に供給する。
ステップS32において、音声認識部43は、ステップS31で入力音処理部42から供給された音声情報に対する音声認識処理を行う。そして、音声認識部43は、音声認識結果として得られる文章を自然言語処理部44に供給する。
ステップS33において、自然言語処理部44は、ステップS32で音声認識部43から供給された音声認識結果を表す文章に対する自然言語処理を行い、自然言語処理が施された音声認識結果を意味解析処理部45に供給する。
ステップS34において、意味解析処理部45は、ステップS33で自然言語処理部44から供給された音声認識結果を表す文章に対して、その文章の意味を解析する意味解析処理を行い、音声認識結果が示す文章の内容を修正箇所推定処理部46に供給する。
ステップS35において、修正箇所推定処理部46は、ステップS34で意味解析処理部45から供給される音声認識結果が示す文章の内容の正確性を判断するために必要な照合情報を認識し、照合情報取得部47は、通信部41を介して照合情報を要求する。例えば、照合情報取得部47は、照合情報として、クライアント端末13に対して、行動情報や、環境情報、視線情報、物体認識情報などなどを要求したり、ニュースサーバ15および百科事典サーバ16に対して事実情報を要求したりする。そして、照合情報取得部47は、要求に応じて送信されてくる照合情報を、通信部41を介して取得して、修正箇所推定処理部46に供給する。
ステップS36において、修正箇所推定処理部46は、音声認識結果が示す文章の内容と、ステップS35で取得した照合情報とを照合し、その文章に対して修正箇所を推定する処理を行う。
ステップS37において、修正箇所推定処理部46は、ステップS35における処理の結果、音声認識結果が示す文章に修正箇所があると推定されたか否かを判定する。
ステップS37において、修正箇所推定処理部46が、音声認識結果が示す文章に修正箇所があると判定した場合、処理はステップS38に進む。ステップS38において、修正箇所推定処理部46は、音声認識結果とともに修正箇所を示す情報を音声認識結果出力処理部49に供給し、音声認識結果出力処理部49は、修正箇所を確認する情報を音声認識結果とともに出力する。
一方、ステップS37において、修正箇所推定処理部46が、音声認識結果が示す文章に修正箇所がないと判定した場合、処理はステップS39に進む。ステップS39において、修正箇所推定処理部46は、音声認識結果を音声認識結果出力処理部49に供給し、音声認識結果出力処理部49は、音声認識結果を出力する。
ステップS38またはS39の処理後、処理はステップS40に進み、編集対応処理部48は、クライアント端末13により編集箇所が通知されたか否かを判定する。例えば、上述した図19のステップS23でクライアント端末13から編集対象として特定された単語を削除することを示す情報が送信されてくると、編集対応処理部48は、編集箇所が通知されたと判定する。
ステップS40において、編集対応処理部48が、編集箇所が通知されたと判定した場合、処理はステップS41に進んで編集対応処理が行われた後に処理は終了され、編集箇所が通知されていないと判定した場合、そのまま処理は終了される。
図21は、図20のステップS41において行われる編集対応処理を説明するフローチャートである。
ステップS51において、編集対応処理部48は、クライアント端末13から送信されてくる編集対象として特定された単語を削除することを示す情報に従って、編集箇所を認識する。
ステップS52において、編集対応処理部48は、上述の図11を参照して説明したように、音声認識サーバ14で保持されている音声情報から、ステップS51で認識した編集箇所の単語に対応付けられている音素情報を削除する。これにより、編集対応処理部48は、編集対象外の音声情報を特定する。
ステップS53において、編集対応処理部48は、上述した図19のステップS24でクライアント端末13から送信される再発話の音声情報を取得する。
ステップS54において、編集対応処理部48は、ステップS53で取得した再発話の音声情報を、ステップS52で認識した編集対象外の音声情報において単語が削除された編集箇所に接続する処理を行って、編集用の音声認識向けの音声情報を作成する。
ステップS55において、編集対応処理部48は、ステップS54で作成した編集用の音声認識向けの音声情報を音声認識部43に供給して音声認識を行わせる。
ステップS56において、編集対応処理部48は、ステップS55で音声認識を行って得られる音声認識結果から編集対象外の音声情報を削除して残った音声情報を、編集箇所に置き換える置き換え情報として決定する。そして、編集対応処理部48は、その置き換え情報を、通信部41を介してクライアント端末13に送信する。これに応じて、上述した図19のステップS25で音声認識結果の編集箇所に置き換え情報が置き換えられることで編集が反映された後、編集対応処理は終了される。
以上のように、クライアント端末13および音声認識サーバ14は、ユーザの発話に基づいた音声情報に対する音声認識結果とともに、ユーザの行動情報や天候情報などに基づいて推定される修正箇所を確認するユーザインタフェースを表示することができる。これにより、例えば、ユーザの記憶違いなどによる間違った音声入力を修正し易くすることができる。
また、クライアント端末13および音声認識サーバ14は、ユーザにより指示された編集箇所の再発話の音声情報が編集対象外の音声情報に接続された編集用の音声認識向けの音声情報に対する音声認識を行うことができる。従って、音声認識サーバ14は、例えば、再発話の音声情報のみを用いて音声認識を行う構成よりも、音声認識の精度を向上させることができる。
このように、音声認識システム11は、より正確に修正箇所を推定してユーザに提示することができるとともに、編集箇所に対する音声認識を高精度に行うことができる。これにより、音声認識システム11は、より利便性の高い音声認識サービスを提供することができる。
従って、音声認識システム11により提供される音声認識サービスは、例えば、音声入力を行うユーザインタフェースを提供するアプリケーションの全般で利用することができる。例えば、音声認識システム11により提供される音声認識サービスを、バーチャルなエージェントシステムなどで利用することにより、ユーザの発話に嘘が含まれている場合には、その嘘を修正箇所として推定し、ユーザに修正させることができる。
例えば、音声認識システム11は、ユーザが発話「今日は寒いね」を行ったとき、環境情報取得部26が取得した温度を示す環境情報と照合し、そのときの気温が38度であった場合、音声認識結果の単語「寒い」を修正箇所として推定することができる。
なお、本実施の形態では、図1を参照して説明したように、音声認識システム11は、ネットワーク12を介して接続されるクライアント端末13および音声認識サーバ14により構成されており、上述したような音声認識サービスが提供される。この構成に限定されることなく、例えば、クライアント端末13単体で音声認識システムを構成してもよく、ネットワーク12を介した通信を行わずに、音声認識サービスを提供するようにしてもよい。
また、クライアント端末13および音声認識サーバ14を構成する各ブロックは、音声認識システム11全体として音声認識サービスを提供することができれば、ネットワーク12のどちら側に配置されていてもよい。
なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、単一のCPUにより処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
図22は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、本技術は以下のような構成も取ることができる。
(1)
ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と
を備える情報処理装置。
(2)
前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部
をさらに備える上記(1)に記載の情報処理装置。
(3)
前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
上記(2)に記載の情報処理装置。
(4)
前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
上記(2)または(3)に記載の情報処理装置。
(5)
前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
上記(2)から(4)までのいずれかに記載の情報処理装置。
(6)
前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
上記(2)から(5)までのいずれかに記載の情報処理装置。
(7)
前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
をさらに備える上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
ステップを含む情報処理方法。
(9)
ユーザの発話に基づく音声情報に対する音声認識を行い、
音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示する
ステップを含む情報処理をコンピュータに実行させるプログラム。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
11 音声認識システム, 12 ネットワーク, 13 クライアント端末, 14 音声認識サーバ, 15 ニュースサーバ, 16 百科事典サーバ, 21 音声情報取得部, 22 映像出力部, 23 操作入力部, 24 音声出力部, 25 行動情報取得部, 26 環境情報取得部, 27 視線情報取得部, 28 物体認識部, 29 記録部, 30 通信部, 31 音声認識結果対応処理部, 41 通信部, 42 入力音処理部, 43 音声認識部, 44 自然言語処理部, 45 意味解析処理部, 46 修正箇所推定処理部, 47 照合情報取得部, 48 編集対応処理部, 49 音声認識結果出力処理部

Claims (7)

  1. ユーザの発話に基づく音声情報に対する音声認識を行う音声認識部と、
    前記音声認識部による音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定する修正箇所推定部と、
    前記音声認識結果として得られた文章を、前記修正箇所推定部により推定された修正箇所とともにユーザに提示する提示部と
    前記修正箇所推定部が必要とする前記照合情報を取得して、前記修正箇所推定部に供給する照合情報取得部と
    を備え
    前記照合情報取得部は、ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
    前記修正箇所推定部は、前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
    情報処理装置。
  2. 前記照合情報取得部は、ネットワークを介して提供される事実情報を、前記照合情報として取得し、
    前記修正箇所推定部は、前記文章の内容と前記事実情報とを照合することにより前記修正箇所を推定する
    請求項1に記載の情報処理装置。
  3. 前記照合情報取得部は、ユーザの行動に伴って取得される行動情報を、前記照合情報として取得し、
    前記修正箇所推定部は、前記文章の内容と前記行動情報とを照合することにより前記修正箇所を推定する
    請求項1に記載の情報処理装置。
  4. 前記照合情報取得部は、ユーザの周辺の環境を表す環境情報を、前記照合情報として取得し、
    前記修正箇所推定部は、前記文章の内容と前記環境情報とを照合することにより前記修正箇所を推定する
    請求項1に記載の情報処理装置。
  5. 前記修正箇所の提示に対するユーザの指示に対応する処理を行う対応処理部
    をさらに備える請求項1に記載の情報処理装置。
  6. ユーザの発話に基づく音声情報に対する音声認識を行い、
    音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
    前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、
    前記修正箇所の推定に必要となる前記照合情報を取得する
    ステップを含み、
    ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
    前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
    情報処理方法。
  7. ユーザの発話に基づく音声情報に対する音声認識を行い、
    音声認識結果として得られる文章の内容を、その内容の正確性を判断するために必要な照合情報と照合することにより、前記文章に対して修正が必要となる修正箇所を推定し、
    前記音声認識結果として得られた文章を、推定された修正箇所とともにユーザに提示し、
    前記修正箇所の推定に必要となる前記照合情報を取得する
    ステップを含み、
    ユーザの視線の先にある物体を認識した物体認識情報を、前記照合情報として取得し、
    前記文章の内容と前記物体認識情報とを照合することにより前記修正箇所を推定する
    情報処理をコンピュータに実行させるプログラム。
JP2018563262A 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム Active JP7107228B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017007121 2017-01-18
JP2017007121 2017-01-18
PCT/JP2018/000014 WO2018135302A1 (ja) 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2018135302A1 JPWO2018135302A1 (ja) 2019-11-21
JP7107228B2 true JP7107228B2 (ja) 2022-07-27

Family

ID=62908660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018563262A Active JP7107228B2 (ja) 2017-01-18 2018-01-04 情報処理装置および情報処理方法、並びにプログラム

Country Status (4)

Country Link
US (1) US11107469B2 (ja)
EP (1) EP3573052A4 (ja)
JP (1) JP7107228B2 (ja)
WO (1) WO2018135302A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842842A (zh) * 2022-03-25 2022-08-02 青岛海尔科技有限公司 智能设备的语音交互方法和装置、存储介质
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108551A (ja) 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2008058409A (ja) 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP2009223171A (ja) 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International コミュニケーションシステム
JP2011002656A (ja) 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012128188A (ja) 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
JP2013073240A (ja) 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
WO2016049439A1 (en) 2014-09-25 2016-03-31 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108551A (ja) 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2008058409A (ja) 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
JP2009223171A (ja) 2008-03-18 2009-10-01 Advanced Telecommunication Research Institute International コミュニケーションシステム
JP2011002656A (ja) 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2012128188A (ja) 2010-12-15 2012-07-05 Nippon Hoso Kyokai <Nhk> テキスト修正装置およびプログラム
JP2013073240A (ja) 2011-09-28 2013-04-22 Apple Inc コンテキスト情報を使用した音声認識修正
WO2016049439A1 (en) 2014-09-25 2016-03-31 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions

Also Published As

Publication number Publication date
WO2018135302A1 (ja) 2018-07-26
JPWO2018135302A1 (ja) 2019-11-21
US11107469B2 (en) 2021-08-31
EP3573052A1 (en) 2019-11-27
US20190378507A1 (en) 2019-12-12
EP3573052A4 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
JP7107229B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US11450311B2 (en) System and methods for accent and dialect modification
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
US7983910B2 (en) Communicating across voice and text channels with emotion preservation
KR100563365B1 (ko) 계층적 언어 모델
US11011157B2 (en) Active learning for large-scale semi-supervised creation of speech recognition training corpora based on number of transcription mistakes and number of word occurrences
JP6172769B2 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びプログラム
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
JPWO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
US20240176957A1 (en) Systems and methods for inserting dialogue into a query response
US10789946B2 (en) System and method for speech recognition with decoupling awakening phrase
Mirkin et al. A recorded debating dataset
JP7107228B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20210279427A1 (en) Systems and methods for generating multi-language media content with automatic selection of matching voices
JP2013050605A (ja) 言語モデル切替装置およびそのプログラム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4042435B2 (ja) 音声自動質問応答装置
González et al. An illustrated methodology for evaluating ASR systems
US20230186899A1 (en) Incremental post-editing and learning in speech transcription and translation services
CN112651854B (zh) 语音调度方法、装置、电子设备和存储介质
JP2021117580A (ja) 情報処理装置、及びプログラム
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R151 Written notification of patent or utility model registration

Ref document number: 7107228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151