JP2014021494A - 音声認識エラー修正方法及びそれを適用した放送受信装置 - Google Patents

音声認識エラー修正方法及びそれを適用した放送受信装置 Download PDF

Info

Publication number
JP2014021494A
JP2014021494A JP2013146098A JP2013146098A JP2014021494A JP 2014021494 A JP2014021494 A JP 2014021494A JP 2013146098 A JP2013146098 A JP 2013146098A JP 2013146098 A JP2013146098 A JP 2013146098A JP 2014021494 A JP2014021494 A JP 2014021494A
Authority
JP
Japan
Prior art keywords
morpheme
text
indicator
user
broadcast receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013146098A
Other languages
English (en)
Inventor
Sung-Woo Park
城 佑 朴
Jie-Chol Kim
裁 徹 金
Jae-Wook Jung
宰 旭 鄭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2014021494A publication Critical patent/JP2014021494A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 本発明の目的とするところは、放送受信装置が誤認識した音声認識結果をユーザ所望の方向により正確に修正するための音声認識エラー修正方法及びそれを適用した放送受信装置を提供することにある。
【解決手段】 音声認識エラー修正方法及びそれを適用した放送受信装置が提供される。本放送受信装置の音声認識エラー修正方法は、ユーザ音声が入力されると、ユーザ音声を認識してユーザ音声に対応するテキストを判断し、判断されたテキストを修正するためのユーザ命令が入力されると、テキストを構成する形態素とインディケータ(indicator)とがマッチングされたテキスト修正UIをディスプレイし、テキスト修正UIのインディケータを選択して判断されたテキストのうち少なくとも一つの形態素を修正する。それにより、放送受信装置が誤認識された単語をユーザ所望の単語に正確に修正することができるようになる。
【選択図】 図7

Description

本発明は、音声認識エラー修正方法及びそれを適用した放送受信装置に関し、より詳細には、対話型音声認識システムで誤認識された音声を修正する音声認識エラー修正方法及びそれを適用した放送受信装置に関する。
近来の放送受信装置が次第に多機能化及び高度化することにより、放送受信装置を制御するための多様な入力方法が開発されてきた。例えば、マウスを利用した入力方法、タッチパッドを利用した入力方法及びモーションセンシングリモコンを利用した入力方法等が開発されてきた。
特に、多様な入力方法の中でも、ユーザがより簡単に放送受信装置を制御するために、ユーザの音声を認識してディスプレイ装置を制御する音声認識方法が脚光を浴びている。
しかし、ユーザの発話した音声を認識して放送受信装置を制御する場合、人それぞれの口腔の構造及び発音の違いにより、100%満足のいく結果を得ることができないことが多かった。
すなわち、放送受信装置がユーザの発話した音声を誤認識する場合、ユーザ所望の方向に放送受信装置を制御することができなくなったり、所望のコンテンツを検索することができないという問題が発生するようになる。なお、放送受信装置がユーザの発話した特定単語を誤認識した場合、ユーザが再度特定単語を発話するとしても、放送受信装置は特定単語を再び誤認識する確率が高いという問題点が存在する。
よって、放送受信装置が誤認識した音声認識結果を修正するための効率的な音声認識エラー修正方策への模索が求められる。
米国特開第2008−0052073号公報 韓国特開第2006−0057921号公報 日本特開第2001−157137号公報 米国登録特許第7729904号
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、放送受信装置が誤認識した音声認識結果をユーザ所望の方向により正確に修正するための音声認識エラー修正方法及びそれを適用した放送受信装置を提供することにある。
前記目的を達成するための本発明の一実施形態に係る放送受信装置の音声認識エラー修正方法は、ユーザ音声が入力されると、前記ユーザ音声を認識して前記ユーザ音声に対応するテキストを判断するステップと、前記判断されたテキストを修正するためのユーザ命令が入力されると、前記テキストを構成する形態素とインディケータ(indicator)とがマッチングされたテキスト修正UIをディスプレイするステップと、前記テキスト修正UIのインディケータを選択して前記判断されたテキストのうち少なくとも一つの形態素を修正するステップとを含む。
そして、前記修正するステップは、前記インディケータを用いて交換対象形態素が選択された場合、前記交換対象形態素の候補形態素をディスプレイするステップと、前記候補形態素のいずれか一つが選択されると、前記交換対象形態素を前記選択された候補形態素に修正するステップとを含んでよい。
なお、前記候補形態素をディスプレイするステップは、前記候補形態素の一側に前記候補形態素に対応するインディケータを同時にディスプレイしてよい。
そして、前記候補形態素に修正するステップは、前記候補形態素のインディケータのいずれか一つが選択されると、前記交換対象形態素を前記選択されたインディケータに対応する候補形態素に修正してよい。
なお、前記インディケータは、数字及び文字のいずれか一方であってよい。
そして、前記判断するステップは、前記ユーザ音声が入力されると、前記ユーザ音声をアナログ信号からデジタル信号に変換するステップと、前記変換されたデジタル信号を外部のサーバに伝送するステップと、前記サーバから前記デジタル信号に対応するテキスト情報を受信するステップとを含んでよい。
なお、前記サーバに保存された言語モデル及び音響モデルをアップデートするために、前記修正するステップの修正結果を前記サーバに伝送するステップを含んでよい。
一方、前記目的を達成するための本発明の一実施形態に係る放送受信装置は、ユーザ音声を入力される音声入力部と、ディスプレイ部と、前記音声認識部を介してユーザ音声が入力されると、前記ユーザ音声を認識して前記ユーザ音声に対応するテキストを判断し、前記判断されたテキストを修正するためのユーザ命令が入力されると、前記テキストを構成する形態素とインディケータ(indicator)とがマッチングされたテキスト修正UIをディスプレイし、前記テキスト修正UIのインディケータを選択して前記判断されたテキストのうち少なくとも一つの形態素を修正するように前記ディスプレイ部を制御する制御部とを含む。
そして、前記制御部は、前記インディケータを用いて交換対象形態素が選択された場合、前記交換対象形態素の候補形態素をディスプレイし、前記候補形態素のいずれか一つが選択されると、前記交換対象形態素を前記選択された候補形態素に修正するように前記ディスプレイ部を制御してよい。
なお、前記制御部は、前記候補形態素の一側に前記候補形態素に対応するインディケータを同時にディスプレイするように前記ディスプレイ部を制御してよい。
そして、前記制御部は、前記候補形態素のインディケータのいずれか一つが選択されると、前記交換対象形態素を前記選択されたインディケータに対応する候補形態素に修正するように前記ディスプレイ部を制御してよい。
なお、前記インディケータは、数字及び文字のいずれか一方であってよい。
そして、外部のサーバと通信を行う通信部を更に含み、前記制御部は、前記音声入力部を介してユーザ音声が入力されると、前記ユーザ音声をアナログ信号からデジタル信号に変換し、前記通信部を介して前記変換されたデジタル信号を外部のサーバに伝送し、前記サーバから前記デジタル信号に対応するテキスト情報を受信して前記テキスト情報を判断してよい。
なお、前記制御部は、前記サーバに保存された言語モデル及び音響モデルをアップデートするために、前記修正するステップの修正結果を前記サーバに伝送するように前記通信部を制御してよい。
以上説明したように、本発明によれば、インディケータを用いて誤認識されたテキストを修正することにより、ユーザは音声認識エラー修正時に再び誤認識されることを防止することができるようになる。
本発明の一実施形態に係る対話型音声認識システムの構成を示す図である。 本発明の一実施形態に係る放送受信装置のブロック図を概略に示す図である。 本発明の一実施形態に係る放送受信装置のブロック図を詳細に示す図である。 本発明の一実施形態に係るテキスト修正UIを用いて誤認識された単語を修正する過程を示す図である。 本発明の一実施形態に係るテキスト修正UIを用いて誤認識された単語を修正する過程を示す図である。 本発明の一実施形態に係るテキスト修正UIを用いて誤認識された単語を修正する過程を示す図である。 本発明の一実施形態に係る音声認識エラー修正方法を説明するためのフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。
図1は、本発明の一実施形態に係る対話型音声認識システム10を示す図である。図1に示すように、対話型音声認識システム10は、放送受信装置100と、音声認識のための第1サーバ200及び第2サーバ300を含む。ここで、放送受信装置100は、スマートテレビのような装置であってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話、デスクトップ、セットトップボックス、ノートパソコン、ナビゲーション等のような多様な電子装置で実現されてよい。
音声入力装置によってユーザ音声が入力されると、放送受信装置100は入力されたユーザの音声をデジタル信号に変換し、デジタル信号のノイズを除去した後、第1サーバ200に伝送する。放送受信装置100からデジタル信号が受信されると、第1サーバ200は、言語モデル、音響モデルおよび発音辞書を用いて受信されたユーザの音声に対応するデジタル信号をテキスト情報に変換し、テキスト情報を放送受信装置100に伝送する。
そして、放送受信装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する。放送受信装置100からテキスト情報が受信されると、第2サーバ300は受信されたテキスト情報に対応する応答情報を生成して放送受信装置100に伝送する。このとき、応答情報には、ユーザ音声に対応する応答メッセージ、制御信号及びコンテンツ検索結果のうち、少なくとも一つを含んでよい。応答メッセージは、ユーザと対話するのと同様に、ユーザ音声に応答するテキスト情報である。例えば、ユーザ音声が“○○○を検索してくれる”の場合、応答メッセージは、“検索してあげる”というようなユーザ音声に応答するテキスト情報であってよい。制御信号は、ユーザ音声に対応する放送受信装置100を制御するための信号である。例えば、ユーザ音声が“チャネルを○○○(チャネル名)に変えて”の場合、制御信号は放送受信装置100のチューナがユーザ音声に対応するチャネルを選局するように制御する信号であってよい。コンテンツ検索結果は、ユーザのコンテンツ検索要求に応答する情報である。例えば、ユーザ音声が“○○○(映画タイトル)の主人公は誰”の場合、コンテンツ検索結果はユーザ音声に対応する映画の主人公検索結果情報である。
放送受信装置100は、応答情報に基づいて、ユーザの音声に対応する多様な機能を実行することができる。例えば、放送受信装置100は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。この場合、放送受信装置100は、当該機能に対応する応答メッセージを同時に提供することもできる。上述の例の場合、放送受信装置100は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを音声またはテキスト形態で出力することができる。
特に、放送受信装置100は、ユーザの音声に対応する応答メッセージを音声またはテキスト形態で出力することができ、検索されたコンテンツに対するコンテンツデータを出力することができる。例えば、“最新の公開映画を教えて”のようなコンテンツ情報を要求するユーザの音声が入力されると、放送受信装置100は“最新の公開映画を教えてあげる”のような応答メッセージをオーディオで出力し、検索された最新の公開映画に対するコンテンツデータをディスプレイすることができる。

特に、放送受信装置100は、テキスト修正UIを用いて第1サーバ200及び第2サーバ300を介して認識されたユーザ音声に対応するテキストを修正することができる。
具体的に、ユーザ音声が入力されると、放送受信装置100は上述のように、第1サーバ200を用いてテキスト情報を判断する。このとき、判断されたテキストの中の一部がユーザの望まないテキストである場合、テキスト修正のためのユーザ命令(例えば、音声命令またはリモコンの特定ボタン)が入力されると、放送受信装置100はテキスト修正UIをディスプレイする。このとき、テキスト修正UIは、ユーザの発話したテキスト情報が形態素別に区分され、それぞれの形態素にインディケータが指定され、形態素とインディケータとがマッチングされてディスプレイされる。ここで、インディケータは、テキスト情報の形態素を区分するためのものとして、数字または文字であってよいが、それは一実施形態に過ぎず、ユーザの指定した単語、記号であってよい。
ユーザ命令によってテキスト修正UIのインディケータのいずれか一つが選択されると、放送受信装置100は選択されたインディケータに対応する形態素を交換対象形態素に指定する。そして、ユーザが交換しようとする形態素を含むユーザ音声が再入力されると、放送受信装置100は再入力されたユーザ音声を認識して交換対象形態素を再入力された形態素に修正することができる。
なお、放送受信装置100は、言語モデル及び音響モデル等を用いて、交換対象形態素の候補形態素を交換対象形態素の一側にディスプレイすることができる。このとき、交換対象形態素の候補形態素にはそれぞれインディケータが指定されてよい。そして、ユーザが修正しようとする形態素に対応するインディケータを含むユーザ音声が再入力されると、放送受信装置100は交換対象形態素を候補形態素のうち、ユーザによって再入力されたインディケータに対応する候補形態素に修正することができる。
そして、放送受信装置100は、修正されたテキストをディスプレイし、修正されたテキストに応じて放送受信装置の機能を実行する。そして、放送受信装置100は、修正結果に応じて音響モデル及び言語モデルをアップデートするために、修正結果情報を第1サーバ200に伝送することができる。
上述のような対話型音声認識システム10によって、テキスト修正UIのインディケータを選択して誤認識されたテキストを修正することにより、ユーザは放送受信装置が誤認識された単語をユーザ所望の単語に正確に修正することができるようになる。
以下においては、図2ないし図6を参照し、本発明の放送受信装置100について具体的に説明する。図2は、本発明の一実施形態に係る放送受信装置100の構成を概略に示す図である。図2に示すように、放送受信装置100は、音声入力部110と、制御部120及びディスプレイ部130を含む。
音声入力部110は、マイクのような音声入力装置を通じてユーザ音声を受信し、音声認識ができるように信号処理を行う。具体的に、音声入力部110は、アナログ形態のユーザ音声を受信してデジタル信号に変換し、ノイズを除去することができる。
ディスプレイ部130は、制御部120の制御によって多様な映像データを出力する。特に、テキスト修正のためのユーザ命令が入力された場合、ディスプレイ部130はテキスト修正UIをディスプレイすることができる。
音声入力部110を介してユーザ音声が入力されると、制御部120はユーザ音声を認識してユーザ音声に対応するテキストを判断する。そして、判断されたテキストを修正するためのユーザ命令が入力されると、制御部120はテキストを構成する形態素とインディケータとがマッチングされたテキスト修正UIをディスプレイする。このとき、テキスト修正UIは、ユーザの発話したテキスト情報が形態素別に区分し、それぞれの形態素にインディケータを指定し、形態素とインディケータとをマッチングしてディスプレイする。ここで、インディケータは、テキスト情報の形態素を区分するためのものとして、数字または文字であってよい。
そして、制御部120は、テキスト修正UIのインディケータを選択して判断されたテキストのうち、少なくとも一つの形態素を修正するようにディスプレイ部130を制御する。具体的に、テキスト修正UIのインディケータを選択して交換対象形態素が選択された場合、制御部120は交換対象形態素の候補形態素をディスプレイすることができる。そして、候補形態素のいずれか一つが選択されると、制御部120は交換対象形態素を選択された候補形態素に修正するようにディスプレイ部130を制御することができる。
このとき、制御部120は、候補形態素の一側に前記候補形態素に対応するインディケータを同時にディスプレイするようにディスプレイ部130を制御することができる。そして、候補形態素のインディケータのうちいずれか一つが選択されると、制御部120は交換対象形態素を選択されたインディケータに対応する候補形態素に修正するようにディスプレイ部130を制御することができる。
そして、制御部120は、修正結果の反映されたテキスト情報をディスプレイするようにディスプレイ部130を制御することができる。なお、制御部120は修正結果をアップデートするために、内部または外部のサーバに保存された音響モデル及び言語モデルをアップデートすることができる。
上述のような放送受信装置100によって、テキスト修正UIのインディケータを選択して誤認識されたテキストを修正することで、ユーザは放送受信装置が誤認識された単語をユーザ所望の単語に正確に修正することができるようになる。
図3は、本発明の一実施形態に係る放送受信装置100の構成を詳細に示すブロック図である。図3に示すように、放送受信装置100は、音声入力部110と、制御部120と、ディスプレイ部130と、放送受信部140と、ユーザ入力部150と、保存部160と、通信部170及びオーディオ出力部180を含む。
音声入力部110は、ユーザ音声を受信して音声認識ができるように信号処理を行う。具体的に、音声入力部110は、入力されたアナログ形態のユーザ音声をデジタル信号に変換する。そして、音声入力部110は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上か否かを判断する。デジタル信号のエネルギーが予め設定された値未満である場合、音声入力部110は、入力されたデジタル信号がユーザ音声ではないと判断し、他のユーザ音声を待ち受ける。デジタル信号のエネルギーが予め設定された値以上である場合、音声入力部110は、入力されたデジタル信号からノイズを除去する。特に、音声入力部110は、入力されたデジタル信号から、家庭環境で発生し得る突発性雑音(例えば、エアコンの音、掃除機の音、音楽の音等)を除去する。そして、音声入力部110は、ノイズの除去されたデジタル信号を通信部170に出力する。
このとき、音声入力部110は、マイクのような音声入力装置で実現されてよく、音声入力装置は、放送受信装置100に内蔵されて一体型をなすか、放送受信装置100と分離された形態で実現されてよい。分離された形態で実現される場合、音声入力装置はユーザが手で握る形態、または食卓やテーブルに置ける形態で実現されてよく、放送受信装置100と有線または無線ネットワークを通じて接続されてよい。
放送受信部140は、外部の基地局または外部機器(例えば、セットトップボックス)から複数のチャネルの含まれた放送信号を受信する。そして、放送受信部140はユーザによって選択されたチャネルの放送信号を選局して信号処理を行う。
ユーザ入力部150は、放送受信装置100を制御するためのユーザ命令が入力される。このとき、ユーザ入力部150は、リモコンや、マウス、キーボードのような多様な入力装置で実現されてよい。
保存部160は、放送受信装置100を駆動するための多様なプログラム及びデータを保存する。特に、保存部160は音声認識のための言語モデル、音響モデル及び発音辞書を保存することができる。
通信部170は、外部のサーバ200、300と通信を行う。特に、通信部170は、音声入力部110から受信されたユーザ音声に対応するデジタル信号を第1サーバ200に伝送することができ、第1サーバ200からユーザ音声に対応するテキスト情報を受信することができる。なお、通信部170は、ユーザ音声に対応するテキスト情報を第2サーバ300に伝送することができ、第2サーバ300からテキスト情報に対応する応答情報を受信することができる。このとき、応答情報には、応答メッセージ、制御信号及びユーザが検索を要求したコンテンツのコンテンツデータが含まれてよい。
そして、通信部170は、WiFi、IEEE等のような無線通信プロトコルによって外部ネットワークに接続されて通信を行う無線通信モジュールで実現されてよい。その他に、無線通信モジュールは3G(3rd Generation)、3GPP(3rd
Generation Partnership Project)、LTE(Long Term Evolution)等のような多様な移動通信規格に応じて移動通信網に接続して通信を行う移動通信モジュールを更に含んでよい。
一方、上述の実施形態では、第1サーバ200及び第2サーバ300と通信を行う通信部が統合されているものとして説明したが、それは一実施形態に過ぎず、第1サーバ200と通信を行うための第1通信部及び第2サーバ300と通信を行うための第2通信部に分離されて実現されてよい。
ディスプレイ部130は、制御部120の制御により、映像データを表示する。特に、テキスト修正のためのユーザ命令が入力された場合、ディスプレイ部130は、図4に示すように、テキスト修正UIをディスプレイすることができる。テキスト修正UI400については今後詳細は説明する。
一方、ディスプレイ部130は、液晶表示装置(Liquid Crystal Display:LCD)、有機電気発光ダイオード(Organic Light Emitting Display:OLED)またはプラズマ表示パネル(Plasma Display Panel:PDP)等で実現されてよい。
オーディオ出力部180は、オーディオデータを出力する。このとき、オーディオ出力部180はコンテンツデータが変換されたオーディオデータを出力することができる。このとき、オーディオ出力部180はスピーカまたはジャック等のような出力ポートで実現されてよい。
制御部180は、音声入力部110及びユーザ入力部150を介して入力されたユーザ命令に応じて放送受信装置100の動作全般を制御する。
特に、制御部120は、音声入力部110を介してユーザ音声が入力されると、音声認識を行う。具体的に、制御部120は音声入力部110を介して入力されたアナログ形態のユーザ音声をデジタル信号に変換し、ノイズを除去するように音声入力部110を制御する。そして、制御部120は、ユーザ音声に対応するデジタル信号を通信部170を介して外部の第1サーバ200に伝送する。第1サーバ200が音響モデル、言語モデル及び発音辞書を用いて、ユーザ音声に対応するデジタル信号をテキスト情報に変換して放送受信装置100に伝送し、制御部120は通信部170を介してテキスト情報を受信する。
そして、制御部120は、受信されたテキスト情報をディスプレイ部130にディスプレイしたり、外部の第2サーバ300に伝送することができる。
一方、上述のように、ユーザ音声に対応するテキストを判断するために、外部の第1サーバ200を利用するものとして説明したが、それは一実施形態に過ぎず、内部に備えれた音響モデル、言語モデル及び発音辞書を用いてユーザ音声に対応するテキストを判断することができる。
ユーザ音声に対応するテキストが判断された後、ユーザはディスプレイ部130にディスプレイされたテキスト情報を確認することにより、自分の発話したテキストがしっかり認識されているか否かを確認することができる。または、ユーザは、第2サーバ200から受信された応答情報を確認することで、自分の発話したテキストがしっかり認識できたか否かを確認することができる。例えば、ユーザの発話した音声は、“今日MBNで何放送するか教えて”であるに対し、制御部120がユーザ音声に対応するテキスト情報を“今日MBCで何放送するか教えて”と判断し、ディスプレイ部130にディスプレイした場合、ユーザは放送受信装置100がユーザ音声を誤認識したことを確認することができる。
ユーザの発話した音声が誤認識された場合、ユーザによってテキスト修正のためのユーザ命令(例えば、リモコンの特定ボタンまたはユーザの音声命令)が入力されると、制御部120は放送受信装置100の認識したテキストを修正するために、図4に示すようなテキスト修正UI400をディスプレイするようにディスプレイ部130を制御する。
このとき、テキスト修正UI400は、テキスト情報を複数の形態素に区分し、それぞれの形態素に対応するインディケータ(例えば、数字または文字)を指定し、形態素とインディケータとをマッチングさせることができる。例えば、認識されたテキスト情報が“今日MBCで何放送するか教えて”の場合、テキスト修正UI400は、図4に示すように、“今日”420−1、“MBC”420−2、“で”420−3、“何放送するか”420−4及び“教えて”420−5の形態素を区分してディスプレイすることができる。そして、テキスト修正UI400は、“今日”420−1と“1”410−1とをマッチングさせ、“MBC”420−2と“2”410−2とをマッチングさせ、“で”420−3と“3”410−3とをマッチングさせ、“何放送するか”420−4と“4”410−4とをマッチングさせ、“教えて”420−5と“5”410−5とをマッチングさせることができる。
そして、ユーザ音声命令を通じてテキスト修正UI400に含まれたインディケータのうちの一つが含まれると、制御部120は選択されたインディケータに対応する形態素を交換対象形態素に選択することができる。例えば、ユーザ音声に“2”410−2というインディケータが含まれた場合、制御部120は、“2”410−2に対応する形態素である“MBC”420−2を交換対象形態素に選択することができる。
ユーザ音声にインディケータだけでなく、交換対象形態素を修正しようとする形態素が同時に含まれた場合、制御部120は交換対象形態素を修正しようとする形態素に修正することができる。例えば、音声入力部110を介して“2番をMBNに変えて”というユーザ音声が入力されると、制御部120はユーザ音声に対応するデジタル信号を第1サーバ200に伝送し、第1サーバ200は入力されたユーザ音声に対応するテキスト情報で判断する。そして、第1サーバ200は、放送受信装置 100を介してテキスト情報を第2サーバに伝送する。そして、第2サーバ300は入力されたユーザ音声の“2”を通じて交換対象形態素を判断し、“MBN”を通じて修正しようとする形態素を判断し、“変えて”を通じて修正命令を判断することができる。そして、第2サーバ300は、“交換対象形態素である“MBC”を修正しようとする形態素である“MBN”に修正せよ”という制御信号を放送受信装置100に伝送することができる。通信部170を介して制御信号が受信されると、制御部120は交換対象形態素である“MBC”420−1を修正しようとする形態素である“MBN”に修正することができる。
更に別の実施形態において、ユーザ音声命令を通じて、テキスト修正UI400に含まれたインディケータのいずれか一つが含まれると、制御部120は交換対象形態素の候補形態素をディスプレイするようにディスプレイ部130を制御することができる。このとき、交換対象形態素の候補形態素は、放送受信装置100または第1サーバ200に保存された音響モデル、言語モデル及び発音辞書を用いて決定されてよく、交換対象形態素を除くユーザ音声と一致する確率が最も高い形態素であってよい。例えば、ユーザ音声に“2番”が含まれた場合、制御部120は、図5に示すような候補形態素430をディスプレイすることができる。このとき、候補形態素は“MBN”、“NBC”及び“ABC”を含んでよい。
そして、候補形態素のそれぞれには、図5に示すように、インディケータがそれぞれ指定されてよい。例えば、“MBN”には“1”というインディケータが指定されてよく、“NBC”には“2”というインディケータが指定されてよく、“ABC”には“3”というインディケータが指定されてよい。
そして、候補形態素がディスプレイされた状態で、候補形態素に対応するインディケータのいずれか一つが選択されると、制御部120は、交換対象形態素を選択されたインディケータに対応する候補形態に修正することができる。例えば、音声入力部110を介して“1番に変えて”というユーザ音声が入力されると、放送受信装置100はユーザ音声に対応するデジタル信号を第1サーバ200に伝送し、第1サーバ200は入力されたユーザ音声に対応するテキスト情報を判断する。そして、第1サーバ200は、放送受信装置100を介してテキスト情報を第2サーバ300に伝送する。そして、第2サーバ300は入力されたユーザ音声を“1”を通じて修正しようとする形態素を判断し、“変えて”を通じて修正命令を判断することができる。そして、第2サーバ300は、“交換対象形態素である“MBC”を修正しようとする形態素である“MBN”に修正せよ”という制御信号を放送受信装置100に伝送することができる。通信部170を介して制御信号が受信されると、制御部120は交換対象形態素である“MBC420−1”を修正しようとする形態素である“MBN”に修正することができる。
交換対象形態素をユーザが修正しようとする形態素に修正した場合、制御部120は第1サーバ200に保存された言語モデル及び音響モデルをアップデートするために、修正結果を第1サーバ200に伝送することができる。例えば、最初に認識された“MBC”を“MBN”に修正した場合、制御部120はユーザの発話した音声のデジタル信号とテキストである“MBN”とが一致する確率が高くなるように、言語モデル及び音響モデルをアップデートするために、修正結果を第1サーバ200に伝送することができる。よって、ユーザがその後“MBN”を発話した場合、放送受信装置100は“MBC”より“MBN”を認識する確率が高くなるため、より正確な音声認識が可能となる。
上述のような放送受信装置100によって、ユーザは誤認識されたテキストをより正確かつ簡単に修正することができるようになる。
以下では、図7を参照して音声認識エラー修正方法について、より詳細に説明する。
まず、放送受信装置100はユーザ音声を入力される(S710)。このとき、放送受信装置100は、マイクのような音声入力装置を用いてユーザ音声を入力されることができる。
そして、放送受信装置100は、ユーザ音声を認識してユーザ音声に対応するテキストを判断する(S720)。具体的に、放送受信装置720は、入力されたユーザ音声をデジタル信号に変換し、変換されたデジタル信号を外部の第1サーバ200に伝送することができる。そして、第1サーバ200が音響モデル、言語モデル及び発音辞書を用いてデジタル信号に対応するテキスト情報を決定して放送受信装置100に伝送すると、放送受信装置100はユーザ音声に対応するテキストを判断することができる。
そして、放送受信装置100は、テキスト修正のためのユーザ命令が入力されたか否かを判断する(S730)。
テキスト修正のためのユーザ命令が入力されると(S730−Y)、放送受信装置100はテキスト修正UIをディスプレイする(S740)。このとき、テキスト修正UIは、図4に示すように、テキストを構成する形態素を区分し、それぞれの形態素にマッチングするインディケータ(例えば、数字または文字)を指定し、形態素とインディケータとをマッチングしてディスプレイすることができる。
放送受信装置100は、テキスト修正UIのインディケータを選択してテキストを修正する(S750)。具体的に、テキスト修正UIのインディケータを選択して交換対象形態素が選択された場合、放送受信装置100は、図5に示すように、交換対象形態素の候補形態素をディスプレイすることができる。そして、候補形態素のいずれか一つが選択されると、放送受信装置100は、交換対象形態素を選択された候補形態素に修正することができる。このとき、放送受信装置100は、候補形態素の一側に候補形態素に対応するインディケータを同時にディスプレイすることができる。そして、候補形態素のインディケータのいずれか一つが選択されると、放送受信装置100は交換対象形態素を選択されたインディケータに対応する候補形態素に修正することができる。
そして、放送受信装置100は、修正結果が反映されたテキスト情報をディスプレイし、第1サーバ200に保存された音響モデル及び言語モデルをアップデートするために、修正結果を第1サーバ200に伝送することができる。
上述のように、インディケータを用いて誤認識されたテキストを修正することにより、ユーザは音声認識エラー修正時に再度誤認識されることを防止することができるようになる。
以上のような多様な実施形態に係る外部入力制御方法を実行するためのプログラムコードは、非一時的読み取り可能媒体(non−transitory computer readable medium)に保存されてよい。非一時的読み取り可能媒体とは、レジスタ、キャッシュ、メモリ等のように短い瞬間の間にデータを保存する媒体でなく半永久的にデータを保存し、機器により読み取り(reading)可能な媒体を意味する。具体的には、上述した多様なアプリケーションまたはプログラムは、CD、DVD、ハードディスク、ブルーレイディスク、USB、メモリーカード、ROM等のような非一時的読み取り可能媒体に保存されて提供されることができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
10 対話型音声認識システム
100 放送受信装置
110 音声入力部
120 制御部
130 ディスプレイ部
140 放送受信部
150 ユーザ入力部
160 保存部
170 通信部
180 オーディオ出力部
200 第1サーバ
300 第2サーバ
400 テキスト修正UI

Claims (14)

  1. 放送受信装置の音声認識エラー修正方法において、
    ユーザ音声が入力されると、前記ユーザ音声を認識して前記ユーザ音声に対応するテキストを判断するステップと、
    前記判断されたテキストを修正するためのユーザ命令が入力されると、前記テキストを構成する形態素とインディケータ(indicator)とがマッチングされたテキスト修正UIをディスプレイするステップと、
    前記テキスト修正UIのインディケータを選択して前記判断されたテキストのうち少なくとも一つの形態素を修正するステップと
    を含む音声認識エラー修正方法。
  2. 前記修正するステップは、
    前記インディケータを用いて交換対象形態素が選択された場合、前記交換対象形態素の候補形態素をディスプレイするステップと、
    前記候補形態素のいずれか一つが選択されると、前記交換対象形態素を前記選択された候補形態素に修正するステップと
    を含むことを特徴とする請求項1に記載の音声認識エラー修正方法。
  3. 前記候補形態素をディスプレイするステップは、
    前記候補形態素の一側に前記候補形態素に対応するインディケータを同時にディスプレイすることを特徴とする請求項2に記載の音声認識エラー修正方法。
  4. 前記候補形態素に修正するステップは、
    前記候補形態素のインディケータのいずれか一つが選択されると、前記交換対象形態素を前記選択されたインディケータに対応する候補形態素に修正することを特徴とする請求項3に記載の音声認識エラー修正方法。
  5. 前記インディケータは、
    数字及び文字のいずれか一方であることを特徴とする請求項1に記載の音声認識エラー修正方法。
  6. 前記判断するステップは、
    前記ユーザ音声が入力されると、前記ユーザ音声をアナログ信号からデジタル信号に変換するステップと、
    前記変換されたデジタル信号を外部のサーバに伝送するステップと、
    前記サーバから前記デジタル信号に対応するテキスト情報を受信するステップと
    を含むことを特徴とする請求項1に記載の音声認識エラー修正方法。
  7. 前記サーバに保存された言語モデル及び音響モデルをアップデートするために、前記修正するステップの修正結果を前記サーバに伝送するステップを含むことを特徴とする請求項6に記載の音声認識エラー修正方法。
  8. 放送受信装置において、
    ユーザ音声を入力される音声入力部と、
    ディスプレイ部と、
    前記音声認識部を介してユーザ音声が入力されると、前記ユーザ音声を認識して前記ユーザ音声に対応するテキストを判断し、前記判断されたテキストを修正するためのユーザ命令が入力されると、前記テキストを構成する形態素とインディケータ(indicator)とがマッチングされたテキスト修正UIをディスプレイし、前記テキスト修正UIのインディケータを選択して前記判断されたテキストのうち少なくとも一つの形態素を修正するように前記ディスプレイ部を制御する制御部と
    を含む放送受信装置。
  9. 前記制御部は、
    前記インディケータを用いて交換対象形態素が選択された場合、前記交換対象形態素の候補形態素をディスプレイし、前記候補形態素のいずれか一つが選択されると、前記交換対象形態素を前記選択された候補形態素に修正するように前記ディスプレイ部を制御することを特徴とする請求項8に記載の放送受信装置。
  10. 前記制御部は、
    前記候補形態素の一側に前記候補形態素に対応するインディケータを同時にディスプレイするように前記ディスプレイ部を制御することを特徴とする請求項9に記載の放送受信装置。
  11. 前記制御部は、
    前記候補形態素のインディケータのいずれか一つが選択されると、前記交換対象形態素を前記選択されたインディケータに対応する候補形態素に修正するように前記ディスプレイ部を制御することを特徴とする請求項10に記載の放送受信装置。
  12. 前記インディケータは、
    数字及び文字のいずれか一方であることを特徴とする請求項8に記載の放送受信装置。
  13. 外部のサーバと通信を行う通信部を更に含み、
    前記制御部は、
    前記音声入力部を介してユーザ音声が入力されると、前記ユーザ音声をアナログ信号からデジタル信号に変換し、前記通信部を介して前記変換されたデジタル信号を外部のサーバに伝送し、前記サーバから前記デジタル信号に対応するテキスト情報を受信して前記テキスト情報を判断することを特徴とする請求項8に記載の放送受信装置。
  14. 前記制御部は、
    前記サーバに保存された言語モデル及び音響モデルをアップデートするために、前記修正するステップの修正結果を前記サーバに伝送するように前記通信部を制御することを特徴とする請求項13に記載の放送受信装置。
JP2013146098A 2012-07-12 2013-07-12 音声認識エラー修正方法及びそれを適用した放送受信装置 Pending JP2014021494A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0076129 2012-07-12
KR1020120076129A KR20140008835A (ko) 2012-07-12 2012-07-12 음성 인식 오류 수정 방법 및 이를 적용한 방송 수신 장치

Publications (1)

Publication Number Publication Date
JP2014021494A true JP2014021494A (ja) 2014-02-03

Family

ID=48783052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013146098A Pending JP2014021494A (ja) 2012-07-12 2013-07-12 音声認識エラー修正方法及びそれを適用した放送受信装置

Country Status (9)

Country Link
US (1) US9245521B2 (ja)
EP (1) EP2685453A1 (ja)
JP (1) JP2014021494A (ja)
KR (1) KR20140008835A (ja)
CN (1) CN103546787A (ja)
BR (1) BR112014030821A2 (ja)
MX (1) MX339483B (ja)
RU (1) RU2014152070A (ja)
WO (1) WO2014010982A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791761A (zh) * 2016-07-29 2019-05-21 谷歌有限责任公司 使用校正的术语的声学模型训练
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305117B1 (ko) * 2014-04-30 2021-09-27 삼성전자주식회사 텍스트 입력 제어 방법 및 그 전자 장치
US10147414B1 (en) * 2014-05-15 2018-12-04 Namecoach, Inc Link-based audio-recording, collection, collaboration, embedding and delivery system
US9514743B2 (en) 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
US20160379630A1 (en) * 2015-06-25 2016-12-29 Intel Corporation Speech recognition services
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
KR102561711B1 (ko) * 2016-02-26 2023-08-01 삼성전자주식회사 컨텐트를 인식하는 방법 및 장치
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps***指令的***与方法
KR102614697B1 (ko) * 2016-12-08 2023-12-18 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 채널 정보 획득 방법
KR102518543B1 (ko) * 2017-12-07 2023-04-07 현대자동차주식회사 사용자의 발화 에러 보정 장치 및 그 방법
CN109992765A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 文本纠错方法及装置、存储介质和电子设备
CN108710484B (zh) * 2018-03-12 2021-09-21 西安艾润物联网技术服务有限责任公司 一种通过语音修改车牌号的方法、存储介质及装置
US11100146B1 (en) * 2018-03-23 2021-08-24 Amazon Technologies, Inc. System management using natural language statements
KR102615154B1 (ko) * 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN112331194B (zh) * 2019-07-31 2024-06-18 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
KR20220013732A (ko) 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US20220284904A1 (en) * 2021-03-03 2022-09-08 Meta Platforms, Inc. Text Editing Using Voice and Gesture Inputs for Assistant Systems

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
DE60202453T2 (de) 2001-03-29 2006-01-19 Koninklijke Philips Electronics N.V. Synchronisierung eines audio- und eines text-cursors während der editierung
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7941316B2 (en) 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
KR100699050B1 (ko) * 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
US20090125299A1 (en) 2007-11-09 2009-05-14 Jui-Chang Wang Speech recognition system
JP5451982B2 (ja) 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US20100218141A1 (en) 2009-02-23 2010-08-26 Motorola, Inc. Virtual sphere input controller for electronics device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467340B2 (en) 2015-01-02 2019-11-05 Samsung Electronics Co., Ltd. Grammar correcting method and apparatus
CN109791761A (zh) * 2016-07-29 2019-05-21 谷歌有限责任公司 使用校正的术语的声学模型训练
JP2019528470A (ja) * 2016-07-29 2019-10-10 グーグル エルエルシー 訂正済みタームを使用する音響モデルトレーニング
CN109791761B (zh) * 2016-07-29 2023-04-25 谷歌有限责任公司 使用校正的术语的声学模型训练

Also Published As

Publication number Publication date
KR20140008835A (ko) 2014-01-22
US9245521B2 (en) 2016-01-26
US20140019127A1 (en) 2014-01-16
BR112014030821A2 (pt) 2017-08-08
EP2685453A1 (en) 2014-01-15
MX2014015611A (es) 2015-03-20
RU2014152070A (ru) 2016-08-27
CN103546787A (zh) 2014-01-29
WO2014010982A1 (en) 2014-01-16
MX339483B (es) 2016-05-27

Similar Documents

Publication Publication Date Title
JP2014021494A (ja) 音声認識エラー修正方法及びそれを適用した放送受信装置
USRE49493E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
JP6603754B2 (ja) 情報処理装置
JP6802305B2 (ja) 対話型サーバ、ディスプレイ装置及びその制御方法
EP2941895B1 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
EP2674941B1 (en) Terminal apparatus and control method thereof
JP2014134791A (ja) ディスプレイ装置及び制御方法
US20140123185A1 (en) Broadcast receiving apparatus, server and control methods thereof
US20150127353A1 (en) Electronic apparatus and method for controlling electronic apparatus thereof
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
JP2014021495A (ja) コンテンツ情報提供方法及びそれを適用した放送受信装置
KR101859614B1 (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
KR102051480B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102045539B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP2022112292A (ja) 音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラム
KR20190096312A (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
CN113096666A (zh) 电子设备及其控制方法
KR20190128615A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법