JP6165619B2 - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
JP6165619B2
JP6165619B2 JP2013258077A JP2013258077A JP6165619B2 JP 6165619 B2 JP6165619 B2 JP 6165619B2 JP 2013258077 A JP2013258077 A JP 2013258077A JP 2013258077 A JP2013258077 A JP 2013258077A JP 6165619 B2 JP6165619 B2 JP 6165619B2
Authority
JP
Japan
Prior art keywords
unit
character string
candidate
character
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013258077A
Other languages
English (en)
Other versions
JP2015114963A (ja
Inventor
平 芦川
平 芦川
上野 晃嗣
晃嗣 上野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013258077A priority Critical patent/JP6165619B2/ja
Priority to US14/563,174 priority patent/US9489944B2/en
Priority to CN201410763914.3A priority patent/CN104715005B/zh
Publication of JP2015114963A publication Critical patent/JP2015114963A/ja
Application granted granted Critical
Publication of JP6165619B2 publication Critical patent/JP6165619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施の形態は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
従来、音声データをテキスト化する作業(以下、書き起こし作業と呼ぶ)の効率化を図る様々な技術が知られている。例えば、書き起こし作業において、ユーザが、文字入力を行っている途中の段階で、書き起こし対象の音声データから、最終的に入力される語句を予測して入力候補として提示する技術が知られている。
また、入力された読み文字列の仮名漢字変換候補を表示させるだけではなく、その読み文字列に後続することが予測される文字列を、変換候補の文字列(以下、予測候補と呼ぶ)として表示させる入力予測技術または予測変換技術等の文字入力技術が知られている。
しかしながら、入力候補を提示するためには、常に読み情報が必要であるため、ユーザが提示された入力候補を選択(採用)した場合にも、次の入力候補を提示するには、再度読み情報が必要となる。このため、入力候補の選択後に、ユーザの文字入力が再度必要となり、作業効率が落ちる問題がある。また、音声認識精度の低い音声データにおいては、間違った入力候補が提示され続ける可能性があるため、ユーザにとって入力候補が邪魔になり、作業効率が落ちる問題があった。
また、従来の文字入力技術においては、読み文字列と仮名漢字変換後の文字列とを対応付けた仮名漢字変換辞書と、文字入力の履歴情報のみを利用して、入力候補を作成しているため、書き起こし作業における作業効率が悪くなる問題があった。また、選択した予測候補に続く候補(以下、後続候補と呼ぶ)は、ユーザが選択した予測候補から始まる文字列を専用の変換辞書(予測変換辞書)から検索する。このため、連続して長い文字列(例えば、文単位)を続けて入力するには、予測変換辞書にも長い文字列を保持する必要があり、予測変換辞書のサイズが大きくなり、予測候補の検索効率が悪くなる問題があった。
特開2013−69228号公報 特開2010−257403号公報
本発明が解決しようとする課題は、効率的に書き起こし作業を行うことが可能な情報処理装置、情報処理方法、および情報処理プログラムを提供することである。
実施の形態の情報処理装置は、記憶制御部と、検出部と、取得部と、検索部と、判定部と、表示制御部と、履歴更新部と、選択部と、閾値更新部とを備える。
記憶制御部は、音声データに対する音声認識処理により得られる音声テキストに含まれる複数の文字列、音声テキスト内の始端位置情報と終端位置情報とが対応づけられたノードインデックス、音声認識処理により得られる音声認識スコア、および音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶部に記憶させる。検出部は、音声データのうち、再生された区間を示す再生区間情報を検出する。取得部は、再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報、および書き起こされたテキスト中の文字挿入位置を示す挿入位置情報を取得する。検索部は、音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が再生区間情報に含まれる文字列を検索の対象として指定し、その指定した文字列の中から、読み情報が示す読みを含む文字列を検索する。
判定部は、検索部で取得した文字列に対応する音声認識スコアに基づいて、検索部で取得した文字列を表示するか否かを判定する。表示制御部は、判定部で取得した文字列を表示部に表示させる。履歴更新部は、検索部で取得した文字列と、音声認識スコアと、文字挿入位置とを対応付けた候補履歴データを候補履歴記憶部に記憶させると共に、テキストの変更に応じて候補履歴データを更新する。選択部は、表示制御部で表示された文字列のうち、選択操作された文字列を選択する。閾値更新部は、判定部にて音声認識スコアと比較する閾値を、候補履歴データの音声認識スコア、および選択部で選択された文字列の音声認識スコアのうち、少なくとも一方を用いて決定する。
図1は、第1の実施の形態の情報処理装置の機能ブロック図である。 図2は、音声認識結果のラティス構造の一例を示す図である。 図3は、音声データの音声認識により得られるラティス構造の一例を示す図である。 図4は、候補履歴データの例を示す図である。 図5は、第1の実施の形態の情報処理装置の動作を示すフローチャートである。 図6は、読み情報を取得した場合に、閾値更新部が表示閾値を更新する処理の詳細を示すフローチャートである。 図7は、ユーザが候補を選択した場合における、閾値更新部の表示閾値の更新処理を示すフローチャートである。 図8は、ユーザ操作と候補表示の例を示す図である。 図9は、第2の実施の形態の情報処理装置の機能ブロック図である。 図10は、第2の実施の形態の情報処理装置の動作を示すフローチャートである。 図11は、ユーザ操作と複数候補表示の例を示す図である。 図12は、第3の実施の形態の情報処理装置の機能ブロック図である。 図13は、ラティス構造からトライ構造に変換する動作のフローチャートである。 図14は、トライ構造に変換された音声認識結果のリストの一例を示す図である。 図15は、音声認識結果のトライ構造の一例を示す図である。
以下、情報処理装置、情報処理方法、および情報処理プログラムを適用した実施の形態の情報処理装置を、図面を参照しながら詳細に説明する。あくまでも一例であり、これに限定されるものではないが、実施の形態の情報処理装置は、いわゆるパーソナルコンピュータ装置で実現することができる。パーソナルコンピュータ装置で実現される情報処理装置は、音声データを再生する機能、および、作業者(以下、ユーザと呼ぶ)の操作に応じてテキストを作成するテキスト作成機能を有する。ユーザは、書き起こし作業を行う場合、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データのテキスト化を図る。
(概要)
実施の形態の情報処理装置は、入力候補の情報として、音声データの音声認識処理の音声認識スコアと終端ノードインデックスを示す情報を付随しておき、ある閾値(以下、表示閾値と呼ぶ)以上の音声認識スコアを持つ入力候補をユーザに提示する。ユーザが提示された入力候補を選択した場合、選択された入力候補の終了ノードインデックスの情報を取得し、終了ノードインデックスから始まる入力候補を検索し、ユーザに入力候補として提示する。
また、情報処理装置は、入力候補の文字列と音声認識スコアを、文字挿入位置と関連付けて、候補履歴データとして記憶しておき、(1)候補履歴データの音声認識スコアと、(2)入力候補に対するユーザの選択操作とにより、表示閾値を決定する。これにより、音声認識の結果が良好でない場合において、不要な入力候補の提示を抑えると共に、入力候補の選択と同時に後続候補をユーザが選択可能とすることができ、書き起こし作業の効率化を図ることができる。
(第1の実施の形態)
図1は、第1の実施の形態の情報処理装置の機能ブロック図である。この図1に示すように、情報処理装置は、第1記憶部1、第2記憶部2、再生部3、再生指示受付部4、再生制御部5、検出部6、取得部7、検索部8、表示制御部9、選択部10、後続検索部11、閾値更新部12、判定部13、第3記憶部14、および履歴更新部15を有している。再生部3〜判定部13、および履歴更新部15は、全てソフトウェアで実現してもよいし、全てハードウェアで実現してもよい。また、一部をソフトウェアで実現し、残りをハードウェアで実現してもよい。
第1記憶部1には、音声データが記憶されている。音声データは、例えばウエーブ(wav)、エムピースリー(mp3)等の形式の音声ファイルを用いることができる。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得してもよいし、マイクロフォン装置等を用いて取得してもよい。
第2記憶部2には、音声データに対する音声認識処理により得られる音声テキストに含まれる複数の文字列の各々と、音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスとが記憶されている。また、第2記憶部2には、音声認識処理で算出される信頼度(以下、音声認識スコアと呼ぶ)が記憶されている。検索部8は、このような音声インデックス等を第2記憶部2に記憶させる記憶制御部の一例である。
音声認識処理としては、公知の様々な技術を利用することができる。一例として、音声認識処理では、音声データを10〜20ms程度の一定間隔で処理する。そして、音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
図2は、「毎度ありがとうございます。」を意味する日本語に対応する音声データの音声認識結果(始端ノードインデックス、音声インデックス、音声認識スコア、終端ノードインデックス、文字列、読み)の例を示している。本実施の形態では、音声位置情報は、音声データの先頭からその位置までの再生に要する時間を示す時間情報を用いて表される(単位は、例えば秒)。
例えば、図2に示す「ありがとう」に対応する音声位置情報は、始点が「0.5s(500ms)」、終点が「1.0s(1000ms)」である。これは、音声データを再生した場合に、音声データの再生開始時点から0.5s経過した時点を始点とし、再生開始時点から1.0s経過した時点を終点とする期間が、「ありがとう」という音声が再生される期間であることを意味している。
図3は、音声データの音声認識により得られるラティス構造の一例である。図3において、各形態素を区切るためのノードは丸で表されており、丸の中の数字がノードを識別する識別子である。図3に示す形態素は、ノード間を繋ぐ直線で表される。図3の例では、ノードSからノードEまでの間の各経路の少なくとも一部を、認識候補とすることができる。例えば、ノードSからノードEまでの経路における各形態素を繋いだ「毎度ありがとうございます。」が認識候補であってもよいし、ノードSからノード5までの「毎度ありがとう」という語句や、ノードSからノード3までの「毎度」という単語が認識候補であってもよい。
第3記憶部14には、図4に示すようにユーザが書き起こしたテキスト(以下、書き起こしテキストと呼ぶ)と、書き起こしテキスト中の文字の挿入位置を示す挿入位置情報と入力候補の文字列と音声認識スコアが対応付けられたデータ(以下、候補履歴データと呼ぶ)が記憶されている。候補履歴データは、現在の文字挿入位置周辺に記録する構成にしてもよい(現在の文字挿入位置周辺に近い文字挿入位置に対応する候補履歴データを記憶してもよい)。
再生部3は、例えばスピーカ装置、D/A(デジタル/アナログ)コンバータ、及びヘッドフォン装置等から構成される音声データの再生機器である。再生制御部5は、再生指示受付部4で再生を開始する再生開始指示を受け付けた場合、第1記憶部1に記憶されている音声データを再生するように再生部3を制御する。また、再生制御部5は、再生指示受付部4で再生を停止する再生停止指示を受け付けた場合、音声データの再生を停止するように再生部3を制御する。再生制御部5は、例えばパーソナルコンピュータ装置のオペレーションシステム(OS)またはドライバが有するオーディオ機能でソフトウェア的に実現してもよいし、電子回路等のハードウェア回路で実現してもよい。
再生指示受付部4は、ユーザからの音声再生と音声停止の指示を受け付ける。再生制御部5は、再生指示受付部4から音声データの再生開始指示を取得した場合に、音声データを再生するように再生部3を制御する。
再生制御部5は、再生指示受付部4から再生停止の指示を取得した場合、音声データの再生を停止するように再生部3を制御する。再生部3は、例えば第1j記憶部1に記憶されている音声データを再生する。
検出部6は、音声データのうち、再生部3により再生された区間を示す再生区間情報を検出する。具体的には、検出部6は、音声データのうち、再生部3による再生が開始された位置を示す再生開始位置から、再生部3による再生が停止された位置を示す再生停止位置までの区間を示す時間情報を再生区間情報として検出する。
取得部7は、再生部3により再生された音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報を取得する。さらに、書き起こされたテキスト中の文字列の挿入位置を示す挿入位置情報を取得する。例えば、ユーザが、書き起こしテキストの先頭に、「毎度」という単語を書き起こそうとして、「毎度」の読みを示す文字列「まいど」のうちの「ま」を、キーボード操作により入力した場合、取得部7は、「ま」を読み情報として、文字挿入位置を0として取得する。また、「毎度」の後に、「有難う」の読みを示す文字列「ありがとう」が全部入力された場合は、取得部7は、その入力された「ありがとう」を読み情報として、文字挿入位置を2として取得する。
検索部8は、第2記憶部2に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が、検出部6で検出された再生区間情報に含まれる文字列を検索の対象として指定する。例えば音声データの再生開始位置が「0s」、再生停止位置が「1.5s(1500ms)」である場合、検出部6は、再生開始位置「0s」から、再生停止位置「1 . 5s(1500ms)」までの区間を示す時間情報を再生区間情報として検出する。この場合、検索部8は、第2記憶部2に記憶された音声インデックスに含まれる複数の文字列のうち、対応する音声位置情報が「0s」から「1.5s(1500ms)」までの区間に含まれる文字列を、検索の対象となる文字列として指定する。そして、検索部8は、指定した文字列の中から、取得部7で取得された読み情報が示す読みを含む文字列を検索し、文字列、音声認識スコア、終端ノードインデックス情報を含む入力候補情報を取得する。
表示制御部9は、判定部13にて指示された入力候補の文字列、または、後続検索部11で取得された入力候補の文字列を、表示部を介してユーザに提示する。表示制御部9は、読みを取得した場合の入力候補の表示(後述する図5のフローチャートのステップS9の処理)では、取得部7で取得した文字挿入位置(後述する図5のフローチャートのステップS2の処理)から、表示位置を求める。また、表示制御部9は、ユーザの候補選択による後続候補の表示(後述する図5のフローチャートのステップS16の処理)では、取得部7で取得した文字挿入位置と、ユーザが選択した入力候補の文字列の文字数から、表示位置を求める。
選択部10は、ユーザから入力候補の選択入力を受け付けると、選択が指示された入力候補を入力テキストとして確定し、書き起こしテキストに挿入する。ユーザは、表示された何れかの入力候補の選択を指示する選択入力を行うことができる。選択入力の方法は任意であり、例えば表示画面のうち、ユーザが選択を希望する入力候補の表示位置をタッチ(画面に対する接触操作)して、選択入力を可能としてもよい。または、キーボード、マウス、ポインティングデバイス等の操作デバイスの操作により選択入力を可能としてもよい。なお、本実施の形態では、ユーザによる入力作業の効率化を図るために、漢字混じりの表記の文字列が入力候補として提示される。
後続検索部11は、ユーザが候補を選択した場合、選択した入力候補の終端ノードインデックスを取得し、音声認識結果から、終端ノードインデックスを始端ノードに持つ候補文字列を検索する。提示する入力候補が一つ以上ある場合には、表示制御部9に入力候補を表示するように指示を出す。
なお、入力候補の付随情報として、終端ノードの音声位置を付随しておき、ユーザが候補を選択した場合に、再生制御部5にて、音声再生位置を終端ノードの音声位置に更新する構成でもよい。
閾値更新部12は、検索部8で取得された入力候補情報と、取得部7で取得された文字挿入位置を関連付けて、候補履歴データとして第3記憶部14に記録する。さらに、閾値更新部12は、判定部13で音声認識スコアと比較する表示閾値を、第3記憶部14に記憶されている候補履歴データの音声認識スコア、およびユーザが候補文字列を選択することで選択部10で選択された候補文字列の音声認識スコアのうち、少なくとも一方を用いて決定する。換言すると、閾値更新部12は、候補履歴データの候補文字列と一部の書き起こしテキストとの一致の度合い、または、入力候補に対するユーザの選択操作に応じて、第3記憶部14に記憶されている表示閾値を更新する。
判定部13は、検索部8で取得された入力候補情報に対して、入力候補の音声認識スコアと閾値更新部12で更新された表示閾値を比較して、表示閾値以上の音声認識スコアに対応する入力候補の文字列を表示するように、表示制御部9に指示を出す。
履歴更新部15は、書き起こしテキストの変更があった場合に、変更箇所に対応して、第3記憶部14に記憶されている候補履歴データを更新する。
次に、第1の実施の形態の情報処理装置の動作説明をする。図5は、情報処理装置の動作を示すフローチャートである。まず、図5のフローチャートのステップS1において、閾値更新部12が、第3記憶部14に記憶されている候補履歴データ及び表示閾値の初期化を行う。次に、ステップS2において、取得部7が、書き起こしテキスト中の文字列の挿入位置を示す文字挿入位置を取得する。次に、取得部7は、再生部3で再生された音声データから、ユーザにより書き起こされたテキストの読みを示す文字列の読み情報を取得する。検出部6は、ステップS3において、読み情報を取得できたか否かを判別する。読み情報が取得されたものと判別すると(ステップS3:Yes)、検出部6は、ステップS4において、音声データのうち、再生部3により再生された区間を示す再生区間情報を検出する。
次に、検索部8は、ステップS5において、音声インデックスの中から、検出部6で検出された再生区間情報に含まれる文字列を検索の対象として指定する。さらに、検索部8は、ステップS6において、指定した文字列の中から、取得部7で取得された読み文字列を含む文字列を検索し、候補文字列と音声認識スコアと終端ノードインデックス情報を持つ入力候補情報を取得する。
次に、ステップS7では、履歴更新部15が、検索部8で取得された入力候補情報の候補文字列と音声認識スコアを、取得部7で取得された文字挿入位置と関連付けて、候補履歴データとして第3記憶部14に保存する。また、閾値更新部12は、ステップS8において、候補履歴データと書き起こしテキストを用いて表示閾値を更新する。
次に、ステップS9では、判定部13が、検索部8で取得された入力候補に対して、音声認識スコアが表示閾値以上か否かを判定し、表示閾値以上であれば、表示制御部9に候補文字列の表示を指示する。表示制御部9は、表示部を介して候補文字列を表示してユーザに提示する。
一方、ステップS3において、検出部6が、取得部7で読み情報が取得されないものと判別した場合(ステップS3:No)、ステップS10において、選択部10が、ユーザにより入力候補が選択されたか否かを判別する。選択部10は、ユーザにより入力候補が選択されていないものと判別した場合(ステップS10:No)、処理をステップS2に戻す。また、選択部10は、ユーザにより入力候補が選択されたものと判別した場合(ステップS10:Yes)、処理をステップS11に進める。
ステップS11では、選択部10が、ユーザにより選択された入力候補の文字列を選択し、書き起こしテキストに挿入する。次に、ステップS12では、閾値更新部12が、ユーザが選択した入力候補の音声認識スコアを用いて、表示閾値を更新する。
次に、ステップS13では、後続検索部11が、ユーザにより選択された入力候補の終端ノードインデックスを取得する。そして、後続検索部11は、ステップS14において、終端ノードインデックスから始まる入力候補情報を取得する。
次に、履歴更新部15は、ステップS15において、選択部10で挿入した候補文字列に応じて、第3記憶部14の候補履歴データを更新し、さらに後続検索部11で取得した入力候補情報を第3記憶部14の候補履歴データに追加する。次に、ステップS16では、後続検索部11が、取得した入力候補の文字列を、表示制御部9を介して表示部に表示してユーザに提示する。
次に、図6のフローチャートを用いて、上述のステップS8の処理である、取得部7が読み情報を取得した場合における表示閾値の更新処理の詳細を説明する。なお、以下に説明する表示閾値の更新処理は、読みを取得する毎に毎回実施してもよいし、数回に1回を実施してもよい。
この場合、閾値更新部12は、まず、ステップS21において、第3記憶部14に記憶された候補履歴データの中から、閾値更新用の候補履歴データ(以下、閾値更新用候補履歴データと呼ぶ)を取得する。例えば、候補履歴データ中の、前回追加した候補履歴データを、閾値更新用候補履歴データとする。または、現在の文字挿入位置(上述のステップS2で取得)から一定範囲内にある位置を文字挿入位置に持つ候補履歴データを、閾値更新用候補履歴データとしてもよい。
次に、閾値更新部12は、ステップS22において、第3記憶部14に記憶された書き起こしテキストと、閾値更新用候補履歴データから、閾値更新用のテキスト(以下、閾値更新用テキストと呼ぶ)を取得する。例えば、書き起こしテキスト中の、閾値更新用候補履歴データの文字挿入位置の前後の一定文字数分の文字列を、閾値更新用テキストとする。
次に、閾値更新部12は、ステップS23において、閾値更新用候補履歴データの中から、候補文字列が閾値更新用テキストの中に含まれる候補履歴データを検索する。候補文字列が閾値更新用テキストに含まれる候補履歴データが存在する場合(ステップS23:Yes)、閾値更新部12は、ステップS24において、候補履歴データの音声認識スコアから表示閾値を算出する。例えば、候補履歴データの音声認識スコアが「75」の場合、閾値更新部12は、表示閾値をそれより低い「70」に設定する。なお、閾値更新用テキストに含まれる閾値更新用候補履歴データの検索処理の結果が複数あった場合、閾値更新部12は、それらの音声認識スコアの平均値等の統計値から表示閾値を算出してもよい。
これに対して、候補文字列が閾値更新用テキストに含まれる候補が存在しない場合(ステップS23:No)、閾値更新部12は、ステップS25において、表示閾値を現在の表示閾値より一定値上げて設定する。例えば、現在の表示閾値が「70」の場合、閾値更新部12は、表示閾値を「75」に設定する。
次に、図7のフローチャートを用いて、上述のステップS12の処理である、ユーザが候補を選択した場合における表示閾値の更新処理の詳細を説明する。この図7のフローチャートにおいて、閾値更新部12は、まず、ステップS31において、ユーザにより選択された入力候補の音声認識スコアを第2記憶部2から取得する。
次に、閾値更新部12は、ステップS32において、現在の表示閾値と、ユーザに選択された入力候補の音声認識スコアから表示閾値を算出して更新する。例えば、現在の表示閾値が「70」であり、選択された入力候補の音声認識スコアが「75」の場合、閾値更新部12は、表示閾値を「65」に更新する。
次に、例として、「毎度ありがとうございます。CBA会社でございます。」という音声データの書き起こし作業に関して、ユーザ操作と各部の処理の流れを説明する。なお、ここでは、表示閾値の初期値は「50」、候補履歴データの初期データは空(無し)とする。
次に、図8を用いて、第1の実施の形態の情報処理装置による、ユーザの文字入力操作の流れを説明する。まず、図8の(1)の符号の図は、ユーザが、音声データを聞きながら、書き起こしテキストの先頭に、キーボード等で仮名文字「ま」を入力した状態を示している。この場合、取得部7は、ユーザが入力した「ま」の仮名文字と、書き起こしテキストの文字挿入位置「0」を取得する。
検索部8は、「ま」から始まる候補文字を第2記憶部2に記憶されている音声インデックスから検索する。この検索により、例えば図2のID=2に示す「毎度」の文字列が検索された場合、履歴更新部15は、第3記憶部14に、文字挿入位置が「0」、候補文字列が「毎度」の文字列、音声認識スコアが「100」の候補履歴データを、図4のID=1に示すように、第3記憶部14に記憶させる。
第3記憶部14に候補履歴データが記憶されると、判定部13は、現在の表示閾値「50(表示閾値の初期値)」と、第3記憶部14に記憶した「毎度」の文字列の音声認識スコア「100」とを比較する。この例の場合、現在の表示閾値「50」よりも、「毎度」の文字列の音声認識スコア「100」の値が大きいため、判定部13は、入力候補の文字列「毎度」を表示するように表示制御部9に指示を出す。表示制御部9は、表示部を介して、ユーザに対して「毎度」の入力候補を提示する。この例の場合、表示制御部9は、図8の(1)の符号の図に示すように、入力候補情報の候補文字列「毎度」を、現在の文字挿入位置「0」の上部に表示する。
なお、入力候補が複数ある場合、表示制御部9は、音声認識スコアが最も大きい入力候補情報の候補文字列を表示させる。また、「毎度」の文字列を例に文字挿入位置を説明すると、「0」の文字挿入位置とは、「毎」の文字の前段(=文頭)が文字挿入位置となることを意味している。また、「1」の文字挿入位置とは、「毎」の文字の後段(毎の文字と度の文字との間)が文字挿入位置となることを意味している。同様に、「2」の文字挿入位置とは、「度」の文字の後段が文字挿入位置となることを意味している。
次に、図8の(2)〜(4)の符号を付した図は、ユーザによる候補選択動作を示している。ユーザは、入力候補として表示された候補文字列「毎度」が適当な場合、例えばショートカットキーを押下操作することで、候補文字列「毎度」を選択操作する。ユーザの選択操作を検出すると、選択部10は、書き起こしテキストの文字挿入位置「0」に、選択された候補文字列「毎度」を挿入する。
後続検索部11は、第2記憶部2の音声インデックスを参照することで、ユーザにより選択された入力候補の終端ノードの識別子を検索すると共に、検索して取得した終端ノードインデックスを始端ノードインデックスに持つ入力候補を検索する。例えば、この例の場合、後続検索部11は、図2の音声インデックスID=2に示すように、「毎度」の候補文字列の終端ノードを検索することで、「3」の終端ノードを取得する。そして、後続検索部11は、「3」の終端ノードインデックスを始端ノードインデックスに持つ、「蟻」の候補文字列(図2のID=5)、および「ありがとう」の候補文字列(図2のID=7)を得る。
このように、ユーザにより選択された入力候補に関連する入力候補を検索すると、履歴更新部15は、検索した入力候補の音声インデックスID、候補文字列、音声認識スコア、および文字挿入位置の各情報を、候補履歴データとして第3記憶部14に記憶する。この例の場合、「毎度」に後続する候補文字列として、「蟻」および「ありがとう」の候補文字列が検索された。このため、「蟻」の候補文字列と共に、「5」の音声インデックスID、「25」の音声認識スコア、および「2」の文字挿入位置の各情報が、候補履歴データとして第3記憶部14に記憶される(図4のID=3参照)。同様に、「ありがとう」の候補文字列と共に、「7」の音声インデックスID、「100」の音声認識スコア、および「2」の文字挿入位置の各情報が、候補履歴データとして第3記憶部14に記憶される(図4のID=2参照)。なお、この例における「2」の文字挿入位置は、上述のように「毎度」の「度」の文字の後段が文字の挿入位置であることを意味している。
後続検索部11は、表示制御部9に候補文字列を表示するように指示を出す。表示制御部9は、表示部を介して候補文字列をユーザに提示する。この例の場合、「ありがとう」の候補文字列と「蟻」の候補文字列とが検索されたため、後続検索部11は、音声認識スコアが最も大きい「ありがとう」の候補文字列(図2のID=7)を、図8の(2)の符号を付した図に示すように、選択部10が挿入した「毎度」の文字列の後方上に表示する。
次に、入力候補として表示された「ありがとう」の文字列が適当である場合に、ユーザが、入力候補の「ありがとう」の文字列を選択すると、図8の(3)の符号を付した図に示すように、「毎度」の文字列の後段に「ありがとう」の文字列が挿入されユーザに掲示される。後続検索部11は、上述と同様にして、ユーザに選択された「ありがとう」の文字列に後続する候補文字列を検索する。「ありがとう」の文字列に後続する候補文字列として、例えば「ございます。」の文字列が検索された場合、後続検索部11は、表示制御部9に「ございます。」の候補文字列を表示するように指示を出す。表示制御部9は、図8の(3)の符号を付した図に示すように「ございます。」の文字列を表示部に表示させる。履歴更新部15は、文字挿入位置が「7(ありがとうの「う」の文字の後段の挿入位置)」、候補文字列が「ございます。」の候補文字列、音声認識スコアが「100」の候補履歴データ(図4のID=4を参照)を第3記憶部14に記憶する。
次に、入力候補として表示された「ございます。」の文字列が適当である場合に、ユーザが入力候補の「ございます。」を選択すると、上述のように「ございます。」の文字列に後続する後続候補の検索が行われる。この検索により、例えば「ABC」の文字列が検索されたとすると、図8の(4)の符号を付した図に示すように「ございます。」の文字列の後方上に表示される。履歴更新部15は、候補文字列が「ABC」の文字列、文字挿入位置が「12(ございます。の「す」の文字の後段の挿入位置)」、音声認識スコアが「75」、音声インデックスIDが「13」の候補履歴データ(図4のID=5を参照)を第3記憶部14に記憶する。
次に、図8の(5)〜(7)の符号を付した図は、ユーザによる所望の文字列の入力動作を示している。ユーザは、「ございます。」の文字列に後続する入力候補として表示された「ABC」が適当でない場合、キーボード等の入力デバイスを操作して、例えば図8の(5)の符号を付した図に示すように、表示された後続候補に代えて、例えば「CBA」等の所望の文字列を入力操作する。取得部7は、ユーザにより入力された「CBA」の文字を取得する。検索部8は、第2記憶部2の音声インデックスから、「C」から始まる候補文字を検索する。ここで、「C」から始まる候補文字列が検索できない場合、検索部8は、表示制御部9に対して表示指示は出さない。このため、表示部には、「CBA」に続く入力候補は表示されない。この場合、閾値更新部12は、後続候補として表示した「ABC」の候補文字列と、ユーザに入力された「CBA」の文字列とを比較する。そして、両者が一致しないため、閾値更新部12は、現在の表示閾値を「50」から「80」に更新する。
次に、ユーザがキーボード等で「か」の仮名文字を入力し、取得部7で取得されると、検索部8は、第2記憶部2の音声インデックスから、「か」から始まる候補文字列を検索する。例えば、「会社」の候補文字列が検索された場合、履歴更新部15は、図4のID=6に示すように、「会社」の候補文字列、「14」の音声インデックスID、「75」の音声認識スコア、および「15」の文字挿入位置の各情報を、候補履歴データとして第3記憶部14に記憶する。
次に、判定部13は、入力候補(「会社」の候補文字列)の音声認識スコア「75」と、現在の表示閾値とを比較する。この例の場合、現在の表示閾値は、「80」に更新されている。このため、判定部13は、入力候補情報(「会社」の候補文字列)の音声認識スコア「75」は、現在の表示閾値「80」よりも低いと判定し、表示制御部9に対して表示の指示は出さない。この場合、表示部に候補文字列が表示されないため、ユーザは、図8の(6)の符号を付した図に示すように、「か」の仮名文字の入力に続けて「い」「しゃ」と仮名文字を入力後、仮名漢字変換操作を行い、図8の(7)の符号を付した図に示すように「会社」の漢字を表示部に表示し、入力の確定操作を行う。
ユーザにより所望の文字列が入力されると、閾値更新部15は、第3記憶部14に記憶されている各候補履歴データを参照して、ユーザに入力された文字列(書き起こしテキスト)と同じ候補文字列の候補履歴データを検索する。この例の場合、ユーザにより「会社」の文字が入力され、第3記憶部14には、図4に示すように「会社」の候補履歴データが記憶されている。このため、閾値更新部15は、ユーザに入力された文字列と一致する文字列が第3記憶部14の候補履歴データとして記憶されているものと判別し、表示閾値を「80」から「70」に更新する。
次に、図8の(8)の符号を付した図に示すように、ユーザが、キーボード等で「で」の仮名文字を入力すると、この「で」の仮名文字が取得部7で取得される。検索部8は、第2記憶部2に記憶されている音声インデックスから、「で」から始まる候補文字を検索し、例えば「でございます。」の入力候補情報を取得する。履歴更新部15は、図4のID=7に示すように、文字挿入位置が「17」、候補文字列が「でございます。」の文字列、音声認識スコアが「75」、音声インデックスIDが15の候補履歴データを第3記憶部14に記憶する。
次に、判定部13は、「でございます。」の候補文字列の音声認識スコアと、現在の表示閾値とを比較する。上述のように、現在の表示閾値は「80」から「70」に更新されている。また、「でございます。」の候補文字列の音声認識スコアは「75」である。判定部13は、「でございます。」の候補文字列の音声認識スコア「75」が、現在の表示閾値の「70」を超えているため、表示制御部9に対して表示指示を出す。これにより、例えば図8の符号(8)を付した図に示すように、「でございます。」の候補文字列が、「会社」の文字列の後方上(「会社」の後段となる、「17」の文字挿入位置の上方)に表示される。
ユーザは、入力候補として表示された「でございます。」の文字列が適当である場合は選択操作を行う。これにより、ユーザに選択された「でございます。」の入力候補に後続する後続候補が検索されて表示される。また、ユーザは、入力候補として表示された「でございます。」の文字列が適当ではない場合、所望の文字列を入力操作する。ユーザにより所望の文字列が入力された場合は、ユーザに入力された文字列と同じ文字列が第3記憶部14に候補履歴データとして記憶されているか否かが判別される。ユーザに入力された文字列と同じ文字列が第3記憶部14に記憶されていない場合、表示閾値を現在値よりも大きな値に更新する。反対に、ユーザに入力された文字列と同じ文字列が第3記憶部14に記憶されている場合、表示閾値を現在値よりも小さな値に更新する。このような動作は、上述のとおりである。
以上の説明から明らかなように、第1の実施の形態の情報処理装置は、入力候補の情報として、音声認識処理結果の音声認識スコアと終端ノードインデックスを示す情報を記憶しておき、表示閾値以上の音声認識スコアを持つ入力候補をユーザに提示する。これにより、不要な入力候補の提示を抑制して、書き起こし作業の効率化を図ることができる。
また、提示した入力候補と文字挿入位置とを関連付けて、候補履歴データとして記憶しておき、候補履歴データの音声認識スコアと、入力候補に対するユーザの選択操作に応じて表示閾値を更新する。また、提示された入力候補をユーザが選択した場合に、書き起こしテキストに選択した入力候補を挿入すると共に、選択された入力候補の終了ノードインデックスの情報を取得し、終了ノードインデックスから始まる入力候補を検索してユーザに提示する。これにより、入力候補の選択と同時に、選択した候補に後続する入力候補をユーザに掲示することができ、書き起こし作業のさらなる効率化を図ることができる。
(第2の実施の形態)
次に、第2の実施の形態の情報処理装置の説明をする。上述の第1の実施の形態と以下に説明する第2の実施の形態とでは、ユーザの指示を受け、入力候補を複数提示する点が異なる。以下、この差異の説明のみ行い、重複した説明は省略する。
図9は、第2の実施の形態の情報処理装置の機能ブロック図である。図1に示した第1の実施の形態の情報処理装置の機能ブロック図と異なる点は、図9に示す複数候補提示指示受付部16を、さらに備える点である。
図10のフローチャートを用いて、第2の実施の形態の情報処理装置の特徴的な動作を説明する。図10のフローチャートのステップS41〜ステップS43の処理は、図5のフローチャートのステップS1〜ステップS3の処理に相当する。また、図10のフローチャートのステップS44の処理は、図5のフローチャートのステップS10の処理に相当する。このため、ステップS41〜ステップS44の処理は、図5のフローチャートの対応するステップの説明を参照されたい。
図10のフローチャートのステップS44において、表示された候補文字列をユーザが選択しない場合(ステップS44:No)、複数候補提示指示受付部16は、ユーザが複数候補の提示指示に対応する所定のキー操作を行ったか否かを判別することで、入力候補の複数提示が指示されたか否かを判別する。ユーザから入力候補の複数提示が指示されていない場合(ステップS45:No)、処理はステップS42に戻る。
これに対して、ユーザから入力候補の複数提示が指示された場合(ステップS45:Yes)、処理がステップS46に進み、検索部8が、第3記憶部14に記憶されている候補履歴データから、現在の文字挿入位置に一致する候補文字列を検索する。例えば、図4の例で説明すると、現在の文字挿入位置が「2」である場合、「ありがとう」の候補文字列の文字挿入位置と、「蟻」の候補文字列の文字挿入位置は、共に「2」である。このため、「ありがとう」の候補文字列と「蟻」の候補文字列の文字挿入位置は、現在の文字挿入位置と一致するため、この2つの候補文字列が検索部8により検索される。
また、検索部8は、候補履歴データ中に、現在の文字挿入位置に一致する候補文字列が存在しない場合、現在の文字挿入位置の一定文字前の文字を、第2記憶部2に記憶されている音声インデックスから一致する候補文字列を検索する。なお、音声インデックスの他に、発話区間情報を保持し、発話区間毎に候補を分ける構成にしてもよい。
ステップS47では、検索部8が、検索した候補文字列の表示を表示制御部9に指示する。これにより、検索部8により検索された「ありがとう」および「蟻」の2つの候補文字列が表示部に表示され、ユーザに提示される。具体的には、表示制御部9は、候補文字列を複数提示する場合、現在の文字挿入位置と、候補文字列の数と、各候補文字列の文字列の長さから、候補文字列の表示位置を計算し、計算した表示位置に各候補文字列を表示させる。この際、表示制御部9は、各候補文字列を音声認識スコアの降順に表示させる。
図11に、複数の候補文字列の表示例を示す。ユーザが「の」という文字を入力することで、例えば「の太郎です。」との候補文字列が表示された状態において、ユーザがショートカットキー等を操作することで、複数候補の提示指示を行ったとする。複数候補の提示指示は、複数候補提示受付部16で受け付けられる。検索部8は、候補履歴データから、現在の文字挿入位置に一致する候補履歴データを検索することで、一つ目の候補文字列の「の太郎です。」、二つ目の候補文字列の「の次郎です。」、および三つ目の候補文字列の「の三郎です。」を取得したとする。表示制御部9は、取得した3つの候補文字列を、例えば図11に示すように同時に表示して、一度にユーザに提示する。
このような第2の実施の形態の情報処理装置は、ユーザが複数の候補文字列の中から所望の候補文字列を選択し易くなるため、書き起こし作業のさらなる効率化を図ることができる他、上述の第1の実施の形態と同じ効果を得ることができる。
(第3の実施の形態)
次に、第3の実施の形態の情報処理装置を説明する。第3の実施の形態の情報処理装置は、第2記憶部2に記憶される音声認識結果のラティス構造をトライ構造に変換して記憶する点が上述の各実施の形態の情報処理装置と異なる。なお、上述の各実施の形態と以下に説明する第3の実施の形態とでは、この点のみが異なる。このため、以下、差異の説明のみ行い、重複した説明は省略する。
図12は、第3の実施の形態の情報処理装置の機能ブロック図である。この第3の実施の形態の情報処理装置は、音声認識結果のラティス構造をトライ構造に変換して第2記憶部2に記憶する変換部17を、さらに備えている。
図13は、ラティス構造の音声認識結果をトライ構造の音声認識結果に変換する変換部17の処理を示すフローチャートである。図13のフローチャートにおいて、変換部17は、まず、ステップS51において、音声データから音声認識スコアを持つ、例えば図3に示した単語ラティスを生成する。次に、変換部17は、ステップS52において、取得したラティスに対して、後向きビダビアルゴリズムを行い、各ノードにおける、ラティス全体の終端ノード(図3のE)までの最大(または最少)スコア(node_best_score)を算出する。
次に、変換部17は、ステップS53において、各アークに対して、前向きA*アルゴリズムを用いて、アークの右ノードから隣接するN−1個のアークの組合せの中で、後述する予測スコア(predictive_score)が大きい(または小さい)上位K個の候補(アークの組合せ)を検索する。この際、隣接するアークをN−1個したのは、対象となるアークの文字列を含めて、単語N個の文字列(一般的にN−gramと呼ばれる)とするためである。
ここで、予測スコア(predictive _score)は、以下の式で算出する。
predictive_score(j)=node_score(i)+arch_score(i,j)+node_best_score(j)
ただし、「i,j…ノードID」、「arch_score(i,j)…ノードiとノードjを連結するアークのスコア(単語ラティスの音声認識スコア)」、「node_score(i)…ノードiまでの最大(または、最少)スコア。ノードiを終端に持つアークの始端ノードをi−1とすると、node_score(i−1)+arch_score(i−1,i)で算出される最大(または、最少)スコア。ただし、ラティスの開始ノードSのスコアnode_score(s)は0とする。」、「node_best_score(i)…ノードiから終端ノードまでの最終スコア(ステップS52で算出)」とする。
なお、ステップS53において、アーク上に特定の文字列(例えば、句点「。」)があった場合に、そのアークで検索を中止してもよい。
次に、変換部17は、ステップS54において、各アークの上位K個の候補(アークの組合せ)から、例えば図14に示すように、アーク上の文字列を連結した候補文字列、ラティス上の始端ノードID、ラティス上の終端ノードID、予測スコアと、これらの情報を一意に特定するリストIDをリストとして第2記憶部2に記憶する。なお、図14に示すリストは、N=3、K=3とした場合のリストである。
次に、変換部17は、ステップS55において、例えば図15に示すように各アークの上位K個の候補から、アーク上の読み文字列を連結した読み情報と、上記リストIDをトライ木に記憶することで、音声認識結果をラティス構造からトライ構造に変換する。図15は、図14と同様に、N=3、K=3とした場合の候補文字列のトライ構造である。
なお、ステップS54およびステップS55において、すべての各アークの上位K個の候補文字列をリスト及びトライ構造として記憶せずに、一定値以上の予測スコアを持つ候補文字列を記憶してもよい。また、ステップS55において、候補文字列をトライ構造に記憶してもよい。
トライ構造の場合、文字単位で検索を進行することができ、検索範囲が絞り易い構造であるため、さらなる検索効率の向上を図ることができる他、上述の各実施の形態と同様の効果を得ることができる。
以上、各実施の形態を説明したが、各実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な各実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。各実施の形態およびその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 第1記憶部
2 第2記憶部
3 再生部
4 再生指示受付部
5 再生制御部
6 検出部
7 取得部
8 検索部
9 表示制御部
10 選択部
11 後続検索部
12 閾値更新部
13 判定部
14 第3記憶部
15 履歴更新部
16 複数候補提示指示受付部
17 変換部

Claims (8)

  1. 音声データに対する音声認識処理により得られる音声テキストに含まれる複数の文字列、前記音声テキスト内の始端位置情報と終端位置情報とが対応づけられたノードインデックス、前記音声認識処理により得られる音声認識スコア、および前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶部に記憶させる記憶制御部と、
    前記音声データのうち、再生された区間を示す再生区間情報を検出する検出部と、
    再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報、および前記書き起こされたテキスト中の文字挿入位置を示す挿入位置情報を取得する取得部と、
    前記音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として指定し、その指定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索部と、
    前記検索部で取得した文字列に対応する前記音声認識スコアの値が、表示閾値以上の値である場合に、前記検索部で取得した文字列を表示すると判定する判定部と、
    前記判定部で表示すると判定された文字列を表示部に表示させる表示制御部と、
    前記検索部で取得した文字列と、前記音声認識スコアと、前記文字挿入位置とを対応付けた候補履歴データを候補履歴記憶部に記憶制御すると共に、テキストの変更に応じて前記候補履歴データを更新する履歴更新部と、
    前記表示制御部で表示された文字列が選択操作された場合に、選択操作された文字列を選択する選択部と、
    前記判定部にて音声認識スコアと比較する前記表示閾値を、前記候補履歴データの音声認識スコア、および前記選択部で選択された文字列の音声認識スコアのうち、少なくとも一方を用いて決定する閾値更新部と
    を有する情報処理装置。
  2. 前記選択部で選択された文字列の終端位置のノードインデックスを、始端位置のノードインデックスに持つ文字列を検索する後続検索部を、さらに備え、
    前記表示制御部は、前記後続検索部で検索された前記文字列を前記表示部に表示させること
    を特徴とする請求項1に記載の情報処理装置。
  3. 複数候補の提示指示を受け付ける複数候補提示受付部を、さらに備え、
    前記検索部は、前記取得部で取得された文字挿入位置に対応する文字列を検索し、
    前記表示制御部は、前記検索部で検索された文字列を、前記取得部で取得された文字挿入位置、前記検索部で検索された文字列の数、および各文字列の長さから、入力候補を表示させる位置を計算して前記表示部に表示させること
    を特徴とする請求項1または請求項2に記載の情報処理装置。
  4. 前記検索部は、前記文字挿入位置に対応する文字列を検索できない場合、現在の文字挿入位置の一定文字前の文字と一致する文字を前記音声インデックスから検索し、
    前記表示制御部は、前記検索された一致する文字を前記入力候補として前記表示部に表示させること
    を特徴とする請求項3に記載の情報処理装置。
  5. 前記音声認識処理の結果となるラティス構造をトライ構造に変換する変換部を、さらに備えること
    を特徴とする請求項1から請求項4のうち、いずれか一項に記載の情報処理装置。
  6. 前記変換部は、
    前記音声データから音声認識スコアを持つ単語ラティスを生成する生成部と、
    前記単語ラティスの各アークのうち、前記音声認識スコアが大きい順に、Mベスト(Mは自然数)を抽出する抽出部と、
    抽出した前記各アークのMベストを特定するための特定情報をトライ木に保存する保存部と
    を有することを特徴とする請求項5に記載の情報処置装置。
  7. 記憶制御部が、音声データに対する音声認識処理により得られる音声テキストに含まれる複数の文字列、前記音声テキスト内の始端位置情報と終端位置情報とが対応づけられたノードインデックス、前記音声認識処理により得られる音声認識スコア、および前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶部に記憶させる記憶制御ステップと、
    検出部が、前記音声データのうち、再生された区間を示す再生区間情報を検出する検出ステップと、
    取得部が、再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報、および前記書き起こされたテキスト中の文字挿入位置を示す挿入位置情報を取得する取得ステップと、
    検索部が、前記音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として指定し、その指定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索ステップと、
    判定部が、前記検索ステップで取得された文字列に対応する前記音声認識スコアに基づいて、前記検索ステップで取得された文字列を表示するか否かを判定する判定ステップと、
    表示制御部が、前記判定ステップで取得された文字列を表示部に表示させる表示制御ステップと、
    履歴記憶制御部が、前記検索ステップで取得された文字列と、前記音声認識スコアと、前記文字挿入位置とを対応付けた候補履歴データを候補履歴記憶部に記憶させる記憶制御ステップと、
    履歴更新部が、前記候補履歴記憶部に記憶された前記候補履歴データを、テキストの変更に応じて更新する履歴更新ステップと、
    前記表示制御ステップで表示された文字列が選択操作された場合に、選択部が、選択操作された文字列を選択する選択ステップと、
    閾値更新部が、前記判定ステップで前記音声認識スコアと比較する閾値を、前記候補履歴データの音声認識スコア、および前記選択ステップで選択された文字列の音声認識スコアのうち、少なくとも一方を用いて決定する閾値更新ステップと
    を有する情報処理方法。
  8. コンピュータを、
    音声データに対する音声認識処理により得られる音声テキストに含まれる複数の文字列、前記音声テキスト内の始端位置情報と終端位置情報とが対応づけられたノードインデックス、前記音声認識処理により得られる音声認識スコア、および前記音声データ内の位置を示す音声位置情報とが対応付けられた音声インデックスを記憶部に記憶させる記憶制御部と、
    前記音声データのうち、再生された区間を示す再生区間情報を検出する検出部と、
    再生された前記音声データから書き起こされる語句の読みを示す文字列の少なくとも一部である読み情報、および前記書き起こされたテキスト中の文字挿入位置を示す挿入位置情報を取得する取得部と、
    前記音声インデックスに含まれる前記複数の文字列のうち、対応する前記音声位置情報が前記再生区間情報に含まれる文字列を検索の対象として指定し、その指定した文字列の中から、前記読み情報が示す読みを含む文字列を検索する検索部と、
    前記検索部で取得された文字列に対応する前記音声認識スコアに基づいて、前記検索部で取得された文字列を表示するか否かを判定する判定部と、
    前記判定部で取得された文字列を表示部に表示させる表示制御部と、
    前記検索部で取得された文字列と、前記音声認識スコアと、前記文字挿入位置とを対応付けた候補履歴データを候補履歴記憶部に記憶すると共に、テキストの変更に応じて前記候補履歴データを更新する履歴更新部と、
    前記表示制御部で表示された文字列が選択操作された場合に、選択操作された文字列を選択する選択部と、
    前記判定部で前記音声認識スコアと比較する閾値を、前記候補履歴データの音声認識スコア、および前記選択部で選択された文字列の音声認識スコアのうち、少なくとも一方を用いて決定する閾値更新部として機能させること
    を特徴とする情報処理プログラム。
JP2013258077A 2013-12-13 2013-12-13 情報処理装置、情報処理方法、および情報処理プログラム Active JP6165619B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013258077A JP6165619B2 (ja) 2013-12-13 2013-12-13 情報処理装置、情報処理方法、および情報処理プログラム
US14/563,174 US9489944B2 (en) 2013-12-13 2014-12-08 Information processing device, method and computer program product for processing voice recognition data
CN201410763914.3A CN104715005B (zh) 2013-12-13 2014-12-11 信息处理设备以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013258077A JP6165619B2 (ja) 2013-12-13 2013-12-13 情報処理装置、情報処理方法、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015114963A JP2015114963A (ja) 2015-06-22
JP6165619B2 true JP6165619B2 (ja) 2017-07-19

Family

ID=53369242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013258077A Active JP6165619B2 (ja) 2013-12-13 2013-12-13 情報処理装置、情報処理方法、および情報処理プログラム

Country Status (3)

Country Link
US (1) US9489944B2 (ja)
JP (1) JP6165619B2 (ja)
CN (1) CN104715005B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN106445964B (zh) * 2015-08-11 2021-05-14 腾讯科技(深圳)有限公司 音频信息处理的方法和装置
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN108665890B (zh) * 2017-03-28 2023-10-13 三星电子株式会社 操作语音识别服务的方法、电子设备和支持该设备的***
US9864956B1 (en) 2017-05-01 2018-01-09 SparkCognition, Inc. Generation and use of trained file classifiers for malware detection
US10616252B2 (en) 2017-06-30 2020-04-07 SparkCognition, Inc. Automated detection of malware using trained neural network-based file classifiers and machine learning
US10305923B2 (en) 2017-06-30 2019-05-28 SparkCognition, Inc. Server-supported malware detection and protection
JP7143630B2 (ja) * 2018-05-23 2022-09-29 コニカミノルタ株式会社 ジョブ履歴特定装置、画像処理装置、サーバー、ジョブ履歴特定方法及びプログラム
US11893983B2 (en) * 2021-06-23 2024-02-06 International Business Machines Corporation Adding words to a prefix tree for improving speech recognition

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5970460A (en) * 1997-12-05 1999-10-19 Lernout & Hauspie Speech Products N.V. Speech recognition and editing system
JP3543931B2 (ja) * 1998-12-17 2004-07-21 日本電気株式会社 音声認識による文字編集手段を有する移動通信端末装置
JP2002297502A (ja) 2001-03-30 2002-10-11 Seiko Epson Corp 電子メール作成支援方法及び携帯型情報機器並びに電子メール作成支援処理プログラムを記録した記録媒体
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US7363224B2 (en) 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
JP4509590B2 (ja) * 2004-02-05 2010-07-21 トッパン・フォームズ株式会社 音声認識システムおよびそのプログラム
US20070100619A1 (en) 2005-11-02 2007-05-03 Nokia Corporation Key usage and text marking in the context of a combined predictive text and speech recognition system
JP2008090625A (ja) * 2006-10-02 2008-04-17 Sharp Corp 文字入力装置、文字入力方法、制御プログラム、および、記録媒体
US8571862B2 (en) 2006-11-30 2013-10-29 Ashwin P. Rao Multimodal interface for input of text
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
KR20090019198A (ko) * 2007-08-20 2009-02-25 삼성전자주식회사 음성 인식을 이용한 텍스트 입력 자동 완성 방법 및 장치
JPWO2009147745A1 (ja) * 2008-06-06 2011-10-20 三菱電機株式会社 検索装置
JP5583915B2 (ja) 2009-03-11 2014-09-03 ソニーモバイルコミュニケーションズ, エービー 携帯情報端末、情報処理方法及び情報処理プログラム
JP2010257403A (ja) 2009-04-28 2010-11-11 Fujitsu Ltd 入力文字変換装置
JP2011002656A (ja) * 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP5318030B2 (ja) 2010-05-19 2013-10-16 ヤフー株式会社 入力支援装置、抽出方法、プログラム、及び情報処理装置
JP2011248107A (ja) * 2010-05-27 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果検索方法とその装置とプログラム
JP4876198B1 (ja) 2010-11-12 2012-02-15 パイオニア株式会社 情報出力装置、情報出力方法、情報出力プログラム及び情報システム
JP5404726B2 (ja) 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP5787780B2 (ja) * 2012-01-25 2015-09-30 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
US8498864B1 (en) 2012-09-27 2013-07-30 Google Inc. Methods and systems for predicting a text
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context

Also Published As

Publication number Publication date
US20150170649A1 (en) 2015-06-18
CN104715005A (zh) 2015-06-17
US9489944B2 (en) 2016-11-08
JP2015114963A (ja) 2015-06-22
CN104715005B (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
JP6165619B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN106663424B (zh) 意图理解装置以及方法
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US6510412B1 (en) Method and apparatus for information processing, and medium for provision of information
JP6794990B2 (ja) 楽曲検索方法および楽曲検索装置
JP5787780B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
KR20120113717A (ko) 검색 장치, 검색 방법, 및 프로그램
JP2012043000A (ja) 検索装置、検索方法、及び、プログラム
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JPWO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US20140303974A1 (en) Text generator, text generating method, and computer program product
JP5404726B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5688677B2 (ja) 音声入力支援装置
JP2015158582A (ja) 音声認識装置、及びプログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP4769611B2 (ja) 音声データ再生装置および音声データ再生装置のデータ表示方法
JP5396426B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2010164918A (ja) 音声翻訳装置、および方法
JP6022138B2 (ja) 情報提供システム
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2009282835A (ja) 音声検索装置及びその方法
JP2005267053A (ja) 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170621

R151 Written notification of patent or utility model registration

Ref document number: 6165619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350