JP2020052262A

JP2020052262A - 修正候補提示方法、修正候補提示プログラムおよび情報処理装置

Info

Publication number: JP2020052262A
Application number: JP2018182050A
Authority: JP
Inventors: 聡三小田; Satoshi Mikota
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-02
Anticipated expiration: 2038-09-27
Also published as: US20200104363A1; US11182553B2; JP7243106B2; CN110956020A; CN110956020B; EP3640940A1

Abstract

【課題】文字列修正時の確認項目数および打鍵数を抑制できる修正候補提示方法、修正候補提示プログラムおよび情報処理装置を提供する。【解決手段】修正候補提示方法は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける処理をコンピュータが実行する。修正候補提示方法は、受け付けたキーに対応する第１単語ブロックを特定する処理をコンピュータが実行する。修正候補提示方法は、特定した第１単語ブロック、および、第１単語ブロックと該第１単語ブロックに連続する単語ブロックを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する処理をコンピュータが実行する。【選択図】図３

Description

本発明は、修正候補提示方法、修正候補提示プログラムおよび情報処理装置に関する。

コンピュータを用いた音声認識により文字列を入力する技術が知られている。音声認識により入力された文字列は、誤認識された文字が含まれている場合、人手によって修正される必要がある。また、音声認識のソフトウェアは、音声認識された文字列に対して形態素解析を行って単語ブロックを生成し、仮名漢字変換等の技術を用いることで単語ブロックの修正を行うことが知られている。

特開２０１８−００４９４７号公報特開平９−１９０４３６号公報特開２００９−２１７６６５号公報

しかしながら、音声認識のソフトウェアによって生成された単語ブロックが、必ずしも正しい区切りであるとは限らず、連続した単語ブロックに渡って修正が必要である場合がある。このため、特定の単語ブロックの修正候補を提示する場合に、単語ブロック単位での表示では、連続した単語ブロックのそれぞれについて確認や操作を行うので、文字列修正時の確認項目数および打鍵数が増大する。

一つの側面では、文字列修正時の確認項目数および打鍵数を抑制できる修正候補提示方法、修正候補提示プログラムおよび情報処理装置を提供することにある。

一つの態様では、修正候補提示方法は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける処理をコンピュータが実行する。修正候補提示方法は、受け付けた前記キーに対応する第１単語ブロックを特定する処理をコンピュータが実行する。修正候補提示方法は、特定した前記第１単語ブロック、および、前記第１単語ブロックと該第１単語ブロックに連続する単語ブロックを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する処理をコンピュータが実行する。

文字列修正時の確認項目数および打鍵数を抑制できる。

図１は、実施例の情報処理システムの構成の一例を示すブロック図である。図２は、実施例の情報処理装置の構成の一例を示すブロック図である。図３は、編集画面の一例を示す図である。図４は、文字列の近似を用いた修正候補の一例を示す図である。図５は、実施例の修正候補提示処理の一例を示すフローチャートである。図６は、修正候補提示プログラムを実行するコンピュータの一例を示す図である。

以下、図面に基づいて、本願の開示する修正候補提示方法、修正候補提示プログラムおよび情報処理装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組みあわせてもよい。

図１は、実施例の情報処理システムの構成の一例を示すブロック図である。図１に示す情報処理システム１は、端末装置１０と、情報処理装置１００とを有する。なお、情報処理システム１では、端末装置１０の数は限定されず、任意の数の端末装置１０を有するようにしてもよい。

端末装置１０と、情報処理装置１００との間は、ネットワークＮを介して、相互に通信可能に接続される。かかるネットワークＮには、有線または無線を問わず、インターネットを始め、ＬＡＮ（Local Area Network）やＶＰＮ（Virtual Private Network）などの任意の種類の通信網を採用できる。また、ネットワークＮを介する通信は、例えば、ＴＬＳ（Transport Layer Security）／ＳＳＬ（Secure Sockets Layer）等によって暗号化されるようにしてもよい。

情報処理システム１は、端末装置１０から資料や音声データを情報処理装置１００に送信し、情報処理装置１００が提供する編集画面を用いて音声認識により生成された文章データを編集するシステムの一例である。

端末装置１０は、音声データを音声認識して生成された文章データを編集するユーザが用いる情報処理装置である。端末装置１０は、例えば、可搬型や据置型のパーソナルコンピュータ等の各種端末を用いることができる。端末装置１０は、例えば、議事録を生成する対象である会議の資料および音声データを、ネットワークＮを介して、情報処理装置１００に送信する。端末装置１０は、情報処理装置１００が提供する編集画面を用いて、音声認識により生成された文章データの編集を受け付けるとともに、編集箇所を含む区間の音声を再生する。このとき、端末装置１０は、逐次、編集情報と編集箇所を含む区間の音声データを情報処理装置１００との間で送受信する。また、端末装置１０は、文章データの編集を開始する場合に、開始指示を情報処理装置１００に送信する。

情報処理装置１００は、端末装置１０から受信した音声データを音声認識して生成した文章データの編集を受け付ける編集画面を提供する情報処理装置である。情報処理装置１００は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。

ここで、単語ブロックとは形態素解析を用いて生成された文字列であり、形態素と一致する場合、複数の形態素の組み合わせである場合を含む。情報処理装置１００は、受け付けたキーに対応する第１単語ブロックを特定する。情報処理装置１００は、特定した第１単語ブロック、および、第１単語ブロックと該第１単語ブロックに連続する単語ブロックを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。これにより、情報処理装置１００は、文字列修正時の確認項目数および打鍵数を抑制できる。

また、情報処理装置１００は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックを表示する第１領域の中央部に、修正確認対象の単語ブロックを配置して表示する。情報処理装置１００は、第１領域に対応する区間の音声について再生制御を行う。これにより、情報処理装置１００は、修正確認対象の単語ブロックの前後の音声を過不足なく再生できる。

次に、情報処理装置１００の構成について説明する。図２は、実施例の情報処理装置の構成の一例を示すブロック図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、図２に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワークＮを介して、端末装置１０と有線または無線で接続され、端末装置１０との間で情報の通信を司る通信インタフェースである。通信部１１０は、端末装置１０から会議の資料および音声データと、編集情報とを受信する。通信部１１０は、受信した会議の資料および音声データと、編集情報とを制御部１３０に出力する。また、通信部１１０は、制御部１３０から入力された編集画面データおよび編集箇所を含む区間の音声データを端末装置１０に送信する。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部１２０は、音声データ記憶部１２１と、形態素辞書記憶部１２２と、文章データ記憶部１２３と、資料情報記憶部１２４と、修正履歴データベース（以下、ＤＢという。）１２５と、同音異義語リスト記憶部１２６とを有する。また、記憶部１２０は、制御部１３０での処理に用いる情報を記憶する。

音声データ記憶部１２１は、端末装置１０から受信した音声データを記憶する。音声データは、例えば、ＩＣ（Integrated Circuit）レコーダ等で録音されたＭＰ３（MPEG-1 Audio Layer-3）やＡＡＣ（Advanced Audio Coding）等の各種コーデックを用いて圧縮された音声データである。なお、音声データ記憶部１２１は、例えば、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ（Advanced Video Coding）等の動画像と音声とをＭＰ４等のコンテナ内に含む動画像データを記憶するようにしてもよい。

形態素辞書記憶部１２２は、音声認識された文字列に対して形態素解析を行う際に用いる形態素辞書を記憶する。形態素辞書には、予め一般的な語句が格納されている。一般的な語句としては、例えば、「コンピュータ」や「技術」といった単語が挙げられる。

文章データ記憶部１２３は、音声認識された文字列に対して形態素解析が行われて生成された複数の単語ブロックを有する文章データを記憶する。なお、文章データ記憶部１２３は、複数の音声認識エンジンを用いて音声認識を行った場合、それぞれの音声認識エンジンに対応する文章データを記憶する。また、文章データ記憶部１２３は、ユーザによる単語ブロックの修正候補の選択や、単語ブロックに対して入力された修正内容に基づいて更新される。

資料情報記憶部１２４は、端末装置１０から受信した会議の資料等を記憶する。会議の資料は、例えば、会議における配布文書や、プロジェクタ等を用いて表示した資料である。これらの資料は、例えば、会議における発話内容を類推することができる文章を含むものである。また、資料情報記憶部１２４は、これらの資料から抽出した、単語の読み（音素）を含む単語リストを記憶する。

修正履歴ＤＢ１２５は、過去の文章データの修正内容を記憶する。修正履歴ＤＢ１２５は、例えば、修正前と修正後の単語ブロックについて、文字および音素を対応付けて記憶する。なお、資料情報記憶部１２４および修正履歴ＤＢ１２５は、修正に応じて内容が変化する動的辞書の一例である。

同音異義語リスト記憶部１２６は、同音異義語のリストを記憶する。同音異義語リスト記憶部１２６は、例えば、「いどう」という読みに対して、「移動」、「異動」、「異同」といった複数の単語が同音異義語として対応付けて記憶されている。

制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。

制御部１３０は、音声認識部１３１と、生成部１３２と、受付部１３３と、特定部１３４と、提示部１３５と、表示制御部１３６と、再生制御部１３７とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

音声認識部１３１は、音声データ記憶部１２１に記憶された音声データに対して音声認識を行って、文字列データを生成する。なお、音声認識部１３１は、複数の音声認識エンジンを持ち、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えば、ＡｍｉＶｏｉｃｅ（登録商標）エンジン等の各種の音声認識エンジンを用いることができる。また、音声認識部１３１は、音声認識エンジンとして、通信部１１０およびネットワークＮを介して、音声認識ＡＰＩ（Application Programming Interface）を提供するサーバ等を利用してもよい。なお、文字列データには、例えば、音声認識した単語（文字列）ごとにスタートタイム、エンドタイム、読み、および、認識結果（漢字やカタカナ等を含む。）が含まれる。音声認識部１３１は、生成した文字列データを生成部１３２に出力する。

生成部１３２は、音声認識部１３１から文字列データが入力されると、形態素辞書記憶部１２２を参照し、文字列データに対して形態素解析を行い、複数の単語ブロックに分割した文章データを生成する。なお、文章データには、単語ブロックごとに、文字列データに基づくスタートタイム、エンドタイム、読み、および、認識結果（漢字やカタカナ等を含む。）が含まれる。生成部１３２は、生成した文章データを文章データ記憶部１２３に記憶する。

受付部１３３は、ネットワークＮおよび通信部１１０を介して、端末装置１０から開始指示を受信する。受付部１３３は、開始指示を受信すると、文章データの編集画面を生成する生成指示を表示制御部１３６に出力する。

受付部１３３は、編集画面において、修正可能領域である第１領域に表示された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。受付部１３３は、入力されたキーの情報を特定部１３４に出力する。

受付部１３３は、編集画面において、第１単語ブロックまたは第２単語ブロックに対応する修正候補が表示されている場合、修正候補の選択を受け付ける。また、受付部１３３は、これらの修正候補が表示されている場合、ユーザから文字の修正を受け付けてもよい。受付部１３３は、受け付けた修正候補または修正の内容に基づいて、文章データ記憶部１２３の文章データを更新する。

受付部１３３は、文章データを更新すると、修正確認対象の第１単語ブロックまたは第２単語ブロックが文章データの最後の単語ブロックであるか否かを判定する。受付部１３３は、最後の単語ブロックでないと判定した場合には、引き続きキーの入力を受け付ける。受付部１３３は、最後の単語ブロックであると判定した場合には、編集中の文章データの編集が終了した旨を編集画面に表示して処理を終了する。

言い換えると、受付部１３３は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。

特定部１３４は、受付部１３３からキーの情報が入力されると、キーの情報に基づいて、キーに対応する第１単語ブロックを特定する。すなわち、特定部１３４は、修正確認対象の単語ブロックを特定する。特定部１３４は、特定した第１単語ブロックを提示部１３５および表示制御部１３６に出力する。

提示部１３５は、特定部１３４から第１単語ブロックが入力されると、第１単語ブロックおよび第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補をソースから生成する。このとき、提示部１３５は、ソースとして、文章データ記憶部１２３、資料情報記憶部１２４、修正履歴ＤＢ１２５および同音異義語リスト記憶部１２６を参照する。また、第２単語ブロックは、第１単語ブロックと第１単語ブロックに連続する単語ブロックとを含む。つまり、第２単語ブロックは、第１単語ブロックの前後の単語ブロックと一連となる単語ブロックである。

提示部１３５は、修正候補の生成では、例えば、資料情報記憶部１２４に記憶された会議の資料および単語リストに基づいて、音素（読み）が近い単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、修正履歴ＤＢ１２５に記憶された過去の文章データの修正内容に基づいて、文字が一致している単語、および、音素が一致している単語のうち、少なくとも一方の単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、文章データ記憶部１２３に記憶された２番手、３番手の音声認識エンジンで認識された文章データに基づいて、第１単語ブロックまたは第２単語ブロックに対応する単語を修正候補とする。また、提示部１３５は、修正候補の生成では、例えば、同音異義語リスト記憶部１２６に記憶された同音異義語のリストに基づいて、同音異義語の単語を修正候補とする。

提示部１３５は、生成した複数の修正候補について、例えば、読み（音素）に対応する文字列が近似する修正候補から順に提示するように表示順を決定する。また、提示部１３５は、生成した複数の修正候補について、例えば、統計的に上位に来る、つまり正解可能性が高い修正候補から順に提示するように表示順を決定するようにしてもよい。さらに、提示部１３５は、生成した複数の修正候補について、例えば、複数のソースから生成された修正候補が重複する場合には、当該修正候補の正解可能性が高いとして上位に表示したり、重要度に応じた色分けを行うようにしてもよい。提示部１３５は、生成した複数の修正候補、および、決定した表示順を表示制御部１３６に出力する。

表示制御部１３６は、受付部１３３から生成指示が入力されると、文章データの編集画面を生成する。表示制御部１３６は、通信部１１０およびネットワークＮを介して、生成した編集画面を編集画面データとして端末装置１０に送信する。表示制御部１３６は、編集画面において、音声再生および単語ブロックの表示を開始する。このとき、表示制御部１３６は、第１領域内に含まれる単語ブロックの先頭から末尾に対応する音声再生区間を設定し、設定した音声再生区間を再生制御部１３７に出力する。

また、表示制御部１３６は、編集画面において、第１領域に表示される各単語ブロックよりも広い範囲、つまり時間的に前後の範囲に含まれる文字列を、第１領域と異なる第２領域に表示するようにしてもよい。つまり、第２領域に表示される文字列は、第１領域に表示される各単語ブロックと、第１領域の前後の単語ブロックとを含む。なお、第１領域に表示されない単語ブロックは、途中で切れた状態、つまり文字列として表示される場合を含む。

表示制御部１３６は、特定部１３４から第１単語ブロックが入力されると、第１単語ブロックが編集画面の第１領域の中央部に位置するように、第１領域内の各単語ブロックを移動する。ここで、中央部とは、第一領域の中央を含む部分を示すものである。第１単語ブロックを編集画面の第１領域の中央部に位置させることで、編集画面が修正確認対象である第１単語ブロックの前後の単語ブロックを含めた表示が可能となる。表示制御部１３６は、移動後の第１領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部１３７に出力する。すなわち、表示制御部１３６は、修正確認対象である第１単語ブロックを中心とした区間の音声を再生するように、再生制御部１３７に指示する。

表示制御部１３６は、提示部１３５から複数の修正候補および表示順が入力されると、編集画面において、例えば、第１単語ブロックまたは第２単語ブロックの下部に、表示順に応じて複数の修正候補を表示する。このとき、表示制御部１３６は、修正候補の正解可能性およびソースに応じて、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、表示制御部１３６は、同じソースから生成された修正候補について、共通の表示態様、例えば同じ表示色とする。

表示制御部１３６は、修正候補を提示する場合に、修正候補がどの単語ブロックに対応するのかが判別可能なように、例えば、第１単語ブロックの前後、第２単語ブロックの前後および単語ブロック間といった単語ブロックの境界に線を表示する。このとき、表示制御部１３６は、例えば、修正候補を囲む枠を、対応する第１単語ブロックまたは第２単語ブロックの境界線まで描画する。

表示制御部１３６は、受付部１３３において、最後の単語ブロックでないと判定し、次のキーの入力を受け付けた場合、対応する第１単語ブロックが特定されると、第１領域の中央部に配置される第１単語ブロックを次の第１単語ブロックに遷移する。

言い換えると、提示部１３５および表示制御部１３６は、特定した第１単語ブロック、および、第１単語ブロックと該第１単語ブロックに連続する単語ブロックを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。また、提示部１３５および表示制御部１３６は、第１単語ブロックまたは第２単語ブロックの読みに基づいて修正候補を提示する。また、提示部１３５および表示制御部１３６は、修正候補の提案元である複数のソースから、複数の修正候補を生成する。また、提示部１３５および表示制御部１３６は、修正候補の正解可能性に応じて、修正候補の表示態様を変化させる。

また、提示部１３５および表示制御部１３６は、読みに対応する文字列が近似する修正候補から順に提示する。また、提示部１３５および表示制御部１３６は、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。また、提示部１３５および表示制御部１３６は、同じ種類のソースから生成された修正候補について、共通の表示態様とする。また、提示部１３５および表示制御部１３６は、第１単語ブロックおよび第２単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する。また、提示部１３５および表示制御部１３６は、第１単語ブロックまたは第２単語ブロックの境界に線を表示する。また、第２単語ブロックは、第１単語ブロックの前または後ろに連続する単語ブロックを含む。

また、表示制御部１３６は、キーが割り当てられた複数の単語ブロックを表示する第１領域において、修正確認対象の第１単語ブロックを第１領域の中央部に表示するように、複数の単語ブロックを移動して表示する。また、表示制御部１３６は、第１単語ブロックの特定に応じて、第１領域に表示する単語ブロックを更新する。また、表示制御部１３６は、第１領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第１領域と異なる第２領域に表示する。

また、表示制御部１３６は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックを表示する第１領域の中央部に、修正確認対象の単語ブロックを配置して表示する。また、表示制御部１３６は、修正確認対象の単語ブロックに対する確認作業に応じて、第１領域の中央部に配置される単語ブロックを次の単語ブロックに遷移する。また、表示制御部１３６は、第１領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第１領域と異なる第２領域に表示する。

再生制御部１３７は、表示制御部１３６から音声再生区間が入力されると、音声データ記憶部１２１を参照し、音声再生区間、つまり編集箇所を含む区間の音声データを、通信部１１０およびネットワークＮを介して、端末装置１０に送信する。このとき、再生制御部１３７は、第１単語ブロックを中心とした音声再生区間（編集箇所を含む区間）の音声データを繰り返し再生するように制御する。なお、再生制御部１３７は、編集画面の第２領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声データを通信部１１０およびネットワークＮを介して、端末装置１０に送信するようにしてもよい。また、再生制御部１３７は、ある音声再生区間の再生中に、新たな音声再生区間が入力されると、再生中の音声再生区間の最後まで再生してから、新たな音声再生区間の最初から音声を再生するように制御する。

言い換えると、再生制御部１３７は、第１領域に対応する区間の音声について再生制御を行う。また、再生制御部１３７は、遷移後の単語ブロックが中央部に位置する第１領域に対応する区間の音声について再生制御を行う。また、再生制御部１３７は、第２領域に対応する区間において指定区間を受け付け、受け付けた指定区間の音声について再生制御を行う。また、再生制御部１３７は、再生制御として、区間または指定区間の音声について、繰り返し再生を行う。

ここで、図３を用いて編集画面について説明する。図３は、編集画面の一例を示す図である。図３に示す編集画面２０は、文章データと音声等の区間とを対応付けて表示する領域２１と、編集中の区間に対応する資料および文章データを表示する領域２２と、各種設定項目を表示する領域２３とを有する。また、編集画面２０は、文章データの修正可能領域である第１領域２４と、第１領域に表示される各単語ブロックよりも広い範囲の文字列を表示する第２領域２５とを有する。第２領域２５には、第１領域２４に表示中の単語ブロックに対応する範囲３３が表示される。なお、範囲３３は、例えば、ドラッグ操作等で変更可能である。範囲３３の変更は、第１領域２４に表示される単語ブロックにも反映される。

第１領域２４には、各単語ブロックが表示され、各単語ブロックに対応するショートカットキー群２６が表示される。また、第１領域２４には、第１領域２４に表示される単語ブロックを前後に半分ずつ移動するためのショートカットキー２７，２８が表示される。第１領域２４の中央部には、修正確認対象の第１単語ブロック２９（図中の「深大寺」）が、他の単語ブロックと識別可能に表示される。図３の例では、第１単語ブロック２９の後ろに連続する単語ブロック３０（図中の「プランニングは」）を含む一連の単語ブロックを第２単語ブロック３１（図中の「深大寺プランニングは」）としている。また、第１単語ブロック２９の前後の境界には、線２９ａ，２９ｂが描画され、第２単語ブロック３１の後ろの境界、つまり単語ブロック３０の後ろの境界には、線３０ａが描画される。さらに、編集画面２０では、第１領域２４に対応する区間の音声が繰り返し再生される。

第１領域２４の下部には、第１単語ブロック２９に対応するキー入力に応じて、第１単語ブロック２９または第２単語ブロック３１に対応する修正候補が、例えば読みが近似する順に第１領域２４の第１単語ブロック２９に近くなるように表示される。各修正候補は、例えば、修正候補を囲む枠が対応する境界線まで描画され、生成されたソースに基づいて、表示色や色の濃度、網掛け等が異なるように表示される。また、各修正候補は、対応するショートカットキー群３２によってそれぞれ選択可能である。図３の例では、ユーザがキー「ｒ」を入力すると、第１単語ブロック２９として「深大寺」が第１領域２４の中央部に配置される。また、図３の例では、第１単語ブロック２９または第２単語ブロック３１に対応する修正候補が、第１単語ブロック２９または第２単語ブロック３１の下部に表示される。例えば、１つ目の修正候補「Ｚｉｎｒａｉ」は、第１単語ブロック２９に対応する修正候補であり、２つ目の修正候補「Ｚｉｎｒａｉディープラーニング」は、第２単語ブロック３１に対応する修正候補である。

ユーザは、キー「ｕ」を入力することで、修正確認対象の第１単語ブロック２９と、後ろに続く単語ブロックを含む第２単語ブロック３１とに対応する修正候補の中から、正解である２つ目の修正候補「Ｚｉｎｒａｉディープラーニング」を選択する。文章データは、選択された修正候補「Ｚｉｎｒａｉディープラーニング」によって対応する単語ブロックである「深大寺」および「プランニングは」が更新される。このように、情報処理装置１００では、文字列修正時の確認項目数および打鍵数を抑制することができる。また、情報処理装置１００では、修正確認対象の単語ブロックを中心とした区間の音声を繰り返し再生するので、ユーザはメディアプレーヤの操作を行わなくてもよく、キーボード操作に集中できる。また、情報処理装置１００では、修正確認対象の単語ブロックの前後の音声再生区間を過不足なく再生できる。また、情報処理装置１００では、連続する単語ブロックも組み合わせた修正候補を提示できるので、音声認識誤りの多様性に対応できる。また、情報処理装置１００では、修正範囲の誤認識で発生する意図しない修正を抑制できる。

続いて、図４を用いて提示する修正候補について説明する。図４は、文字列の近似を用いた修正候補の一例を示す図である。図４に示すように、音声認識された文字列の読みが「しんだいじぷらんにんぐ」であったとする。一方、提示部１３５は、資料から取得した文字列の読みが「じんらいでぃーぷらーにんぐ」である場合、音声認識された文字列と比較して、文字３５ａ〜３５ｄに示すように、修正文字が４つであると判定する。提示部１３５は、判定の結果、例えば、修正文字の数が少ない文字列、つまり文字の近似性が高いものから順に優先度が高くなるように修正候補を生成する。つまり、提示部１３５は、正解可能性が高い修正候補を優先して提示する。

次に、実施例の情報処理装置１００の動作について説明する。図５は、実施例の修正候補提示処理の一例を示すフローチャートである。

音声認識部１３１は、音声データ記憶部１２１に記憶された音声データに対して音声認識を行って、文字列データを生成する。音声認識部１３１は、生成した文字列データを生成部１３２に出力する。生成部１３２は、形態素辞書記憶部１２２を参照して、音声認識部１３１から入力された文字列データを形態素解析し、文字列データを単語ブロックに分割した文章データを生成する（ステップＳ１）。生成部１３２は、生成した文章データを文章データ記憶部１２３に記憶する。

受付部１３３は、端末装置１０から開始指示を受信すると、文章データの編集画面を生成する生成指示を表示制御部１３６に出力する。表示制御部１３６は、受付部１３３から生成指示が入力されると、文章データの編集画面を生成する。表示制御部１３６は、生成した編集画面を編集画面データとして端末装置１０に送信し、端末装置１０に編集画面を表示させる。表示制御部１３６は、編集画面において、音声再生および単語ブロックの表示を開始する（ステップＳ２）。

受付部１３３は、編集画面において、第１領域に表示された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける（ステップＳ３）。受付部１３３は、入力されたキーの情報を特定部１３４に出力する。特定部１３４は、受付部１３３からキーの情報が入力されると、キーに対応する第１単語ブロックを特定する（ステップＳ４）。特定部１３４は、特定した第１単語ブロックを提示部１３５および表示制御部１３６に出力する。

表示制御部１３６は、特定部１３４から第１単語ブロックが入力されると、第１単語ブロックが編集画面の第１領域の中央部に位置するように、第１領域内の各単語ブロックを移動する（ステップＳ５）。表示制御部１３６は、移動後の第１領域内に含まれる各単語ブロックに基づいて、音声再生区間を更新し、更新した音声再生区間を再生制御部１３７に出力する（ステップＳ６）。再生制御部１３７は、表示制御部１３６から音声再生区間が入力されると、音声データ記憶部１２１を参照し、再生制御を行った音声再生区間の音声データを端末装置１０に送信する。

提示部１３５は、特定部１３４から第１単語ブロックが入力されると、第１単語ブロックおよび第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補をソースから生成する（ステップＳ７）。提示部１３５は、生成した複数の修正候補について、例えば、読みが近似する修正候補から順に提示するように表示順を決定する。提示部１３５は、生成した複数の修正候補、および、決定した表示順を表示制御部１３６に出力する。

表示制御部１３６は、提示部１３５から複数の修正候補および表示順が入力されると、編集画面において、例えば、第１単語ブロックまたは第２単語ブロックの下部に、表示順に応じて複数の修正候補を表示する。すなわち、表示制御部１３６は、読みが近似する修正候補から順に提示する（ステップＳ８）。

受付部１３３は、編集画面において、修正候補の選択を受け付ける。受付部１３３は、受け付けた修正候補に基づいて、文章データ記憶部１２３の文章データを更新する（ステップＳ９）。受付部１３３は、文章データを更新すると、修正確認対象の第１単語ブロックまたは第２単語ブロックが文章データの最後の単語ブロックであるか否かを判定する（ステップＳ１０）。受付部１３３は、最後の単語ブロックでないと判定した場合には（ステップＳ１０：否定）、ステップＳ３に戻り、引き続きキーの入力を受け付ける。

受付部１３３は、最後の単語ブロックであると判定した場合には（ステップＳ１０：肯定）、編集中の文章データの編集が終了した旨を編集画面に表示して、修正候補提示処理を終了する。これにより、情報処理装置１００は、文字列修正時の確認項目数および打鍵数を抑制できる。また、情報処理装置１００は、動画像や音声の書き起こしに要する作業時間を短縮することができる。また、情報処理装置１００は、修正確認対象の単語ブロックの前後の音声を過不足なく再生できる。

このように、情報処理装置１００は、音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける。また、情報処理装置１００は、受け付けたキーに対応する第１単語ブロックを特定する。また、情報処理装置１００は、特定した第１単語ブロック、および、第１単語ブロックと該第１単語ブロックに連続する単語ブロックとを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する。その結果、情報処理装置１００は、文字列修正時の確認項目数および打鍵数を抑制できる。

また、情報処理装置１００は、第１単語ブロックまたは第２単語ブロックの読みに基づいて修正候補を提示する。その結果、情報処理装置１００は、複数の単語ブロックに連続する修正候補を提示できる。

また、情報処理装置１００は、修正候補の提案元である複数のソースから、複数の修正候補を生成する。その結果、情報処理装置１００は、多種類の修正候補を提示できる。

また、情報処理装置１００は、修正候補の正解可能性に応じて、修正候補の表示態様を変化させる。その結果、情報処理装置１００は、正解可能性が高い修正候補を優先して提示できる。

また、情報処理装置１００は、読みに対応する文字列が近似する修正候補から順に提示する。その結果、情報処理装置１００は、正解可能性が高い修正候補を優先して提示できる。

また、情報処理装置１００は、修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる。その結果、情報処理装置１００は、正解可能性または提案元に応じた修正候補の提示ができる。

また、情報処理装置１００は、同じ種類のソースから生成された修正候補について、共通の表示態様とする。その結果、情報処理装置１００は、提案元に応じた修正候補の提示ができる。

また、情報処理装置１００は、第１単語ブロックおよび第２単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する。その結果、情報処理装置１００は、修正候補に応じて修正される単語ブロックを明示できる。

また、情報処理装置１００は、第１単語ブロックまたは第２単語ブロックの境界に線を表示する。その結果、情報処理装置１００は、修正候補に応じて修正される単語ブロックを明示できる。

また、情報処理装置１００では、第２単語ブロックは、第１単語ブロックの前または後ろに連続する単語ブロックを含む。その結果、情報処理装置１００は、連続する単語ブロックに跨る修正候補を提示できる。

また、情報処理装置１００は、キーが割り当てられた複数の単語ブロックを表示する第１領域において、修正確認対象の第１単語ブロックを第１領域の中央部に表示するように、複数の単語ブロックを移動して表示する。その結果、情報処理装置１００は、修正確認対象の単語ブロックを第１領域の中央部に表示できる。

また、情報処理装置１００は、第１単語ブロックの特定に応じて、第１領域に表示する単語ブロックを更新する。その結果、情報処理装置１００は、修正確認対象の単語ブロックの文脈を掴みやすいように、修正確認対象近傍の単語ブロックを表示できる。

また、情報処理装置１００は、第１領域に表示される複数の単語ブロックよりも広い範囲の音声認識された文字列を、第１領域と異なる第２領域に表示する。その結果、情報処理装置１００は、より修正確認対象の単語ブロックの文脈を掴みやすいように、修正確認対象近傍の単語ブロックを表示できる。

なお、上記実施例では、編集画面をネットワークＮを介して接続された端末装置１０に表示したが、これに限定されない。例えば、情報処理装置１００に表示部および操作部を設けて、情報処理装置１００で編集画面の表示およびユーザからの入力を受け付けるようにしてもよい。

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置１００の提示部１３５と表示制御部１３６とを統合してもよい。また、図示した各処理は、上記の順番に限定されるものでなく、処理内容を矛盾させない範囲において、同時に実施してもよく、順序を入れ替えて実施してもよい。

さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

ところで、上記の各実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の各実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図６は、修正候補提示プログラムを実行するコンピュータの一例を示す図である。

図６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０４と、各種装置と接続するためのインタフェース装置２０５と、端末装置１０や他の情報処理装置等と有線または無線により接続するための通信装置２０６とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０７と、ハードディスク装置２０８とを有する。また、各装置２０１〜２０８は、バス２０９に接続される。

ハードディスク装置２０８には、図２に示した音声認識部１３１、生成部１３２、受付部１３３、特定部１３４、提示部１３５、表示制御部１３６および再生制御部１３７の各処理部と同様の機能を有する修正候補提示プログラムが記憶される。また、ハードディスク装置２０８には、音声データ記憶部１２１、形態素辞書記憶部１２２、文章データ記憶部１２３、および、資料情報記憶部１２４が記憶される。また、ハードディスク装置２０８には、修正履歴ＤＢ１２５、同音異義語リスト記憶部１２６、および、修正候補提示プログラムを実現するための各種データが記憶される。入力装置２０２は、例えば、コンピュータ２００の管理者から操作情報等の各種情報の入力を受け付ける。モニタ２０３は、例えば、コンピュータ２００の管理者に対して表示画面等の各種画面を表示する。インタフェース装置２０５は、例えば印刷装置等が接続される。通信装置２０６は、例えば、図２に示した通信部１１０と同様の機能を有しネットワークＮと接続され、端末装置１０および他の情報処理装置と各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０８に記憶された各プログラムを読み出して、ＲＡＭ２０７に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ２００を図２に示した音声認識部１３１、生成部１３２、受付部１３３、特定部１３４、提示部１３５、表示制御部１３６および再生制御部１３７として機能させることができる。

なお、上記の修正候補提示プログラムは、必ずしもハードディスク装置２０８に記憶されている必要はない。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ２００が読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ−ＲＯＭやＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこの修正候補提示プログラムを記憶させておき、コンピュータ２００がこれらから修正候補提示プログラムを読み出して実行するようにしてもよい。

１情報処理システム
１０端末装置
１００情報処理装置
１１０通信部
１２０記憶部
１２１音声データ記憶部
１２２形態素辞書記憶部
１２３文章データ記憶部
１２４資料情報記憶部
１２５修正履歴ＤＢ
１２６同音異義語リスト記憶部
１３０制御部
１３１音声認識部
１３２生成部
１３３受付部
１３４特定部
１３５提示部
１３６表示制御部
１３７再生制御部
Ｎネットワーク

Claims

音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付け、
受け付けた前記キーに対応する第１単語ブロックを特定し、
特定した前記第１単語ブロック、および、前記第１単語ブロックと該第１単語ブロックに連続する単語ブロックとを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する、
処理をコンピュータが実行する修正候補提示方法。
前記提示する処理は、前記第１単語ブロックまたは前記第２単語ブロックの読みに基づいて前記修正候補を提示する、
請求項１に記載の修正候補提示方法。
前記提示する処理は、前記修正候補の提案元である複数のソースから、複数の前記修正候補を生成する、
請求項１または２に記載の修正候補提示方法。
前記提示する処理は、前記修正候補の正解可能性に応じて、前記修正候補の表示態様を変化させる、
請求項１〜３のいずれか１つに記載の修正候補提示方法。
前記提示する処理は、読みに対応する文字列が近似する修正候補から順に提示する、
請求項４に記載の修正候補提示方法。
前記提示する処理は、前記修正候補の表示色および色の濃度のうち、少なくとも一方を変化させる、
請求項４または５に記載の修正候補提示方法。
前記提示する処理は、同じ種類のソースから生成された前記修正候補について、共通の表示態様とする、
請求項４〜６のいずれか１つに記載の修正候補提示方法。
前記提示する処理は、前記第１単語ブロックおよび前記第２単語ブロックのうち、いずれに対応する修正候補であるかを判別可能に提示する、
請求項１〜７のいずれか１つに記載の修正候補提示方法。
前記提示する処理は、前記第１単語ブロックまたは前記第２単語ブロックの境界に線を表示する、
請求項１〜８のいずれか１つに記載の修正候補提示方法。
前記第２単語ブロックは、前記第１単語ブロックの前または後ろに連続する単語ブロックを含む、
請求項１〜９のいずれか１つに記載の修正候補提示方法。
前記キーが割り当てられた複数の前記単語ブロックを表示する第１領域において、修正確認対象の前記第１単語ブロックを前記第１領域の中央部に表示するように、複数の前記単語ブロックを移動して表示する、
処理をコンピュータが実行する請求項１〜１０のいずれか１つに記載の修正候補提示方法。
前記表示する処理は、前記第１単語ブロックの特定に応じて、前記第１領域に表示する前記単語ブロックを更新する、
請求項１１に記載の修正候補提示方法。
前記表示する処理は、前記第１領域に表示される複数の前記単語ブロックよりも広い範囲の音声認識された文字列を、前記第１領域と異なる第２領域に表示する、
請求項１１または１２に記載の修正候補提示方法。
音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付け、
受け付けた前記キーに対応する第１単語ブロックを特定し、
特定した前記第１単語ブロック、および、前記第１単語ブロックと該第１単語ブロックに連続する単語ブロックとを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する、
処理をコンピュータに実行させる修正候補提示プログラム。
音声認識された文字列から形態素解析を用いて生成された複数の単語ブロックそれぞれに割り当てられたキーの入力を受け付ける受付部と、
受け付けた前記キーに対応する第１単語ブロックを特定する特定部と、
特定した前記第１単語ブロック、および、前記第１単語ブロックと該第１単語ブロックに連続する単語ブロックとを含む第２単語ブロックのうち、少なくとも一方の単語ブロックの修正候補を提示する提示部と、
を有する情報処理装置。