JP2013041421A

JP2013041421A - 入力文字列誤り検出装置

Info

Publication number: JP2013041421A
Application number: JP2011177900A
Authority: JP
Inventors: Reishi Kondou; 玲史近藤; Shinichi Ando; 真一安藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-08-16
Filing date: 2011-08-16
Publication date: 2013-02-28

Abstract

【課題】入力文字列の誤りを検出する入力文字列誤り検出装置において、誤りの無い或いは少ない入力文字列に対して無駄に誤り検出が行われないようにする。
【解決手段】正解表記判定部２は、入力カナ文字列に、特定の文字が含まれているか否かを判定する。確認候補抽出部３は、正解表記判定部２によって特定の文字が含まれていないと判定された場合に限って、上記特定の文字を、上記カナ文字列中から抽出する。確認候補提示部４は、上記入力カナ文字列と、確認候補抽出部３によって抽出された箇所とを関連付けてユーザに提示する。
【選択図】図１

Description

本発明は、入力文字列の誤りを検出する入力文字列誤り検出装置に関する。

入力文字列の誤りを検出するということは、様々な場合に行われる。例えば、カナ文字から構成される日本語テキストを入力して読み上げる音声合成装置用の辞書を作成する場合に必要になる。音声合成装置用の辞書としては、入力カナ文字列を読み上げたときに正しく聞こえるように誤った文字列を正解文字列に修正した読み上げ文字辞書や、誤ったカナ文字列と正解文字列との対応を取る対応関係辞書などがある。これらの辞書を作成する場合には、入力カナ文字列中に存在する誤りを検出することが必要になる。なお、カナ文字から構成される日本語テキストは、例えば、コンピュータで漢字を扱えなかった時代に作成された台帳の正本であり、この正本を基に作成された台帳の写しと照合する場合に、音声合成装置に入力され、読み上げられる。

入力文字列の誤りを検出する技術としては、次のような技術が知られている（例えば、特許文献１参照）。この特許文献１に記載されている技術では、入力された日本語文字列からカタカナ文字列を抽出し、抽出したカタカナ文字列が日本語辞書に載っているか否かを調べる。そして、日本語辞書に載っていない未知語である場合は、そのカタカナ文字列に誤りがあると判断し、ユーザに提示する。

特開平３−２４２７５５号公報

特許文献１に記載されている技術は、日本語文字列から抽出したカタカナ文字列を対象にして常に誤り検出を行っているため、誤りの無い或いは誤りの少ないカタカナ文字列に対して、無駄に誤り検出が行われてしまうという問題がある。

なお、入力カナ文字列に存在する誤りとしては、次のような誤りがある。

(a)長音が考慮されていない (「トーキョー」と発声したいものを「トウキョウ」と記述するなど)
(b)拗音の書き方の不正 (「キョ」と発声したいものを「キヨ」と記述するなど)
(c)促音の書き方の不正 (「ハットリ」と発声したいものを「ハツトリ」と記述するなど)
(d)濁音・半濁音の書き方の不正 (濁点、半濁点が記述されていないなど)
(e)単かな文字の読みの曖昧性 (「エ」と発声したいものを平仮名「へ」で記述するなど)

[発明の目的]
そこで、本発明の目的は、誤りの無い或いは誤りの少ない入力文字列に対して、無駄に誤り検出が行われてしまうことがあるという問題を解決した入力文字列誤り検出装置を提供することにある。

本発明にかかる第１の入力文字列誤り検出装置は、
入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備える。

本発明にかかる入力文字列誤り検出方法は、
判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する。

本発明にかかるプログラムは、
コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
前記コンピュータを、
入力文字列に特定の文字が含まれているか否かを判定する判定手段、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させる。

本発明によれば、誤りの無い或いは少ない入力文字列に対して無駄に誤り検出が行われないようにすることができる。

本発明の第１の実施の形態の構成例を示すブロック図である。正解表記判定部２の処理例を示すフローチャートである。確認候補抽出部３の処理例を示すフローチャートである。確認候補提示部４の動作の一例を説明するための図である。確認候補提示部４の動作の他の例を説明するための図である。本発明の第２の実施の形態を説明するための図である。本発明の第３の実施の形態の構成例を示すブロック図である。

次に、図面を参照して本発明の実施の形態について詳細に説明する。

[本発明の第１の実施の形態]
図１を参照すると、本発明にかかる入力文字列誤り検出装置の第１の実施の形態は、カナ文字列入力部１と、正解表記判定部２と、確認候補抽出部３と、確認候補提示部４と、正解表記判定ルール記憶部５１および確認候補抽出ルール記憶部５２を含む記憶装置５とを備えている。

カナ文字列入力部１は、図示を省略した辞書やデータベースからカナ文字列を入力する機能を有する。ここで、カナ文字列は、平仮名または片仮名で構成された文字列であり、文字コードにより全角、半角のバリエーションも含む。なお、本実施の形態では、カナ文字列入力部１は、カナ文字列を予め定められた入力単位（例えば、用語や単語単位）で入力する。

正解表記判定ルール記憶部５１には、カナ文字列入力部１から入力されたカナ文字列に各表記種別についての正解表記が含まれているか否かを判定するための正解表記判定ルールが記録されている。より具体的には、表記種別毎に予め定められている特定の文字が入力カナ文字列に含まれていたら、その表記種別についての正解表記が上記カナ文字列に含まれていると判定し、そうでない場合は、その表記種別についての正解表記が上記カナ文字列に含まれていないと判定するという正解表記判定ルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての正解表記判定ルールが正解表記判定ルール記憶部５１に記録されている。

確認候補抽出ルール記憶部５２には、表記種別毎に、その表記種別で表記すべきか否かをユーザに確認させる文字の組み合わせまたは文字からなる確認候補を、入力されたカナ文字列から抽出するための確認候補抽出ルールが記録されている。別の言い方をすれば、確認候補抽出ルール記憶部５２には、表記種別毎に、その表記種別について定められている特定の文字が欠落している箇所を入力カナ文字列から検出するためのルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての確認候補抽出ルールが確認候補抽出ルール記憶部５２に記録されている。

正解表記判定部２は、正解表記判定ルールに従って、入力されたカナ文字列に正解表記が存在するか否かを、表記種別毎に判定する機能を有する。更に、正解表記判定部２は、カナ文字列に正解表記が含まれていない表記種別が存在する場合は、その表記種別についての誤表記が上記カナ文字列に含まれている可能性があると判断し、上記表記種別を示す情報と上記カナ文字列とを確認候補抽出部３に渡す機能を有する。なお、カナ文字列に正解表記が含まれている表記種別については、上記カナ文字列の作成時（辞書やデータベースへの記録時）に正しい表記が考慮されており、誤表記の可能性はないと判断し、確認候補抽出部３へ表記種別を通知する処理は行わない。また、上記カナ文字列に全ての表記種別についての正解表記が含まれている場合は、確認候補抽出部３にカナ文字列を渡すことなく、直ちにそのカナ文字についての処理を終了する。

確認候補抽出部３は、確認候補抽出ルールに従って、正解表記判定部２から渡されたカナ文字列より、正解表記判定部２から渡された表記種別についての確認候補を抽出し、抽出結果（例えば、抽出位置）と上記カナ文字列とを確認候補提示部４に渡す機能を有する。

確認候補提示部４は、確認候補抽出部３から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中に確認候補とをユーザに提示する機能を有する。

このような機能を有する入力文字列誤り検出装置は、コンピュータにより実現することができる。コンピュータによって実現する場合は、コンピュータを入力文字列誤り検出装置として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上にカナ文字列入力部１、正解表記判定部２、確認候補抽出部３および確認候補提示部４を実現する。

次に、本実施の形態の動作について詳細に説明する。なお、以下の説明では、各ルールを片仮名で統一して説明するが、平仮名でも同様であり、また、片仮名と平仮名は同一視しても良い。

カナ文字列入力部１は、図示を省略したデータベースや電子的な辞書からカナ文字列を入力する。本実施の形態では、カナ文字列入力部１は、用語単位でカナ文字列を入力する。

正解表記判定部２は、カナ文字列入力部１からカナ文字列が入力される毎に、図２のフローチャートに示す処理を実行する。先ず、正解表記判定部２は、正解表記判定ルール記憶部５１に記録されている正解表記判定ルールに従って、入力されたカナ文字列に長音表記が含まれているか否かを判定する（ステップＳ２０１）。

ここで、長音表記に関する正解表記判定ルール（正解表記判定ルール１と記す場合もある）は、カナ文字列中に長音文字「ー」が１個以上含まれている場合は、正解表記が含まれていると判断し、そうでない場合は、正解表記が含まれていないと判断するというものである。なお、長音文字を単独で判定する代わりに、「アー」「イー」など、あり得るカナ文字と長音文字との組を用意して、それらの何れかが含まれるか否かを判定するルールを採用することも可能である。また用途によっては、半角長音記号、チルダ記号「〜」、ハイフン文字「‐」等を長音文字と同一視して判定するルールを採用しても良い。

そして、長音表記が含まれていない場合（ステップＳ２０１がＮｏ）は、長音表記についての誤表記が含まれている可能性があると判断し、記憶装置５などに誤表記が含まれている可能性がある表記種別として「長音表記」を記録し（ステップＳ２０２）、その後、正解表記判定ルールに従って入力カナ文字列に拗音表記が含まれているか否かを判定する（ステップＳ２０３）。これに対して、長音表記が含まれている場合（ステップＳ２０１がＹｅｓ）は、長音表記については誤表記が含まれている可能性が低いと判断し、正解表記判定ルールに従って、次の判定項目である拗音表記が入力カナ文字列に含まれているか否かを判定する（ステップＳ２０３）。

ここで、拗音表記に関する正解表記判定ルール（正解表記判定ルール２と記す場合もある）は、カナ文字列中に、拗音文字「ャ」「ュ」「ョ」「ヮ」の何れかを含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、拗音文字を単独で判断する代わりに、あり得る拗音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用することもできる。この場合は例えば、「キャ」「ジュ」「クヮ」は拗音表記であると判定するが、「アョ」「キヮ」は拗音表記ではないと判定するルールを用いても良い。

そして、ステップＳ２０３で入力カナ文字列に拗音表記が含まれていないと判定した場合は、拗音表記についての誤表記が含まれている可能性があると判断し、記憶装置５などに誤表記が含まれている可能性がある表記種別として「拗音表記」を記録し（ステップＳ２０４）、その後、正解表記判定ルールに従って入力カナ文字列に促音表記が含まれているか否かを判定する（ステップＳ２０５）。これに対して、拗音表記を含む場合（ステップＳ２０３がＹｅｓ）は、拗音表記については誤表記が含まれている可能性が低いと判定し、促音表記を含むか否かを判定する（ステップＳ２０５）。

ここで、促音表記についての正解表記判定ルール（正解表記判定ルール３と記す場合もある）は、促音文字「ッ」を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、促音文字を単独で判定する代わりに、あり得る促音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用しても良い。この場合は例えば、「アッ」「ギャッ」は長音表記であると判定するが、「ッッ」は長音表記でないと判定する。

そして、入力カナ文字列に促音表記が含まれていない場合（ステップＳ２０５がＮｏ）は、促音表記についての誤表記が含まれている可能性があると判断し、記憶装置５などに誤表記が含まれている可能性がある表記種別として「促音表記」を記録し（ステップＳ２０６）、その後、正解表記判定ルールに従って入力カナ文字列に濁音・半濁音表記が含まれているか否かを判定する（ステップＳ２０７）。これに対して、促音表記が含まれている場合（ステップＳ２０５がＹｅｓ）は、促音表記については誤表記が含まれている可能性が低いと判断し、次の判定項目である濁音・半濁音が入力カナ文字列に含まれているか否かを判定する（ステップＳ２０７）。

ここで、濁音・半濁音についての正解表記判定ルール（正解表記判定ルール４と記す場合もある）は、カナ文字列中に、濁音または半濁音を構成する文字を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、濁音を構成する文字とは、「ガ」「ザ」「ダ」「バ」行のカナ文字である。半濁音を構成する文字とは、「パ」行のカナ文字である。ここに濁音文字「゛」および半濁音文字「゜」を含めても良い。この場合は、それらの文字に先行する文字との組み合わせた文字列が濁音または半濁音を構成する文字列であることを確認するルールを採用しても良い。この場合は例えば、「タ゛」は濁音表記文字列であると判定するが、「ア゛」は濁音表記文字列でないと判定する。

そして、入力カナ文字列に濁音・半濁音表記が含まれていない場合（ステップＳ２０７がＮｏ）は、濁音・半濁音表記についての誤表記が含まれている可能性があると判断し、記憶装置５などに誤表記が含まれている可能性がある表記種別として「濁音・半濁音」を記録し（ステップＳ２０８）、その後、ステップＳ２０９の処理を行う。これに対して入力カナ文字列に濁音・半濁音表記が含まれている場合（ステップＳ２０７がＹｅｓ）は、濁音・半濁音については誤表記が含まれている可能性が低いと判断し、ステップＳ２０９の処理を行う。

ステップＳ２０９において、正解表記判定部２は、記憶装置５を参照し、誤表記が含まれている可能性がある表記種別が記録されているか否かを調べる。そして、記録されていない場合（ステップＳ２０９がＮｏ）は、その処理を終了する。これに対して、記録されている場合（ステップＳ２０９がＹｅｓ）は、記録されている表記種別と、カナ文字列入力部１から入力されたカナ文字列とを確認候補抽出部３に渡し（ステップＳ２１０）、その後、記憶装置５に記録されている表記種別を消去し（ステップＳ２１１）、その処理を終了する。

確認候補抽出部３は、正解表記判定部２から誤表記が含まれている可能性のある表記種別およびカナ文字列を渡されると、図３のフローチャートに示すように、渡された表記種別の１つに注目し、その表記種別についての確認候補抽出ルールに従って、上記カナ文字列から確認候補を抽出する（ステップＳ３１，Ｓ３３）。そして、正解表記判定部２から渡された全ての表記種別について、上記した処理を行うと（ステップＳ３２がＹｅｓ）、カナ文字列と抽出結果（例えば、各表記種別毎の抽出位置）とを確認候補提示部４に渡し（ステップＳ３４）、その処理を終了する。確認候補提示部４は、確認候補抽出部３から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中の確認候補とをユーザに提示する。その際、確認候補がどの表記種別についての確認候補なのか分かる形で表示する。

ここで、表記種別「長音表記」「拗音表記」「促音表記」「濁音・半濁音表記」それぞれの確認候補抽出ルールについて詳しく説明する。

（１）「長音表記」についての確認候補抽出ルール
(1-1)「確認候補抽出ルール1-1」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音が同一の部分を確認候補として抽出。
(1-2)「確認候補抽出ルール1-2」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音の組が「エイ」または「オウ」を成す部分を確認候補として抽出。
(1-3)「確認候補抽出ルール1-3」…カナ文字の連鎖「ンン」を確認候補として抽出。

上記確認候補抽出ルール1-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。

・あ段に属するカナ文字と、文字「ア」の連鎖 (例: 部分列「カア」は長音「カー」の確認候補)。
・い段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「シイ」は長音「シー」の確認候補)。
・う段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ツウ」は長音「ツー」の確認候補)。
・え段に属するカナ文字と、文字「エ」の連鎖 (例: 部分列「ヘエ」は長音「ヘー」の確認候補)。
・お段に属するカナ文字と、文字「オ」の連鎖 (例: 部分列「ホオ」は長音「ホー」の確認候補)。

更に、上記確認候補抽出ルール1-2について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。

・え段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「ベイ」は長音「ベー」の確認候補)。
・お段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ポウ」は長音「ポー」の確認候補)。

上記確認候補抽出ルール1-3は一種類しか無い。該当する例を示す。

・文字「ンン」の連鎖 (例: 長音「ンー」の確認候補)。

これらの確認候補抽出ルール1-1〜1-3に加えて、先行する文字が小さいカナ文字の場合も、更に先行する文字と合わせて同様に扱うことも可能である。例えば、、任意の文字と、文字「ャ」と、文字「ア」の連鎖 (例: 部分列「キャア」は長音「キャー」の確認候補)となる。また、後続する文字として、小さいカナ文字を同一視して扱うこともできる。例えば、あ段に属する文字と、文字「ァ」の連鎖 (例: 部分列「カァ」は長音「カー」の確認候補)となる。

これにより、カナ文字列中から長音表記にすべきか否かを確認する確認候補が抽出される。

（２）「拗音表記」についての確認候補抽出ルール
(2-1)「確認候補抽出ルール2-1」…２つのカナ文字の連鎖であり、先行カナ文字の母音分が「イ」かつ後続カナ文字が「ヤ」または「ユ」または「ヨ」の部分を確認候補として抽出。
(2-2)「確認候補抽出ルール2-2」…２つのカナ文字の連鎖であり、先行カナ文字の母音分が「ウ」かつ後続カナ文字が「ワ」の部分を確認候補として抽出。

上記確認候補抽出ルール2-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。

・い段に属するカナ文字と、文字「ヤ」の連鎖 (例: 部分列「キヤ」は拗音「キャ」の確認候補)。
・い段に属するカナ文字と、文字「ユ」の連鎖 (例: 部分列「ジユ」は拗音「ジュ」の確認候補)。
・い段に属するカナ文字と、文字「ヨ」の連鎖 (例: 部分列「ピヨ」は拗音「ピョ」の確認候補)。

上記確認候補抽出ルール2-2は一種類しか無い。該当する例を示す。

・う段に属するカナ文字と、文字「ワ」の連鎖 (例: 部分列「クワ」は拗音「クヮ」の確認候補)。

これらのルールに加えて、先行カナ文字が母音の場合 (例: 「イヤ」)、先行カナ文字が小さなカナ文字の場合 (例: 「ィユ」) などは、拗音を構成しないとして、候補から除外しても良い。

これにより、カナ文字列中から拗音表記にすべきか否かを確認する確認候補が抽出される。

（３）「促音表記」についての確認候補抽出ルール
(3-1)「確認候補抽出ルール3-1」…３つのカナ文字の連鎖であり、中央のカナ文字が「ツ」の部分を確認候補とする。

上記確認候補抽出ルール3-1は一種類しか無い。該当する例を示す。

・任意のカナ文字と、文字「ツ」と、任意のカナ文字の連鎖 (例: 部分列「アツタ」は促音「アッタ」の確認候補)。

上記確認候補抽出ルールに加えて、先行カナ文字が小さなカナ文字の場合 (例: 「ィツタ」)、後続カナ文字が「ア」「イ」「ウ」「エ」「オ」「ワ」「ヲ」「ン」の何れかの場合 (例: 「アツア」) などは、促音を構成しないとして、候補から除外して判定するルールを採用しても良い。

これにより、カナ文字列中から促音表記にすべきか否かを確認する確認候補が抽出される。

（４）「濁音・半濁音表記」についての確認候補抽出ルール
(4-1)「確認候補抽出ルール4-1」…か行、さ行、た行、は行のカナ文字を確認候補として抽出する。

上記確認候補抽出ルール4-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。

・か行、さ行、た行のカナ文字は、濁音の可能性がある (例: 部分列「カ」は濁音「ガ」の確認候補)。
・は行のカナ文字は、濁音と同時に半濁音の可能性がある (例: 部分列「ヒ」は濁音「ビ」と半濁音「ピ」の確認候補)。

なお、上述した実施の形態では説明しなかったが、先行する表記種別についての確認候補抽出ルールによって既に確認候補を抽出している区間は、後続の種別表記についての確認候補抽出ルールでは確認候補を抽出しないとすることもできる。また、上述した実施の形態では、４種類の正解表記判定ルールおよび確認候補抽出ルールを逐次処理するようにしたが、並列処理するようにしても良い。また、上述した実施の形態では説明しなかったが、「へ」を「え」の確認候補として抽出するような確認候補抽出ルールを使用するようにしても良い。また、上述した実施の形態では、正解表記判定ルールおよび確認候補抽出ルールを記憶装置５に記録し、正解表記判定部２および確認候補抽出部３が記憶装置５に記録されている正解表記判定ルールおよび確認候補抽出ルールを使用して正規表記が含まれているか否かの判定処理および確認候補の抽出処理を行うようにしたが、正解表記判定部２および確認候補抽出部３に判定処理および抽出処理を行うロジックを組み込んでおくようにしても良い。

次に、カナ文字列入力部１からカナ文字列「ニユウエヌイイシイカツフ」が入力された場合を例に挙げて、本実施の形態の動作について説明する。

正解表記判定部２は、カナ文字列入力部１から上記カナ文字列が入力されると、図２のフローチャートに示す処理を実行する。この例の場合、前述した正解表記判定ルール１により長音表記が含まれていないと判定され（ステップＳ２０１）、正解表記判定ルール２により拗音表記が含まれていないと判定され（ステップＳ２０３）、正解表記判定ルール３により促音表記が含まれていないと判定され（ステップＳ２０５）、正解表記判定ルール４により濁音・半濁音表記が含まれていないと判定される（ステップＳ２０７）。従って、正解表記判定部２は、正解表記が含まれていない可能性がある表記種別として「長音表記」「拗音表記」「促音表記」「濁音・半濁音」を確認候補抽出部３に渡すと共に、上記カナ文字列を確認候補抽出部３に渡す。

これにより、確認候補抽出部３は、図３のフローチャートに示す処理を実行する。先ず、確認候補抽出部３は、正解表記判定部２から渡された４つの表記種別の内の１つに注目し、注目した表記種別についての確認候補抽出ルールに従って、カナ文字列から確認候補を抽出する（ステップＳ３１，Ｓ３３）。今、例えば、「長音表記」に注目したとすると、確認候補抽出部３は前述した確認候補抽出ルール1-1〜1-3に従って、長音表記についての確認候補として文字列「ユウ」「イイ」「シイ」を抽出し、下記のように、長音表記に関する情報として、確認候補と、抽出結果（抽出位置）と、確認候補に対する訂正候補とを関連付けて記憶装置５などに記録する。なお、抽出結果は、少なくとも確認候補の抽出位置を含む。また、訂正候補は、確認候補の第２番目の文字を長音文字に書き換えることにより作成することができる。

・「ユウ」(位置=2-3文字目、訂正候補=「ユー」)
・「イイ」(位置=6-7文字目、訂正候補=「イー」)
・「シイ」(位置=8-9文字目、長音候補=「シー」)

その後、確認候補抽出部３は、未注目の表記種別の内の１つ（例えば、「拗音表記」）に注目する（ステップＳ３１）。そして、拗音表記についての確認候補抽出ルール2-1,2-2に従って、拗音表記についての確認候補として文字列「ニユ」を抽出し、下記のように、拗音表記に関する情報として、確認候補と、抽出位置と、確認候補に対する訂正候補とを関連付けて記憶装置５などに記録する（ステップＳ３３）。なお、訂正候補は、確認候補の第２番目の文字を拗音表記に書き換えることにより作成できる。

・「ニユ」(位置=1-2文字目、訂正候補=「ニュ」)

次に、確認候補抽出部３は、未注目の表記種別の内の１つ（例えば、「促音表記」）に注目する（ステップＳ３１）。そして、促音表記についての確認候補抽出ルール3-1に従って、促音表記についての確認候補として文字列「カツフ」を抽出し、下記のように、促音表記に関する情報として、確認候補と、その抽出位置、と、確認候補に対する訂正候補とを記憶装置５に関連付けて記録する（ステップＳ３３）。なお、訂正候補は、確認候補の第２番目の文字を促音表記に書き換えることにより作成できる。

・「カツフ」(位置=10-12文字目、訂正候補=「カッフ」)

その後、確認候補抽出部３は、未注目の表記種別の内の１つ（例えば、「濁音・半濁音」）に注目する（ステップＳ３１）。そして、濁音・半濁音についての確認候補抽出ルール4-1に従って、濁音・半濁音表記についての確認候補として「シ」「カ」「ツ」「フ」を抽出し、下記のように、濁音・半濁音表記に関する情報として、確認候補と、その抽出位置と、確認候補に対する訂正候補とを記憶装置５に関連付けて記録する（ステップＳ３３）。なお、濁音、半濁音の訂正候補は、確認候補に濁点、半濁点を付けることにより作成することができる。但し、半濁音の訂正候補は、確認候補がは行のカナ文字の場合のみ作成する。

・「シ」(位置=8文字目、濁音の訂正候補=「ジ」、半濁音の訂正候補なし)
・「カ」(位置=10文字目、濁音の訂正候補=「ガ」、半濁音の訂正候補なし)
・「ツ」(位置=11文字目、濁音の訂正候補=「ヅ」、半濁音の訂正候補なし)
・「フ」(位置=12文字目、濁音の訂正候補=「ブ」、半濁音の訂正候補=「プ」)

確認候補抽出部３は、正解表記判定部２から渡された全ての表記種別に対して上述した処理を行うと（ステップＳ３２がＹｅｓ）、記憶装置５に記録されている各表記種別に関する情報（確認候補、抽出位置、訂正候補）と、カナ文字列「ニユウエヌイイシイカツフ」とを確認候補提示部４に渡す（ステップＳ３４）。

確認候補提示部４は、確認候補抽出部３から渡された情報に従って、図示を省略した表示部に図４に示す確認画面を表示する。

「カナ文字列」欄には、確認候補抽出部３から入力されたカナ文字列「ニユウエヌイイシイカツフ」を表示する。「長音候補」欄には、長音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。確認候補の位置を示す横線は、確認候補抽出部３から渡された上記確認候補の抽出位置に基づいて表示する。例えば、確認候補の抽出位置が「2-3文字目」の場合は、カナ文字列の第２番目、第３番目の文字「ユウ」と対応する位置に横線を表示する。また、その横線に関連付けて訂正候補を表示する。

「拗音候補」欄には、拗音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「促音候補」欄には、促音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「濁音候補」欄には、濁音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「半濁音候補」欄には、確認候補に対する訂正候補を表示する。

ユーザは、図４に示す確認画面に表示されている確認候補を示す横線や訂正候補などを見て、入力されたカナ文字列「ニユウエヌイイシイカツフ」に対する正解表記が「ニューエヌイーシーカップ」であると認識する。そして、音声合成装置用の辞書に入力カナ文字列「ニユウエヌイイシイカツフ」と正解表記「ニューエヌイーシーカップ」とを関連付けて記録する。或いは、カナ文字列を入力したデータベース或いは辞書の該当部分を直接正解表記で書き換えることにより、読み上げ文字列辞書を作成する。

確認候補提示部４が表示する確認画面の他の例を図５に示す。この場合、確認候補提示部４は、確認候補抽出部３から渡されたカナ文字列を表示部に表示すると共に、確認候補が存在する区間に下線を表示する。なお、他の表記種別の確認候補が存在する区間に、その表記種別の確認候補が存在する区間が全て含まれる場合には、上記他の表記種別の確認候補が存在する区間を示す下線だけを表示する。そして、マウスポインタが下線に当てられ、区間が選択されると、確認候補提示部４は、該当区間で取り得る訂正候補の組を求め、表示する。該当区間で取り得る訂正候補の組は、確認候補抽出部３から渡された訂正候補の内の、上記該当区間に関連する訂正候補に基づいて作成する。

なお、上述した実施の形態では、入力文字列をカナ文字列としたが、漢字混じり文字列であってもよい。例えば、特許の公開公報を入力文字列とし、正解表記判定ルールとして特定の文字「登録商標」が入力文字列に含まれているか否かを判定するルールを採用し、確認候補抽出ルールとして上記特定の文字「登録商標」が欠落している箇所を入力文字列から抽出するルールを採用することもできる。

[第１の実施の形態の効果]
本実施の形態によれば、誤りの無い或いは少ない入力カナ文字列に対して、無駄に誤り検出が行われないようにすることができる。その理由は、入力カナ文字列に特定の文字が含まれている場合、上記入力カナ文字列は上記特定の文字を考慮して作成されているため、上記特定の文字が欠落している箇所が存在する可能性は小さいと考えられる。そのため、正解表記判定部２（判定手段）で入力カナ文字列に特定の文字が含まれていないと判定した場合に限って、確認候補抽出部３（検出手段）で特定の文字が欠落している箇所を入力カナ文字列中から検出することにより、誤りの無い或いは少ない入力カナ文字列に対して無駄に誤り検出が行われてしまうことがなくなる。

[本発明の第２の実施の形態]
次に、本発明の第２の実施の形態について説明する。本実施の形態は、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることを特徴とする。音声合成装置用の辞書を作成する場合、例えば、違和感はあっても聴き間違えは生じないような辞書を作成する場合と、違和感も聴き間違えも生じないような辞書を作成する場合とでは、入力カナ文字列に対する修正箇所が異なるものとなる。本実施の形態では、作成する辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることにより、辞書を作成する際の作業量を、作成する辞書のレベルに応じたものにする。

本実施の形態の入力文字列誤り検出装置は、図１に示した第１の実施の形態における確認候補抽出部３および確認候補提示部４にそれぞれ次のような機能を付加することにより、実現される。確認候補抽出部３には、入力カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与する機能を付加する。確認候補提示部４には、入力カナ文字列と、確認候補抽出部３で抽出された確認候補の内の、ユーザによって指定された作業優先度以上の確認候補とを関連付けて表示する機能を付加する。なお、本実施の形態の入力文字列誤り検出装置も、第１の実施の形態の入力文字列誤り検出装置と同様にコンピュータによって実現可能である。

次に、本実施の形態の動作について説明する。ここでは、以下の３つのカナ文字列(a)〜(c)が入力された場合を例に挙げて動作を説明する。

(a) ニユウエヌイイシイカツフ
(b) スウパアコンピュウタ
(c) カツティングシート

正解表記判定部２は、各カナ文字列(a)〜(c)に対して正解表記判定ルールを用いて判定処理を行い、正解表記が存在しない表記種別を含んだカナ文字列と、正解表記が存在しない表記種別とを確認候補抽出部３に渡す（図２参照）。この例の場合、下記の情報が確認候補提示部４に渡される。

・カナ文字列(a)と、表記種別「長音表記、拗音表記、促音表記、濁音・半濁音表記」との組。
・カナ文字列(b)と、表記種別「長音表記、促音表記」との組。
・カナ文字列(c)と、表記種別「拗音表記、促音表記」との組。

確認候補抽出部３は、カナ文字列と表記種別との組が入力される毎に、確認候補抽出ルールを使用して確認候補を抽出する（図３のステップＳ３１，Ｓ３３）。なお、ステップＳ３３において、本実施の形態では、抽出した各確認候補の作業優先度を表記種別に応じて決定し、確認候補と関連付けて記憶装置５に記録する処理も行う。ここでは、作業優先度は、小さい数値ほど優先度が高いと定義し、音声として聴いた場合に内容を聴き間違える可能性の高い拗音表記または濁音・半濁音表記についての確認候補の作業優先度を「１」とし、違和感は大きいものの正解表記の想起が容易な促音表記についての確認候補の作業優先度を「２」し、違和感の小さい長音表記についての確認候補の作業優先度を「３」とする。更に、ステップＳ３３において、本実施の形態では、処理対象にしているカナ文字列の優先度を決定し、記憶装置５に記録処理も行う。カナ文字列の作業優先度は、そのカナ文字列から抽出した各確認候補の作業優先度の内の、最も高い作業優先度とする。

この例では、各カナ文字列(a)〜(c)の作業優先度は、次のようになる。

・カナ文字列(a)…カナ文字列(a)には、表記種別が「長音表記、拗音表記、促音表記、濁音・半濁音表記」の確認候補が存在するので、カナ文字列(a)の作業優先度は、それらの作業優先度の内の最も高い作業優先度「１」とする。
・カナ文字列(b)…カナ文字列(b)には、表記種別が「長音表記」の確認候補しか存在しなので、カナ文字列(b)の作業優先度は、長音表記の確認候補の作業優先度「３」とする。
・カナ文字列(c)…カナ文字列(c)には、表記種別が「促音表記」の確認候補しか存在しないので、カナ文字列(c)の作業優先度は、促音表記の確認候補の作業優先度「２」とする。

これらの作業優先度に関する情報は、ステップＳ３４において確認候補提示部４にカナ文字列などを渡す際に、それらと共に確認候補提示部４に渡される。

確認候補提示部４は、確認候補抽出部３から渡される情報に従って、図６に示すような確認画面を表示する。この確認画面には、作業優先度の入力欄が設けられており、ユーザは、図示を省略したキーボードなどを利用して作業優先度を入力することができるようになっている。確認候補提示部４は、表示部にカナ文字列や確認候補などを表示する際には、作業優先度の入力欄から入力されている作業優先度以上の優先度を有するカナ文字列および確認候補のみを表示する。例えば、入力欄から作業優先度「２」が入力されている場合は、確認候補提示部４は、作業優先度が「１」のカナ文字列(a)と、作業優先度が「２」のカナ文字列(c)は、表示するが、作業優先度が「３」のカナ文字列(b)は表示しない。言い換えれば、確認候補抽出部３で抽出された確認候補の中に、ユーザによって指定された作業優先度以上の確認候補が存在しない入力カナ文字列については、ユーザへの提示処理は行わない。また、カナ文字列(a)，(c)についても、作業優先度が「１」または「２」の確認候補は表示するが、作業優先度が「３」の長音表記についての確認候補は表示していない。図６では、作業優先度が「１」の確認候補を実線、作業優先度が「２」の確認候補を点線で示すようにしているので、ユーザは確認候補の作業優先度の違いを容易に認識することができる。

なお、図６では、各候補の種類ごとに「濁音?」「拗音?」「促音?」のように候補の種類を合わせて表示することで判りやすさを向上させているが、代わりに確認候補抽出部３が推測可能な正解表記生成して、表示することもできる。また、ここでは、作業優先度の付与を候補の種類ごとに行ったが、よりきめ細かく、例えば長音候補の各ルール間の聴き間違いのしやすさをコーパス中のバイグラム等の出現頻度によって数値化し、作業優先度に割り当てることもできる。また、ここでは、確認候補の作業優先度を、その表記種別に基づいて決定するようにしたが、その確認候補を抽出した確認候補抽出ルールに基づいて決定するようにしても良い。例えば、第１の実施の形態で説明した確認候補抽出ルール1-1によって抽出された確認候補には優先度「１」、確認候補抽出ルール1-2によって抽出された箇所には優先度「３」のように設定する。これにより、聴き誤りや違和感への対応をよりきめ細かく取ることが可能である。

[第２の実施の形態の効果]
本実施の形態によれば、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることが可能になる。その理由は、カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与し、ユーザに確認候補を提示する際には、ユーザによって指定された作業優先度以上の確認候補を提示するようにしているからである。

[本発明の第３の実施の形態]
次に、本発明の第３の実施の形態について説明する。本実施の形態は、ユーザが容易に訂正済みカナ文字列を音声合成装置用の辞書に登録できるようにしたことを特徴とする。

図７は、本実施の形態にかかる入力文字列誤り検出装置の構成例を示すブロック図であり、図１に示した第１の実施の形態における入力文字列誤り検出装置との相違点は、確認候補提示部４の代わりに確認候補提示部４ａを備えている点、辞書登録部６を備えている点、および、辞書７を備えている点である。

確認候補提示部４ａは、確認候補提示部４が備えている機能に加え、確認画面に表示しているカナ文字列を、ユーザが選択した訂正候補によって訂正したり、ユーザが行う編集作業に従って訂正したりし、訂正カナ文字列を作成する機能を有する。辞書登録部６は、確認候補提示部４ａで作成された訂正カナ文字列を辞書７に登録する機能を有する。

なお、本実施の形態の入力文字列誤り検出装置も、第1の実施の形態と同様に、コンピュータによって実現可能である。

次に、本実施の形態に動作について説明する。

今、確認候補提示部４ａが表示部に図４に示すような確認画面を表示しているとする。ユーザが、訂正候補を選択し、入力カナ文字列を直接編集すると、確認候補提示部４ａは、カナ文字列中に確認候補を選択された訂正候補で置き換えるなどして、訂正済み文字列「ニューエヌイーシーカップ」を作成し、辞書登録部６に渡す。辞書登録部６は、訂正済みカナ文字列「ニューエヌイーシーカップ」と入力カナ文字列「ニユウエヌイイシイカツフ」とを関連付けて辞書７に登録する。また、辞書７に代えて、入力カナ文字列が格納されていたデータベースや辞書の該当部分を訂正済みカナ文字列で書き換えるようにしてもよい。

[第３の実施の形態の効果]
本実施の形態によれば、音声合成装置用の辞書を容易に作成することができる。その理由は、訂正候補をユーザに提示すると共に、ユーザによって選択された提示候補を用いて入力カナ文字列を訂正した訂正カナ文字列を生成する確認候補提示部４ａを備えているからである。

本発明は、カナ文字列を入力とする音声合成装置用の辞書を作成する際などに利用すると好適である。

１・・・カナ文字列入力部
２・・・正解表記判定部
３・・・確認候補抽出部
４、４ａ・・・確認候補提示部
５・・・記憶装置
５１・・・正解表記判定ルール記憶部
５２・・・確認候補抽出ルール記憶部
６・・・辞書登録部
７・・・辞書

Claims

入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備えたことを特徴とする入力文字列誤り検出装置。
請求項１記載の入力文字列誤り検出装置において、
前記特定の文字は、長音を表す文字であることを特徴とする入力文字列誤り検出装置。
請求項１記載の入力文字列誤り検出装置において、
前記特定の文字は、拗音を表す文字であることを特徴とする入力文字列誤り検出装置。
請求項１記載の入力文字列誤り検出装置において、
前記特定の文字は、促音を表す文字であることを特徴とする入力文字列誤り検出装置。
請求項１記載の入力文字列誤り検出装置において、
前記特定の文字は、濁音および半濁音を表す文字であることを特徴とする入力文字列誤り検出装置。
請求項１乃至５の何れか１項に記載の入力文字列誤り検出装置において、
前記入力文字列と、前記検出手段で検出された箇所に対する訂正候補とをユーザに提示すると共に、ユーザによって選択された訂正候補によって前記入力文字列を訂正した訂正済み入力文字列を生成する提示手段と、
前記入力文字列と、前記訂正済み入力文字列とを関連付けて辞書に登録する登録手段とを備えたことを特徴とする入力文字列誤り検出装置。
予め定められている複数の特定文字毎に、その特定文字が入力文字列に含まれているか否かを判定する判定手段と、
該判定手段で前記入力文字列に含まれていないと判定された特定文字に限って、該特定文字が欠落している箇所を前記入力文字列中から検出し、該検出した箇所毎に、その箇所を音声として聴いたときに聴き間違える度合い、または、違和感に応じた作業優先度を決定する検出手段と、
前記入力文字列と、前記検出手段で検出された箇所の内の、ユーザによって指定された作業優先度以上の作業優先度を有する箇所とを関連付けてユーザに提示する提示手段とを備えたことを特徴とする入力文字列誤り検出装置。
判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出することを特徴とする入力文字列誤り検出方法。
コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
前記コンピュータを、
入力文字列に特定の文字が含まれているか否かを判定する判定手段、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させるためのプログラム。