JP2013041421A - 入力文字列誤り検出装置 - Google Patents

入力文字列誤り検出装置 Download PDF

Info

Publication number
JP2013041421A
JP2013041421A JP2011177900A JP2011177900A JP2013041421A JP 2013041421 A JP2013041421 A JP 2013041421A JP 2011177900 A JP2011177900 A JP 2011177900A JP 2011177900 A JP2011177900 A JP 2011177900A JP 2013041421 A JP2013041421 A JP 2013041421A
Authority
JP
Japan
Prior art keywords
character string
input character
notation
input
confirmation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011177900A
Other languages
English (en)
Inventor
Reishi Kondou
玲史 近藤
Shinichi Ando
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011177900A priority Critical patent/JP2013041421A/ja
Publication of JP2013041421A publication Critical patent/JP2013041421A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】入力文字列の誤りを検出する入力文字列誤り検出装置において、誤りの無い或いは少ない入力文字列に対して無駄に誤り検出が行われないようにする。
【解決手段】正解表記判定部2は、入力カナ文字列に、特定の文字が含まれているか否かを判定する。確認候補抽出部3は、正解表記判定部2によって特定の文字が含まれていないと判定された場合に限って、上記特定の文字を、上記カナ文字列中から抽出する。確認候補提示部4は、上記入力カナ文字列と、確認候補抽出部3によって抽出された箇所とを関連付けてユーザに提示する。
【選択図】図1

Description

本発明は、入力文字列の誤りを検出する入力文字列誤り検出装置に関する。
入力文字列の誤りを検出するということは、様々な場合に行われる。例えば、カナ文字から構成される日本語テキストを入力して読み上げる音声合成装置用の辞書を作成する場合に必要になる。音声合成装置用の辞書としては、入力カナ文字列を読み上げたときに正しく聞こえるように誤った文字列を正解文字列に修正した読み上げ文字辞書や、誤ったカナ文字列と正解文字列との対応を取る対応関係辞書などがある。これらの辞書を作成する場合には、入力カナ文字列中に存在する誤りを検出することが必要になる。なお、カナ文字から構成される日本語テキストは、例えば、コンピュータで漢字を扱えなかった時代に作成された台帳の正本であり、この正本を基に作成された台帳の写しと照合する場合に、音声合成装置に入力され、読み上げられる。
入力文字列の誤りを検出する技術としては、次のような技術が知られている(例えば、特許文献1参照)。この特許文献1に記載されている技術では、入力された日本語文字列からカタカナ文字列を抽出し、抽出したカタカナ文字列が日本語辞書に載っているか否かを調べる。そして、日本語辞書に載っていない未知語である場合は、そのカタカナ文字列に誤りがあると判断し、ユーザに提示する。
特開平3−242755号公報
特許文献1に記載されている技術は、日本語文字列から抽出したカタカナ文字列を対象にして常に誤り検出を行っているため、誤りの無い或いは誤りの少ないカタカナ文字列に対して、無駄に誤り検出が行われてしまうという問題がある。
なお、入力カナ文字列に存在する誤りとしては、次のような誤りがある。
(a)長音が考慮されていない (「トーキョー」と発声したいものを「トウキョウ」と記述するなど)
(b)拗音の書き方の不正 (「キョ」と発声したいものを「キヨ」と記述するなど)
(c)促音の書き方の不正 (「ハットリ」と発声したいものを「ハツトリ」と記述するなど)
(d)濁音・半濁音の書き方の不正 (濁点、半濁点が記述されていないなど)
(e)単かな文字の読みの曖昧性 (「エ」と発声したいものを平仮名「へ」で記述するなど)
[発明の目的]
そこで、本発明の目的は、誤りの無い或いは誤りの少ない入力文字列に対して、無駄に誤り検出が行われてしまうことがあるという問題を解決した入力文字列誤り検出装置を提供することにある。
本発明にかかる第1の入力文字列誤り検出装置は、
入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備える。
本発明にかかる入力文字列誤り検出方法は、
判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する。
本発明にかかるプログラムは、
コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
前記コンピュータを、
入力文字列に特定の文字が含まれているか否かを判定する判定手段、
前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させる。
本発明によれば、誤りの無い或いは少ない入力文字列に対して無駄に誤り検出が行われないようにすることができる。
本発明の第1の実施の形態の構成例を示すブロック図である。 正解表記判定部2の処理例を示すフローチャートである。 確認候補抽出部3の処理例を示すフローチャートである。 確認候補提示部4の動作の一例を説明するための図である。 確認候補提示部4の動作の他の例を説明するための図である。 本発明の第2の実施の形態を説明するための図である。 本発明の第3の実施の形態の構成例を示すブロック図である。
次に、図面を参照して本発明の実施の形態について詳細に説明する。
[本発明の第1の実施の形態]
図1を参照すると、本発明にかかる入力文字列誤り検出装置の第1の実施の形態は、カナ文字列入力部1と、正解表記判定部2と、確認候補抽出部3と、確認候補提示部4と、正解表記判定ルール記憶部51および確認候補抽出ルール記憶部52を含む記憶装置5とを備えている。
カナ文字列入力部1は、図示を省略した辞書やデータベースからカナ文字列を入力する機能を有する。ここで、カナ文字列は、平仮名または片仮名で構成された文字列であり、文字コードにより全角、半角のバリエーションも含む。なお、本実施の形態では、カナ文字列入力部1は、カナ文字列を予め定められた入力単位(例えば、用語や単語単位)で入力する。
正解表記判定ルール記憶部51には、カナ文字列入力部1から入力されたカナ文字列に各表記種別についての正解表記が含まれているか否かを判定するための正解表記判定ルールが記録されている。より具体的には、表記種別毎に予め定められている特定の文字が入力カナ文字列に含まれていたら、その表記種別についての正解表記が上記カナ文字列に含まれていると判定し、そうでない場合は、その表記種別についての正解表記が上記カナ文字列に含まれていないと判定するという正解表記判定ルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての正解表記判定ルールが正解表記判定ルール記憶部51に記録されている。
確認候補抽出ルール記憶部52には、表記種別毎に、その表記種別で表記すべきか否かをユーザに確認させる文字の組み合わせまたは文字からなる確認候補を、入力されたカナ文字列から抽出するための確認候補抽出ルールが記録されている。別の言い方をすれば、確認候補抽出ルール記憶部52には、表記種別毎に、その表記種別について定められている特定の文字が欠落している箇所を入力カナ文字列から検出するためのルールが記録されている。なお、本実施の形態では、表記種別「長音、拗音、促音、および、濁音・半濁音」についての確認候補抽出ルールが確認候補抽出ルール記憶部52に記録されている。
正解表記判定部2は、正解表記判定ルールに従って、入力されたカナ文字列に正解表記が存在するか否かを、表記種別毎に判定する機能を有する。更に、正解表記判定部2は、カナ文字列に正解表記が含まれていない表記種別が存在する場合は、その表記種別についての誤表記が上記カナ文字列に含まれている可能性があると判断し、上記表記種別を示す情報と上記カナ文字列とを確認候補抽出部3に渡す機能を有する。なお、カナ文字列に正解表記が含まれている表記種別については、上記カナ文字列の作成時(辞書やデータベースへの記録時)に正しい表記が考慮されており、誤表記の可能性はないと判断し、確認候補抽出部3へ表記種別を通知する処理は行わない。また、上記カナ文字列に全ての表記種別についての正解表記が含まれている場合は、確認候補抽出部3にカナ文字列を渡すことなく、直ちにそのカナ文字についての処理を終了する。
確認候補抽出部3は、確認候補抽出ルールに従って、正解表記判定部2から渡されたカナ文字列より、正解表記判定部2から渡された表記種別についての確認候補を抽出し、抽出結果(例えば、抽出位置)と上記カナ文字列とを確認候補提示部4に渡す機能を有する。
確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中に確認候補とをユーザに提示する機能を有する。
このような機能を有する入力文字列誤り検出装置は、コンピュータにより実現することができる。コンピュータによって実現する場合は、コンピュータを入力文字列誤り検出装置として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上にカナ文字列入力部1、正解表記判定部2、確認候補抽出部3および確認候補提示部4を実現する。
次に、本実施の形態の動作について詳細に説明する。なお、以下の説明では、各ルールを片仮名で統一して説明するが、平仮名でも同様であり、また、片仮名と平仮名は同一視しても良い。
カナ文字列入力部1は、図示を省略したデータベースや電子的な辞書からカナ文字列を入力する。本実施の形態では、カナ文字列入力部1は、用語単位でカナ文字列を入力する。
正解表記判定部2は、カナ文字列入力部1からカナ文字列が入力される毎に、図2のフローチャートに示す処理を実行する。先ず、正解表記判定部2は、正解表記判定ルール記憶部51に記録されている正解表記判定ルールに従って、入力されたカナ文字列に長音表記が含まれているか否かを判定する(ステップS201)。
ここで、長音表記に関する正解表記判定ルール(正解表記判定ルール1と記す場合もある)は、カナ文字列中に長音文字「ー」が1個以上含まれている場合は、正解表記が含まれていると判断し、そうでない場合は、正解表記が含まれていないと判断するというものである。なお、長音文字を単独で判定する代わりに、「アー」「イー」など、あり得るカナ文字と長音文字との組を用意して、それらの何れかが含まれるか否かを判定するルールを採用することも可能である。また用途によっては、半角長音記号、チルダ記号「〜」、ハイフン文字「‐」等を長音文字と同一視して判定するルールを採用しても良い。
そして、長音表記が含まれていない場合(ステップS201がNo)は、長音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「長音表記」を記録し(ステップS202)、その後、正解表記判定ルールに従って入力カナ文字列に拗音表記が含まれているか否かを判定する(ステップS203)。これに対して、長音表記が含まれている場合(ステップS201がYes)は、長音表記については誤表記が含まれている可能性が低いと判断し、正解表記判定ルールに従って、次の判定項目である拗音表記が入力カナ文字列に含まれているか否かを判定する(ステップS203)。
ここで、拗音表記に関する正解表記判定ルール(正解表記判定ルール2と記す場合もある)は、カナ文字列中に、拗音文字「ャ」「ュ」「ョ」「ヮ」の何れかを含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、拗音文字を単独で判断する代わりに、あり得る拗音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用することもできる。この場合は例えば、「キャ」「ジュ」「クヮ」は拗音表記であると判定するが、「アョ」「キヮ」は拗音表記ではないと判定するルールを用いても良い。
そして、ステップS203で入力カナ文字列に拗音表記が含まれていないと判定した場合は、拗音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「拗音表記」を記録し(ステップS204)、その後、正解表記判定ルールに従って入力カナ文字列に促音表記が含まれているか否かを判定する(ステップS205)。これに対して、拗音表記を含む場合(ステップS203がYes)は、拗音表記については誤表記が含まれている可能性が低いと判定し、促音表記を含むか否かを判定する(ステップS205)。
ここで、促音表記についての正解表記判定ルール(正解表記判定ルール3と記す場合もある)は、促音文字「ッ」を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、促音文字を単独で判定する代わりに、あり得る促音表記の組を用意して、それらの何れかが含まれるかを判定するルールを採用しても良い。この場合は例えば、「アッ」「ギャッ」は長音表記であると判定するが、「ッッ」は長音表記でないと判定する。
そして、入力カナ文字列に促音表記が含まれていない場合(ステップS205がNo)は、促音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「促音表記」を記録し(ステップS206)、その後、正解表記判定ルールに従って入力カナ文字列に濁音・半濁音表記が含まれているか否かを判定する(ステップS207)。これに対して、促音表記が含まれている場合(ステップS205がYes)は、促音表記については誤表記が含まれている可能性が低いと判断し、次の判定項目である濁音・半濁音が入力カナ文字列に含まれているか否かを判定する(ステップS207)。
ここで、濁音・半濁音についての正解表記判定ルール(正解表記判定ルール4と記す場合もある)は、カナ文字列中に、濁音または半濁音を構成する文字を1個以上含む場合は、正解表記が含まれ、そうでない場合は、正解表記が含まれていないと判定するものである。なお、濁音を構成する文字とは、「ガ」「ザ」「ダ」「バ」行のカナ文字である。半濁音を構成する文字とは、「パ」行のカナ文字である。ここに濁音文字「゛」および半濁音文字「゜」を含めても良い。この場合は、それらの文字に先行する文字との組み合わせた文字列が濁音または半濁音を構成する文字列であることを確認するルールを採用しても良い。この場合は例えば、「タ゛」は濁音表記文字列であると判定するが、「ア゛」は濁音表記文字列でないと判定する。
そして、入力カナ文字列に濁音・半濁音表記が含まれていない場合(ステップS207がNo)は、濁音・半濁音表記についての誤表記が含まれている可能性があると判断し、記憶装置5などに誤表記が含まれている可能性がある表記種別として「濁音・半濁音」を記録し(ステップS208)、その後、ステップS209の処理を行う。これに対して入力カナ文字列に濁音・半濁音表記が含まれている場合(ステップS207がYes)は、濁音・半濁音については誤表記が含まれている可能性が低いと判断し、ステップS209の処理を行う。
ステップS209において、正解表記判定部2は、記憶装置5を参照し、誤表記が含まれている可能性がある表記種別が記録されているか否かを調べる。そして、記録されていない場合(ステップS209がNo)は、その処理を終了する。これに対して、記録されている場合(ステップS209がYes)は、記録されている表記種別と、カナ文字列入力部1から入力されたカナ文字列とを確認候補抽出部3に渡し(ステップS210)、その後、記憶装置5に記録されている表記種別を消去し(ステップS211)、その処理を終了する。
確認候補抽出部3は、正解表記判定部2から誤表記が含まれている可能性のある表記種別およびカナ文字列を渡されると、図3のフローチャートに示すように、渡された表記種別の1つに注目し、その表記種別についての確認候補抽出ルールに従って、上記カナ文字列から確認候補を抽出する(ステップS31,S33)。そして、正解表記判定部2から渡された全ての表記種別について、上記した処理を行うと(ステップS32がYes)、カナ文字列と抽出結果(例えば、各表記種別毎の抽出位置)とを確認候補提示部4に渡し(ステップS34)、その処理を終了する。確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列および抽出結果に基づいて、図示を省略した表示部に表示する等して、カナ文字列と、カナ文字列中の確認候補とをユーザに提示する。その際、確認候補がどの表記種別についての確認候補なのか分かる形で表示する。
ここで、表記種別「長音表記」「拗音表記」「促音表記」「濁音・半濁音表記」それぞれの確認候補抽出ルールについて詳しく説明する。
(1)「長音表記」についての確認候補抽出ルール
(1-1)「確認候補抽出ルール1-1」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音が同一の部分を確認候補として抽出。
(1-2)「確認候補抽出ルール1-2」…カナ文字と単独母音の連鎖であり、先行カナ文字の母音分と後続単独母音の組が「エイ」または「オウ」を成す部分を確認候補として抽出。
(1-3)「確認候補抽出ルール1-3」…カナ文字の連鎖「ンン」を確認候補として抽出。
上記確認候補抽出ルール1-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。
・あ段に属するカナ文字と、文字「ア」の連鎖 (例: 部分列「カア」は長音「カー」の確認候補)。
・い段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「シイ」は長音「シー」の確認候補)。
・う段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ツウ」は長音「ツー」の確認候補)。
・え段に属するカナ文字と、文字「エ」の連鎖 (例: 部分列「ヘエ」は長音「ヘー」の確認候補)。
・お段に属するカナ文字と、文字「オ」の連鎖 (例: 部分列「ホオ」は長音「ホー」の確認候補)。
更に、上記確認候補抽出ルール1-2について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。
・え段に属するカナ文字と、文字「イ」の連鎖 (例: 部分列「ベイ」は長音「ベー」の確認候補)。
・お段に属するカナ文字と、文字「ウ」の連鎖 (例: 部分列「ポウ」は長音「ポー」の確認候補)。
上記確認候補抽出ルール1-3は一種類しか無い。該当する例を示す。
・文字「ンン」の連鎖 (例: 長音「ンー」の確認候補)。
これらの確認候補抽出ルール1-1〜1-3に加えて、先行する文字が小さいカナ文字の場合も、更に先行する文字と合わせて同様に扱うことも可能である。例えば、、任意の文字と、文字「ャ」と、文字「ア」の連鎖 (例: 部分列「キャア」は長音「キャー」の確認候補)となる。また、後続する文字として、小さいカナ文字を同一視して扱うこともできる。例えば、あ段に属する文字と、文字「ァ」の連鎖 (例: 部分列「カァ」は長音「カー」の確認候補)となる。
これにより、カナ文字列中から長音表記にすべきか否かを確認する確認候補が抽出される。
(2)「拗音表記」についての確認候補抽出ルール
(2-1)「確認候補抽出ルール2-1」…2つのカナ文字の連鎖であり、先行カナ文字の母音分が「イ」かつ後続カナ文字が「ヤ」または「ユ」または「ヨ」の部分を確認候補として抽出。
(2-2)「確認候補抽出ルール2-2」…2つのカナ文字の連鎖であり、先行カナ文字の母音分が「ウ」かつ後続カナ文字が「ワ」の部分を確認候補として抽出。
上記確認候補抽出ルール2-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。
・い段に属するカナ文字と、文字「ヤ」の連鎖 (例: 部分列「キヤ」は拗音「キャ」の確認候補)。
・い段に属するカナ文字と、文字「ユ」の連鎖 (例: 部分列「ジユ」は拗音「ジュ」の確認候補)。
・い段に属するカナ文字と、文字「ヨ」の連鎖 (例: 部分列「ピヨ」は拗音「ピョ」の確認候補)。
上記確認候補抽出ルール2-2は一種類しか無い。該当する例を示す。
・う段に属するカナ文字と、文字「ワ」の連鎖 (例: 部分列「クワ」は拗音「クヮ」の確認候補)。
これらのルールに加えて、先行カナ文字が母音の場合 (例: 「イヤ」)、先行カナ文字が小さなカナ文字の場合 (例: 「ィユ」) などは、拗音を構成しないとして、候補から除外しても良い。
これにより、カナ文字列中から拗音表記にすべきか否かを確認する確認候補が抽出される。
(3)「促音表記」についての確認候補抽出ルール
(3-1)「確認候補抽出ルール3-1」…3つのカナ文字の連鎖であり、中央のカナ文字が「ツ」の部分を確認候補とする。
上記確認候補抽出ルール3-1は一種類しか無い。該当する例を示す。
・任意のカナ文字と、文字「ツ」と、任意のカナ文字の連鎖 (例: 部分列「アツタ」は促音「アッタ」の確認候補)。
上記確認候補抽出ルールに加えて、先行カナ文字が小さなカナ文字の場合 (例: 「ィツタ」)、後続カナ文字が「ア」「イ」「ウ」「エ」「オ」「ワ」「ヲ」「ン」の何れかの場合 (例: 「アツア」) などは、促音を構成しないとして、候補から除外して判定するルールを採用しても良い。
これにより、カナ文字列中から促音表記にすべきか否かを確認する確認候補が抽出される。
(4)「濁音・半濁音表記」についての確認候補抽出ルール
(4-1)「確認候補抽出ルール4-1」…か行、さ行、た行、は行のカナ文字を確認候補として抽出する。
上記確認候補抽出ルール4-1について説明を加える。同ルールは、具体的には以下に分解することができる。それぞれの例を示す。
・か行、さ行、た行のカナ文字は、濁音の可能性がある (例: 部分列「カ」は濁音「ガ」の確認候補)。
・は行のカナ文字は、濁音と同時に半濁音の可能性がある (例: 部分列「ヒ」は濁音「ビ」と半濁音「ピ」の確認候補)。
なお、上述した実施の形態では説明しなかったが、先行する表記種別についての確認候補抽出ルールによって既に確認候補を抽出している区間は、後続の種別表記についての確認候補抽出ルールでは確認候補を抽出しないとすることもできる。また、上述した実施の形態では、4種類の正解表記判定ルールおよび確認候補抽出ルールを逐次処理するようにしたが、並列処理するようにしても良い。また、上述した実施の形態では説明しなかったが、「へ」を「え」の確認候補として抽出するような確認候補抽出ルールを使用するようにしても良い。また、上述した実施の形態では、正解表記判定ルールおよび確認候補抽出ルールを記憶装置5に記録し、正解表記判定部2および確認候補抽出部3が記憶装置5に記録されている正解表記判定ルールおよび確認候補抽出ルールを使用して正規表記が含まれているか否かの判定処理および確認候補の抽出処理を行うようにしたが、正解表記判定部2および確認候補抽出部3に判定処理および抽出処理を行うロジックを組み込んでおくようにしても良い。
次に、カナ文字列入力部1からカナ文字列「ニユウエヌイイシイカツフ」が入力された場合を例に挙げて、本実施の形態の動作について説明する。
正解表記判定部2は、カナ文字列入力部1から上記カナ文字列が入力されると、図2のフローチャートに示す処理を実行する。この例の場合、前述した正解表記判定ルール1により長音表記が含まれていないと判定され(ステップS201)、正解表記判定ルール2により拗音表記が含まれていないと判定され(ステップS203)、正解表記判定ルール3により促音表記が含まれていないと判定され(ステップS205)、正解表記判定ルール4により濁音・半濁音表記が含まれていないと判定される(ステップS207)。従って、正解表記判定部2は、正解表記が含まれていない可能性がある表記種別として「長音表記」「拗音表記」「促音表記」「濁音・半濁音」を確認候補抽出部3に渡すと共に、上記カナ文字列を確認候補抽出部3に渡す。
これにより、確認候補抽出部3は、図3のフローチャートに示す処理を実行する。先ず、確認候補抽出部3は、正解表記判定部2から渡された4つの表記種別の内の1つに注目し、注目した表記種別についての確認候補抽出ルールに従って、カナ文字列から確認候補を抽出する(ステップS31,S33)。今、例えば、「長音表記」に注目したとすると、確認候補抽出部3は前述した確認候補抽出ルール1-1〜1-3に従って、長音表記についての確認候補として文字列「ユウ」「イイ」「シイ」を抽出し、下記のように、長音表記に関する情報として、確認候補と、抽出結果(抽出位置)と、確認候補に対する訂正候補とを関連付けて記憶装置5などに記録する。なお、抽出結果は、少なくとも確認候補の抽出位置を含む。また、訂正候補は、確認候補の第2番目の文字を長音文字に書き換えることにより作成することができる。
・「ユウ」(位置=2-3文字目、訂正候補=「ユー」)
・「イイ」(位置=6-7文字目、訂正候補=「イー」)
・「シイ」(位置=8-9文字目、長音候補=「シー」)
その後、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「拗音表記」)に注目する(ステップS31)。そして、拗音表記についての確認候補抽出ルール2-1,2-2に従って、拗音表記についての確認候補として文字列「ニユ」を抽出し、下記のように、拗音表記に関する情報として、確認候補と、抽出位置と、確認候補に対する訂正候補とを関連付けて記憶装置5などに記録する(ステップS33)。なお、訂正候補は、確認候補の第2番目の文字を拗音表記に書き換えることにより作成できる。
・「ニユ」(位置=1-2文字目、訂正候補=「ニュ」)
次に、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「促音表記」)に注目する(ステップS31)。そして、促音表記についての確認候補抽出ルール3-1に従って、促音表記についての確認候補として文字列「カツフ」を抽出し、下記のように、促音表記に関する情報として、確認候補と、その抽出位置、と、確認候補に対する訂正候補とを記憶装置5に関連付けて記録する(ステップS33)。なお、訂正候補は、確認候補の第2番目の文字を促音表記に書き換えることにより作成できる。
・「カツフ」(位置=10-12文字目、訂正候補=「カッフ」)
その後、確認候補抽出部3は、未注目の表記種別の内の1つ(例えば、「濁音・半濁音」)に注目する(ステップS31)。そして、濁音・半濁音についての確認候補抽出ルール4-1に従って、濁音・半濁音表記についての確認候補として「シ」「カ」「ツ」「フ」を抽出し、下記のように、濁音・半濁音表記に関する情報として、確認候補と、その抽出位置と、確認候補に対する訂正候補とを記憶装置5に関連付けて記録する(ステップS33)。なお、濁音、半濁音の訂正候補は、確認候補に濁点、半濁点を付けることにより作成することができる。但し、半濁音の訂正候補は、確認候補がは行のカナ文字の場合のみ作成する。
・「シ」(位置=8文字目、濁音の訂正候補=「ジ」、半濁音の訂正候補なし)
・「カ」(位置=10文字目、濁音の訂正候補=「ガ」、半濁音の訂正候補なし)
・「ツ」(位置=11文字目、濁音の訂正候補=「ヅ」、半濁音の訂正候補なし)
・「フ」(位置=12文字目、濁音の訂正候補=「ブ」、半濁音の訂正候補=「プ」)
確認候補抽出部3は、正解表記判定部2から渡された全ての表記種別に対して上述した処理を行うと(ステップS32がYes)、記憶装置5に記録されている各表記種別に関する情報(確認候補、抽出位置、訂正候補)と、カナ文字列「ニユウエヌイイシイカツフ」とを確認候補提示部4に渡す(ステップS34)。
確認候補提示部4は、確認候補抽出部3から渡された情報に従って、図示を省略した表示部に図4に示す確認画面を表示する。
「カナ文字列」欄には、確認候補抽出部3から入力されたカナ文字列「ニユウエヌイイシイカツフ」を表示する。「長音候補」欄には、長音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。確認候補の位置を示す横線は、確認候補抽出部3から渡された上記確認候補の抽出位置に基づいて表示する。例えば、確認候補の抽出位置が「2-3文字目」の場合は、カナ文字列の第2番目、第3番目の文字「ユウ」と対応する位置に横線を表示する。また、その横線に関連付けて訂正候補を表示する。
「拗音候補」欄には、拗音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「促音候補」欄には、促音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「濁音候補」欄には、濁音表記についての確認候補の位置を示す横線と、確認候補に対する訂正候補とを表示する。「半濁音候補」欄には、確認候補に対する訂正候補を表示する。
ユーザは、図4に示す確認画面に表示されている確認候補を示す横線や訂正候補などを見て、入力されたカナ文字列「ニユウエヌイイシイカツフ」に対する正解表記が「ニューエヌイーシーカップ」であると認識する。そして、音声合成装置用の辞書に入力カナ文字列「ニユウエヌイイシイカツフ」と正解表記「ニューエヌイーシーカップ」とを関連付けて記録する。或いは、カナ文字列を入力したデータベース或いは辞書の該当部分を直接正解表記で書き換えることにより、読み上げ文字列辞書を作成する。
確認候補提示部4が表示する確認画面の他の例を図5に示す。この場合、確認候補提示部4は、確認候補抽出部3から渡されたカナ文字列を表示部に表示すると共に、確認候補が存在する区間に下線を表示する。なお、他の表記種別の確認候補が存在する区間に、その表記種別の確認候補が存在する区間が全て含まれる場合には、上記他の表記種別の確認候補が存在する区間を示す下線だけを表示する。そして、マウスポインタが下線に当てられ、区間が選択されると、確認候補提示部4は、該当区間で取り得る訂正候補の組を求め、表示する。該当区間で取り得る訂正候補の組は、確認候補抽出部3から渡された訂正候補の内の、上記該当区間に関連する訂正候補に基づいて作成する。
なお、上述した実施の形態では、入力文字列をカナ文字列としたが、漢字混じり文字列であってもよい。例えば、特許の公開公報を入力文字列とし、正解表記判定ルールとして特定の文字「登録商標」が入力文字列に含まれているか否かを判定するルールを採用し、確認候補抽出ルールとして上記特定の文字「登録商標」が欠落している箇所を入力文字列から抽出するルールを採用することもできる。
[第1の実施の形態の効果]
本実施の形態によれば、誤りの無い或いは少ない入力カナ文字列に対して、無駄に誤り検出が行われないようにすることができる。その理由は、入力カナ文字列に特定の文字が含まれている場合、上記入力カナ文字列は上記特定の文字を考慮して作成されているため、上記特定の文字が欠落している箇所が存在する可能性は小さいと考えられる。そのため、正解表記判定部2(判定手段)で入力カナ文字列に特定の文字が含まれていないと判定した場合に限って、確認候補抽出部3(検出手段)で特定の文字が欠落している箇所を入力カナ文字列中から検出することにより、誤りの無い或いは少ない入力カナ文字列に対して無駄に誤り検出が行われてしまうことがなくなる。
[本発明の第2の実施の形態]
次に、本発明の第2の実施の形態について説明する。本実施の形態は、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることを特徴とする。音声合成装置用の辞書を作成する場合、例えば、違和感はあっても聴き間違えは生じないような辞書を作成する場合と、違和感も聴き間違えも生じないような辞書を作成する場合とでは、入力カナ文字列に対する修正箇所が異なるものとなる。本実施の形態では、作成する辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることにより、辞書を作成する際の作業量を、作成する辞書のレベルに応じたものにする。
本実施の形態の入力文字列誤り検出装置は、図1に示した第1の実施の形態における確認候補抽出部3および確認候補提示部4にそれぞれ次のような機能を付加することにより、実現される。確認候補抽出部3には、入力カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与する機能を付加する。確認候補提示部4には、入力カナ文字列と、確認候補抽出部3で抽出された確認候補の内の、ユーザによって指定された作業優先度以上の確認候補とを関連付けて表示する機能を付加する。なお、本実施の形態の入力文字列誤り検出装置も、第1の実施の形態の入力文字列誤り検出装置と同様にコンピュータによって実現可能である。
次に、本実施の形態の動作について説明する。ここでは、以下の3つのカナ文字列(a)〜(c)が入力された場合を例に挙げて動作を説明する。
(a) ニユウエヌイイシイカツフ
(b) スウパアコンピュウタ
(c) カツティングシート
正解表記判定部2は、各カナ文字列(a)〜(c)に対して正解表記判定ルールを用いて判定処理を行い、正解表記が存在しない表記種別を含んだカナ文字列と、正解表記が存在しない表記種別とを確認候補抽出部3に渡す(図2参照)。この例の場合、下記の情報が確認候補提示部4に渡される。
・カナ文字列(a)と、表記種別「長音表記、拗音表記、促音表記、濁音・半濁音表記」との組。
・カナ文字列(b)と、表記種別「長音表記、促音表記」との組。
・カナ文字列(c)と、表記種別「拗音表記、促音表記」との組。
確認候補抽出部3は、カナ文字列と表記種別との組が入力される毎に、確認候補抽出ルールを使用して確認候補を抽出する(図3のステップS31,S33)。なお、ステップS33において、本実施の形態では、抽出した各確認候補の作業優先度を表記種別に応じて決定し、確認候補と関連付けて記憶装置5に記録する処理も行う。ここでは、作業優先度は、小さい数値ほど優先度が高いと定義し、音声として聴いた場合に内容を聴き間違える可能性の高い拗音表記または濁音・半濁音表記についての確認候補の作業優先度を「1」とし、違和感は大きいものの正解表記の想起が容易な促音表記についての確認候補の作業優先度を「2」し、違和感の小さい長音表記についての確認候補の作業優先度を「3」とする。更に、ステップS33において、本実施の形態では、処理対象にしているカナ文字列の優先度を決定し、記憶装置5に記録処理も行う。カナ文字列の作業優先度は、そのカナ文字列から抽出した各確認候補の作業優先度の内の、最も高い作業優先度とする。
この例では、各カナ文字列(a)〜(c)の作業優先度は、次のようになる。
・カナ文字列(a)…カナ文字列(a)には、表記種別が「長音表記、拗音表記、促音表記、濁音・半濁音表記」の確認候補が存在するので、カナ文字列(a)の作業優先度は、それらの作業優先度の内の最も高い作業優先度「1」とする。
・カナ文字列(b)…カナ文字列(b)には、表記種別が「長音表記」の確認候補しか存在しなので、カナ文字列(b)の作業優先度は、長音表記の確認候補の作業優先度「3」とする。
・カナ文字列(c)…カナ文字列(c)には、表記種別が「促音表記」の確認候補しか存在しないので、カナ文字列(c)の作業優先度は、促音表記の確認候補の作業優先度「2」とする。
これらの作業優先度に関する情報は、ステップS34において確認候補提示部4にカナ文字列などを渡す際に、それらと共に確認候補提示部4に渡される。
確認候補提示部4は、確認候補抽出部3から渡される情報に従って、図6に示すような確認画面を表示する。この確認画面には、作業優先度の入力欄が設けられており、ユーザは、図示を省略したキーボードなどを利用して作業優先度を入力することができるようになっている。確認候補提示部4は、表示部にカナ文字列や確認候補などを表示する際には、作業優先度の入力欄から入力されている作業優先度以上の優先度を有するカナ文字列および確認候補のみを表示する。例えば、入力欄から作業優先度「2」が入力されている場合は、確認候補提示部4は、作業優先度が「1」のカナ文字列(a)と、作業優先度が「2」のカナ文字列(c)は、表示するが、作業優先度が「3」のカナ文字列(b)は表示しない。言い換えれば、確認候補抽出部3で抽出された確認候補の中に、ユーザによって指定された作業優先度以上の確認候補が存在しない入力カナ文字列については、ユーザへの提示処理は行わない。また、カナ文字列(a),(c)についても、作業優先度が「1」または「2」の確認候補は表示するが、作業優先度が「3」の長音表記についての確認候補は表示していない。図6では、作業優先度が「1」の確認候補を実線、作業優先度が「2」の確認候補を点線で示すようにしているので、ユーザは確認候補の作業優先度の違いを容易に認識することができる。
なお、図6では、各候補の種類ごとに「濁音?」「拗音?」「促音?」のように候補の種類を合わせて表示することで判りやすさを向上させているが、代わりに確認候補抽出部3が推測可能な正解表記生成して、表示することもできる。また、ここでは、作業優先度の付与を候補の種類ごとに行ったが、よりきめ細かく、例えば長音候補の各ルール間の聴き間違いのしやすさをコーパス中のバイグラム等の出現頻度によって数値化し、作業優先度に割り当てることもできる。また、ここでは、確認候補の作業優先度を、その表記種別に基づいて決定するようにしたが、その確認候補を抽出した確認候補抽出ルールに基づいて決定するようにしても良い。例えば、第1の実施の形態で説明した確認候補抽出ルール1-1によって抽出された確認候補には優先度「1」、確認候補抽出ルール1-2によって抽出された箇所には優先度「3」のように設定する。これにより、聴き誤りや違和感への対応をよりきめ細かく取ることが可能である。
[第2の実施の形態の効果]
本実施の形態によれば、作成する音声合成装置用の辞書のレベルに応じて、ユーザに提示する確認候補を異なるものにすることが可能になる。その理由は、カナ文字列から抽出した確認候補に、その確認候補を音声として聴いたときの聴き間違える度合い、または、違和感に応じた作業優先度を付与し、ユーザに確認候補を提示する際には、ユーザによって指定された作業優先度以上の確認候補を提示するようにしているからである。
[本発明の第3の実施の形態]
次に、本発明の第3の実施の形態について説明する。本実施の形態は、ユーザが容易に訂正済みカナ文字列を音声合成装置用の辞書に登録できるようにしたことを特徴とする。
図7は、本実施の形態にかかる入力文字列誤り検出装置の構成例を示すブロック図であり、図1に示した第1の実施の形態における入力文字列誤り検出装置との相違点は、確認候補提示部4の代わりに確認候補提示部4aを備えている点、辞書登録部6を備えている点、および、辞書7を備えている点である。
確認候補提示部4aは、確認候補提示部4が備えている機能に加え、確認画面に表示しているカナ文字列を、ユーザが選択した訂正候補によって訂正したり、ユーザが行う編集作業に従って訂正したりし、訂正カナ文字列を作成する機能を有する。辞書登録部6は、確認候補提示部4aで作成された訂正カナ文字列を辞書7に登録する機能を有する。
なお、本実施の形態の入力文字列誤り検出装置も、第1の実施の形態と同様に、コンピュータによって実現可能である。
次に、本実施の形態に動作について説明する。
今、確認候補提示部4aが表示部に図4に示すような確認画面を表示しているとする。ユーザが、訂正候補を選択し、入力カナ文字列を直接編集すると、確認候補提示部4aは、カナ文字列中に確認候補を選択された訂正候補で置き換えるなどして、訂正済み文字列「ニューエヌイーシーカップ」を作成し、辞書登録部6に渡す。辞書登録部6は、訂正済みカナ文字列「ニューエヌイーシーカップ」と入力カナ文字列「ニユウエヌイイシイカツフ」とを関連付けて辞書7に登録する。また、辞書7に代えて、入力カナ文字列が格納されていたデータベースや辞書の該当部分を訂正済みカナ文字列で書き換えるようにしてもよい。
[第3の実施の形態の効果]
本実施の形態によれば、音声合成装置用の辞書を容易に作成することができる。その理由は、訂正候補をユーザに提示すると共に、ユーザによって選択された提示候補を用いて入力カナ文字列を訂正した訂正カナ文字列を生成する確認候補提示部4aを備えているからである。
本発明は、カナ文字列を入力とする音声合成装置用の辞書を作成する際などに利用すると好適である。
1・・・カナ文字列入力部
2・・・正解表記判定部
3・・・確認候補抽出部
4、4a・・・確認候補提示部
5・・・記憶装置
51・・・正解表記判定ルール記憶部
52・・・確認候補抽出ルール記憶部
6・・・辞書登録部
7・・・辞書

Claims (9)

  1. 入力文字列に特定の文字が含まれているか否かを判定する判定手段と、
    前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段とを備えたことを特徴とする入力文字列誤り検出装置。
  2. 請求項1記載の入力文字列誤り検出装置において、
    前記特定の文字は、長音を表す文字であることを特徴とする入力文字列誤り検出装置。
  3. 請求項1記載の入力文字列誤り検出装置において、
    前記特定の文字は、拗音を表す文字であることを特徴とする入力文字列誤り検出装置。
  4. 請求項1記載の入力文字列誤り検出装置において、
    前記特定の文字は、促音を表す文字であることを特徴とする入力文字列誤り検出装置。
  5. 請求項1記載の入力文字列誤り検出装置において、
    前記特定の文字は、濁音および半濁音を表す文字であることを特徴とする入力文字列誤り検出装置。
  6. 請求項1乃至5の何れか1項に記載の入力文字列誤り検出装置において、
    前記入力文字列と、前記検出手段で検出された箇所に対する訂正候補とをユーザに提示すると共に、ユーザによって選択された訂正候補によって前記入力文字列を訂正した訂正済み入力文字列を生成する提示手段と、
    前記入力文字列と、前記訂正済み入力文字列とを関連付けて辞書に登録する登録手段とを備えたことを特徴とする入力文字列誤り検出装置。
  7. 予め定められている複数の特定文字毎に、その特定文字が入力文字列に含まれているか否かを判定する判定手段と、
    該判定手段で前記入力文字列に含まれていないと判定された特定文字に限って、該特定文字が欠落している箇所を前記入力文字列中から検出し、該検出した箇所毎に、その箇所を音声として聴いたときに聴き間違える度合い、または、違和感に応じた作業優先度を決定する検出手段と、
    前記入力文字列と、前記検出手段で検出された箇所の内の、ユーザによって指定された作業優先度以上の作業優先度を有する箇所とを関連付けてユーザに提示する提示手段とを備えたことを特徴とする入力文字列誤り検出装置。
  8. 判定手段と、検出手段とを備えたコンピュータが実行する入力文字列誤り検出方法であって、
    前記判定手段が、入力文字列に特定の文字が含まれているか否かを判定し、
    前記検出手段が、前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出することを特徴とする入力文字列誤り検出方法。
  9. コンピュータを入力文字列誤り検出装置として機能させるためのプログラムであって、
    前記コンピュータを、
    入力文字列に特定の文字が含まれているか否かを判定する判定手段、
    前記入力文字列に前記特定の文字が含まれていないと前記判定手段が判定した場合に限って、前記特定の文字が欠落している箇所を前記入力文字列中から検出する検出手段として機能させるためのプログラム。
JP2011177900A 2011-08-16 2011-08-16 入力文字列誤り検出装置 Withdrawn JP2013041421A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011177900A JP2013041421A (ja) 2011-08-16 2011-08-16 入力文字列誤り検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011177900A JP2013041421A (ja) 2011-08-16 2011-08-16 入力文字列誤り検出装置

Publications (1)

Publication Number Publication Date
JP2013041421A true JP2013041421A (ja) 2013-02-28

Family

ID=47889757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011177900A Withdrawn JP2013041421A (ja) 2011-08-16 2011-08-16 入力文字列誤り検出装置

Country Status (1)

Country Link
JP (1) JP2013041421A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170218A (ja) * 2014-03-07 2015-09-28 富士通株式会社 拗促音判定装置、拗促音判定方法及び拗促音判定用コンピュータプログラム
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928828B2 (en) 2013-10-10 2018-03-27 Kabushiki Kaisha Toshiba Transliteration work support device, transliteration work support method, and computer program product
JP2015170218A (ja) * 2014-03-07 2015-09-28 富士通株式会社 拗促音判定装置、拗促音判定方法及び拗促音判定用コンピュータプログラム

Similar Documents

Publication Publication Date Title
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US9582489B2 (en) Orthographic error correction using phonetic transcription
US9026426B2 (en) Input method editor
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US10588003B2 (en) Notification of potentially problematic textual messages
US11983499B2 (en) Automated document analysis comprising a user interface based on content types
CN101815996A (zh) 检测名称实体和新词
KR20100015958A (ko) 멀티모드 다국어 입력기
JPH07325828A (ja) 文法チェックシステム
US7801722B2 (en) Techniques for customization of phonetic schemes
US20120296647A1 (en) Information processing apparatus
WO2014205232A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
JP6678545B2 (ja) 修正システム、修正方法及びプログラム
US20070277118A1 (en) Providing suggestion lists for phonetic input
JP2013041421A (ja) 入力文字列誤り検出装置
JP5629543B2 (ja) 文字列変換装置、文字列変換方法、コンピュータプログラムおよび記録媒体
US8438005B1 (en) Generating modified phonetic representations of indic words
JP7222218B2 (ja) 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム
JP2008009507A (ja) 外国語の発音のカタカナ表記方法
KR101658598B1 (ko) 로마자 발음 표기를 매개로 하는 한글 기반의 중국어 입력 장치 및 방법
JP6244993B2 (ja) 拗促音判定装置、拗促音判定方法及び拗促音判定用コンピュータプログラム
KR20200051170A (ko) 입력 문자에 대한 오타 보정 처리가 가능한 터치스크린이 구비된 전자 단말 장치 및 그 동작 방법
WO2023073887A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
JP2013175067A (ja) 自動読み付与装置及び自動読み付与方法
JP4247849B2 (ja) 氏名入力装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141104