JP5482236B2 - プログラムおよび情報処理装置 - Google Patents

プログラムおよび情報処理装置 Download PDF

Info

Publication number
JP5482236B2
JP5482236B2 JP2010016307A JP2010016307A JP5482236B2 JP 5482236 B2 JP5482236 B2 JP 5482236B2 JP 2010016307 A JP2010016307 A JP 2010016307A JP 2010016307 A JP2010016307 A JP 2010016307A JP 5482236 B2 JP5482236 B2 JP 5482236B2
Authority
JP
Japan
Prior art keywords
character string
expression
candidate
target
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010016307A
Other languages
English (en)
Other versions
JP2011154590A (ja
Inventor
基行 鷹合
洋平 山根
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2010016307A priority Critical patent/JP5482236B2/ja
Publication of JP2011154590A publication Critical patent/JP2011154590A/ja
Application granted granted Critical
Publication of JP5482236B2 publication Critical patent/JP5482236B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、プログラムおよび情報処理装置に関する。
テキストの入力を支援する技術が知られている。例えば、特許文献1には、利用者により入力された漢字やひらがなを含む文字列に続く文字列を予測する技術が開示されている。特許文献1に記載の技術では、ひらがな、漢字、または漢字混じりひらがなから成る複数の文字列を辞書に収容しておき、入力された文字列をキーとして前述の辞書の中から抽出した文字列を、入力された文字列に続く予測文字列として出力する。
特許文献2には、ペン入力コンピュータにおいて、入力および/または既に確定した文字列に基づいて、複数の単語および複数の文例を格納した辞書格納手段から検索した1以上の候補単語を表示手段に表示させ、表示させた候補単語の中から所望の単語をユーザに選択させることで文章入力を行う技術が開示されている。
特許文献3には、省略記号を含む文章の入力を受け付け、その省略記号の部分に相当する文字列を補完する技術が開示されている。特許文献3に記載の技術では、単語とその使用頻度を記憶した単語辞書を参照して、入力された文章中の省略記号の前後の文字から省略された単語の候補を抽出し、単語間の遷移情報と単語間の遷移確率を記憶した遷移辞書に基づいて、抽出された候補単語の中から1つの単語を決定する。
また、入力済みのテキストの校正を支援する技術もある。例えば、特許文献4に記載の技術では、処理対象の文を文節単位に解析し、各文節の中から、文の中で慣用的に連接して用いられる複数の要素から構成される慣用的用言句の構成要素を検出し、さらに、検出された構成要素を再配置する(並び替える)ことで、より分かりやすい文に校正することを支援する。
特開平8−255158号公報 特開平10−154033号公報 特開2000−330984号公報 特開平7−234871号公報
ところで、入力済みのテキストを修正する場合、ユーザは、文字列の挿入を望むこともあるし、テキスト中の一部の文字列の置換を望むこともある。
本発明は、文字列の挿入を伴うテキストの修正および文字列の置換を伴うテキストの修正の両方を支援するプログラムおよび情報処理装置を提供することを目的とする。
請求項1に係る発明は、処理対象の文字列である対象文字列における位置である指定位置を受け付ける受付ステップと、複数の文を記憶した辞書記憶手段を参照し、前記対象文字列における前記指定位置までに含まれる文字列を検索キーとし、前記辞書記憶手段に記憶されている前記複数の文のうち前記検索キーの文字列を含む文において、前記検索キーの文字列に続く文字列を、前記対象文字列における前記指定位置までの文字列に続く文字列の候補である候補文字列として推測する推測ステップと、前記対象文字列における前記指定位置の後の文字列に対して形態素解析を行う解析ステップと、前記形態素解析の結果に基づいて、前記対象文字列における前記指定位置の後の文字列を文の構成要素に対応する文字列である要素文字列に分解する分解ステップと、前記候補文字列と前記要素文字列との組のそれぞれについて、予め定められた評価規則に基づいて、当該候補文字列に当該要素文字列以降の前記対象文字列中の文字列が続く表現を評価し、当該表現の自然言語としての妥当性を表す評価値を求める評価ステップと、前記評価値が予め設定された閾値以上である前記表現を出力する出力ステップと、をコンピュータに実行させるためのプログラムである。
請求項2に係る発明は、請求項1に係る発明において、前記出力ステップで出力された表現のうちの1つを選択するユーザの入力に応じて、前記対象文字列における前記指定位置以降の文字列を前記入力で選択された表現で置換した文字列を生成する生成ステップ、を前記コンピュータにさらに実行させる。
請求項3に係る発明は、請求項1または2に係る発明において、前記出力ステップにおいて、さらに、前記評価値が前記閾値以上である前記表現が複数存在する場合に、前記評価値がより高い前記表現を優先して表示手段に表示させるよう制御する表示制御情報を出力する。
請求項4に係る発明は、請求項1から3のいずれか1項に係る発明において、前記対象文字列に含まれる表現と同一の表現については前記評価値を求めない。
請求項5に係る発明は、請求項1から4のいずれか1項に係る発明において、前記出力ステップにおいて、さらに、前記評価値が前記閾値以上である前記表現における前記候補文字列と前記対象文字列中の文字列とを異なる態様で表示手段に表示させるよう制御する表示制御情報を出力する。
請求項6に係る発明は、請求項1から5のいずれか1項に係る発明において、前記出力ステップにおいて、さらに、前記対象文字列において、前記対象文字列の前記指定位置と、前記評価値が前記閾値以上である前記表現に含まれる前記要素文字列と、の間に配置された前記要素文字列を、当該表現と共に表示手段に表示させるよう制御する表示制御情報を出力する。
請求項7に係る発明は、処理対象の文字列である対象文字列における位置である指定位置を受け付ける受付手段と、複数の文を記憶した辞書記憶手段を参照し、前記対象文字列における前記指定位置までに含まれる文字列を検索キーとし、前記辞書記憶手段に記憶されている前記複数の文のうち前記検索キーの文字列を含む文において、前記検索キーの文字列に続く文字列を、前記対象文字列における前記指定位置までの文字列に続く文字列の候補である候補文字列として推測する推測手段と、前記対象文字列における前記指定位置の後の文字列に対して形態素解析を行う解析手段と、前記形態素解析の結果に基づいて、前記対象文字列における前記指定位置の後の文字列を文の構成要素に対応する文字列である要素文字列に分解する分解手段と、前記候補文字列と前記要素文字列との組のそれぞれについて、予め定められた評価規則に従って、当該候補文字列に当該要素文字列以降の前記対象文字列中の文字列が続く表現を評価し、当該表現の自然言語としての妥当性を表す評価値を求める評価手段と、前記評価値が予め設定された閾値以上である前記表現を出力する出力手段と、を備えることを特徴とする情報処理装置である。
請求項1または7に係る発明によると、文字列の挿入を伴うテキストの修正および文字列の置換を伴うテキストの修正の両方を支援できる。
請求項2に係る発明によると、ユーザが選択した表現によりテキストを修正できる。
請求項3に係る発明によると、自然言語としての妥当性が高い表現を優先してユーザに提示できる。
請求項4に係る発明によると、対象文字列中の表現と同一の表現について評価値を求める処理を省略できる。
請求項5に係る発明によると、指定位置の後に続く文字列として推測された候補文字列と、対象文字列に元から含まれる文字列と、を区別してユーザに提示できる。
請求項6に係る発明によると、候補文字列を用いて生成された表現と共に、当該表現において候補文字列により置換された元の対象文字列中の文字列をユーザに提示できる。
情報処理装置の内部構成の概略の例を示すブロック図である。 表示画面の例を示す図である。 テキストを形態素に分解した例を示す図である。 指定位置の後続文字列の候補を連結した表現の例を示す図である。 情報処理装置が行う処理の手順の例を示す図である。 連結表現評価処理の手順の例を示す図である。 指定位置の後続文字列の候補を連結した表現の他の例を示す図である。 連結表現評価処理の結果の一部の例を示す図である。 連結表現評価処理の結果の一部の例を示す図である。 連結表現評価処理の結果の一部の例を示す図である。 連結表現評価処理の結果の一部の例を示す図である。 表示の態様の例を示す図である。 表示の態様の他の例を示す図である。 表示の態様のさらに他の例を示す図である。 コンピュータのハードウエア構成の例を示す図である。
図1に、本発明の一実施形態の例による情報処理装置の内部構成の概略を示す。図1の例の情報処理装置10は、文書記憶部100、参照データ記憶部110、入力受付部120、対象テキスト取得部130、後続文字列推測部140、テキスト分解部150、連結表現評価部160、出力処理部170、および修正テキスト生成部180を備える。
文書記憶部100は、電子文書を記憶する。後述する情報処理装置10の各部の処理は、文書記憶部100に記憶された電子文書中のテキスト(文字列)を処理対象として行なわれる。
参照データ記憶部110は、情報処理装置10が行う処理において参照される情報を記憶する。参照データ記憶部110は、解析辞書112、文例辞書114、および評価用データ116を含む。解析辞書112、文例辞書114、および評価用データ116の詳細は後述する。
入力受付部120は、マウスおよびキーボードなどの入力装置を介したユーザの入力を受け付ける。入力受付部120は、受け付けた入力の情報を、その内容に応じて対象テキスト取得部130、後続文字列推測部140、または修正テキスト生成部180に渡す。
対象テキスト取得部130は、文書記憶部100に記憶された電子文書から、処理対象のテキストを取得する。対象テキスト取得部130は、例えば、電子文書においてユーザが指定した位置の前後の文字列を処理対象として取得する。例えば図2を参照し、文書記憶部100に記憶された電子文書を表示装置(図示しない)に表示させた表示画面200において、ユーザが入力装置を用いて矢印Cで示す位置にカーソルを合わせたとする。この例の場合、対象テキスト取得部130は、入力受付部120を介してカーソルの位置を表す情報を取得し、このカーソル位置をユーザによる指定位置とみなして指定位置の前後の文字列を取得する。このとき取得する文字列は、例えば、指定位置を含む一文を構成する文字列であってよい。図2の例では、指定位置を含む一文「右肺に高吸収域が見られます。」が取得される。指定位置を含む一文は、例えば、指定位置から前方向および後方向の文字列を一文字ずつ調べて、文の区切りを示す記号(句点、感嘆符、疑問符など)を発見した時点で、指定位置と当該記号との間の文字列を取得することで得られる。
なお、本実施形態の例の説明において、指定位置の「前後」の文字列とは、横書きの文書であれば指定位置の「左右」の文字列を意味し、縦書きの文書であれば指定位置の「上下」の文字列を意味する。
後続文字列推測部140は、処理対象のテキストにおける指定位置の後に続く文字列の候補を、予め定められた推測規則に従って推測する。図2の例の対象テキストの場合、後続文字列推測部140は、指定位置までの文字列「右肺に」の後に続く文字列の候補を推測する。本実施形態の例では、後続文字列推測部140は、参照データ記憶部110が備える文例辞書114を参照して指定位置の後続文字列の候補を推測する。文例辞書114は、文書記憶部100に記憶された電子文書に含まれる複数の文を記憶した辞書である。文例辞書114は、さらに、各文について、文中の単語の区切りおよび各単語の品詞などの文法上の役割を記憶しておいてもよい。後続文字列推測部140は、例えば、処理対象のテキストの指定位置までの文字列を検索キーとして文例辞書114を検索し、検索キーの文字列を含む文において当該文字列に続く単語または文節を特定する。そして、特定された単語または文節のうち出現頻度が予め設定された閾値以上であるものを指定位置の後続文字列の候補とする。このように求めた候補に対し、出現頻度が大きい順に順位付けしてもよい。あるいは、例えば、各候補に対し、出現頻度に基づくスコアを決定してもよい。なお、後続文字列推測部140が指定位置の後続文字列を推測する方法は上述の例に限られず、従来から知られている他の種々の手法を用いてよい。
テキスト分解部150は、対象テキスト取得部130が取得した処理対象のテキストを予め定められた解析規則に従って解析し、文を構成する要素ごとに分解する。本実施形態の例では、テキスト分解部150は、参照データ記憶部110が備える解析辞書112を参照し、自然言語処理の分野で既知の形態素解析の手法を用いて処理対象のテキストを形態素に分解する。本例の解析辞書112は、単語と当該単語の文法上の役割などを表す情報とを対応づけて記憶すると共に、日本語の文法規則を記憶した辞書である。図2の例の処理対象テキストの場合、テキスト分解部150は、解析辞書112を参照して、「右肺に高吸収域が見られます。」との一文を、図3に例示するように単語ごとに分解する。テキスト分解部150は、また、後続文字列推測部140が推測した後続文字列の候補を解析して分解することもある。例えば、後続文字列推測部140が図2の例の指定位置の後続文字列の候補として「著明な」を推測した場合、テキスト分解部150は、この文字列を形態素解析して、「著明」および「な」の単語ごとに分解する。
連結表現評価部160は、後続文字列推測部140が推測した後続文字列の候補のそれぞれと、処理対象のテキストにおける指定位置の後の文字列をテキスト分解部150が分解した要素それぞれと、の組について、当該候補に当該要素以降の処理対象のテキスト中の文字列を連結した表現の自然言語としての妥当性を評価する。言い換えると、各表現の尤もらしさを評価する。
以下、連結表現評価部160による評価対象の表現の具体例を説明する。図2の例の処理対象テキストが図3の例のように分解され、指定位置までの文字列「右肺に」の後続文字列の候補として「著明な」が推測された場合を考える。本例において、連結表現評価部160は、処理対象のテキストにおける指定位置の後の単語(要素)のうち、「高吸収」,「域」,「が」,「見られ」を評価対象とする。図4を参照し、指定位置までの文字列「右肺に」に後続文字列の候補「著明な」が続き、「著明な」の後に、指定位置の後の評価対象の各単語以降の文字列を連結した表現それぞれの妥当性が評価される。図4の例では、各破線矢印a,b,c,dにより連結される表現「右肺に著明な高吸収域が見られます。」,「右肺に著明な域が見られます。」,「右肺に著明なが見られます」,「右肺に著明な見られます。」のそれぞれについて評価値が求められる。
図4を参照する上述の説明からわかるように、本実施形態の例では、連結表現評価部160において、後続文字列の候補を処理対象テキストの指定位置に挿入した表現(図4の破線矢印a参照)だけでなく、処理対象テキスト中の一部の文字列を後続文字列の候補で置換した表現(図4の破線矢印b,c,d参照)が生成され、生成された各表現の妥当性が評価される。
再び図1を参照し、連結表現評価部160は、参照データ記憶部110が備える評価用データ116を用いて、予め定められた評価規則に従って各表現の評価値を求める。評価用データ116は、各表現の評価値を求めるために必要なデータであり、予め生成されて参照データ記憶部110に記憶される。評価用データ116の内容は、連結表現評価部160が用いる評価規則に応じて異なる。評価規則としては、自然言語処理の分野において、表現の自然言語としての妥当性を評価する場合に従来から用いられている手法を用いてよい。一例として、Nグラムモデルなどの確率言語モデルを予め構成しておき、この確率言語モデルに従って各表現の出現確率の推定値を求めて各表現の評価値としてもよい。この例の場合、評価用データ116は、確率言語モデルを定める情報を含む。確率言語モデルを定める情報は、例えば、各単語の出現頻度、および、ある単語の後に他の単語が続いて出現する頻度などを含む。評価規則の他の例では、ある文法に従って文字列の構文を解析する構文解析の手法を用いてもよい。構文解析の手法が用いられる場合、評価用データ116は、処理対象テキストの言語(例えば日本語)の文法規則を表す情報と当該言語の単語の辞書を含む。連結表現評価部160は、評価対象の各表現について、評価用データ116中の文法規則および辞書を参照して構文解析を行い、構文解析の結果に基づいて各表現の評価値を決定する。例えば、構文解析に成功すれば自然言語の表現として妥当である旨を表す値を、構文解析に失敗すれば自然言語の表現として妥当でない旨を表す値を当該表現の評価値とする。
出力処理部170は、情報処理装置10における処理の結果を出力する処理を行う。例えば、出力処理部170は、連結表現評価部160が求めた各表現の評価値に従って、出力対象の表現を選択し、選択した表現を図示しない表示装置に表示させる。このとき、出力処理部170は、選択した表現を、評価値の大きい順に、つまり、自然言語としての妥当性が高い順に表示させてもよい。また、後続文字列推測部140において複数の後続文字列の候補が推測され、これらの候補が順位付けされているか、あるいは各候補にスコアが付与されている場合、出力処理部170は、これらの候補の順位またはスコアをさらに考慮して出力対象の表現を選択してもよい。表示の態様の具体例は後述する。
修正テキスト生成部180は、連結表現評価部160による評価結果に基づいて出力処理部170が出力した表現の中から1つの表現をユーザが選択した場合に、入力受付部120を介してユーザの選択した表現を特定し、処理対象のテキストを選択された表現に置換する処理を行う。修正テキスト生成部180の処理により、処理対象のテキストを含む電子文書において、処理対象のテキストが選択された表現に修正される。
以下、情報処理装置10の処理の例を説明する。図5は、情報処理装置10が行う処理の手順の例を示すフローチャートである。情報処理装置10は、例えば、ユーザが電子文書中の特定の位置を指定する入力を行った場合に、図5の例の手順の処理を開始する。
まず、入力受付部120は、ユーザが入力装置を用いて指定した電子文書中の指定位置を取得する(ステップS10)。
入力受付部120から指定位置を取得した対象テキスト取得部130は、指定位置の前後の文字列を取得して処理対象テキストとする(ステップS12)。本実施形態の例において、対象テキスト取得部130は、ステップS12で、指定位置を含む一文を構成する文字列を取得する。例えば、指定位置の前後で最初に現れる文の区切り記号(句点、感嘆符、疑問符など)と、指定位置と、の間の文字列を取得することで指定位置を含む一文が得られる。
テキスト分解部150は、ステップS12で取得された処理対象テキストを解析して、それぞれ、文を構成する要素に分解する(ステップS14)。本実施形態の例では、テキスト分解部150は、ステップS14で、解析辞書112を参照して形態素解析を行い、処理対象テキストを単語ごとに分解する。
入力受付部120から指定位置を取得した後続文字列推測部140は、指定位置までの文字列に続く文字列の候補(以下、単に「後続候補」とも呼ぶ)を推測する(ステップS16)。本実施形態の例では、ステップS14で、後続文字列推測部140は、まず、指定位置の直前の単語または文節の文字列を検索キーとして文例辞書114を検索する。そして、検索キーの文字列を含む文例辞書114中の文において、検索キーの文字列に続く単語または文節を特定し、特定された単語または文節のうち出現頻度が予め設定された閾値以上であるものを後続候補とする。検索キーの文字列は、テキスト分解部150によるステップS14の分解処理の結果を参照して決定すればよい。例えば、指定位置の直前の単語から順に各単語の品詞を調べて、最初に現れる自立語(名詞、動詞など、単独で文節を構成可能な単語)、および当該自立語と指定位置との間に位置する単語を含む文字列を検索キーとすればよい。また、後続文字列推測部140は、複数の後続候補が得られた場合、例えば各後続候補の出現頻度に応じて、複数の後続候補を順位付けしてもよい。あるいは、各後続候補の出現頻度に基づいて各後続候補のスコアを決定してもよい。各後続候補のスコアは、当該後続候補が指定位置までの文字列に続く可能性の高さを表す値となる。なお、後続文字列推測部140は、テキスト分解部150に依頼して、求めた後続候補を単語に分解させてもよい。
連結表現評価部160は、ステップS16で推測された後続候補の中から1つを選択し(ステップS18)、選択した後続候補について連結表現評価処理を行う(ステップS20)。図6に、図5のステップS20の連結表現評価処理の詳細手順の例を示す。図5のステップS20が開始されると、図6の例の手順の処理が開始される。
図6を参照し、連結表現評価部160は、まず、処理対象テキストにおける指定位置の後の要素のうち、評価対象とする要素を特定する(ステップS200)。本実施形態の例では、指定位置の後、1つの文節を構成する単語、および、この文節の直後の単語を評価対象とする。図3に例示する分解された処理対象テキストの場合、指定位置の後の文節「高吸収域が」に含まれる単語(「高吸収」,「域」,「が」)および当該文節の直後の単語「見られ」が評価対象となる。他の実施形態の例では、指定位置の後、予め設定された個数の要素を評価対象としてもよい。さらに他の実施形態の例では、指定位置の後のすべての要素を評価対象としてもよい。
次に、評価対象の要素を1つ選択し(ステップS202)、選択した要素以降の文字列を後続候補に連結した表現を生成する(ステップS204)。図3を参照する上述の例の場合に、評価対象の単語のうちの1つである「高吸収」をステップS202で選択したとし、後続候補が「著明な」であるとすると、連結表現評価部160は、「著明な」に「高吸収」以降の文字列を連結(図4の破線矢印a参照)した表現「右肺に著明な高吸収域が見られます。」を生成する。
ステップS204の後、連結表現評価部160は、生成した表現が元の文字列の表現と同一であるか否かを判定する(ステップS206)。
例えば、図3の例の処理対象テキストについて、後続候補が「高吸収」であり、ステップS202で単語「高吸収」が選択された場合、図7に示すように、ステップS204で生成される表現「右肺に高吸収域が見られます。」は、元の処理対象テキストの表現と同一になる。このような例では、ステップS206でYES判定されて、処理はステップS202に戻り、未処理の評価対象の要素の1つが選択されてステップS204以下の処理が繰り返される。
一方、図3および図4を参照する上述の例の表現「右肺に著明な高吸収域が見られます。」の場合のように、生成した表現が元の処理対象テキストの表現と異なる場合、連結表現評価部160は、ステップS204で生成した表現の自然言語としての妥当性を表す評価値を求める(ステップS208)。ステップS208で、連結表現評価部160は、参照データ記憶部110の評価用データ116を参照し、予め定められた評価規則に従って、ステップS204で生成した表現の評価値を求める。上述の確率言語モデルを用いる例において図4に例示する表現「右肺に著明な高吸収域が見られます。」を評価する場合、例えば、評価用データ116を用いて、後続候補「著明な」の後に文字列「高吸収域が」が出現する確率を求めて評価値とすればよい。また、上述の構文解析を行う例の場合、文法規則および辞書を含む評価用データ116を用いて、表現「右肺に著明な高吸収域が見られます。」に対して構文解析を行い、構文解析の成否に応じて当該表現の評価値を求めればよい。
ステップS208の後、ステップS200で特定した評価対象の要素のすべてについて処理済であれば(ステップS210でYES)、図6の例の手順の連結表現評価処理は終了する。すべてについて処理済みでなければ(ステップS210でNO)、ステップS202に戻って未処理の評価対象の要素を選択し、ステップS204以降の処理が繰り返される。
再び図5を参照し、ステップS16で推測された後続候補のすべてについて連結表現評価処理(ステップS20,図6)が行われるまで(ステップS22でYES判定されるまで)、後続候補の選択(ステップS18)および連結表現評価処理(ステップS20)が繰り返される。
すべての後続候補について連結表現評価処理が終了すると(ステップS22でYES)、出力処理部170は、出力対象の表現を決定する(ステップS24)。ステップS24で、出力処理部170は、各後続候補と連結表現評価部160の評価対象の各要素との組み合わせに対して連結表現評価処理で求められた評価値を用いて出力対象の表現を決定する。また、出力処理部170は、ステップS16で推測された複数の後続候補が順位付けされている場合または各後続候補のスコアが決定されている場合、その順位またはスコアをさらに考慮して出力対象の表現を決定してもよい。
以下、図8A〜図8Dを参照し、ステップS24の具体例を説明する。図8A〜図8Dは、後続候補として、「著明な」,「高吸収」,「低吸収」,「腫瘍」の4つがステップS16で推測された場合に、各後続候補について連結表現評価処理(ステップS20,図6)で求められた評価値の例を示す。図8Aは、後続候補「著明な」を含む表現の評価値の例であり、図4と同様の図において各破線矢印に対応する評価値を示す。図8Bは、後続候補「高吸収」を含む表現の評価値の例を示す。図8Bでは、後続候補「高吸収」に処理対象テキスト中の各単語「高吸収」,「が」,「見られ」以降の文字列を連結した各表現の評価値を示す。図8Bを参照すると、後続候補「高吸収」に処理対象テキスト中の単語「域」を連結した表現の評価値は算出されない。元の処理対象テキストの表現と同一であるため、図6の例の連結表現評価処理のステップS206でYES判定され、評価値の算出(ステップS208)が行われないからである。図8Cは、後続候補「低吸収」に処理対象テキスト中の各単語「高吸収」,「域」,「が」,「見られ」以降の文字列を連結した各表現の評価値を示す。同様に、図8Dは、後続候補「腫瘍」に処理対象テキスト中の各単語以降の文字列を連結した各表現の評価値を示す。
出力対象の表現の決定において後続候補の順位およびスコアを考慮しない場合、例えば、出力処理部170は、評価値が予め設定された閾値以上である表現を出力対象として選択する。一例として、この閾値を0.4とすると、後続候補「著明な」については、評価値0.6の表現「右肺に著明な高吸収域が見られます。」が選択される(図8A)。後続候補「高吸収」については、評価値0.4以上の表現が存在しないので、出力対象として選択されない(図8B)。後続候補「低吸収」については、評価値0.6の表現「右肺に著明な低吸収域が見られます。」が選択される(図8C)。後続候補「腫瘍」については、評価値0.5の表現「右肺に腫瘍が見られます。」が選択される(図8D)。
出力対象の表現の決定において後続候補の順位またはスコアを考慮する場合、例えば、出力処理部170は、各表現の評価値を後続候補の順位またはスコアに応じて重み付けした値が予め設定された閾値以上であるか否かに従って出力対象の表現を決定してもよい。
出力対象の表現を決定すると、出力処理部170は、決定した出力対象の表現を出力する(ステップS26)。本実施形態の例では、ステップS26で、出力対象の表現を図示しない表示装置に表示させる。例えば、処理対象テキストを含む電子文書が表示された表示画面と共に、出力対象の表現を表示させる。このとき、例えば、出力対象の表現をその評価値が大きい順に並べたリストの形式で表示させてもよい。また例えば、後続候補の順位またはスコアに応じて重み付けした評価値が大きい順に出力対象の表現を並べて表示させてもよい。出力処理部170は、例えば、後述の各例のような表示の態様を指示する表示制御情報を生成して表示装置に出力することでステップS26の処理を実現する。
図9〜図11に、出力対象の表現を表示させる態様の各種の例を示す。図9〜図11は、図8A〜図8Dを参照して説明したステップS24の具体例において、表現「右肺に著明な高吸収域が見られます。」(図8A),「右肺に低吸収域が見られます。」(図8B),「右肺に腫瘍が見られます。」(図8C)が出力対象として選択された場合の、ステップS26における表示の具体例である。
図9および図10は、出力対象の表現を列挙すると共に、後続候補の文字列、元の処理対象テキスト中の文字列、および処理対象テキストにおいて後続候補により置換された文字列を互いに異なる態様で表示する例を示す。図9の例では、後続候補の文字列を太字で表示し、後続候補により置換された文字列を後続候補の後にカッコ書きで表示し、その他の処理対象テキスト中の文字列を後続候補の文字列よりも細い線のフォントで表示する。図10の例では、後続候補により置換された文字列の上に線を引いて表示する。図10の例において、後続候補により置換された文字列の他の文字列の表示の態様は、図9の例と同様である。なお、図9または図10の例の表示画面は、元の処理対象テキストを含む電子文書を表示させた表示画面(図2参照)と共に表示装置に表示させてよい。例えば、図2の例の電子文書の表示画面における処理対象テキストの表示位置の付近に図9または図10の例の表示画面を表示させることが考えられる。
図11の例では、処理対象テキストの文字列と、出力対象の表現の文字列と、の間の共通部分の表示位置を合わせて表示する。図11の例では、処理対象テキストおよび出力対象の表現のすべてにおいて共通する文字列は、「が見られ」である。処理対象テキストおよび出力対象の各表現について、文字列「が見られ」が表示画面の左右方向でほぼ同じ位置になるように表示されている。また、出力対象の表現のうち、後続候補の前の文字列(つまり、指定位置までの文字列)および前述の共通部分「が見られ」の後の文字列の表示は省略されている。また、出力対象の表現において、各後続候補の文字列は、他の文字列よりも太い線のフォントで表示されている。なお、図11の例において、出力対象の表現中の後続候補の他の文字列を、後続候補の文字列および処理対象テキストの文字列よりも淡い(または薄い)色で表示させてもよい。
図9〜図11を参照して説明した例の他の態様で表示を行ってもよい。例えば、後続候補の文字列、後続候補により置換された処理対象テキスト中の文字列、およびその他の文字列を互いに異なる色で表示させてもよい。また、これらの文字列を特に区別せずに、単に出力対象の表現を表示させるだけでもよい。
図9〜図11を参照して説明した出力処理(図5のステップS26)が終了すると、図5の例の手順の処理は終了する。
情報処理装置10は、図5のステップS26の出力処理における表示画面を確認したユーザの指示を受け付けて、表示画面中の表現によって電子文書中の処理対象テキストを修正することもある。例えば、図9〜図11の例の表示画面において、ユーザが入力装置を用いて3行目の表現を選択すると、情報処理装置10の入力受付部120は、選択された表現を修正テキスト生成部180に通知する。この通知を受けた修正テキスト生成部180は、3行目の文に対応する表現「右肺に腫瘍が見られます。」を生成し、処理対象テキストを含む電子文書において、処理対象テキストを生成したテキストで置換する。これにより、電子文書における元の処理対象テキスト「右肺に高吸収域が見られます。」は、文字列「右肺に腫瘍が見られます。」に修正される。
以上で説明した実施形態の例の処理では、処理対象テキストの指定位置に新たな単語や文節を挿入した表現だけでなく、指定位置以降の文字列の一部を他の文字列に置換した表現も生成され得る。これらの表現を出力することにより、処理対象テキストの修正の候補がユーザに提示される。
以上に例示した情報処理装置10は、典型的には、汎用のコンピュータにて上述の情報処理装置10の各部の機能又は処理内容を記述したプログラムを実行することにより実現される。コンピュータは、例えば、ハードウエアとして、図12に示すように、CPU(中央演算装置)80、メモリ(一次記憶)82、各種I/O(入出力)インタフェース84等がバス86を介して接続された回路構成を有する。また、そのバス86に対し、例えばI/Oインタフェース84経由で、ハードディスクドライブ(HDD)88やCDやDVD、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体を読み取るためのディスクドライブ90が接続される。このようなドライブ88又は90は、メモリに対する外部記憶装置として機能する。実施形態の処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク経由で、HDD88等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されCPUにより実行されることにより、実施形態の処理が実現される。
なお、以上では、情報処理装置10を1台のコンピュータにより実現する例の実施形態を説明したが、情報処理装置10の上述の例の各種の機能を複数のコンピュータに分散させて実現してもよい。
10 情報処理装置、80 CPU、82 メモリ、84 I/Oインタフェース、86 バス、88 HDD、90 ディスクドライブ、100 文書記憶部、110 参照データ記憶部、120 入力受付部、130 対象テキスト取得部、140 後続文字列推測部、150 テキスト分解部、160 連結表現評価部、170 出力処理部、180 修正テキスト生成部、200 表示画面。

Claims (7)

  1. 処理対象の文字列である対象文字列における位置である指定位置を受け付ける受付ステップと、
    複数の文を記憶した辞書記憶手段を参照し、前記対象文字列における前記指定位置までに含まれる文字列を検索キーとし、前記辞書記憶手段に記憶されている前記複数の文のうち前記検索キーの文字列を含む文において、前記検索キーの文字列に続く文字列を、前記対象文字列における前記指定位置までの文字列に続く文字列の候補である候補文字列として推測する推測ステップと、
    前記対象文字列における前記指定位置の後の文字列に対して形態素解析を行う解析ステップと、
    前記形態素解析の結果に基づいて、前記対象文字列における前記指定位置の後の文字列を文の構成要素に対応する文字列である要素文字列に分解する分解ステップと、
    前記候補文字列と前記要素文字列との組のそれぞれについて、予め定められた評価規則に基づいて、当該候補文字列に当該要素文字列以降の前記対象文字列中の文字列が続く表現を評価し、当該表現の自然言語としての妥当性を表す評価値を求める評価ステップと、
    前記評価値が予め設定された閾値以上である前記表現を出力する出力ステップと、
    をコンピュータに実行させるためのプログラム。
  2. 前記出力ステップで出力された表現のうちの1つを選択するユーザの入力に応じて、前記対象文字列における前記指定位置以降の文字列を前記入力で選択された表現で置換した文字列を生成する生成ステップ、
    を前記コンピュータにさらに実行させるための、請求項1に記載のプログラム。
  3. 前記出力ステップにおいて、さらに、前記評価値が前記閾値以上である前記表現が複数存在する場合に、前記評価値がより高い前記表現を優先して表示手段に表示させるよう制御する表示制御情報を出力する、
    ことを特徴とする請求項1または2に記載のプログラム。
  4. 前記評価ステップにおいて、前記対象文字列に含まれる表現と同一の表現については前記評価値を求めない、
    ことを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 前記出力ステップにおいて、さらに、前記評価値が前記閾値以上である前記表現における前記候補文字列と前記対象文字列中の文字列とを異なる態様で表示手段に表示させるよう制御する表示制御情報を出力する、
    ことを特徴とする請求項1から4のいずれか1項に記載のプログラム。
  6. 前記出力ステップにおいて、さらに、前記対象文字列において、前記対象文字列の前記指定位置と、前記評価値が前記閾値以上である前記表現に含まれる前記要素文字列と、の間に配置された前記要素文字列を、当該表現と共に表示手段に表示させるよう制御する表示制御情報を出力する、
    ことを特徴とする請求項1から5のいずれか1項に記載のプログラム。
  7. 処理対象の文字列である対象文字列における位置である指定位置を受け付ける受付手段と、
    複数の文を記憶した辞書記憶手段を参照し、前記対象文字列における前記指定位置までに含まれる文字列を検索キーとし、前記辞書記憶手段に記憶されている前記複数の文のうち前記検索キーの文字列を含む文において、前記検索キーの文字列に続く文字列を、前記対象文字列における前記指定位置までの文字列に続く文字列の候補である候補文字列として推測する推測手段と、
    前記対象文字列における前記指定位置の後の文字列に対して形態素解析を行う解析手段と、
    前記形態素解析の結果に基づいて、前記対象文字列における前記指定位置の後の文字列を文の構成要素に対応する文字列である要素文字列に分解する分解手段と、
    前記候補文字列と前記要素文字列との組のそれぞれについて、予め定められた評価規則に従って、当該候補文字列に当該要素文字列以降の前記対象文字列中の文字列が続く表現を評価し、当該表現の自然言語としての妥当性を表す評価値を求める評価手段と、
    前記評価値が予め設定された閾値以上である前記表現を出力する出力手段と、
    を備えることを特徴とする情報処理装置。
JP2010016307A 2010-01-28 2010-01-28 プログラムおよび情報処理装置 Expired - Fee Related JP5482236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010016307A JP5482236B2 (ja) 2010-01-28 2010-01-28 プログラムおよび情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010016307A JP5482236B2 (ja) 2010-01-28 2010-01-28 プログラムおよび情報処理装置

Publications (2)

Publication Number Publication Date
JP2011154590A JP2011154590A (ja) 2011-08-11
JP5482236B2 true JP5482236B2 (ja) 2014-05-07

Family

ID=44540489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010016307A Expired - Fee Related JP5482236B2 (ja) 2010-01-28 2010-01-28 プログラムおよび情報処理装置

Country Status (1)

Country Link
JP (1) JP5482236B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5623380B2 (ja) * 2011-12-27 2014-11-12 日本電信電話株式会社 誤り文修正装置、誤り文修正方法およびプログラム
CN106774982B (zh) * 2012-06-04 2020-06-09 华为终端有限公司 一种提示字符输入的方法和电子设备
JP6155821B2 (ja) 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2015093632A1 (ko) 2013-12-16 2015-06-25 주식회사 큐키 전자 장치, 오타 수정 방법 및 이를 수행하기 위한 프로그램을 포함하는 컴퓨터로 판독 가능한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105185A (ja) * 1993-10-01 1995-04-21 Matsushita Electric Ind Co Ltd 文書作成装置
JP2004152323A (ja) * 2004-01-20 2004-05-27 Fujitsu Ltd 仮名漢字変換装置及び方法

Also Published As

Publication number Publication date
JP2011154590A (ja) 2011-08-11

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
US20080133444A1 (en) Web-based collocation error proofing
JP5513898B2 (ja) 共有された言語モデル
US9218066B2 (en) Method for character correction
JP5482236B2 (ja) プログラムおよび情報処理装置
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN112232057B (zh) 基于文本扩展的对抗样本生成方法、装置、介质和设备
JP6589704B2 (ja) 文境界推定装置、方法およびプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP5630138B2 (ja) 文作成プログラム及び文作成装置
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
JP2005228033A (ja) 文書検索装置および方法
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法
JP2013068983A (ja) 情報処理装置及び情報処理プログラム
JP7302267B2 (ja) 検索プログラム、検索方法及び検索装置
JP2010020638A (ja) 言語処理装置および言語処理方法
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP2008032873A (ja) キー入力練習装置及びキー入力練習用コンピュータプログラム
JP3417837B2 (ja) 文章校正支援システムおよびそのシステムでの処理をコンピュータに行わせるためのプログラムを格納した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140203

R150 Certificate of patent or registration of utility model

Ref document number: 5482236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees