JP6589704B2 - 文境界推定装置、方法およびプログラム - Google Patents

文境界推定装置、方法およびプログラム Download PDF

Info

Publication number
JP6589704B2
JP6589704B2 JP2016053510A JP2016053510A JP6589704B2 JP 6589704 B2 JP6589704 B2 JP 6589704B2 JP 2016053510 A JP2016053510 A JP 2016053510A JP 2016053510 A JP2016053510 A JP 2016053510A JP 6589704 B2 JP6589704 B2 JP 6589704B2
Authority
JP
Japan
Prior art keywords
word string
replacement
sentence
dictionary
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016053510A
Other languages
English (en)
Other versions
JP2017167882A (ja
Inventor
潔 山端
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2016053510A priority Critical patent/JP6589704B2/ja
Publication of JP2017167882A publication Critical patent/JP2017167882A/ja
Application granted granted Critical
Publication of JP6589704B2 publication Critical patent/JP6589704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理において文の境界を推定する技術に関する。
自然言語を文単位で解析する場合、まず、文の境界を推定する処理が必要である。以降、文の境界を、単に文境界とも記載する。文境界は、一般的に、文末を表す文末記号の直後に存在するが、文末記号は、文末でない箇所に出現する場合がある。例えば、英文におけるピリオドの文字は、文末にも出現するが、単語の省略形等に含まれることにより文の途中に出現する場合もある。そこで、文境界を推定する処理では、どのように文境界を判断するかが問題となる。
このような問題に関連して文境界を推定する技術の一例が、特許文献1に記載されている。特許文献1に記載された関連技術は、ピリオドを含む省略形等の単語を辞書に登録しておく。そして、この関連技術は、文章においてスペースで区切られた文字列が、ピリオドを含み且つ辞書に登録されている場合、そのピリオドの直後に文境界は存在しないと判断する。また、この関連技術は、スペースで区切られた文字列が辞書に登録されておらず且つその末尾がピリオドである場合、そのピリオドの直後に文境界が存在すると判断する。
ところが、文末記号を含む単語には、文末に出現することがない単語と、文の途中にも文末にも出現し得る単語とがある。例えば、「Mr.」という「Mister」の省略形を表す単語は、必ず文の途中に出現し、文末に出現することはない。一方、「U.S.」という「United States」の省略形を表す単語は、文の途中にも文末にも出現し得る。したがって、文末記号を含む単語を辞書に登録するだけでは、文境界を正しく推定できない場合がある。
そこで、特許文献1に記載された関連技術を応用し、文末記号を含む複合語を辞書に登録しておく手法が考えられる(特許文献2の0006段落参照)。この手法では、文末記号を含む単語のうち「Mr.」のように文末に出現することがない単語については、その単語そのものが種別1として辞書に登録される。また、文末記号を含む単語のうち「U.S.」のように文の途中にも文末にも出現し得る単語については、その単語を含む「U.S. President」等の複合語が種別2として辞書に登録される。
この場合、次の判断基準により、文章に出現する文末記号の直後に文境界が存在するか否かが判断可能となる。
・基準1:文章に出現する文末記号が、種別1として辞書に登録されている単語にマッチする範囲に含まれていれば、その直後に文境界は存在しないと判断される。
・基準2:文章に出現する文末記号が、種別2として辞書に登録されている単語にマッチする範囲に含まれており、かつ、その範囲の末尾の文字でなければ、その直後に文境界は存在しないと判断される。
・基準3:基準1および基準2に該当しない場合、一般的な文境界の判断基準が適用される。
一般的な文境界の判断基準について説明する。一般的な文境界の判断基準では、例えば、文章に出現する文末記号について、以下の条件1および2が全て満たされる場合には、その文末記号の直後に文境界は存在すると判断される。また、条件1および2の少なくとも一方が満たされない場合には、その文末記号の直後に文境界は存在しないと判断される。
・条件1:その文末記号の直後に文字が存在するならば、その文字は空白文字である。
・条件2:その文末記号の直後に単語が存在するならば、その単語は大文字で始まる。
このような、文末記号を含む複合語を辞書に登録しておく手法を用いて、文境界を推定する具体例について説明する。ここでは、辞書には、「Mr.」が種別1の単語として登録され、「U.S. President」および「U.S. Senate」が種別2の単語として登録されているものとする。
このとき、「A former U.S. President gave a speech at the U.S. Senate yesterday.」という文章が入力されたとする。この場合、一番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. President」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。同様に、二番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. Senate」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。
また、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この場合、「U.S.」の「U」の直後のピリオドは、辞書に登録されたエントリにマッチする範囲に含まれておらず、上記の基準1および基準2に該当しない。そこで、このピリオドには、一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」を満たさないため、この直後に文境界は存在しないと判断される。また、「U.S.」の「S」の直後のピリオドにも、同様に一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」および条件2「直後の単語Japanが大文字で始まる」を満たすため、この直後に文境界が存在すると判断される。
また、文の境界を推定する技術の他の一例が、特許文献2に記載されている。特許文献2に記載された関連技術は、まず、単語に含まれていない文末記号を用いて文を切り出す。そして、この関連技術は、切り出した文の途中に文末記号が存在する場合、その文を構成する各単語について品詞を推定する。そして、この関連技術は、切り出した文において途中の文末記号の前方および後方にそれぞれ主動詞が出現する場合は、その文末記号の直後に文境界が存在すると推定する。また、この関連技術は、前方および後方のいずれか一方にのみ主動詞が出現する場合は、その文末記号の直後に文境界が存在しないと推定する。
特開平11−282841号公報 特開2003−108550号公報
しかしながら、上述の関連技術には、以下の問題がある。
特許文献1に記載された関連技術は、文末記号を含む単語のうち文の途中にも文末にも出現し得る単語を考慮していない。そのため、特許文献1に記載された関連技術は、文末記号を末尾に含む単語が文末に出現した場合、その直後に文境界はないと判断してしまう。
また、特許文献2に記載された関連技術は、切り出した文の途中に文末記号が出現する場合、切り出した文を構成する各単語について品詞を推定する処理が必要となる。品詞推定処理としては、例えば、品詞情報が付加されたコーパスを用いた確率的手法を用いることが示されている。このような品詞推定処理は、文境界を推定する装置の負荷を大きくするという問題がある。
また、文末記号を含む複合語を辞書に登録しておく手法は、文末記号を含む複合語をできるだけ多く辞書に登録しておくことに手間がかかる、という問題がある。
この問題について、具体例を用いて説明する。例えば、「U.S.」のフルスペルである「United States」を含む複合語は、数多くある。例えば、「United States President」、「United States Senate」、「United States Department of State」、「United States Department of Defense」などが挙げられる。これらの複合語全てについて、「United States」を、文末記号を含む省略形である「U.S.」に置き換えた複合語を、辞書に登録しておくことは、手間がかかる。この問題は、文末記号を含む単語のフルスペル表記が高い造語力を持つ場合に特に顕著となる。
また、文末記号を含む複合語を辞書に登録しておく手法では、本来は文境界が存在しないはずの箇所で、文境界が存在すると推定することを回避するためには、文末記号を含む複合語をより多く辞書に登録する必要がある。しかしながら、この手法は、より多くの複合語を辞書に登録するほど、本来は文境界が存在するはずの箇所で、文境界が存在しないと推定してしまう可能性を増大させる。
例えば、「Universal Studios(登録商標) Japan」を表現する複合語として、「U.S. Japan」という複合語が辞書に登録されていることを想定する。このとき、例えば、「We enjoyed ourselves a lot yesterday at the U.S. Japan.」という文章が入力されたとする。
この場合、この手法は、「U.S. Japan」という複合語が辞書に登録されていることにより、「U.S.」と「Japan」との間には文境界が存在しないと判断し、全体を一文として正しく認定できる。
しかし、文字列「U.S. Japan」は、必ずしも「Universal Studios Japan」を意味するとは限らない。例えば、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この文章では、「U.S.」は「United States」を意味しており、「U.S.」と「Japan」との間に、文の境界が存在する。しかし、この手法は、辞書に「U.S. Japan」という複合語が登録されているため、「U.S.」と「Japan」との間に、文の境界は存在しないと判断してしまう。
このように、文末記号を含む複合語を辞書に登録する手法は、辞書登録に手間がかかるだけでなく、複合語を登録した辞書を強化するほど、文境界の推定精度が落ちるという問題をかかえている。
本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することを目的とする。
本発明の文境界推定装置は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、を備える。
また、本発明の方法は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する。
また、本発明のプログラムは、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、をコンピュータ装置に実行させる。
本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することができる。
本発明の第1の実施の形態としての文境界推定装置の構成を示すブロック図である。 本発明の第1の実施の形態としての文境界推定装置のハードウェア構成の一例を示す図である。 本発明の第1の実施の形態において第1辞書に格納される情報の一例を示す図である。 本発明の第1の実施の形態において第2辞書に格納される情報の一例を示す図である。 本発明の第1の実施の形態としての文境界推定装置の動作を説明するフローチャートである。 本発明の第1の実施の形態としての文境界推定装置による動作の具体例を説明する図である。 本発明の第2の実施の形態としての文境界推定装置の構成を示すブロック図である。 本発明の第2の実施の形態としての文境界推定装置の動作を説明するフローチャートである。 本発明の第2の実施の形態において第1辞書に格納される情報の一例を示す図である。 本発明の第2の実施の形態において第2辞書に格納される情報の一例を示す図である。 本発明の第2の実施の形態としての文境界推定装置による動作の具体例を説明する図である。 本発明の第2の実施の形態としての文境界推定装置による動作の他の具体例を説明する図である。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
本発明の第1の実施の形態としての文境界推定装置1の機能ブロック構成を図1に示す。図1において、文境界推定装置1は、第1辞書11と、第2辞書12と、テキスト展開部13と、文境界推定部14とを備える。
ここで、文境界推定装置1は、図2に示すようなハードウェア要素によって構成可能である。図2において、文境界推定装置1は、CPU(Central Processing Unit)1001、メモリ1002、出力装置1003、および、入力装置1004を含む。メモリ1002は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等によって構成される。出力装置1003は、ディスプレイ装置やプリンタ等のように、情報を出力する装置によって構成される。入力装置1004は、キーボードやマウス、OCR(Optical Character Reader)装置等のように、ユーザ操作や情報の入力を受け付ける装置によって構成される。この場合、文境界推定装置1の各機能ブロックは、メモリ1002に格納されるコンピュータ・プログラムを読み込んで実行するとともに出力装置1003、入力装置1004の各部を制御するCPU1001によって構成される。なお、文境界推定装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
次に、各機能ブロックの詳細について説明する。
第1辞書11は、単語列を格納する。単語列とは、1つ以上の単語からなる意味のある文字列である。なお、複数の単語からなる単語列は、いわゆる複合語である。第1辞書11は、単独の単語や複合語等、対象分野において一般的に使用される単語列を格納している。特に、第1辞書11には、文末記号を含む単語列と同等の意味を表すよう文末記号を含まないで表された単語列そのものや、そのような単語列をさらに含む複合語が格納されていることが望ましい。ただし、第1辞書11は、そのような単語列だけでなく、その他の単語列を格納していてもよい。第1辞書11としては、対象分野における単独の単語だけでなく複合語も見出し語として含むような一般的な辞書を適用可能である。
図3は、文境界を推定する対象として英文が想定される場合に、第1辞書11に格納される情報の一例である。ここでは、「United States」、「United States President」、「United States Senate」、「Post Office」、「Post Office Box」等の単語列が登録されている。これらは、文末記号を含む単語列「U.S.」や「P.O.」と同等の意味を表すよう文末記号を含まないで表された単語列「United States」や「Post Office」そのものまたはそのような単語列を含む複合語である。英文では、頭字語、省略形または短縮形等と呼ばれる、文末記号であるピリオドを含む単語が用いられることが多い。そこで、このように、第1辞書11には、ピリオドを含む頭字語、省略形または短縮形として表現され得るフルスペル表記の単語列そのものや、そのようなフルスペル表記の単語列をさらに含む複合語が格納されている。
なお、図3では、説明のため、第1辞書11の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。
第2辞書12は、置換元単語列および置換先単語列を関連付けて格納する。置換元単語列とは、少なくとも1つの単語に文末記号が含まれる1つ以上の単語からなる意味のある文字列である。置換先単語列は、置換元単語列と同等の意味を表すよう、文末記号を含まずに表された1つ以上の単語からなる意味のある文字列である。
図4は、文境界を推定する対象として英文が想定される場合に、第2辞書12に格納される情報の一例である。ここでは、置換元単語列として「U.S.」というピリオドを含む省略形の単語に関連付けて、その省略形をスペルアウトしたフルスペル表記である「United States」という置換先単語列が格納されている。また、置換元単語列として「P.O.」というピリオドを含む省略形の単語に関連付けて、その省略形のフルスペル表記である「Post Office」という置換先単語列が格納されている。
この例のように、第2辞書12は、文末記号を含んで表現される最小単位の単語列(例えば、「U.S.」)を置換元単語列とするエントリを少なくとも格納すればよい。つまり、第2辞書12は、そのような置換元単語列をさらに含む複合語(例えば、「U.S. President」)を置換元単語列とするエントリを格納しなくてもよい。
なお、図4では、説明のため、第2辞書12の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。
テキスト展開部13は、第2辞書12に基づいて、オリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストを生成する。
なお、テキスト展開部13は、入力装置1004を介して入力されるテキストを、オリジナルテキストとして取得してもよい。あるいは、テキスト展開部13は、メモリ1002に格納されたテキストを、オリジナルテキストとして取得してもよい。また、この場合、テキスト展開部13は、対象となるテキストのメモリ1002における格納位置を表す情報を、入力装置1004を介して取得してもよい。また、テキスト展開部13は、ネットワークを介して接続された装置から入力されるテキストを、オリジナルテキストとして取得してもよい。その他、テキスト展開部13は、可搬型記憶媒体に記憶されたテキストを、オリジナルテキストとして取得してもよい。
文境界推定部14は、置換後テキストおよび第1辞書11に基づいて、オリジナルテキストにおける文境界を推定する。このとき、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合、その文末記号の直後は文境界でないと推定する。
具体的には、例えば、文境界推定部14は、置換後テキストにおいて第1辞書11に登録されている単語列にマッチする範囲を検出しておく。そして、文境界推定部14は、次の条件3および4がいずれも満たされる場合に、その直後が文境界でないと判断すればよい。
・条件3:オリジナルテキストにおける文末記号が、置換された置換元単語列に含まれる。
・条件4:置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録された単語列にマッチする範囲に含まれる。
なお、文境界推定部14は、オリジナルテキストにおける文末記号が、上記条件3および4のいずれか1つでも満たさない場合は、通常の文境界の推定処理を行う。通常の文境界の推定処理には、公知の技術を適用してもよい。
ただし、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にあっても、次の場合には、その直後が文境界でないとの判断を保留する。その場合とは、次の条件5および6がいずれも満たされる場合である。
・条件5:該当する文末記号が、オリジナルテキストにおいて、置換された置換元単語列の末尾の文字である。
・条件6:置換後テキストにおいて、その置換元単語列から置換された置換先単語列の末尾の単語と、その置換先単語列を含む第1辞書11の単語列にマッチする範囲の末尾の単語とが一致する。
この場合、文境界推定部14は、通常の文境界の推定処理によって、その文末記号の直後における文境界の有無を推定すればよい。
以上のように構成された文境界推定装置1の動作を、図5を参照して説明する。
図5では、まず、テキスト展開部13は、オリジナルテキストを取得する(ステップS1)。
次に、テキスト展開部13は、第2辞書12を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部13は、検索した置換元単語列に一致する文字列を、関連付けられた置換先単語列に置換することにより、置換後テキストを生成する(ステップS2)。
ここで、オリジナルテキストにおけるある文字列について、適用可能な複数の置換元単語列のエントリが、第2辞書12にあるとする。この場合、テキスト展開部13は、その箇所をそれぞれの置換先単語列で置換することにより、複数の置換後テキストを生成してもよい。適用可能な複数の置換元単語列があるケースとしては、例えば、次のようないくつかのケースが考えられる。1つ目は、同一の置換元単語列について、異なる置換先単語列が関連付けられた複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列に対して「United States」を置換先単語列として関連付けたエントリと、「Universal Studios」を置換先単語列として関連付けたエントリとがある場合等である。2つ目は、文字列として包含関係にある異なる置換元単語列に関する複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列のエントリと、「U.S. Japan」という置換元単語列のエントリがある場合等である。
次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする文字列を検出し、その範囲を記録する(ステップS3)。
次に、文境界推定部14は、オリジナルテキスト中の各文末記号に対して、その直後に文境界の有無を判断するステップS4〜S6の処理を実行する。
ここでは、文境界推定部14は、当該文末記号が、オリジナルテキストにおいて置換された置換元単語列の一部である場合、さらに次の判断を行う。この場合、文境界推定部14は、置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録済みの単語列にマッチする範囲に含まれるか否かを判断する(ステップS4)。
ただし、文境界推定部14は、該当する置換先単語列が第1辞書11に登録済みの単語列にマッチする範囲に含まれる場合でも、次のケースには、ステップS4の判断結果をNoとする。そのようなケースとは、この文末記号が、置換元単語列の末尾の文字であり、かつ、置換先単語列の最後の単語と、置換先単語列を含む第1辞書11に登録済みの単語列にマッチする範囲の最後の単語とが一致する場合である。
また、ステップS2において複数の置換後テキストが生成されている場合、文境界推定部14は、ステップS4における判断処理を、各々の置換後テキストを対象として実施してもよい。そして、この場合、文境界推定部14は、少なくとも1つの置換後テキストにおいての判断結果がYesとなった場合は、ステップS4全体としての判断結果をYesとしてもよい。一方、文境界推定部14は、全ての置換後テキストでの判断結果がNoとなった場合は、ステップS4全体としての判断結果をNoとしてもよい。
ここで、ステップS4でYesとなった場合について説明する。この場合、文境界推定部14は、オリジナルテキストにおいてこの文末記号の直後に文境界は無いと判断する(ステップS5)。
一方、ステップS4でNoとなった場合について説明する。この場合、文境界推定部14は、この文末記号について通常の文境界の推定処理を実行することにより、その直後における文境界の有無を推定する(ステップS6)。
前述のように、通常の文境界の推定処理には、公知の技術を適用してもよい。例えば、通常の文境界の推定処理としては、背景技術で説明した条件1および条件2を共に満たす場合に、その直後に文境界があると判断する処理を適用してもよい。
ステップS4〜S6の処理を、オリジナルテキストにおける全ての文末記号について完了すると、文境界推定部14は、推定した文境界の位置を表す情報を出力する(ステップS7)。
以上で、文境界推定部14は、動作を終了する。
次に、文境界推定装置1の動作を具体例で示す。ここでは、オリジナルテキストは英文であり、文末記号はピリオドである。また、第1辞書11および第2辞書12には、それぞれ、図3および図4に示した情報が格納されているものとする。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。
まず、テキスト展開部13は、図6に示すオリジナルテキストを取得したとする(ステップS1)。
次に、テキスト展開部13は、第2辞書12を参照することにより、図6に示すように、オリジナルテキストから置換後テキストを生成する(ステップS2)。
ここで、図6のオリジナルテキストにおいて、下線部は、置換元単語列の部分を示している。すなわち、このオリジナルテキストには、図4に示した第2辞書12におけるID:1の置換元単語列「U.S.」が、2箇所に出現している。この置換元単語列の出現位置は、オリジナルテキストの3単語目および10単語目である。テキスト展開部13は、これらの2箇所の「U.S.」を、第2辞書12において関連付けられた置換先単語列である「United States」に置換する。
図6の置換後テキストにおいて、二重下線部は、オリジナルテキストの置換元単語列から置換された置換先単語列の部分を示している。1つ目の「United States」は、置換後テキストの3〜4単語目に位置し、2つ目の「United States」は、置換後テキストの11〜12単語目に位置している。
次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図6では、破線の矩形で囲んだ部分が、第1辞書11に登録された単語列にマッチする範囲を示している。1つ目の3〜5単語目は、第1辞書11におけるID:2の単語列「United States President」にマッチする範囲である。2つ目の11〜13単語目は、第1辞書11におけるID:3の単語列「United States Senate」にマッチする範囲である。
次に、文境界推定部14は、オリジナルテキストの文末記号の各々に対して、当該文末記号の直後が文境界であるか否かの判断を繰り返す。
まず、文境界推定部14は、オリジナルテキストにおける1つ目のピリオドとして、3単語目の「U.S.」のUの直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された3単語目の置換元単語列「U.S.」に含まれている。また、この置換元単語列は、置換後テキストにおける3〜4単語目の置換先単語列「United States」に置換されている。さらに、置換後テキストにおいて、3〜5単語目は、第1辞書11に登録されたID:2の単語列「United States President」にマッチしている。
つまり、注目しているピリオドは、「置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部」に存在する。また、当該ピリオドは、置換元単語列の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
次に、文境界推定部14は、オリジナルテキストにおける2つ目のピリオドとして、3単語目の「U.S.」のSの直後のピリオドに注目する。このピリオドも、1つ目のピリオドと同様に、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States President」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、このピリオドは、置換元単語列「U.S.」の末尾の文字であるが、置換先単語列の最後の単語「States」は、第1辞書11に登録された単語列にマッチする範囲の最後の単語「President」とは異なる。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
同様に、文境界推定部14は、オリジナルテキストにおける3〜4番目のピリオドとして、10単語目の「U.S.」の中の2つのピリオドにそれぞれ注目する。これらのピリオドは、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States Senate」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、これらのピリオドは、それぞれ、置換元単語列の末尾の文字ではないか、または、置換先単語列の最後の単語「States」が、第1辞書11に登録された単語列にマッチする範囲の最後の単語「Senate」とは異なる。そこで、これらのピリオドについて、文境界推定部14によるステップS4の判断結果は、それぞれYesとなる。
そこで、文境界推定部14は、これらの3〜4つ目のピリオドの直後は、それぞれ文境界でないと判断する。
次に、文境界推定部14は、オリジナルテキストにおける5つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。
ここでは、文境界推定部14は、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「The」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、5つ目のピリオドの直後に文境界が存在すると判断する。
次に、文境界推定部14は、オリジナルテキストにおける6つ目のピリオドとして、「everyone」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。この「everyone」の直後のピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、6つ目のピリオドの直後に文境界が存在すると判断する。
そして、文境界推定部14は、図6に示すように、推定結果を表す情報を出力する。図6では、オリジナルテキストにおいて文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果を表す情報として出力している。つまり、オリジナルテキストにおいて、「yesterday」の次のピリオドの直後の位置、および、「everyone」の次のピリオドの直後の位置に、文境界が存在することが推定されている。
次に、本発明の第1の実施の形態の効果について述べる。
本発明の第1の実施の形態としての文境界推定装置は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定することができる。
その理由について説明する。本実施の形態では、第1辞書が単語列を格納している。また、第2辞書が、文末記号を含む単語列である置換元単語列、および、置換元単語列と同等の意味を表すよう文末記号を含まずに表された単語列である置換先単語列を関連付けて記憶している。そして、テキスト展開部が、入力されたオリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストに展開する。そして、文境界推定部が、置換後テキストおよび第1辞書に基づいてオリジナルテキストにおける文境界を推定する。このとき、文境界推定部が、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合には、その文末記号の直後は文境界でないと推定するからである。
このように、本実施の形態は、文末記号を含む単語列についてその内部または直後に文境界があると推定されたくない場合、文末記号を含むその単語列をさらに含む様々な複合語を辞書に登録しておく必要がない。本実施の形態は、文末記号を含むその単語列と、同等の意味を表す文末記号を含まない単語列とを関連付けて第2辞書に登録しておき、文末記号を含まない表記の複合語を第1辞書に登録しておけばよい。したがって、本実施の形態は、辞書登録の手間を大幅に削減する。また、本実施の形態は、そのような第1辞書および第2辞書に基づいて文境界を推定するので、各単語について品詞推定処理等の高負荷な処理を必要としない。
このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。
上述の具体例では、オリジナルテキスト中の2か所に現れる「U.S.」におけるSの直後のピリオドは、直後が空白文字であり、直後の単語(「President」および「Senate」)が大文字で始まる。つまり、一般的な技術を適用した通常の文境界の推定処理だけでは、条件1および2が満たされることになる。このため、本実施の形態を用いない場合、これらのピリオドは、その直後に本来は文境界が存在しないにも関わらず、存在すると認定されてしまう。
ここで、一般的な技術を適用した通常の文境界の推定処理でこれを防ぐためには、「U.S. President」「U.S. Senate」を単語列として辞書に登録しておく必要がある。また、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定されたくない場合、一部を頭字語表記とした「U.S. Ministry of Defense」も合わせて辞書に登録しておく必要がある。このように、文末記号を含む単語列をさらに含む複合語は、膨大な数となることが多く、それらを全て辞書に登録するのに大変手間がかかる。
これに対して、本実施の形態の具体例は、「U.S. President」「U.S. Senate」といった、文末記号を含む単語をさらに含む複合語を、いずれの辞書にも登録しなくてよい。本実施の形態は、これらをスペルアウトした単語列「United States President」および「United States Senate」を第1辞書に登録すればよい。また、本実施の形態は、文末記号を含む単語「U.S.」およびそれをスペルアウトした単語列「United States」を関連付けて第2辞書に登録すればよい。つまり、本実施の形態は、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定したくない場合にも、第2辞書への登録を増やす必要はない。この場合、本実施の形態は、スペルアウトした正書法である単語列「United States Ministry of Defense」を第1辞書に登録しておけばよい。
このように、本実施の形態は、内部に文境界があると推定されることを避けたい複合語について、文末記号を含む表記を全て辞書登録しておく必要がない。本実施の形態は、文末記号を含む頭字語等の表記と、そのスペルアウト表記との関連付けを1つ、第2辞書に登録しておけば、その他は、スペルアウトした複合語のみを第1辞書に登録すればよい。
これにより、本実施の形態は、品詞推定処理等の負荷の高い処理を必要とせず、かつ、辞書登録にかかる手間を抑えながら、より精度よく文境界を推定することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第2の実施の形態としての文境界推定装置2の構成を図7に示す。図7において、文境界推定装置2は、本発明の第1の実施の形態としての文境界推定装置1に対して、第2辞書12に替えて第2辞書22と、テキスト展開部13に替えてテキスト展開部23とを備え、さらに、置換先単語列検出部25を備える点が異なる。なお、文境界推定装置2およびその各機能ブロックは、図2を参照して説明した本発明の第1の実施の形態と同様のハードウェア要素によって構成可能である。ただし、文境界推定装置2およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
第2辞書22は、置換元単語列に対して、置換先単語列に加えて出現制約の有無を表す情報を関連付けて記憶している。つまり、第2辞書22の各エントリには、置換元単語列、置換先単語列、および、出現制約の有無を表す情報が含まれる。以下、出現制約が有る(または無い)ことを表す情報を含むエントリや、そのエントリに含まれる置換元単語列または置換先単語列を、単に、出現制約が有り(または無し)となっているエントリ、置換元単語列または置換先単語列とも記載する。
置換先単語列検出部25は、第2辞書22において、出現制約が有りとなっている各置換先単語列について、オリジナルテキストに含まれるか否かを判定する。
テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについては、関連付けられた置換先単語列がオリジナルテキストに含まれている場合に、その置換先単語列への置換処理を実行する。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについて、関連付けられた置換先単語列がオリジナルテキストに含まれていない場合には、その置換先単語列への置換処理を実行しない。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が無いものについては、関連付けられた置換先単語列がオリジナルテキストに出現しているか否かに関わらず、その置換先単語列への置換処理を実行する。
なお、置換先単語列検出部25による判定処理の際に、オリジナルテキストにおいて置換先単語列が出現する位置については、特に制約はない。例えば、置換先単語列の出現位置は、その置換先単語列に関連付けられた置換元単語列の出現位置と同じ文中または同じ段落中に出現していてもよいし、異なる文中または異なる段落中に出現していてもよい。
なお、英文等では、一般に、頭字語等の省略形には曖昧性があり、その省略形に対応する複合語(フルスペル表記の単語列)が、複数存在することが多い。そのため、頭字語等の省略形は、高頻度で使われる一部の省略形を除き、最初の出現箇所において省略形でないフルスペル表記と併記されることが多い。例えば、初出の箇所ではフルスペル語が記載され、その直後に括弧書き等で省略形が記載される。このように、英文では、当該の省略形がどのような単語列に対応しているかを示すことが、各種のスタイルガイド等で推奨されている。このやり方に従えば、人間がテキストを読む際には、省略形が何を意味するのかが容易に理解される。テキスト展開部23は、このような事情に鑑み、頭字語等の省略形としての置換先単語列をそのフルスペル表記である置換元単語列に置換するにあたり、置換先単語列検出部25による判定結果に基づいて、置換処理を行う。
つまり、オリジナルテキストが英文である場合、置換元単語列として頭字語等の省略形が第2辞書22に格納され、置換先単語列としてフルスペル表記の単語列が格納されている。この場合、テキスト展開部23は、オリジナルテキストにおいて頭字語をフルスペル表記の単語列で置換するのは、そのフルスペル表記の単語列がオリジナルテキストのどこかに出現している場合に限ることになる。一方、テキスト展開部23は、フルスペル表記の単語列がオリジナルテキストのどこにも出現していない頭字語は、フルスペル表記に置換しない。
以上のように構成された文境界推定装置2の動作について、図8を参照して説明する。
図8では、まず、テキスト展開部23は、本発明の第1の実施の形態と同様にステップS1を実行し、オリジナルテキストを取得する。
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキストに出現しているか否かを判定する(ステップS21)。
次に、テキスト展開部23は、第2辞書22を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部23は、検索した置換元単語列に一致する文字列を、置換先単語列に置換することにより、置換後テキストを生成する。ただし、このとき、テキスト展開部23は、第2辞書22において出現制約が有りとなっている置換元単語列については、関連付けられた置換先単語列がステップS21において検出されていた場合に、置換先単語列への置換処理を行う。また、この場合、テキスト展開部23は、関連付けられた置換先単語列がステップS21において検出されなかった場合には、置換処理を行わない(ステップS22)。
以降、文境界推定装置2は、ステップS3〜S7まで、本発明の第1の実施の形態と同様に動作する。
以上で、文境界推定装置2は、動作を終了する。
次に、本発明の第2の実施の形態の動作を具体例で示す。ここでは、オリジナルテキストが英文であり、文末記号はピリオドである。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。また、第1辞書11には、図9に示す情報が格納されているものとする。また、第2辞書22には、図10に示す情報が格納されているものとする。
図10に示すように、第2辞書22は、置換元単語列および置換先単語列に加えて、出現制約の有無を示す情報を格納している。例えば、「U.S.」を置換元単語列とし、「Universal Studios」を置換先単語列とするエントリ(ID:3)は、出現制約として「有り」を表す情報を含んでいる。前述したように、出現制約が有りとなっているエントリについては、テキスト展開部23による置換処理には、置換先単語列検出部25により置換先単語列がオリジナルテキストに出現したことが検出済みであることが条件となる。また、「U.S.」を置換元単語列とし、「United States」を置換先単語列とするエントリ(ID:1)は、出現制約として「無し」を表す情報を含んでいる。前述したように、出現制約が無しとなっているエントリについては、オリジナルテキストにおける置換先単語列の有無に関わらず、テキスト展開部23による置換処理が実施される。
例えば、「United States」の省略形としての「U.S.」は、使用頻度が非常に高く、必ずしも「U.S.」が「United States」の省略形であることを別途明示せずに単独で使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでは、出現制約が無しとなっている。同様に、「Post Office」の省略形としての「P.O.」も、特に明示されることなく使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでも、出現制約が無しとなっている。
このような前提において、2つの具体例について説明する。
<具体例1>
この具体例では、まず、テキスト展開部23は、図11に示すオリジナルテキスト1を取得したとする(ステップS1)。
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト1に出現するか否かを判定する(ステップS21)。
ここでは、図10に示したエントリのうち、ID:3のエントリにおいて、出現制約が有りとなっている。ここで、ID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト1に出現していない。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト1に出現していない」と判定する。
次に、テキスト展開部23は、第2辞書22を参照することにより、図11に示すように、オリジナルテキスト1から置換後テキスト1を生成する(ステップS2)。
ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト1の7単語目とマッチする。図11のオリジナルテキスト1では、下線部が、置換元単語列の部分を表している。また、このエントリは出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト1の7単語目を、置換先単語列「United States」で置換する処理を行う。また、第2辞書22のID:3のエントリの置換元単語列「U.S.」も、オリジナルテキスト1の7単語目とマッチする。しかしながら、このエントリは出現制約が「有り」であり、置換先単語列検出部25による判定結果が「出現しない」となっている。そこで、テキスト展開部23は、このエントリに基づく置換処理を行わない。その結果、図11に示す置換後テキスト1が生成される。図11の置換後テキスト1において、二重下線部は、オリジナルテキスト1の置換元単語列から置換された置換先単語列の部分を示している。
次に、文境界推定部14は、置換後テキスト1において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図11の置換後テキスト1では、破線の矩形で囲んだ部分は、図9の第1辞書11に登録された単語列にマッチする範囲を示している。ここでは、7〜8単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。
次に、文境界推定部14は、オリジナルテキスト1の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。
まず、文境界推定部14は、オリジナルテキスト1における1つ目のピリオドとして、単語「U.S.」のUの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
次に、文境界推定部14は、オリジナルテキスト1における2つ目のピリオドとして、単語「U.S.」のSの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、このピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト1における置換先単語列「United States」の末尾の単語(8単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の末尾の単語(8単語目)とが一致する。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、文境界推定部14は、本発明の第1の実施の形態における具体例と同様に、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。ここで、このピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「Japan」が大文字で始まるため、条件2を満たす。そこで、文境界推定部14は、2つ目のピリオドの直後に文境界が存在すると判断する。
次に、文境界推定部14は、オリジナルテキスト1における3つ目のピリオドとして、「China」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、3つ目のピリオドの直後に文境界が存在すると判断する。
そして、文境界推定部14は、図11に示すように、オリジナルテキスト1に関する文境界の推定結果1を表す情報を出力する。図11では、オリジナルテキスト1において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果1を表す情報として出力している。つまり、オリジナルテキスト1において、「U.S.」のSの次のピリオドの直後の位置、および、「China」の次のピリオドの直後の位置に、文境界が存在することが推定されている。
以上で、文境界推定装置2は、オリジナルテキスト1に関する文境界の推定動作を終了する。
<具体例2>
この具体例では、まず、テキスト展開部23は、図12に示すオリジナルテキスト2を取得したとする(ステップS1)。
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト2に出現するか否かを判定する(ステップS21)。
ここでは、出願制約が「有り」となっているID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2の2〜3単語目に出現している。図12のオリジナルテキスト2では、一点鎖線の矩形で囲んだ部分は、出現制約が有りの置換先単語列を示している。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト2に出現している」と判定する。
次に、テキスト展開部23は、第2辞書22を参照することにより、オリジナルテキスト2から置換後テキストを生成する(ステップS2)。
ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。図12のオリジナルテキスト2では、下線部が、置換元単語列の部分を示している。また、このエントリは、出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目を置換先単語列「United States」で置換する処理を行う。これにより、図12の置換後テキスト2−1が生成される。
また、第2辞書22のID:3のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。また、このエントリは、出現制約が「有り」である。さらに、このエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2に出現している。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリに基づき置換する処理を行う。ただし、該当する置換元単語列「U.S.」は、先ほど置換後テキスト2−1を生成した際に置換を実行した置換元単語列と同一の位置にある。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリの置換先単語列「Universal Studios」で置換する処理を行い、置換後テキスト2−1とは異なる置換後テキスト2−2を生成する。これにより、図12の置換後テキスト2−2が生成される。
なお、図12に示す置換後テキスト2−1および2−2において、二重下線部は、オリジナルテキスト2の置換元単語列から置換された置換先単語列の部分を示している。
次に、文境界推定部14は、置換後テキスト2−1および2−2において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図12の置換後テキスト2−1および2−2では、破線の矩形で囲んだ部分は、第1辞書11に登録された単語列にマッチする範囲を示している。
ここでは、置換後テキスト2−1において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜21単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。
また、置換後テキスト2−2において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜22単語目が、ID:7の単語列「Universal Studios Japan」にマッチする範囲である。
次に、文境界推定部14は、オリジナルテキスト2の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。
まず、オリジナルテキスト2における1つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。
ここで、この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「If」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、1つ目のピリオドの直後に文境界が存在すると判断する。
次に、文境界推定部14は、オリジナルテキスト2における2つ目のピリオドとして、「U.S.」のUの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。
まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Yesとなる。
ここで、前述のように、文境界推定部14は、複数の置換後テキストが生成されている場合、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなった場合、ステップS4全体としての判断結果をYesとする。つまり、置換後テキスト2−1に基づくステップS4の判断結果がYesとなったので、文境界推定部14は、このピリオドについて、置換後テキスト2−2に基づくステップS4の判断処理を行うことなく、ステップS4全体の判断結果をYesとする。
そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
次に、文境界推定部14は、オリジナルテキスト2における3つ目のピリオドとして、「U.S.」のSの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。
まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト2−1における置換先単語列「United States」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の最後の単語(21単語目)とが一致する。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Noとなる。
また、置換後テキスト2−2では、このピリオドは、「Universal Studios」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−2における20〜21単語目の置換先単語列「Universal Studios」に置換されている。さらに、置換後テキスト2−2において、20〜22単語目は、第1辞書11に登録されたID:7の単語列「Universal Studios Japan」にマッチする範囲である。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。しかしながら、置換後テキスト2−2における置換先単語列「Universal Studios」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲「Universal Studios Japan」の最後の単語(22語目)とが異なる。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−2に基づくステップS4の判断結果は、Yesとなる。
ここで、このピリオドについて、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなったので、文境界推定部14は、ステップS4全体としての判断結果をYesとする。
そこで、文境界推定部14は、3つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
次に、文境界推定部14は、オリジナルテキスト2における4つ目のピリオドとして、「Japan」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および2を共に満たす。そこで、文境界推定部14は、4つ目のピリオドの直後に文境界が存在すると判断する。
そして、文境界推定部14は、図12に示すように、オリジナルテキスト2に関する文境界の推定結果2を表す情報を出力する。図12では、オリジナルテキスト2において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果2を表す情報として出力している。つまり、オリジナルテキスト2において、「yesterday」の次のピリオドの直後の位置と、「Japan」の次のピリオドの直後の位置とに、文境界が存在することが推定されている。
以上で、文境界推定装置2は、オリジナルテキスト2に関する文境界の推定動作を終了する。
次に、本発明の第2の実施の形態の効果について述べる。
本発明の第2の実施の形態としての文境界推定装置は、文末記号が含まれる単語列が、本来とは異なる意味に解釈されることによる文境界の推定精度の低下を防止する。
その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、第2辞書が、置換元単語列および置換先単語列のエントリに対して、出現制約の有無を表す情報を格納している。そして、置換先単語列検出部が、出現制約が有りとなっているエントリの置換先単語列が、オリジナルテキストに出現しているか否かを判定する。そして、テキスト展開部が、出現制約が有りとなっているエントリの置換元単語列については、その置換先単語列がオリジナルテキストに出現している場合に、置換先単語列へ置換して置換後テキストを生成するからである。
これにより、本実施の形態は、オリジナルテキストにおいて文末記号を含む置換元単語列を、より適切な置換先単語列に置換することができる。その結果、本実施の形態は、文末記号を含む置換元単語列が意図しない置換先単語列に置換されることにより、その置換先単語列を含む複合語に意図せずマッチしてしまい、本来は文境界があるはずの位置に文境界がないと推定されてしまう事態を回避できる。
このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。
上述の具体例のオリジナルテキスト1および2に対して、文末記号を含む単語を辞書に登録しておく文境界の推定手法を用いて文境界の推定処理を行ったとする。ここで、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、「U.S. Japan」という単語列が辞書に登録されていれば、その内部に文境界がないと推定し、辞書に登録されていない単語については、通常の文境界の推定処理を行う。このように、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、同じ単語列に対して一律の推定結果しか得られない。つまり、「U.S. Japan」の登録がなければ、オリジナルテキスト1では「U.S.」の直後に文境界があると正しく推定されるが、オリジナルテキスト2では「U.S.」の直後に文境界があるとされてしまい、正しい推定結果が得られない。一方で、「U.S. Japan」の登録があれば、オリジナルテキスト2では「U.S.」の直後に文境界がないと正しく推定されるが、オリジナルテキスト1では「U.S.」の直後に文境界がないとされてしまい、正しい推定結果が得られない。
これに対して、本実施の形態は、各オリジナルテキストにおける「U.S. Japan」という単語列を、「Universal Studios Japan」の省略形であると解釈してよいかどうかを、次のように判断する。すなわち、本実施の形態は、該当するオリジナルテキストに「Universal Studios」というスペルアウトされた置換先単語列が含まれるかどうかで、「Universal Studios Japan」の省略形であると解釈するかどうかを判断する。これにより、本実施の形態は、オリジナルテキスト1に対しても、オリジナルテキスト2に対しても、文境界の正しい推定結果を得ることができる。
このように、本実施の形態は、文末記号を含む頭字語等の単語列が本来の意味とは異なる文末記号を含まない単語列に置換されてしまうことにより、適切でない文境界の推定結果が得られることを避けることができる。
なお、上述した本発明の各実施の形態において、オリジナルテキストが英文である例を中心に説明したが、オリジナルテキストの言語は、これに限定されない。
また、上述した本発明の各実施の形態において、文末記号としてピリオドを適用する例を中心に説明したが、文末記号は、セミコロンやその他の文字、または、文字列であってもよい。また、文末記号として、複数種類の文字または文字列が想定されてもよい。
また、上述した本発明の各実施の形態において、第1辞書は、文末記号を含む単語と同等の意味を表すよう文末記号を含まないで表された単語列を格納するだけでなく、さらに、文末記号を含む単語またはそのような単語を含む単語列を格納していてもよい。これは、本発明の各実施の形態と、背景技術で説明した、文末記号を含む単語または複合語を辞書に登録しておく手法とを組み合わせることに相当する。例えば、第1辞書は、文末記号を含む単語が文末に出現することがない単語であれば、その単語を単独で種別1として格納してもよい。また、第1辞書は、文末記号を含む単語が文の途中にも文末にも出現し得る単語であれば、その単語を含む単語列(複合語)を種別2として格納してもよい。この場合、各実施の形態の文境界推定部は、オリジナルテキストの文末記号が、置換された置換元単語列の内部に含まれていない場合でも、第1辞書に登録された種別1または種別2の単語列に含まれる場合には、背景技術で述べたように推定処理を行ってもよい。
このように、上述した本発明の各実施の形態は、他の公知の文境界の推定技術と組み合わせて実施されることも可能である。
さらには、機械学習ベースの文境界推定装置において、上述した本発明の各実施の形態による文境界の推定結果を、推定装置に対する素性の一つとして入力するように実施することも可能である。これにより、各実施の形態は、機械学習ベースの文境界推定装置の推定精度を高めることができる。
また、上述した本発明の各実施の形態において、第1辞書に格納される情報の一例を図3および図9に示したが、第1辞書に格納される情報の内容および形式は、これに限定されない。
また、上述した本発明の各実施の形態において、第2辞書に格納される情報の一例を図4および図10に示したが、第2辞書に格納される情報の内容および形式は、これに限定されない。
また、上述した本発明の各実施の形態において、文境界の推定結果として出力される情報の一例を図6、図11および図12に示したが、出力される情報の内容およびその形式は、これに限定されない。
また、上述した本発明の各実施の形態において、文境界推定装置の各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。
また、上述した本発明の各実施の形態において、文境界推定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した文境界推定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておく。そして、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
本発明の活用例として、情報抽出装置や機械翻訳装置がある。これらに本発明の文境界推定技術を適用することにより、一文としてより適切な単位で、情報の抽出または機械翻訳を行うことができる。これにより、本発明の文境界推定技術を適用した情報抽出装置や機械翻訳装置の利用者は、よりわかりやすく、より高精度の情報抽出結果または翻訳結果を得ることができる。
1、2 文境界推定装置
11 第1辞書
12、22 第2辞書
13、23 テキスト展開部
14 文境界推定部
25 置換先単語列検出部
1001 CPU
1002 メモリ
1003 出力装置
1004 入力装置

Claims (6)

  1. 単語列を格納する第1辞書と、
    文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、
    前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、
    前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、
    を備えた文境界推定装置。
  2. 前記文境界推定部は、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にあっても、該文末記号が、該置換元単語列の末尾の文字であり、かつ、前記置換後テキストにおいて、該置換元単語列から置換された置換先単語列の末尾の単語と、該置換先単語列を含む前記第1辞書の単語列にマッチする範囲の末尾の単語とが一致する場合には、その直後が文境界でないとの推定を保留することを特徴とする請求項1に記載の文境界推定装置。
  3. 前記第2辞書に登録された前記置換先単語列が前記オリジナルテキストに含まれるか否かを判定する置換先単語列検出部をさらに備え、
    前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列について、当該置換元単語列が前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項1または請求項2に記載の文境界推定装置。
  4. 前記第2辞書は、前記置換元単語列について、出現制約の有無を表す情報をさらに関連付けて格納し、
    前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列のうち、前記出現制約が無いことを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部による判定結果に関わらず前記置換先単語列への置換を実行し、前記出現制約が有ることを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項3に記載の文境界推定装置。
  5. 単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、
    前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、
    前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する方法。
  6. 単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、
    前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、
    前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、
    をコンピュータ装置に実行させるプログラム。
JP2016053510A 2016-03-17 2016-03-17 文境界推定装置、方法およびプログラム Active JP6589704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016053510A JP6589704B2 (ja) 2016-03-17 2016-03-17 文境界推定装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016053510A JP6589704B2 (ja) 2016-03-17 2016-03-17 文境界推定装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017167882A JP2017167882A (ja) 2017-09-21
JP6589704B2 true JP6589704B2 (ja) 2019-10-16

Family

ID=59913517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016053510A Active JP6589704B2 (ja) 2016-03-17 2016-03-17 文境界推定装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6589704B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581459B (zh) * 2020-06-13 2021-06-15 中国电子信息产业集团有限公司第六研究所 一种字符串匹配方法及字符串匹配***
CN112464642A (zh) * 2020-11-25 2021-03-09 平安科技(深圳)有限公司 文本添加标点的方法、装置、介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346490B2 (en) * 2000-09-29 2008-03-18 Axonwave Software Inc. Method and system for describing and identifying concepts in natural language text for information retrieval and processing
JP3557605B2 (ja) * 2001-09-19 2004-08-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 文切り方法及びこれを用いた文切り処理装置、機械翻訳装置並びにプログラム
US20050188322A1 (en) * 2004-01-09 2005-08-25 Suzanne Napoleon Method and apparatus for producing structured SGML/XML student compositions
US8489601B2 (en) * 2010-07-08 2013-07-16 GM Global Technology Operations LLC Knowledge extraction methodology for unstructured data using ontology-based text mining

Also Published As

Publication number Publication date
JP2017167882A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US8726148B1 (en) Method and apparatus for processing text and character data
US20100235780A1 (en) System and Method for Identifying Words Based on a Sequence of Keyboard Events
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
GB2449516A (en) Transliteration of roman text to Arabic
US8111922B2 (en) Bi-directional handwriting insertion and correction
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP2010505208A (ja) タイピング効率向上のためのタイピング候補の生成方法
JP6589704B2 (ja) 文境界推定装置、方法およびプログラム
JP2019159826A (ja) 表示制御プログラム、表示制御装置及び表示制御方法
JP4470913B2 (ja) 文字列検索装置およびプログラム
JP5482236B2 (ja) プログラムおよび情報処理装置
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4734400B2 (ja) 文書検索装置およびプログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
WO2008131509A1 (en) Systems and methods for improving translation systems
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP4845921B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP5742454B2 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP4051369B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2008084132A (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190902

R150 Certificate of patent or registration of utility model

Ref document number: 6589704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150