JP6589704B2

JP6589704B2 - 文境界推定装置、方法およびプログラム

Info

Publication number: JP6589704B2
Application number: JP2016053510A
Authority: JP
Inventors: 潔山端
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-03-17
Filing date: 2016-03-17
Publication date: 2019-10-16
Anticipated expiration: 2036-03-17
Also published as: JP2017167882A

Description

本発明は、自然言語処理において文の境界を推定する技術に関する。

自然言語を文単位で解析する場合、まず、文の境界を推定する処理が必要である。以降、文の境界を、単に文境界とも記載する。文境界は、一般的に、文末を表す文末記号の直後に存在するが、文末記号は、文末でない箇所に出現する場合がある。例えば、英文におけるピリオドの文字は、文末にも出現するが、単語の省略形等に含まれることにより文の途中に出現する場合もある。そこで、文境界を推定する処理では、どのように文境界を判断するかが問題となる。

このような問題に関連して文境界を推定する技術の一例が、特許文献１に記載されている。特許文献１に記載された関連技術は、ピリオドを含む省略形等の単語を辞書に登録しておく。そして、この関連技術は、文章においてスペースで区切られた文字列が、ピリオドを含み且つ辞書に登録されている場合、そのピリオドの直後に文境界は存在しないと判断する。また、この関連技術は、スペースで区切られた文字列が辞書に登録されておらず且つその末尾がピリオドである場合、そのピリオドの直後に文境界が存在すると判断する。

ところが、文末記号を含む単語には、文末に出現することがない単語と、文の途中にも文末にも出現し得る単語とがある。例えば、「Mr.」という「Mister」の省略形を表す単語は、必ず文の途中に出現し、文末に出現することはない。一方、「U.S.」という「United States」の省略形を表す単語は、文の途中にも文末にも出現し得る。したがって、文末記号を含む単語を辞書に登録するだけでは、文境界を正しく推定できない場合がある。

そこで、特許文献１に記載された関連技術を応用し、文末記号を含む複合語を辞書に登録しておく手法が考えられる（特許文献２の０００６段落参照）。この手法では、文末記号を含む単語のうち「Mr.」のように文末に出現することがない単語については、その単語そのものが種別１として辞書に登録される。また、文末記号を含む単語のうち「U.S.」のように文の途中にも文末にも出現し得る単語については、その単語を含む「U.S. President」等の複合語が種別２として辞書に登録される。

この場合、次の判断基準により、文章に出現する文末記号の直後に文境界が存在するか否かが判断可能となる。
・基準１：文章に出現する文末記号が、種別１として辞書に登録されている単語にマッチする範囲に含まれていれば、その直後に文境界は存在しないと判断される。
・基準２：文章に出現する文末記号が、種別２として辞書に登録されている単語にマッチする範囲に含まれており、かつ、その範囲の末尾の文字でなければ、その直後に文境界は存在しないと判断される。
・基準３：基準１および基準２に該当しない場合、一般的な文境界の判断基準が適用される。

一般的な文境界の判断基準について説明する。一般的な文境界の判断基準では、例えば、文章に出現する文末記号について、以下の条件１および２が全て満たされる場合には、その文末記号の直後に文境界は存在すると判断される。また、条件１および２の少なくとも一方が満たされない場合には、その文末記号の直後に文境界は存在しないと判断される。
・条件１：その文末記号の直後に文字が存在するならば、その文字は空白文字である。
・条件２：その文末記号の直後に単語が存在するならば、その単語は大文字で始まる。

このような、文末記号を含む複合語を辞書に登録しておく手法を用いて、文境界を推定する具体例について説明する。ここでは、辞書には、「Mr.」が種別１の単語として登録され、「U.S. President」および「U.S. Senate」が種別２の単語として登録されているものとする。

このとき、「A former U.S. President gave a speech at the U.S. Senate yesterday.」という文章が入力されたとする。この場合、一番目の「U.S.」に含まれる２つのピリオドは、それぞれ、辞書に登録された種別２のエントリ「U.S. President」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準２により、この直後に文境界は存在しないと判断される。同様に、二番目の「U.S.」に含まれる２つのピリオドは、それぞれ、辞書に登録された種別２のエントリ「U.S. Senate」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準２により、この直後に文境界は存在しないと判断される。

また、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この場合、「U.S.」の「Ｕ」の直後のピリオドは、辞書に登録されたエントリにマッチする範囲に含まれておらず、上記の基準１および基準２に該当しない。そこで、このピリオドには、一般的な文境界の判断基準が適用される。このピリオドは、上記の条件１「直後の文字が空白文字である」を満たさないため、この直後に文境界は存在しないと判断される。また、「U.S.」の「Ｓ」の直後のピリオドにも、同様に一般的な文境界の判断基準が適用される。このピリオドは、上記の条件１「直後の文字が空白文字である」および条件２「直後の単語Japanが大文字で始まる」を満たすため、この直後に文境界が存在すると判断される。

また、文の境界を推定する技術の他の一例が、特許文献２に記載されている。特許文献２に記載された関連技術は、まず、単語に含まれていない文末記号を用いて文を切り出す。そして、この関連技術は、切り出した文の途中に文末記号が存在する場合、その文を構成する各単語について品詞を推定する。そして、この関連技術は、切り出した文において途中の文末記号の前方および後方にそれぞれ主動詞が出現する場合は、その文末記号の直後に文境界が存在すると推定する。また、この関連技術は、前方および後方のいずれか一方にのみ主動詞が出現する場合は、その文末記号の直後に文境界が存在しないと推定する。

特開平１１−２８２８４１号公報特開２００３−１０８５５０号公報

しかしながら、上述の関連技術には、以下の問題がある。

特許文献１に記載された関連技術は、文末記号を含む単語のうち文の途中にも文末にも出現し得る単語を考慮していない。そのため、特許文献１に記載された関連技術は、文末記号を末尾に含む単語が文末に出現した場合、その直後に文境界はないと判断してしまう。

また、特許文献２に記載された関連技術は、切り出した文の途中に文末記号が出現する場合、切り出した文を構成する各単語について品詞を推定する処理が必要となる。品詞推定処理としては、例えば、品詞情報が付加されたコーパスを用いた確率的手法を用いることが示されている。このような品詞推定処理は、文境界を推定する装置の負荷を大きくするという問題がある。

また、文末記号を含む複合語を辞書に登録しておく手法は、文末記号を含む複合語をできるだけ多く辞書に登録しておくことに手間がかかる、という問題がある。

この問題について、具体例を用いて説明する。例えば、「U.S.」のフルスペルである「United States」を含む複合語は、数多くある。例えば、「United States President」、「United States Senate」、「United States Department of State」、「United States Department of Defense」などが挙げられる。これらの複合語全てについて、「United States」を、文末記号を含む省略形である「U.S.」に置き換えた複合語を、辞書に登録しておくことは、手間がかかる。この問題は、文末記号を含む単語のフルスペル表記が高い造語力を持つ場合に特に顕著となる。

また、文末記号を含む複合語を辞書に登録しておく手法では、本来は文境界が存在しないはずの箇所で、文境界が存在すると推定することを回避するためには、文末記号を含む複合語をより多く辞書に登録する必要がある。しかしながら、この手法は、より多くの複合語を辞書に登録するほど、本来は文境界が存在するはずの箇所で、文境界が存在しないと推定してしまう可能性を増大させる。

例えば、「Universal Studios（登録商標） Japan」を表現する複合語として、「U.S. Japan」という複合語が辞書に登録されていることを想定する。このとき、例えば、「We enjoyed ourselves a lot yesterday at the U.S. Japan.」という文章が入力されたとする。

この場合、この手法は、「U.S. Japan」という複合語が辞書に登録されていることにより、「U.S.」と「Japan」との間には文境界が存在しないと判断し、全体を一文として正しく認定できる。

しかし、文字列「U.S. Japan」は、必ずしも「Universal Studios Japan」を意味するとは限らない。例えば、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この文章では、「U.S.」は「United States」を意味しており、「U.S.」と「Japan」との間に、文の境界が存在する。しかし、この手法は、辞書に「U.S. Japan」という複合語が登録されているため、「U.S.」と「Japan」との間に、文の境界は存在しないと判断してしまう。

このように、文末記号を含む複合語を辞書に登録する手法は、辞書登録に手間がかかるだけでなく、複合語を登録した辞書を強化するほど、文境界の推定精度が落ちるという問題をかかえている。

本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することを目的とする。

本発明の文境界推定装置は、単語列を格納する第１辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書と、前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、を備える。

また、本発明の方法は、単語列を格納する第１辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書とを用いて、前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する。

また、本発明のプログラムは、単語列を格納する第１辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書とを用いて、前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、をコンピュータ装置に実行させる。

本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することができる。

本発明の第１の実施の形態としての文境界推定装置の構成を示すブロック図である。本発明の第１の実施の形態としての文境界推定装置のハードウェア構成の一例を示す図である。本発明の第１の実施の形態において第１辞書に格納される情報の一例を示す図である。本発明の第１の実施の形態において第２辞書に格納される情報の一例を示す図である。本発明の第１の実施の形態としての文境界推定装置の動作を説明するフローチャートである。本発明の第１の実施の形態としての文境界推定装置による動作の具体例を説明する図である。本発明の第２の実施の形態としての文境界推定装置の構成を示すブロック図である。本発明の第２の実施の形態としての文境界推定装置の動作を説明するフローチャートである。本発明の第２の実施の形態において第１辞書に格納される情報の一例を示す図である。本発明の第２の実施の形態において第２辞書に格納される情報の一例を示す図である。本発明の第２の実施の形態としての文境界推定装置による動作の具体例を説明する図である。本発明の第２の実施の形態としての文境界推定装置による動作の他の具体例を説明する図である。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（第１の実施の形態）
本発明の第１の実施の形態としての文境界推定装置１の機能ブロック構成を図１に示す。図１において、文境界推定装置１は、第１辞書１１と、第２辞書１２と、テキスト展開部１３と、文境界推定部１４とを備える。

ここで、文境界推定装置１は、図２に示すようなハードウェア要素によって構成可能である。図２において、文境界推定装置１は、ＣＰＵ（Central Processing Unit）１００１、メモリ１００２、出力装置１００３、および、入力装置１００４を含む。メモリ１００２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、補助記憶装置（ハードディスク等）等によって構成される。出力装置１００３は、ディスプレイ装置やプリンタ等のように、情報を出力する装置によって構成される。入力装置１００４は、キーボードやマウス、ＯＣＲ（Optical Character Reader）装置等のように、ユーザ操作や情報の入力を受け付ける装置によって構成される。この場合、文境界推定装置１の各機能ブロックは、メモリ１００２に格納されるコンピュータ・プログラムを読み込んで実行するとともに出力装置１００３、入力装置１００４の各部を制御するＣＰＵ１００１によって構成される。なお、文境界推定装置１およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

次に、各機能ブロックの詳細について説明する。

第１辞書１１は、単語列を格納する。単語列とは、１つ以上の単語からなる意味のある文字列である。なお、複数の単語からなる単語列は、いわゆる複合語である。第１辞書１１は、単独の単語や複合語等、対象分野において一般的に使用される単語列を格納している。特に、第１辞書１１には、文末記号を含む単語列と同等の意味を表すよう文末記号を含まないで表された単語列そのものや、そのような単語列をさらに含む複合語が格納されていることが望ましい。ただし、第１辞書１１は、そのような単語列だけでなく、その他の単語列を格納していてもよい。第１辞書１１としては、対象分野における単独の単語だけでなく複合語も見出し語として含むような一般的な辞書を適用可能である。

図３は、文境界を推定する対象として英文が想定される場合に、第１辞書１１に格納される情報の一例である。ここでは、「United States」、「United States President」、「United States Senate」、「Post Office」、「Post Office Box」等の単語列が登録されている。これらは、文末記号を含む単語列「U.S.」や「P.O.」と同等の意味を表すよう文末記号を含まないで表された単語列「United States」や「Post Office」そのものまたはそのような単語列を含む複合語である。英文では、頭字語、省略形または短縮形等と呼ばれる、文末記号であるピリオドを含む単語が用いられることが多い。そこで、このように、第１辞書１１には、ピリオドを含む頭字語、省略形または短縮形として表現され得るフルスペル表記の単語列そのものや、そのようなフルスペル表記の単語列をさらに含む複合語が格納されている。

なお、図３では、説明のため、第１辞書１１の各エントリにＩＤを付与している。ＩＤがＸのエントリを、以降、ＩＤ：Ｘのエントリとも記載する。

第２辞書１２は、置換元単語列および置換先単語列を関連付けて格納する。置換元単語列とは、少なくとも１つの単語に文末記号が含まれる１つ以上の単語からなる意味のある文字列である。置換先単語列は、置換元単語列と同等の意味を表すよう、文末記号を含まずに表された１つ以上の単語からなる意味のある文字列である。

図４は、文境界を推定する対象として英文が想定される場合に、第２辞書１２に格納される情報の一例である。ここでは、置換元単語列として「U.S.」というピリオドを含む省略形の単語に関連付けて、その省略形をスペルアウトしたフルスペル表記である「United States」という置換先単語列が格納されている。また、置換元単語列として「P.O.」というピリオドを含む省略形の単語に関連付けて、その省略形のフルスペル表記である「Post Office」という置換先単語列が格納されている。

この例のように、第２辞書１２は、文末記号を含んで表現される最小単位の単語列（例えば、「U.S.」）を置換元単語列とするエントリを少なくとも格納すればよい。つまり、第２辞書１２は、そのような置換元単語列をさらに含む複合語（例えば、「U.S. President」）を置換元単語列とするエントリを格納しなくてもよい。

なお、図４では、説明のため、第２辞書１２の各エントリにＩＤを付与している。ＩＤがＸのエントリを、以降、ＩＤ：Ｘのエントリとも記載する。

テキスト展開部１３は、第２辞書１２に基づいて、オリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストを生成する。

なお、テキスト展開部１３は、入力装置１００４を介して入力されるテキストを、オリジナルテキストとして取得してもよい。あるいは、テキスト展開部１３は、メモリ１００２に格納されたテキストを、オリジナルテキストとして取得してもよい。また、この場合、テキスト展開部１３は、対象となるテキストのメモリ１００２における格納位置を表す情報を、入力装置１００４を介して取得してもよい。また、テキスト展開部１３は、ネットワークを介して接続された装置から入力されるテキストを、オリジナルテキストとして取得してもよい。その他、テキスト展開部１３は、可搬型記憶媒体に記憶されたテキストを、オリジナルテキストとして取得してもよい。

文境界推定部１４は、置換後テキストおよび第１辞書１１に基づいて、オリジナルテキストにおける文境界を推定する。このとき、文境界推定部１４は、オリジナルテキストの文末記号が、置換後テキストにおいて第１辞書１１に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合、その文末記号の直後は文境界でないと推定する。

具体的には、例えば、文境界推定部１４は、置換後テキストにおいて第１辞書１１に登録されている単語列にマッチする範囲を検出しておく。そして、文境界推定部１４は、次の条件３および４がいずれも満たされる場合に、その直後が文境界でないと判断すればよい。
・条件３：オリジナルテキストにおける文末記号が、置換された置換元単語列に含まれる。
・条件４：置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第１辞書１１に登録された単語列にマッチする範囲に含まれる。

なお、文境界推定部１４は、オリジナルテキストにおける文末記号が、上記条件３および４のいずれか１つでも満たさない場合は、通常の文境界の推定処理を行う。通常の文境界の推定処理には、公知の技術を適用してもよい。

ただし、文境界推定部１４は、オリジナルテキストの文末記号が、置換後テキストにおいて第１辞書１１の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にあっても、次の場合には、その直後が文境界でないとの判断を保留する。その場合とは、次の条件５および６がいずれも満たされる場合である。
・条件５：該当する文末記号が、オリジナルテキストにおいて、置換された置換元単語列の末尾の文字である。
・条件６：置換後テキストにおいて、その置換元単語列から置換された置換先単語列の末尾の単語と、その置換先単語列を含む第１辞書１１の単語列にマッチする範囲の末尾の単語とが一致する。

この場合、文境界推定部１４は、通常の文境界の推定処理によって、その文末記号の直後における文境界の有無を推定すればよい。

以上のように構成された文境界推定装置１の動作を、図５を参照して説明する。

図５では、まず、テキスト展開部１３は、オリジナルテキストを取得する（ステップＳ１）。

次に、テキスト展開部１３は、第２辞書１２を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部１３は、検索した置換元単語列に一致する文字列を、関連付けられた置換先単語列に置換することにより、置換後テキストを生成する（ステップＳ２）。

ここで、オリジナルテキストにおけるある文字列について、適用可能な複数の置換元単語列のエントリが、第２辞書１２にあるとする。この場合、テキスト展開部１３は、その箇所をそれぞれの置換先単語列で置換することにより、複数の置換後テキストを生成してもよい。適用可能な複数の置換元単語列があるケースとしては、例えば、次のようないくつかのケースが考えられる。１つ目は、同一の置換元単語列について、異なる置換先単語列が関連付けられた複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列に対して「United States」を置換先単語列として関連付けたエントリと、「Universal Studios」を置換先単語列として関連付けたエントリとがある場合等である。２つ目は、文字列として包含関係にある異なる置換元単語列に関する複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列のエントリと、「U.S. Japan」という置換元単語列のエントリがある場合等である。

次に、文境界推定部１４は、置換後テキストにおいて、第１辞書１１に登録された単語列にマッチする文字列を検出し、その範囲を記録する（ステップＳ３）。

次に、文境界推定部１４は、オリジナルテキスト中の各文末記号に対して、その直後に文境界の有無を判断するステップＳ４〜Ｓ６の処理を実行する。

ここでは、文境界推定部１４は、当該文末記号が、オリジナルテキストにおいて置換された置換元単語列の一部である場合、さらに次の判断を行う。この場合、文境界推定部１４は、置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第１辞書１１に登録済みの単語列にマッチする範囲に含まれるか否かを判断する（ステップＳ４）。

ただし、文境界推定部１４は、該当する置換先単語列が第１辞書１１に登録済みの単語列にマッチする範囲に含まれる場合でも、次のケースには、ステップＳ４の判断結果をＮｏとする。そのようなケースとは、この文末記号が、置換元単語列の末尾の文字であり、かつ、置換先単語列の最後の単語と、置換先単語列を含む第１辞書１１に登録済みの単語列にマッチする範囲の最後の単語とが一致する場合である。

また、ステップＳ２において複数の置換後テキストが生成されている場合、文境界推定部１４は、ステップＳ４における判断処理を、各々の置換後テキストを対象として実施してもよい。そして、この場合、文境界推定部１４は、少なくとも１つの置換後テキストにおいての判断結果がＹｅｓとなった場合は、ステップＳ４全体としての判断結果をＹｅｓとしてもよい。一方、文境界推定部１４は、全ての置換後テキストでの判断結果がＮｏとなった場合は、ステップＳ４全体としての判断結果をＮｏとしてもよい。

ここで、ステップＳ４でＹｅｓとなった場合について説明する。この場合、文境界推定部１４は、オリジナルテキストにおいてこの文末記号の直後に文境界は無いと判断する（ステップＳ５）。

一方、ステップＳ４でＮｏとなった場合について説明する。この場合、文境界推定部１４は、この文末記号について通常の文境界の推定処理を実行することにより、その直後における文境界の有無を推定する（ステップＳ６）。

前述のように、通常の文境界の推定処理には、公知の技術を適用してもよい。例えば、通常の文境界の推定処理としては、背景技術で説明した条件１および条件２を共に満たす場合に、その直後に文境界があると判断する処理を適用してもよい。

ステップＳ４〜Ｓ６の処理を、オリジナルテキストにおける全ての文末記号について完了すると、文境界推定部１４は、推定した文境界の位置を表す情報を出力する（ステップＳ７）。

以上で、文境界推定部１４は、動作を終了する。

次に、文境界推定装置１の動作を具体例で示す。ここでは、オリジナルテキストは英文であり、文末記号はピリオドである。また、第１辞書１１および第２辞書１２には、それぞれ、図３および図４に示した情報が格納されているものとする。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。

まず、テキスト展開部１３は、図６に示すオリジナルテキストを取得したとする（ステップＳ１）。

次に、テキスト展開部１３は、第２辞書１２を参照することにより、図６に示すように、オリジナルテキストから置換後テキストを生成する（ステップＳ２）。

ここで、図６のオリジナルテキストにおいて、下線部は、置換元単語列の部分を示している。すなわち、このオリジナルテキストには、図４に示した第２辞書１２におけるＩＤ：１の置換元単語列「U.S.」が、２箇所に出現している。この置換元単語列の出現位置は、オリジナルテキストの３単語目および１０単語目である。テキスト展開部１３は、これらの２箇所の「U.S.」を、第２辞書１２において関連付けられた置換先単語列である「United States」に置換する。

図６の置換後テキストにおいて、二重下線部は、オリジナルテキストの置換元単語列から置換された置換先単語列の部分を示している。１つ目の「United States」は、置換後テキストの３〜４単語目に位置し、２つ目の「United States」は、置換後テキストの１１〜１２単語目に位置している。

次に、文境界推定部１４は、置換後テキストにおいて、第１辞書１１に登録された単語列にマッチする範囲を検出する（ステップＳ３）。図６では、破線の矩形で囲んだ部分が、第１辞書１１に登録された単語列にマッチする範囲を示している。１つ目の３〜５単語目は、第１辞書１１におけるＩＤ：２の単語列「United States President」にマッチする範囲である。２つ目の１１〜１３単語目は、第１辞書１１におけるＩＤ：３の単語列「United States Senate」にマッチする範囲である。

次に、文境界推定部１４は、オリジナルテキストの文末記号の各々に対して、当該文末記号の直後が文境界であるか否かの判断を繰り返す。

まず、文境界推定部１４は、オリジナルテキストにおける１つ目のピリオドとして、３単語目の「U.S.」のＵの直後のピリオドに注目する。このピリオドは、テキスト展開部１３によって置換された３単語目の置換元単語列「U.S.」に含まれている。また、この置換元単語列は、置換後テキストにおける３〜４単語目の置換先単語列「United States」に置換されている。さらに、置換後テキストにおいて、３〜５単語目は、第１辞書１１に登録されたＩＤ：２の単語列「United States President」にマッチしている。

つまり、注目しているピリオドは、「置換後テキストにおいて第１辞書１１に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部」に存在する。また、当該ピリオドは、置換元単語列の末尾の文字ではない。これにより、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｙｅｓとなる。

そこで、文境界推定部１４は、１つ目のピリオドの直後は文境界ではないと判断する（ステップＳ５）。

次に、文境界推定部１４は、オリジナルテキストにおける２つ目のピリオドとして、３単語目の「U.S.」のＳの直後のピリオドに注目する。このピリオドも、１つ目のピリオドと同様に、置換後テキストにおいて第１辞書１１に登録された単語列にマッチする範囲「United States President」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、このピリオドは、置換元単語列「U.S.」の末尾の文字であるが、置換先単語列の最後の単語「States」は、第１辞書１１に登録された単語列にマッチする範囲の最後の単語「President」とは異なる。これにより、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｙｅｓとなる。

そこで、文境界推定部１４は、２つ目のピリオドの直後は文境界ではないと判断する（ステップＳ５）。

同様に、文境界推定部１４は、オリジナルテキストにおける３〜４番目のピリオドとして、１０単語目の「U.S.」の中の２つのピリオドにそれぞれ注目する。これらのピリオドは、置換後テキストにおいて第１辞書１１に登録された単語列にマッチする範囲「United States Senate」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、これらのピリオドは、それぞれ、置換元単語列の末尾の文字ではないか、または、置換先単語列の最後の単語「States」が、第１辞書１１に登録された単語列にマッチする範囲の最後の単語「Senate」とは異なる。そこで、これらのピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、それぞれＹｅｓとなる。

そこで、文境界推定部１４は、これらの３〜４つ目のピリオドの直後は、それぞれ文境界でないと判断する。

次に、文境界推定部１４は、オリジナルテキストにおける５つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部１３によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

そこで、文境界推定部１４は、このピリオドについて、通常の文境界の推定処理を行う（ステップＳ６）。

ここでは、文境界推定部１４は、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件１および２を共に満たす場合に、その直後に文境界があると判断するものとする。この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件１を満たす。また、このピリオドは、その直後の単語「The」が大文字で始まっているため、条件２を満たす。そこで、文境界推定部１４は、５つ目のピリオドの直後に文境界が存在すると判断する。

次に、文境界推定部１４は、オリジナルテキストにおける６つ目のピリオドとして、「everyone」の直後のピリオドに注目する。このピリオドは、テキスト展開部１３によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

そこで、文境界推定部１４は、このピリオドについて、通常の文境界の推定処理を行う（ステップＳ６）。この「everyone」の直後のピリオドは、その直後に文字も単語も存在しないため、条件１および条件２を共に満たす。そこで、文境界推定部１４は、６つ目のピリオドの直後に文境界が存在すると判断する。

そして、文境界推定部１４は、図６に示すように、推定結果を表す情報を出力する。図６では、オリジナルテキストにおいて文境界があると判断された箇所に、「｛文境界｝」の文字列を挿入したテキストを、推定結果を表す情報として出力している。つまり、オリジナルテキストにおいて、「yesterday」の次のピリオドの直後の位置、および、「everyone」の次のピリオドの直後の位置に、文境界が存在することが推定されている。

次に、本発明の第１の実施の形態の効果について述べる。

本発明の第１の実施の形態としての文境界推定装置は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定することができる。

その理由について説明する。本実施の形態では、第１辞書が単語列を格納している。また、第２辞書が、文末記号を含む単語列である置換元単語列、および、置換元単語列と同等の意味を表すよう文末記号を含まずに表された単語列である置換先単語列を関連付けて記憶している。そして、テキスト展開部が、入力されたオリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストに展開する。そして、文境界推定部が、置換後テキストおよび第１辞書に基づいてオリジナルテキストにおける文境界を推定する。このとき、文境界推定部が、オリジナルテキストの文末記号が、置換後テキストにおいて第１辞書の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合には、その文末記号の直後は文境界でないと推定するからである。

このように、本実施の形態は、文末記号を含む単語列についてその内部または直後に文境界があると推定されたくない場合、文末記号を含むその単語列をさらに含む様々な複合語を辞書に登録しておく必要がない。本実施の形態は、文末記号を含むその単語列と、同等の意味を表す文末記号を含まない単語列とを関連付けて第２辞書に登録しておき、文末記号を含まない表記の複合語を第１辞書に登録しておけばよい。したがって、本実施の形態は、辞書登録の手間を大幅に削減する。また、本実施の形態は、そのような第１辞書および第２辞書に基づいて文境界を推定するので、各単語について品詞推定処理等の高負荷な処理を必要としない。

このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。

上述の具体例では、オリジナルテキスト中の２か所に現れる「U.S.」におけるＳの直後のピリオドは、直後が空白文字であり、直後の単語（「President」および「Senate」）が大文字で始まる。つまり、一般的な技術を適用した通常の文境界の推定処理だけでは、条件１および２が満たされることになる。このため、本実施の形態を用いない場合、これらのピリオドは、その直後に本来は文境界が存在しないにも関わらず、存在すると認定されてしまう。

ここで、一般的な技術を適用した通常の文境界の推定処理でこれを防ぐためには、「U.S. President」「U.S. Senate」を単語列として辞書に登録しておく必要がある。また、「United States」を含む別の複合語（例えば「United States Ministry of Defense」）があり、その内部に文境界があると推定されたくない場合、一部を頭字語表記とした「U.S. Ministry of Defense」も合わせて辞書に登録しておく必要がある。このように、文末記号を含む単語列をさらに含む複合語は、膨大な数となることが多く、それらを全て辞書に登録するのに大変手間がかかる。

これに対して、本実施の形態の具体例は、「U.S. President」「U.S. Senate」といった、文末記号を含む単語をさらに含む複合語を、いずれの辞書にも登録しなくてよい。本実施の形態は、これらをスペルアウトした単語列「United States President」および「United States Senate」を第１辞書に登録すればよい。また、本実施の形態は、文末記号を含む単語「U.S.」およびそれをスペルアウトした単語列「United States」を関連付けて第２辞書に登録すればよい。つまり、本実施の形態は、「United States」を含む別の複合語（例えば「United States Ministry of Defense」）があり、その内部に文境界があると推定したくない場合にも、第２辞書への登録を増やす必要はない。この場合、本実施の形態は、スペルアウトした正書法である単語列「United States Ministry of Defense」を第１辞書に登録しておけばよい。

このように、本実施の形態は、内部に文境界があると推定されることを避けたい複合語について、文末記号を含む表記を全て辞書登録しておく必要がない。本実施の形態は、文末記号を含む頭字語等の表記と、そのスペルアウト表記との関連付けを１つ、第２辞書に登録しておけば、その他は、スペルアウトした複合語のみを第１辞書に登録すればよい。

これにより、本実施の形態は、品詞推定処理等の負荷の高い処理を必要とせず、かつ、辞書登録にかかる手間を抑えながら、より精度よく文境界を推定することができる。

（第２の実施の形態）
次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第１の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

まず、本発明の第２の実施の形態としての文境界推定装置２の構成を図７に示す。図７において、文境界推定装置２は、本発明の第１の実施の形態としての文境界推定装置１に対して、第２辞書１２に替えて第２辞書２２と、テキスト展開部１３に替えてテキスト展開部２３とを備え、さらに、置換先単語列検出部２５を備える点が異なる。なお、文境界推定装置２およびその各機能ブロックは、図２を参照して説明した本発明の第１の実施の形態と同様のハードウェア要素によって構成可能である。ただし、文境界推定装置２およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

第２辞書２２は、置換元単語列に対して、置換先単語列に加えて出現制約の有無を表す情報を関連付けて記憶している。つまり、第２辞書２２の各エントリには、置換元単語列、置換先単語列、および、出現制約の有無を表す情報が含まれる。以下、出現制約が有る（または無い）ことを表す情報を含むエントリや、そのエントリに含まれる置換元単語列または置換先単語列を、単に、出現制約が有り（または無し）となっているエントリ、置換元単語列または置換先単語列とも記載する。

置換先単語列検出部２５は、第２辞書２２において、出現制約が有りとなっている各置換先単語列について、オリジナルテキストに含まれるか否かを判定する。

テキスト展開部２３は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについては、関連付けられた置換先単語列がオリジナルテキストに含まれている場合に、その置換先単語列への置換処理を実行する。また、テキスト展開部２３は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについて、関連付けられた置換先単語列がオリジナルテキストに含まれていない場合には、その置換先単語列への置換処理を実行しない。また、テキスト展開部２３は、オリジナルテキストに出現する置換元単語列のうち、出現制約が無いものについては、関連付けられた置換先単語列がオリジナルテキストに出現しているか否かに関わらず、その置換先単語列への置換処理を実行する。

なお、置換先単語列検出部２５による判定処理の際に、オリジナルテキストにおいて置換先単語列が出現する位置については、特に制約はない。例えば、置換先単語列の出現位置は、その置換先単語列に関連付けられた置換元単語列の出現位置と同じ文中または同じ段落中に出現していてもよいし、異なる文中または異なる段落中に出現していてもよい。

なお、英文等では、一般に、頭字語等の省略形には曖昧性があり、その省略形に対応する複合語（フルスペル表記の単語列）が、複数存在することが多い。そのため、頭字語等の省略形は、高頻度で使われる一部の省略形を除き、最初の出現箇所において省略形でないフルスペル表記と併記されることが多い。例えば、初出の箇所ではフルスペル語が記載され、その直後に括弧書き等で省略形が記載される。このように、英文では、当該の省略形がどのような単語列に対応しているかを示すことが、各種のスタイルガイド等で推奨されている。このやり方に従えば、人間がテキストを読む際には、省略形が何を意味するのかが容易に理解される。テキスト展開部２３は、このような事情に鑑み、頭字語等の省略形としての置換先単語列をそのフルスペル表記である置換元単語列に置換するにあたり、置換先単語列検出部２５による判定結果に基づいて、置換処理を行う。

つまり、オリジナルテキストが英文である場合、置換元単語列として頭字語等の省略形が第２辞書２２に格納され、置換先単語列としてフルスペル表記の単語列が格納されている。この場合、テキスト展開部２３は、オリジナルテキストにおいて頭字語をフルスペル表記の単語列で置換するのは、そのフルスペル表記の単語列がオリジナルテキストのどこかに出現している場合に限ることになる。一方、テキスト展開部２３は、フルスペル表記の単語列がオリジナルテキストのどこにも出現していない頭字語は、フルスペル表記に置換しない。

以上のように構成された文境界推定装置２の動作について、図８を参照して説明する。

図８では、まず、テキスト展開部２３は、本発明の第１の実施の形態と同様にステップＳ１を実行し、オリジナルテキストを取得する。

次に、置換先単語列検出部２５は、第２辞書２２において出現制約が有りとなっている各置換先単語列について、オリジナルテキストに出現しているか否かを判定する（ステップＳ２１）。

次に、テキスト展開部２３は、第２辞書２２を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部２３は、検索した置換元単語列に一致する文字列を、置換先単語列に置換することにより、置換後テキストを生成する。ただし、このとき、テキスト展開部２３は、第２辞書２２において出現制約が有りとなっている置換元単語列については、関連付けられた置換先単語列がステップＳ２１において検出されていた場合に、置換先単語列への置換処理を行う。また、この場合、テキスト展開部２３は、関連付けられた置換先単語列がステップＳ２１において検出されなかった場合には、置換処理を行わない（ステップＳ２２）。

以降、文境界推定装置２は、ステップＳ３〜Ｓ７まで、本発明の第１の実施の形態と同様に動作する。

以上で、文境界推定装置２は、動作を終了する。

次に、本発明の第２の実施の形態の動作を具体例で示す。ここでは、オリジナルテキストが英文であり、文末記号はピリオドである。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。また、第１辞書１１には、図９に示す情報が格納されているものとする。また、第２辞書２２には、図１０に示す情報が格納されているものとする。

図１０に示すように、第２辞書２２は、置換元単語列および置換先単語列に加えて、出現制約の有無を示す情報を格納している。例えば、「U.S.」を置換元単語列とし、「Universal Studios」を置換先単語列とするエントリ（ＩＤ：３）は、出現制約として「有り」を表す情報を含んでいる。前述したように、出現制約が有りとなっているエントリについては、テキスト展開部２３による置換処理には、置換先単語列検出部２５により置換先単語列がオリジナルテキストに出現したことが検出済みであることが条件となる。また、「U.S.」を置換元単語列とし、「United States」を置換先単語列とするエントリ（ＩＤ：１）は、出現制約として「無し」を表す情報を含んでいる。前述したように、出現制約が無しとなっているエントリについては、オリジナルテキストにおける置換先単語列の有無に関わらず、テキスト展開部２３による置換処理が実施される。

例えば、「United States」の省略形としての「U.S.」は、使用頻度が非常に高く、必ずしも「U.S.」が「United States」の省略形であることを別途明示せずに単独で使用されることが多い。このため、第２辞書２２におけるこの省略形に関するエントリでは、出現制約が無しとなっている。同様に、「Post Office」の省略形としての「P.O.」も、特に明示されることなく使用されることが多い。このため、第２辞書２２におけるこの省略形に関するエントリでも、出現制約が無しとなっている。

このような前提において、２つの具体例について説明する。

＜具体例１＞
この具体例では、まず、テキスト展開部２３は、図１１に示すオリジナルテキスト１を取得したとする（ステップＳ１）。

次に、置換先単語列検出部２５は、第２辞書２２において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト１に出現するか否かを判定する（ステップＳ２１）。

ここでは、図１０に示したエントリのうち、ＩＤ：３のエントリにおいて、出現制約が有りとなっている。ここで、ＩＤ：３のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト１に出現していない。そこで、置換先単語列検出部２５は、ＩＤ：３のエントリの置換先単語列について、「オリジナルテキスト１に出現していない」と判定する。

次に、テキスト展開部２３は、第２辞書２２を参照することにより、図１１に示すように、オリジナルテキスト１から置換後テキスト１を生成する（ステップＳ２）。

ここで、第２辞書２２のＩＤ：１のエントリの置換元単語列「U.S.」は、オリジナルテキスト１の７単語目とマッチする。図１１のオリジナルテキスト１では、下線部が、置換元単語列の部分を表している。また、このエントリは出現制約が「無し」である。そこで、テキスト展開部２３は、オリジナルテキスト１の７単語目を、置換先単語列「United States」で置換する処理を行う。また、第２辞書２２のＩＤ：３のエントリの置換元単語列「U.S.」も、オリジナルテキスト１の７単語目とマッチする。しかしながら、このエントリは出現制約が「有り」であり、置換先単語列検出部２５による判定結果が「出現しない」となっている。そこで、テキスト展開部２３は、このエントリに基づく置換処理を行わない。その結果、図１１に示す置換後テキスト１が生成される。図１１の置換後テキスト１において、二重下線部は、オリジナルテキスト１の置換元単語列から置換された置換先単語列の部分を示している。

次に、文境界推定部１４は、置換後テキスト１において、第１辞書１１に登録された単語列にマッチする範囲を検出する(ステップＳ３)。図１１の置換後テキスト１では、破線の矩形で囲んだ部分は、図９の第１辞書１１に登録された単語列にマッチする範囲を示している。ここでは、７〜８単語目が、第１辞書１１におけるＩＤ：１の単語列「United States」にマッチする範囲である。

次に、文境界推定部１４は、オリジナルテキスト１の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。

まず、文境界推定部１４は、オリジナルテキスト１における１つ目のピリオドとして、単語「U.S.」のＵの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部２３により置換後テキスト１における７〜８単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト１において、７〜８単語目は、第１辞書１１に登録されたＩＤ：１の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第１辞書１１の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｙｅｓとなる。

次に、文境界推定部１４は、オリジナルテキスト１における２つ目のピリオドとして、単語「U.S.」のＳの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部２３により置換後テキスト１における７〜８単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト１において、７〜８単語目は、第１辞書１１に登録されたＩＤ：１の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第１辞書１１の単語列にマッチする範囲に含まれている。しかしながら、このピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト１における置換先単語列「United States」の末尾の単語（８単語目）と、この置換先単語列を含む第１辞書１１のエントリにマッチする範囲の末尾の単語（８単語目）とが一致する。これにより、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

そこで、文境界推定部１４は、このピリオドについて、通常の文境界の推定処理を行う（ステップＳ６）。ここでは、文境界推定部１４は、本発明の第１の実施の形態における具体例と同様に、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件１および２を共に満たす場合に、その直後に文境界があると判断するものとする。ここで、このピリオドは、その直後が空白文字であるため、条件１を満たす。また、このピリオドは、その直後の単語「Japan」が大文字で始まるため、条件２を満たす。そこで、文境界推定部１４は、２つ目のピリオドの直後に文境界が存在すると判断する。

次に、文境界推定部１４は、オリジナルテキスト１における３つ目のピリオドとして、「China」の直後のピリオドに注目する。このピリオドは、テキスト展開部２３によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

そこで、文境界推定部１４は、このピリオドについて、通常の文境界の推定処理を行う（ステップＳ６）。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件１および条件２を共に満たす。そこで、文境界推定部１４は、３つ目のピリオドの直後に文境界が存在すると判断する。

そして、文境界推定部１４は、図１１に示すように、オリジナルテキスト１に関する文境界の推定結果１を表す情報を出力する。図１１では、オリジナルテキスト１において文境界があると判断された箇所に、「｛文境界｝」の文字列を挿入したテキストを、推定結果１を表す情報として出力している。つまり、オリジナルテキスト１において、「U.S.」のＳの次のピリオドの直後の位置、および、「China」の次のピリオドの直後の位置に、文境界が存在することが推定されている。

以上で、文境界推定装置２は、オリジナルテキスト１に関する文境界の推定動作を終了する。

＜具体例２＞
この具体例では、まず、テキスト展開部２３は、図１２に示すオリジナルテキスト２を取得したとする（ステップＳ１）。

次に、置換先単語列検出部２５は、第２辞書２２において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト２に出現するか否かを判定する（ステップＳ２１）。

ここでは、出願制約が「有り」となっているＩＤ：３のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト２の２〜３単語目に出現している。図１２のオリジナルテキスト２では、一点鎖線の矩形で囲んだ部分は、出現制約が有りの置換先単語列を示している。そこで、置換先単語列検出部２５は、ＩＤ：３のエントリの置換先単語列について、「オリジナルテキスト２に出現している」と判定する。

次に、テキスト展開部２３は、第２辞書２２を参照することにより、オリジナルテキスト２から置換後テキストを生成する（ステップＳ２）。

ここで、第２辞書２２のＩＤ：１のエントリの置換元単語列「U.S.」は、オリジナルテキスト２の２０単語目とマッチする。図１２のオリジナルテキスト２では、下線部が、置換元単語列の部分を示している。また、このエントリは、出現制約が「無し」である。そこで、テキスト展開部２３は、オリジナルテキスト２の２０単語目を置換先単語列「United States」で置換する処理を行う。これにより、図１２の置換後テキスト２−１が生成される。

また、第２辞書２２のＩＤ：３のエントリの置換元単語列「U.S.」は、オリジナルテキスト２の２０単語目とマッチする。また、このエントリは、出現制約が「有り」である。さらに、このエントリの置換先単語列「Universal Studios」は、オリジナルテキスト２に出現している。そこで、テキスト展開部２３は、オリジナルテキスト２の２０単語目をこのエントリに基づき置換する処理を行う。ただし、該当する置換元単語列「U.S.」は、先ほど置換後テキスト２−１を生成した際に置換を実行した置換元単語列と同一の位置にある。そこで、テキスト展開部２３は、オリジナルテキスト２の２０単語目をこのエントリの置換先単語列「Universal Studios」で置換する処理を行い、置換後テキスト２−１とは異なる置換後テキスト２−２を生成する。これにより、図１２の置換後テキスト２−２が生成される。

なお、図１２に示す置換後テキスト２−１および２−２において、二重下線部は、オリジナルテキスト２の置換元単語列から置換された置換先単語列の部分を示している。

次に、文境界推定部１４は、置換後テキスト２−１および２−２において、第１辞書１１に登録された単語列にマッチする範囲を検出する(ステップＳ３)。図１２の置換後テキスト２−１および２−２では、破線の矩形で囲んだ部分は、第１辞書１１に登録された単語列にマッチする範囲を示している。

ここでは、置換後テキスト２−１において、２〜３単語目が、第１辞書１１におけるＩＤ：６の単語列「Universal Studios」にマッチする範囲である。また、２０〜２１単語目が、第１辞書１１におけるＩＤ：１の単語列「United States」にマッチする範囲である。

また、置換後テキスト２−２において、２〜３単語目が、第１辞書１１におけるＩＤ：６の単語列「Universal Studios」にマッチする範囲である。また、２０〜２２単語目が、ＩＤ：７の単語列「Universal Studios Japan」にマッチする範囲である。

次に、文境界推定部１４は、オリジナルテキスト２の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。

まず、オリジナルテキスト２における１つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部２３によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

ここで、この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件１を満たす。また、このピリオドは、その直後の単語「If」が大文字で始まっているため、条件２を満たす。そこで、文境界推定部１４は、１つ目のピリオドの直後に文境界が存在すると判断する。

次に、文境界推定部１４は、オリジナルテキスト２における２つ目のピリオドとして、「U.S.」のＵの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト２−１および２−２が生成されている。そこで、文境界推定部１４は、このピリオドについて、置換後テキスト２−１および２−２に基づいて、順次ステップＳ４の判断を試みる。

まず、置換後テキスト２−１では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト２−１における２０〜２１単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト２−１において、２０〜２１単語目は、第１辞書１１に登録されたＩＤ：１の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第１辞書１１の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部１４による置換後テキスト２−１に基づくステップＳ４の判断結果は、Ｙｅｓとなる。

ここで、前述のように、文境界推定部１４は、複数の置換後テキストが生成されている場合、少なくとも１つの置換後テキストにおいてステップＳ４の判断結果がＹｅｓとなった場合、ステップＳ４全体としての判断結果をＹｅｓとする。つまり、置換後テキスト２−１に基づくステップＳ４の判断結果がＹｅｓとなったので、文境界推定部１４は、このピリオドについて、置換後テキスト２−２に基づくステップＳ４の判断処理を行うことなく、ステップＳ４全体の判断結果をＹｅｓとする。

次に、文境界推定部１４は、オリジナルテキスト２における３つ目のピリオドとして、「U.S.」のＳの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト２−１および２−２が生成されている。そこで、文境界推定部１４は、このピリオドについて、置換後テキスト２−１および２−２に基づいて、順次ステップＳ４の判断を試みる。

まず、置換後テキスト２−１では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト２−１における２０〜２１単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト２−１において、２０〜２１単語目は、第１辞書１１に登録されたＩＤ：１の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第１辞書１１の単語列にマッチする範囲に含まれている。しかしながら、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト２−１における置換先単語列「United States」の最後の単語（２１単語目）と、この置換先単語列を含む第１辞書１１のエントリにマッチする範囲の最後の単語（２１単語目）とが一致する。これにより、このピリオドについて、文境界推定部１４による置換後テキスト２−１に基づくステップＳ４の判断結果は、Ｎｏとなる。

また、置換後テキスト２−２では、このピリオドは、「Universal Studios」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト２−２における２０〜２１単語目の置換先単語列「Universal Studios」に置換されている。さらに、置換後テキスト２−２において、２０〜２２単語目は、第１辞書１１に登録されたＩＤ：７の単語列「Universal Studios Japan」にマッチする範囲である。つまり、置換された置換先単語列は、第１辞書１１の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。しかしながら、置換後テキスト２−２における置換先単語列「Universal Studios」の最後の単語（２１単語目）と、この置換先単語列を含む第１辞書１１のエントリにマッチする範囲「Universal Studios Japan」の最後の単語（２２語目）とが異なる。これにより、このピリオドについて、文境界推定部１４による置換後テキスト２−２に基づくステップＳ４の判断結果は、Ｙｅｓとなる。

ここで、このピリオドについて、少なくとも１つの置換後テキストにおいてステップＳ４の判断結果がＹｅｓとなったので、文境界推定部１４は、ステップＳ４全体としての判断結果をＹｅｓとする。

そこで、文境界推定部１４は、３つ目のピリオドの直後は文境界ではないと判断する（ステップＳ５）。

次に、文境界推定部１４は、オリジナルテキスト２における４つ目のピリオドとして、「Japan」の直後のピリオドに注目する。このピリオドは、テキスト展開部２３によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部１４によるステップＳ４の判断結果は、Ｎｏとなる。

そこで、文境界推定部１４は、このピリオドについて、通常の文境界の推定処理を行う（ステップＳ６）。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件１および２を共に満たす。そこで、文境界推定部１４は、４つ目のピリオドの直後に文境界が存在すると判断する。

そして、文境界推定部１４は、図１２に示すように、オリジナルテキスト２に関する文境界の推定結果２を表す情報を出力する。図１２では、オリジナルテキスト２において文境界があると判断された箇所に、「｛文境界｝」の文字列を挿入したテキストを、推定結果２を表す情報として出力している。つまり、オリジナルテキスト２において、「yesterday」の次のピリオドの直後の位置と、「Japan」の次のピリオドの直後の位置とに、文境界が存在することが推定されている。

以上で、文境界推定装置２は、オリジナルテキスト２に関する文境界の推定動作を終了する。

次に、本発明の第２の実施の形態の効果について述べる。

本発明の第２の実施の形態としての文境界推定装置は、文末記号が含まれる単語列が、本来とは異なる意味に解釈されることによる文境界の推定精度の低下を防止する。

その理由について説明する。本実施の形態では、本発明の第１の実施の形態と同様の構成に加えて、第２辞書が、置換元単語列および置換先単語列のエントリに対して、出現制約の有無を表す情報を格納している。そして、置換先単語列検出部が、出現制約が有りとなっているエントリの置換先単語列が、オリジナルテキストに出現しているか否かを判定する。そして、テキスト展開部が、出現制約が有りとなっているエントリの置換元単語列については、その置換先単語列がオリジナルテキストに出現している場合に、置換先単語列へ置換して置換後テキストを生成するからである。

これにより、本実施の形態は、オリジナルテキストにおいて文末記号を含む置換元単語列を、より適切な置換先単語列に置換することができる。その結果、本実施の形態は、文末記号を含む置換元単語列が意図しない置換先単語列に置換されることにより、その置換先単語列を含む複合語に意図せずマッチしてしまい、本来は文境界があるはずの位置に文境界がないと推定されてしまう事態を回避できる。

上述の具体例のオリジナルテキスト１および２に対して、文末記号を含む単語を辞書に登録しておく文境界の推定手法を用いて文境界の推定処理を行ったとする。ここで、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、「U.S. Japan」という単語列が辞書に登録されていれば、その内部に文境界がないと推定し、辞書に登録されていない単語については、通常の文境界の推定処理を行う。このように、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、同じ単語列に対して一律の推定結果しか得られない。つまり、「U.S. Japan」の登録がなければ、オリジナルテキスト１では「U.S.」の直後に文境界があると正しく推定されるが、オリジナルテキスト２では「U.S.」の直後に文境界があるとされてしまい、正しい推定結果が得られない。一方で、「U.S. Japan」の登録があれば、オリジナルテキスト２では「U.S.」の直後に文境界がないと正しく推定されるが、オリジナルテキスト１では「U.S.」の直後に文境界がないとされてしまい、正しい推定結果が得られない。

これに対して、本実施の形態は、各オリジナルテキストにおける「U.S. Japan」という単語列を、「Universal Studios Japan」の省略形であると解釈してよいかどうかを、次のように判断する。すなわち、本実施の形態は、該当するオリジナルテキストに「Universal Studios」というスペルアウトされた置換先単語列が含まれるかどうかで、「Universal Studios Japan」の省略形であると解釈するかどうかを判断する。これにより、本実施の形態は、オリジナルテキスト１に対しても、オリジナルテキスト２に対しても、文境界の正しい推定結果を得ることができる。

このように、本実施の形態は、文末記号を含む頭字語等の単語列が本来の意味とは異なる文末記号を含まない単語列に置換されてしまうことにより、適切でない文境界の推定結果が得られることを避けることができる。

なお、上述した本発明の各実施の形態において、オリジナルテキストが英文である例を中心に説明したが、オリジナルテキストの言語は、これに限定されない。

また、上述した本発明の各実施の形態において、文末記号としてピリオドを適用する例を中心に説明したが、文末記号は、セミコロンやその他の文字、または、文字列であってもよい。また、文末記号として、複数種類の文字または文字列が想定されてもよい。

また、上述した本発明の各実施の形態において、第１辞書は、文末記号を含む単語と同等の意味を表すよう文末記号を含まないで表された単語列を格納するだけでなく、さらに、文末記号を含む単語またはそのような単語を含む単語列を格納していてもよい。これは、本発明の各実施の形態と、背景技術で説明した、文末記号を含む単語または複合語を辞書に登録しておく手法とを組み合わせることに相当する。例えば、第１辞書は、文末記号を含む単語が文末に出現することがない単語であれば、その単語を単独で種別１として格納してもよい。また、第１辞書は、文末記号を含む単語が文の途中にも文末にも出現し得る単語であれば、その単語を含む単語列（複合語）を種別２として格納してもよい。この場合、各実施の形態の文境界推定部は、オリジナルテキストの文末記号が、置換された置換元単語列の内部に含まれていない場合でも、第１辞書に登録された種別１または種別２の単語列に含まれる場合には、背景技術で述べたように推定処理を行ってもよい。

このように、上述した本発明の各実施の形態は、他の公知の文境界の推定技術と組み合わせて実施されることも可能である。

さらには、機械学習ベースの文境界推定装置において、上述した本発明の各実施の形態による文境界の推定結果を、推定装置に対する素性の一つとして入力するように実施することも可能である。これにより、各実施の形態は、機械学習ベースの文境界推定装置の推定精度を高めることができる。

また、上述した本発明の各実施の形態において、第１辞書に格納される情報の一例を図３および図９に示したが、第１辞書に格納される情報の内容および形式は、これに限定されない。

また、上述した本発明の各実施の形態において、第２辞書に格納される情報の一例を図４および図１０に示したが、第２辞書に格納される情報の内容および形式は、これに限定されない。

また、上述した本発明の各実施の形態において、文境界の推定結果として出力される情報の一例を図６、図１１および図１２に示したが、出力される情報の内容およびその形式は、これに限定されない。

また、上述した本発明の各実施の形態において、文境界推定装置の各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するＣＰＵによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。

また、上述した本発明の各実施の形態において、文境界推定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。

また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した文境界推定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置（記憶媒体）に格納しておく。そして、係るコンピュータ・プログラムを当該ＣＰＵが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。

また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。

また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。

本発明の活用例として、情報抽出装置や機械翻訳装置がある。これらに本発明の文境界推定技術を適用することにより、一文としてより適切な単位で、情報の抽出または機械翻訳を行うことができる。これにより、本発明の文境界推定技術を適用した情報抽出装置や機械翻訳装置の利用者は、よりわかりやすく、より高精度の情報抽出結果または翻訳結果を得ることができる。

１、２文境界推定装置
１１第１辞書
１２、２２第２辞書
１３、２３テキスト展開部
１４文境界推定部
２５置換先単語列検出部
１００１ＣＰＵ
１００２メモリ
１００３出力装置
１００４入力装置

Claims

単語列を格納する第１辞書と、
文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書と、
前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、
前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、
を備えた文境界推定装置。
前記文境界推定部は、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にあっても、該文末記号が、該置換元単語列の末尾の文字であり、かつ、前記置換後テキストにおいて、該置換元単語列から置換された置換先単語列の末尾の単語と、該置換先単語列を含む前記第１辞書の単語列にマッチする範囲の末尾の単語とが一致する場合には、その直後が文境界でないとの推定を保留することを特徴とする請求項１に記載の文境界推定装置。
前記第２辞書に登録された前記置換先単語列が前記オリジナルテキストに含まれるか否かを判定する置換先単語列検出部をさらに備え、
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列について、当該置換元単語列が前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項１または請求項２に記載の文境界推定装置。
前記第２辞書は、前記置換元単語列について、出現制約の有無を表す情報をさらに関連付けて格納し、
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列のうち、前記出現制約が無いことを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部による判定結果に関わらず前記置換先単語列への置換を実行し、前記出現制約が有ることを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項３に記載の文境界推定装置。
単語列を格納する第１辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書とを用いて、
前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、
前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する方法。
単語列を格納する第１辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第２辞書とを用いて、
前記第２辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、
前記置換後テキストおよび前記第１辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第１辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、
をコンピュータ装置に実行させるプログラム。