JP6589704B2 - Sentence boundary estimation apparatus, method and program - Google Patents

Sentence boundary estimation apparatus, method and program Download PDF

Info

Publication number
JP6589704B2
JP6589704B2 JP2016053510A JP2016053510A JP6589704B2 JP 6589704 B2 JP6589704 B2 JP 6589704B2 JP 2016053510 A JP2016053510 A JP 2016053510A JP 2016053510 A JP2016053510 A JP 2016053510A JP 6589704 B2 JP6589704 B2 JP 6589704B2
Authority
JP
Japan
Prior art keywords
word string
replacement
sentence
dictionary
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016053510A
Other languages
Japanese (ja)
Other versions
JP2017167882A (en
Inventor
潔 山端
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2016053510A priority Critical patent/JP6589704B2/en
Publication of JP2017167882A publication Critical patent/JP2017167882A/en
Application granted granted Critical
Publication of JP6589704B2 publication Critical patent/JP6589704B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理において文の境界を推定する技術に関する。   The present invention relates to a technique for estimating sentence boundaries in natural language processing.

自然言語を文単位で解析する場合、まず、文の境界を推定する処理が必要である。以降、文の境界を、単に文境界とも記載する。文境界は、一般的に、文末を表す文末記号の直後に存在するが、文末記号は、文末でない箇所に出現する場合がある。例えば、英文におけるピリオドの文字は、文末にも出現するが、単語の省略形等に含まれることにより文の途中に出現する場合もある。そこで、文境界を推定する処理では、どのように文境界を判断するかが問題となる。   When analyzing a natural language in sentence units, first, processing for estimating sentence boundaries is required. Hereinafter, sentence boundaries are also simply referred to as sentence boundaries. The sentence boundary generally exists immediately after the sentence end symbol representing the end of the sentence, but the sentence end symbol may appear at a location other than the end of the sentence. For example, a period character in English may appear at the end of a sentence, but may appear in the middle of a sentence by being included in a word abbreviation. Therefore, in the process of estimating the sentence boundary, how to determine the sentence boundary becomes a problem.

このような問題に関連して文境界を推定する技術の一例が、特許文献1に記載されている。特許文献1に記載された関連技術は、ピリオドを含む省略形等の単語を辞書に登録しておく。そして、この関連技術は、文章においてスペースで区切られた文字列が、ピリオドを含み且つ辞書に登録されている場合、そのピリオドの直後に文境界は存在しないと判断する。また、この関連技術は、スペースで区切られた文字列が辞書に登録されておらず且つその末尾がピリオドである場合、そのピリオドの直後に文境界が存在すると判断する。   An example of a technique for estimating sentence boundaries related to such a problem is described in Patent Document 1. In the related technology described in Patent Document 1, words such as abbreviations including periods are registered in a dictionary. Then, in the related technology, when a character string delimited by a space in a sentence includes a period and is registered in the dictionary, it is determined that a sentence boundary does not exist immediately after the period. Further, in this related technology, when a character string delimited by a space is not registered in the dictionary and ends with a period, it is determined that a sentence boundary exists immediately after the period.

ところが、文末記号を含む単語には、文末に出現することがない単語と、文の途中にも文末にも出現し得る単語とがある。例えば、「Mr.」という「Mister」の省略形を表す単語は、必ず文の途中に出現し、文末に出現することはない。一方、「U.S.」という「United States」の省略形を表す単語は、文の途中にも文末にも出現し得る。したがって、文末記号を含む単語を辞書に登録するだけでは、文境界を正しく推定できない場合がある。   However, the word including the sentence end symbol includes a word that does not appear at the end of the sentence and a word that can appear at the end of the sentence or at the end of the sentence. For example, the word “Mr.” representing the abbreviation of “Mister” always appears in the middle of a sentence and never appears at the end of the sentence. On the other hand, a word representing an abbreviation of “United States”, “U.S.”, may appear in the middle or end of a sentence. Therefore, there are cases where sentence boundaries cannot be estimated correctly only by registering words including sentence end symbols in the dictionary.

そこで、特許文献1に記載された関連技術を応用し、文末記号を含む複合語を辞書に登録しておく手法が考えられる(特許文献2の0006段落参照)。この手法では、文末記号を含む単語のうち「Mr.」のように文末に出現することがない単語については、その単語そのものが種別1として辞書に登録される。また、文末記号を含む単語のうち「U.S.」のように文の途中にも文末にも出現し得る単語については、その単語を含む「U.S. President」等の複合語が種別2として辞書に登録される。   Therefore, a method of applying a related technique described in Patent Document 1 and registering a compound word including a sentence ending symbol in a dictionary can be considered (see paragraph 0006 of Patent Document 2). In this technique, for a word that does not appear at the end of the sentence, such as “Mr.”, the word itself is registered as a type 1 in the dictionary. For words that contain a sentence ending symbol such as “US”, a compound word such as “US President” that contains the word is registered in the dictionary as type 2. The

この場合、次の判断基準により、文章に出現する文末記号の直後に文境界が存在するか否かが判断可能となる。
・基準1:文章に出現する文末記号が、種別1として辞書に登録されている単語にマッチする範囲に含まれていれば、その直後に文境界は存在しないと判断される。
・基準2:文章に出現する文末記号が、種別2として辞書に登録されている単語にマッチする範囲に含まれており、かつ、その範囲の末尾の文字でなければ、その直後に文境界は存在しないと判断される。
・基準3:基準1および基準2に該当しない場合、一般的な文境界の判断基準が適用される。
In this case, it is possible to determine whether or not a sentence boundary exists immediately after the sentence end symbol appearing in the sentence, according to the following determination criteria.
Criteria 1: If a sentence ending symbol appearing in a sentence is included in a range matching a word registered in the dictionary as type 1, it is determined that there is no sentence boundary immediately after that.
-Criterion 2: If the end-of-sentence symbol that appears in the sentence is included in a range that matches a word registered in the dictionary as type 2, and is not the last character in the range, the sentence boundary immediately follows Judged not to exist.
-Standard 3: When the criteria 1 and 2 are not met, general criteria for sentence boundaries are applied.

一般的な文境界の判断基準について説明する。一般的な文境界の判断基準では、例えば、文章に出現する文末記号について、以下の条件1および2が全て満たされる場合には、その文末記号の直後に文境界は存在すると判断される。また、条件1および2の少なくとも一方が満たされない場合には、その文末記号の直後に文境界は存在しないと判断される。
・条件1:その文末記号の直後に文字が存在するならば、その文字は空白文字である。
・条件2:その文末記号の直後に単語が存在するならば、その単語は大文字で始まる。
General judgment criteria for sentence boundaries will be described. According to a general criterion for determining a sentence boundary, for example, when all of the following conditions 1 and 2 are satisfied for a sentence end symbol appearing in a sentence, it is determined that a sentence boundary exists immediately after the sentence end symbol. If at least one of the conditions 1 and 2 is not satisfied, it is determined that there is no sentence boundary immediately after the sentence end symbol.
Condition 1: If a character exists immediately after the end-of-sentence symbol, the character is a blank character.
• Condition 2: If a word exists immediately after the end of the sentence, the word starts with a capital letter.

このような、文末記号を含む複合語を辞書に登録しておく手法を用いて、文境界を推定する具体例について説明する。ここでは、辞書には、「Mr.」が種別1の単語として登録され、「U.S. President」および「U.S. Senate」が種別2の単語として登録されているものとする。   A specific example of estimating a sentence boundary using such a method of registering a compound word including a sentence end symbol in a dictionary will be described. Here, it is assumed that “Mr.” is registered as a type 1 word and “U.S. President” and “U.S. Senate” are registered as type 2 words in the dictionary.

このとき、「A former U.S. President gave a speech at the U.S. Senate yesterday.」という文章が入力されたとする。この場合、一番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. President」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。同様に、二番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. Senate」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。   It is assumed that a sentence “A former U.S. President gave a speech at the U.S. Senate yesterday” is input. In this case, each of the two periods included in the first “US” is included in a range that matches the type 2 entry “US President” registered in the dictionary, and is not the last character of the range. . For this reason, it is determined that there is no sentence boundary immediately after these periods according to the above-mentioned criterion 2. Similarly, the two periods included in the second “US” are each included in a range that matches the type 2 entry “US Senate” registered in the dictionary, and are not the last character of the range. . For this reason, it is determined that there is no sentence boundary immediately after these periods according to the above-mentioned criterion 2.

また、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この場合、「U.S.」の「U」の直後のピリオドは、辞書に登録されたエントリにマッチする範囲に含まれておらず、上記の基準1および基準2に該当しない。そこで、このピリオドには、一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」を満たさないため、この直後に文境界は存在しないと判断される。また、「U.S.」の「S」の直後のピリオドにも、同様に一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」および条件2「直後の単語Japanが大文字で始まる」を満たすため、この直後に文境界が存在すると判断される。   Further, it is assumed that a sentence “Canada is located next to the U.S. Japan is located next to China” is input. In this case, the period immediately after “U” of “U.S.” is not included in the range matching the entry registered in the dictionary, and does not correspond to the above criteria 1 and 2. Therefore, a general criterion for sentence boundaries is applied to this period. Since this period does not satisfy the above condition 1 “the character immediately after is a blank character”, it is determined that there is no sentence boundary immediately after this. Similarly, a general sentence boundary criterion is applied to a period immediately after “S” in “U.S.”. Since this period satisfies the above condition 1 “the character immediately after is a blank character” and condition 2 “the word Japan immediately after begins with a capital letter”, it is determined that there is a sentence boundary immediately after this.

また、文の境界を推定する技術の他の一例が、特許文献2に記載されている。特許文献2に記載された関連技術は、まず、単語に含まれていない文末記号を用いて文を切り出す。そして、この関連技術は、切り出した文の途中に文末記号が存在する場合、その文を構成する各単語について品詞を推定する。そして、この関連技術は、切り出した文において途中の文末記号の前方および後方にそれぞれ主動詞が出現する場合は、その文末記号の直後に文境界が存在すると推定する。また、この関連技術は、前方および後方のいずれか一方にのみ主動詞が出現する場合は、その文末記号の直後に文境界が存在しないと推定する。   Another example of a technique for estimating sentence boundaries is described in Patent Document 2. In the related technique described in Patent Document 2, a sentence is first cut out using a sentence ending symbol not included in a word. And this related technique estimates a part of speech about each word which comprises the sentence when the sentence end symbol exists in the middle of the cut-out sentence. In this related technique, when a main verb appears in front of and behind the end-of-sentence symbol in the extracted sentence, it is estimated that a sentence boundary exists immediately after the end-of-sentence symbol. Further, in this related technique, when a main verb appears only in one of the front and rear, it is estimated that there is no sentence boundary immediately after the sentence end symbol.

特開平11−282841号公報Japanese Patent Application Laid-Open No. 11-282841 特開2003−108550号公報JP 2003-108550 A

しかしながら、上述の関連技術には、以下の問題がある。   However, the related technology described above has the following problems.

特許文献1に記載された関連技術は、文末記号を含む単語のうち文の途中にも文末にも出現し得る単語を考慮していない。そのため、特許文献1に記載された関連技術は、文末記号を末尾に含む単語が文末に出現した場合、その直後に文境界はないと判断してしまう。   The related technique described in Patent Document 1 does not consider a word that can appear at the middle or end of a sentence among words including a sentence end symbol. Therefore, the related technique described in Patent Document 1 determines that there is no sentence boundary immediately after a word including a sentence end symbol at the end appears.

また、特許文献2に記載された関連技術は、切り出した文の途中に文末記号が出現する場合、切り出した文を構成する各単語について品詞を推定する処理が必要となる。品詞推定処理としては、例えば、品詞情報が付加されたコーパスを用いた確率的手法を用いることが示されている。このような品詞推定処理は、文境界を推定する装置の負荷を大きくするという問題がある。   Moreover, the related technique described in Patent Document 2 requires a process of estimating the part of speech for each word constituting the extracted sentence when a sentence ending symbol appears in the middle of the extracted sentence. As the part of speech estimation processing, for example, it is shown that a probabilistic method using a corpus to which part of speech information is added is used. Such a part-of-speech estimation process has a problem of increasing the load on a device that estimates sentence boundaries.

また、文末記号を含む複合語を辞書に登録しておく手法は、文末記号を含む複合語をできるだけ多く辞書に登録しておくことに手間がかかる、という問題がある。   Further, the method of registering a compound word including a sentence ending symbol in the dictionary has a problem that it takes time to register as many compound words including a sentence ending symbol as possible in the dictionary.

この問題について、具体例を用いて説明する。例えば、「U.S.」のフルスペルである「United States」を含む複合語は、数多くある。例えば、「United States President」、「United States Senate」、「United States Department of State」、「United States Department of Defense」などが挙げられる。これらの複合語全てについて、「United States」を、文末記号を含む省略形である「U.S.」に置き換えた複合語を、辞書に登録しておくことは、手間がかかる。この問題は、文末記号を含む単語のフルスペル表記が高い造語力を持つ場合に特に顕著となる。   This problem will be described using a specific example. For example, there are many compound words including “United States” which is the full spelling of “U.S.”. For example, “United States President”, “United States Senate”, “United States Department of State”, “United States Department of Defense”, and the like. For all of these compound words, it takes time to register compound words in which “United States” is replaced with “U.S.”, which is an abbreviation including a sentence ending symbol, in the dictionary. This problem becomes particularly noticeable when the full spelling of a word including a sentence ending symbol has a high word-making ability.

また、文末記号を含む複合語を辞書に登録しておく手法では、本来は文境界が存在しないはずの箇所で、文境界が存在すると推定することを回避するためには、文末記号を含む複合語をより多く辞書に登録する必要がある。しかしながら、この手法は、より多くの複合語を辞書に登録するほど、本来は文境界が存在するはずの箇所で、文境界が存在しないと推定してしまう可能性を増大させる。   In addition, in the method of registering a compound word including a sentence ending symbol in a dictionary, in order to avoid presuming that a sentence boundary exists at a place where a sentence boundary should not exist originally, a compound word including a sentence ending symbol is used. It is necessary to register more words in the dictionary. However, as more compound words are registered in the dictionary, this method increases the possibility of estimating that a sentence boundary does not exist at a place where a sentence boundary should exist.

例えば、「Universal Studios(登録商標) Japan」を表現する複合語として、「U.S. Japan」という複合語が辞書に登録されていることを想定する。このとき、例えば、「We enjoyed ourselves a lot yesterday at the U.S. Japan.」という文章が入力されたとする。   For example, assume that a compound word “U.S. Japan” is registered in the dictionary as a compound word expressing “Universal Studios (registered trademark) Japan”. At this time, for example, it is assumed that a sentence “We enjoyed ourselves a lot yesterday at the U.S. Japan.” Is input.

この場合、この手法は、「U.S. Japan」という複合語が辞書に登録されていることにより、「U.S.」と「Japan」との間には文境界が存在しないと判断し、全体を一文として正しく認定できる。   In this case, this method determines that there is no sentence boundary between “US” and “Japan” because the compound word “US Japan” is registered in the dictionary, and corrects the whole as one sentence correctly. Can be certified.

しかし、文字列「U.S. Japan」は、必ずしも「Universal Studios Japan」を意味するとは限らない。例えば、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この文章では、「U.S.」は「United States」を意味しており、「U.S.」と「Japan」との間に、文の境界が存在する。しかし、この手法は、辞書に「U.S. Japan」という複合語が登録されているため、「U.S.」と「Japan」との間に、文の境界は存在しないと判断してしまう。   However, the character string “U.S. Japan” does not necessarily mean “Universal Studios Japan”. For example, it is assumed that a sentence “Canada is located next to the U.S. Japan is located next to China” is input. In this sentence, “U.S.” means “United States”, and there is a sentence boundary between “U.S.” and “Japan”. However, in this method, since the compound word “U.S. Japan” is registered in the dictionary, it is determined that there is no sentence boundary between “U.S.” and “Japan”.

このように、文末記号を含む複合語を辞書に登録する手法は、辞書登録に手間がかかるだけでなく、複合語を登録した辞書を強化するほど、文境界の推定精度が落ちるという問題をかかえている。   As described above, the method of registering a compound word including a sentence ending symbol in the dictionary not only takes time to register the dictionary, but also has a problem that the estimation accuracy of the sentence boundary decreases as the dictionary in which the compound word is registered is strengthened. ing.

本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することを目的とする。   The present invention has been made to solve the above-described problems. That is, an object of the present invention is to provide a technique for estimating a sentence boundary more accurately while suppressing an increase in processing load and an increase in time required for dictionary registration.

本発明の文境界推定装置は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、を備える。   The sentence boundary estimation apparatus of the present invention includes a first dictionary for storing a word string, a replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol to represent the same meaning as the replacement source word string. A second dictionary that stores a replacement destination word string that is a word string that is represented in a correlated manner, and the replacement source word string in the original text based on the second dictionary, the replacement destination word string A text expansion unit that generates a post-replacement text that is replaced with, and a sentence boundary in the original text when the sentence boundary in the original text is estimated based on the post-replacement text and the first dictionary. If the text is within the replacement source word string replaced with the replacement destination word string included in the range matching the word string registered in the first dictionary, the end of the sentence And a sentence boundary estimation unit for estimating a non-sentence boundary immediately after the issue.

また、本発明の方法は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する。   Further, the method of the present invention does not include the first dictionary for storing the word string, the replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol so as to represent the same meaning as the replacement source word string. The replacement source word string in the original text is associated with the replacement destination based on the second dictionary using the second dictionary that is stored in association with the replacement destination word string that is the word string represented in When generating a replacement text replaced with a word string and estimating a sentence boundary in the original text based on the replacement text and the first dictionary, the sentence ending symbol in the original text is If it is inside the replacement source word string replaced with the replacement destination word string included in the range that matches the word string registered in the first dictionary, the sentence is immediately followed by the sentence It is estimated that not the world.

また、本発明のプログラムは、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、をコンピュータ装置に実行させる。   Further, the program of the present invention does not include the first dictionary for storing the word string, the replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol so as to represent the same meaning as the replacement source word string. The replacement source word string in the original text is associated with the replacement destination based on the second dictionary using the second dictionary that is stored in association with the replacement destination word string that is the word string represented in A text expansion step for generating a post-substitution text replaced with a word string; and when estimating a sentence boundary in the original text based on the post-substitution text and the first dictionary, In the post-replacement text, the replacement source word string replaced by the replacement destination word string included in the range matching the word string registered in the first dictionary is included. If, to execute the sentence boundary detection step of estimating the non-text boundary immediately following the end of the sentence symbols, the computer device.

本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することができる。   The present invention can provide a technique for estimating a sentence boundary more accurately while suppressing an increase in processing load and an increase in time required for dictionary registration.

本発明の第1の実施の形態としての文境界推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sentence boundary estimation apparatus as the 1st Embodiment of this invention. 本発明の第1の実施の形態としての文境界推定装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the sentence boundary estimation apparatus as the 1st Embodiment of this invention. 本発明の第1の実施の形態において第1辞書に格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in a 1st dictionary in the 1st Embodiment of this invention. 本発明の第1の実施の形態において第2辞書に格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in a 2nd dictionary in the 1st Embodiment of this invention. 本発明の第1の実施の形態としての文境界推定装置の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the sentence boundary estimation apparatus as the 1st Embodiment of this invention. 本発明の第1の実施の形態としての文境界推定装置による動作の具体例を説明する図である。It is a figure explaining the specific example of the operation | movement by the sentence boundary estimation apparatus as the 1st Embodiment of this invention. 本発明の第2の実施の形態としての文境界推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sentence boundary estimation apparatus as the 2nd Embodiment of this invention. 本発明の第2の実施の形態としての文境界推定装置の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the sentence boundary estimation apparatus as the 2nd Embodiment of this invention. 本発明の第2の実施の形態において第1辞書に格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in a 1st dictionary in the 2nd Embodiment of this invention. 本発明の第2の実施の形態において第2辞書に格納される情報の一例を示す図である。It is a figure which shows an example of the information stored in a 2nd dictionary in the 2nd Embodiment of this invention. 本発明の第2の実施の形態としての文境界推定装置による動作の具体例を説明する図である。It is a figure explaining the specific example of the operation | movement by the sentence boundary estimation apparatus as the 2nd Embodiment of this invention. 本発明の第2の実施の形態としての文境界推定装置による動作の他の具体例を説明する図である。It is a figure explaining the other specific example of the operation | movement by the sentence boundary estimation apparatus as the 2nd Embodiment of this invention.

以下、本発明の実施の形態について、図面を参照して詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施の形態)
本発明の第1の実施の形態としての文境界推定装置1の機能ブロック構成を図1に示す。図1において、文境界推定装置1は、第1辞書11と、第2辞書12と、テキスト展開部13と、文境界推定部14とを備える。
(First embodiment)
FIG. 1 shows a functional block configuration of a sentence boundary estimation apparatus 1 as a first embodiment of the present invention. In FIG. 1, the sentence boundary estimation device 1 includes a first dictionary 11, a second dictionary 12, a text development unit 13, and a sentence boundary estimation unit 14.

ここで、文境界推定装置1は、図2に示すようなハードウェア要素によって構成可能である。図2において、文境界推定装置1は、CPU(Central Processing Unit)1001、メモリ1002、出力装置1003、および、入力装置1004を含む。メモリ1002は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等によって構成される。出力装置1003は、ディスプレイ装置やプリンタ等のように、情報を出力する装置によって構成される。入力装置1004は、キーボードやマウス、OCR(Optical Character Reader)装置等のように、ユーザ操作や情報の入力を受け付ける装置によって構成される。この場合、文境界推定装置1の各機能ブロックは、メモリ1002に格納されるコンピュータ・プログラムを読み込んで実行するとともに出力装置1003、入力装置1004の各部を制御するCPU1001によって構成される。なお、文境界推定装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。   Here, the sentence boundary estimation apparatus 1 can be configured by hardware elements as shown in FIG. In FIG. 2, the sentence boundary estimation device 1 includes a CPU (Central Processing Unit) 1001, a memory 1002, an output device 1003, and an input device 1004. The memory 1002 includes a RAM (Random Access Memory), a ROM (Read Only Memory), an auxiliary storage device (such as a hard disk), and the like. The output device 1003 is configured by a device that outputs information, such as a display device or a printer. The input device 1004 is configured by a device that accepts user operations and information input, such as a keyboard, a mouse, an OCR (Optical Character Reader) device, and the like. In this case, each functional block of the sentence boundary estimation device 1 is configured by a CPU 1001 that reads and executes a computer program stored in the memory 1002 and controls each unit of the output device 1003 and the input device 1004. Note that the hardware configuration of the sentence boundary estimation device 1 and each functional block thereof is not limited to the above-described configuration.

次に、各機能ブロックの詳細について説明する。   Next, details of each functional block will be described.

第1辞書11は、単語列を格納する。単語列とは、1つ以上の単語からなる意味のある文字列である。なお、複数の単語からなる単語列は、いわゆる複合語である。第1辞書11は、単独の単語や複合語等、対象分野において一般的に使用される単語列を格納している。特に、第1辞書11には、文末記号を含む単語列と同等の意味を表すよう文末記号を含まないで表された単語列そのものや、そのような単語列をさらに含む複合語が格納されていることが望ましい。ただし、第1辞書11は、そのような単語列だけでなく、その他の単語列を格納していてもよい。第1辞書11としては、対象分野における単独の単語だけでなく複合語も見出し語として含むような一般的な辞書を適用可能である。   The first dictionary 11 stores word strings. A word string is a meaningful character string consisting of one or more words. A word string made up of a plurality of words is a so-called compound word. The first dictionary 11 stores word strings that are generally used in the target field, such as single words and compound words. In particular, the first dictionary 11 stores a word string itself that does not include a sentence ending symbol so as to represent the same meaning as a word string that includes a sentence ending symbol, or a compound word that further includes such a word string. It is desirable that However, the first dictionary 11 may store not only such a word string but also other word strings. As the first dictionary 11, a general dictionary that includes not only a single word in the target field but also a compound word as a headword can be applied.

図3は、文境界を推定する対象として英文が想定される場合に、第1辞書11に格納される情報の一例である。ここでは、「United States」、「United States President」、「United States Senate」、「Post Office」、「Post Office Box」等の単語列が登録されている。これらは、文末記号を含む単語列「U.S.」や「P.O.」と同等の意味を表すよう文末記号を含まないで表された単語列「United States」や「Post Office」そのものまたはそのような単語列を含む複合語である。英文では、頭字語、省略形または短縮形等と呼ばれる、文末記号であるピリオドを含む単語が用いられることが多い。そこで、このように、第1辞書11には、ピリオドを含む頭字語、省略形または短縮形として表現され得るフルスペル表記の単語列そのものや、そのようなフルスペル表記の単語列をさらに含む複合語が格納されている。   FIG. 3 is an example of information stored in the first dictionary 11 when an English sentence is assumed as a target for estimating a sentence boundary. Here, word strings such as “United States”, “United States President”, “United States Senate”, “Post Office”, “Post Office Box” are registered. These are the word sequences "United States" and "Post Office" that are expressed without the end-of-word symbol to indicate the same meaning as the word sequences "US" and "PO" that include the end-of-word symbol, or such word strings. Is a compound word containing In English, words including a period, which is a sentence ending symbol, are often used, which are called acronyms, abbreviations or abbreviations. Thus, in this way, the first dictionary 11 includes an acronym including a period, a full spelling word string that can be expressed as an abbreviation or abbreviation, or a compound word further including such a full spelling word string. Stored.

なお、図3では、説明のため、第1辞書11の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。   In FIG. 3, an ID is assigned to each entry of the first dictionary 11 for the sake of explanation. Hereinafter, an entry whose ID is X is also referred to as an ID: X entry.

第2辞書12は、置換元単語列および置換先単語列を関連付けて格納する。置換元単語列とは、少なくとも1つの単語に文末記号が含まれる1つ以上の単語からなる意味のある文字列である。置換先単語列は、置換元単語列と同等の意味を表すよう、文末記号を含まずに表された1つ以上の単語からなる意味のある文字列である。   The second dictionary 12 stores the replacement source word string and the replacement destination word string in association with each other. The replacement source word string is a meaningful character string composed of one or more words in which at least one word includes a sentence end symbol. The replacement-destination word string is a meaningful character string composed of one or more words expressed without including a sentence ending symbol so as to represent the same meaning as the replacement-source word string.

図4は、文境界を推定する対象として英文が想定される場合に、第2辞書12に格納される情報の一例である。ここでは、置換元単語列として「U.S.」というピリオドを含む省略形の単語に関連付けて、その省略形をスペルアウトしたフルスペル表記である「United States」という置換先単語列が格納されている。また、置換元単語列として「P.O.」というピリオドを含む省略形の単語に関連付けて、その省略形のフルスペル表記である「Post Office」という置換先単語列が格納されている。   FIG. 4 is an example of information stored in the second dictionary 12 when an English sentence is assumed as a target for estimating a sentence boundary. Here, a replacement-destination word string “United States”, which is a full spelling expression in which the abbreviation is spelled out, is stored in association with an abbreviated word including a period “U.S.” as a replacement-source word string. Further, a replacement word string “Post Office” which is a full spelling of the abbreviation is stored in association with an abbreviated word including a period “P.O.” as a replacement word string.

この例のように、第2辞書12は、文末記号を含んで表現される最小単位の単語列(例えば、「U.S.」)を置換元単語列とするエントリを少なくとも格納すればよい。つまり、第2辞書12は、そのような置換元単語列をさらに含む複合語(例えば、「U.S. President」)を置換元単語列とするエントリを格納しなくてもよい。   As in this example, the second dictionary 12 only needs to store at least an entry having a word string (for example, “U.S.”) in a minimum unit expressed including a sentence end symbol as a replacement source word string. That is, the second dictionary 12 may not store an entry having a compound word (for example, “U.S. President”) further including such a replacement source word string as a replacement source word string.

なお、図4では、説明のため、第2辞書12の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。   In FIG. 4, an ID is assigned to each entry of the second dictionary 12 for explanation. Hereinafter, an entry whose ID is X is also referred to as an ID: X entry.

テキスト展開部13は、第2辞書12に基づいて、オリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストを生成する。   Based on the second dictionary 12, the text expansion unit 13 generates post-substitution text in which the replacement source word string in the original text is replaced with the associated replacement destination word string.

なお、テキスト展開部13は、入力装置1004を介して入力されるテキストを、オリジナルテキストとして取得してもよい。あるいは、テキスト展開部13は、メモリ1002に格納されたテキストを、オリジナルテキストとして取得してもよい。また、この場合、テキスト展開部13は、対象となるテキストのメモリ1002における格納位置を表す情報を、入力装置1004を介して取得してもよい。また、テキスト展開部13は、ネットワークを介して接続された装置から入力されるテキストを、オリジナルテキストとして取得してもよい。その他、テキスト展開部13は、可搬型記憶媒体に記憶されたテキストを、オリジナルテキストとして取得してもよい。   Note that the text development unit 13 may acquire the text input via the input device 1004 as the original text. Alternatively, the text development unit 13 may acquire the text stored in the memory 1002 as an original text. In this case, the text development unit 13 may acquire information indicating the storage position of the target text in the memory 1002 via the input device 1004. In addition, the text development unit 13 may acquire text input from a device connected via a network as original text. In addition, the text development unit 13 may acquire the text stored in the portable storage medium as the original text.

文境界推定部14は、置換後テキストおよび第1辞書11に基づいて、オリジナルテキストにおける文境界を推定する。このとき、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合、その文末記号の直後は文境界でないと推定する。   The sentence boundary estimation unit 14 estimates a sentence boundary in the original text based on the replaced text and the first dictionary 11. At this time, the sentence boundary estimation unit 14 replaces the replacement source word string with the replacement word string included in the range in which the sentence end symbol of the original text matches the word string registered in the first dictionary 11 in the replacement text. If it is inside the, it is presumed that it is not a sentence boundary immediately after the sentence ending symbol.

具体的には、例えば、文境界推定部14は、置換後テキストにおいて第1辞書11に登録されている単語列にマッチする範囲を検出しておく。そして、文境界推定部14は、次の条件3および4がいずれも満たされる場合に、その直後が文境界でないと判断すればよい。
・条件3:オリジナルテキストにおける文末記号が、置換された置換元単語列に含まれる。
・条件4:置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録された単語列にマッチする範囲に含まれる。
Specifically, for example, the sentence boundary estimation unit 14 detects a range that matches a word string registered in the first dictionary 11 in the replaced text. And the sentence boundary estimation part 14 should just determine that the next is not a sentence boundary, when both the following conditions 3 and 4 are satisfy | filled.
Condition 3: The sentence end symbol in the original text is included in the replaced source word string.
Condition 4: The replacement destination word string replaced from the replacement source word string in the post-substitution text is included in a range that matches the word string registered in the first dictionary 11 previously detected.

なお、文境界推定部14は、オリジナルテキストにおける文末記号が、上記条件3および4のいずれか1つでも満たさない場合は、通常の文境界の推定処理を行う。通常の文境界の推定処理には、公知の技術を適用してもよい。   Note that the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing when the sentence end symbol in the original text does not satisfy any one of the above conditions 3 and 4. A known technique may be applied to normal sentence boundary estimation processing.

ただし、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にあっても、次の場合には、その直後が文境界でないとの判断を保留する。その場合とは、次の条件5および6がいずれも満たされる場合である。
・条件5:該当する文末記号が、オリジナルテキストにおいて、置換された置換元単語列の末尾の文字である。
・条件6:置換後テキストにおいて、その置換元単語列から置換された置換先単語列の末尾の単語と、その置換先単語列を含む第1辞書11の単語列にマッチする範囲の末尾の単語とが一致する。
However, the sentence boundary estimation unit 14 is located inside the replacement source word string in which the sentence end symbol of the original text is replaced with the replacement destination word string included in the range matching the word string in the first dictionary 11 in the replacement text. However, in the following case, the determination that the immediately following is not a sentence boundary is suspended. In that case, the following conditions 5 and 6 are both satisfied.
Condition 5: The corresponding sentence ending symbol is the last character of the replacement source word string replaced in the original text.
Condition 6: In the post-substitution text, the last word in the replacement destination word string replaced from the replacement source word string and the last word in the range matching the word string in the first dictionary 11 including the replacement destination word string Matches.

この場合、文境界推定部14は、通常の文境界の推定処理によって、その文末記号の直後における文境界の有無を推定すればよい。   In this case, the sentence boundary estimation part 14 should just estimate the presence or absence of the sentence boundary immediately after the sentence end symbol by the normal sentence boundary estimation process.

以上のように構成された文境界推定装置1の動作を、図5を参照して説明する。   The operation of the sentence boundary estimation apparatus 1 configured as described above will be described with reference to FIG.

図5では、まず、テキスト展開部13は、オリジナルテキストを取得する(ステップS1)。   In FIG. 5, first, the text development unit 13 acquires the original text (step S1).

次に、テキスト展開部13は、第2辞書12を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部13は、検索した置換元単語列に一致する文字列を、関連付けられた置換先単語列に置換することにより、置換後テキストを生成する(ステップS2)。   Next, the text expansion unit 13 refers to the second dictionary 12 and searches for a character string that matches the replacement source word string in the original text. Then, the text expansion unit 13 generates the replaced text by replacing the character string that matches the searched replacement source word string with the associated replacement destination word string (step S2).

ここで、オリジナルテキストにおけるある文字列について、適用可能な複数の置換元単語列のエントリが、第2辞書12にあるとする。この場合、テキスト展開部13は、その箇所をそれぞれの置換先単語列で置換することにより、複数の置換後テキストを生成してもよい。適用可能な複数の置換元単語列があるケースとしては、例えば、次のようないくつかのケースが考えられる。1つ目は、同一の置換元単語列について、異なる置換先単語列が関連付けられた複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列に対して「United States」を置換先単語列として関連付けたエントリと、「Universal Studios」を置換先単語列として関連付けたエントリとがある場合等である。2つ目は、文字列として包含関係にある異なる置換元単語列に関する複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列のエントリと、「U.S. Japan」という置換元単語列のエントリがある場合等である。   Here, it is assumed that there are entries of a plurality of applicable replacement source word strings in the second dictionary 12 for a certain character string in the original text. In this case, the text expansion unit 13 may generate a plurality of post-substitution texts by replacing the places with the respective replacement destination word strings. As a case where there are a plurality of applicable replacement source word strings, for example, there are several cases as follows. The first is a case where there are a plurality of entries associated with different replacement destination word strings for the same replacement source word string. For example, there may be an entry in which “United States” is associated with the replacement source word string “U.S.” as a replacement destination word string and an entry in which “Universal Studios” is associated as the replacement destination word string. The second case is a case where there are a plurality of entries relating to different replacement source word strings that are in an inclusive relationship as character strings. For example, there is an entry of a replacement source word string “U.S.” and an entry of a replacement source word string “U.S. Japan”.

次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする文字列を検出し、その範囲を記録する(ステップS3)。   Next, the sentence boundary estimation unit 14 detects a character string that matches the word string registered in the first dictionary 11 in the replaced text, and records the range (step S3).

次に、文境界推定部14は、オリジナルテキスト中の各文末記号に対して、その直後に文境界の有無を判断するステップS4〜S6の処理を実行する。   Next, the sentence boundary estimation part 14 performs the process of step S4-S6 which judges the presence or absence of a sentence boundary immediately after that for each sentence end symbol in an original text.

ここでは、文境界推定部14は、当該文末記号が、オリジナルテキストにおいて置換された置換元単語列の一部である場合、さらに次の判断を行う。この場合、文境界推定部14は、置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録済みの単語列にマッチする範囲に含まれるか否かを判断する(ステップS4)。   Here, the sentence boundary estimation unit 14 further performs the following determination when the sentence end symbol is a part of the replacement source word string replaced in the original text. In this case, the sentence boundary estimation unit 14 is a range in which the replacement destination word string replaced from the replacement source word string in the post-substitution text matches the word string already registered in the first dictionary 11 detected previously. (Step S4).

ただし、文境界推定部14は、該当する置換先単語列が第1辞書11に登録済みの単語列にマッチする範囲に含まれる場合でも、次のケースには、ステップS4の判断結果をNoとする。そのようなケースとは、この文末記号が、置換元単語列の末尾の文字であり、かつ、置換先単語列の最後の単語と、置換先単語列を含む第1辞書11に登録済みの単語列にマッチする範囲の最後の単語とが一致する場合である。   However, even when the corresponding replacement destination word string is included in the range matching the word string already registered in the first dictionary 11, the sentence boundary estimation unit 14 sets the determination result in step S4 as No. To do. In such a case, this sentence ending symbol is the last character of the replacement source word string, and the last word of the replacement destination word string and the word registered in the first dictionary 11 including the replacement destination word string This is the case when the last word in the range that matches the column matches.

また、ステップS2において複数の置換後テキストが生成されている場合、文境界推定部14は、ステップS4における判断処理を、各々の置換後テキストを対象として実施してもよい。そして、この場合、文境界推定部14は、少なくとも1つの置換後テキストにおいての判断結果がYesとなった場合は、ステップS4全体としての判断結果をYesとしてもよい。一方、文境界推定部14は、全ての置換後テキストでの判断結果がNoとなった場合は、ステップS4全体としての判断結果をNoとしてもよい。   When a plurality of post-substitution texts are generated in step S2, the sentence boundary estimation unit 14 may perform the determination process in step S4 on each post-substitution text. In this case, the sentence boundary estimation unit 14 may set the determination result as the entire step S4 to Yes when the determination result in the at least one post-substitution text is Yes. On the other hand, the sentence boundary estimation part 14 is good also as No as the determination result as the whole step S4, when the determination result in all the texts after substitution becomes No.

ここで、ステップS4でYesとなった場合について説明する。この場合、文境界推定部14は、オリジナルテキストにおいてこの文末記号の直後に文境界は無いと判断する(ステップS5)。   Here, the case where it becomes Yes at step S4 is demonstrated. In this case, the sentence boundary estimation unit 14 determines that there is no sentence boundary immediately after the sentence end symbol in the original text (step S5).

一方、ステップS4でNoとなった場合について説明する。この場合、文境界推定部14は、この文末記号について通常の文境界の推定処理を実行することにより、その直後における文境界の有無を推定する(ステップS6)。   On the other hand, the case where it becomes No at step S4 is demonstrated. In this case, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing on the sentence end symbol to estimate the presence or absence of a sentence boundary immediately after that (step S6).

前述のように、通常の文境界の推定処理には、公知の技術を適用してもよい。例えば、通常の文境界の推定処理としては、背景技術で説明した条件1および条件2を共に満たす場合に、その直後に文境界があると判断する処理を適用してもよい。   As described above, a known technique may be applied to normal sentence boundary estimation processing. For example, as a normal sentence boundary estimation process, when both condition 1 and condition 2 described in the background art are satisfied, a process of determining that there is a sentence boundary immediately after that may be applied.

ステップS4〜S6の処理を、オリジナルテキストにおける全ての文末記号について完了すると、文境界推定部14は、推定した文境界の位置を表す情報を出力する(ステップS7)。   When the processes in steps S4 to S6 are completed for all the end-of-sentence symbols in the original text, the sentence boundary estimation unit 14 outputs information representing the estimated sentence boundary position (step S7).

以上で、文境界推定部14は、動作を終了する。   Thus, the sentence boundary estimation unit 14 ends the operation.

次に、文境界推定装置1の動作を具体例で示す。ここでは、オリジナルテキストは英文であり、文末記号はピリオドである。また、第1辞書11および第2辞書12には、それぞれ、図3および図4に示した情報が格納されているものとする。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。   Next, the operation of the sentence boundary estimation apparatus 1 will be shown as a specific example. Here, the original text is English, and the sentence ending symbol is a period. In addition, it is assumed that the information shown in FIGS. 3 and 4 is stored in the first dictionary 11 and the second dictionary 12, respectively. Each functional block recognizes a blank in the text as a word boundary.

まず、テキスト展開部13は、図6に示すオリジナルテキストを取得したとする(ステップS1)。   First, it is assumed that the text development unit 13 acquires the original text shown in FIG. 6 (step S1).

次に、テキスト展開部13は、第2辞書12を参照することにより、図6に示すように、オリジナルテキストから置換後テキストを生成する(ステップS2)。   Next, the text expansion unit 13 refers to the second dictionary 12 to generate a replacement text from the original text as shown in FIG. 6 (step S2).

ここで、図6のオリジナルテキストにおいて、下線部は、置換元単語列の部分を示している。すなわち、このオリジナルテキストには、図4に示した第2辞書12におけるID:1の置換元単語列「U.S.」が、2箇所に出現している。この置換元単語列の出現位置は、オリジナルテキストの3単語目および10単語目である。テキスト展開部13は、これらの2箇所の「U.S.」を、第2辞書12において関連付けられた置換先単語列である「United States」に置換する。   Here, in the original text of FIG. 6, the underlined portion indicates a replacement source word string portion. That is, in this original text, the replacement source word string “U.S.” of ID: 1 in the second dictionary 12 shown in FIG. 4 appears in two places. The appearance position of this replacement source word string is the third word and the tenth word of the original text. The text expansion unit 13 replaces these two “U.S.” with “United States”, which is a replacement destination word string associated in the second dictionary 12.

図6の置換後テキストにおいて、二重下線部は、オリジナルテキストの置換元単語列から置換された置換先単語列の部分を示している。1つ目の「United States」は、置換後テキストの3〜4単語目に位置し、2つ目の「United States」は、置換後テキストの11〜12単語目に位置している。   In the post-replacement text of FIG. 6, the double underline indicates the part of the replacement destination word string that is replaced from the replacement source word string of the original text. The first “United States” is located at the 3rd to 4th words of the replacement text, and the second “United States” is located at the 11th to 12th words of the replacement text.

次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図6では、破線の矩形で囲んだ部分が、第1辞書11に登録された単語列にマッチする範囲を示している。1つ目の3〜5単語目は、第1辞書11におけるID:2の単語列「United States President」にマッチする範囲である。2つ目の11〜13単語目は、第1辞書11におけるID:3の単語列「United States Senate」にマッチする範囲である。   Next, the sentence boundary estimation unit 14 detects a range that matches the word string registered in the first dictionary 11 in the replaced text (step S3). In FIG. 6, a portion surrounded by a broken-line rectangle indicates a range that matches a word string registered in the first dictionary 11. The first third to fifth words are ranges that match the word string “United States President” with ID: 2 in the first dictionary 11. The second 11th to 13th words are a range that matches the word string “United States Senate” with ID: 3 in the first dictionary 11.

次に、文境界推定部14は、オリジナルテキストの文末記号の各々に対して、当該文末記号の直後が文境界であるか否かの判断を繰り返す。   Next, the sentence boundary estimation unit 14 repeats the determination as to whether or not a sentence boundary immediately follows the sentence end symbol for each sentence end symbol of the original text.

まず、文境界推定部14は、オリジナルテキストにおける1つ目のピリオドとして、3単語目の「U.S.」のUの直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された3単語目の置換元単語列「U.S.」に含まれている。また、この置換元単語列は、置換後テキストにおける3〜4単語目の置換先単語列「United States」に置換されている。さらに、置換後テキストにおいて、3〜5単語目は、第1辞書11に登録されたID:2の単語列「United States President」にマッチしている。   First, the sentence boundary estimation unit 14 pays attention to the period immediately after U of the third word “U.S.” as the first period in the original text. This period is included in the replacement word string “U.S.” of the third word replaced by the text expansion unit 13. Further, this replacement source word string is replaced with the replacement destination word string “United States” of the third to fourth words in the replaced text. Furthermore, in the post-replacement text, the third to fifth words match the word string “United States President” with ID: 2 registered in the first dictionary 11.

つまり、注目しているピリオドは、「置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部」に存在する。また、当該ピリオドは、置換元単語列の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。   That is, the period of interest exists in “the inside of the replacement source word string replaced with the replacement destination word string included in the range matching the word string registered in the first dictionary 11 in the replaced text”. The period is not the last character of the replacement source word string. Thereby, about this period, the judgment result of step S4 by the sentence boundary estimation part 14 will be Yes.

そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after the first period (step S5).

次に、文境界推定部14は、オリジナルテキストにおける2つ目のピリオドとして、3単語目の「U.S.」のSの直後のピリオドに注目する。このピリオドも、1つ目のピリオドと同様に、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States President」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、このピリオドは、置換元単語列「U.S.」の末尾の文字であるが、置換先単語列の最後の単語「States」は、第1辞書11に登録された単語列にマッチする範囲の最後の単語「President」とは異なる。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after S of the third word “U.S.” as the second period in the original text. Similarly to the first period, this period is also replaced with the replacement destination word string “United States” included in the range “United States President” that matches the word string registered in the first dictionary 11 in the replacement text. Exists within the replacement source word string “US”. In addition, this period is the last character of the replacement source word string “US”, but the last word “States” of the replacement destination word string is the last character in the range matching the word string registered in the first dictionary 11. Is different from the word “President”. Thereby, about this period, the judgment result of step S4 by the sentence boundary estimation part 14 will be Yes.

そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after the second period (step S5).

同様に、文境界推定部14は、オリジナルテキストにおける3〜4番目のピリオドとして、10単語目の「U.S.」の中の2つのピリオドにそれぞれ注目する。これらのピリオドは、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States Senate」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、これらのピリオドは、それぞれ、置換元単語列の末尾の文字ではないか、または、置換先単語列の最後の単語「States」が、第1辞書11に登録された単語列にマッチする範囲の最後の単語「Senate」とは異なる。そこで、これらのピリオドについて、文境界推定部14によるステップS4の判断結果は、それぞれYesとなる。   Similarly, the sentence boundary estimation unit 14 pays attention to each of two periods in the tenth word “U.S.” as the third to fourth periods in the original text. These periods are replaced by the replacement source word string “US” replaced by the replacement destination word string “United States” included in the range “United States Senate” that matches the word string registered in the first dictionary 11 in the replaced text. Inside. " Each of these periods is not the last character of the replacement source word string, or a range in which the last word “States” of the replacement destination word string matches the word string registered in the first dictionary 11. Is different from the last word "Senate". Therefore, for these periods, the determination result in step S4 by the sentence boundary estimation unit 14 is Yes.

そこで、文境界推定部14は、これらの3〜4つ目のピリオドの直後は、それぞれ文境界でないと判断する。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after these third to fourth periods.

次に、文境界推定部14は、オリジナルテキストにおける5つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after “yesterday” as the fifth period in the original text. This period is not included in the replacement source word string replaced by the text expansion unit 13. Therefore, the determination result of step S4 by the sentence boundary estimation part 14 becomes No about this period.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6).

ここでは、文境界推定部14は、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「The」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、5つ目のピリオドの直後に文境界が存在すると判断する。   Here, the sentence boundary estimation unit 14 determines that there is a sentence boundary immediately after the corresponding period satisfies both the conditions 1 and 2 described in the background art as a normal sentence boundary estimation process. And The period immediately after “yesterday” satisfies the condition 1 because the period immediately after it is a blank character. Also, this period satisfies condition 2 because the word “The” immediately after it begins with a capital letter. Therefore, the sentence boundary estimation unit 14 determines that there is a sentence boundary immediately after the fifth period.

次に、文境界推定部14は、オリジナルテキストにおける6つ目のピリオドとして、「everyone」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after “everyone” as the sixth period in the original text. This period is not included in the replacement source word string replaced by the text expansion unit 13. Therefore, the determination result of step S4 by the sentence boundary estimation part 14 becomes No about this period.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。この「everyone」の直後のピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、6つ目のピリオドの直後に文境界が存在すると判断する。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6). The period immediately after “everyone” satisfies both condition 1 and condition 2 because there is no character or word immediately after that. Therefore, the sentence boundary estimation unit 14 determines that a sentence boundary exists immediately after the sixth period.

そして、文境界推定部14は、図6に示すように、推定結果を表す情報を出力する。図6では、オリジナルテキストにおいて文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果を表す情報として出力している。つまり、オリジナルテキストにおいて、「yesterday」の次のピリオドの直後の位置、および、「everyone」の次のピリオドの直後の位置に、文境界が存在することが推定されている。   And the sentence boundary estimation part 14 outputs the information showing an estimation result, as shown in FIG. In FIG. 6, the text in which the character string “{sentence boundary}” is inserted at a position where it is determined that there is a sentence boundary in the original text is output as information representing the estimation result. That is, in the original text, it is presumed that there is a sentence boundary at a position immediately after the next period after “yesterday” and at a position immediately after the next period after “everyone”.

次に、本発明の第1の実施の形態の効果について述べる。   Next, effects of the first exemplary embodiment of the present invention will be described.

本発明の第1の実施の形態としての文境界推定装置は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定することができる。   The sentence boundary estimation apparatus according to the first exemplary embodiment of the present invention can estimate sentence boundaries more accurately while suppressing an increase in processing load and an increase in labor for dictionary registration.

その理由について説明する。本実施の形態では、第1辞書が単語列を格納している。また、第2辞書が、文末記号を含む単語列である置換元単語列、および、置換元単語列と同等の意味を表すよう文末記号を含まずに表された単語列である置換先単語列を関連付けて記憶している。そして、テキスト展開部が、入力されたオリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストに展開する。そして、文境界推定部が、置換後テキストおよび第1辞書に基づいてオリジナルテキストにおける文境界を推定する。このとき、文境界推定部が、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合には、その文末記号の直後は文境界でないと推定するからである。   The reason will be described. In the present embodiment, the first dictionary stores word strings. Further, the second dictionary is a replacement source word string that is a word string including a sentence ending symbol, and a replacement destination word string that is a word string that is expressed without including a sentence ending symbol so as to represent the same meaning as the replacement source word string. Are stored in association with each other. Then, the text expansion unit expands the replacement source word string in the input original text into a post-replacement text that is replaced with the associated replacement destination word string. Then, the sentence boundary estimation unit estimates the sentence boundary in the original text based on the replaced text and the first dictionary. At this time, when the sentence boundary estimation unit is within the replacement source word string replaced with the replacement destination word string included in the range matching the word string of the first dictionary in the replacement text, the sentence ending symbol of the original text This is because it is estimated that the sentence boundary is not immediately after the sentence end symbol.

このように、本実施の形態は、文末記号を含む単語列についてその内部または直後に文境界があると推定されたくない場合、文末記号を含むその単語列をさらに含む様々な複合語を辞書に登録しておく必要がない。本実施の形態は、文末記号を含むその単語列と、同等の意味を表す文末記号を含まない単語列とを関連付けて第2辞書に登録しておき、文末記号を含まない表記の複合語を第1辞書に登録しておけばよい。したがって、本実施の形態は、辞書登録の手間を大幅に削減する。また、本実施の形態は、そのような第1辞書および第2辞書に基づいて文境界を推定するので、各単語について品詞推定処理等の高負荷な処理を必要としない。   As described above, in this embodiment, when it is not desired to estimate that there is a sentence boundary inside or immediately after a word string including a sentence end symbol, various compound words further including the word string including the sentence end symbol are stored in the dictionary. There is no need to register. In the present embodiment, the word string including the sentence ending symbol and the word string not including the sentence ending symbol representing the equivalent meaning are associated and registered in the second dictionary, and a compound word having a notation not including the sentence ending symbol is registered. It only has to be registered in the first dictionary. Therefore, the present embodiment greatly reduces the trouble of dictionary registration. Moreover, since this embodiment estimates sentence boundaries based on such first and second dictionaries, high-load processing such as part-of-speech estimation processing is not required for each word.

このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。   The effect of this embodiment will be specifically described using the above-described specific example.

上述の具体例では、オリジナルテキスト中の2か所に現れる「U.S.」におけるSの直後のピリオドは、直後が空白文字であり、直後の単語(「President」および「Senate」)が大文字で始まる。つまり、一般的な技術を適用した通常の文境界の推定処理だけでは、条件1および2が満たされることになる。このため、本実施の形態を用いない場合、これらのピリオドは、その直後に本来は文境界が存在しないにも関わらず、存在すると認定されてしまう。   In the specific example described above, the period immediately after S in “U.S.” appearing in two places in the original text is immediately followed by a blank character, and the immediately following words (“President” and “Senate”) begin with a capital letter. That is, the conditions 1 and 2 are satisfied only by the normal sentence boundary estimation process to which a general technique is applied. For this reason, when this embodiment is not used, these periods are recognized as being present immediately after the sentence boundary originally does not exist.

ここで、一般的な技術を適用した通常の文境界の推定処理でこれを防ぐためには、「U.S. President」「U.S. Senate」を単語列として辞書に登録しておく必要がある。また、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定されたくない場合、一部を頭字語表記とした「U.S. Ministry of Defense」も合わせて辞書に登録しておく必要がある。このように、文末記号を含む単語列をさらに含む複合語は、膨大な数となることが多く、それらを全て辞書に登録するのに大変手間がかかる。   Here, in order to prevent this in a normal sentence boundary estimation process to which a general technique is applied, it is necessary to register “U.S. President” and “U.S. Senate” in the dictionary as word strings. Also, if you have another compound word that includes “United States” (for example, “United States Ministry of Defense”) and you do not want to infer that there is a sentence boundary, of Defense "must also be registered in the dictionary. As described above, there are many enormous numbers of compound words that further include a word string including a sentence ending symbol, and it is very troublesome to register them all in the dictionary.

これに対して、本実施の形態の具体例は、「U.S. President」「U.S. Senate」といった、文末記号を含む単語をさらに含む複合語を、いずれの辞書にも登録しなくてよい。本実施の形態は、これらをスペルアウトした単語列「United States President」および「United States Senate」を第1辞書に登録すればよい。また、本実施の形態は、文末記号を含む単語「U.S.」およびそれをスペルアウトした単語列「United States」を関連付けて第2辞書に登録すればよい。つまり、本実施の形態は、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定したくない場合にも、第2辞書への登録を増やす必要はない。この場合、本実施の形態は、スペルアウトした正書法である単語列「United States Ministry of Defense」を第1辞書に登録しておけばよい。   On the other hand, in the specific example of the present embodiment, a compound word that further includes a word including a sentence ending symbol such as “U.S. President” and “U.S. Senate” may not be registered in any dictionary. In the present embodiment, the word strings “United States President” and “United States Senate” spelled out may be registered in the first dictionary. Further, in the present embodiment, the word “U.S.” including the sentence ending symbol and the word string “United States” spelled out thereof may be associated and registered in the second dictionary. That is, the present embodiment also includes the second dictionary even when there is another compound word including “United States” (for example, “United States Ministry of Defense”) and it is not desired to estimate that there is a sentence boundary inside. There is no need to increase registrations. In this case, in the present embodiment, the word string “United States Ministry of Defense”, which is a spelled out spelling method, may be registered in the first dictionary.

このように、本実施の形態は、内部に文境界があると推定されることを避けたい複合語について、文末記号を含む表記を全て辞書登録しておく必要がない。本実施の形態は、文末記号を含む頭字語等の表記と、そのスペルアウト表記との関連付けを1つ、第2辞書に登録しておけば、その他は、スペルアウトした複合語のみを第1辞書に登録すればよい。   As described above, in this embodiment, it is not necessary to register all notations including sentence ending symbols in a dictionary for a compound word that it is desired to avoid having a sentence boundary inside. In this embodiment, if one association between an acronym including a sentence ending symbol and its spell-out notation is registered in the second dictionary, only the spelled-out compound word is the first. Just register it in the dictionary.

これにより、本実施の形態は、品詞推定処理等の負荷の高い処理を必要とせず、かつ、辞書登録にかかる手間を抑えながら、より精度よく文境界を推定することができる。   As a result, this embodiment can estimate sentence boundaries more accurately without requiring high-load processing such as part-of-speech estimation processing and reducing the effort required for dictionary registration.

(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described in detail with reference to the drawings. Note that, in each drawing referred to in the description of the present embodiment, the same reference numerals are given to the same configuration and steps that operate in the same manner as in the first embodiment of the present invention, and the detailed description in the present embodiment. Description is omitted.

まず、本発明の第2の実施の形態としての文境界推定装置2の構成を図7に示す。図7において、文境界推定装置2は、本発明の第1の実施の形態としての文境界推定装置1に対して、第2辞書12に替えて第2辞書22と、テキスト展開部13に替えてテキスト展開部23とを備え、さらに、置換先単語列検出部25を備える点が異なる。なお、文境界推定装置2およびその各機能ブロックは、図2を参照して説明した本発明の第1の実施の形態と同様のハードウェア要素によって構成可能である。ただし、文境界推定装置2およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。   First, the structure of the sentence boundary estimation apparatus 2 as the 2nd Embodiment of this invention is shown in FIG. In FIG. 7, the sentence boundary estimation device 2 is replaced with a second dictionary 22 and a text development unit 13 instead of the second dictionary 12 with respect to the sentence boundary estimation device 1 as the first embodiment of the present invention. And a text expansion unit 23, and further includes a replacement destination word string detection unit 25. The sentence boundary estimation device 2 and each functional block thereof can be configured by the same hardware elements as those in the first embodiment of the present invention described with reference to FIG. However, the hardware configuration of the sentence boundary estimation device 2 and each functional block thereof is not limited to the above-described configuration.

第2辞書22は、置換元単語列に対して、置換先単語列に加えて出現制約の有無を表す情報を関連付けて記憶している。つまり、第2辞書22の各エントリには、置換元単語列、置換先単語列、および、出現制約の有無を表す情報が含まれる。以下、出現制約が有る(または無い)ことを表す情報を含むエントリや、そのエントリに含まれる置換元単語列または置換先単語列を、単に、出現制約が有り(または無し)となっているエントリ、置換元単語列または置換先単語列とも記載する。   The second dictionary 22 stores information indicating the presence / absence of appearance restrictions in association with the replacement source word string in addition to the replacement destination word string. That is, each entry in the second dictionary 22 includes a replacement source word string, a replacement destination word string, and information indicating the presence / absence of an appearance constraint. Hereinafter, an entry including information indicating that there is (or is not) an appearance constraint, or a replacement source word string or a replacement destination word string included in the entry is simply an entry that has (or is not) an appearance constraint. Also described as a replacement source word string or a replacement destination word string.

置換先単語列検出部25は、第2辞書22において、出現制約が有りとなっている各置換先単語列について、オリジナルテキストに含まれるか否かを判定する。   The replacement-destination word string detection unit 25 determines whether or not each replacement-destination word string for which there is an appearance constraint in the second dictionary 22 is included in the original text.

テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについては、関連付けられた置換先単語列がオリジナルテキストに含まれている場合に、その置換先単語列への置換処理を実行する。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについて、関連付けられた置換先単語列がオリジナルテキストに含まれていない場合には、その置換先単語列への置換処理を実行しない。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が無いものについては、関連付けられた置換先単語列がオリジナルテキストに出現しているか否かに関わらず、その置換先単語列への置換処理を実行する。   The text expansion unit 23, for a replacement source word string that appears in the original text, has an appearance restriction, and when the associated replacement destination word string is included in the original text, to the replacement destination word string Perform the replacement process. Further, the text expansion unit 23, when there is an appearance restriction among the replacement source word strings appearing in the original text, if the associated replacement destination word string is not included in the original text, the replacement destination word Do not perform column replacement processing. In addition, the text development unit 23 determines whether a replacement source word string that appears in the original text has no appearance restriction regardless of whether or not the associated replacement destination word string appears in the original text. A replacement process for the replacement word string is executed.

なお、置換先単語列検出部25による判定処理の際に、オリジナルテキストにおいて置換先単語列が出現する位置については、特に制約はない。例えば、置換先単語列の出現位置は、その置換先単語列に関連付けられた置換元単語列の出現位置と同じ文中または同じ段落中に出現していてもよいし、異なる文中または異なる段落中に出現していてもよい。   In addition, there is no restriction | limiting in particular about the position where a replacement destination word sequence appears in an original text in the determination process by the replacement destination word sequence detection part 25. FIG. For example, the appearance position of the replacement destination word string may appear in the same sentence or the same paragraph as the appearance position of the replacement source word string associated with the replacement destination word string, or in a different sentence or a different paragraph. May appear.

なお、英文等では、一般に、頭字語等の省略形には曖昧性があり、その省略形に対応する複合語(フルスペル表記の単語列)が、複数存在することが多い。そのため、頭字語等の省略形は、高頻度で使われる一部の省略形を除き、最初の出現箇所において省略形でないフルスペル表記と併記されることが多い。例えば、初出の箇所ではフルスペル語が記載され、その直後に括弧書き等で省略形が記載される。このように、英文では、当該の省略形がどのような単語列に対応しているかを示すことが、各種のスタイルガイド等で推奨されている。このやり方に従えば、人間がテキストを読む際には、省略形が何を意味するのかが容易に理解される。テキスト展開部23は、このような事情に鑑み、頭字語等の省略形としての置換先単語列をそのフルスペル表記である置換元単語列に置換するにあたり、置換先単語列検出部25による判定結果に基づいて、置換処理を行う。   In English, etc., abbreviations such as acronyms are generally ambiguous, and there are often a plurality of compound words (full spelling word strings) corresponding to the abbreviations. For this reason, abbreviations such as acronyms are often written together with full spellings that are not abbreviations at the first occurrence, except for some abbreviations that are frequently used. For example, a full spell word is described in the first appearance, and an abbreviation is written immediately after that in parentheses. As described above, in English, it is recommended by various style guides and the like to indicate what word string the abbreviation corresponds to. By following this approach, it is easy to understand what abbreviations mean when humans read text. In view of such circumstances, the text development unit 23 determines the result of determination by the replacement-destination word string detection unit 25 when replacing a replacement-destination word string as an abbreviation such as an acronym with a replacement-source word string that is a full spelling. Based on the above, a replacement process is performed.

つまり、オリジナルテキストが英文である場合、置換元単語列として頭字語等の省略形が第2辞書22に格納され、置換先単語列としてフルスペル表記の単語列が格納されている。この場合、テキスト展開部23は、オリジナルテキストにおいて頭字語をフルスペル表記の単語列で置換するのは、そのフルスペル表記の単語列がオリジナルテキストのどこかに出現している場合に限ることになる。一方、テキスト展開部23は、フルスペル表記の単語列がオリジナルテキストのどこにも出現していない頭字語は、フルスペル表記に置換しない。   That is, when the original text is English, an abbreviation such as an acronym is stored in the second dictionary 22 as a replacement source word sequence, and a full spelling word sequence is stored as a replacement destination word sequence. In this case, the text development unit 23 replaces the acronym in the original text with the full spelling word string only when the full spelling word string appears somewhere in the original text. On the other hand, the text development unit 23 does not replace an acronym in which the full spelling word string appears anywhere in the original text with the full spelling.

以上のように構成された文境界推定装置2の動作について、図8を参照して説明する。   The operation of the sentence boundary estimation apparatus 2 configured as described above will be described with reference to FIG.

図8では、まず、テキスト展開部23は、本発明の第1の実施の形態と同様にステップS1を実行し、オリジナルテキストを取得する。   In FIG. 8, first, the text development unit 23 executes step S1 in the same manner as in the first embodiment of the present invention, and acquires the original text.

次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキストに出現しているか否かを判定する(ステップS21)。   Next, the replacement-destination word string detection unit 25 determines whether or not each replacement-destination word string that has an appearance constraint in the second dictionary 22 appears in the original text (step S21).

次に、テキスト展開部23は、第2辞書22を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部23は、検索した置換元単語列に一致する文字列を、置換先単語列に置換することにより、置換後テキストを生成する。ただし、このとき、テキスト展開部23は、第2辞書22において出現制約が有りとなっている置換元単語列については、関連付けられた置換先単語列がステップS21において検出されていた場合に、置換先単語列への置換処理を行う。また、この場合、テキスト展開部23は、関連付けられた置換先単語列がステップS21において検出されなかった場合には、置換処理を行わない(ステップS22)。   Next, the text expansion unit 23 refers to the second dictionary 22 and searches for a character string that matches the replacement source word string in the original text. Then, the text expansion unit 23 generates the replaced text by replacing the searched character string that matches the replacement source word string with the replacement destination word string. However, at this time, the text expansion unit 23 replaces the replacement source word string for which the appearance restriction is present in the second dictionary 22 when the associated replacement destination word string is detected in step S21. Performs replacement processing for the previous word string. In this case, the text development unit 23 does not perform the replacement process when the associated replacement destination word string is not detected in step S21 (step S22).

以降、文境界推定装置2は、ステップS3〜S7まで、本発明の第1の実施の形態と同様に動作する。   Thereafter, the sentence boundary estimation device 2 operates in the same manner as in the first embodiment of the present invention up to steps S3 to S7.

以上で、文境界推定装置2は、動作を終了する。   Thus, the sentence boundary estimation device 2 ends the operation.

次に、本発明の第2の実施の形態の動作を具体例で示す。ここでは、オリジナルテキストが英文であり、文末記号はピリオドである。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。また、第1辞書11には、図9に示す情報が格納されているものとする。また、第2辞書22には、図10に示す情報が格納されているものとする。   Next, the operation of the second exemplary embodiment of the present invention will be shown as a specific example. Here, the original text is English, and the sentence ending symbol is a period. Each functional block recognizes a blank in the text as a word boundary. Further, it is assumed that the information shown in FIG. 9 is stored in the first dictionary 11. Further, it is assumed that the information shown in FIG. 10 is stored in the second dictionary 22.

図10に示すように、第2辞書22は、置換元単語列および置換先単語列に加えて、出現制約の有無を示す情報を格納している。例えば、「U.S.」を置換元単語列とし、「Universal Studios」を置換先単語列とするエントリ(ID:3)は、出現制約として「有り」を表す情報を含んでいる。前述したように、出現制約が有りとなっているエントリについては、テキスト展開部23による置換処理には、置換先単語列検出部25により置換先単語列がオリジナルテキストに出現したことが検出済みであることが条件となる。また、「U.S.」を置換元単語列とし、「United States」を置換先単語列とするエントリ(ID:1)は、出現制約として「無し」を表す情報を含んでいる。前述したように、出現制約が無しとなっているエントリについては、オリジナルテキストにおける置換先単語列の有無に関わらず、テキスト展開部23による置換処理が実施される。   As shown in FIG. 10, the second dictionary 22 stores information indicating the presence / absence of the appearance restriction in addition to the replacement source word string and the replacement destination word string. For example, an entry (ID: 3) having “U.S.” as a replacement source word string and “Universal Studios” as a replacement destination word string includes information indicating “present” as an appearance constraint. As described above, for the entry having the appearance restriction, the replacement processing by the text development unit 23 has detected that the replacement destination word string has appeared in the original text by the replacement destination word string detection unit 25. It must be a condition. Further, the entry (ID: 1) having “U.S.” as the replacement source word string and “United States” as the replacement destination word string includes information indicating “none” as the appearance constraint. As described above, for the entry for which there is no appearance restriction, the replacement processing by the text development unit 23 is performed regardless of the presence or absence of the replacement destination word string in the original text.

例えば、「United States」の省略形としての「U.S.」は、使用頻度が非常に高く、必ずしも「U.S.」が「United States」の省略形であることを別途明示せずに単独で使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでは、出現制約が無しとなっている。同様に、「Post Office」の省略形としての「P.O.」も、特に明示されることなく使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでも、出現制約が無しとなっている。   For example, “US” as an abbreviation for “United States” is very frequently used and should not be used alone without explicitly indicating that “US” is an abbreviation for “United States”. There are many. For this reason, in the entry related to this abbreviation in the second dictionary 22, there is no appearance restriction. Similarly, “P.O.” as an abbreviation of “Post Office” is often used without being clearly indicated. For this reason, even the entry related to this abbreviation in the second dictionary 22 has no appearance restriction.

このような前提において、2つの具体例について説明する。   Based on this assumption, two specific examples will be described.

<具体例1>
この具体例では、まず、テキスト展開部23は、図11に示すオリジナルテキスト1を取得したとする(ステップS1)。
<Specific Example 1>
In this specific example, first, it is assumed that the text development unit 23 acquires the original text 1 shown in FIG. 11 (step S1).

次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト1に出現するか否かを判定する(ステップS21)。   Next, the replacement-destination word string detection unit 25 determines whether or not each replacement-destination word string that has an appearance constraint in the second dictionary 22 appears in the original text 1 (step S21).

ここでは、図10に示したエントリのうち、ID:3のエントリにおいて、出現制約が有りとなっている。ここで、ID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト1に出現していない。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト1に出現していない」と判定する。   Here, of the entries shown in FIG. 10, the entry of ID: 3 has an appearance restriction. Here, the replacement destination word string “Universal Studios” of the entry of ID: 3 does not appear in the original text 1. Therefore, the replacement-destination word string detection unit 25 determines that the replacement-destination word string of the entry with ID: 3 does not appear in the original text 1.

次に、テキスト展開部23は、第2辞書22を参照することにより、図11に示すように、オリジナルテキスト1から置換後テキスト1を生成する(ステップS2)。   Next, the text expansion unit 23 refers to the second dictionary 22 to generate the replaced text 1 from the original text 1 as shown in FIG. 11 (step S2).

ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト1の7単語目とマッチする。図11のオリジナルテキスト1では、下線部が、置換元単語列の部分を表している。また、このエントリは出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト1の7単語目を、置換先単語列「United States」で置換する処理を行う。また、第2辞書22のID:3のエントリの置換元単語列「U.S.」も、オリジナルテキスト1の7単語目とマッチする。しかしながら、このエントリは出現制約が「有り」であり、置換先単語列検出部25による判定結果が「出現しない」となっている。そこで、テキスト展開部23は、このエントリに基づく置換処理を行わない。その結果、図11に示す置換後テキスト1が生成される。図11の置換後テキスト1において、二重下線部は、オリジナルテキスト1の置換元単語列から置換された置換先単語列の部分を示している。   Here, the replacement source word string “U.S.” of the entry of ID: 1 in the second dictionary 22 matches the seventh word of the original text 1. In the original text 1 of FIG. 11, the underlined portion represents the replacement source word string portion. In addition, this entry has an appearance constraint “none”. Therefore, the text development unit 23 performs a process of replacing the seventh word of the original text 1 with the replacement destination word string “United States”. Further, the replacement source word string “U.S.” of the entry of ID: 3 in the second dictionary 22 also matches the seventh word of the original text 1. However, this entry has an appearance constraint “Yes”, and the determination result by the replacement destination word string detection unit 25 is “Not Appear”. Therefore, the text expansion unit 23 does not perform a replacement process based on this entry. As a result, the post-replacement text 1 shown in FIG. 11 is generated. In the post-replacement text 1 of FIG. 11, the double underlined portion indicates the part of the replacement destination word string that is replaced from the replacement source word string of the original text 1.

次に、文境界推定部14は、置換後テキスト1において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図11の置換後テキスト1では、破線の矩形で囲んだ部分は、図9の第1辞書11に登録された単語列にマッチする範囲を示している。ここでは、7〜8単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。   Next, the sentence boundary estimation unit 14 detects a range that matches the word string registered in the first dictionary 11 in the replacement text 1 (step S3). In the post-replacement text 1 in FIG. 11, a portion surrounded by a broken-line rectangle indicates a range that matches the word string registered in the first dictionary 11 in FIG. 9. Here, the seventh to eighth words are ranges that match the word string “United States” with ID: 1 in the first dictionary 11.

次に、文境界推定部14は、オリジナルテキスト1の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。   Next, the sentence boundary estimation unit 14 repeatedly determines whether there is a sentence boundary immediately after each sentence end symbol of the original text 1.

まず、文境界推定部14は、オリジナルテキスト1における1つ目のピリオドとして、単語「U.S.」のUの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。   First, the sentence boundary estimation unit 14 pays attention to the period immediately after U of the word “U.S.” as the first period in the original text 1. This period is included in the replacement source word string “U.S.” replaced with “United States”. Also, the replacement source word string “U.S.” is replaced by the replacement destination word string “United States” of the seventh to eighth words in the replaced text 1 by the text development unit 23. Furthermore, in the text 1 after replacement, the seventh to eighth words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. The period of interest is not the last character of the replacement source word string “U.S.”. Thereby, about this period, the judgment result of step S4 by the sentence boundary estimation part 14 will be Yes.

そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after the first period (step S5).

次に、文境界推定部14は、オリジナルテキスト1における2つ目のピリオドとして、単語「U.S.」のSの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、このピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト1における置換先単語列「United States」の末尾の単語(8単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の末尾の単語(8単語目)とが一致する。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after S of the word “U.S.” as the second period in the original text 1. This period is included in the replacement source word string “U.S.” replaced with “United States”. Also, the replacement source word string “U.S.” is replaced by the replacement destination word string “United States” of the seventh to eighth words in the replaced text 1 by the text development unit 23. Furthermore, in the text 1 after replacement, the seventh to eighth words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. However, this period is the last character of the replacement source word string “U.S.”. Also, the last word (eighth word) of the replacement destination word string “United States” in the post-replacement text 1 and the last word (eight words) in the range matching the entry in the first dictionary 11 including this replacement destination word string Eye) matches. Thereby, about this period, the judgment result of step S4 by the sentence boundary estimation part 14 becomes No.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、文境界推定部14は、本発明の第1の実施の形態における具体例と同様に、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。ここで、このピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「Japan」が大文字で始まるため、条件2を満たす。そこで、文境界推定部14は、2つ目のピリオドの直後に文境界が存在すると判断する。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6). Here, as in the specific example in the first embodiment of the present invention, the sentence boundary estimation unit 14 performs conditions 1 and 2 described in the background art as the corresponding period as the normal sentence boundary estimation processing. When both are satisfied, it is determined that there is a sentence boundary immediately after that. Here, since this period is a space character immediately after that, the condition 1 is satisfied. Also, this period satisfies condition 2 because the word “Japan” immediately after it begins with a capital letter. Therefore, the sentence boundary estimation unit 14 determines that a sentence boundary exists immediately after the second period.

次に、文境界推定部14は、オリジナルテキスト1における3つ目のピリオドとして、「China」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after “China” as the third period in the original text 1. This period is not included in the replacement source word string replaced by the text expansion unit 23. Therefore, the determination result of step S4 by the sentence boundary estimation part 14 becomes No about this period.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、3つ目のピリオドの直後に文境界が存在すると判断する。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6). Here, this period satisfies both Condition 1 and Condition 2 because there is no character or word immediately after that. Therefore, the sentence boundary estimation unit 14 determines that there is a sentence boundary immediately after the third period.

そして、文境界推定部14は、図11に示すように、オリジナルテキスト1に関する文境界の推定結果1を表す情報を出力する。図11では、オリジナルテキスト1において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果1を表す情報として出力している。つまり、オリジナルテキスト1において、「U.S.」のSの次のピリオドの直後の位置、および、「China」の次のピリオドの直後の位置に、文境界が存在することが推定されている。   Then, as shown in FIG. 11, the sentence boundary estimation unit 14 outputs information representing the sentence boundary estimation result 1 regarding the original text 1. In FIG. 11, the text in which the character string “{sentence boundary}” is inserted at a position where it is determined that there is a sentence boundary in the original text 1 is output as information representing the estimation result 1. That is, in the original text 1, it is estimated that there is a sentence boundary at a position immediately after the next period of “U.S.” and a position immediately after the next period of “China”.

以上で、文境界推定装置2は、オリジナルテキスト1に関する文境界の推定動作を終了する。   Thus, the sentence boundary estimation device 2 ends the sentence boundary estimation operation for the original text 1.

<具体例2>
この具体例では、まず、テキスト展開部23は、図12に示すオリジナルテキスト2を取得したとする(ステップS1)。
<Specific example 2>
In this specific example, first, it is assumed that the text development unit 23 acquires the original text 2 shown in FIG. 12 (step S1).

次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト2に出現するか否かを判定する(ステップS21)。   Next, the replacement-destination word string detection unit 25 determines whether or not each replacement-destination word string that has an appearance constraint in the second dictionary 22 appears in the original text 2 (step S21).

ここでは、出願制約が「有り」となっているID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2の2〜3単語目に出現している。図12のオリジナルテキスト2では、一点鎖線の矩形で囲んだ部分は、出現制約が有りの置換先単語列を示している。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト2に出現している」と判定する。   Here, the replacement destination word string “Universal Studios” of the entry of ID: 3 whose application restriction is “Yes” appears in the second to third words of the original text 2. In the original text 2 of FIG. 12, the part enclosed by the dashed-dotted line rectangle indicates the replacement destination word string with appearance restrictions. Therefore, the replacement destination word string detection unit 25 determines that the replacement destination word string of the entry of ID: 3 “appears in the original text 2”.

次に、テキスト展開部23は、第2辞書22を参照することにより、オリジナルテキスト2から置換後テキストを生成する(ステップS2)。   Next, the text expansion unit 23 generates a replacement text from the original text 2 by referring to the second dictionary 22 (step S2).

ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。図12のオリジナルテキスト2では、下線部が、置換元単語列の部分を示している。また、このエントリは、出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目を置換先単語列「United States」で置換する処理を行う。これにより、図12の置換後テキスト2−1が生成される。   Here, the replacement source word string “U.S.” of the entry of ID: 1 in the second dictionary 22 matches the 20th word of the original text 2. In the original text 2 of FIG. 12, the underlined portion indicates the part of the replacement source word string. In addition, this entry has an appearance constraint “None”. Therefore, the text development unit 23 performs a process of replacing the 20th word of the original text 2 with the replacement destination word string “United States”. Thereby, the post-replacement text 2-1 in FIG. 12 is generated.

また、第2辞書22のID:3のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。また、このエントリは、出現制約が「有り」である。さらに、このエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2に出現している。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリに基づき置換する処理を行う。ただし、該当する置換元単語列「U.S.」は、先ほど置換後テキスト2−1を生成した際に置換を実行した置換元単語列と同一の位置にある。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリの置換先単語列「Universal Studios」で置換する処理を行い、置換後テキスト2−1とは異なる置換後テキスト2−2を生成する。これにより、図12の置換後テキスト2−2が生成される。   Further, the replacement source word string “U.S.” of the entry of ID: 3 in the second dictionary 22 matches the 20th word of the original text 2. In addition, this entry has an appearance constraint “Yes”. Further, the replacement destination word string “Universal Studios” of this entry appears in the original text 2. Therefore, the text development unit 23 performs a process of replacing the 20th word of the original text 2 based on this entry. However, the corresponding replacement source word string “U.S.” is in the same position as the replacement source word string that was replaced when the post-replacement text 2-1 was generated earlier. Therefore, the text development unit 23 performs processing to replace the 20th word of the original text 2 with the replacement destination word string “Universal Studios” of this entry, and replaces the post-substitution text 2-2 different from the post-substitution text 2-1. Generate. Thereby, the post-replacement text 2-2 in FIG. 12 is generated.

なお、図12に示す置換後テキスト2−1および2−2において、二重下線部は、オリジナルテキスト2の置換元単語列から置換された置換先単語列の部分を示している。   Note that, in the post-replacement texts 2-1 and 2-2 shown in FIG.

次に、文境界推定部14は、置換後テキスト2−1および2−2において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図12の置換後テキスト2−1および2−2では、破線の矩形で囲んだ部分は、第1辞書11に登録された単語列にマッチする範囲を示している。   Next, the sentence boundary estimation unit 14 detects a range that matches the word string registered in the first dictionary 11 in the replaced texts 2-1 and 2-2 (step S3). In the post-replacement texts 2-1 and 2-2 in FIG. 12, a portion surrounded by a broken-line rectangle indicates a range that matches the word string registered in the first dictionary 11.

ここでは、置換後テキスト2−1において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜21単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。   Here, in the post-replacement text 2-1, the second to third words are ranges that match the word string “Universal Studios” with ID: 6 in the first dictionary 11. Also, the 20th to 21st words are a range that matches the word string “United States” of ID: 1 in the first dictionary 11.

また、置換後テキスト2−2において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜22単語目が、ID:7の単語列「Universal Studios Japan」にマッチする範囲である。   Further, in the post-replacement text 2-2, the second to third words are ranges that match the word string “Universal Studios” with ID: 6 in the first dictionary 11. Further, the 20th to 22nd words are a range that matches the word string “Universal Studios Japan” with ID: 7.

次に、文境界推定部14は、オリジナルテキスト2の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。   Next, the sentence boundary estimation unit 14 repeatedly determines whether there is a sentence boundary immediately after each sentence end symbol of the original text 2.

まず、オリジナルテキスト2における1つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   First, as the first period in the original text 2, pay attention to the period immediately after “yesterday”. This period is not included in the replacement source word string replaced by the text expansion unit 23. Therefore, the determination result of step S4 by the sentence boundary estimation part 14 becomes No about this period.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6).

ここで、この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「If」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、1つ目のピリオドの直後に文境界が存在すると判断する。   Here, since the period immediately after “yesterday” is a space character immediately after that, the condition 1 is satisfied. Also, this period satisfies condition 2 because the word “If” immediately after it begins with a capital letter. Therefore, the sentence boundary estimation unit 14 determines that a sentence boundary exists immediately after the first period.

次に、文境界推定部14は、オリジナルテキスト2における2つ目のピリオドとして、「U.S.」のUの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after U of “U.S.” as the second period in the original text 2. In this example, post-substitution texts 2-1 and 2-2 with different replacement destination word strings are generated for this location. Therefore, the sentence boundary estimation unit 14 tries the determination of step S4 sequentially based on the replaced texts 2-1 and 2-2 for this period.

まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Yesとなる。   First, in the post-substitution text 2-1, this period is included in the replacement source word string “U.S.” replaced with “United States”. The replacement source word string “U.S.” is replaced with the replacement destination word string “United States” of the 20th to 21st words in the post-replacement text 2-1. Furthermore, in the post-replacement text 2-1, the 20th to 21st words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. The period of interest is not the last character of the replacement source word string “U.S.”. Thereby, about this period, the judgment result of step S4 based on the post-replacement text 2-1 by the sentence boundary estimation part 14 becomes Yes.

ここで、前述のように、文境界推定部14は、複数の置換後テキストが生成されている場合、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなった場合、ステップS4全体としての判断結果をYesとする。つまり、置換後テキスト2−1に基づくステップS4の判断結果がYesとなったので、文境界推定部14は、このピリオドについて、置換後テキスト2−2に基づくステップS4の判断処理を行うことなく、ステップS4全体の判断結果をYesとする。   Here, as described above, when a plurality of post-replacement texts are generated, the sentence boundary estimation unit 14 determines that the determination result of Step S4 is Yes in at least one post-replacement text as the entire Step S4. The determination result is assumed to be Yes. That is, since the determination result of step S4 based on the replaced text 2-1 is Yes, the sentence boundary estimation unit 14 does not perform the determination process of step S4 based on the replaced text 2-2 for this period. The determination result for step S4 is “Yes”.

そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after the second period (step S5).

次に、文境界推定部14は、オリジナルテキスト2における3つ目のピリオドとして、「U.S.」のSの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after S of “U.S.” as the third period in the original text 2. In this example, post-substitution texts 2-1 and 2-2 with different replacement destination word strings are generated for this location. Therefore, the sentence boundary estimation unit 14 tries the determination of step S4 sequentially based on the replaced texts 2-1 and 2-2 for this period.

まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト2−1における置換先単語列「United States」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の最後の単語(21単語目)とが一致する。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Noとなる。   First, in the post-substitution text 2-1, this period is included in the replacement source word string “U.S.” replaced with “United States”. The replacement source word string “U.S.” is replaced with the replacement destination word string “United States” of the 20th to 21st words in the post-replacement text 2-1. Furthermore, in the post-replacement text 2-1, the 20th to 21st words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. However, the period of interest is the last character of the replacement source word string “U.S.”. Further, the last word (21st word) of the replacement destination word string “United States” in the post-replacement text 2-1 and the last word in a range matching the entry of the first dictionary 11 including this replacement destination word string ( Matches the 21st word). Thereby, about this period, the judgment result of step S4 based on the text 2-1 after substitution by the sentence boundary estimation part 14 becomes No.

また、置換後テキスト2−2では、このピリオドは、「Universal Studios」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−2における20〜21単語目の置換先単語列「Universal Studios」に置換されている。さらに、置換後テキスト2−2において、20〜22単語目は、第1辞書11に登録されたID:7の単語列「Universal Studios Japan」にマッチする範囲である。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。しかしながら、置換後テキスト2−2における置換先単語列「Universal Studios」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲「Universal Studios Japan」の最後の単語(22語目)とが異なる。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−2に基づくステップS4の判断結果は、Yesとなる。   In the post-replacement text 2-2, this period is included in the replacement source word string “U.S.” replaced by “Universal Studios”. The replacement source word string “U.S.” is replaced with the replacement destination word string “Universal Studios” of the 20th to 21st words in the post-replacement text 2-2. Furthermore, in the post-replacement text 2-2, the 20th to 22nd words are ranges that match the word string “Universal Studios Japan” with ID: 7 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. The period of interest is the last character of the replacement source word string “U.S.”. However, the range “Universal Studios Japan” that matches the last word (21st word) of the replacement destination word string “Universal Studios” in the post-replacement text 2-2 and the entry in the first dictionary 11 that includes this replacement destination word string. Is different from the last word (22nd word). Thereby, about this period, the judgment result of step S4 based on the post-replacement text 2-2 by the sentence boundary estimation part 14 will be Yes.

ここで、このピリオドについて、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなったので、文境界推定部14は、ステップS4全体としての判断結果をYesとする。   Here, for this period, since the determination result in step S4 is Yes in at least one post-substitution text, the sentence boundary estimation unit 14 sets the determination result as the entire step S4 to Yes.

そこで、文境界推定部14は、3つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。   Therefore, the sentence boundary estimation unit 14 determines that it is not a sentence boundary immediately after the third period (step S5).

次に、文境界推定部14は、オリジナルテキスト2における4つ目のピリオドとして、「Japan」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。   Next, the sentence boundary estimation unit 14 pays attention to the period immediately after “Japan” as the fourth period in the original text 2. This period is not included in the replacement source word string replaced by the text expansion unit 23. Therefore, the determination result of step S4 by the sentence boundary estimation part 14 becomes No about this period.

そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および2を共に満たす。そこで、文境界推定部14は、4つ目のピリオドの直後に文境界が存在すると判断する。   Therefore, the sentence boundary estimation unit 14 performs normal sentence boundary estimation processing for this period (step S6). Here, this period satisfies both conditions 1 and 2 because there is no character or word immediately after that. Therefore, the sentence boundary estimation unit 14 determines that a sentence boundary exists immediately after the fourth period.

そして、文境界推定部14は、図12に示すように、オリジナルテキスト2に関する文境界の推定結果2を表す情報を出力する。図12では、オリジナルテキスト2において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果2を表す情報として出力している。つまり、オリジナルテキスト2において、「yesterday」の次のピリオドの直後の位置と、「Japan」の次のピリオドの直後の位置とに、文境界が存在することが推定されている。   Then, the sentence boundary estimation unit 14 outputs information representing the sentence boundary estimation result 2 regarding the original text 2 as shown in FIG. In FIG. 12, the text in which the character string “{sentence boundary}” is inserted at a position where it is determined that there is a sentence boundary in the original text 2 is output as information representing the estimation result 2. That is, in the original text 2, it is estimated that there is a sentence boundary between the position immediately after the next period of “yesterday” and the position immediately after the next period of “Japan”.

以上で、文境界推定装置2は、オリジナルテキスト2に関する文境界の推定動作を終了する。   Thus, the sentence boundary estimation device 2 ends the sentence boundary estimation operation for the original text 2.

次に、本発明の第2の実施の形態の効果について述べる。   Next, the effect of the second exemplary embodiment of the present invention will be described.

本発明の第2の実施の形態としての文境界推定装置は、文末記号が含まれる単語列が、本来とは異なる意味に解釈されることによる文境界の推定精度の低下を防止する。   The sentence boundary estimation device according to the second exemplary embodiment of the present invention prevents a sentence boundary estimation accuracy from being lowered due to a word string including a sentence ending symbol being interpreted in a meaning different from the original meaning.

その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、第2辞書が、置換元単語列および置換先単語列のエントリに対して、出現制約の有無を表す情報を格納している。そして、置換先単語列検出部が、出現制約が有りとなっているエントリの置換先単語列が、オリジナルテキストに出現しているか否かを判定する。そして、テキスト展開部が、出現制約が有りとなっているエントリの置換元単語列については、その置換先単語列がオリジナルテキストに出現している場合に、置換先単語列へ置換して置換後テキストを生成するからである。   The reason will be described. In the present embodiment, in addition to the same configuration as that of the first embodiment of the present invention, the second dictionary stores information indicating the presence / absence of occurrence restrictions for the entries of the replacement source word string and replacement destination word string Is stored. Then, the replacement-destination word string detection unit determines whether or not the replacement-destination word string of the entry having the appearance restriction appears in the original text. Then, the text expansion unit replaces the replacement source word string of the entry with the appearance restriction by replacing it with the replacement destination word string when the replacement destination word string appears in the original text. This is because text is generated.

これにより、本実施の形態は、オリジナルテキストにおいて文末記号を含む置換元単語列を、より適切な置換先単語列に置換することができる。その結果、本実施の形態は、文末記号を含む置換元単語列が意図しない置換先単語列に置換されることにより、その置換先単語列を含む複合語に意図せずマッチしてしまい、本来は文境界があるはずの位置に文境界がないと推定されてしまう事態を回避できる。   Thereby, this Embodiment can replace the replacement source word string including the sentence end symbol in the original text with a more appropriate replacement destination word string. As a result, this embodiment unintentionally matches the compound word including the replacement destination word string by replacing the replacement source word string including the sentence end symbol with the unintended replacement destination word string. Can avoid a situation where it is estimated that there is no sentence boundary at a position where there should be a sentence boundary.

このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。   The effect of this embodiment will be specifically described using the above-described specific example.

上述の具体例のオリジナルテキスト1および2に対して、文末記号を含む単語を辞書に登録しておく文境界の推定手法を用いて文境界の推定処理を行ったとする。ここで、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、「U.S. Japan」という単語列が辞書に登録されていれば、その内部に文境界がないと推定し、辞書に登録されていない単語については、通常の文境界の推定処理を行う。このように、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、同じ単語列に対して一律の推定結果しか得られない。つまり、「U.S. Japan」の登録がなければ、オリジナルテキスト1では「U.S.」の直後に文境界があると正しく推定されるが、オリジナルテキスト2では「U.S.」の直後に文境界があるとされてしまい、正しい推定結果が得られない。一方で、「U.S. Japan」の登録があれば、オリジナルテキスト2では「U.S.」の直後に文境界がないと正しく推定されるが、オリジナルテキスト1では「U.S.」の直後に文境界がないとされてしまい、正しい推定結果が得られない。   Assume that sentence boundary estimation processing is performed on the original texts 1 and 2 of the above-described specific example using a sentence boundary estimation method in which a word including a sentence end symbol is registered in a dictionary. Here, the sentence boundary estimation method for registering words including sentence endings in the dictionary assumes that there is no sentence boundary in the dictionary if the word sequence “US Japan” is registered in the dictionary. For words not registered in, normal sentence boundary estimation processing is performed. As described above, the sentence boundary estimation method for registering a word including a sentence ending symbol in a dictionary can obtain only a uniform estimation result for the same word string. In other words, if “US Japan” is not registered, it is correctly estimated that there is a sentence boundary immediately after “US” in original text 1, but it is assumed that there is a sentence boundary immediately after “US” in original text 2. Therefore, a correct estimation result cannot be obtained. On the other hand, if "US Japan" is registered, it is correctly estimated that there is no sentence boundary immediately after "US" in Original Text 2, but it is assumed that there is no sentence boundary immediately after "US" in Original Text 1. As a result, a correct estimation result cannot be obtained.

これに対して、本実施の形態は、各オリジナルテキストにおける「U.S. Japan」という単語列を、「Universal Studios Japan」の省略形であると解釈してよいかどうかを、次のように判断する。すなわち、本実施の形態は、該当するオリジナルテキストに「Universal Studios」というスペルアウトされた置換先単語列が含まれるかどうかで、「Universal Studios Japan」の省略形であると解釈するかどうかを判断する。これにより、本実施の形態は、オリジナルテキスト1に対しても、オリジナルテキスト2に対しても、文境界の正しい推定結果を得ることができる。   On the other hand, in the present embodiment, whether or not the word string “U.S. Japan” in each original text may be interpreted as an abbreviation of “Universal Studios Japan” is determined as follows. In other words, the present embodiment determines whether or not to interpret as an abbreviation of “Universal Studios Japan” based on whether or not the corresponding original text includes a spelled-out replacement word string “Universal Studios”. To do. Thereby, this Embodiment can obtain the correct estimation result of sentence boundaries for both the original text 1 and the original text 2.

このように、本実施の形態は、文末記号を含む頭字語等の単語列が本来の意味とは異なる文末記号を含まない単語列に置換されてしまうことにより、適切でない文境界の推定結果が得られることを避けることができる。   As described above, in this embodiment, a word string such as an acronym including a sentence ending symbol is replaced with a word string that does not include a ending symbol different from the original meaning. You can avoid getting it.

なお、上述した本発明の各実施の形態において、オリジナルテキストが英文である例を中心に説明したが、オリジナルテキストの言語は、これに限定されない。   In each of the embodiments of the present invention described above, the example in which the original text is English is mainly described, but the language of the original text is not limited to this.

また、上述した本発明の各実施の形態において、文末記号としてピリオドを適用する例を中心に説明したが、文末記号は、セミコロンやその他の文字、または、文字列であってもよい。また、文末記号として、複数種類の文字または文字列が想定されてもよい。   Further, in each of the embodiments of the present invention described above, an example in which a period is applied as a sentence end symbol has been mainly described. However, the sentence end symbol may be a semicolon, other characters, or a character string. In addition, a plurality of types of characters or character strings may be assumed as sentence ending symbols.

また、上述した本発明の各実施の形態において、第1辞書は、文末記号を含む単語と同等の意味を表すよう文末記号を含まないで表された単語列を格納するだけでなく、さらに、文末記号を含む単語またはそのような単語を含む単語列を格納していてもよい。これは、本発明の各実施の形態と、背景技術で説明した、文末記号を含む単語または複合語を辞書に登録しておく手法とを組み合わせることに相当する。例えば、第1辞書は、文末記号を含む単語が文末に出現することがない単語であれば、その単語を単独で種別1として格納してもよい。また、第1辞書は、文末記号を含む単語が文の途中にも文末にも出現し得る単語であれば、その単語を含む単語列(複合語)を種別2として格納してもよい。この場合、各実施の形態の文境界推定部は、オリジナルテキストの文末記号が、置換された置換元単語列の内部に含まれていない場合でも、第1辞書に登録された種別1または種別2の単語列に含まれる場合には、背景技術で述べたように推定処理を行ってもよい。   Further, in each of the embodiments of the present invention described above, the first dictionary not only stores a word string expressed without including a sentence ending symbol so as to represent the same meaning as a word including a sentence ending symbol, A word including a sentence ending symbol or a word string including such a word may be stored. This corresponds to a combination of each embodiment of the present invention and the method of registering a word or compound word including a sentence ending symbol in the dictionary as described in the background art. For example, the first dictionary may store the word alone as type 1 if the word including the sentence end symbol does not appear at the end of the sentence. In addition, the first dictionary may store a word string (compound word) including the word as type 2 if the word including the sentence end symbol is a word that can appear in the middle of the sentence or at the end of the sentence. In this case, the sentence boundary estimation unit according to each embodiment performs the type 1 or type 2 registered in the first dictionary even when the sentence end symbol of the original text is not included in the replaced source word string. If it is included in the word string, estimation processing may be performed as described in the background art.

このように、上述した本発明の各実施の形態は、他の公知の文境界の推定技術と組み合わせて実施されることも可能である。   As described above, the above-described embodiments of the present invention can be implemented in combination with other known sentence boundary estimation techniques.

さらには、機械学習ベースの文境界推定装置において、上述した本発明の各実施の形態による文境界の推定結果を、推定装置に対する素性の一つとして入力するように実施することも可能である。これにより、各実施の形態は、機械学習ベースの文境界推定装置の推定精度を高めることができる。   Furthermore, in the machine learning-based sentence boundary estimation apparatus, the sentence boundary estimation result according to each embodiment of the present invention described above may be input as one of the features for the estimation apparatus. Thereby, each embodiment can improve the estimation accuracy of the machine learning-based sentence boundary estimation device.

また、上述した本発明の各実施の形態において、第1辞書に格納される情報の一例を図3および図9に示したが、第1辞書に格納される情報の内容および形式は、これに限定されない。   Moreover, in each embodiment of the present invention described above, an example of information stored in the first dictionary is shown in FIGS. 3 and 9, but the contents and format of the information stored in the first dictionary are as follows. It is not limited.

また、上述した本発明の各実施の形態において、第2辞書に格納される情報の一例を図4および図10に示したが、第2辞書に格納される情報の内容および形式は、これに限定されない。   In each of the embodiments of the present invention described above, examples of information stored in the second dictionary are shown in FIGS. 4 and 10, but the contents and format of the information stored in the second dictionary are as follows. It is not limited.

また、上述した本発明の各実施の形態において、文境界の推定結果として出力される情報の一例を図6、図11および図12に示したが、出力される情報の内容およびその形式は、これに限定されない。   Moreover, in each embodiment of the present invention described above, examples of information output as sentence boundary estimation results are shown in FIGS. 6, 11, and 12. It is not limited to this.

また、上述した本発明の各実施の形態において、文境界推定装置の各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。   Further, in each of the above-described embodiments of the present invention, an example has been described in which each functional block of the sentence boundary estimation device is realized by a CPU that executes a computer program stored in a memory. However, the present invention is not limited to this, and some, all, or a combination of each functional block may be realized by dedicated hardware.

また、上述した本発明の各実施の形態において、文境界推定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。   Moreover, in each embodiment of this invention mentioned above, the functional block of a sentence boundary estimation apparatus may be distributed and implement | achieved by several apparatuses.

また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した文境界推定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておく。そして、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。   In each embodiment of the present invention described above, the operation of the sentence boundary estimation device described with reference to each flowchart is stored in a storage device (storage medium) of the computer device as a computer program of the present invention. . Then, the computer program may be read and executed by the CPU. In such a case, the present invention is constituted by the code of the computer program or a storage medium.

また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。   Moreover, each embodiment mentioned above can be implemented in combination as appropriate.

また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。   The present invention is not limited to the above-described embodiments, and can be implemented in various modes.

本発明の活用例として、情報抽出装置や機械翻訳装置がある。これらに本発明の文境界推定技術を適用することにより、一文としてより適切な単位で、情報の抽出または機械翻訳を行うことができる。これにより、本発明の文境界推定技術を適用した情報抽出装置や機械翻訳装置の利用者は、よりわかりやすく、より高精度の情報抽出結果または翻訳結果を得ることができる。   Examples of the use of the present invention include an information extraction device and a machine translation device. By applying the sentence boundary estimation technique of the present invention to these, information extraction or machine translation can be performed in a more appropriate unit as one sentence. Thereby, a user of an information extraction device or a machine translation device to which the sentence boundary estimation technique of the present invention is applied can obtain an information extraction result or a translation result with higher accuracy and more easily understood.

1、2 文境界推定装置
11 第1辞書
12、22 第2辞書
13、23 テキスト展開部
14 文境界推定部
25 置換先単語列検出部
1001 CPU
1002 メモリ
1003 出力装置
1004 入力装置
DESCRIPTION OF SYMBOLS 1, 2 Sentence boundary estimation apparatus 11 1st dictionary 12, 22 2nd dictionary 13, 23 Text expansion part 14 Sentence boundary estimation part 25 Replacement destination word sequence detection part 1001 CPU
1002 Memory 1003 Output device 1004 Input device

Claims (6)

単語列を格納する第1辞書と、
文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、
を備えた文境界推定装置。
A first dictionary for storing word strings;
A replacement source word string that is a word string including a sentence ending symbol and a replacement destination word string that is a word string expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string are stored in association with each other. A second dictionary,
A text expansion unit that generates a post-substitution text based on the second dictionary by replacing the replacement source word string in the original text with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A sentence boundary estimator that estimates that a sentence boundary is not immediately after the sentence end symbol when the replacement source word string is replaced with the replacement destination word string included in the range to be replaced;
A sentence boundary estimation apparatus comprising:
前記文境界推定部は、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にあっても、該文末記号が、該置換元単語列の末尾の文字であり、かつ、前記置換後テキストにおいて、該置換元単語列から置換された置換先単語列の末尾の単語と、該置換先単語列を含む前記第1辞書の単語列にマッチする範囲の末尾の単語とが一致する場合には、その直後が文境界でないとの推定を保留することを特徴とする請求項1に記載の文境界推定装置。   The sentence boundary estimation unit includes a replacement source word replaced with the replacement destination word string included in a range in which the sentence end symbol in the original text matches the word string registered in the first dictionary in the replacement text Even within the column, the sentence end symbol is the last character of the replacement source word sequence, and the last word of the replacement destination word sequence replaced from the replacement source word sequence in the replacement text And a word at the end of the range that matches the word string in the first dictionary including the replacement destination word string, the estimation that the next word is not a sentence boundary is suspended. Item 1. The sentence boundary estimation device according to Item 1. 前記第2辞書に登録された前記置換先単語列が前記オリジナルテキストに含まれるか否かを判定する置換先単語列検出部をさらに備え、
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列について、当該置換元単語列が前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項1または請求項2に記載の文境界推定装置。
A replacement destination word string detection unit that determines whether or not the replacement destination word string registered in the second dictionary is included in the original text;
The text expansion unit is associated with the replacement source word string determined to be included in the original text by the replacement destination word string detection unit for the replacement source word string in the original text. 3. The sentence boundary estimation apparatus according to claim 1, wherein a replacement process for the replacement destination word string is executed.
前記第2辞書は、前記置換元単語列について、出現制約の有無を表す情報をさらに関連付けて格納し、
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列のうち、前記出現制約が無いことを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部による判定結果に関わらず前記置換先単語列への置換を実行し、前記出現制約が有ることを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項3に記載の文境界推定装置。
The second dictionary further stores, in association with the replacement source word string, information indicating the presence / absence of occurrence restrictions,
The text development unit relates to a determination result by the replacement-destination word string detection unit for a replacement-source word string associated with information indicating that there is no appearance restriction among the replacement-source word strings in the original text. First, replacement with the replacement destination word string is performed, and the replacement source word string associated with the information indicating that there is an appearance constraint is included in the original text by the replacement destination word string detection unit. 4. The sentence boundary estimation apparatus according to claim 3, wherein, when associated with the determined replacement destination word string, a replacement process for the replacement destination word string is executed.
単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する方法。
A first dictionary that stores a word string, a replacement source word string that is a word string including a sentence ending symbol, and a word string that is expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string Using the second dictionary that stores the replacement destination word string in association with each other,
Based on the second dictionary, generate a replacement text in which the replacement source word string in the original text is replaced with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A method of estimating that a sentence boundary is not immediately after the sentence end symbol when the word is inside the replacement source word string replaced with the replacement destination word string included in the range to be replaced.
単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、
をコンピュータ装置に実行させるプログラム。
A first dictionary that stores a word string, a replacement source word string that is a word string including a sentence ending symbol, and a word string that is expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string Using the second dictionary that stores the replacement destination word string in association with each other,
A text expansion step of generating a post-substitution text based on the second dictionary by replacing the replacement source word string in the original text with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A sentence boundary estimating step that estimates that the sentence immediately after the sentence ending symbol is not a sentence boundary if it is inside the replacement source word string replaced with the replacement destination word string included in the range to be
That causes a computer device to execute the program.
JP2016053510A 2016-03-17 2016-03-17 Sentence boundary estimation apparatus, method and program Active JP6589704B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016053510A JP6589704B2 (en) 2016-03-17 2016-03-17 Sentence boundary estimation apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016053510A JP6589704B2 (en) 2016-03-17 2016-03-17 Sentence boundary estimation apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2017167882A JP2017167882A (en) 2017-09-21
JP6589704B2 true JP6589704B2 (en) 2019-10-16

Family

ID=59913517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016053510A Active JP6589704B2 (en) 2016-03-17 2016-03-17 Sentence boundary estimation apparatus, method and program

Country Status (1)

Country Link
JP (1) JP6589704B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581459B (en) * 2020-06-13 2021-06-15 中国电子信息产业集团有限公司第六研究所 Character string matching method and character string matching system
CN112464642A (en) * 2020-11-25 2021-03-09 平安科技(深圳)有限公司 Method, device, medium and electronic equipment for adding punctuation to text

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1325430A2 (en) * 2000-09-29 2003-07-09 Axonwave Software Inc. A method and system for adapting synonym resources to specific domains
JP3557605B2 (en) * 2001-09-19 2004-08-25 インターナショナル・ビジネス・マシーンズ・コーポレーション Sentence segmentation method, sentence segmentation processing device using the same, machine translation device, and program
US20050188322A1 (en) * 2004-01-09 2005-08-25 Suzanne Napoleon Method and apparatus for producing structured SGML/XML student compositions
US8489601B2 (en) * 2010-07-08 2013-07-16 GM Global Technology Operations LLC Knowledge extraction methodology for unstructured data using ontology-based text mining

Also Published As

Publication number Publication date
JP2017167882A (en) 2017-09-21

Similar Documents

Publication Publication Date Title
KR102268875B1 (en) System and method for inputting text into electronic devices
US8726148B1 (en) Method and apparatus for processing text and character data
US20100235780A1 (en) System and Method for Identifying Words Based on a Sequence of Keyboard Events
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
GB2449516A (en) Transliteration of roman text to Arabic
US8111922B2 (en) Bi-directional handwriting insertion and correction
JP5646792B2 (en) Word division device, word division method, and word division program
JP2010505208A (en) Generation method of typing candidates for improving typing efficiency
JP6589704B2 (en) Sentence boundary estimation apparatus, method and program
JP2019159826A (en) Display control program, display control device, and display control method
JP4470913B2 (en) Character string search device and program
JP5482236B2 (en) Program and information processing apparatus
JP6538563B2 (en) INPUT SUPPORT DEVICE, INPUT SUPPORT METHOD, AND PROGRAM
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP4734400B2 (en) Document search apparatus and program
JP4953440B2 (en) Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program
WO2008131509A1 (en) Systems and methods for improving translation systems
JP2009176148A (en) Unknown word determining system, method and program
JP4845921B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP4304146B2 (en) Dictionary registration device, dictionary registration method, and dictionary registration program
JP5742454B2 (en) Input support program, input support apparatus, and input support method
JP2007316834A (en) Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP4051369B2 (en) Apparatus, method and program for converting lexical data to data
JP2008084132A (en) Document retrieval device, document retrieval method, and document retrieving program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190902

R150 Certificate of patent or registration of utility model

Ref document number: 6589704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150