JP2019179470A - Information processing program, information processing method, and information processing device - Google Patents

Information processing program, information processing method, and information processing device Download PDF

Info

Publication number
JP2019179470A
JP2019179470A JP2018069330A JP2018069330A JP2019179470A JP 2019179470 A JP2019179470 A JP 2019179470A JP 2018069330 A JP2018069330 A JP 2018069330A JP 2018069330 A JP2018069330 A JP 2018069330A JP 2019179470 A JP2019179470 A JP 2019179470A
Authority
JP
Japan
Prior art keywords
character string
character
information processing
processing apparatus
dummy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018069330A
Other languages
Japanese (ja)
Other versions
JP7040227B2 (en
Inventor
田中 一成
Kazunari Tanaka
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018069330A priority Critical patent/JP7040227B2/en
Publication of JP2019179470A publication Critical patent/JP2019179470A/en
Application granted granted Critical
Publication of JP7040227B2 publication Critical patent/JP7040227B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To improve accuracy of identifying names of compounds included in sentences.SOLUTION: An information processing device 100 identifies a character or a character string specific to a name of a compound included in a sentence. The information processing device 100 replaces the identified character or character string with a dummy character string representing the feature of the identified character or character string. The information processing device 100 extracts, based on a result of morphologically analyzing the sentence after the replacement, a character string including a character or a character string coupling with the dummy character string and the dummy character string, which are included in the sentence after the replacement. The information processing device 100 replaces the dummy character string included in the extracted character string with the identified character or character string and generates a character string after the replacement.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理プログラム、情報処理方法、および情報処理装置に関する。   The present invention relates to an information processing program, an information processing method, and an information processing apparatus.

従来、情報検索、情報解析、または、読解支援などに、文章解析技術が利用されることがある。例えば、文章解析技術を、化学分野の特許文献や技術論文などの技術文書に適用することにより、技術文書に含まれる化合物名を特定することが望まれることがある。   Conventionally, sentence analysis techniques are sometimes used for information retrieval, information analysis, or reading support. For example, it may be desired to specify a compound name included in a technical document by applying a sentence analysis technique to a technical document such as a patent document or technical paper in the chemical field.

先行技術としては、例えば、基準辞書に未知語を登録するものがある。また、例えば、文の構成語が、入力質問の構成語の語彙意味と同様の語彙意味を有するか否かを判定する技術がある。また、例えば、ある種の情報の表現に特徴的に現れる1または複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、タグ情報を付与する技術がある。また、例えば、入力文字に対する第1位候補文字から文字列を作成し、形態素解析を行って解析不能となる文字列部分の候補文字から作成可能な文字列すべてに対し形態素解析を行う技術がある。   As a prior art, for example, there is one that registers an unknown word in a reference dictionary. Further, for example, there is a technique for determining whether or not a constituent word of a sentence has a vocabulary meaning similar to that of a constituent word of an input question. In addition, for example, one or more character patterns that appear characteristically in the expression of certain information and character strings that appear in the document are sequentially collated, and tag information is assigned to character strings that are found to match. There is technology to do. In addition, for example, there is a technique for creating a character string from the first candidate character for an input character and performing morphological analysis on all character strings that can be created from candidate characters in a character string portion that cannot be analyzed by performing morphological analysis. .

特開2010−140107号公報JP 2010-140107 A 特開2006−293830号公報JP 2006-293830 A 特開平11−272695号公報JP 11-272695 A 特開昭62−285189号公報JP-A-62-285189

しかしながら、従来技術では、文章に含まれる化合物名を特定することができない場合がある。例えば、化合物名を予め辞書に登録しておき、文章に含まれる文字列と辞書に登録された化合物名とのマッチングにより、文章に含まれる化合物名を特定することが考えられるが、辞書に登録されていない化合物名を特定することができない。   However, in the prior art, the compound name included in the sentence may not be specified. For example, it is conceivable that the compound name is registered in the dictionary in advance and the compound name included in the sentence is specified by matching the character string included in the sentence with the compound name registered in the dictionary. The name of the compound that has not been specified cannot be specified.

1つの側面では、本発明は、文章に含まれる化合物名の特定精度の向上を図ることを目的とする。   In one aspect, an object of the present invention is to improve the accuracy of specifying a compound name included in a sentence.

1つの実施態様によれば、文章から化合物名に特有な文字または文字列を特定し、特定した前記文字または前記文字列を、特定した前記文字または文字列の特徴を表すダミー文字列に置換し、前記文章のうち特定した前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章のうち前記ダミー文字列と結合する文字または文字列と前記ダミー文字列とを含む文字列を抽出する情報処理プログラム、情報処理方法、および情報処理装置が提案される。   According to one embodiment, a character or character string specific to a compound name is identified from a sentence, and the identified character or character string is replaced with a dummy character string that represents the characteristics of the identified character or character string. , Based on the result of morphological analysis of the replaced sentence obtained by replacing the specified character or the character string in the sentence with the dummy character string, the character combined with the dummy character string in the replaced sentence or An information processing program, an information processing method, and an information processing apparatus for extracting a character string including a character string and the dummy character string are proposed.

一態様によれば、文章に含まれる化合物名の特定精度の向上を図ることが可能になる。   According to one aspect, it is possible to improve the accuracy of specifying a compound name included in a sentence.

図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。FIG. 1 is an explanatory diagram of an example of the information processing method according to the embodiment. 図2は、情報処理装置100のハードウェア構成例を示すブロック図である。FIG. 2 is a block diagram illustrating a hardware configuration example of the information processing apparatus 100. 図3は、特定テーブル300の記憶内容の一例を示す説明図である。FIG. 3 is an explanatory diagram illustrating an example of the contents stored in the specific table 300. 図4は、置換テーブル400の記憶内容の一例を示す説明図である。FIG. 4 is an explanatory diagram showing an example of the contents stored in the replacement table 400. 図5は、品詞テーブル500の記憶内容の一例を示す説明図である。FIG. 5 is an explanatory diagram showing an example of the contents stored in the part-of-speech table 500. 図6は、テキストテーブル600の記憶内容の一例を示す説明図である。FIG. 6 is an explanatory diagram showing an example of the contents stored in the text table 600. 図7は、情報処理装置100の機能的構成例を示すブロック図である。FIG. 7 is a block diagram illustrating a functional configuration example of the information processing apparatus 100. 図8は、情報処理装置100の動作例を示す説明図(その1)である。FIG. 8 is an explanatory diagram (part 1) of an operation example of the information processing apparatus 100. 図9は、情報処理装置100の動作例を示す説明図(その2)である。FIG. 9 is an explanatory diagram (part 2) of an operation example of the information processing apparatus 100. 図10は、情報処理装置100の動作例を示す説明図(その3)である。FIG. 10 is an explanatory diagram (part 3) of an operation example of the information processing apparatus 100. 図11は、情報処理装置100の動作例を示す説明図(その4)である。FIG. 11 is an explanatory diagram (part 4) of an operation example of the information processing apparatus 100. 図12は、情報処理装置100の動作例を示す説明図(その5)である。FIG. 12 is an explanatory diagram (part 5) of an operation example of the information processing apparatus 100. 図13は、全体処理手順の一例を示すフローチャートである。FIG. 13 is a flowchart illustrating an example of the overall processing procedure. 図14は、抽出処理手順の一例を示すフローチャートである。FIG. 14 is a flowchart illustrating an example of the extraction processing procedure.

以下に、図面を参照して、本発明にかかる情報処理プログラム、情報処理方法、および情報処理装置の実施の形態を詳細に説明する。   Hereinafter, embodiments of an information processing program, an information processing method, and an information processing apparatus according to the present invention will be described in detail with reference to the drawings.

(実施の形態にかかる情報処理方法の一実施例)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。情報処理装置100は、文章に含まれる化合物名を特定するコンピュータである。文章は、一文または複数文である。一文は、例えば、句点で区切られた文である。情報処理装置100は、例えば、サーバ、PC(Personal Computer)、タブレット端末、または、スマートフォンなどである。
(One Example of Information Processing Method According to Embodiment)
FIG. 1 is an explanatory diagram of an example of the information processing method according to the embodiment. The information processing apparatus 100 is a computer that identifies a compound name included in a sentence. The sentence is one sentence or a plurality of sentences. One sentence is, for example, a sentence separated by punctuation marks. The information processing apparatus 100 is, for example, a server, a PC (Personal Computer), a tablet terminal, or a smartphone.

ここで、文章に含まれる化合物名を特定することができれば、人間が文章を読解しやすくしたり、コンピュータが文章を解析しやすくしたりすることが可能になる。   Here, if a compound name included in a sentence can be specified, it becomes possible for a human to easily read the sentence or to make it easier for a computer to analyze the sentence.

例えば、化学分野の特許文献や技術論文などの技術文書を表示する際に、技術文書に含まれる化合物名を色分けして表示することにより、人間が、技術文書に含まれる化合物名を認識しやすくすることが考えられる。また、例えば、技術文書を表示する際に、化合物名を表示する位置に対応付けて、化合物名が示す化合物の化学式、機能、性質、および、用途などの情報へのリンクを表示することにより、人間が、化合物の性質を理解しやすくすることが考えられる。   For example, when displaying technical documents such as patent documents and technical papers in the chemical field, by displaying the compound names included in the technical documents in different colors, it is easier for humans to recognize the compound names included in the technical documents. It is possible to do. Also, for example, when displaying a technical document, in association with the position where the compound name is displayed, by displaying a link to information such as the chemical formula, function, property, and use of the compound indicated by the compound name, It is conceivable that humans can easily understand the properties of compounds.

また、例えば、コンピュータが、技術文書に含まれる化合物名を特定し、技術文書における化合物名の出現頻度を計測することにより、化合物名をキーワードとした情報検索を可能にしたり、技術文書の要約文の自動作成を可能にしたりすることが考えられる。また、例えば、コンピュータが、技術文書から、化合物名が示す化合物の化学式、機能、性質、および、用途などの情報を抽出することにより、化合物に関するデータベースの自動作成を可能にすることが考えられる。   In addition, for example, a computer identifies a compound name included in a technical document and measures the appearance frequency of the compound name in the technical document, thereby enabling information retrieval using the compound name as a keyword, or a summary sentence of the technical document. It may be possible to enable automatic creation. In addition, for example, it is conceivable that a computer can automatically create a database relating to a compound by extracting information such as a chemical formula, a function, a property, and a use of the compound indicated by the compound name from a technical document.

このため、文章に含まれる化合物名を精度よく特定することが望まれる。   For this reason, it is desired to specify the compound name contained in the sentence with high accuracy.

これに対し、例えば、化合物名を予め辞書に登録しておき、文章に含まれる文字列と辞書に登録された化合物名とのマッチングにより、文章に含まれる化合物名を特定することが考えられるが、辞書に登録されていない化合物名を特定することができない。また、時間経過に伴い、新たな化合物が生成または発見され、化合物名となる文字列の数は増加していくため、予め辞書に化合物名を登録しておくことが難しい。   On the other hand, for example, it is conceivable that the compound name is registered in the dictionary in advance and the compound name included in the sentence is specified by matching the character string included in the sentence with the compound name registered in the dictionary. The compound name that is not registered in the dictionary cannot be specified. In addition, as time elapses, new compounds are generated or discovered, and the number of character strings serving as compound names increases, so it is difficult to register compound names in the dictionary in advance.

また、例えば、日本語の文章では、化合物名が、カタカナ、アルファベット、数字、記号、および、一部の漢字などの特定の文字により記述されるため、特定の文字が連続する文字列を、化合物名として特定することが考えられる。しかしながら、この場合でも、化合物名を特定することは難しい。具体的には、文章に化合物名「ひ酸O,O−ジメチル」が含まれる場合、文字「ひ」はひらがなであるため、化合物名の要素として判断されず、文字列「酸O,O−ジメチル」を化合物名として誤って特定してしまう。また、具体的には、文章に化合物名「りんご酸」が含まれる場合も、同様に、化合物名「りんご酸」を特定することができない。   Also, for example, in Japanese sentences, compound names are described by specific characters such as katakana, alphabets, numbers, symbols, and some kanji characters. It may be specified as a name. However, even in this case, it is difficult to specify the compound name. Specifically, when the compound name “arsenate O, O-dimethyl” is included in the sentence, since the character “hi” is hiragana, it is not determined as an element of the compound name, and the character string “acid O, O— "Dimethyl" is incorrectly specified as the compound name. Specifically, when the sentence includes the compound name “malic acid”, the compound name “malic acid” cannot be specified in the same manner.

また、例えば、化合物名に用いられる特定の文字として、カタカナ、アルファベット、数字、記号、および、一部の漢字などのほか、ひらがなも含むようにして、特定の文字が連続する文字列を、化合物名として特定することが考えられる。しかしながら、この場合でも、化合物名を特定することは難しい。具体的には、文章が「●●としてはリン酸である」であり、化合物名「リン酸」の直前に助詞「は」などのひらがながあると、文字列「はリン酸」を化合物名として誤って特定してしまうことがある。   Also, for example, as specific characters used in compound names, in addition to katakana, alphabets, numbers, symbols, and some Kanji characters, hiragana characters are also included, and a string of specific characters is used as the compound name. It is possible to specify. However, even in this case, it is difficult to specify the compound name. Specifically, if the sentence is “●● is phosphoric acid” and there is a hiragana such as the particle “ha” just before the compound name “phosphoric acid”, the string “ha” is the compound name. May be specified by mistake.

また、例えば、化合物名に用いられるひらがな文字列「りんご」などを辞書に登録しておき、予め文章に含まれるひらがな文字列「りんご」をカタカナ変換してから、ひらがなを含まない特定の文字が連続する文字列を、化合物名として特定することが考えられる。しかしながら、この場合でも、辞書に登録されていないひらがな文字列が文章に含まれると、化合物名を特定することができない。また、文字列「はリン酸」を化合物名として誤って特定しないように、ひらがな1文字を辞書に登録することはできないため、先頭からひらがな1文字で始まる化合物名を特定することができない。   In addition, for example, the hiragana character string “apple” used for the compound name is registered in the dictionary, and the hiragana character string “apple” included in the sentence is converted into katakana in advance, and then a specific character that does not include the hiragana character is It is conceivable to specify a continuous character string as a compound name. However, even in this case, the compound name cannot be specified if the sentence contains a hiragana character string that is not registered in the dictionary. Also, since one character of hiragana cannot be registered in the dictionary so that the character string “ha phosphate” is not erroneously specified as a compound name, it is not possible to specify a compound name starting with one character of hiragana from the beginning.

また、文章を形態素解析した結果に基づき、機械学習や統計量を用いて、意味のある単語列、文字列、または、品詞列を特定することにより、化合物名を特定することが考えられる。しかしながら、この場合でも、化合物名には、数字、記号、未知語が混在して含まれるため、意味のある単語列、文字列、または、品詞列として特定することが難しく、化合物名を特定することができない。   Further, it is conceivable to specify a compound name by specifying a meaningful word string, character string, or part-of-speech string using machine learning or statistics based on the result of morphological analysis of a sentence. However, even in this case, since the compound name includes a mixture of numbers, symbols, and unknown words, it is difficult to specify as a meaningful word string, character string, or part of speech string, and the compound name is specified. I can't.

また、化合物名に用いられる文字の種類は数百種類以上あり、かつ、化合物名に用いられる文字には文章に出現する頻度が低い文字が含まれるため、機械学習により、化合物名を漏れなく特定するルールを作成することが難しい。   In addition, there are hundreds or more types of characters used in compound names, and the characters used in compound names include characters that do not appear frequently in sentences. Difficult to create rules to

そこで、本実施の形態では、文章に含まれる化合物名に特有な文字や文字列を特定してダミー文字列に置換してから形態素解析することにより、化合物名に対応すると判断される、ダミー文字列を含むひと纏まりの文字列を抽出する情報処理方法について説明する。これによれば、情報処理方法は、文章に含まれる化合物名を精度よく特定することができる。   Therefore, in this embodiment, a dummy character that is determined to correspond to the compound name by identifying a character or character string peculiar to the compound name included in the sentence and replacing it with a dummy character string, and then performing a morphological analysis. An information processing method for extracting a group of character strings including columns will be described. According to this, the information processing method can specify the compound name contained in the sentence with high accuracy.

図1において、情報処理装置100は、文章を取得する。文章は、例えば、「・・・あるいはひ酸ナトリウムを用いた・・・」である。情報処理装置100は、例えば、利用者の操作入力に基づいて、文章を入力される。情報処理装置100は、例えば、他の装置から文章を受信してもよい。情報処理装置100が文章を取得する具体例は、例えば、図8を用いて後述する。   In FIG. 1, the information processing apparatus 100 acquires a sentence. The sentence is, for example, “... or using sodium arsenate”. For example, the information processing apparatus 100 receives a text based on a user operation input. For example, the information processing apparatus 100 may receive a sentence from another apparatus. A specific example in which the information processing apparatus 100 acquires a sentence will be described later with reference to FIG.

情報処理装置100は、取得した文章に含まれる、化合物名に特有な文字または文字列を特定する。情報処理装置100は、例えば、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、化合物名に特有な文字「酸」および文字列「ナトリウム」を特定する。情報処理装置100が化合物名に特有な文字または文字列を特定する具体例は、例えば、図9を用いて後述する。   The information processing apparatus 100 identifies a character or character string that is unique to the compound name and is included in the acquired sentence. The information processing apparatus 100 specifies, for example, a character “acid” and a character string “sodium” unique to the compound name included in a sentence “... Or using sodium arsenate. A specific example in which the information processing apparatus 100 identifies a character or character string unique to the compound name will be described later with reference to FIG.

情報処理装置100は、文章に含まれる、特定した文字または文字列を、特定した文字または文字列の特徴を表すダミー文字列に置換する。ダミー文字列は、文章に出現する確率が低い文字列であることが好ましい。ダミー文字列は、文章に出現する確率が低ければ特定の1文字であってもよい。情報処理装置100は、例えば、化合物名に特有な文字「酸」および文字列「ナトリウム」を、それぞれ、ダミー文字列「[語尾1]」および「[本体1]」に置換する。情報処理装置100がダミー文字列に置換する具体例は、例えば、図9を用いて後述する。   The information processing apparatus 100 replaces the specified character or character string included in the sentence with a dummy character string that represents the characteristics of the specified character or character string. The dummy character string is preferably a character string with a low probability of appearing in the sentence. The dummy character string may be a specific character if the probability of appearing in the sentence is low. For example, the information processing apparatus 100 replaces the character “acid” and the character string “sodium” unique to the compound name with the dummy character strings “[End 1]” and “[Main body 1]”, respectively. A specific example in which the information processing apparatus 100 replaces the dummy character string will be described later with reference to FIG.

情報処理装置100は、置換後の文章を形態素解析した結果に基づいて、置換後の文章に含まれる、ダミー文字列と連結する文字または文字列と、ダミー文字列とを含む文字列を抽出する。情報処理装置100は、例えば、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」を形態素解析する。そして、情報処理装置100は、形態素解析した結果に基づいて、ダミー文字列「[語尾1]」と連結する文字「ひ」と、ダミー文字列「[語尾1]」および「[本体1]」とを含む文字列「ひ[語尾1][本体1]」を抽出する。情報処理装置100がダミー文字列を含む文字列を抽出する具体例は、例えば、図10を用いて後述する。   The information processing apparatus 100 extracts a character string including a character or a character string connected to a dummy character string and a dummy character string, which are included in the replaced sentence, based on the result of morphological analysis of the replaced sentence. . For example, the information processing apparatus 100 performs a morphological analysis on the replaced sentence “... Or hi [end 1] [main body 1]... Then, the information processing apparatus 100, based on the result of the morphological analysis, the character “hi” connected to the dummy character string “[End 1]”, the dummy character strings “[End 1]”, and “[Main body 1]”. A character string “hi [end 1] [main body 1]” is extracted. A specific example in which the information processing apparatus 100 extracts a character string including a dummy character string will be described later with reference to FIG.

情報処理装置100は、抽出した文字列に含まれるダミー文字列を、特定した文字または文字列に置換し直した置換後の文字列を生成する。情報処理装置100は、文字列「ひ[語尾1][本体1]」に含まれるダミー文字列「[語尾1]」および「[本体1]」を、それぞれ、文字「酸」および文字列「ナトリウム」に置換し直した文字列「ひ酸ナトリウム」を生成する。情報処理装置100が置換後の文字列を生成する具体例は、例えば、図11を用いて後述する。   The information processing apparatus 100 generates a replaced character string by replacing the dummy character string included in the extracted character string with the specified character or character string. The information processing apparatus 100 converts the dummy character strings “[End 1]” and “[Main body 1]” included in the character string “Hi [End 1] [Main body 1]” into the characters “Acid” and “ The character string “sodium arsenate” replaced with “sodium” is generated. A specific example in which the information processing apparatus 100 generates the replaced character string will be described later with reference to FIG.

これにより、情報処理装置100は、文章に含まれる化合物名を精度よく特定することができる。情報処理装置100は、例えば、予め化合物名を記憶していなくても、文章に含まれる化合物名を特定することができる。情報処理装置100は、例えば、形態素解析のみにより化合物名を特定する場合よりも、化合物名を精度よく特定することができる。情報処理装置100は、具体的には、化合物名に、数字、記号、未知語が混在して含まれていても、化合物名を特定することができる。   Thereby, the information processing apparatus 100 can specify the compound name included in the sentence with high accuracy. For example, the information processing apparatus 100 can specify a compound name included in a sentence even if the compound name is not stored in advance. The information processing apparatus 100 can specify the compound name with higher accuracy than when specifying the compound name only by morphological analysis, for example. Specifically, the information processing apparatus 100 can specify a compound name even if the compound name includes a mixture of numbers, symbols, and unknown words.

情報処理装置100は、例えば、特定の文字が連続する文字列をそのまま化合物名として特定する場合よりも、化合物名を精度よく特定することができる。情報処理装置100は、具体的には、化合物名に含まれる頻度が低い文字を含む化合物名を特定することができる。化合物名に含まれる頻度が低い文字は、例えば、ひらがな、および、仁や奮や役などの漢字である。情報処理装置100は、具体的には、ひらがなを含む化合物名を特定することができる。   For example, the information processing apparatus 100 can specify the compound name with higher accuracy than the case where the character string in which specific characters are continuous is directly specified as the compound name. Specifically, the information processing apparatus 100 can specify a compound name including characters that are included in the compound name with low frequency. Characters that are included in the compound name with low frequency are, for example, hiragana, kanji such as jin, mochi and role. Specifically, the information processing apparatus 100 can specify a compound name including hiragana.

より具体的には、従来では、文章に含まれる化合物名の先頭にひらがながあると、化合物名から先頭のひらがなを除いた文字列が、化合物名として誤って特定してしまうことがある。また、従来では、文章に含まれる化合物名の真ん中に仁や奮や役などの漢字があると、化合物名となる文字列を仁や奮や役などの漢字で分断した2つの文字列を、それぞれ、化合物名として特定してしまうことがある。これに対し、情報処理装置100は、化合物名のうちいずれの位置に、ひらがな、または、仁や奮や役などの漢字があっても、化合物名を特定することができる。   More specifically, conventionally, if there is a hiragana at the beginning of a compound name included in a sentence, a character string obtained by removing the leading hiragana from the compound name may be erroneously specified as the compound name. Also, conventionally, if there is a kanji such as Jin, Shira, and Kaku in the middle of the compound name included in the sentence, the two character strings obtained by dividing the character string that becomes the compound name by Kanji such as Jin, Shiro and Kyo, Each may be specified as a compound name. On the other hand, the information processing apparatus 100 can specify a compound name even if there is a kanji character such as hiragana, jin, tsuyoshi, or role at any position in the compound name.

情報処理装置100は、さらに、生成した置換後の文字列が化合物名であるか否かを判定してもよい。情報処理装置100は、例えば、分類器により、生成した置換後の文字列が化合物名であるか否かを判定する。分類器は、例えば、機械学習により作成される。分類器は、具体的には、化合物名の一部の文字列やn−gramを特徴素として用いた機械学習により作成される。これにより、情報処理装置100は、文章に含まれる化合物名をさらに精度よく特定することができる。   The information processing apparatus 100 may further determine whether or not the generated replacement character string is a compound name. The information processing apparatus 100 determines, for example, whether the generated character string after replacement is a compound name by using a classifier. The classifier is created by machine learning, for example. Specifically, the classifier is created by machine learning using a partial character string or n-gram of a compound name as a feature element. Thereby, the information processing apparatus 100 can specify the compound name included in the sentence with higher accuracy.

ここでは、情報処理装置100が、情報処理方法を実現する一連の処理を実行する場合について説明したが、これに限らない。例えば、文章に含まれる文字または文字列をダミー文字列に置換する装置と、置換後の文章からダミー文字列を含む文字列を抽出した後にダミー文字列を置換前に戻す装置とが協働して、情報処理方法を実現する場合があってもよい。   Here, the case where the information processing apparatus 100 executes a series of processes for realizing the information processing method has been described, but the present invention is not limited to this. For example, a device that replaces a character or character string included in a sentence with a dummy character string cooperates with a device that extracts a character string including a dummy character string from the replaced sentence and then returns the dummy character string to before replacement. In some cases, the information processing method may be realized.

(情報処理装置100のハードウェア構成例)
次に、図2を用いて、図1に示した情報処理装置100のハードウェア構成例について説明する。
(Hardware configuration example of information processing apparatus 100)
Next, a hardware configuration example of the information processing apparatus 100 illustrated in FIG. 1 will be described with reference to FIG.

図2は、情報処理装置100のハードウェア構成例を示すブロック図である。図2において、情報処理装置100は、CPU(Central Processing Unit)201と、メモリ202と、ネットワークI/F(Interface)203と、記録媒体I/F204と、記録媒体205とを有する。また、各構成部は、バス200によってそれぞれ接続される。   FIG. 2 is a block diagram illustrating a hardware configuration example of the information processing apparatus 100. 2, the information processing apparatus 100 includes a CPU (Central Processing Unit) 201, a memory 202, a network I / F (Interface) 203, a recording medium I / F 204, and a recording medium 205. Each component is connected by a bus 200.

ここで、CPU201は、情報処理装置100の全体の制御を司る。メモリ202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU201のワークエリアとして使用される。メモリ202に記憶されるプログラムは、CPU201にロードされることで、コーディングされている処理をCPU201に実行させる。メモリ202は、例えば、図3〜図6に後述する各種テーブルを記憶する。   Here, the CPU 201 governs overall control of the information processing apparatus 100. The memory 202 includes, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), and a flash ROM. Specifically, for example, a flash ROM or ROM stores various programs, and a RAM is used as a work area of the CPU 201. The program stored in the memory 202 is loaded on the CPU 201 to cause the CPU 201 to execute the coded process. The memory 202 stores, for example, various tables described later with reference to FIGS.

ネットワークI/F203は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F203は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F203には、例えば、モデムやLAN(Local Area Network)アダプタなどを採用することができる。   The network I / F 203 is connected to the network 210 through a communication line, and is connected to another computer via the network 210. The network I / F 203 controls an internal interface with the network 210 and controls data input / output from other computers. For example, a modem or a LAN (Local Area Network) adapter may be employed as the network I / F 203.

記録媒体I/F204は、CPU201の制御に従って記録媒体205に対するデータのリード/ライトを制御する。記録媒体I/F204は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体205は、記録媒体I/F204の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体205は、例えば、図3〜図6に後述する各種テーブルを記憶してもよい。記録媒体205は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体205は、情報処理装置100から着脱可能であってもよい。   The recording medium I / F 204 controls reading / writing of data with respect to the recording medium 205 according to the control of the CPU 201. The recording medium I / F 204 is, for example, a disk drive, an SSD (Solid State Drive), a USB (Universal Serial Bus) port, or the like. The recording medium 205 is a non-volatile memory that stores data written under the control of the recording medium I / F 204. The recording medium 205 may store, for example, various tables described later with reference to FIGS. The recording medium 205 is, for example, a disk, a semiconductor memory, a USB memory, or the like. The recording medium 205 may be detachable from the information processing apparatus 100.

情報処理装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F204や記録媒体205を複数有していてもよい。また、情報処理装置100は、記録媒体I/F204や記録媒体205を有していなくてもよい。   In addition to the components described above, the information processing apparatus 100 may include, for example, a keyboard, a mouse, a display, a printer, a scanner, a microphone, a speaker, and the like. The information processing apparatus 100 may have a plurality of recording media I / Fs 204 and recording media 205. The information processing apparatus 100 may not include the recording medium I / F 204 and the recording medium 205.

(特定テーブル300の記憶内容)
次に、図3を用いて、特定テーブル300の記憶内容の一例について説明する。特定テーブル300は、例えば、図2に示した情報処理装置100のメモリ202や記録媒体205などの記憶領域により実現される。
(Storage contents of specific table 300)
Next, an example of the contents stored in the specific table 300 will be described with reference to FIG. The identification table 300 is realized by a storage area such as the memory 202 and the recording medium 205 of the information processing apparatus 100 illustrated in FIG.

図3は、特定テーブル300の記憶内容の一例を示す説明図である。図3に示すように、特定テーブル300は、グループと、特定ルールとのフィールドを有する。特定テーブル300は、各フィールドに情報を設定することにより、文章に含まれる化合物名に特有な文字または文字列を特定するための特定ルールがレコードとして記憶される。   FIG. 3 is an explanatory diagram illustrating an example of the contents stored in the specific table 300. As illustrated in FIG. 3, the specific table 300 includes fields for groups and specific rules. In the specification table 300, information is set in each field, and a specification rule for specifying a character or character string peculiar to a compound name included in a sentence is stored as a record.

グループのフィールドには、化合物名に含まれる文字が属するグループを識別する識別情報が設定される。グループは、例えば、グループ1やグループ2である。グループ1は、例えば、化合物名または化合物名の部分構造として出現する頻度が一定以上に高いと判断されるカタカナ、アルファベット、数字、および、記号などが属する。グループ2は、例えば、化合物名または化合物名の部分構造の語尾となる文字が属する。特定ルールのフィールドには、文章に含まれる、グループに属する文字、または、グループに属する文字が連続する文字列を特定するための特定ルールが設定される。特定ルールは、例えば、正規表現により表現される。グループ1に対応する特定ルールは、例えば、「[ァ−ヴ a−z A−Z ・・・ 0−9]+」である。グループ2に対応する特定ルールは、例えば、「[酸 素 塩 ・・・ 物]」である。   In the group field, identification information for identifying a group to which characters included in the compound name belong is set. The group is, for example, group 1 or group 2. Group 1 includes, for example, katakana, alphabets, numbers, symbols, and the like that are determined to have a frequency of appearing as a compound name or a partial structure of the compound name higher than a certain level. The group 2 belongs to, for example, a compound name or a character that becomes the ending of the partial structure of the compound name. In the specific rule field, a specific rule for specifying a character string belonging to a group or a character string in which characters belonging to the group are included, included in the sentence is set. The specific rule is expressed by, for example, a regular expression. The specific rule corresponding to the group 1 is, for example, “[ave az AZ... 0-9] +”. The specific rule corresponding to the group 2 is, for example, “[oxygen salt ... thing]”.

特定ルールは、文字数を制限するように表現されてもよい。グループ2に対応する特定ルールは、直前および直後に漢字を含まないように表現されてもよく「食塩」の「塩」や「物体」の「物」などが、化合物名に特有な文字または文字列として特定されないようにしてもよい。また、上述した特定ルールに用いられる文字は、一例であり、いずれかの文字が用いられなくてもよいし、他の文字が用いられてもよい。   The specific rule may be expressed so as to limit the number of characters. The specific rule corresponding to group 2 may be expressed so that it does not include kanji immediately before and after, and “salt” of “salt” or “thing” of “object” is a character or character peculiar to the compound name It may not be specified as a column. Moreover, the character used for the specific rule mentioned above is an example, and any character may not be used and another character may be used.

特定テーブル300は、グループ1およびグループ2とは異なるグループに属する文字、または、グループ1およびグループ2とは異なるグループに属する文字が連続する文字列を特定するための特定ルールを記憶してもよい。特定テーブル300は、グループ1に対応する特定ルールと、グループ2に対応する特定ルールとのうちいずれかを記憶していない場合があってもよい。ここでは、特定ルールが正規表現により表現される場合について説明したが、これに限らない。特定ルールが正規表現以外により表現される場合があってもよい。   The specific table 300 may store a specific rule for specifying a character string belonging to a group different from the group 1 and the group 2 or a character string in which a character belonging to a group different from the group 1 and the group 2 is continuous. . The specific table 300 may not store either a specific rule corresponding to the group 1 or a specific rule corresponding to the group 2. Although the case where the specific rule is expressed by a regular expression has been described here, the present invention is not limited to this. The specific rule may be expressed by other than a regular expression.

(置換テーブル400の記憶内容)
次に、図4を用いて、置換テーブル400の記憶内容の一例について説明する。置換テーブル400は、例えば、図2に示した情報処理装置100のメモリ202や記録媒体205などの記憶領域により実現される。
(Storage contents of replacement table 400)
Next, an example of the contents stored in the replacement table 400 will be described with reference to FIG. The replacement table 400 is realized by, for example, a storage area such as the memory 202 and the recording medium 205 of the information processing apparatus 100 illustrated in FIG.

図4は、置換テーブル400の記憶内容の一例を示す説明図である。図4に示すように、置換テーブル400は、ダミー文字列と、元の文字列とのフィールドを有する。置換テーブル400は、化合物名に特有な文字または文字列ごとに各フィールドに情報を設定することにより、置換情報がレコードとして記憶される。   FIG. 4 is an explanatory diagram showing an example of the contents stored in the replacement table 400. As shown in FIG. 4, the replacement table 400 includes fields for a dummy character string and an original character string. The substitution table 400 stores substitution information as a record by setting information in each field for each character or character string unique to a compound name.

ダミー文字列のフィールドには、特定ルールにより特定された化合物名に特有な文字または文字列を置換したダミー文字列が設定される。グループ1に対応する特定ルールにより特定された化合物名に特有な文字または文字列を置換したダミー文字列は、「[本体i](i=1,2,・・・,n)」である。iは、置換する文字列ごとに異なる値が割り振られる。グループ2に対応する特定ルールにより特定された化合物名に特有な文字または文字列を置換したダミー文字列は、「[語尾i](i=1,2,・・・,n)」である。iは、置換する文字列ごとに異なる値が割り振られる。元の文字列のフィールドには、ダミー文字列に置換する文字列であり、特定ルールにより特定された化合物名に特有な文字または文字列が設定される。   In the field of the dummy character string, a dummy character string in which a character or character string peculiar to the compound name specified by the specifying rule is replaced is set. A dummy character string in which a character or character string peculiar to the compound name specified by the specific rule corresponding to group 1 is replaced is “[main body i] (i = 1, 2,..., N)”. i is assigned a different value for each character string to be replaced. A dummy character string in which a character or a character string peculiar to the compound name specified by the specific rule corresponding to the group 2 is replaced is “[suffix i] (i = 1, 2,..., N)”. i is assigned a different value for each character string to be replaced. The original character string field is a character string to be replaced with a dummy character string, and a character or character string specific to the compound name specified by the specifying rule is set.

(品詞テーブル500の記憶内容)
次に、図5を用いて、品詞テーブル500の記憶内容の一例について説明する。品詞テーブル500は、例えば、図2に示した情報処理装置100のメモリ202や記録媒体205などの記憶領域により実現される。
(Contents stored in part-of-speech table 500)
Next, an example of the contents stored in the part-of-speech table 500 will be described with reference to FIG. The part-of-speech table 500 is realized by a storage area such as the memory 202 and the recording medium 205 of the information processing apparatus 100 shown in FIG.

図5は、品詞テーブル500の記憶内容の一例を示す説明図である。図5に示すように、品詞テーブル500は、文字列と、品詞とのフィールドを有する。品詞テーブル500は、文字列ごとに各フィールドに情報を設定することにより、形態素解析結果がレコードとして記憶される。   FIG. 5 is an explanatory diagram showing an example of the contents stored in the part-of-speech table 500. As shown in FIG. 5, the part-of-speech table 500 includes fields for character strings and parts of speech. The part-of-speech table 500 stores information as a record by setting information in each field for each character string.

文字列のフィールドには、形態素となる文字または文字列が設定される。品詞のフィールドには、文字列の品詞が設定される。ダミー文字列「[本体i]」および「[語尾i]」は、形態素として扱われ、それぞれ、本体および語尾を品詞として扱われる。   In the character string field, a morpheme character or character string is set. The part of speech of the character string is set in the part of speech field. The dummy character strings “[body i]” and “[suffix i]” are treated as morphemes, and the body and suffix are treated as parts of speech, respectively.

(テキストテーブル600の記憶内容)
次に、図6を用いて、テキストテーブル600の記憶内容の一例について説明する。テキストテーブル600は、例えば、図2に示した情報処理装置100のメモリ202や記録媒体205などの記憶領域により実現される。
(Contents stored in text table 600)
Next, an example of the contents stored in the text table 600 will be described with reference to FIG. The text table 600 is realized by a storage area such as the memory 202 and the recording medium 205 of the information processing apparatus 100 shown in FIG.

図6は、テキストテーブル600の記憶内容の一例を示す説明図である。図6に示すように、テキストテーブル600は、処理フェーズと、テキストデータとのフィールドを有する。テキストテーブル600は、各フィールドに情報を設定することにより、処理フェーズごとのテキストデータがレコードとして記憶される。   FIG. 6 is an explanatory diagram showing an example of the contents stored in the text table 600. As shown in FIG. 6, the text table 600 has fields for processing phase and text data. In the text table 600, text data for each processing phase is stored as a record by setting information in each field.

処理フェーズのフィールドには、テキストデータの属する処理フェーズが設定される。処理フェーズは、例えば、元文書、置き換え後、タグ付け後、復元後、および、抽出結果である。テキストデータのフィールドには、処理フェーズにおけるテキストデータが設定される。   The processing phase to which the text data belongs is set in the processing phase field. The processing phase is, for example, the original document, the replacement, the tagging, the restoration, and the extraction result. Text data in the processing phase is set in the text data field.

(情報処理装置100の機能的構成例)
次に、図7を用いて、情報処理装置100の機能的構成例について説明する。
(Functional configuration example of information processing apparatus 100)
Next, a functional configuration example of the information processing apparatus 100 will be described with reference to FIG.

図7は、情報処理装置100の機能的構成例を示すブロック図である。図7において、情報処理装置100は、記憶部700と、読込部701と、パターン抽出部702と、ダミー置換部703と、形態素解析部704と、候補文字列抽出部705と、ダミー復元部706と、選別部707と、出力部708とを含む。   FIG. 7 is a block diagram illustrating a functional configuration example of the information processing apparatus 100. 7, the information processing apparatus 100 includes a storage unit 700, a reading unit 701, a pattern extraction unit 702, a dummy replacement unit 703, a morpheme analysis unit 704, a candidate character string extraction unit 705, and a dummy restoration unit 706. And a sorting unit 707 and an output unit 708.

記憶部700は、例えば、図2に示したメモリ202や記録媒体205などの記憶領域によって実現される。以下では、記憶部700が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部700が、情報処理装置100とは異なる装置に含まれ、記憶部700の記憶内容が情報処理装置100から参照可能である場合があってもよい。   The storage unit 700 is realized by a storage area such as the memory 202 and the recording medium 205 shown in FIG. Below, although the case where the memory | storage part 700 is contained in the information processing apparatus 100 is demonstrated, it is not restricted to this. For example, the storage unit 700 may be included in a device different from the information processing device 100, and the storage content of the storage unit 700 may be referred to from the information processing device 100.

読込部701〜出力部708は、制御部710の一例として機能する。読込部701〜出力部708は、具体的には、例えば、図2に示したメモリ202や記録媒体205などの記憶領域に記憶されたプログラムをCPU201に実行させることにより、または、ネットワークI/F203により、その機能を実現する。各機能部の処理結果は、例えば、図2に示したメモリ202や記録媒体205などの記憶領域に記憶される。   The reading unit 701 to the output unit 708 function as an example of the control unit 710. Specifically, the reading unit 701 to the output unit 708, for example, cause the CPU 201 to execute a program stored in a storage area such as the memory 202 or the recording medium 205 illustrated in FIG. By realizing the function. The processing result of each functional unit is stored in a storage area such as the memory 202 and the recording medium 205 shown in FIG.

記憶部700は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部700は、文章に含まれる化合物名に特有な文字または文字列を特定するための特定ルールを記憶する。記憶部700は、文章に含まれる文字または文字列を置換したダミー文字列と、元の文字または文字列とを対応付けて記憶する。記憶部700は、形態素解析ルールを記憶する。形態素解析ルールは、ダミー文字列を1つの形態素として解析するためのルールを含む。記憶部700は、形態素解析結果として、置換後の文章に含まれる形態素と、形態素の品詞とを対応付けて記憶する。   The storage unit 700 stores various types of information that are referred to or updated in the processing of each functional unit. The memory | storage part 700 memorize | stores the specific rule for specifying the character or character string peculiar to the compound name contained in a sentence. The storage unit 700 stores a dummy character string in which a character or character string included in a sentence is replaced and an original character or character string in association with each other. The storage unit 700 stores morphological analysis rules. The morpheme analysis rule includes a rule for analyzing a dummy character string as one morpheme. The storage unit 700 stores the morpheme included in the replaced text and the part of speech of the morpheme in association with each other as a morpheme analysis result.

記憶部700は、化合物名を含みうる文章を記憶する。記憶部700は、文章に含まれる文字または文字列をダミー文字列に置換した置換後の文章を記憶する。記憶部700は、置換後の文章に含まれる、ダミー文字列を含み化合物名の候補となる候補文字列の位置を特定する情報を記憶する。記憶部700は、候補文字列に含まれるダミー文字列を、元の文字列に置換し直した置換後の文字列を記憶する。記憶部700は、元の文章に含まれる、置換後の文字列の位置を特定する情報を記憶する。記憶部700は、具体的には、図3〜図6に示した各種テーブルを記憶する。記憶部700は、化合物名に対応付けて、化合物名が示す化合物の化学式、機能、性質、および、用途の少なくともいずれかの情報を記憶してもよい。   The storage unit 700 stores sentences that can include compound names. The memory | storage part 700 memorize | stores the text after the replacement which replaced the character or character string contained in the text with the dummy character string. The storage unit 700 stores information for specifying the position of a candidate character string that includes a dummy character string and is a candidate for a compound name, included in the sentence after replacement. The storage unit 700 stores the replaced character string obtained by replacing the dummy character string included in the candidate character string with the original character string. The memory | storage part 700 memorize | stores the information which pinpoints the position of the character string after substitution contained in the original sentence. Specifically, the storage unit 700 stores various tables shown in FIGS. The storage unit 700 may store information on at least one of the chemical formula, function, property, and use of the compound indicated by the compound name in association with the compound name.

読込部701は、文章を読み込む。読込部701は、例えば、文章「・・・あるいはひ酸ナトリウムを用いた・・・」を読み込む。読込部701は、具体的には、利用者の操作入力に基づいて、文章を読み込む。読込部701は、具体的には、他の装置から文章を受信してもよい。読込部701は、読み込んだ文章を、図6に示したテキストテーブル600を用いて記憶する。読込部701は、より具体的には、図8に後述するように、文章を読み込む。   The reading unit 701 reads a sentence. The reading unit 701 reads, for example, a sentence “... Or using sodium arsenate”. Specifically, the reading unit 701 reads a sentence based on a user's operation input. Specifically, the reading unit 701 may receive a sentence from another device. The reading unit 701 stores the read sentence using the text table 600 shown in FIG. More specifically, the reading unit 701 reads a sentence as will be described later with reference to FIG.

パターン抽出部702は、文章に含まれる、化合物名に特有な文字または文字列を特定する。パターン抽出部702は、例えば、特定テーブル300に記憶された特定ルールに基づいて、グループ1に属する文字が連続する文字列を、本体に対応する文字列として特定する。グループ1は、例えば、化合物名または化合物名の部分構造として出現する頻度が一定以上に高いと判断されるカタカナ、アルファベット、数字、および、記号などが属する。パターン抽出部702は、具体的には、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、グループ1に属する文字が連続する文字列「ナトリウム」を特定する。   The pattern extraction unit 702 identifies a character or character string that is unique to the compound name included in the sentence. For example, based on the specific rule stored in the specific table 300, the pattern extraction unit 702 specifies a character string in which characters belonging to group 1 are continuous as a character string corresponding to the main body. Group 1 includes, for example, katakana, alphabets, numbers, symbols, and the like that are determined to have a frequency of appearing as a compound name or a partial structure of the compound name higher than a certain level. Specifically, the pattern extraction unit 702 specifies a character string “sodium” in which the characters belonging to group 1 are included in the sentence “... Or using sodium arsenate.

パターン抽出部702は、例えば、特定テーブル300に記憶された特定ルールに基づいて、グループ2に属する文字を、語尾に対応する文字として特定する。グループ2は、例えば、化合物名または化合物名の部分構造の語尾となる文字が属する。グループ2は、具体的には、酸、素、塩、および、物などの文字が属する。パターン抽出部702は、具体的には、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、グループ2に属する文字「酸」を特定する。パターン抽出部702は、より具体的には、図9に後述するように、化合物名に特有な文字または文字列を特定する。   For example, the pattern extraction unit 702 specifies the characters belonging to the group 2 as the characters corresponding to the endings based on the specific rules stored in the specific table 300. The group 2 belongs to, for example, a compound name or a character that becomes the ending of the partial structure of the compound name. The group 2 specifically includes characters such as acids, elements, salts, and objects. Specifically, the pattern extraction unit 702 identifies the character “acid” belonging to the group 2 included in the sentence “... Or using sodium arsenate. More specifically, the pattern extraction unit 702 specifies a character or character string that is unique to the compound name, as will be described later with reference to FIG.

これにより、パターン抽出部702は、形態素解析だけでは特定することが難しい化合物名に特有な文字または文字列を特定することができる。パターン抽出部702は、例えば、カタカナ、アルファベット、数字、および、記号などが混在して含まれ、形態素解析だけではひと纏まりの文字列として扱うことが難しい文字列を特定することができる。パターン抽出部702は、化合物名を特定する指標になる、化合物名に出現しやすい語尾となる文字を特定することができる。   Thereby, the pattern extraction unit 702 can specify a character or a character string that is unique to a compound name that is difficult to specify by morphological analysis alone. The pattern extraction unit 702 includes, for example, a mixture of katakana, alphabets, numbers, symbols, and the like, and can specify character strings that are difficult to handle as a group of character strings only by morphological analysis. The pattern extraction unit 702 can identify a character that is an index for identifying a compound name and that is likely to appear in the compound name.

ダミー置換部703は、文章に含まれる、特定した文字または文字列を、特定した文字または文字列の特徴を表すダミー文字列に置換する。ダミー置換部703は、例えば、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、特定した化合物名に特有な文字「酸」および文字列「ナトリウム」を、それぞれ、ダミー文字列「[語尾1]」および「[本体1]」に置換する。置換後の文章は、「・・・あるいはひ[語尾1][本体1]を用いた・・・」である。   The dummy replacement unit 703 replaces the specified character or character string included in the sentence with a dummy character string that represents the characteristics of the specified character or character string. For example, the dummy replacement unit 703 includes a dummy character “acid” and a character string “sodium” that are unique to the specified compound name included in the sentence “... Or using sodium arsenate. Replace with the character strings “[End 1]” and “[Main body 1]”. The sentence after the replacement is “... Or hi [end 1] [using body 1]...

ダミー置換部703は、置換したダミー文字列と、元の文字列とを対応付けて、図4に示した置換テーブル400を用いて記憶する。また、ダミー置換部703は、置換後の文章を、図6に示したテキストテーブル600を用いて記憶する。ダミー置換部703は、より具体的には、図9に後述するように、文章に含まれる文字または文字列を、ダミー文字列に置換する。   The dummy replacement unit 703 associates the replaced dummy character string with the original character string and stores them using the replacement table 400 shown in FIG. Further, the dummy replacement unit 703 stores the sentence after replacement using the text table 600 shown in FIG. More specifically, the dummy replacement unit 703 replaces a character or character string included in a sentence with a dummy character string, as will be described later with reference to FIG.

これにより、ダミー置換部703は、元の文章を形態素解析した場合のように、化合物名になりうるひと纏まりの文字列に、様々な品詞の形態素が混在して含まれてしまう確率を低減し、化合物名になりうるひと纏まりの文字列を特定しやすくすることができる。また、ダミー置換部703は、ダミー文字列にすれば1つの形態素として扱うことができる文字列を、複数の形態素に分けてしまうことを防止し、化合物名になりうるひと纏まりの文字列を特定しやすくすることができる。また、ダミー置換部703は、ダミー文字列を1つの形態素として扱うため、置換前の文字列を形態素解析した場合に比べて、形態素解析にかかる作業量の低減化を図ることができる。   As a result, the dummy replacement unit 703 reduces the probability that various part-of-speech morphemes are included in a group of character strings that can be compound names, as in the case of morphological analysis of the original sentence. It is possible to easily identify a group of character strings that can be compound names. In addition, the dummy replacement unit 703 prevents a character string that can be handled as one morpheme if it is a dummy character string from being divided into a plurality of morphemes, and identifies a group of character strings that can be compound names. Can be easier. Further, since the dummy replacement unit 703 handles the dummy character string as one morpheme, it is possible to reduce the amount of work required for the morpheme analysis as compared to the case where the character string before replacement is subjected to the morpheme analysis.

形態素解析部704は、文章に含まれる文字または文字列をダミー文字列に置換した置換後の文章を形態素解析する。形態素解析部704は、例えば、記憶部700に記憶された形態素解析ルールに基づいて、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」を形態素解析する。形態素解析部704は、ダミー文字列を1つの形態素として解析する。   The morpheme analysis unit 704 performs morphological analysis on the replaced sentence obtained by replacing a character or character string included in the sentence with a dummy character string. For example, the morpheme analysis unit 704 performs morphological analysis on the replaced sentence “... Or hi [end 1] [main body 1]” based on the morpheme analysis rules stored in the storage unit 700. To do. The morpheme analyzer 704 analyzes the dummy character string as one morpheme.

形態素解析部704は、例えば、形態素「ひ」の品詞が「未知語」であり、形態素「[語尾1]」の品詞が「語尾」であり、形態素「[本体1]」の品詞が「本体」であると解析する。形態素解析部704は、例えば、形態素「あるいは」の品詞が「接続詞」であり、形態素「を」の品詞が「助詞」であり、形態素「用い」の品詞が「動詞」であると解析する。   The morpheme analysis unit 704, for example, has the part of speech of the morpheme “hi” as “unknown word”, the part of speech of the morpheme “[suffix 1]” as “suffix”, and the part of speech of the morpheme “[main body 1]” as “main body” Is analyzed. For example, the morpheme analysis unit 704 analyzes that the part of speech of the morpheme “or” is “conjunction”, the part of speech of the morpheme “o” is “particle”, and the part of speech of the morpheme “use” is “verb”.

形態素解析部704は、形態素解析した結果として、形態素と、形態素の品詞とを対応付けて、図5に示した品詞テーブル500を用いて記憶する。形態素解析部704は、より具体的には、図10に後述するように、置換後の文章を形態素解析する。これにより、形態素解析部704は、特定した文字列を、複数の形態素に分けてしまうことを防止することができる。   The morpheme analysis unit 704 stores the morpheme and the part of speech of the morpheme in association with each other as a result of the morpheme analysis using the part of speech table 500 shown in FIG. More specifically, the morphological analysis unit 704 performs morphological analysis on the sentence after replacement, as will be described later with reference to FIG. Thereby, the morpheme analysis unit 704 can prevent the identified character string from being divided into a plurality of morphemes.

候補文字列抽出部705は、置換後の文章を形態素解析した結果に基づいて、置換後の文章に含まれる、ダミー文字列と連結する文字または文字列と、ダミー文字列とを含み、化合物名の候補となる候補文字列を抽出する。候補文字列抽出部705は、形態素解析した結果に基づいて、ダミー文字列「[語尾1]」と連結する文字「ひ」と、ダミー文字列「[語尾1]」および「[本体1]」とを含む候補文字列「ひ[語尾1][本体1]」を抽出する。候補文字列抽出部705は、置換後の文章に含まれる、候補文字列の位置を特定する情報を、図6に示したテキストテーブル600を用いて記憶する。候補文字列抽出部705は、より具体的には、図10に後述するように候補文字列を抽出する。   Candidate character string extraction unit 705 includes, based on the result of morphological analysis of the replaced sentence, a character or character string connected to the dummy character string included in the replaced sentence and a dummy character string, and a compound name A candidate character string that is a candidate for is extracted. The candidate character string extraction unit 705, based on the result of the morphological analysis, the character “hi” connected to the dummy character string “[End 1]”, the dummy character strings “[End 1]”, and “[Main body 1]”. A candidate character string “hi [end 1] [main body 1]” is extracted. The candidate character string extraction unit 705 stores information for specifying the position of the candidate character string included in the replaced sentence using the text table 600 shown in FIG. More specifically, the candidate character string extraction unit 705 extracts candidate character strings as will be described later with reference to FIG.

これにより、候補文字列抽出部705は、ひらがななどの未知語を含む文字列も、候補文字列として抽出することができる。また、候補文字列抽出部705は、様々な品詞の形態素が混在する文字列も、ダミー文字列に置換してあるため、様々な品詞の形態素が混在する文字列をひと纏まりとして扱いやすく、候補文字列を精度よく抽出することができる。   Thereby, the candidate character string extraction unit 705 can extract a character string including an unknown word such as hiragana as a candidate character string. Further, the candidate character string extraction unit 705 replaces the character string in which morphemes of various parts of speech are mixed with dummy character strings, so that the character strings in which morphemes of various parts of speech are mixed can be easily handled as a group. Character strings can be extracted with high accuracy.

ダミー復元部706は、抽出した文字列に含まれるダミー文字列を、特定した文字または文字列に置換し直した置換後の文字列を生成する。置換後の文字列は、化合物名になりうる文字列である。ダミー復元部706は、文字列「ひ[語尾1][本体1]」に含まれるダミー文字列「[語尾1]」および「[本体1]」を、それぞれ、文字「酸」および文字列「ナトリウム」に置換し直した置換後の文字列「ひ酸ナトリウム」を生成する。   The dummy restoration unit 706 generates a replaced character string by replacing the dummy character string included in the extracted character string with the specified character or character string. The character string after substitution is a character string that can be a compound name. The dummy restoration unit 706 converts the dummy character strings “[End 1]” and “[Main body 1]” included in the character string “Hi [End 1] [Main body 1]” into the character “acid” and the character string “ The substituted character string “sodium arsenate” is generated by replacing it with “sodium”.

ダミー復元部706は、元の文章に含まれる、置換後の文字列の位置を特定する情報を、図6に示したテキストテーブル600を用いて記憶する。ダミー復元部706は、置換後の文字列を、図6に示したテキストテーブル600を用いて記憶する。ダミー復元部706は、より具体的には、図11に後述するように、置換後の文字列を生成する。これにより、ダミー復元部706は、化合物名を精度よく特定することができる。   The dummy restoring unit 706 stores information for specifying the position of the replaced character string included in the original sentence, using the text table 600 shown in FIG. The dummy restoration unit 706 stores the replaced character string using the text table 600 shown in FIG. More specifically, the dummy restoring unit 706 generates a character string after replacement as described later with reference to FIG. Thereby, the dummy restoring unit 706 can specify the compound name with high accuracy.

選別部707は、生成した置換後の文字列が化合物名であるか否かを判定する。選別部707は、例えば、分類器により、生成した置換後の文字列が化合物名であるか否かを判定する。分類器は、例えば、機械学習により作成される。分類器は、具体的には、化合物名の一部の文字列やn−gramを特徴素として用いた機械学習により作成される。選別部707は、より具体的には、図11に示すように、化合物名であるか否かを判定する。選別部707が、化合物名であるか否かを判定せず、ダミー復元部706が生成した文字列をそのまま化合物名として扱う場合があってもよい。これにより、選別部707は、文章に含まれる化合物名をさらに精度よく特定することができる。   The selection unit 707 determines whether or not the generated replacement character string is a compound name. The selection unit 707 determines, for example, whether or not the generated character string after replacement is a compound name using a classifier. The classifier is created by machine learning, for example. Specifically, the classifier is created by machine learning using a partial character string or n-gram of a compound name as a feature element. More specifically, the selection unit 707 determines whether or not the name is a compound name as shown in FIG. There may be a case where the character string generated by the dummy restoration unit 706 is handled as it is as the compound name without the determination unit 707 determining whether the name is a compound name. Thereby, the selection unit 707 can specify the compound name included in the sentence with higher accuracy.

出力部708は、置換後の文字列を化合物名として出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F203による外部装置への送信、または、メモリ202や記録媒体205などの記憶領域への記憶である。出力部708は、例えば、置換後の文字列を化合物名として、メモリ202や記録媒体205などの記憶領域に記憶する。これにより、出力部708は、1以上の文章の中から特定の化合物名が出現する文章を特定可能にすることができ、化合物名をキーワードとした情報検索を可能にすることができる。また、出力部708は、1以上の文章における化合物名の出現頻度を計測可能にすることができ、文章についての要約文の自動作成を可能にすることができる。   The output unit 708 outputs the replaced character string as a compound name. The output format is, for example, display on a display, print output to a printer, transmission to an external device via the network I / F 203, or storage in a storage area such as the memory 202 or the recording medium 205. For example, the output unit 708 stores the replaced character string as a compound name in a storage area such as the memory 202 or the recording medium 205. Accordingly, the output unit 708 can specify a sentence in which a specific compound name appears from one or more sentences, and can perform information search using the compound name as a keyword. Further, the output unit 708 can measure the appearance frequency of compound names in one or more sentences, and can automatically create a summary sentence for the sentences.

出力部708は、元の文章に含まれる置換後の文字列を特定可能にする情報を、文章に付与して出力する。出力部708は、例えば、元の文章に含まれる、置換後の文字列の位置を特定する情報を、ディスプレイに表示する。出力部708は、具体的には、元の文章に含まれる置換後の文字列にタグ付けし、タグ付けした元の文章を、ディスプレイに表示する。また、出力部708は、具体的には、元の文章に含まれる置換後の文字列の表示態様を、他の文字列とは異なる表示態様にして、元の文章をディスプレイに表示してもよい。これにより、出力部708は、利用者が、文章に含まれる化合物名を認識しやすくすることができる。   The output unit 708 assigns and outputs to the sentence information that makes it possible to identify the replaced character string included in the original sentence. For example, the output unit 708 displays information specifying the position of the replaced character string included in the original sentence on the display. Specifically, the output unit 708 tags the replaced character string included in the original sentence, and displays the tagged original sentence on the display. Further, the output unit 708 may change the display mode of the replaced character string included in the original text to a display mode different from other character strings and display the original text on the display. Good. Thereby, the output unit 708 can make it easier for the user to recognize the compound name included in the sentence.

また、出力部708は、例えば、元の文章に含まれる置換後の文字列を特定可能にする情報を、元の文章に付与して、メモリ202や記録媒体205などの記憶領域に記憶する。出力部708は、具体的には、元の文章に含まれる置換後の文字列にタグ付けし、タグ付けした元の文章を、メモリ202や記録媒体205などの記憶領域に記憶する。これにより、出力部708は、タグを参照しながら、文章から化合物名が示す化合物の化学式、機能、性質、および、用途などの情報を抽出しやすくすることができ、化合物に関するデータベースの自動作成を可能にすることができる。   In addition, the output unit 708 adds, to the original sentence, information that makes it possible to specify the replaced character string included in the original sentence, and stores the information in a storage area such as the memory 202 or the recording medium 205. Specifically, the output unit 708 tags the replaced character string included in the original sentence, and stores the tagged original sentence in a storage area such as the memory 202 or the recording medium 205. As a result, the output unit 708 can easily extract information such as the chemical formula, function, property, and usage of the compound indicated by the compound name from the text while referring to the tag, and can automatically create a database related to the compound. Can be possible.

出力部708は、記憶部700を参照し、置換後の文字列をキーワードとして、置換後の文字列が示す化合物の化学式、機能、性質、および、用途の少なくともいずれかの情報を、ディスプレイに表示する。出力部708は、具体的には、元の文章に含まれる置換後の文字列に、置換後の文字列が示す化合物の化学式、機能、性質、および、用途の少なくともいずれかの情報へのリンクを対応付けて、元の文章をディスプレイに表示する。これにより、出力部708は、利用者が、化合物の性質を理解しやすくし、文章を理解しやすくすることができる。   The output unit 708 refers to the storage unit 700 and displays on the display at least one of the chemical formula, function, property, and use of the compound indicated by the replaced character string using the replaced character string as a keyword. To do. Specifically, the output unit 708 links to information on at least one of the chemical formula, function, property, and use of the compound indicated by the replaced character string in the replaced character string included in the original sentence. And the original sentence is displayed on the display. Thereby, the output unit 708 can make it easier for the user to understand the properties of the compound and to understand the sentences.

出力部708は、置換後の文字列が選別部707により化合物名であると判定された場合には、上述したような動作を行い、置換後の文字列が選別部707により化合物名ではないと判定された場合には上述したような動作を行わない場合があってもよい。出力部708は、各機能部の処理結果を出力してもよい。これにより、出力部708は、各機能部の処理結果を利用者に通知可能にし、情報処理装置100の管理や運用、例えば、情報処理装置100の設定値の更新などを支援することができ、情報処理装置100の利便性の向上を図ることができる。   When the replacement character string is determined to be a compound name by the selection unit 707, the output unit 708 performs the above-described operation, and the replacement character string is not a compound name by the selection unit 707. If it is determined, the operation as described above may not be performed. The output unit 708 may output the processing result of each functional unit. Thereby, the output unit 708 can notify the processing result of each functional unit to the user, and can support management and operation of the information processing apparatus 100, for example, update of setting values of the information processing apparatus 100, The convenience of the information processing apparatus 100 can be improved.

(情報処理装置100の動作例)
次に、図8〜図12を用いて、情報処理装置100の動作例について説明する。
(Operation example of information processing apparatus 100)
Next, an operation example of the information processing apparatus 100 will be described with reference to FIGS.

図8〜図12は、情報処理装置100の動作例を示す説明図である。図8において、情報処理装置100は、文章「・・・あるいはひ酸ナトリウムを用いた・・・」を示すテキストデータを読み込む。情報処理装置100は、読み込んだテキストデータ800が示す文章「・・・あるいはひ酸ナトリウムを用いた・・・」を、テキストテーブル600の「元文書」に対応付けて記憶する。次に、図9の説明に移行する。   8-12 is explanatory drawing which shows the operation example of the information processing apparatus 100. FIG. In FIG. 8, the information processing apparatus 100 reads text data indicating a sentence “... Or using sodium arsenate. The information processing apparatus 100 stores the sentence “... Or using sodium arsenate...” Indicated by the read text data 800 in association with the “original document” in the text table 600. Next, the description shifts to the description of FIG.

図9において、情報処理装置100は、特定テーブル300から、グループ1に対応する特定ルール「[ァ−ヴ a−z A−Z ・・・ 0−9]+」を取得する。情報処理装置100は、特定ルール「[ァ−ヴ a−z A−Z ・・・ 0−9]+」に基づいて、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、カタカナが連続する文字列「ナトリウム」を特定する。   In FIG. 9, the information processing apparatus 100 acquires the specific rule “[ave a−z A−Z 0−9] +” corresponding to the group 1 from the specific table 300. The information processing apparatus 100 is included in the sentence “... Or using sodium arsenate...” Based on the specific rule “[ave az AZ... 0-9] +”. The character string “sodium” with consecutive katakana is specified.

また、情報処理装置100は、特定テーブル300から、グループ2に対応する特定ルール「[酸 素 塩 ・・・ 物]」を取得する。情報処理装置100は、特定ルール「[酸 素 塩 ・・・ 物]」に基づいて、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、グループ2に属する特定の文字「酸」を特定する。   Further, the information processing apparatus 100 acquires a specific rule “[oxygen salt...]” Corresponding to the group 2 from the specific table 300. The information processing apparatus 100, based on the specific rule “[oxygen salt...]”, Includes a specific character belonging to group 2 included in the sentence “... or using sodium arsenate”. Identify "acid".

これにより、情報処理装置100は、化合物名に特有な文字または文字列を特定することができる。情報処理装置100は、例えば、カタカナ、アルファベット、数字、および、記号などが混在して含まれ、形態素解析ではひと纏まりの文字列として扱うことが難しい文字列を特定することができる。また、情報処理装置100は、化合物名を特定する指標になる、化合物名に出現しやすい語尾となる文字を特定することができる。   Thereby, the information processing apparatus 100 can specify the character or character string peculiar to the compound name. The information processing apparatus 100 includes, for example, a mixture of katakana, alphabets, numbers, symbols, and the like, and can specify character strings that are difficult to handle as a group of character strings in morphological analysis. In addition, the information processing apparatus 100 can identify a character that is an index for identifying a compound name and that is likely to end with a compound name.

ここでは、情報処理装置100が、グループ1に対応する特定ルールと、グループ2に対応する特定ルールとを取得する場合について説明したが、これに限らない。例えば、情報処理装置100が、グループ1に対応する特定ルールと、グループ2に対応する特定ルールとのうちいずれか一方を取得する場合があってもよい。   Although the case where the information processing apparatus 100 acquires the specific rule corresponding to the group 1 and the specific rule corresponding to the group 2 has been described here, the present invention is not limited thereto. For example, the information processing apparatus 100 may acquire one of a specific rule corresponding to the group 1 and a specific rule corresponding to the group 2.

情報処理装置100は、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、グループ2に属する特定の文字ごとに、ダミー文字列「[語尾i]」に置換する。iは、特定の文字ごとに異なる値が割り振られる。図9の例では、情報処理装置100は、グループ2に属する特定の文字「酸」を、ダミー文字列「[語尾1]」に置換する。これにより、情報処理装置100は、語尾になる文字を、語尾になるという特徴が現れたダミー文字列「[語尾1]」に置換することができる。このため、情報処理装置100は、形態素解析において、ダミー文字列「[語尾1]」の品詞を「語尾」として扱い、化合物名になりうるひと纏まりの文字列を特定しやすくすることができる。   The information processing apparatus 100 replaces each of the specific characters belonging to the group 2 included in the sentence “... Or using sodium arsenate. i is assigned a different value for each specific character. In the example of FIG. 9, the information processing apparatus 100 replaces a specific character “acid” belonging to group 2 with a dummy character string “[End 1]”. As a result, the information processing apparatus 100 can replace the character that ends with the dummy character string “[Ending 1]” that has the feature that it ends. For this reason, in the morphological analysis, the information processing apparatus 100 treats the part of speech of the dummy character string “[End 1]” as “End” and makes it easy to specify a group of character strings that can be compound names.

ここで、情報処理装置100は、ダミー文字列「[語尾1]」と、ダミー文字列に置換した文字「酸」とを対応付けて、置換テーブル400を用いて記憶する。これにより、情報処理装置100は、ダミー文字列「[語尾1]」を、文字「酸」に復元可能にすることができる。   Here, the information processing apparatus 100 stores the dummy character string “[End 1]” and the character “acid” replaced with the dummy character string in association with each other using the replacement table 400. As a result, the information processing apparatus 100 can restore the dummy character string “[End 1]” to the character “Acid”.

情報処理装置100は、文章「・・・あるいはひ酸ナトリウムを用いた・・・」に含まれる、グループ1に属する特定の文字が連続する文字列ごとに、ダミー文字列「[本体i]」に置換する。iは、文字列ごとに異なる値が割り振られる。図9の例では、情報処理装置100は、グループ1に属する特定の文字が連続する文字列「ナトリウム」を、ダミー文字列「[本体1]」に置換する。これにより、情報処理装置100は、様々な品詞の形態素が混在して含まれる文字列を、形態素解析において1つの形態素として扱うことを可能にすることができる。このため、情報処理装置100は、化合物名になりうるひと纏まりの文字列を特定しやすくすることができる。   The information processing apparatus 100 uses a dummy character string “[main body i]” for each character string in the sentence “... Or using sodium arsenate... Replace with. i is assigned a different value for each character string. In the example of FIG. 9, the information processing apparatus 100 replaces the character string “sodium” in which specific characters belonging to group 1 continue with a dummy character string “[body 1]”. Accordingly, the information processing apparatus 100 can handle a character string including a mixture of morphemes of various parts of speech as one morpheme in the morpheme analysis. Therefore, the information processing apparatus 100 can easily identify a group of character strings that can be compound names.

ここで、情報処理装置100は、ダミー文字列「[本体1]」と、ダミー文字列に置換した文字「ナトリウム」とを対応付けて、置換テーブル400を用いて記憶する。これにより、情報処理装置100は、ダミー文字列「[本体1]」を、文字列「ナトリウム」に復元可能にすることができる。   Here, the information processing apparatus 100 stores the dummy character string “[main body 1]” and the character “sodium” replaced with the dummy character string in association with each other using the replacement table 400. Accordingly, the information processing apparatus 100 can restore the dummy character string “[main body 1]” to the character string “sodium”.

置換後の文章は、「・・・あるいはひ[語尾1][本体1]を用いた・・・」である。情報処理装置100は、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」を示すテキストデータを、テキストテーブル600の「置き換え後」に対応付けて記憶する。これにより、情報処理装置100は、元の文章と、置換後の文章と併せて記憶しておくことができる。次に、図10の説明に移行する。   The sentence after the replacement is “... Or hi [end 1] [using body 1]... The information processing apparatus 100 stores the text data indicating the replaced sentence “... Or hi [end 1] [using body 1]...” In association with “after replacement” in the text table 600. To do. As a result, the information processing apparatus 100 can store the original sentence and the replaced sentence together. Next, the description proceeds to FIG.

図10において、情報処理装置100は、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」を形態素解析する。ここで、情報処理装置100は、ダミー文字列を1つの形態素として解析する。図10の例では、情報処理装置100は、形態素「あるいは」の品詞が「接続詞」であると解析する。また、情報処理装置100は、形態素「ひ」の品詞が「未知語」であり、形態素「[語尾1]」の品詞が「語尾」であり、形態素「[本体1]」の品詞が「本体」であると解析する。また、情報処理装置100は、形態素「を」の品詞が「助詞」であり、形態素「用い」の品詞が「動詞」であり、形態素「た」の品詞が「活用語尾」であると解析する。   In FIG. 10, the information processing apparatus 100 performs morphological analysis on the sentence “... Or hi [end 1] [main body 1]... Here, the information processing apparatus 100 analyzes the dummy character string as one morpheme. In the example of FIG. 10, the information processing apparatus 100 analyzes that the part of speech of the morpheme “or” is “conjunction”. In addition, the information processing apparatus 100 has a morpheme “hi” whose part of speech is “unknown word”, a morpheme “[word end 1]” has a part of speech “word end”, and a morpheme “[main body 1]” has a part of speech “main body”. Is analyzed. Further, the information processing apparatus 100 analyzes that the part of speech of the morpheme “O” is “particle”, the part of speech of the morpheme “use” is “verb”, and the part of speech of the morpheme “ta” is “utilized ending”. .

情報処理装置100は、形態素と、形態素の品詞とを対応付けて、品詞テーブル500を用いて記憶する。情報処理装置100は、品詞テーブル500に基づいて、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」に含まれる、化合物名の候補となる候補文字列を抽出する。候補文字列は、ダミー文字列と連結する文字または文字列と、ダミー文字列とを含む文字列である。候補文字列は、ダミー文字列であってもよい。   The information processing apparatus 100 stores the morpheme and the part of speech of the morpheme in association with each other using the part of speech table 500. Based on the part-of-speech table 500, the information processing apparatus 100 uses candidate characters that are candidates for compound names included in the replaced sentence “... Or hi [end 1] [main body 1]... Extract columns. The candidate character string is a character string including a character or character string connected to the dummy character string and the dummy character string. The candidate character string may be a dummy character string.

図10の例では、情報処理装置100は、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」に含まれる形態素を順に取得する。まず、情報処理装置100は、形態素「あるいは」を取得する。次に、情報処理装置100は、形態素「あるいは」の次にある形態素「ひ」の品詞を取得する。そして、情報処理装置100は、形態素「あるいは」の品詞「接続詞」と、形態素「ひ」の品詞「未知語」とを取得する。情報処理装置100は、取得した品詞に基づいて、形態素「あるいは」と、形態素「あるいは」の次にある形態素「ひ」とが連結するか否かを判定する。ここでは、情報処理装置100は、連結しないと判定する。   In the example of FIG. 10, the information processing apparatus 100 sequentially acquires morphemes included in the replaced sentence “... Or hi [end 1] [using body 1]. First, the information processing apparatus 100 acquires a morpheme “or”. Next, the information processing apparatus 100 acquires the part of speech of the morpheme “hi” next to the morpheme “or”. The information processing apparatus 100 acquires the part of speech “connective” of the morpheme “or” and the part of speech “unknown word” of the morpheme “hi”. The information processing apparatus 100 determines whether or not the morpheme “or” and the morpheme “hi” next to the morpheme “or” are connected based on the acquired part of speech. Here, the information processing apparatus 100 determines not to connect.

次に、情報処理装置100は、形態素「ひ」の次にある形態素「[語尾1]」を取得する。そして、情報処理装置100は、形態素「ひ」の品詞「未知語」と、形態素「[語尾1]」の品詞「語尾」とを取得する。情報処理装置100は、取得した品詞に基づいて、形態素「ひ」と、形態素「ひ」の次にある形態素「[語尾1]」とが連結するか否かを判定する。ここでは、情報処理装置100は、形態素「[語尾1]」の品詞が「語尾」であるため、連結すると判定する。情報処理装置100は、連結すると判定した場合、形態素「ひ」と形態素「[語尾1]」とを連結した文字列「ひ[語尾1]」を、新たな形態素として扱う。   Next, the information processing apparatus 100 acquires the morpheme “[end 1]” next to the morpheme “hi”. Then, the information processing apparatus 100 acquires the part of speech “unknown word” of the morpheme “hi” and the part of speech “end of word” of the morpheme “[suffix 1]”. Based on the acquired part of speech, the information processing apparatus 100 determines whether or not the morpheme “hi” and the morpheme “[end 1]” next to the morpheme “hi” are connected. Here, since the part of speech of the morpheme “[End 1]” is “End”, the information processing apparatus 100 determines to connect. If the information processing apparatus 100 determines that the morpheme “hi” and the morpheme “[ending 1]” are connected, the information processing apparatus 100 treats the character string “hi [ending 1]” as a new morpheme.

次に、情報処理装置100は、形態素「ひ[語尾1]」の次にある形態素「[本体1]」を取得する。そして、情報処理装置100は、形態素「ひ[語尾1]」に含まれる形態素「ひ」の品詞「未知語」および形態素「[語尾1]」の品詞「語尾」と、形態素「[本体1]」の品詞「本体」とを取得する。情報処理装置100は、取得した品詞に基づいて、形態素「ひ[語尾1]」と、形態素「ひ[語尾1]」の次にある形態素「[本体1]」とが連結するか否かを判定する。ここでは、情報処理装置100は、形態素「[本体1]」の品詞が「本体」であるため、連結すると判定する。情報処理装置100は、連結すると判定した場合、形態素「ひ[語尾1]」と形態素「[本体1]」とを連結した文字列「ひ[語尾1][本体1]」を、新たな形態素として扱う。   Next, the information processing apparatus 100 acquires the morpheme “[main body 1]” next to the morpheme “hi [word end 1]”. The information processing apparatus 100 then includes the part of speech “unknown word” of the morpheme “hi” included in the morpheme “hi [end 1]” and the part of speech “end” of the morpheme “[end 1]” and the morpheme “[main body 1]”. "Part of speech" is acquired. Based on the acquired part of speech, the information processing apparatus 100 determines whether or not the morpheme “hi [end 1]” and the morpheme “[main 1]” next to the morpheme “hi [end 1]” are connected. judge. Here, since the part of speech of the morpheme “[main body 1]” is “main body”, the information processing apparatus 100 determines to connect. If the information processing apparatus 100 determines that the morpheme “hi [word end 1]” and the morpheme “[main body 1]” are concatenated, the information processing apparatus 100 converts the character string “hi [word end 1] [main body 1]” into a new morpheme. Treat as.

次に、情報処理装置100は、形態素「ひ[語尾1][本体1]」の次にある形態素「を」を取得する。そして、情報処理装置100は、形態素「ひ[語尾1]」に含まれる形態素「ひ」の品詞「未知語」、形態素「[語尾1]」の品詞「語尾」、および、形態素「[本体1]」の品詞「本体」と、形態素「を」の品詞「助詞」とを取得する。情報処理装置100は、取得した品詞に基づいて、形態素「ひ[語尾1][本体1]」と、形態素「ひ[語尾1][本体1]」の次にある形態素「を」とが連結するか否かを判定する。ここでは、情報処理装置100は、形態素「を」の品詞が「助詞」であるため、連結しないと判定する。   Next, the information processing apparatus 100 acquires the morpheme “O” next to the morpheme “hi [word end 1] [main body 1]”. The information processing apparatus 100 then includes the part of speech “unknown word” of the morpheme “hi” included in the morpheme “hi [end 1]”, the part of speech “end” of the morpheme “[end 1]”, and the morpheme “[main body 1”. ] Part-of-speech “body” and morpheme “wo” part-of-speech “particle”. Based on the acquired part of speech, the information processing apparatus 100 connects the morpheme “hi [word end 1] [main body 1]” and the morpheme “hi [word end 1] [main body 1]” next to the morpheme “o”. It is determined whether or not to do. Here, since the part of speech of the morpheme “O” is “particle”, the information processing apparatus 100 determines not to connect.

情報処理装置100は、同様に、形態素「用い」や形態素「た」が連結しないと判定する。結果として、情報処理装置100は、形態素「ひ[語尾1][本体1]」を、化合物名の候補となる候補文字列「ひ[語尾1][本体1]」として抽出する。情報処理装置100は、より具体的には、図14に示す抽出処理により、候補文字列を抽出する。   Similarly, the information processing apparatus 100 determines that the morpheme “used” and the morpheme “ta” are not connected. As a result, the information processing apparatus 100 extracts the morpheme “hi [word end 1] [main body 1]” as a candidate character string “hi [word end 1] [main body 1]” that is a candidate for the compound name. More specifically, the information processing apparatus 100 extracts candidate character strings by the extraction process shown in FIG.

情報処理装置100は、置換後の文章「・・・あるいはひ[語尾1][本体1]を用いた・・・」に含まれる、候補文字列「ひ[語尾1][本体1]」に、タグ「<c>」およびタグ「</c>」を付与し、候補文字列を特定可能にする。タグ付けした文章は、「・・・あるいは<c>ひ[語尾1][本体1]</c>を用いた・・・」である。情報処理装置100は、タグ付けした文章「・・・あるいは<c>ひ[語尾1][本体1]</c>を用いた・・・」を、テキストテーブル600の「タグ付け後」に対応付けて記憶する。   The information processing apparatus 100 applies the candidate character string “hi [end 1] [main body 1]” included in the replaced sentence “... Or hi [end 1] [main body 1]... , A tag “<c>” and a tag “</ c>” are added, and a candidate character string can be specified. The sentence with the tag is “... Or <c> hi [end 1] [main body 1] </ c> ...”. The information processing apparatus 100 adds the tagged sentence “... Or <c> hi [end 1] [main body 1] </ c> ...” to “after tagging” in the text table 600. Store in association with each other.

これにより、情報処理装置100は、ひらがななどの未知語を含む文字列も、候補文字列として抽出することができる。また、情報処理装置100は、様々な品詞の形態素が混在する文字列をダミー文字列に置換してあるため、様々な品詞の形態素が混在する文字列をひと纏まりとして扱いやすく、候補文字列を精度よく抽出することができる。次に、図11の説明に移行する。   As a result, the information processing apparatus 100 can also extract character strings including unknown words such as hiragana as candidate character strings. In addition, since the information processing apparatus 100 replaces a character string in which morphemes of various parts of speech are mixed with a dummy character string, it is easy to handle the character strings in which morphemes of various parts of speech are mixed as a group, It can be extracted with high accuracy. Next, the description proceeds to FIG.

図11において、情報処理装置100は、置換テーブル400に基づいて、タグ付けした文章において、候補文字列「ひ[語尾1][本体1]」に含まれるダミー文字列「[語尾1]」を、文字「酸」に復元する。また、情報処理装置100は、置換テーブル400に基づいて、タグ付けした文章において、候補文字列「ひ[語尾1][本体1]」に含まれるダミー文字列「[本体1]」を、文字列「ナトリウム」に復元する。   In FIG. 11, based on the replacement table 400, the information processing apparatus 100 adds the dummy character string “[End 1]” included in the candidate character string “Hi [End 1] [Main Body 1]” in the tagged sentence. , Restore to the letter "acid". In addition, the information processing apparatus 100 converts the dummy character string “[main body 1]” included in the candidate character string “hi [end 1] [main body 1]” into the character in the tagged sentence based on the replacement table 400. Restore to the column “Sodium”.

タグ付けし、かつ、ダミー文字列を復元した文章は、「・・・あるいは<c>ひ酸ナトリウム</c>を用いた・・・」である。情報処理装置100は、タグ付けし、かつ、ダミー文字列を復元した文章「・・・あるいは<c>ひ酸ナトリウム</c>を用いた・・・」を示すテキストデータを、テキストテーブル600の「復元後」に対応付けて記憶する。また、情報処理装置100は、候補文字列「ひ[語尾1][本体1]」に含まれるダミー文字列を復元した結果得られた、タグ付けされた文字列「ひ酸ナトリウム」を示すテキストデータ、テキストテーブル600の「抽出結果」に対応付けて記憶する。   The sentence which is tagged and the dummy character string is restored is “... Or <c> using sodium arsenate </ c>... The information processing apparatus 100 adds text data indicating a sentence “... Or <c> using sodium arsenate </ c>... Is stored in association with “after restoration”. Further, the information processing apparatus 100 obtains the tagged character string “sodium arsenate” obtained as a result of restoring the dummy character string included in the candidate character string “hi [word end 1] [main body 1]”. The data is stored in association with the “extraction result” in the text table 600.

その後、情報処理装置100は、分類器により、タグ付けされた文字列「ひ酸ナトリウム」が、化合物名であるか否かを判定する。ここでは、情報処理装置100は、化合物名であると判定する。情報処理装置100は、化合物でなければ、テキストテーブル600の「抽出結果」に対応付けられた「ひ酸ナトリウム」を示すテキストデータを削除してもよい。また、情報処理装置100は、化合物でなければ、テキストテーブル600の「タグ付け後」や「復元後」に対応付けられたテキストテーブル600から、タグを削除してもよい。   Thereafter, the information processing apparatus 100 determines whether the tagged character string “sodium arsenate” is a compound name by the classifier. Here, the information processing apparatus 100 determines that the name is a compound name. If it is not a compound, the information processing apparatus 100 may delete the text data indicating “sodium arsenate” associated with the “extraction result” in the text table 600. If the information processing apparatus 100 is not a compound, the information processing apparatus 100 may delete the tag from the text table 600 associated with “after tagging” or “after restoration” in the text table 600.

これにより、情報処理装置100は、化合物名を精度よく特定することができる。ここで、情報処理装置100は、タグ付けせずに、候補文字列「ひ[語尾1][本体1]」を抽出し、化合物名であるか否かを判定する場合があってもよい。情報処理装置100は、判定結果に基づき、化合物名を特定した後に、元の文章にタグ付けする場合があってもよい。次に、図12の説明に移行する。   Thereby, the information processing apparatus 100 can specify the compound name with high accuracy. Here, the information processing apparatus 100 may extract the candidate character string “hi [end 1] [main body 1]” without tagging and determine whether or not the name is a compound name. The information processing apparatus 100 may tag the original sentence after specifying the compound name based on the determination result. Next, the description proceeds to FIG.

図12において、情報処理装置100は、テキストテーブル600の「復元後」に対応付けられたテキストデータが示す文章「・・・あるいは<c>ひ酸ナトリウム</c>を用いた・・・」を取得する。情報処理装置100は、タグ付けされた文字列に下線が引かれるように、タグを非表示にした形式で、文章「・・・あるいは<c>ひ酸ナトリウム</c>を用いた・・・」をディスプレイに表示する。情報処理装置100は、具体的には、表示内容1200を表示する。   In FIG. 12, the information processing apparatus 100 reads the sentence “... Or <c> using sodium arsenate </ c>...” Indicated by the text data associated with “after restoration” in the text table 600. To get. The information processing apparatus 100 uses the sentence “... Or <c> sodium arsenate </ c> in a form in which the tag is hidden so that the tagged character string is underlined. “” Is displayed on the display. Specifically, the information processing apparatus 100 displays the display content 1200.

また、情報処理装置100は、ディスプレイに表示されたタグ付けされた文字列に対応する領域がクリックされると、タグ付けされた文字列が示す化合物の化学式、機能、性質、および、用途などの情報を表示してもよい。情報処理装置100は、具体的には、表示内容1200を表示する。これにより、情報処理装置100は、利用者が、文章に含まれる化合物名を認識しやすくすることができる。また、情報処理装置100は、利用者が、化合物の性質を理解しやすくし、文章を理解しやすくすることができる。   In addition, when the area corresponding to the tagged character string displayed on the display is clicked, the information processing apparatus 100 displays a chemical formula, a function, a property, and an application of the compound indicated by the tagged character string. Information may be displayed. Specifically, the information processing apparatus 100 displays the display content 1200. Thereby, the information processing apparatus 100 can make it easy for the user to recognize the compound name included in the sentence. In addition, the information processing apparatus 100 can make it easier for the user to understand the properties of the compound and to understand the sentences.

(全体処理手順)
次に、図13を用いて、情報処理装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図2に示したCPU201と、メモリ202や記録媒体205などの記憶領域と、ネットワークI/F203とによって実現される。
(Overall procedure)
Next, an example of the overall processing procedure executed by the information processing apparatus 100 will be described with reference to FIG. The overall processing is realized by, for example, the CPU 201 illustrated in FIG. 2, a storage area such as the memory 202 and the recording medium 205, and the network I / F 203.

図13は、全体処理手順の一例を示すフローチャートである。図13において、まず、情報処理装置100は、文章を示すテキストデータを読み込む(ステップS1301)。   FIG. 13 is a flowchart illustrating an example of the overall processing procedure. In FIG. 13, first, the information processing apparatus 100 reads text data indicating a sentence (step S1301).

次に、情報処理装置100は、特定テーブル300に基づくパターン認識により、文章から化合物名に特有な文字列を抽出する(ステップS1302)。そして、情報処理装置100は、抽出した文字列が属するグループに基づいて、文章のうち抽出した文字列をダミー文字列に置換する(ステップS1303)。   Next, the information processing apparatus 100 extracts a character string unique to the compound name from the sentence by pattern recognition based on the specific table 300 (step S1302). The information processing apparatus 100 replaces the extracted character string in the sentence with a dummy character string based on the group to which the extracted character string belongs (step S1303).

次に、情報処理装置100は、置換後の文章に対して形態素解析を実行する(ステップS1304)。そして、情報処理装置100は、図14に後述する抽出処理を実行し、形態素解析の結果を参照し、品詞の組み合わせに基づいて、ダミー文字列を含み化合物名の候補となる候補文字列を抽出する(ステップS1305)。   Next, the information processing apparatus 100 performs morphological analysis on the replaced sentence (step S1304). Then, the information processing apparatus 100 performs an extraction process described later in FIG. 14, refers to the result of morphological analysis, and extracts a candidate character string that includes a dummy character string and is a candidate for a compound name based on a combination of parts of speech. (Step S1305).

次に、情報処理装置100は、抽出した候補文字列のうちダミー文字列を置換前の文字列に復元する(ステップS1306)。そして、情報処理装置100は、分類器により、復元後の候補文字列が化合物名であるか否かを判定する(ステップS1307)。   Next, the information processing apparatus 100 restores the dummy character string of the extracted candidate character strings to the character string before replacement (step S1306). Then, the information processing apparatus 100 determines whether or not the restored candidate character string is a compound name using the classifier (step S1307).

次に、情報処理装置100は、判定結果を出力する(ステップS1308)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、文章に含まれる化合物名を、精度よく特定することができる。   Next, the information processing apparatus 100 outputs a determination result (step S1308). Then, the information processing apparatus 100 ends the entire process. Thereby, the information processing apparatus 100 can specify the compound name included in the sentence with high accuracy.

(抽出処理手順)
次に、図14を用いて、情報処理装置100が実行する、抽出処理手順の一例について説明する。抽出処理は、例えば、図2に示したCPU201と、メモリ202や記録媒体205などの記憶領域と、ネットワークI/F203とによって実現される。
(Extraction procedure)
Next, an example of an extraction processing procedure executed by the information processing apparatus 100 will be described with reference to FIG. The extraction process is realized by, for example, the CPU 201 illustrated in FIG. 2, a storage area such as the memory 202 and the recording medium 205, and the network I / F 203.

図14は、抽出処理手順の一例を示すフローチャートである。図14において、まず、情報処理装置100は、形態素解析の結果を読み込む(ステップS1401)。そして、情報処理装置100は、ステップS1402の処理に移行する。   FIG. 14 is a flowchart illustrating an example of the extraction processing procedure. In FIG. 14, first, the information processing apparatus 100 reads a result of morphological analysis (step S1401). Then, the information processing apparatus 100 proceeds to the process of step S1402.

ステップS1402では、情報処理装置100は、置換後の文章に含まれる、処理済みではない形態素のうち、最初の形態素を取得する(ステップS1402)。そして、情報処理装置100は、ステップS1403の処理に移行する。   In step S1402, the information processing apparatus 100 acquires the first morpheme among unprocessed morphemes included in the replaced text (step S1402). Then, the information processing apparatus 100 proceeds to the process of step S1403.

ステップS1403では、情報処理装置100は、最初の形態素の次の形態素を取得する(ステップS1403)。次に、情報処理装置100は、最初の形態素が、未知語、本体、名詞、または、接頭語のいずれかの品詞の形態素を含むか否かを判定する(ステップS1404)。ここで、いずれかの品詞の形態素を含む場合(ステップS1404:Yes)、情報処理装置100は、ステップS1405の処理に移行する。一方で、いずれの品詞の形態素も含まない場合(ステップS1404:No)、情報処理装置100は、ステップS1409の処理に移行する。   In step S1403, the information processing apparatus 100 acquires the next morpheme after the first morpheme (step S1403). Next, the information processing apparatus 100 determines whether or not the first morpheme includes any part of speech morpheme of unknown word, main body, noun, or prefix (step S1404). Here, when the morpheme of any part of speech is included (step S1404: Yes), the information processing apparatus 100 proceeds to the process of step S1405. On the other hand, when the morpheme of any part of speech is not included (step S1404: No), the information processing apparatus 100 proceeds to the process of step S1409.

ステップS1405では、情報処理装置100は、次の形態素が、未知語、本体、名詞、または、接頭語のいずれかの品詞の形態素を含むか否かを判定する(ステップS1405)。ここで、いずれかの品詞の形態素を含む場合(ステップS1405:Yes)、情報処理装置100は、ステップS1406の処理に移行する。一方で、いずれの品詞の形態素も含まない場合(ステップS1405:No)、情報処理装置100は、ステップS1407の処理に移行する。   In step S1405, the information processing apparatus 100 determines whether the next morpheme includes a morpheme of any part of speech of unknown word, main body, noun, or prefix (step S1405). Here, when the morpheme of any part of speech is included (step S1405: Yes), the information processing apparatus 100 proceeds to the process of step S1406. On the other hand, when the morpheme of any part of speech is not included (step S1405: No), the information processing apparatus 100 proceeds to the process of step S1407.

ステップS1406では、情報処理装置100は、最初の形態素と次の形態素とを結合した形態素を、最初の形態素に設定する(ステップS1406)。そして、情報処理装置100は、ステップS1403の処理に戻る。   In step S1406, the information processing apparatus 100 sets a morpheme obtained by combining the first morpheme and the next morpheme as the first morpheme (step S1406). Then, the information processing apparatus 100 returns to the process of step S1403.

ステップS1407では、情報処理装置100は、最初の形態素が、ダミー文字列を含むか否かを判定する(ステップS1407)。ここで、ダミー文字列を含む場合(ステップS1407:Yes)、情報処理装置100は、ステップS1408の処理に移行する。一方で、ダミー文字列を含まない場合(ステップS1407:No)、情報処理装置100は、ステップS1409の処理に移行する。   In step S1407, the information processing apparatus 100 determines whether or not the first morpheme includes a dummy character string (step S1407). Here, when the dummy character string is included (step S1407: Yes), the information processing apparatus 100 proceeds to the process of step S1408. On the other hand, when the dummy character string is not included (step S1407: No), the information processing apparatus 100 proceeds to the process of step S1409.

ステップS1408では、情報処理装置100は、置換後の文章に含まれる最初の形態素に、タグを付与する(ステップS1408)。そして、情報処理装置100は、ステップS1409の処理に移行する。   In step S1408, the information processing apparatus 100 adds a tag to the first morpheme included in the replaced sentence (step S1408). Then, the information processing apparatus 100 proceeds to the process of step S1409.

ステップS1409では、情報処理装置100は、最初の形態素を、処理済みに設定する(ステップS1409)。次に、情報処理装置100は、すべての形態素が処理済みであるか否かを判定する(ステップS1410)。ここで、処理済みではない形態素がある場合(ステップS1410:No)、情報処理装置100は、ステップS1412の処理に戻る。一方で、すべての形態素が処理済みである場合(ステップS1410:Yes)、情報処理装置100は、ステップS1411の処理に移行する。   In step S1409, the information processing apparatus 100 sets the first morpheme as processed (step S1409). Next, the information processing apparatus 100 determines whether all morphemes have been processed (step S1410). If there is a morpheme that has not been processed (step S1410: No), the information processing apparatus 100 returns to the process of step S1412. On the other hand, when all the morphemes have been processed (step S1410: Yes), the information processing apparatus 100 proceeds to the process of step S1411.

ステップS1411では、情報処理装置100は、タグが付与された置換後の文章に基づいて、ダミー文字列を含み化合物名の候補となる候補文字列を抽出して出力する(ステップS1411)。そして、情報処理装置100は、抽出処理を終了する。これにより、情報処理装置100は、ひと纏まりの文字列を抽出しやすくすることができ、ダミー文字列を復元すると化合物名になりうる候補文字列を精度よく抽出することができる。   In step S1411, the information processing apparatus 100 extracts and outputs a candidate character string that includes a dummy character string and is a candidate for a compound name based on the replaced sentence to which the tag is attached (step S1411). Then, the information processing apparatus 100 ends the extraction process. Accordingly, the information processing apparatus 100 can easily extract a group of character strings, and can accurately extract candidate character strings that can be compound names when the dummy character strings are restored.

ここでは、情報処理装置100が、本体または語尾に対応するダミー文字列を含む候補文字列を抽出する場合について説明したが、これに限らない。例えば、情報処理装置100が、少なくとも本体に対応するダミー文字列を含む候補文字列を抽出し、語尾に対応するダミー文字列のみを含む候補文字列を抽出しない場合があってもよい。   Here, a case has been described in which the information processing apparatus 100 extracts a candidate character string including a dummy character string corresponding to the main body or the ending. However, the present invention is not limited to this. For example, the information processing apparatus 100 may extract a candidate character string including at least a dummy character string corresponding to the main body, and may not extract a candidate character string including only a dummy character string corresponding to the ending.

ここでは、情報処理装置100が、ステップS1402で取得した最初の形態素と、ステップS1406で形態素を結合して設定された最初の形態素とのいずれについても、ステップS1404で同一の条件判定を行う場合について説明したが、これに限らない。例えば、情報処理装置100が、ステップS1402で取得した最初の形態素と、ステップS1406で形態素を結合して設定された最初の形態素とで、ステップS1404で異なる条件判定を行う場合があってもよい。   Here, the information processing apparatus 100 performs the same condition determination in step S1404 for both the first morpheme acquired in step S1402 and the first morpheme set by combining the morphemes in step S1406. Although explained, it is not limited to this. For example, the information processing apparatus 100 may perform different condition determination in step S1404 between the first morpheme acquired in step S1402 and the first morpheme set by combining the morphemes in step S1406.

以上説明したように、情報処理装置100によれば、文章に含まれる、化合物名に特有な文字または文字列を特定することができる。情報処理装置100によれば、文章に含まれる文字または文字列を、文字または文字列の特徴を表すダミー文字列に置換することができる。情報処理装置100によれば、置換後の文章を形態素解析した結果に基づいて、置換後の文章に含まれる、ダミー文字列と連結する文字または文字列と、ダミー文字列とを含む文字列を抽出することができる。情報処理装置100によれば、抽出した文字列に含まれるダミー文字列を、特定した文字または文字列に置換し直した置換後の文字列を生成することができる。これにより、情報処理装置100は、文章に含まれる化合物名を精度よく特定することができる。   As described above, according to the information processing apparatus 100, it is possible to specify a character or a character string unique to a compound name included in a sentence. According to the information processing apparatus 100, a character or a character string included in a sentence can be replaced with a dummy character string that represents the character or the character string. According to the information processing apparatus 100, based on the result of the morphological analysis of the replaced sentence, the character string including the character or the character string connected to the dummy character string and the dummy character string included in the replaced sentence. Can be extracted. According to the information processing apparatus 100, it is possible to generate a replacement character string in which the dummy character string included in the extracted character string is replaced with the specified character or character string. Thereby, the information processing apparatus 100 can specify the compound name included in the sentence with high accuracy.

情報処理装置100によれば、生成した置換後の文字列が化合物名であるか否かを判定することができる。これにより、情報処理装置100は、文章に含まれる化合物名をさらに精度よく特定することができる。   According to the information processing apparatus 100, it can be determined whether or not the generated character string after replacement is a compound name. Thereby, the information processing apparatus 100 can specify the compound name included in the sentence with higher accuracy.

情報処理装置100によれば、特有な文字または文字列として、化合物名または化合物名の部分構造として出現する頻度が一定以上に高いと判断されるカタカナ、アルファベット、数字、または、記号を含む文字または文字列を用いることができる。これにより、情報処理装置100は、カタカナ、アルファベット、数字、および、記号などが混在して含まれ、形態素解析ではひと纏まりの文字列として扱うことが難しい文字列を特定することができる。このため、情報処理装置100は、文章に含まれる化合物名を特定する精度の向上を図ることができる。   According to the information processing apparatus 100, as a unique character or character string, a character including a katakana, an alphabet, a number, or a symbol that is determined to have a frequency higher than a certain level as a compound name or a partial structure of the compound name A character string can be used. Thereby, the information processing apparatus 100 can identify a character string that includes katakana, alphabets, numbers, symbols, and the like and is difficult to handle as a group of character strings in morphological analysis. For this reason, the information processing apparatus 100 can improve the accuracy of specifying the compound name included in the sentence.

情報処理装置100によれば、特有な文字または文字列として、化合物名または化合物名の部分構造の語尾となる文字または文字列を用いることができる。これにより、情報処理装置100は、化合物名を特定する指標になる、化合物名に出現しやすい語尾となる文字または文字列を特定することができる。このため、情報処理装置100は、文章に含まれる化合物名を特定する精度の向上を図ることができる。   According to the information processing apparatus 100, a character or a character string that ends the compound name or the partial structure of the compound name can be used as the unique character or character string. As a result, the information processing apparatus 100 can identify a character or character string that is an index for identifying a compound name and that is likely to end with a compound name. For this reason, the information processing apparatus 100 can improve the accuracy of specifying the compound name included in the sentence.

情報処理装置100によれば、元の文章に含まれる置換後の文字列を特定可能にする情報を、元の文章に付与して出力することができる。これにより、情報処理装置100は、利用者が、文章に含まれる化合物名を認識しやすくすることができる。   According to the information processing apparatus 100, information that makes it possible to specify the replaced character string included in the original sentence can be given to the original sentence and output. Thereby, the information processing apparatus 100 can make it easy for the user to recognize the compound name included in the sentence.

情報処理装置100によれば、置換後の文字列が示す化合物の化学式、機能、性質、および、用途の少なくともいずれかの情報を出力することができる。これにより、情報処理装置100は、利用者が、化合物の性質を理解しやすくし、文章を理解しやすくすることができる。   According to the information processing apparatus 100, it is possible to output information on at least one of the chemical formula, function, property, and use of the compound indicated by the character string after replacement. Thereby, the information processing apparatus 100 can make it easier for the user to understand the properties of the compound and to understand the sentences.

なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。   The information processing method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. The information processing program described in this embodiment is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The information processing program described in this embodiment may be distributed via a network such as the Internet.

上述した実施の形態に関し、さらに以下の付記を開示する。   The following additional notes are disclosed with respect to the embodiment described above.

(付記1)コンピュータに、
文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
処理を実行させることを特徴とする情報処理プログラム。
(Supplementary note 1)
Identify the character or string that is unique to the compound name in the text,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing program for executing a process.

(付記2)前記コンピュータに、
生成した前記置換後の文字列が化合物名であるか否かを判定する、処理を実行させることを特徴とする付記1に記載の情報処理プログラム。
(Supplementary note 2)
The information processing program according to appendix 1, wherein a process for determining whether or not the generated character string after substitution is a compound name is executed.

(付記3)前記特有な文字または文字列は、化合物名または化合物名の部分構造として出現する頻度が一定以上に高いと判断されるカタカナ、アルファベット、数字、または、記号の少なくともいずれかを含む文字または文字列である、ことを特徴とする付記1または2に記載の情報処理プログラム。 (Supplementary Note 3) The unique character or character string includes at least one of katakana, alphabets, numbers, or symbols that is determined to have a frequency of occurrence of a compound name or a partial structure of the compound name higher than a certain level. The information processing program according to attachment 1 or 2, wherein the information processing program is a character string.

(付記4)前記特有な文字または文字列は、化合物名または化合物名の部分構造の語尾となる文字または文字列である、ことを特徴とする付記1〜3のいずれか一つに記載の情報処理プログラム。 (Supplementary note 4) The information according to any one of supplementary notes 1 to 3, wherein the unique character or character string is a character or character string that is a ending of a compound name or a partial structure of a compound name. Processing program.

(付記5)前記コンピュータに、
前記文章に含まれる前記置換後の文字列を特定可能にする情報を、前記文章に付与して出力する、処理を実行させることを特徴とする付記1〜4のいずれか一つに記載の情報処理プログラム。
(Supplementary note 5)
The information according to any one of appendices 1 to 4, characterized in that the processing is executed by adding the information that makes it possible to specify the replaced character string included in the sentence to the sentence and outputting the information. Processing program.

(付記6)前記コンピュータに、
前記置換後の文字列が示す化合物の化学式、機能、性質、および、用途の少なくともいずれかの情報を出力する、処理を実行させることを特徴とする付記1〜5のいずれか一つに記載の情報処理プログラム。
(Appendix 6)
The process according to any one of appendices 1 to 5, wherein the process is executed to output information on at least one of a chemical formula, a function, a property, and a use of the compound indicated by the character string after substitution. Information processing program.

(付記7)コンピュータに、
文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
処理を実行することを特徴とする情報処理方法。
(Appendix 7)
Identify the character or string that is unique to the compound name in the text,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing method characterized by executing processing.

(付記8)文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
制御部を有することを特徴とする情報処理装置。
(Appendix 8) Identify a character or character string unique to the compound name contained in the sentence,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing apparatus having a control unit.

100 情報処理装置
200 バス
201 CPU
202 メモリ
203 ネットワークI/F
204 記録媒体I/F
205 記録媒体
210 ネットワーク
300 特定テーブル
400 置換テーブル
500 品詞テーブル
600 テキストテーブル
700 記憶部
701 読込部
702 パターン抽出部
703 ダミー置換部
704 形態素解析部
705 候補文字列抽出部
706 ダミー復元部
707 選別部
708 出力部
710 制御部
800 テキストデータ
1200 表示内容
100 Information processing device 200 Bus 201 CPU
202 Memory 203 Network I / F
204 Recording medium I / F
205 recording medium 210 network 300 specific table 400 replacement table 500 part-of-speech table 600 text table 700 storage unit 701 reading unit 702 pattern extraction unit 703 dummy replacement unit 704 morphological analysis unit 705 candidate character string extraction unit 706 dummy restoration unit 707 selection unit 708 output Part 710 Control part 800 Text data 1200 Display content

Claims (6)

コンピュータに、
文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
処理を実行させることを特徴とする情報処理プログラム。
On the computer,
Identify the character or string that is unique to the compound name in the text,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing program for executing a process.
前記コンピュータに、
生成した前記置換後の文字列が化合物名であるか否かを判定する、処理を実行させることを特徴とする請求項1に記載の情報処理プログラム。
In the computer,
The information processing program according to claim 1, wherein a process for determining whether or not the generated character string after substitution is a compound name is executed.
前記特有な文字または文字列は、化合物名または化合物名の部分構造として出現する頻度が一定以上に高いと判断されるカタカナ、アルファベット、数字、または、記号の少なくともいずれかを含む文字または文字列である、ことを特徴とする請求項1または2に記載の情報処理プログラム。   The unique character or character string is a character or character string that includes at least one of katakana, alphabets, numbers, or symbols that is determined to have a frequency that appears more than a certain level as a compound name or a partial structure of a compound name. The information processing program according to claim 1, wherein the information processing program is provided. 前記特有な文字または文字列は、化合物名または化合物名の部分構造の語尾となる文字または文字列である、ことを特徴とする請求項1〜3のいずれか一つに記載の情報処理プログラム。   The information processing program according to any one of claims 1 to 3, wherein the unique character or character string is a character or character string that ends the compound name or a partial structure of the compound name. コンピュータに、
文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
処理を実行することを特徴とする情報処理方法。
On the computer,
Identify the character or string that is unique to the compound name in the text,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing method characterized by executing processing.
文章に含まれる、化合物名に特有な文字または文字列を特定し、
前記文章に含まれる前記文字または前記文字列を、前記文字または前記文字列の特徴を表すダミー文字列に置換し、
前記文章に含まれる前記文字または前記文字列を前記ダミー文字列に置換した置換後の文章を形態素解析した結果に基づいて、前記置換後の文章に含まれる、前記ダミー文字列と連結する文字または文字列と、前記ダミー文字列とを含む文字列を抽出し、
抽出した前記文字列に含まれる前記ダミー文字列を、特定した前記文字または前記文字列に置換し直した置換後の文字列を生成する、
制御部を有することを特徴とする情報処理装置。
Identify the character or string that is unique to the compound name in the text,
Replacing the character or the character string included in the sentence with a dummy character string representing the characteristics of the character or the character string;
Based on the result of morphological analysis of the replaced text obtained by replacing the character or the character string included in the sentence with the dummy character string, the character connected to the dummy character string included in the replaced text or Extract a character string including the character string and the dummy character string,
Generating the replaced character string by replacing the dummy character string included in the extracted character string with the identified character or the character string;
An information processing apparatus having a control unit.
JP2018069330A 2018-03-30 2018-03-30 Information processing programs, information processing methods, and information processing equipment Active JP7040227B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018069330A JP7040227B2 (en) 2018-03-30 2018-03-30 Information processing programs, information processing methods, and information processing equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018069330A JP7040227B2 (en) 2018-03-30 2018-03-30 Information processing programs, information processing methods, and information processing equipment

Publications (2)

Publication Number Publication Date
JP2019179470A true JP2019179470A (en) 2019-10-17
JP7040227B2 JP7040227B2 (en) 2022-03-23

Family

ID=68278743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018069330A Active JP7040227B2 (en) 2018-03-30 2018-03-30 Information processing programs, information processing methods, and information processing equipment

Country Status (1)

Country Link
JP (1) JP7040227B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135931A (en) * 2020-02-28 2021-09-13 株式会社村田製作所 Document classification device, learning method and learning program
WO2022208822A1 (en) 2021-03-31 2022-10-06 富士通株式会社 Information processing program, information processing method, information processing device, and information processing system
JP7469132B2 (en) 2020-04-28 2024-04-16 ファナック株式会社 Numerical Control Device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065776A1 (en) * 2003-09-24 2005-03-24 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
JP2011118861A (en) * 2009-11-02 2011-06-16 Hyper Tec:Kk Device, program and method for checking document
JP2014115718A (en) * 2012-12-06 2014-06-26 Nippon Telegr & Teleph Corp <Ntt> Morphological analysis device, method, and program
JP2019160236A (en) * 2018-03-16 2019-09-19 富士通株式会社 Learning data generation method, learning data generation program and data structure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065776A1 (en) * 2003-09-24 2005-03-24 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
JP2011118861A (en) * 2009-11-02 2011-06-16 Hyper Tec:Kk Device, program and method for checking document
JP2014115718A (en) * 2012-12-06 2014-06-26 Nippon Telegr & Teleph Corp <Ntt> Morphological analysis device, method, and program
JP2019160236A (en) * 2018-03-16 2019-09-19 富士通株式会社 Learning data generation method, learning data generation program and data structure

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135931A (en) * 2020-02-28 2021-09-13 株式会社村田製作所 Document classification device, learning method and learning program
JP7363577B2 (en) 2020-02-28 2023-10-18 株式会社村田製作所 Document classification device, learning method, and learning program
JP7469132B2 (en) 2020-04-28 2024-04-16 ファナック株式会社 Numerical Control Device
WO2022208822A1 (en) 2021-03-31 2022-10-06 富士通株式会社 Information processing program, information processing method, information processing device, and information processing system

Also Published As

Publication number Publication date
JP7040227B2 (en) 2022-03-23

Similar Documents

Publication Publication Date Title
CN102298582B (en) Data search and matching process and system
US8275604B2 (en) Adaptive pattern learning for bilingual data mining
US20090222395A1 (en) Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
CN111539229A (en) Neural machine translation model training method, neural machine translation method and device
JP7040227B2 (en) Information processing programs, information processing methods, and information processing equipment
WO2019224891A1 (en) Classification device, classification method, generation method, classification program, and generation program
JP2008148322A (en) Method for processing character encoding, and system
CN104239289A (en) Syllabication method and syllabication device
CN110750984A (en) Command line character string processing method, terminal, device and readable storage medium
US20190303437A1 (en) Status reporting with natural language processing risk assessment
JPWO2010061733A1 (en) Apparatus and method for supporting detection of mistranslation
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP7040155B2 (en) Information processing equipment, information processing methods and programs
JP6768738B2 (en) Training data generators, methods, and programs
CN114579796B (en) Machine reading understanding method and device
CN107145947B (en) Information processing method and device and electronic equipment
Vasantharajan et al. Adapting the Tesseract Open-Source OCR Engine for Tamil and Sinhala Legacy Fonts and Creating a Parallel Corpus for Tamil-Sinhala-English
WO2015177861A1 (en) Device and method for generating training data
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5916666B2 (en) Apparatus, method, and program for analyzing document including visual expression by text
JP2017091024A (en) Input assistance device
Sowmya Lakshmi et al. Automatic English to Kannada back-transliteration using combination-based approach
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
CN115934921B (en) Task type answer determining method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R150 Certificate of patent or registration of utility model

Ref document number: 7040227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150