JP5930228B2 - 情報処理装置、方法及びプログラム - Google Patents

情報処理装置、方法及びプログラム Download PDF

Info

Publication number
JP5930228B2
JP5930228B2 JP2014033845A JP2014033845A JP5930228B2 JP 5930228 B2 JP5930228 B2 JP 5930228B2 JP 2014033845 A JP2014033845 A JP 2014033845A JP 2014033845 A JP2014033845 A JP 2014033845A JP 5930228 B2 JP5930228 B2 JP 5930228B2
Authority
JP
Japan
Prior art keywords
character string
text
condition
converted
target character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014033845A
Other languages
English (en)
Other versions
JP2015158833A (ja
Inventor
豊島 浩文
浩文 豊島
笑子 竹内
笑子 竹内
大介 宅間
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014033845A priority Critical patent/JP5930228B2/ja
Priority to US14/629,589 priority patent/US9785726B2/en
Publication of JP2015158833A publication Critical patent/JP2015158833A/ja
Application granted granted Critical
Publication of JP5930228B2 publication Critical patent/JP5930228B2/ja
Priority to US15/346,946 priority patent/US9916397B2/en
Priority to US15/715,301 priority patent/US10007740B2/en
Priority to US15/715,330 priority patent/US9946812B2/en
Priority to US15/910,197 priority patent/US10176274B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/02Indexing scheme relating to groups G06F7/02 - G06F7/026
    • G06F2207/025String search, i.e. pattern matching, e.g. find identical word or best match in a string

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報処理装置、方法及びプログラムに関する。
文字列を含むデータベースから文字列を抽出した後、一部の文字列を除外する情報処理装置が知られている(特許文献1から4参照)。例えば、特許文献2の装置は、テキストが各レコードとして登録されている文字列のデータベースから切り出した一部の文字列、例えば、「開発コスト」、「コスト」及び「開発」を抽出する。そして、当該装置は、「開発」及び「コスト」と重複する「開発コスト」を削除して、「開発」及び「コスト」を含む新たなデータベースを作成している。
特許文献1 WO01/050343号公報
特許文献2 特開平10−334102号公報
特許文献3 特開平10−177581号公報
特許文献4 特開2007−41683号公報
しかしながら、例えば上述の特許文献2の情報処理装置では、抽出された複数の文字列のいくつかからなる文字列、即ち、複数の文字列の合成語を除外しているので、多くの必要な文字列が除外され、抽出すべき文字列が抽出されず、文字列の抽出精度が低い検索条件でしか検索できないといった課題がある。
本発明の第1の態様においては、テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する情報処理装置であって、第1テキストを言語処理により単語に分割する言語処理部と、前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換部と、前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成部と、を備える情報処理装置、及び、対応する方法及びプログラムを提供する。
なお、上記の発明の概要は、本発明の特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
情報処理装置10の全体構成図である。 情報処理装置10による検索条件生成処理及び検索処理のフローチャートである。 検索条件の生成を説明するベン図ある。 除外候補を選択する表示画像40の図である。 検索対象のテキストコーパスの図である。 検索条件生成の変更例に用いる第3テキストを含むテキストコーパス42の図である。 本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、情報処理装置10の全体構成図である。情報処理装置10は、言語処理によって検索されるべき対象文字列の単語を文字列検索によって精度よく抽出されるための検索条件34を生成する。情報処理装置10の一例は、パーソナルコンピュータ等のコンピュータである。
情報処理装置10は、制御部12と、表示部14と、入力部16と、記憶部18とを備える。情報処理装置10は、表示部14、入力部16、及び、記憶部18のいずれかを有さず、外部の装置に設けられた表示部14、入力部16、及び、記憶部18を利用してもよい。
制御部12は、CPU(Central Processing Unit)等の演算処理装置である。制御部12は、言語処理部22と、文字変換部24と、条件生成部26と、検索部28とを有する。例えば、制御部12は、検索条件生成処理用及び検索処理用のプログラムを記憶部18またはネットワークから読み込むことによって、言語処理部22、文字変換部24、条件生成部26、及び、検索部28として機能するように構成してもよい。尚、言語処理部22、文字変換部24、条件生成部26、及び、検索部28の一部または全部を回路等のハードウェアによって構成してもよい。
言語処理部22は、第1テキストを言語処理により単語に分割する。例えば、言語処理部22は、記憶部18及び条件生成部26に接続されている。言語処理部22は、記憶部18に記憶された学習用のテキストコーパス32に含まれる1以上の第1テキストを取得して、当該第1テキストを言語処理によって単語に分割する。尚、言語処理部22は、辞書データ30に登録された単語及び文法を用いた形態素解析に基づいて、第1テキストを単語分割してもよい。言語処理部22は、単語分割した第1テキストを条件生成部26へ出力する。
文字変換部24は、対象文字列の前後の少なくとも一方に少なくとも1文字を付加して変換後文字列を生成する。例えば、文字変換部24は、記憶部18及び条件生成部26に接続されている。文字変換部24は、記憶部18の辞書データ30から取得した単語に基づいて、対象文字列の前後の一方に少なくとも一文字を付加した変換後文字列として生成する。文字変換部24は、対象文字列及び変換後文字列等を条件生成部26に出力する。
条件生成部26は、言語処理部22、文字変換部24及び記憶部18と接続されている。条件生成部26は、言語処理部22から単語分割された第1テキストを取得する。条件生成部26は、文字変換部24から対象文字列及び変換後文字列を取得する。条件生成部26は、第1テキストにおいて、変換後文字列にマッチし、かつ言語処理により分割された単語が対象文字列に該当する箇所が基準頻度Th以下であることを条件として、対象文字列にマッチし、かつ変換後文字列にマッチしない旨の検索条件34を生成する。これにより、条件生成部26は、文字列検索によって、対象文字列を検索して、且つ、異なる単語として区別するべき変換後文字列を含むような単語を検索させるような検索条件34を生成することができる。条件生成部26は、記憶部18に生成した検索条件34を記憶させる。条件生成部26は、変換後文字列にマッチさせない候補である除外候補を含む表示画像の画像情報を表示部14に出力する。
検索部28は、条件生成部26が生成した検索条件34に基づいて、テキストを検索する。例えば、検索部28は、テキストコーパス32内で検索条件34にマッチする文字列を含むテキストを検索して、抽出する。
表示部14は、制御部12の条件生成部26からの画像情報に基づいて、画像を表示する。表示部14の一例は、有機EL表示装置、及び、液晶表示装置である。
入力部16は、ユーザからの入力を受け付けて、制御部12へと出力する。入力部16の一例は、キーボード、マウス、及び、タッチパネル等である。
記憶部18は、制御部12で実行されるプログラム、及び、プログラムの実行において必要なパラメータ等の情報を記憶する。例えば、記憶部18は、検索条件生成処理用のプログラム、及び、検索処理用のプログラムを記憶する。記憶部18は、検索条件生成処理用及び検索処理用のプログラムを実行するときに必要となる辞書データ30及びテキストコーパス32を記憶する。辞書データ30は、例えば、国語辞書のデータであってもよく、医療用等の専門用語の辞書データであってもよい。テキストコーパス32は、例えば、一般のテキストを含むデータベースであってもよく、医療用等の特定の分野のテキストを含むデータベースであってもよい。医療用の分野のテキストの一例は、保険の申請書に記載された文章である。
図2は、情報処理装置10による検索条件生成処理及び検索処理のフローチャートである。図3は、検索条件34の生成を説明するベン図である。図4は、除外候補を選択する表示画像40の図である。図5は、検索対象のテキストコーパス32の図である。検索条件生成処理及び検索処理は、制御部12が検索条件生成処理用及び検索処理用のプログラムを読み込むことによって実行される。本実施形態では、検索対象の対象文字列を「がん」とする。
図2に示すように、検索条件生成処理では、まず、文字変換部24は、対象文字列を取得する(S10)。例えば、文字変換部24は、記憶部18に記憶された辞書データ30に登録された単語から対象文字列を取得する。尚、文字変換部24は、キーボード等によるユーザの入力によって対象文字列を取得してもよい。
文字変換部24は、対象文字列の前後の少なくとも一方に少なくとも1文字を付加して変換後文字列を生成する(S12)。例えば、文字変換部24は、言語処理に用いる辞書データ30に登録された単語の中から対象文字列を一部に含む単語を検索し、検索した当該単語において対象文字列の前後の少なくとも一方に位置する少なくとも1文字を対象文字列に付加して変換後文字列を生成する。更に、文字変換部24は、言語処理に用いる辞書データ30における対象文字列を一部に含む複数の単語のうち予め定められた基準単語数Sta以上の単語に共通する少なくとも1文字を、対象文字列に付加して変換後文字列を生成してもよい。
具体例を挙げて、文字変換部24による変換後文字列の生成について説明する。文字変換部24は、対象文字列「がん」を含む単語を辞書データ30で検索した結果、単語「がん」、「○○誘発性がん」、「□□誘発性がん」、「がん誘発性××」、「がん誘発性△△」、「××がん検診」、「□□がん検診」及び「がん細胞」を抽出したとする。当該単語は、辞書データ30のエントリ(即ち、見出し語)から抽出してもよい。
例えば、文字変換部24は、単語「○○誘発性がん」のうち、対象文字列「がん」から前に一文字拡張した文字列「性がん」の個数をカウントする。辞書データ30は、単語「○○誘発性がん」及び「□□誘発性がん」を含むので、文字変換部24は、文字列「性がん」の個数を2個とカウントする。ここで、基準単語数Staを2とする。文字列「性がん」の個数は、基準単語数Sta以上なので、文字変換部24は、更に単語「○○誘発性がん」の「性がん」から前に一文字拡張した「発性がん」の個数をカウントする。「発性がん」の個数は同様に2個となり、基準単語数Sta以上なので、文字変換部24は、更に、「誘発性がん」の個数をカウントする。「誘発性がん」の個数も2個となり、基準単語数Sta以上なので、文字変換部24は、「○誘発性がん」の個数をカウントする。「○誘発性がん」を含む単語は、「○○誘発性がん」以外ないので、文字変換部24は、当該個数を1個とカウントする。この個数は、基準単語数Sta以下なので、文字変換部24は、「○誘発性がん」を変換後文字列にしない。
一方、文字変換部24は、「誘発性がん」の個数が基準単語数Sta以上の条件を満たすので、「誘発性がん」を変換後文字列とする。換言すれば、文字変換部24は、対象文字列「がん」の前に3文字「誘発性」を付加して変換後文字列「誘発性がん」を生成する。ここで、文字変換部24が対象文字列に付加した1以上の文字を検索候補とする。ここでの検索候補は、対象文字列「がん」に付加した基準単語数Sta以上の文字のうち、最も長い「誘発性〜」である。文字変換部24は、検索候補が対象文字列の前また後のいずれに付加されるかを識別可能にする。
同様に、文字変換部24は、辞書データ30の単語「がん誘発性××」のうち、対象文字列「がん」から後に一文字拡張した文字列「がん誘」の個数をカウントする。当該個数は、単語「がん誘発性××」及び「がん誘発性△△」から基準単語数Sta以上の2個とカウントされる。この後、文字変換部24は、上述と同様の処理を実行して、「がん誘発性」を変換後文字列として生成して、「〜誘発性」を検索候補とする。同様に、文字変換部24は、辞書データ30の単語「××がん検診」及び「□□がん検診」から「がん検診」を変換後文字列として生成して、「〜がん検診」を検索候補とする。
一方、辞書データ30の単語「がん細胞」のうち、対象文字列「がん」から後に一文字拡張した文字列「がん細」は他の単語と共通しないので、文字変換部24は、個数を1とカウントして、基準単語数Sta未満と判断する。従って、文字変換部24は、単語「がん細」を変換後文字列として生成しない。
文字変換部24は、変換後文字列、対象文字列、及び、検索候補を条件生成部26へ出力する。
言語処理部22は、第1テキストを言語処理によって単語に分割する(S14)。例えば、言語処理部22は、記憶部18に記憶されたテキストコーパス32から1以上の第1テキストを取得する。言語処理部22は、記憶部18に記憶された辞書データ30に既に登録済みの単語に基づいて、取得した第1テキストを単語に分割する。言語処理部22は、単語に分割された1以上の第1テキストを条件生成部26へ出力する。
条件生成部26は、第1テキストに含まれる変換後文字列の図3に示す集合Raを生成する(S16)。例えば、条件生成部26は、第1テキストに含まれる変換後文字列にマッチする箇所、即ち、言語処理部22による単語分割を考慮せず文字列上一致する箇所を文字列検索によって検索して抽出する。従って、条件生成部26は、変換後文字列にマッチする第1テキストの全ての箇所を検索して抽出することになる。
条件生成部26は、第1テキストにおいて言語処理により分割された単語のうち、対象文字列と一致する単語の箇所の集合Rxを生成する(S18)。具体的には、条件生成部26は、言語処理部22によって単語に分割された第1テキスト中で対象文字列と一致する箇所を検索して抽出して、図3に示す集合Rxを生成する。
条件生成部26は、第1テキストにおいて、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当する箇所が基準頻度Th以下である条件を満たすか否かを判断する(S20)。例えば、条件生成部26は、第1テキストにおいて、言語処理により分割された単語のうち対象文字列に該当する箇所のうち、変換後文字列にマッチする箇所の比率が基準頻度Th以下である条件を満たすか否かを判断する。基準頻度Thは、0から1の間の数値であって、例えば、0.5である。具体的には、条件生成部26は、次の式(1)を満たすか否かを判断する。
Th≧#(Ra ∩ Rx)/#Rx ・・・(1)
図3にハッチングで示す(Ra ∩ Rx)は、集合Raと、集合Rxとが重なる領域である。尚、#は、集合内の文字列または単語の個数を示す。
条件生成部26は、式(1)を満たさない、即ち、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当する箇所が基準頻度Thより大きいと判断すると(S20:No)、当該変換後文字列に含まれる検索候補を検索候補として維持する(S22)。例えば、条件生成部26は、変換後文字列「誘発性がん」が式(1)を満たさないと判断すると、検索候補「誘発性〜」を検索候補として維持する。
一方、条件生成部26は、式(1)を満たす、即ち、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当する箇所が基準頻度Th以下と判断すると(S20:Yes)、当該変換後文字列に含まれる検索候補を除外候補とする(S24)。例えば、条件生成部26は、変換後文字列「がん誘発性」が式(1)を満たすと判断すると、検索候補「〜誘発性」を除外候補に変更する。尚、本実施形態では、変換後文字列「がん検診」も式(1)を満たさず、検索候補「〜検診」も除外候補に変更したとする。
条件生成部26は、判断した変換後文字列が最後の変換後文字列か否かを判断する(S26)。条件生成部26は、全ての変換後文字列についてステップS20の処理を実行するまでステップS20を繰り返す(S26:No)。
条件生成部26は、全ての変換後文字列についてステップS20の処理が実行されたと判断したら(S26:Yes)、検索条件34を生成する(S28)。ここで、条件生成部26は、検索候補を「誘発性〜」として、除外候補を「〜誘発性」及び「〜検診」と決定している。従って、条件生成部26は、次の式(2)を検索条件34として生成する。尚、式(2)内の各記号は正規表現に基づく。
検索条件 : (がん)^(誘発性|検診) ・・・(2)
^:後に続く括弧内に含まれる文字にマッチしない。
|:「または」を意味する。上記の例では、「誘発性」または「検診」を意味する。
従って、式(2)の検索条件34は、「がん」を含む文字列のうち、「がん誘発性」及び「がん検診」を除外することを示す。これにより、条件生成部26は、対象文字列にマッチし、かつ、式(1)の条件を満たす変換後文字列にマッチしない旨の検索条件34を生成する。条件生成部26は、生成した検索条件34を記憶部18に記憶させる。
条件生成部26は、ユーザによって候補が選択されたか否かを判断する(S30)。例えば、条件生成部26は、図4に示す表示画像40を表示部14に表示させる。表示画像40において、中央の「がん」は対象文字列を示す。「がん」の左側に表示されている文字または文字列は、「がん」の前方の検索候補または除外候補を示す。「がん」の右側に表示されている文字または文字列は、「がん」の後方の検索候補または除外候補を示す。尚、各文字または文字列の左側の□のチェックマークは、当該文字または文字列が条件生成部26に選択された除外候補であることを示す。左側の□にチェックマークが付与されていない文字または文字列は、条件生成部26によって設定された検索候補を示す。
ユーザは、当該表示画像40を見て、入力部16を介して、各文字または文字列にチェックマークを付与、または、チェックマークを除去することによって、除外候補を選択する。条件生成部26は、ユーザによる除外候補の選択を取得すると(S30:Yes)、検索条件34を変更して、新たに記憶部18に記憶させる(S32)。一方、条件生成部26は、除外候補の選択を取得しない場合(S30:No)、ステップS32を実行しない。これにより、検索条件生成処理は終了する。
検索処理では、検索部28が、記憶部18に記憶された検索条件34に基づいてテキストを検索する(S34)。尚、検索部28は、条件生成部26から検索条件34を取得してもよい。例えば、図5に示すテキストコーパス32を検索する場合、検索部28は、対象文字列「がん」を含むテキストTX1からTX6を抽出する。次に、検索部28は、除外対象となる「がん誘発性」と「がん検診」を含むテキストTX5及びTX6を除外する。これにより、検索部28は、最終的に、テキストTX1からTX4を抽出する。これにより、検索処理が終了する。検索処理は、検索条件生成処理と連続して実行する必要はなく、別に実行されてもよい。
上述したように情報処理装置10では、条件生成部26は、変換後文字列にマッチして、かつ、言語処理に基づいて検索された対象文字列の個数が基準頻度Th以下となる変換後文字列に付加された検索候補を除外候補としている。これにより、情報処理装置10は、対象文字列を含む文字列のうち、抽出すべき文字列を精度よく抽出できる。
例えば、上述の実施形態の例で示した「がん誘発性××」は、「がん」ではなく、別の病気である。従って、対象文字列が「がん」である場合、「がん誘発性××」は抽出すべき文字列ではない。この場合、条件生成部26は、対象文字列「がん」を含む文字列のうち、変換後文字列「がん誘発性」及び「がん検診」を除外する検索条件34を生成する。従って、当該検索条件34は、抽出すべきでない文字列を除外できることがわかる。このように、情報処理装置10は、対象文字列を含む文字列のうち、抽出すべきでない文字列を除外して、文字列の抽出精度を向上させる検索条件34を生成することができる。
また、情報処理装置10では、条件生成部26は、対象文字列にマッチして、かつ、変換後文字列のいずれかにマッチしない検索条件34を生成するので、言語処理によって単語分割された第1テキストを検索対象とした場合に抽出されなかった文字列を抽出できる。
例えば、対象文字列として「白内障手術」を言語処理により検索する場合であって、単語として「右白内障」及び「手術」が辞書データ30に登録されている場合において、テキスト中の文字列「右白内障手術」は「右白内障」と「手術」に単語分割てしまう結果、「白内障手術」は抽出されなかった。一方、情報処理装置10は、検索条件34に基づいて、対象文字列「白内障手術」を含む文字列をパターンマッチングにより全て抽出するので、除外候補に該当しない限り「右白内障手術」も抽出できる。また、対象文字列が「麻痺」の場合であって、テキスト中の文字列「左拇指麻痺」は、未知語「拇」を含むので抽出されなかった。これは、文字列「左拇指麻痺」が、未知語「拇」を含むので未知語として認識され、単語分割されないことが原因である。一方、情報処理装置10は、検索条件34に基づいて、対象文字列「麻痺」を含む文字列を一度全て抽出するので、除外候補とならない限り「左拇指麻痺」も抽出できる。
情報処理装置10では、条件生成部26が、既存の辞書データ30によって、検索条件34を生成できる。これにより、情報処理装置10は、辞書データ30を更新することによって、検索条件34の精度を常に向上できる。
情報処理装置10では、条件生成部26が、除外候補を選択可能な表示画像40を表示部14に表示させる。これにより、情報処理装置10は、検索条件34を可視化して、ユーザにどのような検索条件34で検索されるのかを示すことができる。
次に、上述した実施形態を変更した例を説明する。
(基準頻度の判断)ステップS20における基準頻度の判断の変更例について説明する。
更に、条件生成部26は、第1テキストにおいて、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当する箇所が基準頻度Thを超えることを条件としてもよい。具体的には、条件生成部26は、次の式(3)を満たすか否かを判断すればよい。
Th<#(Ra ∩ Rx)/#Rx ・・・(3)
条件生成部26は、式(3)を満たすことを条件として、当該変換後文字列による制約を含まない検索条件34を生成してもよい。上述した実施形態では、対象文字列「がん」に対して、変換後文字列「誘発性がん」が式(3)を満たすので、条件生成部26は、当該変換後文字列「誘発性がん」による制約を含まない、即ち、変換後文字列「誘発性がん」を除外しない検索条件34を生成する。
条件生成部26は、次の式(4)を満たすことを条件として、式(1)を満たすか否かを判断してもよい。
Th<#(Ra−Rx)/#Rx ・・・(4)
換言すれば、条件生成部26は、第1テキストにおいて、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当しない箇所が基準頻度Thを超えることを条件としてもよい。この場合、条件生成部26は、対象文字列にマッチし、かつ、式(4)の条件を満たす変換後文字列にマッチしない旨の検索条件34を生成する。
(検索条件の生成)検索条件34の生成の変更例について説明する。
図6は、検索条件生成の変更例に用いる第3テキストを含むテキストコーパスの図である。また、条件生成部26は、対象文字列に応じた属性が対応付けられた少なくとも1つの第3テキストに変換後文字列がマッチする頻度に基づいて、変換後文字列が属性を有するか否かを判定し、変換後文字列が属性を有しないことを条件として、対象文字列にマッチし、かつ変換後文字列にマッチしない旨の検索条件34を生成してもよい。
例えば、条件生成部26は、第3テキストに変換後文字列がマッチする頻度を説明変数として、第3テキストが対象文字列に応じた属性を有するか否かをロジスティック回帰により学習し、説明変数が、変換後文字列が属性を有することに対して負の関係となることを条件として、対象文字列にマッチし、かつ変換後文字列にマッチしない旨の検索条件34を生成する。
具体的には、対象文字列を「がん」とし、図6に示すテキストコーパス42の第3テキストTXm(m=11、・・、21、・・、31、・・)に基づいて、条件生成部26は、検索条件34を生成する。ここで、ロジスティック回帰分析における目的変数を、保険の給付金の対象となる確率とする。換言すれば、変換後文字列が「がん」と見なされる確率を目的変数とする。保険の給付金の対象となる場合、目的変数は1となり、保険の給付金の対象とならない場合、目的変数は0となる。目的変数をp、各変換後文字列の説明変数をXn(n=1、2・・)とすると、pとXnの関係は次の式(5)となる。
Figure 0005930228
例えば、「誘発性がん」がテキストTX11中の全ての文字の中で80%占める場合、条件生成部26は、テキストTX11における「誘発性がん」の説明変数Xを80%とする。また、条件生成部26は、テキストTX11が、保険の給付金の対象となったテキストの場合、テキストTX11の目的変数を1とする。同様に、条件生成部26は、他のテキストTX21、TX31についても、「がん誘発性」または「がん検診」が、テキストTX21、TX31中で占める割合を算出して「がん誘発性」または「がん検診」の説明変数X、Xをそれぞれ算出する。尚、テキストTX21、TX31は保険の給付金の対象とならなかったので、目的変数を0とする。このようにして、条件生成部26は、説明変数と目的変数との複数の組み合わせを求めて、既知のロジスティック回帰分析の推定法である最尤法等によって、式(1)に示す各説明変数の係数α及び各変換後文字列と関連付けられた係数βnを推定する。条件生成部26は、係数βnが正の場合、当該変換後文字列の属性を正と判定する。一方、条件生成部26は、係数βnが負の場合、当該変換後文字列の属性を負と判定する。条件生成部26は、これらの判定結果に基づいて、対象文字列にマッチし、かつ属性が負の変換後文字列にマッチしない旨の検索条件34を生成する。
(変換後文字列の生成)ステップS12における変換後文字列の生成の変更例について説明する。
文字変換部24は、辞書データ30の単語ではなく、テキストに含まれる文字列に基づいて、変換後文字列を生成してもよい。例えば、文字変換部24は、第1テキストと同一または異なる第2テキストにおいて対象文字列を検索し、検索した対象文字列の前後の少なくとも一方に位置する少なくとも1文字を対象文字列に付加して変換後文字列を生成してもよい。この場合、文字変換部24は、第2テキスト中の基準数Stb以上の箇所において共通する少なくとも1文字を、対象文字列に付加して変換後文字列を生成してもよい。例えば、文字変換部24は、対象文字列が「がん」の場合、第2テキスト中の「がん」を検索して、「がん」の箇所の前後の少なくとも一方の文字を一文字ずつ拡張する。文字変換部24は、「がん」を拡張した文字列と共通する箇所が基準数Stb以上ある文字列のうち、最も長い文字列を変換後文字列とする。
文字変換部24は、活用語の対象文字列について複数の活用形に対応する複数の少なくとも1文字のそれぞれを付加して複数の変換後文字列のそれぞれを生成してもよい。例えば、対象文字列が活用語の「上がる」の場合、文字変換部24は当該対象文字列の活用形である「上がら」、「上がり」、「上がっ」、「上がる」、「上がれ」、及び、「上がろ」に対して、少なくとも1文字の検索候補を付加して変換後文字列を生成する。
上述の実施形態では、文字変換部24は、対象文字列を含む文字列が基準単語数Sta以上または基準数Stb以上の場合、変換後文字列を生成したが、変換後文字列の生成はこれに限られない。例えば、文字変換部24は、対象文字列を含む全ての文字列を変換後文字列としてもよい。換言すれば、基準単語数Sta及び基準数Stbを1と設定してもよい。
(その他の変更例)上述の実施形態を部分的に変更した形態について説明する。
上述の実施形態では、文字変換部24が辞書データ30またはテキストコーパス32に基づいて、検索候補を抽出していたが、検索候補はこの例に限られない。例えば、文字変換部24は、検索候補として、カタカナの任意の一文字を含む文字セットから抽出してもよい。また、文字変換部24は、漢数字等の文字列パターンから検索候補を抽出してもよい。
文字変換部24は、対象文字列の少なくとも1文字を置換してもよい。例えば、対象文字列が英語の単語の場合、対象文字列の1文字以上を置換してもよい。具体的には、「ウイルス」を意味する「virus」に対して、「ウイルスの」を意味する「viral」に置換することによって変換後文字列を生成してもよい。また、文字変換部24は、付加と置換との少なくとも一方を実行して変換後文字列を生成してもよく、両方を実行して変換後文字列を生成してもよい。即ち、文字変換部24は、対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行してもよい。
図7は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、情報処理装置10の一例である。コンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示部2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、及び、ハードディスクドライブ2040を有する入出力部と、入出力コントローラ2084に接続されるROM2010、メモリドライブ2050及び入出力チップ2070を有するレガシー入出力部とを備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示部2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用する表示プログラム等のプログラム及びデータを格納する。
また、入出力コントローラ2084には、ROM2010と、メモリドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。メモリドライブ2050は、メモリカード2090から例えば表示プログラム等のプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、メモリドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、メモリカード2090、又はICカード等の記録媒体に格納されて利用者によって提供される。表示プログラム等のプログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を情報処理装置10として機能させるプログラムは、言語処理モジュール、文字変換モジュール、条件生成モジュール、及び、検索モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、言語処理モジュール、文字変換モジュール、条件生成モジュール、及び、検索モジュールとしてそれぞれ機能させる。
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である言語処理モジュール、文字変換モジュール、条件生成モジュール、及び、検索モジュールとして機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の情報処理装置10が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、又はメモリカード2090等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、メモリドライブ2050(メモリカード2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、メモリカード2090の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 情報処理装置
12 制御部
14 表示部
16 入力部
18 記憶部
22 言語処理部
24 文字変換部
26 条件生成部
28 検索部
30 辞書データ
32 テキストコーパス
34 検索条件
40 表示画像
42 テキストコーパス
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 メモリドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示部
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 メモリカード

Claims (12)

  1. テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する情報処理装置であって、
    第1テキストを言語処理により単語に分割する言語処理部と、
    前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換部と、
    前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成部と、
    を備える情報処理装置。
  2. 前記条件生成部は、前記第1テキストにおいて、前記言語処理により分割された単語が前記対象文字列に該当する箇所のうち、前記変換後文字列にマッチする箇所の比率が前記基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する請求項1に記載の情報処理装置。
  3. 前記条件生成部は、前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度を超えることを条件として、前記変換後文字列による制約を含まない前記検索条件を生成する請求項1または2に記載の情報処理装置。
  4. 前記文字変換部は、
    前記言語処理に用いる辞書に登録された単語の中から前記対象文字列を一部に含む単語を検索し、
    検索した当該単語において前記対象文字列の前後の少なくとも一方に位置する少なくとも1文字を前記対象文字列に付加して前記変換後文字列を生成する
    請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記文字変換部は、前記言語処理に用いる辞書における前記対象文字列を一部に含む複数の単語のうち予め定められた基準単語数以上の単語に共通する前記少なくとも1文字を、前記対象文字列に付加して前記変換後文字列を生成する請求項4に記載の情報処理装置。
  6. 前記文字変換部は、
    前記第1テキストと同一または異なる第2テキストにおいて前記対象文字列を検索し、
    検索した前記対象文字列の前後の少なくとも一方に位置する少なくとも1文字を前記対象文字列に付加して前記変換後文字列を生成する
    請求項1からのいずれか一項に記載の情報処理装置。
  7. 前記文字変換部は、前記第2テキスト中の基準数以上の箇所において共通する前記少なくとも1文字を、前記対象文字列に付加して前記変換後文字列を生成する請求項6に記載の情報処理装置。
  8. 前記文字変換部は、活用語の前記対象文字列について複数の活用形に対応する複数の前記少なくとも1文字のそれぞれを付加して複数の前記変換後文字列のそれぞれを生成する請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記条件生成部は、
    前記対象文字列に応じた属性が対応付けられた少なくとも1つの第3テキストに前記変換後文字列がマッチする頻度に基づいて、前記変換後文字列が前記属性を有するか否かを判定し、
    前記変換後文字列が前記属性を有しないことを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する
    請求項1から8のいずれか一項に記載の情報処理装置。
  10. 前記条件生成部は、
    前記第3テキストに前記変換後文字列がマッチする頻度を説明変数として、前記第3テキストが前記対象文字列に応じた属性を有するか否かをロジスティック回帰により学習し、
    前記説明変数が、前記変換後文字列が前記属性を有することに対して負の関係となることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する
    請求項9に記載の情報処理装置。
  11. テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する方法であって、
    第1テキストを言語処理により単語に分割する言語処理段階と、
    前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換段階と、
    前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成段階と、
    を備える方法。
  12. テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する情報処理装置によって実行されるプログラムであって、
    第1テキストを言語処理により単語に分割する言語処理部と、
    前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換部と、
    前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成部と、
    して前記情報処理装置を機能させるプログラム。
JP2014033845A 2014-02-25 2014-02-25 情報処理装置、方法及びプログラム Active JP5930228B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2014033845A JP5930228B2 (ja) 2014-02-25 2014-02-25 情報処理装置、方法及びプログラム
US14/629,589 US9785726B2 (en) 2014-02-25 2015-02-24 Pattern matching based character string retrieval
US15/346,946 US9916397B2 (en) 2014-02-25 2016-11-09 Pattern matching based character string retrieval
US15/715,301 US10007740B2 (en) 2014-02-25 2017-09-26 Pattern matching based character string retrieval
US15/715,330 US9946812B2 (en) 2014-02-25 2017-09-26 Pattern matching based character string retrieval
US15/910,197 US10176274B2 (en) 2014-02-25 2018-03-02 Pattern matching based character string retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014033845A JP5930228B2 (ja) 2014-02-25 2014-02-25 情報処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015158833A JP2015158833A (ja) 2015-09-03
JP5930228B2 true JP5930228B2 (ja) 2016-06-08

Family

ID=53882455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014033845A Active JP5930228B2 (ja) 2014-02-25 2014-02-25 情報処理装置、方法及びプログラム

Country Status (2)

Country Link
US (5) US9785726B2 (ja)
JP (1) JP5930228B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5930228B2 (ja) 2014-02-25 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
JP6797088B2 (ja) * 2017-08-17 2020-12-09 富士フイルム株式会社 学習データ生成支援装置および学習データ生成支援装置の作動方法並びに学習データ生成支援プログラム
US11934779B2 (en) * 2019-05-30 2024-03-19 Sony Group Corporation Information processing device, information processing method, and program
US20230418854A1 (en) * 2022-06-23 2023-12-28 Vertiv It Systems, Inc. System and method for serial-over-ip switch based character string pattern matching and detection
CN115309739B (zh) * 2022-06-28 2023-06-13 北京娜迦信息科技发展有限公司 车载数据检索方法、装置、电子设备、介质和产品

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01214964A (ja) 1988-02-23 1989-08-29 Sharp Corp コレクト機能付欧文作成装置
JP3464055B2 (ja) 1994-09-29 2003-11-05 株式会社リコー キーワード抽出装置
AU3734395A (en) 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
JP3507936B2 (ja) * 1996-12-18 2004-03-15 日本電信電話株式会社 文字列パターン抽出方法及び装置
JPH10334102A (ja) * 1997-06-04 1998-12-18 Oki Electric Ind Co Ltd キーワード抽出装置及び制御プログラムを記録した媒体
US7030863B2 (en) * 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
JP3636941B2 (ja) 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置
CA2362416C (en) * 2000-01-05 2009-08-04 Mitsubishi Denki Kabushiki Kaisha Keyword extracting device
JP4065695B2 (ja) 2001-01-24 2008-03-26 住友電気工業株式会社 文字列類似度算出装置、文字列類似度算出プログラム、それを記録したコンピュータ読み取り可能な記録媒体および文字列類似度算出方法
US7382358B2 (en) * 2003-01-16 2008-06-03 Forword Input, Inc. System and method for continuous stroke word-based text input
JP4739812B2 (ja) * 2005-05-12 2011-08-03 株式会社湯山製作所 病名特定装置
JP2007041683A (ja) 2005-08-01 2007-02-15 Toshiba Corp 系列パターン抽出装置、系列パターン抽出方法、および系列パターン抽出プログラム
US7853578B1 (en) * 2005-12-09 2010-12-14 Marvell International Ltd. High-performance pattern matching
JP4143085B2 (ja) 2005-12-15 2008-09-03 日本電信電話株式会社 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
JP2008095982A (ja) 2006-10-06 2008-04-24 Matsushita Electric Ind Co Ltd 空気清浄システム
JP5437557B2 (ja) * 2006-10-19 2014-03-12 富士通株式会社 検索処理方法及び検索システム
US20100138376A1 (en) * 2007-01-24 2010-06-03 Nicholas John Avis Method and system for searching for patterns in data
US8225203B2 (en) * 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
JP2010177581A (ja) 2009-01-30 2010-08-12 Toyota Motor Corp オーミック電極およびその形成方法
JP5930228B2 (ja) 2014-02-25 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム

Also Published As

Publication number Publication date
US10007740B2 (en) 2018-06-26
US9785726B2 (en) 2017-10-10
US10176274B2 (en) 2019-01-08
US9916397B2 (en) 2018-03-13
US20170053039A1 (en) 2017-02-23
US20180018405A1 (en) 2018-01-18
US20180018406A1 (en) 2018-01-18
US20150242537A1 (en) 2015-08-27
JP2015158833A (ja) 2015-09-03
US20180196888A1 (en) 2018-07-12
US9946812B2 (en) 2018-04-17

Similar Documents

Publication Publication Date Title
JP6044963B2 (ja) 情報処理装置、方法及びプログラム
US8935148B2 (en) Computer-assisted natural language translation
US9916304B2 (en) Method of creating translation corpus
JP5930228B2 (ja) 情報処理装置、方法及びプログラム
US20200342056A1 (en) Method and apparatus for natural language processing of medical text in chinese
JP2010531492A (ja) ワード確率決定
US9330087B2 (en) Word breaker from cross-lingual phrase table
US8442771B2 (en) Methods and apparatus for term normalization
JP2018010514A (ja) 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
US20190303437A1 (en) Status reporting with natural language processing risk assessment
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
US11630824B2 (en) Document search method and document search system
Goldwasser et al. Transliteration as constrained optimization
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
US20150199582A1 (en) Character recognition apparatus and method
JP6832687B2 (ja) トレーサビリティ管理装置、トレーサビリティ管理方法およびトレーサビリティ管理プログラム
JP6880956B2 (ja) 解析プログラム、解析方法および解析装置
US11880511B1 (en) Real-time automatic multilingual input correction
JP6825039B2 (ja) 検索支援装置、検索支援方法およびプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP2018195030A (ja) 解析プログラム、解析方法および解析装置
JP2018147426A (ja) 計算機及び解析データの分類方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151127

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160113

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160419

R150 Certificate of patent or registration of utility model

Ref document number: 5930228

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150