JP6374289B2 - 文字列検索装置および方法並びにプログラム - Google Patents

文字列検索装置および方法並びにプログラム Download PDF

Info

Publication number
JP6374289B2
JP6374289B2 JP2014214988A JP2014214988A JP6374289B2 JP 6374289 B2 JP6374289 B2 JP 6374289B2 JP 2014214988 A JP2014214988 A JP 2014214988A JP 2014214988 A JP2014214988 A JP 2014214988A JP 6374289 B2 JP6374289 B2 JP 6374289B2
Authority
JP
Japan
Prior art keywords
search
character string
additional
result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014214988A
Other languages
English (en)
Other versions
JP2016081445A (ja
Inventor
明 日野
明 日野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2014214988A priority Critical patent/JP6374289B2/ja
Publication of JP2016081445A publication Critical patent/JP2016081445A/ja
Application granted granted Critical
Publication of JP6374289B2 publication Critical patent/JP6374289B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索対象の文字列を受け付け、その文字列を用いてデータ記憶部を参照することによって文字列の検索を行う文字列検索装置および方法並びにプログラムに関するものである。
従来、文字列検索が広く一般に利用されている。多く場合、ユーザは検索クエリとして文字列を手動入力し、検索サーバからの回答を得る。その際、検索クエリの文字列は、スペルミス等といった多少のあいまいさは含むが、多量または大きな誤りは含まないことが前提とされている。
上記のような多少のあいまいさについては、たとえば正規化処理や編集距離などを用いた近傍探索によって解消され、適切な検索を行うことができる。なお、正規化処理は、検索クエリを予め定められた統一形式に変換する処理であり、たとえば「行った」から「行く」への変換や「apples」から「apple」への変換といった語尾の変換処理や、「ダイヤモンド」を「ダイアモンド」に変換する表記の揺れを修正する処理や、「Apple」を「apple」に変換する大文字または小文字への統一化処理や、「apple」を「apple」に変換する半角または全角への統一化処理などがある。
また、編集距離などを用いた近傍探索は、編集距離などによって語の類似度を計測し、検索クエリに近い語を含む検索結果を出力する。たとえば、編集距離「1」まで許容すれば、検索クエリから1文字違いの語の集合を得ることができる。
特開2012−133539号公報 特開平10−240870号公報 特開平7−152871号公報
ここで、今後は、上述したような手動入力以外の入力方法(画像または音声)が広がるものと想定されるが、画像に基づくOCR(optical character recognition)の結果や音声認識の結果では、多量でかつ人間が起こしえないような、誤りおよびノイズを含み、有意義な検索結果を得られない恐れがある。特に、広告や包装などでは、特殊な書体、意匠またはロゴを含み、OCRを適切に行うことが難しい。その結果、たとえばノイズを含んだ認識結果をAND検索すれば該当無し、ノイズを含んだ認識結果をOR検索すれば無意味な結果を大量に得ることになる。
上述した正規化処理は、検索クエリに多量でかつ人間が起こしえないような誤りがないことが前提であるため、OCRの結果などを検索に用いたとしても適切な検索を行うことができない。
また、上述した編集距離などを用いた近傍探索は、編集距離に対し、その集合の大きさ(語の数)は指数的に増大し、検索に要する時間も増える。OCRの結果など誤り箇所が限定的と仮定できない場合、単純適用は困難である。
特許文献1においては、ノイズを含むOCRの結果を検索対象として、検索文字列をクラスタリングして特徴ベクトルを算出し、検索対象の特徴ベクトルと照合することによりあいまい検索を実現する方法が提案されている。
しかしながら、特許文献1の方法では、特徴ベクトル生成へのノイズの影響を抑制するために入力文字列および検索文字列以外の情報を必要とするため、ノイズの影響の抑制が難しい。
また、特許文献2においては、OCRの結果の文字列を単語毎に区切り、その単語の出現回数を集計し、その出現回数によって認識結果の妥当性をチェックすることによって単語の認識率を向上させることが開示されているが、大量の単語を含む文書におけるOCRの精度を上げる方法であり、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。また、特許文献3には、2回の異なる文字認識結果を総合して基本ツリー辞書により判定することによりOCRの結果の文字列の文字認識率を向上させることが提案されているが、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。
本発明は、上記の問題に鑑み、OCRの結果などノイズが含まれる文字列に基づく検索において、簡易かつ過不足のない適切な検索を行うことができる文字列検索装置および方法並びにプログラムを提供することを目的とする。
本発明の文字列検索装置は、検索対象の文字列を用いてデータ記憶部を参照して検索を行う検索部と、検索部によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出することを特徴とする。
また、本発明の文字列検索装置においては、評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部をさらに設け、検索部は、追加検索要否判定部において追加検索が必要であると判定された場合には、検索対象の文字列に基づく追加検索を行い、最初の検索の検索結果と追加検索の結果とを合併統合する検索結果統合部をさらに設けることができる。
また、評価部は、検索結果の文字列を分割して部分文字列を生成し、その生成した部分文字列と検索対象の文字列とを照合して評価を行うことができる。
また、評価部は、2種類以上の指標を用いて評価を行うことができる。
また、評価部は、部分文字列が検索対象の文字列の中に含まれる割合および検索対象の文字列の中における部分文字列の出現頻度を上記指標として評価を行うことができる。
また、評価部は、部分文字列の出現頻度が高い検索結果の文字列から順に並べ、検索結果の文字列の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の検索結果の文字列を最初の検索の検索結果から除外することができる。
また、追加検索要否判定部は、部分文字列の出現頻度が最も高い検索結果の文字列を取得し、その取得した文字列の部分文字列が検索対象の文字列の中に含まれる割合が予め設定された閾値より大きい場合には、追加検索は不要と判定し、上記割合が閾値以下である場合には、追加検索が必要であると判定することができる。
また、最初の検索に用いられる検索対象の文字列に基づく検索クエリと追加検索に用いられる検索対象の文字列に基づく検索クエリとは異なっていてもよい。
また、最初の検索に用いられる検索アルゴリズムと追加検索に用いられる検索アルゴリズムとは異なっていてもよい。
また、最初の検索に用いられるデータ記憶部と追加検索に用いられるデータ記憶部とは異なっていてもよい。
また、検索対象の文字列として、OCR(optical character recognition)によって取得された文字列を用いることができる。
本発明の文字列検索方法は、検索対象の文字列を用いて検索を行い、その検索による検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出することを特徴とする。
本発明の文字列検索プログラムは、コンピュータを、検索対象の文字列を用いて検索を行う検索部と、検索部によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出する評価部として機能させることを特徴とする。
本発明の文字列検索装置および方法並びにプログラムによれば、検索対象の文字列を用いて検索を行い、その検索による検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出するようにしたので、ノイズを含む短い文字列による適切な検索を行うことができる。
たとえば、検索結果の文字列の信頼度に基づいて、追加検索が必要か否かを判定し、追加検索が必要であると判定した場合に、検索対象の文字列に基づく追加検索を行うようにした場合には、最初の検索では、冗長な検索結果の発生を抑制する検索を行い、その検索結果を評価して追加検索が必要と判定された場合に、追加検索を行ってより広い検索結果を得ることができ、簡易かつ過不足のない適切な検索を行うことができる。
本発明の文字列検索装置の一実施形態を用いた検索システムの概略構成を示す図 本発明の文字列検索装置の一実施形態を用いた検索システムの作用を説明するためのフローチャート 最初の検索結果の評価方法を説明するためのフローチャート 検索対象の文字列と検索結果の文字列との照合を説明するための図 光電的に読み取られるPTP(Press Through Package)の一例を示す図 図1に示す検索システムを薬剤検査システムに適用した場合における検索結果の表示例を示す図
以下、本発明の文字列検索装置および方法並びにプログラムの一実施形態を用いた検索システムについて、図面を参照しながら詳細に説明する。図1は、本実施形態の検索システムの概略構成を示す図である。
本実施形態の検索システムは、図1に示すように、文字列検索装置1と、OCR(Optical Character Recognition)装置2と、データベース装置3(本発明のデータ記憶部に相当する)と、ディスプレイ4とを備えている。
文字列検索装置1は、コンピュータに対して本発明の文字列検索プログラムの一実施形態がインストールされたものである。
文字列検索装置1は、CPU(Central Processing Unit)(中央処理装置)、半導体メモリおよびハードディスクなどを備えており、ハードディスクに本発明の文字列検索プログラムの一実施形態がインストールされている。そして、この文字列検索プログラムがCPUを有する制御部17によって実行されることによって、図1に示すような文字列受付部10、検索部11、評価部12、追加検索要否判定部13、検索結果統合部14、記憶部15および出力部16が動作する。
文字列受付部10は、検索対象の文字列を受け付けるものである。具体的には、本実施形態の文字列受付部10は、OCR装置2から出力されたOCRの結果である文字列を受け付けるものである。OCR装置2は、文字列を含む読取対象を光電的に読み取った画像データに対して文字認識処理を施し、これにより画像データに含まれる文字列を認識して出力するものである。文字認識処理としては既に公知の処理が施されるが、この文字認識処理の際、文字以外の記号、マークまたは模様などが誤認識され、実際の文字認識処理の結果にはノイズが含まれている。本実施形態では、このような誤認識による雑多なノイズを多量に含む、相当程度長い文字列が文字列受付部10によって受け付けられることを想定している。
検索部11は、文字列受付部10によって受け付けられた文字列が入力され、その文字列を用いてデータベース装置3に記憶されているデータを参照することによって検索を行うものである。本実施形態の検索部11は、文字列受付部10によって受け付けられた文字列、すなわちOCRの結果をそのまま用いるのではなく、この文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータの検索を行う。検索クエリの生成方法としては、たとえば文字列を分割して部分文字列とし、この部分文字列のANDを検索クエリとすることができる。文字列の分割方法としては、たとえばN-Gram分割を用いることができる。なお、検索クエリの生成方法としては、上述したような方法に限らず、その他の公知な方法を用いることができる。
また、検索部11における検索アルゴリズムについては、既に公知の検索アルゴリズムを用いることができる。
評価部12は、検索部11によって最初に検索された検索結果の文字列および文字列受付部10によって受け付けられた検索対象の文字列が入力され、その入力された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価するものである。なお、検索結果の文字列の評価方法については、後述する。
追加検索要否判定部13は、評価部12における検索結果の文字列の評価結果に基づいて、検索対象の文字列の追加検索が必要か否かを判定するものである。この追加検索は、文字列受付部10によって受け付けられた検索対象の文字列に基づく追加の検索である。したがって、最初に行った検索とは異なる検索結果が得られるような検索が行われる。
具体的には、たとえば最初の検索に用いた検索クエリとは異なる検索クエリを用いて検索を行うか、または最初の検索に用いた検索アルゴリズムとは異なる検索アルゴリズムを用いるなどすればよい。最初の検索に用いた検索クエリとは異なる検索クエリとしては、たとえば、最初の検索に用いた検索クエリとは、あいまい度が異なる検索クエリを用いることができる。より具体的には、たとえばOCRの読取対象の文字列が「アシタ」であり、最初の検索に用いた検索クエリが、「アシ AND シタ」である場合、追加検索の検索クエリは、「アシ ORシタ」とすればよい。なお、あいまい度が異なる検索クエリの生成方法としては、これに限らず、その他の公知な手法を用いることができる。
また、最初に行った検索に用いた検索アルゴリズムとは異なる検索アルゴリズムとして、は、たとえば検索履歴を参照するものを用いることができる。
なお、追加検索の要否の判定方法については、後述する。
追加検索要否判定部13における判定結果は検索部11に出力され、検索部11は、追加検索を行う必要があるとの判定結果である場合には上述した追加検索を行い、追加検索を行う必要がないとの判定結果である場合には、上述した追加検索を行うことなく、最初の検索の検索結果を記憶部15に出力して記憶させる。
検索結果統合部14は、検索部11における最初の検索の検索結果と、上述した追加検索の検索結果とを合併統合するものである。上述した追加検索を行うのは、評価部12において最初の検索の検索結果が充分でないと評価された場合であるが、追加検索の検索結果が最初の検索結果よりも良い結果であるとは限らないため、本実施形態においては、最初の検索の検索結果と追加検索の検索結果とを合併統合することによって、最初の検索結果も破棄することなく有効利用する。なお、この合併統合においては、最初の検索の検索結果と追加検索の検索結果とで重複する場合には、その重複は除外する。
記憶部15は、半導体メモリおよびハードディスクなどのストレージデバイスから構成されるものであり、検索部11における最初の検索の検索結果、検索結果統合部14において合併統合された検索結果および評価部12における評価結果などが記憶されるものである。
出力部16は、記憶部15に記憶された最初の検索の検索結果、合併統合された検索結果および評価結果などを読み出してディスプレイ4に出力して表示させるものである。
制御部17は、上述したようにCPUを有するものであり、本実施形態の文字列検索プログラムに基づいて文字列検索装置1全体を制御するものである。
データベース装置3は、検索対象の文字列に関連するデータが記憶されたものである。具体的には、たとえば種々の薬剤名が記憶されている。そして、薬剤名が印字された薬剤の包装を光電的に読み取ってOCR装置2により認識された文字列が検索対象の文字列として用いられ、データベース装置3に記憶された種々の薬剤名との照合および検索が行われる。なお、データベース装置3に記憶されるデータは薬剤名に限らず、用途に応じて種々のデータが記憶される。
次に、本実施形態の検索システムの作用について、図2に示すフローチャートを参照しながら説明する。
まず、文字認識処理によって認識された文字列が検索対象の文字列としてOCR装置2から出力され、文字列受付部10によって受け付けられる(S10)。
文字列受付部10によって受け付けられた検索対象の文字列は検索部11に出力され、検索部11は、入力された検索対象の文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータを参照することによって最初の検索を行う(S12)。
そして、検索部11における最初の検索結果は評価部12に出力され、評価部12は、入力された検索結果の評価を行う。このように検索結果の評価を行うのは、OCRの結果はノイズを含むため、最初の検索で用いた検索クエリも適切でない場合があり、すなわち最初の検索結果も適切でない可能性があるからである。以下、最初の検索結果の評価方法について、図3に示すフローチャートを参照しながら詳細に説明する。また、図4は、最初の検索結果の評価における検索対象の文字列と検索結果の文字列との照合を説明するための図である。
まず、評価部12は、文字列受付部10によって受け付けられた検索対象の文字列、すなわちノイズを含んだ状態のOCRの結果を取得し、かつj=0に設定する(S30)。jは0≦j<Mであり、Mは最初の検索結果の件数である。
次に、評価部12は、最初の検索結果の1つであるS[j](0≦j<M)を取り出し、そのS[j]に対し、正規化処理とN-Gramによる文字列の分割処理を施し、部分文字列を生成する(S32)。この際に生成された部分文字列の数をN、各部分文字列をP[i](0≦i<N)とし、i=0に設定する。また、カウンタrをr=0に設定し、カウンタfをf=0に設定する。
なお、正規化処理は、検索対象の文字列または検索クエリを予め設定された統一形式に揃える処理であり、上述したように、語尾変化を統一された形式に変換したり、表記揺れを修正したり、大文字または小文字への統一化処理、半角または全角への統一化処理などである。
そして、評価部12は、部分文字列P[i]を取り出し(S34)、S30で取得された検索対象の文字列の中にP[i]と一致する部分があるか否かを判定し、一致する部分がある場合には、カウンタrをr=r+1とする(S36)。なお、この判定の際、P[i]に一致する部分だけなく、P[i]に類似する部分文字列群と一致する部分があるか否かを判定するようにしてもよい。具体的には、たとえばOCR装置2において、「シ」と「ツ」の誤認識が生じやすい場合には、「アシ」という部分文字列だけでなく、「アシ」および「アツ」を部分文字列群とし、これらの部分文字列と一致する部分があるか否かを判定するようにすればよい。なお、以下、このような部分文字列群の生成を文字列展開という。
次いで、評価部12は、検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測する(S38)。そして、P[i]と一致する部分の数がcである場合には、f=f+cとする。なお、この際、S36と同様に、文字列展開を行ってもよい。
そして、i=i+1に設定し、i<Nであるか否かを判定し、i<Nである場合には、S34〜S40までの処理を繰り返す(S42,YES)。すなわち、全ての部分文字列P[i]について、検索対象の文字列の中に含まれているか否かを判定してrをカウントし、さらに検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測してfをカウントする。
S42においてi<Nでないと判定された場合にはS44に進み、評価部12は、検索対象の文字列に含まれていた部分文字列の割合を算出する。具体的には、S[j]に関する指標として、R[j]=r/Nを算出し、これを記憶部15に記憶する。
さらに、評価部12は、検索対象の文字列に含まれていた部分文字列の出現頻度を算出する(S46)。具体的には、S[j]に関する指標として、F[j]=f/Nを算出し、これを記憶部15に記憶する。
そして、評価部12は、j=j+1に設定し、j<Mであるか否かを判定し、j<Mである場合には、S32〜S48までの処理を繰り返す(S50,YES)。すなわち、最初の検索結果S[j]の全てについて、評価の指標であるR[j]およびF[j]を算出し、これらを記憶部15に記憶する。なお、本実施形態においては、このR[j]およびF[j]が、本発明における信頼度に相当するものである。
一方、S50においてj<Mでない場合にはS52に進み、評価部12は、最初の検索結果であるS[k](0≦k<M)をF[k]の降順に並べる。すなわち、評価部12は、出現頻度の指標であるF[k]の高い順にS[k]を並べる。そして、評価部12は、たとえば最初の検索結果の数Mが、予め設定された閾値よりも大きい場合には、F[k]の値が相対的に小さい下位の検索結果を検索結果から除外することによって最初の検索結果の絞り込みを行う。なお、除外対象となる検索結果の数は、予めユーザによって設定される。評価部12は、絞り込まれた検索結果を記憶部15に記憶する。
以上が、評価部12における最初の検索の検索結果の評価方法の説明である。
次に、図2に戻り、S14において、上述したように評価部12における最初の検索結果の評価が終了した後、追加検索要否判定部13において、上述した追加検索が必要か否かが判定される(S16)。具体的には、追加検索要否判定部13は、図3に示すS52において、F[k]の高い順に並べられたS[k]のうち、最も高い順位の検索結果の文字列であるS[m]に関するR[m]を記憶部15から読み出し、そのR[m]を予め設定された閾値と比較し、R[m]が閾値よりも大きい場合には、追加検索不要と判定する(S16,NO)。この場合、上述したように最初の検索結果を絞り込んだ検索結果を記憶部15から読み出して出力部16に出力する。なお、このように出現頻度の指標であるF[k]のみによって追加検索の要否を判定するのではなく、部分文字列が存在する割合の指標であるR[m]も考慮して追加検索の要否を判定するには、F[k]のみで判定したのでは、一部の部分文字列の出現頻度だけが高い場合があり得るからである。R[m]も考慮することによって、部分文字列の多くが検索対象の文字列に含まれているかを確認することができる。
一方、追加検索要否判定部13は、R[m]が閾値以下である場合には、追加検索が必要であると判定する(S16,YES)。そして、追加検索要否判定部13において追加検索が必要であると判定された場合には、その旨が検索部11に出力され、検索部11は、上述したような追加検索を行い、その検索結果は記憶部15に記憶される(S18)。
このように2段階で検索を行うことによって、最初の検索では、冗長な検索結果の発生を抑制することができ、追加検索では、より広い検索結果を得ることができる。
そして、追加検索の後、検索結果統合部14は、追加検索の検索結果と絞り込まれた最初の検索結果とを記憶部15から読み出してこれらを合併統合し、その合併統合した検索結果を記憶部15に記憶する(S20)。
次いで、合併統合された検索結果が評価部12によって読み出され、評価部12は、合併統合された検索結果について、上述した最初の検索結果の評価と同様にして、部分文字列を検索対象の文字列とを照合することによって評価を行う。
そして、合併統合された検索結果の各文字列について、たとえばF[j]を算出し、これに基づいて各文字列のスコアリングを行う。
そして、各文字列とそのスコアは記憶部15に記憶された後、出力部16によって読み出され、たとえばスコアが高い順に並べられてディスプレイ4に表示される。この際、合併統合された検索結果の全ての文字列を並べて表示するようにしてもよいし、スコアが最も高い文字列だけを表示させるようにしてもよいし、予め設定された数の上位のスコアの文字列だけを表示させるようにしてもよい。
次に、上記した検索システムを薬剤検査システムに適用した例について説明する。薬剤検査システムは、患者に処方された薬剤が、医師の処方箋にしたがった正しいものであるか否かを検査するシステムである。
具体的には、この薬剤検査システムにおいては、患者に渡される薬剤の包装に印字された薬剤名、製薬会社名および薬剤の量などを含む文字列が光電的に読み取られ、その読み取られた画像データが検索システムのOCR装置2に入力される。薬剤の包装としては、たとえばPTP(Press Through Package)などがある。図5は、光電的に読み取られるPTPの一例を示すものである。図5においては、薬剤名のみが複数個所に印字されているが、実際は、上述したように製薬会社名、薬剤の量またはマークなどが印字されている場合もある。
そして、OCR装置2において、画像データに対して文字認識処理が施され、画像データ内に含まれる文字列が取得される。なお、図5に示すように画像データ内の複数箇所に薬剤名が印字されている場合には、これらの文字列を繋げて1つの文字列として検索を行ってもよいし、個別の文字列として検索を行ってもよい。
そして、その取得された文字列が、文字列検索装置1に入力され、文字列検索装置1は、入力された文字列を用いて上述した検索、評価および追加検索などを行う。この際、データベース装置3には多数の薬剤名のデータが記憶されており、文字列検索装置1は、入力された文字列とデータベース装置3に記憶された多数の薬剤名とを照合することによって検索および追加検索を行う。
そして、文字列検索装置1による検索結果について、上述したようにそれぞれスコアが算出され、たとえば図6に示すようにスコアが高い順に薬剤名が上から表示される。薬剤検査システムに対して医師の処方箋に従った薬剤名を予め設定入力しておき、薬剤検査システムにおいて、設定入力された薬剤名と検索結果の最も高いスコアの薬剤名とを比較することによって患者に渡された薬剤が正しいものか否かを判定する。そして、正しい薬剤である場合には、検査OKの表示が行われ、正しい薬剤でない場合や検索された薬剤がない場合には、目視による確認を促す等の表示が行われる。なお、検索結果の薬剤名の表示と処方箋の薬剤名の表示のみを行い、判定については、ユーザが行うようにしてもよい。
なお、上述したように薬剤検査システムに上記実施形態の検索システムを適用する場合、たとえば追加検索に用いるデータベース装置を、最初の検索に用いたデータベース装置とは異なるデータベース装置としてもよい。具体的には、予め記憶されている薬剤の種類数が異なるデータベース装置を用いてもよい。
また、上記実施形態の検索システムにおいては、文字列受付部10がOCR装置2から出力された文字列を受け付けるようにしたが、OCR装置に限らず、たとえば音声認識処理によって取得された文字列を取得するようにしてもよい。すなわち、OCRや音声認識によって取得された文字列のようにノイズを含むような文字列であれば如何なる文字列でもよく、このような文字列の場合に、本発明の効果が顕著に表れる。もちろん、文字列受付部10によってノイズを含まない文字列を受け付けてもよい。
また、上記実施形態の検索システムの説明では、追加検索を一回行うようにしたが、合併統合した検索結果の評価結果に基づいて、追加検索を2回以上行うようにしてもよい。
1 文字列検索装置
2 OCR装置
3 データベース装置
4 ディスプレイ
10 文字列受付部
11 検索部
12 評価部
13 追加検索要否判定部
14 検索結果統合部
15 記憶部
16 出力部
17 制御部

Claims (12)

  1. 検索対象の文字列を用いてデータ記憶部を参照して検索を行う検索部と、
    該検索部によって検索された検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出する評価部と
    前記評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部とを備え、
    前記検索部が、前記追加検索要否判定部において前記追加検索が必要であると判定された場合には、前記検索対象の文字列に基づく前記追加検索を行い、
    最初の前記検索の検索結果と前記追加検索の結果とを合併統合する検索結果統合部をさらに備えた文字列検索装置。
  2. 前記評価部が、前記検索結果の文字列を分割して部分文字列を生成し、該生成した部分文字列と前記検索対象の文字列とを照合して前記評価を行う請求項1に記載の文字列検索装置。
  3. 前記評価部が、2種類以上の指標を用いて前記評価を行う請求項2に記載の文字列検索装置。
  4. 前記評価部が、前記部分文字列が前記検索対象の文字列の中に含まれる割合および前記検索対象の文字列の中における前記部分文字列の出現頻度を前記指標として前記評価を行う請求項3に記載の文字列検索装置。
  5. 前記評価部が、前記部分文字列の出現頻度が高い前記検索結果の文字列から順に並べ、前記検索結果の文字列の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の前記検索結果の文字列を最初の前記検索の検索結果から除外する請求項4に記載の文字列検索装置。
  6. 前記追加検索要否判定部が、前記部分文字列の出現頻度が最も高い前記検索結果の文字列を取得し、該取得した文字列の前記部分文字列が前記検索対象の文字列の中に含まれる割合が予め設定された閾値より大きい場合には、前記追加検索は不要と判定し、前記割合が閾値以下である場合には、前記追加検索が必要であると判定する請求項5に記載の文字列検索装置。
  7. 最初の前記検索に用いられる前記検索対象の文字列に基づく検索クエリと前記追加検索に用いられる前記検索対象の文字列に基づく検索クエリとが異なる請求項1からいずれか1項記載の文字列検索装置。
  8. 最初の前記検索に用いられる検索アルゴリズムと前記追加検索に用いられる検索アルゴリズムとが異なる請求項1からいずれか1項記載の文字列検索装置。
  9. 最初の前記検索に用いられるデータ記憶部と前記追加検索に用いられるデータ記憶部とが異なる請求項1からいずれか1項記載の文字列検索装置。
  10. 前記検索対象の文字列が、OCR(optical character recognition)によって取得されたものである請求項1からいずれか1項記載の文字列検索装置。
  11. 文字列検索装置が、
    検索対象の文字列を用いて検索を行い、
    該検索による検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出し、
    前記算出された信頼度に基づいて、追加検索が必要か否かを判定して、前記追加検索が必要であると判定された場合には、前記検索対象の文字列に基づく前記追加検索を行い、
    最初の前記検索の検索結果と前記追加検索の結果とを合併統合する文字列検索方法。
  12. コンピュータを、
    検索対象の文字列を用いて検索を行う検索部と、
    該検索部によって検索された検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出する評価部と
    前記評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部として機能させる文字列検索プログラムであって、
    前記検索部が、前記追加検索要否判定部において前記追加検索が必要であると判定された場合には、前記検索対象の文字列に基づく前記追加検索を行い、
    最初の前記検索の検索結果と前記追加検索の結果とを合併統合する検索結果統合部としてさらに機能させることを特徴とする文字列検索プログラム。
JP2014214988A 2014-10-22 2014-10-22 文字列検索装置および方法並びにプログラム Active JP6374289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014214988A JP6374289B2 (ja) 2014-10-22 2014-10-22 文字列検索装置および方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014214988A JP6374289B2 (ja) 2014-10-22 2014-10-22 文字列検索装置および方法並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018135921A Division JP6608119B2 (ja) 2018-07-19 2018-07-19 薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラム

Publications (2)

Publication Number Publication Date
JP2016081445A JP2016081445A (ja) 2016-05-16
JP6374289B2 true JP6374289B2 (ja) 2018-08-15

Family

ID=55958872

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014214988A Active JP6374289B2 (ja) 2014-10-22 2014-10-22 文字列検索装置および方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP6374289B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7017027B2 (ja) 2017-03-17 2022-02-08 富士フイルムビジネスイノベーション株式会社 検索装置、検索プログラム、および検索システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099566A (ja) * 2000-09-26 2002-04-05 Toshiba Corp 情報検索方法および情報検索装置
JP2003044515A (ja) * 2001-08-01 2003-02-14 Aisin Aw Co Ltd 検索装置及び検索プログラム

Also Published As

Publication number Publication date
JP2016081445A (ja) 2016-05-16

Similar Documents

Publication Publication Date Title
CN106844368B (zh) 用于人机对话的方法、神经网络***和用户设备
US10146859B2 (en) System and method for entity recognition and linking
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
US9230009B2 (en) Routing of questions to appropriately trained question and answer system pipelines using clustering
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US20190361961A1 (en) Fact validation in document editors
KR20210158344A (ko) 디지털 어시스턴트를 위한 머신 러닝 시스템
US10642928B2 (en) Annotation collision detection in a question and answer system
KR20160060821A (ko) 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US11397855B2 (en) Data standardization rules generation
US8402042B2 (en) Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema
Li et al. Dimsim: An accurate chinese phonetic similarity algorithm based on learned high dimensional encoding
Czyżewski et al. Analysis of results of large‐scale multimodal biometric identity verification experiment
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP2011018155A (ja) 幼児語彙発達データベース作成方法、幼児語彙発達データベース作成装置、幼児語彙発達データベース作成プログラム
JP6608119B2 (ja) 薬剤名出力装置および薬剤名出力方法並びに薬剤名出力プログラム
JP6374289B2 (ja) 文字列検索装置および方法並びにプログラム
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
CN116741333A (zh) 一种医药营销管理***
Gonzales Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Efremova et al. Towards population reconstruction: extraction of family relationships from historical documents
Steinmetz et al. COALA-A Rule-Based Approach to Answer Type Prediction.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170307

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170908

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180719

R150 Certificate of patent or registration of utility model

Ref document number: 6374289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250