JP5449521B2 - 検索装置及び検索プログラム - Google Patents
検索装置及び検索プログラム Download PDFInfo
- Publication number
- JP5449521B2 JP5449521B2 JP2012501522A JP2012501522A JP5449521B2 JP 5449521 B2 JP5449521 B2 JP 5449521B2 JP 2012501522 A JP2012501522 A JP 2012501522A JP 2012501522 A JP2012501522 A JP 2012501522A JP 5449521 B2 JP5449521 B2 JP 5449521B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- candidate
- unit
- score
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
実施の形態1.
図1に示す検索装置は、検索対象データ10から事前に索引を作成する索引生成部20と、索引を格納しておく索引格納部30と、検索用に入力された入力データ(入力文字列)を索引と照合して類似する候補を取得する検索部40とを備える。索引生成部20の内部構成は図2に示し、検索部40の内部構成は図8に示す。この検索装置は、大量の名称候補から読み文字列に基づく検索を行い、語順の入れ替えや部分的な脱落等を含む部分一致候補の中から妥当性の高い候補を取得するためのものである。
検索部40は候補名称リストを有することとし、この候補名称リストを、部分文字列索引参照部42が索引格納部30から取得した名称データの各種情報を一時的に保持する照合履歴として用いて、候補スコアを算出する。
この候補名称リストは、具体的には、候補となる名称データ(以下、候補名称)の候補名称id(1≦id≦名称IDの最大値)毎に、
score[id];候補スコア、
inpOfs[id];入力文字列における照合中の部分文字列の位置(以下、入力文字列照合位置)、
idxOfs[id];候補名称における照合中の見出しの位置(以下、候補名称照合位置)、
boundary[id];候補名称における前回照合した見出しの終端スコア(以下、直前見出し終端スコア)
を含む。
候補見出しリストは、具体的には、j番目の候補見出しに対応付けられているリストの名称ID、位置、始端スコア、終端スコアを、
Index[i][j].id;名称ID、
Index[i][j].ofs;位置、
Index[i][j].begin;始端スコア、
Index[i][j].end;終端スコア
と表す。
Index[1][1].id=01
Index[1][1].ofs=2
Index[1][1].begin=0
Index[1][1].end=0
となる。
このように、待ち受け想定する言い換え語のパタンを、照合スコアテーブルの配点により制約することができる。
これにより、上記同様、語順の入れ替えを生じる入れ替え語が検索結果に含まれないようにすることができる。
具体的には、
候補スコア;score[id]=score[id]+sc(i,j)、
入力文字列照合位置;inpOfs[id]=i、
候補名称照合位置;idxOfs[id]=Index[i][j].end、
直前見出し終端スコア;boundary[id]=Index[i][j].end
に更新する。
i番目の部分文字列と全ての候補名称とを照合し終えていなければ(j≦IndexNum[i]、ステップST13“YES”)、ステップST7に戻り、残り全ての候補名称に対してステップST7〜ST11の照合処理を実施する。ただし、同一の名称IDが、入力文字列の異なる位置に複数存在する場合、加算後の候補スコアが最大となる位置を優先して選択する。
一方、Inplen個全ての部分文字列の照合処理が終わっていない場合(i≦InpLen−1、ステップST15“YES”)、検索部40はステップST5へ戻って次の部分文字列について照合処理を行う。
Claims (6)
- 入力文字列を構成する部分文字列を抽出する部分文字列分解部と、
予め作成された索引から、名称データ毎に、前記部分文字列に対応する見出しの位置情報及び境界情報を取得する部分文字列索引参照部と、
前記名称データ中の前記部分文字列索引参照部が取得した見出し同士の連続性を前記位置情報に基づいて判定し、連続と判定した見出しに最大の照合スコアを付与し、不連続と判定した見出しには、前記境界情報に基づいて前後の見出しとの接続の妥当性に応じた照合スコアを付与する候補スコア更新部とを備える
ことを特徴とする検索装置。 - 候補スコア更新部は、入力文字列に含まれる任意の部分文字列同士の距離と、当該任意の部分文字列同士に対応する名称データ中の見出し同士の距離がそれぞれ所定距離内の場合に連続と判定することを特徴とする請求項1記載の検索装置。
- 候補スコア更新部は、名称データ中の見出し同士の位置関係に応じて、照合スコアを調整することを特徴とする請求項1記載の検索装置。
- 候補スコア更新部は、名称データに含まれる各見出しの照合スコアを加算して候補スコアを算出し、当該候補スコアが高い順に前記名称データを並べて出力することを特徴とする請求項1記載の検索装置。
- 文字列からなる名称データを、単語単位及び文字単位で分割して部分データにし、当該部分データの始終端を示す境界情報を生成する名称解析部と、
前記名称データを構成する部分文字列を抽出して見出しとし、当該見出し毎に、前記名称データ中の位置情報、及び当該見出しに含まれる前記部分データの境界情報を付与する始終端情報付与部と、
前記始終端情報付与部の出力結果を見出し順に並べた索引を生成する部分文字列索引作成部とを備える
ことを特徴とする請求項1記載の検索装置。 - コンピュータを、
入力文字列を構成する部分文字列を抽出する部分文字列分解手段と、
予め作成された索引から、名称データ毎に、前記部分文字列に対応する見出しの位置情報及び境界情報を取得する部分文字列索引参照手段と、
前記名称データ中の前記部分文字列索引参照手段が取得した見出し同士の連続性を前記位置情報に基づいて判定し、連続と判定した見出しに最大の照合スコアを付与し、不連続と判定した見出しには、前記境界情報に基づいて前後の見出しとの接続の妥当性に応じた照合スコアを付与する候補スコア更新手段として機能させる
ことを特徴とする検索プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/001239 WO2011104754A1 (ja) | 2010-02-24 | 2010-02-24 | 検索装置及び検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011104754A1 JPWO2011104754A1 (ja) | 2013-06-17 |
JP5449521B2 true JP5449521B2 (ja) | 2014-03-19 |
Family
ID=44506204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012501522A Expired - Fee Related JP5449521B2 (ja) | 2010-02-24 | 2010-02-24 | 検索装置及び検索プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8914385B2 (ja) |
JP (1) | JP5449521B2 (ja) |
CN (1) | CN102770863B (ja) |
DE (1) | DE112010005297T5 (ja) |
WO (1) | WO2011104754A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
US9026855B2 (en) * | 2012-07-26 | 2015-05-05 | Nec Laboratories America, Inc. | Fault localization in distributed systems using invariant relationships |
CN103885662A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 辅助语音输入的方法和装置 |
DE112013006764T5 (de) * | 2013-03-04 | 2015-11-19 | Mitsubishi Electric Corporation | Suchvorrichtung |
CN104063389B (zh) * | 2013-03-20 | 2017-10-20 | 阿里巴巴集团控股有限公司 | 一种生成索引信息的方法和设备 |
WO2015025467A1 (ja) * | 2013-08-21 | 2015-02-26 | Necソリューションイノベータ株式会社 | 文字列検索装置、文字列検索方法および文字列検索プログラム |
US9189517B2 (en) * | 2013-10-02 | 2015-11-17 | Microsoft Technology Licensing, Llc | Integrating search with application analysis |
EP2871816B1 (en) | 2013-11-11 | 2016-03-09 | 51 Degrees Mobile Experts Limited | Identifying properties of a communication device |
WO2015107659A1 (ja) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | 検索装置 |
JP6406932B2 (ja) * | 2014-08-29 | 2018-10-17 | 日立オムロンターミナルソリューションズ株式会社 | 帳票認識装置及び方法 |
US9652627B2 (en) * | 2014-10-22 | 2017-05-16 | International Business Machines Corporation | Probabilistic surfacing of potentially sensitive identifiers |
US10353905B2 (en) * | 2015-04-24 | 2019-07-16 | Salesforce.Com, Inc. | Identifying entities in semi-structured content |
CN106909647B (zh) * | 2017-02-21 | 2020-01-03 | 福建榕基软件股份有限公司 | 一种数据检索方法及装置 |
EP3438848B1 (en) | 2017-07-31 | 2019-05-15 | 51 Degrees Mobile Experts Limited | Identifying properties of a communication device |
US10546062B2 (en) * | 2017-11-15 | 2020-01-28 | International Business Machines Corporation | Phonetic patterns for fuzzy matching in natural language processing |
JP6947307B2 (ja) * | 2018-07-25 | 2021-10-13 | 日本電信電話株式会社 | 解析装置、解析方法及び解析プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03194653A (ja) * | 1989-12-25 | 1991-08-26 | Tokai Tv Hoso Kk | 情報検索システムにおける略語検索法 |
JPH0785033A (ja) * | 1993-09-09 | 1995-03-31 | Toshiba Corp | 文書検索装置 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
JP2006172372A (ja) * | 2004-12-20 | 2006-06-29 | Dainippon Printing Co Ltd | 検索装置および方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000339332A (ja) * | 1999-05-28 | 2000-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体 |
JP4342753B2 (ja) * | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
US7296011B2 (en) * | 2003-06-20 | 2007-11-13 | Microsoft Corporation | Efficient fuzzy match for evaluating data records |
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
US7996369B2 (en) * | 2008-11-14 | 2011-08-09 | The Regents Of The University Of California | Method and apparatus for improving performance of approximate string queries using variable length high-quality grams |
-
2010
- 2010-02-24 US US13/579,302 patent/US8914385B2/en not_active Expired - Fee Related
- 2010-02-24 WO PCT/JP2010/001239 patent/WO2011104754A1/ja active Application Filing
- 2010-02-24 CN CN201080064700.7A patent/CN102770863B/zh not_active Expired - Fee Related
- 2010-02-24 JP JP2012501522A patent/JP5449521B2/ja not_active Expired - Fee Related
- 2010-02-24 DE DE112010005297T patent/DE112010005297T5/de not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03194653A (ja) * | 1989-12-25 | 1991-08-26 | Tokai Tv Hoso Kk | 情報検索システムにおける略語検索法 |
JPH0785033A (ja) * | 1993-09-09 | 1995-03-31 | Toshiba Corp | 文書検索装置 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
JP2006172372A (ja) * | 2004-12-20 | 2006-06-29 | Dainippon Printing Co Ltd | 検索装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2011104754A1 (ja) | 2011-09-01 |
US20120317098A1 (en) | 2012-12-13 |
CN102770863B (zh) | 2014-12-17 |
JPWO2011104754A1 (ja) | 2013-06-17 |
US8914385B2 (en) | 2014-12-16 |
CN102770863A (zh) | 2012-11-07 |
DE112010005297T5 (de) | 2013-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5449521B2 (ja) | 検索装置及び検索プログラム | |
JP4694111B2 (ja) | 用例ベースの機械翻訳システム | |
CN109582972B (zh) | 一种基于自然语言识别的光学字符识别纠错方法 | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US20070011132A1 (en) | Named entity translation | |
US20080221863A1 (en) | Search-based word segmentation method and device for language without word boundary tag | |
JP2002215619A (ja) | 翻訳文書からの翻訳文抽出方法 | |
CN1979638A (zh) | 一种语音识别结果纠错方法 | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
JP5308786B2 (ja) | 文書データ検索装置 | |
KR101841824B1 (ko) | 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법 | |
Saharia et al. | Stemming resource-poor Indian languages | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Soo | A non-learning approach to spelling correction in web queries | |
Hakkani-Tür et al. | Morphological disambiguation for Turkish | |
JP5132430B2 (ja) | 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム | |
JP2009020567A (ja) | 文書検索装置 | |
Rani et al. | Post-processing methodology for word level Telugu character recognition systems using Unicode Approximation Models | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム | |
Minghu et al. | Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge | |
JP2002259912A (ja) | オンライン文字列認識装置及びオンライン文字列認識方法 | |
JP2019061297A (ja) | 情報処理装置、プログラム及び検索方法 | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130716 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5449521 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |