JP5930228B2 - 情報処理装置、方法及びプログラム - Google Patents
情報処理装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5930228B2 JP5930228B2 JP2014033845A JP2014033845A JP5930228B2 JP 5930228 B2 JP5930228 B2 JP 5930228B2 JP 2014033845 A JP2014033845 A JP 2014033845A JP 2014033845 A JP2014033845 A JP 2014033845A JP 5930228 B2 JP5930228 B2 JP 5930228B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- text
- condition
- converted
- target character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2207/00—Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F2207/02—Indexing scheme relating to groups G06F7/02 - G06F7/026
- G06F2207/025—String search, i.e. pattern matching, e.g. find identical word or best match in a string
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
特許文献1 WO01/050343号公報
特許文献2 特開平10−334102号公報
特許文献3 特開平10−177581号公報
特許文献4 特開2007−41683号公報
Th≧#(Ra ∩ Rx)/#Rx ・・・(1)
図3にハッチングで示す(Ra ∩ Rx)は、集合Raと、集合Rxとが重なる領域である。尚、#は、集合内の文字列または単語の個数を示す。
検索条件 : (がん)^(誘発性|検診) ・・・(2)
^:後に続く括弧内に含まれる文字にマッチしない。
|:「または」を意味する。上記の例では、「誘発性」または「検診」を意味する。
従って、式(2)の検索条件34は、「がん」を含む文字列のうち、「がん誘発性」及び「がん検診」を除外することを示す。これにより、条件生成部26は、対象文字列にマッチし、かつ、式(1)の条件を満たす変換後文字列にマッチしない旨の検索条件34を生成する。条件生成部26は、生成した検索条件34を記憶部18に記憶させる。
Th<#(Ra ∩ Rx)/#Rx ・・・(3)
条件生成部26は、式(3)を満たすことを条件として、当該変換後文字列による制約を含まない検索条件34を生成してもよい。上述した実施形態では、対象文字列「がん」に対して、変換後文字列「誘発性がん」が式(3)を満たすので、条件生成部26は、当該変換後文字列「誘発性がん」による制約を含まない、即ち、変換後文字列「誘発性がん」を除外しない検索条件34を生成する。
Th<#(Ra−Rx)/#Rx ・・・(4)
換言すれば、条件生成部26は、第1テキストにおいて、変換後文字列にマッチし、かつ言語処理により分割された単語のうち対象文字列に該当しない箇所が基準頻度Thを超えることを条件としてもよい。この場合、条件生成部26は、対象文字列にマッチし、かつ、式(4)の条件を満たす変換後文字列にマッチしない旨の検索条件34を生成する。
上述の実施形態では、文字変換部24が辞書データ30またはテキストコーパス32に基づいて、検索候補を抽出していたが、検索候補はこの例に限られない。例えば、文字変換部24は、検索候補として、カタカナの任意の一文字を含む文字セットから抽出してもよい。また、文字変換部24は、漢数字等の文字列パターンから検索候補を抽出してもよい。
12 制御部
14 表示部
16 入力部
18 記憶部
22 言語処理部
24 文字変換部
26 条件生成部
28 検索部
30 辞書データ
32 テキストコーパス
34 検索条件
40 表示画像
42 テキストコーパス
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 メモリドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示部
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 メモリカード
Claims (12)
- テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する情報処理装置であって、
第1テキストを言語処理により単語に分割する言語処理部と、
前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換部と、
前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成部と、
を備える情報処理装置。 - 前記条件生成部は、前記第1テキストにおいて、前記言語処理により分割された単語が前記対象文字列に該当する箇所のうち、前記変換後文字列にマッチする箇所の比率が前記基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する請求項1に記載の情報処理装置。
- 前記条件生成部は、前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度を超えることを条件として、前記変換後文字列による制約を含まない前記検索条件を生成する請求項1または2に記載の情報処理装置。
- 前記文字変換部は、
前記言語処理に用いる辞書に登録された単語の中から前記対象文字列を一部に含む単語を検索し、
検索した当該単語において前記対象文字列の前後の少なくとも一方に位置する少なくとも1文字を前記対象文字列に付加して前記変換後文字列を生成する
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記文字変換部は、前記言語処理に用いる辞書における前記対象文字列を一部に含む複数の単語のうち予め定められた基準単語数以上の単語に共通する前記少なくとも1文字を、前記対象文字列に付加して前記変換後文字列を生成する請求項4に記載の情報処理装置。
- 前記文字変換部は、
前記第1テキストと同一または異なる第2テキストにおいて前記対象文字列を検索し、
検索した前記対象文字列の前後の少なくとも一方に位置する少なくとも1文字を前記対象文字列に付加して前記変換後文字列を生成する
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記文字変換部は、前記第2テキスト中の基準数以上の箇所において共通する前記少なくとも1文字を、前記対象文字列に付加して前記変換後文字列を生成する請求項6に記載の情報処理装置。
- 前記文字変換部は、活用語の前記対象文字列について複数の活用形に対応する複数の前記少なくとも1文字のそれぞれを付加して複数の前記変換後文字列のそれぞれを生成する請求項1から7のいずれか一項に記載の情報処理装置。
- 前記条件生成部は、
前記対象文字列に応じた属性が対応付けられた少なくとも1つの第3テキストに前記変換後文字列がマッチする頻度に基づいて、前記変換後文字列が前記属性を有するか否かを判定し、
前記変換後文字列が前記属性を有しないことを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する
請求項1から8のいずれか一項に記載の情報処理装置。 - 前記条件生成部は、
前記第3テキストに前記変換後文字列がマッチする頻度を説明変数として、前記第3テキストが前記対象文字列に応じた属性を有するか否かをロジスティック回帰により学習し、
前記説明変数が、前記変換後文字列が前記属性を有することに対して負の関係となることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する
請求項9に記載の情報処理装置。 - テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する方法であって、
第1テキストを言語処理により単語に分割する言語処理段階と、
前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換段階と、
前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成段階と、
を備える方法。 - テキストから対象文字列をパターンマッチングにより検索するための検索条件を生成する情報処理装置によって実行されるプログラムであって、
第1テキストを言語処理により単語に分割する言語処理部と、
前記対象文字列の前後の少なくとも一方に少なくとも1文字を付加、及び、前記対象文字列の少なくとも1文字を置換の少なくとも一方を実行して変換後文字列を生成する文字変換部と、
前記第1テキストにおいて、前記変換後文字列にマッチし、かつ前記言語処理により分割された単語が前記対象文字列に該当する箇所が基準頻度以下であることを条件として、前記対象文字列にマッチし、かつ前記変換後文字列にマッチしない旨の前記検索条件を生成する条件生成部と、
して前記情報処理装置を機能させるプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033845A JP5930228B2 (ja) | 2014-02-25 | 2014-02-25 | 情報処理装置、方法及びプログラム |
US14/629,589 US9785726B2 (en) | 2014-02-25 | 2015-02-24 | Pattern matching based character string retrieval |
US15/346,946 US9916397B2 (en) | 2014-02-25 | 2016-11-09 | Pattern matching based character string retrieval |
US15/715,301 US10007740B2 (en) | 2014-02-25 | 2017-09-26 | Pattern matching based character string retrieval |
US15/715,330 US9946812B2 (en) | 2014-02-25 | 2017-09-26 | Pattern matching based character string retrieval |
US15/910,197 US10176274B2 (en) | 2014-02-25 | 2018-03-02 | Pattern matching based character string retrieval |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014033845A JP5930228B2 (ja) | 2014-02-25 | 2014-02-25 | 情報処理装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015158833A JP2015158833A (ja) | 2015-09-03 |
JP5930228B2 true JP5930228B2 (ja) | 2016-06-08 |
Family
ID=53882455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014033845A Active JP5930228B2 (ja) | 2014-02-25 | 2014-02-25 | 情報処理装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (5) | US9785726B2 (ja) |
JP (1) | JP5930228B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5930228B2 (ja) | 2014-02-25 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
JP6797088B2 (ja) * | 2017-08-17 | 2020-12-09 | 富士フイルム株式会社 | 学習データ生成支援装置および学習データ生成支援装置の作動方法並びに学習データ生成支援プログラム |
US11934779B2 (en) * | 2019-05-30 | 2024-03-19 | Sony Group Corporation | Information processing device, information processing method, and program |
US20230418854A1 (en) * | 2022-06-23 | 2023-12-28 | Vertiv It Systems, Inc. | System and method for serial-over-ip switch based character string pattern matching and detection |
CN115309739B (zh) * | 2022-06-28 | 2023-06-13 | 北京娜迦信息科技发展有限公司 | 车载数据检索方法、装置、电子设备、介质和产品 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01214964A (ja) | 1988-02-23 | 1989-08-29 | Sharp Corp | コレクト機能付欧文作成装置 |
JP3464055B2 (ja) | 1994-09-29 | 2003-11-05 | 株式会社リコー | キーワード抽出装置 |
AU3734395A (en) | 1994-10-03 | 1996-04-26 | Helfgott & Karas, P.C. | A database accessing system |
JP3507936B2 (ja) * | 1996-12-18 | 2004-03-15 | 日本電信電話株式会社 | 文字列パターン抽出方法及び装置 |
JPH10334102A (ja) * | 1997-06-04 | 1998-12-18 | Oki Electric Ind Co Ltd | キーワード抽出装置及び制御プログラムを記録した媒体 |
US7030863B2 (en) * | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
JP3636941B2 (ja) | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
CA2362416C (en) * | 2000-01-05 | 2009-08-04 | Mitsubishi Denki Kabushiki Kaisha | Keyword extracting device |
JP4065695B2 (ja) | 2001-01-24 | 2008-03-26 | 住友電気工業株式会社 | 文字列類似度算出装置、文字列類似度算出プログラム、それを記録したコンピュータ読み取り可能な記録媒体および文字列類似度算出方法 |
US7382358B2 (en) * | 2003-01-16 | 2008-06-03 | Forword Input, Inc. | System and method for continuous stroke word-based text input |
JP4739812B2 (ja) * | 2005-05-12 | 2011-08-03 | 株式会社湯山製作所 | 病名特定装置 |
JP2007041683A (ja) | 2005-08-01 | 2007-02-15 | Toshiba Corp | 系列パターン抽出装置、系列パターン抽出方法、および系列パターン抽出プログラム |
US7853578B1 (en) * | 2005-12-09 | 2010-12-14 | Marvell International Ltd. | High-performance pattern matching |
JP4143085B2 (ja) | 2005-12-15 | 2008-09-03 | 日本電信電話株式会社 | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
US7636703B2 (en) * | 2006-05-02 | 2009-12-22 | Exegy Incorporated | Method and apparatus for approximate pattern matching |
JP2008095982A (ja) | 2006-10-06 | 2008-04-24 | Matsushita Electric Ind Co Ltd | 空気清浄システム |
JP5437557B2 (ja) * | 2006-10-19 | 2014-03-12 | 富士通株式会社 | 検索処理方法及び検索システム |
US20100138376A1 (en) * | 2007-01-24 | 2010-06-03 | Nicholas John Avis | Method and system for searching for patterns in data |
US8225203B2 (en) * | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
JP2010177581A (ja) | 2009-01-30 | 2010-08-12 | Toyota Motor Corp | オーミック電極およびその形成方法 |
JP5930228B2 (ja) | 2014-02-25 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
-
2014
- 2014-02-25 JP JP2014033845A patent/JP5930228B2/ja active Active
-
2015
- 2015-02-24 US US14/629,589 patent/US9785726B2/en active Active
-
2016
- 2016-11-09 US US15/346,946 patent/US9916397B2/en active Active
-
2017
- 2017-09-26 US US15/715,330 patent/US9946812B2/en active Active
- 2017-09-26 US US15/715,301 patent/US10007740B2/en active Active
-
2018
- 2018-03-02 US US15/910,197 patent/US10176274B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US10007740B2 (en) | 2018-06-26 |
US9785726B2 (en) | 2017-10-10 |
US10176274B2 (en) | 2019-01-08 |
US9916397B2 (en) | 2018-03-13 |
US20170053039A1 (en) | 2017-02-23 |
US20180018405A1 (en) | 2018-01-18 |
US20180018406A1 (en) | 2018-01-18 |
US20150242537A1 (en) | 2015-08-27 |
JP2015158833A (ja) | 2015-09-03 |
US20180196888A1 (en) | 2018-07-12 |
US9946812B2 (en) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6044963B2 (ja) | 情報処理装置、方法及びプログラム | |
US8935148B2 (en) | Computer-assisted natural language translation | |
US9916304B2 (en) | Method of creating translation corpus | |
JP5930228B2 (ja) | 情報処理装置、方法及びプログラム | |
US20200342056A1 (en) | Method and apparatus for natural language processing of medical text in chinese | |
JP2010531492A (ja) | ワード確率決定 | |
US9330087B2 (en) | Word breaker from cross-lingual phrase table | |
US8442771B2 (en) | Methods and apparatus for term normalization | |
JP2018010514A (ja) | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
US11630824B2 (en) | Document search method and document search system | |
Goldwasser et al. | Transliteration as constrained optimization | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
US20150199582A1 (en) | Character recognition apparatus and method | |
JP6832687B2 (ja) | トレーサビリティ管理装置、トレーサビリティ管理方法およびトレーサビリティ管理プログラム | |
JP6880956B2 (ja) | 解析プログラム、解析方法および解析装置 | |
US11880511B1 (en) | Real-time automatic multilingual input correction | |
JP6825039B2 (ja) | 検索支援装置、検索支援方法およびプログラム | |
JP5998779B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP2018195030A (ja) | 解析プログラム、解析方法および解析装置 | |
JP2018147426A (ja) | 計算機及び解析データの分類方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151127 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160113 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160329 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20160330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5930228 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |