JPWO2007132564A1 - データ処理装置及び方法 - Google Patents
データ処理装置及び方法 Download PDFInfo
- Publication number
- JPWO2007132564A1 JPWO2007132564A1 JP2008515434A JP2008515434A JPWO2007132564A1 JP WO2007132564 A1 JPWO2007132564 A1 JP WO2007132564A1 JP 2008515434 A JP2008515434 A JP 2008515434A JP 2008515434 A JP2008515434 A JP 2008515434A JP WO2007132564 A1 JPWO2007132564 A1 JP WO2007132564A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- distance
- database
- eigenvalue
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (14)
- 対象データがデータベースに格納されているか否かを検索する検索部と、
前記対象データが前記データベースに格納されていなかった場合に、前記対象データに類似する候補データを前記データベースから抽出する抽出部と、を備え、
前記抽出部は、
前記対象データと前記データベースに格納されたデータとの間の距離を算出し、前記距離が所定の上限よりも小さいデータを前記候補データとして抽出する距離算出部と、
前記距離算出部が前記距離を算出する前に、データの構成要素を複数のグループに分類したとき、それぞれのグループに属する構成要素が前記対象データに含まれるか否かを前記グループごとに表した固有数値を算出し、前記対象データの固有数値と前記データベースに格納されているデータの固有数値との間の偽距離を算出し、前記偽距離が前記所定の上限よりも大きいデータを、前記距離算出部が前記距離を算出する対象から除外する固有数値比較部と、
を含むことを特徴とするデータ処理装置。 - 前記固有数値は、前記グループの数と同じ桁数の二進数であり、前記固有数値比較部は、それぞれの前記グループに対してビットを割り当て、グループに属する構成要素がデータに含まれる場合はそのグループに割り当てられたビットを「1」とし、含まれない場合はそのグループに割り当てられたビットを「0」として、前記固有数値を算出することを特徴とする請求項1に記載のデータ処理装置。
- 前記固有数値比較部は、2つの固有数値の間の偽距離を算出するときに、一方の固有数値をビット反転した後に両者の論理積を演算したビット列に含まれる「1」の数と、他方の固有数値をビット反転した後に両者の論理積を演算したビット列に含まれる「1」の数とのうち大きい方を前記偽距離とすることを特徴とする請求項2に記載のデータ処理装置。
- 前記固有数値比較部は、2つの固有数値の間の偽距離を算出するときに、2つの固有数値のビット列のうち「1」が多い方の固有数値をビット反転した後に両者の論理積を演算したビット列に含まれる「1」の数を前記偽距離とすることを特徴とする請求項2に記載のデータ処理装置。
- 前記抽出部は、前記固有数値比較部が前記偽距離を算出する前に、構成要素数の差が前記所定の上限を超えるデータを、前記固有数値比較部が前記偽距離を算出する対象から除外する要素数比較部を更に含むことを特徴とする請求項1から4のいずれかに記載のデータ処理装置。
- 前記抽出部は、前記距離算出部が前記距離を算出する前に、前記対象データに含まれ、かつ、前記データベースに格納されたデータに含まれない構成要素の数と、前記データベースに格納されたデータに含まれ、かつ、前記対象データに含まれない構成要素の数とを算出し、いずれかが前記所定の上限を超えるデータを、前記距離算出部が前記距離を算出する対象から除外する使用要素比較部を更に含むことを特徴とする請求項1から5のいずれかに記載のデータ処理装置。
- 前記データベースは、前記データを、構成要素数ごと、かつ、前記固有数値ごとに分類して格納することを特徴とする請求項1から6のいずれかに記載のデータ処理装置。
- 前記対象データ、前記候補データとして抽出されたデータ、又は前記候補データの中からユーザにより選択されたデータを、同じ固有数値を持つデータ群の中で上位に配置させる学習部を更に備えることを特徴とする請求項7に記載のデータ処理装置。
- 前記対象データ、前記候補データとして抽出されたデータ、又は前記候補データの中からユーザにより選択されたデータと同じ固有数値を持つデータ群を、同じ構成要素数のデータ群の中で上位に配置させる学習部を更に備えることを特徴とする請求項7に記載のデータ処理装置。
- 前記距離算出部は、構成要素の挿入、削除、又は置換によって、一方のデータを他方のデータに変形するのに必要な手順の最小回数を算出して前記距離とすることを特徴とする請求項1から9のいずれかに記載のデータ処理装置。
- データベースに格納するデータ群を取得し、取得したデータ群において、各データを構成する構成要素の使用頻度を算出する使用頻度算出部と、
前記使用頻度に基づいて、前記構成要素を複数のグループに分類する分類生成部と、
各データに対して、前記グループに属する構成要素がデータに含まれるか否かを前記グループごとに表した固有数値を算出する固有数値算出部と、
前記データ群に含まれるデータを、使用している要素数及び前記固有数値で分類して前記データベースに格納するデータソート部と、
を備えることを特徴とするデータ処理装置。 - 前記固有数値は、前記グループの数と同じ桁数の二進数であり、前記固有数値算出部は、それぞれの前記グループに対してビットを割り当て、グループに属する構成要素がデータに含まれる場合はそのグループに割り当てられたビットを「1」とし、含まれない場合はそのグループに割り当てられたビットを「0」として、前記固有数値を算出することを特徴とする請求項11に記載のデータ処理装置。
- 対象データがデータベースに格納されているか否かを検索するステップと、
前記対象データが前記データベースに格納されていなかった場合に、前記対象データに類似する候補データを前記データベースから抽出するステップと、を備え、
前記抽出するステップは、
前記対象データと前記データベースに格納されたデータとの間の距離を算出し、前記距離が所定の上限よりも小さいデータを前記候補データとして抽出するステップと、
前記距離を算出する前に、データの構成要素を複数のグループに分類したとき、それぞれのグループに属する構成要素が前記対象データに含まれるか否かを前記グループごとに表した固有数値を算出し、前記対象データの固有数値と前記データベースに格納されているデータの固有数値との間の偽距離を算出し、前記偽距離が前記所定の上限よりも大きいデータを、前記距離を算出する対象から除外するステップと、
を含むことを特徴とするデータ処理方法。 - 対象データがデータベースに格納されているか否かを検索する機能と、
前記対象データが前記データベースに格納されていなかった場合に、前記対象データに類似する候補データを前記データベースから抽出する機能と、をコンピュータに実現させ、
前記抽出する機能は、
前記対象データと前記データベースに格納されたデータとの間の距離を算出し、前記距離が所定の上限よりも小さいデータを前記候補データとして抽出する機能と、
前記距離を算出する前に、データの構成要素を複数のグループに分類したとき、それぞれのグループに属する構成要素が前記対象データに含まれるか否かを前記グループごとに表した固有数値を算出し、前記対象データの固有数値と前記データベースに格納されているデータの固有数値との間の偽距離を算出し、前記偽距離が前記所定の上限よりも大きいデータを、前記距離を算出する対象から除外する機能と、
を含むことを特徴とするデータ処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008515434A JP5049965B2 (ja) | 2006-05-13 | 2007-05-14 | データ処理装置及び方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006134579 | 2006-05-13 | ||
JP2006134579 | 2006-05-13 | ||
PCT/JP2007/000515 WO2007132564A1 (ja) | 2006-05-13 | 2007-05-14 | データ処理装置及び方法 |
JP2008515434A JP5049965B2 (ja) | 2006-05-13 | 2007-05-14 | データ処理装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007132564A1 true JPWO2007132564A1 (ja) | 2009-09-24 |
JP5049965B2 JP5049965B2 (ja) | 2012-10-17 |
Family
ID=38693665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008515434A Expired - Fee Related JP5049965B2 (ja) | 2006-05-13 | 2007-05-14 | データ処理装置及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5049965B2 (ja) |
WO (1) | WO2007132564A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012104943A1 (ja) * | 2011-02-02 | 2012-08-09 | 日本電気株式会社 | 結合処理装置、データ管理装置及び文字列類似結合システム |
JP5884293B2 (ja) * | 2011-04-28 | 2016-03-15 | 富士通株式会社 | 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置 |
JPWO2013031117A1 (ja) * | 2011-08-26 | 2015-03-23 | 日本電気株式会社 | 結合処理装置、データ管理装置及び文字列類似結合システム |
JP6143606B2 (ja) * | 2013-08-20 | 2017-06-07 | 株式会社日立ソリューションズ東日本 | データ処理装置およびデータ処理方法 |
JP6348787B2 (ja) * | 2014-07-02 | 2018-06-27 | 株式会社日立ソリューションズ東日本 | データ処理装置およびデータ処理方法 |
US11354317B2 (en) * | 2018-05-08 | 2022-06-07 | Nippon Telegraph And Telephone Corporation | Safety assessment apparatus, safety assessment method, and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08235208A (ja) * | 1995-02-28 | 1996-09-13 | Toshiba Corp | データ検索方法 |
JPH10207888A (ja) * | 1997-01-20 | 1998-08-07 | Canon Inc | スペルチェック装置およびスペル修正装置 |
JP4486324B2 (ja) * | 2003-06-19 | 2010-06-23 | ヤフー株式会社 | 類似単語検索装置、この方法、このプログラム、および情報検索システム |
JP2005222244A (ja) * | 2004-02-04 | 2005-08-18 | Language Craft Kenkyusho:Kk | 単語検索装置、単語検索方法、およびその単語検索装置を備える情報提供システム |
JP2005234800A (ja) * | 2004-02-18 | 2005-09-02 | Advanced Telecommunication Research Institute International | 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム |
JP2005352888A (ja) * | 2004-06-11 | 2005-12-22 | Hitachi Ltd | 表記揺れ対応辞書作成システム |
JP2006053866A (ja) * | 2004-08-16 | 2006-02-23 | Advanced Telecommunication Research Institute International | カタカナ文字列の表記ゆれの検出方法 |
-
2007
- 2007-05-14 WO PCT/JP2007/000515 patent/WO2007132564A1/ja active Application Filing
- 2007-05-14 JP JP2008515434A patent/JP5049965B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP5049965B2 (ja) | 2012-10-17 |
WO2007132564A1 (ja) | 2007-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079412A (zh) | 文本纠错方法及装置 | |
JP5049965B2 (ja) | データ処理装置及び方法 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
US11507746B2 (en) | Method and apparatus for generating context information | |
JP2019512127A (ja) | 文字列距離計算方法及び装置 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
Mandal et al. | Clustering-based Bangla spell checker | |
KR101379128B1 (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
CN110837730A (zh) | 一种未知实体词汇的确定方法及装置 | |
CN113076939B (zh) | 语境化字符识别*** | |
US8700997B1 (en) | Method and apparatus for spellchecking source code | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
CN113724779B (zh) | 基于机器学习技术的SNAREs蛋白识别方法、***、存储介质及设备 | |
CN112686045B (zh) | 文本错误检测模型的评测方法及装置 | |
Vesanto | Detecting and analyzing text reuse with BLAST | |
Mohapatra et al. | Spell checker for OCR | |
JP7272846B2 (ja) | 文書分析装置および文書分析方法 | |
CN112257416A (zh) | 一种稽查新词发现方法及*** | |
CN113704384A (zh) | 语音识别生成代码的方法及装置、电子设备、存储介质 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
JP2022091608A (ja) | 情報処理装置、及び情報処理プログラム | |
QasemiZadeh et al. | Adaptive language independent spell checking using intelligent traverse on a tree | |
Nawab et al. | External plagiarism detection using information retrieval and sequence alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120717 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120723 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |