CN104317937A

CN104317937A - 一种基于Oracle数据库的海量中文数据查询方法及***

Info

Publication number: CN104317937A
Application number: CN201410602655.6A
Authority: CN
Inventors: 姜连海
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-01-28

Abstract

本发明涉及一种基于Oracle数据库的海量中文数据查询方法及***，所述方法包括：步骤1，在Oracle数据库层创建基于中文字段的文本索引；步骤2，创建两个Job，一个Job用于给Oracle数据库中的新增数据添加文本索引，另一个Job用于优化Oracle数据库中所有数据的文本索引；步骤3，在Oracle数据库层执行两个job；步骤4，根据创建的文本索引，采用SQL语句在Oracle数据库中进行中文字段查询。本发明在中文字段上建立文本索引，然后建立job定时地去给新增的数据建立索引和优化已经建立的索引，效率高，易于维护，适合大数据的查询。

Description

一种基于Oracle数据库的海量中文数据查询方法及***

技术领域

本发明涉及IT行业浏览器和数据库大数据量查询交互领域，特别是涉及一种基于Oracle数据库的海量中文数据查询方法及***。

背景技术

在很多的***中，经常会遇到对中文字符的模糊查询，比如：关于***的地址管理，数据量大概是上千万的地址数据，然后我们经常会根据名称来检索这些中文数据，传统的模糊查询采用的是:like"％xxxx％"这种方式来查询，这种方式会进行全表的扫描检索，在数据量比较小的***中能够基本满足用户的需求，遇到上百万、甚至上千万的数据的时候，这种方式基本就做废了，查询速度非常地慢。因此，本发明提出了一种适合大数据查询的海量中文数据查询方法及***。

发明内容

本发明所要解决的技术问题是提供一种基于Oracle数据库的海量中文数据查询方法及***，用于解决数据量大的中文数据查询方法及***。

本发明解决上述技术问题的技术方案如下：一种基于Oracle数据库的海量中文数据查询方法，包括：

步骤1，在Oracle数据库层创建基于中文字段的文本索引；

步骤2，创建两个Job，一个Job用于给Oracle数据库中的新增数据添加文本索引，另一个Job用于优化Oracle数据库中所有数据的文本索引；

步骤3，在Oracle数据库层执行两个job；

步骤4，基于经两个Job处理后的文本索引，采用SQL语句在Oracle数据库中进行中文字段查询。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1具体包括：

步骤11，删除Oracle数据库层中原有的词法分析器，并基于中文字段新建词法分析器；

步骤12，删除Oracle数据库层中原有的非索引字表类，并基于中文字段新建非索引字表类；

步骤13，基于新建的非索引字表类创建非索引字表，该非索引字表中定义了所有不适用于进行数据查询的词语；

步骤14，在Oracle数据库中，对非索引字表中定义的词语以外的所有中文字段创建文本索引。

进一步，还包括对创建的文本索引进行校验。

进一步，所述对创建的文本索引进行校验包括：若能成功调用SQL语句中的contains命令进行查询，则表明文本索引创建成功。

进一步，所述步骤2中，采用PLSQL工具创建job。

进一步，所述步骤2还包括：在创建Job时，设置Job执行的时间间隔。

本发明的技术方案还包括一种基于Oracle数据库的海量中文数据查询***，包括：

索引创建模块，其用于在Oracle数据库层创建基于中文字段的文本索引；

Job创建模块，其用于创建两个Job，一个Job用于给Oracle数据库中的新增数据添加文本索引，另一个Job用于优化Oracle数据库中所有数据的文本索引；

Job执行模块，其用于在Oracle数据库层执行两个job；

查询模块，其用于基于经两个Job处理后的文本索引，采用SQL语句在Oracle数据库中进行中文字段查询。

进一步，所述索引创建模块包括：

词法分析器处理模块，其用于删除Oracle数据库层中原有的词法分析器，并基于中文字段新建词法分析器；

非索引字表类处理模块，其用于删除Oracle数据库层中原有的非索引字表类，并基于中文字段新建非索引字表类；

非索引字表创建模块，其用于基于新建的非索引字表类创建非索引字表，该非索引字表中定义了所有不适用于进行数据查询的词语；

文本索引建立模块，其用于在Oracle数据库中，对非索引字表中定义的词语以外的所有中文字段创建文本索引。

进一步，还包括校验模块，其用于对创建的文本索引进行校验。

进一步，所述非索引字表类处理模块采用PLSQL工具创建job。

本发明的有益效果是：本发明在中文字段上建立文本索引，然后建立job定时地去给新增的数据建立索引和优化已经建立的数据的索引，这种方式效率高，且维护起来也很容易，适合大数据的查询。通过这种技术可以改善现在***中模糊查询存在的查询慢问题，有利于提高***的整体性能。

附图说明

图1为本发明所述基于Oracle数据库的海量中文数据查询方法的流程示意图；

图2为本发明本发明所述基于Oracle数据库的海量中文数据查询***的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本实施例给出了一种基于Oracle数据库的海量中文数据查询方法，包括：

步骤1，在Oracle数据库层创建基于中文字段的文本索引；

步骤3，在Oracle数据库层执行两个job；

步骤4，基于经两个Job处理后的文本索引，采用SQL语句在Oracle数据库中进行中文字段查询。本实施例中所述步骤1具体包括：

此外，还需要对创建的文本索引进行校验，具体方法为：若能调用SQL语句中的contains命令进行查询，则表明文本索引创建成功。

本实施例采用PLSQL工具创建job，且设置Job执行的时间间隔，比如可以设置用于给Oracle数据库中的新增数据添加文本索引的Job每15分钟执行一次，设置用于优化Oracle数据库中所有数据的文本索引的Job每天执行一次。

对应地，本实施例还给出了一种基于Oracle数据库的海量中文数据查询***，如图2所示，包括：

Job执行模块，其用于在Oracle数据库层执行两个job；

此外，还包括校验模块，其用于对创建的文本索引进行校验。

本实施例中，所述索引创建模块包括：

采用本实施例的海量中文数据查询***及方法，进行数据查询的具体实施过程如下：

1、删除原有词法分析器，若没有词法分析器会报错，则可以忽略。实现的程序如下：

BEGIN

ctx_ddl.drop_preference('CHINA_LEXER')；

END；

2、创建词法分析器，新建的词法分析器用来智能提取分段器中的纯文本，并将其拆分为不连续的标记，实际作用就是解析文本并标记，为后续的检索提供前提条件。实现程序如下。

3、删除原有非索引字表类，如果没有非索引字表类会报错，可以忽略，实现程序如下：

BEGIN

ctx_ddl.drop_preference('CC_STOPLIST')；

END；

4、创建非索引字表类

5、创建非索引字表

非索引字表也称为停用词，在Oracle数据库中，全文索引允许用户建立停用词，来屏蔽那些包含信息量比较小且出现概率比较高的词语。

比如英文中的a、this、are、the等词语，几乎每篇文章中都会包含这些常用词，因此对这些词语进行索引的意义不大。本实施例列举了如下的停用词：

6、用CTXSYS/CTXSYS用户登录数据库

给dbcustadm赋权限,如果没有CTXSYS用户,可以先直接执行登录，如果登录没有执行成功，就需要SPD解决CTXSYS***用户问题。

GRANT EXECUTE ON ctx_ddl TO dbcustadm；

7、创建索引，实现的程序如下。

CREATE INDEX dbcustadm.addrmsgindex ONdbcustadm.danalogmsgadd(addr_msg)INDEXTYPE IS CTXSYS.CONTEXT

PARAMETERS('MEMORY 50M LEXER dbcustadm.CHINA_LEXERSTOPLIST dbcustadm.CC_STOPLIST')；

8、验证索引是否创建成功

能够用contains查询,就说明创建成功了，举例如下：

SELECT*FROM danalogmsgadd WHERE contains(addr_msg,'31栋1单元')>0；

SELECT*FROM danalogmsgadd WHERE contains(addr_msg,'31栋1单元and 1室')>0；

9:在PLSQL工具下，创建两个job,创建job的内容如下:

--job1-每15分钟给Oracle数据库中的新增数据添加文本索引

what:ctx_ddl.sync_index('dbcustadm.addrmsgindex')；

next date:sysdate

interval:SYSDATE+(1/24/4)

--job2-每天进行一次索引优化

what:CTX_DDL.OPTIMIZE_INDEX('dbcustadm.addrmsgindex','full')；

next date:sysdate

interval:SYSDATE+1

10、job执行检查:

select*from all_jobs；

创建的job会在这里展示出来,资源的应该也有job；

last_date：会记录下次job的运行时间,job1应该是每15分钟执行一次,job2是每天执行一次；

total_time:会记录job的运行次数,执行后数量递加。

总地来说，本实施例在数据库层根据技术方案中所介绍的方式建立需要使用到的索引，然后再维护索引的job，最后通过应用程序中使用模糊的SQL语句中采用contains(addr_msg,'xxxx')>0进行查询。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Oracle数据库的海量中文数据查询方法，其特征在于，包括：

步骤1，在Oracle数据库层创建基于中文字段的文本索引；

步骤3，在Oracle数据库层执行两个Job；

2.根据权利要求1所述的海量中文数据查询方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1或2所述的海量中文数据查询方法，其特征在于，还包括对创建的文本索引进行校验。

4.根据权利要求3所述的海量中文数据查询方法，其特征在于，所述对创建的文本索引进行校验包括：若能成功调用SQL语句中的contains命令进行查询，则表明文本索引创建成功。

5.根据权利要求1所述的海量中文数据查询方法，其特征在于，所述步骤2中，采用PLSQL工具创建job。

6.根据权利要求1所述的海量中文数据查询方法，其特征在于，所述步骤2还包括：在创建Job时，设置Job执行的时间间隔。

7.一种基于Oracle数据库的海量中文数据查询***，其特征在于，包括：

Job执行模块，其用于在Oracle数据库层执行两个job；

8.根据权利要求7所述的海量中文数据查询***，其特征在于，所述索引创建模块包括：

9.根据权利要求7或8所述的海量中文数据查询***，其特征在于，还包括校验模块，其用于对创建的文本索引进行校验。

10.根据权利要求7所述的海量中文数据查询***，其特征在于，所述非索引字表类处理模块采用PLSQL工具创建job。