CN111737225A

CN111737225A - 一种基于分词技术的数据标签数据库建立方法

Info

Publication number: CN111737225A
Application number: CN202010449996.XA
Authority: CN
Inventors: 刘南余; 陈寅; 刘启华; 梁礼华; 马旭
Original assignee: Guizhou Huatai Zhiyuan Big Data Service Co ltd
Current assignee: Guizhou Huatai Zhiyuan Big Data Service Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-10-02

Abstract

本发明公开了一种基于分词技术的数据标签数据库建立方法，包括以下步骤：（1）根据业务用词库及***分词查询自学习结果创建分词属性标签；（2）构建所有业务类，并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签；（3）构建每个业务类的ADO类，并不断的进行优化维护；（4）获取业务类对应的表或视图名称和字段名称；（5）构建CRUD操作的SQL语句；（6）构建SQL参数对象，调用ADO执行函数。本发明使得数据查询速率快，查询结果准确，可以实现大量业务数据的快速搜索、快速定位和关键词高精度匹配，提高了***搜索查询速率，大大提高了***使用效率。

Description

一种基于分词技术的数据标签数据库建立方法

技术领域

本发明涉及一种基于分词技术的数据标签数据库建立方法，属于计算机大数据技术领域。

背景技术

数据库是一种数据管理程序，用来管理***中的数据，数据库在***研发中扮演着非常重要的角色。随着网络安全的要求不断提高，数据库的地位也在不断的提高。数据库不局限于***架构，不论是BS架构还是CS架构应用程序，数据库管理都可以分为数据处理和数据访问两部分，关键字匹配是数据访问的主要部分。如何高效简便地在应用程序中进行数据库的访问是很多开发人员都在探索的内容，也是目前面临的一大技术难题。

当前大多数业务***所使用的数据库都没有使用分词技术，是根据业务需求来创建，这样创建的数据库能够满足业务的基本需求，但是随着业务的不断丰富，数据库中的表也越来越多，视图也杂乱无章，导致数据查询速率慢，数据查询结果不准确，***使用效率差。

发明内容

本发明所要解决的技术问题在于提供一种基于分词技术的数据标签数据库建立方法，通过该方法建立的数据库能够简单高效的完成***快速搜索查询功能，从而克服上述现有技术的不足。

为解决上述技术问题，本发明采用的技术方案如下：

一种基于分词技术的数据标签数据库建立方法，包括以下步骤，

（1）根据业务用词库及***分词查询自学习结果创建分词属性标签，包括分词类的标签和分词字段的标签，所述的分词类的标签包括数据库表或视图名称，所述的分词字段的标签包括数据库中字段名称和字段类型；

（2）构建所有业务类，并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签；

（3）构建每个业务类的ADO类，并不断的进行优化维护；

（4）通过反射机制获取业务类对应的表或视图名称和字段名称；

（5）根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句；

（6）根据具体业务类的数据信息构建SQL参数对象，调用ADO执行函数，若有异常则将异常信息返回给***处理并关闭数据库连接，否则返回结果。

上述的基于分词技术的数据标签数据库建立方法中，作为一种优选方案，可以通过最短路径分词法、统计分词法及双向最大匹配法进行分词的快速查询定位。

本发明的有益效果：与现有技术相比，本发明通过分词技术中最短路径分词法、统计分词法及双向最大匹配法等技术的使用，使得数据查询速率快，查询结果准确，可以实现大量业务数据的快速搜索、快速定位和关键词高精度匹配，提高了***搜索查询速率，有效的保障了用户在大业务大数据的背景下能够有效的使用***，大大提高了***使用效率。本发明的实用性很突出，解决了当前数据库使用中存在的矛盾，将网页SEO搜索引擎中运用的分词技术运用于数据库建立中，提高了数据查询的速率；使用最短路径分词法、统计分词法及双向最大匹配法等技术提高了数据查询的准确性，保证了***的使用效率。本发明采用的基于分词技术的数据标签数据库为数据库的建立提供了一种新的技术手段。

下面结合具体实施方式对本发明作进一步的说明。

具体实施方式

实施例1：本发明主要解决三个方面的技术难题1.分词技术如何运用，分词技术的核心是什么；2.数据标签如何建立存储；3.业务数据如何快速查询，快速定位数据源。下面将具体描述通过哪些技术解决上述难题。

一、分词技术介绍及运用。

分词技术就是搜索引擎针对用户提交查询的关键词串进行查询处理后，根据用户的关键词串用各种匹配方法进行分词的一种技术。

当用户向搜索引擎提交查询后，搜索引擎接收到用户的信息后做一系列的处理。步骤如下所示：

1.首先到数据库里面索引相关的信息，即查询处理。就是把用户提交的字符串没有超过3个的中文字，直接到数据库索引词汇；超过4个中文字的，首先用分隔符（比如空格，标点符号）将查询串分割成若干子查询串。例如：输入“什么是百度分词技术” ，就会把这个词分割成“什么是，百度，分词技术。”这种分词方法叫做反向匹配法。

2.然后再看用户提供的这个词有没有重复词汇。如果有的话，会丢弃掉，默认为一个词汇。接下来检查用户提交的字符串，有没有字母和数字，如果有的话，就把字母和数字认为一个词。

二、根据业务用词库及***分词查询自学习结果建立***数据标签库并存储。

1.根据业务用词库及***分词查询自学习结果创建分词属性标签，包括分词类的标签和分词字段的标签，分词类的标签包括数据库表或视图名称，分词字段的标签包括数据库中字段名称和字段类型。

2.构建所有业务类，并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签。

3.构建每个业务类的ADO类，并不断的进行优化维护。

4.通过反射机制获取业务类对应的表或视图名称和字段名称。

5.根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句。

6.根据具体业务类的数据信息构建SQL参数对象，调用ADO执行函数，若有异常则将异常信息返回给***处理并关闭数据库连接，否则返回结果。

三、通过最短路径分词法、统计分词法及双向最大匹配法技术进行分词的快速查询定位。

1.最短路径分词法：所谓的最短路径分词法，就是说一段话里面要求切出的词数是最少的。例如：“不知道你在说什么”，最短路径分词法就是指把上面那句话分成的词要是最少的。“不知道，你在，说什么”，这就是最短路径分词法，分出来就只有3个词了。

2.双向最大匹配法：就是关键词前后组合内容被认为粘性相差不大，而搜索结果中也同时包含这两组词的话，会进行正反向同时进行分词匹配。

3.统计分词法：根据词组的统计，会发现两个相邻的字出现的频率最多，那么这个词就很重要，就可以作为用户提供字符串中的分隔符，这样来分词。

本发明通过多种分词匹配技术的相互结合，并根据用户使用习惯及大量业务数据搜索分词库建立***标签库，标签库具备自学习功能，从而实现了数据库数据的快速查询，快速定位。

本发明的实施方式不限于上述实施例，在不脱离本发明宗旨的前提下做出的各种变化均属于本发明的保护范围之内。

Claims

1.一种基于分词技术的数据标签数据库建立方法，其特征在于：包括以下步骤，

根据业务用词库及***分词查询自学习结果创建分词属性标签，包括分词类的标签和分词字段的标签，所述的分词类的标签包括数据库表或视图名称，所述的分词字段的标签包括数据库中字段名称和字段类型；

构建所有业务类，并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签；

构建每个业务类的ADO类，并不断的进行优化维护；

通过反射机制获取业务类对应的表或视图名称和字段名称；

根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句；

根据具体业务类的数据信息构建SQL参数对象，调用ADO执行函数，若有异常则将异常信息返回给***处理并关闭数据库连接，否则返回结果。

2.根据权利要求1所述的基于分词技术的数据标签数据库建立方法，其特征在于：通过最短路径分词法、统计分词法及双向最大匹配法进行分词的快速查询定位。