CN111737225A - 一种基于分词技术的数据标签数据库建立方法 - Google Patents
一种基于分词技术的数据标签数据库建立方法 Download PDFInfo
- Publication number
- CN111737225A CN111737225A CN202010449996.XA CN202010449996A CN111737225A CN 111737225 A CN111737225 A CN 111737225A CN 202010449996 A CN202010449996 A CN 202010449996A CN 111737225 A CN111737225 A CN 111737225A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- word
- labels
- service
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分词技术的数据标签数据库建立方法,包括以下步骤:(1)根据业务用词库及***分词查询自学习结果创建分词属性标签;(2)构建所有业务类,并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签;(3)构建每个业务类的ADO类,并不断的进行优化维护;(4)获取业务类对应的表或视图名称和字段名称;(5)构建CRUD操作的SQL语句;(6)构建SQL参数对象,调用ADO执行函数。本发明使得数据查询速率快,查询结果准确,可以实现大量业务数据的快速搜索、快速定位和关键词高精度匹配,提高了***搜索查询速率,大大提高了***使用效率。
Description
技术领域
本发明涉及一种基于分词技术的数据标签数据库建立方法,属于计算机大数据技术领域。
背景技术
数据库是一种数据管理程序,用来管理***中的数据,数据库在***研发中扮演着非常重要的角色。随着网络安全的要求不断提高,数据库的地位也在不断的提高。数据库不局限于***架构,不论是BS架构还是CS架构应用程序,数据库管理都可以分为数据处理和数据访问两部分,关键字匹配是数据访问的主要部分。如何高效简便地在应用程序中进行数据库的访问是很多开发人员都在探索的内容,也是目前面临的一大技术难题。
当前大多数业务***所使用的数据库都没有使用分词技术,是根据业务需求来创建,这样创建的数据库能够满足业务的基本需求,但是随着业务的不断丰富,数据库中的表也越来越多,视图也杂乱无章,导致数据查询速率慢,数据查询结果不准确,***使用效率差。
发明内容
本发明所要解决的技术问题在于提供一种基于分词技术的数据标签数据库建立方法,通过该方法建立的数据库能够简单高效的完成***快速搜索查询功能,从而克服上述现有技术的不足。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于分词技术的数据标签数据库建立方法,包括以下步骤,
(1)根据业务用词库及***分词查询自学习结果创建分词属性标签,包括分词类的标签和分词字段的标签,所述的分词类的标签包括数据库表或视图名称,所述的分词字段的标签包括数据库中字段名称和字段类型;
(2)构建所有业务类,并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签;
(3)构建每个业务类的ADO类,并不断的进行优化维护;
(4)通过反射机制获取业务类对应的表或视图名称和字段名称;
(5)根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句;
(6)根据具体业务类的数据信息构建SQL参数对象,调用ADO执行函数,若有异常则将异常信息返回给***处理并关闭数据库连接,否则返回结果。
上述的基于分词技术的数据标签数据库建立方法中,作为一种优选方案,可以通过最短路径分词法、统计分词法及双向最大匹配法进行分词的快速查询定位。
本发明的有益效果:与现有技术相比,本发明通过分词技术中最短路径分词法、统计分词法及双向最大匹配法等技术的使用,使得数据查询速率快,查询结果准确,可以实现大量业务数据的快速搜索、快速定位和关键词高精度匹配,提高了***搜索查询速率,有效的保障了用户在大业务大数据的背景下能够有效的使用***,大大提高了***使用效率。本发明的实用性很突出,解决了当前数据库使用中存在的矛盾,将网页SEO搜索引擎中运用的分词技术运用于数据库建立中,提高了数据查询的速率;使用最短路径分词法、统计分词法及双向最大匹配法等技术提高了数据查询的准确性,保证了***的使用效率。本发明采用的基于分词技术的数据标签数据库为数据库的建立提供了一种新的技术手段。
下面结合具体实施方式对本发明作进一步的说明。
具体实施方式
实施例1:本发明主要解决三个方面的技术难题1.分词技术如何运用,分词技术的核心是什么;2.数据标签如何建立存储;3.业务数据如何快速查询,快速定位数据源。下面将具体描述通过哪些技术解决上述难题。
一、分词技术介绍及运用。
分词技术就是搜索引擎针对用户提交查询的关键词串进行查询处理后,根据用户的关键词串用各种匹配方法进行分词的一种技术。
当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息后做一系列的处理。步骤如下所示:
1.首先到数据库里面索引相关的信息,即查询处理。就是把用户提交的字符串没有超过3个的中文字,直接到数据库索引词汇;超过4个中文字的,首先用分隔符(比如空格,标点符号)将查询串分割成若干子查询串。例如:输入“什么是百度分词技术” ,就会把这个词分割成“什么是,百度,分词技术。”这种分词方法叫做反向匹配法。
2.然后再看用户提供的这个词有没有重复词汇。如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字,如果有的话,就把字母和数字认为一个词。
二、根据业务用词库及***分词查询自学习结果建立***数据标签库并存储。
1.根据业务用词库及***分词查询自学习结果创建分词属性标签,包括分词类的标签和分词字段的标签,分词类的标签包括数据库表或视图名称,分词字段的标签包括数据库中字段名称和字段类型。
2.构建所有业务类,并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签。
3.构建每个业务类的ADO类,并不断的进行优化维护。
4.通过反射机制获取业务类对应的表或视图名称和字段名称。
5.根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句。
6.根据具体业务类的数据信息构建SQL参数对象,调用ADO执行函数,若有异常则将异常信息返回给***处理并关闭数据库连接,否则返回结果。
三、通过最短路径分词法、统计分词法及双向最大匹配法技术进行分词的快速查询定位。
1.最短路径分词法:所谓的最短路径分词法,就是说一段话里面要求切出的词数是最少的。例如:“不知道你在说什么”,最短路径分词法就是指把上面那句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
2.双向最大匹配法:就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,会进行正反向同时进行分词匹配。
3.统计分词法:根据词组的统计,会发现两个相邻的字出现的频率最多,那么这个词就很重要,就可以作为用户提供字符串中的分隔符,这样来分词。
本发明通过多种分词匹配技术的相互结合,并根据用户使用习惯及大量业务数据搜索分词库建立***标签库,标签库具备自学习功能,从而实现了数据库数据的快速查询,快速定位。
本发明的实施方式不限于上述实施例,在不脱离本发明宗旨的前提下做出的各种变化均属于本发明的保护范围之内。
Claims (2)
1.一种基于分词技术的数据标签数据库建立方法,其特征在于:包括以下步骤,
根据业务用词库及***分词查询自学习结果创建分词属性标签,包括分词类的标签和分词字段的标签,所述的分词类的标签包括数据库表或视图名称,所述的分词字段的标签包括数据库中字段名称和字段类型;
构建所有业务类,并对每个业务类分别添加与数据库内容一一对应的分词类的标签和分词字段的标签;
构建每个业务类的ADO类,并不断的进行优化维护;
通过反射机制获取业务类对应的表或视图名称和字段名称;
根据获取到的表或视图名称和字段名称构建CRUD操作的SQL语句;
根据具体业务类的数据信息构建SQL参数对象,调用ADO执行函数,若有异常则将异常信息返回给***处理并关闭数据库连接,否则返回结果。
2.根据权利要求1所述的基于分词技术的数据标签数据库建立方法,其特征在于:通过最短路径分词法、统计分词法及双向最大匹配法进行分词的快速查询定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449996.XA CN111737225A (zh) | 2020-05-25 | 2020-05-25 | 一种基于分词技术的数据标签数据库建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449996.XA CN111737225A (zh) | 2020-05-25 | 2020-05-25 | 一种基于分词技术的数据标签数据库建立方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737225A true CN111737225A (zh) | 2020-10-02 |
Family
ID=72647785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010449996.XA Pending CN111737225A (zh) | 2020-05-25 | 2020-05-25 | 一种基于分词技术的数据标签数据库建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737225A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157978A (zh) * | 2021-01-15 | 2021-07-23 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
CN117331964A (zh) * | 2023-12-01 | 2024-01-02 | 成都明途科技有限公司 | 数据查询方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159920A (zh) * | 2015-07-28 | 2015-12-16 | 卡斯柯信号有限公司 | 一种基于属性标签的数据库访问方法 |
CN106484889A (zh) * | 2016-10-18 | 2017-03-08 | 合信息技术(北京)有限公司 | 网络资源的泛搜索方法和装置 |
CN106934069A (zh) * | 2017-04-24 | 2017-07-07 | 中国工商银行股份有限公司 | 数据检索方法及*** |
-
2020
- 2020-05-25 CN CN202010449996.XA patent/CN111737225A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159920A (zh) * | 2015-07-28 | 2015-12-16 | 卡斯柯信号有限公司 | 一种基于属性标签的数据库访问方法 |
CN106484889A (zh) * | 2016-10-18 | 2017-03-08 | 合信息技术(北京)有限公司 | 网络资源的泛搜索方法和装置 |
CN106934069A (zh) * | 2017-04-24 | 2017-07-07 | 中国工商银行股份有限公司 | 数据检索方法及*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157978A (zh) * | 2021-01-15 | 2021-07-23 | 浪潮云信息技术股份公司 | 数据的标签建立方法和装置 |
CN117331964A (zh) * | 2023-12-01 | 2024-01-02 | 成都明途科技有限公司 | 数据查询方法、装置、设备及存储介质 |
CN117331964B (zh) * | 2023-12-01 | 2024-02-27 | 成都明途科技有限公司 | 数据查询方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sánchez et al. | Content annotation for the semantic web: an automatic web-based approach | |
US20110113048A1 (en) | Enabling Faster Full-Text Searching Using a Structured Data Store | |
CN107992608B (zh) | 一种基于关键字上下文的sparql查询语句自动生成方法 | |
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN106611053A (zh) | 一种数据清理、索引方法 | |
CN102411568A (zh) | 基于旅游业特征词库的中文分词方法 | |
CN111737225A (zh) | 一种基于分词技术的数据标签数据库建立方法 | |
CN114218472A (zh) | 基于知识图谱的智能搜索*** | |
WO2020037794A1 (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
CN109783599A (zh) | 基于多种存储介质的知识图谱检索方法及*** | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及*** | |
CN101888345A (zh) | 一种通过即时通讯工具实现在线用户搜索的方法 | |
Han et al. | Design and implementation of elasticsearch for media data | |
CN113553491A (zh) | 一种基于倒排索引的工业大数据搜索优化方法 | |
CN112183110A (zh) | 一种基于数据中心的人工智能数据应用***及应用方法 | |
Al-Qawasmeh et al. | Arabic named entity disambiguation using linked open data | |
Jin et al. | Tise: A temporal search engine for web contents | |
CN116361416A (zh) | 基于语义分析及高维建模的语音检索方法、***及介质 | |
AU2019101463A4 (en) | Method of searching and mining of social information on Internet based on Elasticsearch | |
GB2520993A (en) | Indexing presentation slides | |
Wang et al. | NALMO: A natural language interface for moving objects databases | |
CN114610842A (zh) | 一种基于意图识别的关联搜索方法及*** | |
CN105868406A (zh) | 基于多数据库的专利检索*** | |
Chen et al. | FAQ system in specific domain based on concept hierarchy and question type |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |