CN117669513B - 一种基于人工智能的数据管理***及方法 - Google Patents

一种基于人工智能的数据管理***及方法 Download PDF

Info

Publication number
CN117669513B
CN117669513B CN202410123909.XA CN202410123909A CN117669513B CN 117669513 B CN117669513 B CN 117669513B CN 202410123909 A CN202410123909 A CN 202410123909A CN 117669513 B CN117669513 B CN 117669513B
Authority
CN
China
Prior art keywords
morpheme
target
data
unit
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410123909.XA
Other languages
English (en)
Other versions
CN117669513A (zh
Inventor
徐步海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Huiji Information Technology Co ltd
Jiangsu Guzhuo Technology Co ltd
Original Assignee
Yancheng Huiji Information Technology Co ltd
Jiangsu Guzhuo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Huiji Information Technology Co ltd, Jiangsu Guzhuo Technology Co ltd filed Critical Yancheng Huiji Information Technology Co ltd
Priority to CN202410123909.XA priority Critical patent/CN117669513B/zh
Publication of CN117669513A publication Critical patent/CN117669513A/zh
Application granted granted Critical
Publication of CN117669513B publication Critical patent/CN117669513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于人工智能的数据管理***及方法,涉及数据管理技术领域,对文本中的关键词进行识别,获取目标关键词各个特征信息类别的历史记录,对历史记录的数据构成数据组进行标记,获取历史记录中数据组的边界,获取异常数据组的判定规则,获取目标文本中的目标关键词信息,将包含不同特征信息类别的目标关键词进行数据组合,在目标文本中对异常数据组对应的目标关键词进行标记,获取目标关键词标记位置的段落,从段落中提取语素信息,对描述不同对象的同一目标关键词进行区分,通过区别特征构成特征模板,将异常数据组对应目标关键词进行区分,将描述不同对象的同一关键词的特征信息进行区分管理。

Description

一种基于人工智能的数据管理***及方法
技术领域
本发明涉及数据管理技术领域,具体为一种基于人工智能的数据管理***及方法。
背景技术
数据管理是对数据进行有效的收集、存储、处理和应用的过程,随着计算机技术和互联网发展,存储数据信息的媒介从传统的纸制媒介转变为电子媒介。电子媒介如计算机或数据处理软件在对规范格式的数据,例如数据库中的数据,在处理准确度上优势显著,但对于非规范数据,例如在文本或文档中提取关键词及相关特征信息时的准确度会大大下降。
现有技术中对文本中信息的提取主要是基于对文本中关键词的识别,进一步对关键词对应的信息进行提取,但是,自然语言中同一关键词可能对应不同的表述对象,尤其是涉及某领域的专有词或缩略语时,如果仅仅是通过现有技术对关键词进行识别,然后做信息提取的方法,会造成获取到的数据混乱的问题。
发明内容
本发明的目的在于提供一种基于人工智能的数据管理***及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的数据管理***及方法。
步骤S100:对文本中的关键词进行识别,获取文本中关键词对应特征信息的数据,根据特征信息的特征信息类别进行管理,任意选择一个关键词作为目标关键词,获取目标关键词各个特征信息类别的历史记录,对历史记录的数据构成数据组进行标记,获取历史记录中数据组的边界,获取异常数据组的判定规则;
步骤S200:将待检测的文本设置为目标文本,获取目标文本中的目标关键词信息,将包含不同特征信息类别的目标关键词进行数据组合,得到第一检测组,提取第一检测组中的异常数据组,在目标文本中对异常数据组对应的目标关键词进行标记;
步骤S300:获取目标关键词标记位置的段落,从段落中提取语素信息,通过计算同种语素在对应段落中的分布情况,对描述不同对象的同一目标关键词进行区分;
步骤S400:对描述不同对象的同一目标关键词区别的特征进行提取,通过提取出的特征构成特征模板,当异常数据组的特征与特征模板比对成功后,将异常数据组对应目标关键词进行区分,将描述不同对象的同一关键词的特征信息进行区分管理。
进一步的,步骤S100包括:
步骤S101:获取目标关键词与各个特征信息的类别的对应关系,获取各个特征信息的历史数据;
步骤S102:在目标关键词的同一条历史记录中,将各特征信息类别对应的数据成一个历史数据组,将特征信息的每一个特征信息类别作为一个维度,汇集所有历史数据组,在数据空间中对历史数据组的位置进行标记;
步骤S103:在数据空间中,获取所有历史数据组的边界,根据边界制定判定规则,将在边界以里的数据组判定为正常数据组,将在边界以外的数据组判定为异常数据组。
进一步的,步骤S200包括:
步骤S201:对目标文本中的目标关键词及目标关键词对应的特征信息进行获取,将每次获取到的目标关键词与对应的特征信息组成一个待检测组;
步骤S202:将至少两个特征信息种类不同的待检测组通过特征信息种类对应数据互补的方式组成第一检测组,在数据空间中标记第一检测组对应的位置,通过判定规则进行判断,当第一检测组为异常数据组时,提取组成第一检测组的各个待检测组;
互补是指将从不同位置提出的待检测组互相进行匹配,获取一个待检测组中获取缺少的特征信息种类,通过另一个待检测组中的特征信息种类对应的信息,对所述一个待检测组中的数据进行补充,这两个待检测组就构成一个互补的关系。
步骤S203:获取各个待检测组对应的目标关键词在目标文本中的位置,对目标关键词所在位置的文本内容进行获取。
通过特征信息种类对应数据互补的方式,将不同种类的特征信息进行组合,判断组合后的信息是否符合历史规律,从而对可能存在描述不同对象的特征关键词进初步筛查;
进一步的,步骤S300包括:
步骤S301:将每个目标关键词的语素信息根据在目标文本中的顺序组成语素序列并根据语素序列的顺序给各个语素的位置进行标号,其中,每个目标关键词对应的语素序列中的语素数量一致;
语素指语言中最小的音义结合体,本方案中需要重点提取文本中的最小的语义单位,其中,语义包括词汇意义和语法意义。语素相对于词、词组等高级的音义结合单位而言,构成单位更小,为了避免词或词组通过组合构成语义的过程中产生不同的语义,所以将语义的最小单位作为描述目标关键词的提取目标;
步骤S302:对语素进行分类,将语素序列M中的语素分为公有类m1和私有类m2,其中m1中的语素在除M之外的至少一个语素序列中也存在,m2中的语素仅存在与M中,除M之外的语素序列中不包括m2中的语素,在各个语素序列中,将语素与语素所在的语素类别进行对应,将待检测组的语素类别中的公有类设置为目标语素类别,在各个语素序列中对目标语素类别进行标记;
步骤S303:将各个语素序列进行按照各个语素序列中第1个位置的语素进行对齐,组成第二检测组,获取第二检测组中,相同位置上是目标语素类别的语素的数量,通过计算目标语素在语素序列中的分布得到语素评价系数γ;
通过对目标关键词所在段落的语素,构成一个语素列,将少两个语素序列进行对齐,提取两个语素序列中相同位置是同一语素的数量,在语素序列中,语素的总数量为一个定值时,这个数量越大说明,两个目标关键词描述的对象趋于一致。语素的语义表示出目标关键词所在段落内容描述的侧重点,顺序表示处描述过程中的语言习惯和逻辑结构,通过比较语素种类的差别和相同语素在段落中位置的对应关系,得到段落中描述内容和描述方式的差别,进一步区目标关键词的描述对象是否一致;
步骤S304:设置判定阈值γ0,当γ>γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象存在差异,当γ≤γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象不存在差异。
进一步的,步骤S400包括:
步骤S401:获取满足γ>γ0条件的第二检测组,提取出所述第二检测组中同一个位置序号上不同语素序列中的语素,获取出位置序号与所述语素的语素类别的特征关系;
步骤S402:将若干特征关系根据位置序号的顺序进行排列,组成特征模板;
步骤S403:当步骤S200中再次检测到异常数据组时,优先通过特征模板进行比对,当比对成功后判定为目标关键词存在差异,当匹配失败后,进入步骤S300,获取特征模板。
通过步骤S300中的比较方法,进一步得到在目标关键词描述的对象存在差异时语素的分布特征和语素间的相对位置关系,语素的分布表示处在文本描述过程中内容的差异,相对位置关系可以表示在文本描述内容中表述内容习惯或表述方式的差异,提取出差异的特征,在未来的检测过程中一旦检测到两组目标关键词在表述过程中差异的特征,就可以绕过步骤S300中的排列与计算的过程,快速判断出两个目标关键词描述的对象不同。
为了更好的实现上述方法,还提出一种基于人工智能的数据管理方法的数据管理***;
***包括:
规则管理模块、第一检测模块、第二检测模块和模板管理模块,其中,规则管理模块用于获取历史记录中数据组的边界,获取异常数据组的判定规则,第一检测模块用于构建第一检测组并判断异常数据组,对异常数据组进行管理,第二检测模块用于对关键词描述对象的差异进行检测,模板管理模块用于对特征模板进行管理。
进一步的,规则管理模块包括:历史记录管理单元、数据标记单元和规则获取单元,其中,历史记录管理单元用于管理特征信息的历史记录,数据标记单元用于在数据空间中对历史数据组的位置进行标记,规则获取单元用于管理异常数据组的判定规则。
进一步的,第一检测模块包括:关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元,其中,关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组,信息组合单元用于构建第一检测组,异常检测组判断单元用于判断第一检测组中的异常数据组,关键词内容管理单元用于获取目标关键词所在位置的文本内容。
进一步的,第二检测模块包括:语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元,其中,语素提取单元用于提取关键词所在段落的语素,语素分类单元用于对语素进行分类,语素评价系数计算单元用于计算语素评价系数,关键词差异判断单元用于判断关键词描述的对象是否存在差异。
进一步的,模板管理模块包括:特征关系获取单元、特征模板构建单元和特征比对单元,其中,特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系,特征模板构建单元用于构建特征模板,特征比对单元用于异常数据组的特征进行比对。
与现有技术相比,本发明所达到的有益效果是:本发明首先通过历史数据构建关键词的历史数据空间,将关键词的不同特征进行组合,发现异常的特征组合,进一步根据关键词所在段落的描述内容对同一关键词的不同描述对象进行区分;第一步是对关键词的定位与筛选,为了提高数据筛选速度,将特征信息类别的数据进行互补,判断构成的数据组是否符合历史规律;第二步是在第一步的基础上对描述内容进行精确区分,以弥补第一步中数据组合和数据匹配过程中造成的误差,通过第二步进一步构建特征模板用于快速对异常数据组的快速比对。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明专利一种基于人工智能的数据管理***的结构示意图;
图2是本发明专利一种基于人工智能的数据管理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本案中涉及名词解释如下:
语素:是指语言中最小的音义结合体。也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素,尤其是“最小”和“有义”。最小,是指单位的大小,是相对于词、词组等高级的音义结合单位而言;有义,是指语素的意义内容(符号的所指方面),包括词汇意义或语法意义。语法意义一般也称语法功能。有音,是指语素的语音形式(也即符号的能指方面)。
信息熵:描述信息源各可能事件发生的不确定性,信息中排除了冗余后的平均信息量称为“信息熵”,信息熵的计算公式为,其中,pi表示在总共n个符号中的第i种符号出现的概率,a通常取2,使得计算结果的单位为比特(bit)。
互信息:一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
请参阅图1和图2,本发明提供技术方案:
方法包括:
步骤S100:对文本中的关键词进行识别,获取文本中关键词对应特征信息的数据,根据特征信息的特征信息类别进行管理,任意选择一个关键词作为目标关键词,获取目标关键词各个特征信息类别的历史记录,对历史记录的数据构成数据组进行标记,获取历史记录中数据组的边界,获取异常数据组的判定规则;
其中,步骤S100包括:
步骤S101:获取目标关键词与各个特征信息的类别的对应关系,获取各个特征信息的历史数据;
步骤S102:在目标关键词的同一条历史记录中,将各特征信息类别对应的数据成一个历史数据组,将特征信息的每一个特征信息类别作为一个维度,汇集所有历史数据组,在数据空间中对历史数据组的位置进行标记;
步骤S103:在数据空间中,获取所有历史数据组的边界,根据边界制定判定规则,将在边界以里的数据组判定为正常数据组,将在边界以外的数据组判定为异常数据组。
步骤S200:将待检测的文本设置为目标文本,获取目标文本中的目标关键词信息,将包含不同特征信息类别的目标关键词进行数据组合,得到第一检测组,提取第一检测组中的异常数据组,在目标文本中对异常数据组对应的目标关键词进行标记;
其中,步骤S200包括:
步骤S201:对目标文本中的目标关键词及目标关键词对应的特征信息进行获取,将每次获取到的目标关键词与对应的特征信息组成一个待检测组;
步骤S202:将至少两个特征信息种类不同的待检测组通过特征信息种类对应数据互补的方式组成第一检测组,在数据空间中标记第一检测组对应的位置,通过判定规则进行判断,当第一检测组为异常数据组时,提取组成第一检测组的各个待检测组;
步骤S203:获取各个待检测组对应的目标关键词在目标文本中的位置,对目标关键词所在位置的文本内容进行获取。
例如:需要子在目标文本中提取目标关键词Q的4个特征信息种类的信息,分别为(category1、category2、category3、category4);
从目标文本中提取到目标关键词Q1,Q1的特征信息对应的种类为(category1 1、category1 3),其中,Q1与Q在文字表示相同,category1 1与category1是同一特征信息种类,用上标表示出category1 1从Q1的特征信息中提取,category1 3与category3是同一特征信息种类,用上标表示出category1 3从Q1的特征信息中提取;
从目标文本中提取到目标关键词Q2,Q2的特征信息对应的种类为(category2 2、category2 4),其中,Q2与Q在文字表示相同,category1 1与category1是同一特征信息种类,用上标表示出category1 1从Q2的特征信息中提取,category2 2与category3是同一特征信息种类,用上标表示出category2 4从Q2的特征信息中提取;
将Q1与Q2进行互补得到Q*(category1 1、category2 2、category1 3、category2 4);
在数据空间中,将Q*与目标关键词Q的历史记录中(category1、category2、category3、category4)构成的区域进行比对,当Q*在Q外时,判定Q*为异常数据组,对Q1和Q2所在位置的文本内容进行获取分别进行提取。
步骤S300:获取目标关键词标记位置的段落,从段落中提取语素信息,通过计算同种语素在对应段落中的分布情况,对描述不同对象的同一目标关键词进行区分;
在提取文本信息中的关键词时,不可避免地会遇到多义词,例如“高铁”一词,既可以表示铁含量高的意思,也可以表示高速铁路***,在一些语义环境中也可是人物的姓名;所以需要根据不同的语境对“高铁”一词的具体描述对象进行区分,才能对从文本中提取出有关“高铁”一词的内容进行分类;
其中,步骤S300包括:
步骤S301:将每个目标关键词的语素信息根据在目标文本中的顺序组成语素序列并根据语素序列的顺序给各个语素的位置进行标号,其中,每个目标关键词对应的语素序列中的语素数量一致;
步骤S302:对语素进行分类,将语素序列M中的语素分为公有类m1和私有类m2,其中m1中的语素在除M之外的至少一个语素序列中也存在,m2中的语素仅存在与M中,除M之外的语素序列中不包括m2中的语素,在各个语素序列中,将语素与语素所在的语素类别进行对应,将待检测组的语素类别中的公有类设置为目标语素类别,在各个语素序列中对目标语素类别进行标记;
步骤S303:将各个语素序列进行按照各个语素序列中第1个位置的语素进行对齐,组成第二检测组,获取第二检测组中,相同位置上是目标语素类别的语素的数量,通过计算目标语素在语素序列中的分布得到语素评价系数γ;
步骤S304:设置判定阈值γ0,当γ>γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象存在差异,当γ≤γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象不存在差异。
在一个实施例中:一个语素序列A{a1、a2、a3、a4、a5、a6、a7、a8},和另一个语素序列B{ b1、b2、b3、b4、b5、b6、b7、b8},将语素分为三类,第一类语素为A中存在B中也存在的语素,第二类语素为A中存在且B中不存在的语素,第三类语素为B中存在且A中不存在的语素,用“1”表示第一类语素,“2”表示第二类语素,“3”表示第三类语素,将A和B分别改写为:A{1、1、2、1、1、2},B{3、1、1、3、3、1、3、1},将改写后的A和B对齐后,从前到后给各个语素依次标上序号,位置序号2和位置序号6处,是都为“1”;
为了精确描述语素序列中的语素分别,在实施过程中可以进一步通过计算互信息的方式对语素序列中的语素分别进行描述,方法如下:
在A中出现“1”的概率记为p{a=1},A中出现“2”的概率记为p{a=2},其中,p{a=1}=5/8和p{a=2}=3/8,A的信息熵为:
在B中出现“1”的概率记为p{b=1},B中出现“3”的概率记为p{b=2},其中,p{b=1}=1/2和p{b=2}=1/2,B的信息熵为:
对齐后计算联合分布,将同一位置序号的语素作为一组,p{a=1,b=1}=1/4,p{a=1,b=3}=3/8,p{a=2,b=1}=1/4,p{a=2,b=3}=1/8,计算联合熵H(A,B):
互信息I(A;B)= H(A)+ H(B)- H(A,B)= 0.1525;
将互信息的计算结果作为语素评价系数γ,γ1= I(A;B);
获取一个B2作为B的对照组,对B2的语素进行分类,分类方法与A和B的分类方式相同,B2{1、1、3、3、1、1、3、3};
B2相较于B,在各个语素种类的数量上没有区别,语素的分布更接近于A,所以B2与B相比更接近于A;
根据上述方法,计算齐后计算联合分布,p{a=1,b=1}=1/2,p{a=1,b=3}=1/8,p{a=2,b=1}=0,p{a=2,b=3}=3/8,计算联合熵H(A,B2),H(A,B2)=0.4215;
互信息I(A;B2)= H(A)+ H(B2)- H(A,B2)= 0.1615,γ2= I(A;B);
γ2>γ1,说明B2相较于B更加接近于A;
综合上述方法,通过互信息计算可进一步分析语素在对应段落中的分布情况。
步骤S400:对描述不同对象的同一目标关键词区别的特征进行提取,通过提取出的特征构成特征模板,当异常数据组的特征与特征模板比对成功后,将异常数据组对应目标关键词进行区分,将描述不同对象的同一关键词的特征信息进行区分管理;
其中,步骤S400包括:
步骤S401:获取满足γ>γ0条件的第二检测组,提取出所述第二检测组中同一个位置序号上不同语素序列中的语素,获取出位置序号与所述语素的语素类别的特征关系;
步骤S402:将若干特征关系根据位置序号的顺序进行排列,组成特征模板;
步骤S403:当步骤S200中再次检测到异常数据组时,优先通过特征模板进行比对,当比对成功后判定为目标关键词存在差异,当匹配失败后,进入步骤S300,获取特征模板。
***包括:
规则管理模块、第一检测模块、第二检测模块和模板管理模块;
其中,规则管理模块用于获取历史记录中数据组的边界,获取异常数据组的判定规则,其中,规则管理模块包括:历史记录管理单元、数据标记单元和规则获取单元,其中,历史记录管理单元用于管理特征信息的历史记录,数据标记单元用于在数据空间中对历史数据组的位置进行标记,规则获取单元用于管理异常数据组的判定规则。
其中,第一检测模块用于构建第一检测组并判断异常数据组,对异常数据组进行管理,其中,第一检测模块包括:关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元,其中,关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组,信息组合单元用于构建第一检测组,异常检测组判断单元用于判断第一检测组中的异常数据组,关键词内容管理单元用于获取目标关键词所在位置的文本内容。
其中,第二检测模块用于对关键词描述对象的差异进行检测,其中,第二检测模块包括:语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元,其中,语素提取单元用于提取关键词所在段落的语素,语素分类单元用于对语素进行分类,语素评价系数计算单元用于计算语素评价系数,关键词差异判断单元用于判断关键词描述的对象是否存在差异。
其中,模板管理模块用于对特征模板进行管理,其中,模板管理模块包括:特征关系获取单元、特征模板构建单元和特征比对单元,其中,特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系,特征模板构建单元用于构建特征模板,特征比对单元用于异常数据组的特征进行比对。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于人工智能的数据管理方法,其特征在于,所述方法包括以下步骤:
步骤S100:对文本中的关键词进行识别,获取文本中关键词对应特征信息的数据,根据特征信息的特征信息类别进行管理,任意选择一个关键词作为目标关键词,获取目标关键词各个特征信息类别的历史记录,对历史记录的数据构成数据组进行标记,获取历史记录中数据组的边界,获取异常数据组的判定规则;
步骤S100包括:
步骤S101:获取目标关键词与各个特征信息的类别的对应关系,获取各个特征信息的历史数据;
步骤S102:在目标关键词的同一条历史记录中,将各特征信息类别对应的数据成一个历史数据组,将特征信息的每一个特征信息类别作为一个维度,汇集所有历史数据组,在数据空间中对历史数据组的位置进行标记;
步骤S103:在数据空间中,获取所有历史数据组的边界,根据边界制定判定规则,将在边界以里的数据组判定为正常数据组,将在边界以外的数据组判定为异常数据组;
步骤S200:将待检测的文本设置为目标文本,获取目标文本中的目标关键词信息,将包含不同特征信息类别的目标关键词进行数据组合,得到第一检测组,提取第一检测组中的异常数据组,在目标文本中对异常数据组对应的目标关键词进行标记;
步骤S200包括:
步骤S201:对目标文本中的目标关键词及目标关键词对应的特征信息进行获取,将每次获取到的目标关键词与对应的特征信息组成一个待检测组;
步骤S202:将至少两个特征信息种类不同的待检测组通过特征信息种类对应数据互补的方式组成第一检测组,在数据空间中标记第一检测组对应的位置,通过判定规则进行判断,当第一检测组为异常数据组时,提取组成第一检测组的各个待检测组;
步骤S203:获取各个待检测组对应的目标关键词在目标文本中的位置,对目标关键词所在位置的文本内容进行获取;
步骤S300:获取目标关键词标记位置的段落,从段落中提取语素信息,通过计算同种语素在对应段落中的分布情况,对描述不同对象的同一目标关键词进行区分;
步骤S400:对描述不同对象的同一目标关键词区别的特征进行提取,通过提取出的特征构成特征模板,当异常数据组的特征与特征模板比对成功后,将异常数据组对应目标关键词进行区分,将描述不同对象的同一关键词的特征信息进行区分管理。
2.根据权利要求1所述的一种基于人工智能的数据管理方法,其特征在于:步骤S300包括:
步骤S301:将每个目标关键词的语素信息根据在目标文本中的顺序组成语素序列并根据语素序列的顺序给各个语素的位置进行标号,其中,每个目标关键词对应的语素序列中的语素数量一致;
步骤S302:对语素进行分类,将语素序列M中的语素分为公有类m1和私有类m2,其中m1中的语素在除M之外的至少一个语素序列中也存在,m2中的语素仅存在与M中,除M之外的语素序列中不包括m2中的语素,在各个语素序列中,将语素与语素所在的语素类别进行对应,将待检测组的语素类别中的公有类设置为目标语素类别,在各个语素序列中对目标语素类别进行标记;
步骤S303:将各个语素序列进行按照各个语素序列中第1个位置的语素进行对齐,组成第二检测组,获取第二检测组中,相同位置上是目标语素类别的语素的数量,通过计算目标语素在语素序列中的分布得到语素评价系数γ;
步骤S304:设置判定阈值γ0,当γ>γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象存在差异,当γ≤γ0时,判定第二检测组中的语素序列对应目标关键词描述的对象不存在差异。
3.根据权利要求2所述的一种基于人工智能的数据管理方法,其特征在于:步骤S400包括:
步骤S401:获取满足γ>γ0条件的第二检测组,提取出所述第二检测组中同一个位置序号上不同语素序列中的语素,获取出位置序号与所述语素的语素类别的特征关系;
步骤S402:将若干特征关系根据位置序号的顺序进行排列,组成特征模板;
步骤S403:当步骤S200中再次检测到异常数据组时,优先通过特征模板进行比对,当比对成功后判定为目标关键词存在差异,当匹配失败后,进入步骤S300,获取特征模板。
4.一种用于权利要求1-3中任意一项所述的基于人工智能的数据管理方法的数据管理***,其特征在于:所述***包括以下模块:规则管理模块、第一检测模块、第二检测模块和模板管理模块,其中,规则管理模块用于获取历史记录中数据组的边界,获取异常数据组的判定规则,第一检测模块用于构建第一检测组并判断异常数据组,对异常数据组进行管理,第二检测模块用于对关键词描述对象的差异进行检测,模板管理模块用于对特征模板进行管理。
5.根据权利要求4所述的数据管理***,其特征在于:规则管理模块包括:历史记录管理单元、数据标记单元和规则获取单元,其中,历史记录管理单元用于管理特征信息的历史记录,数据标记单元用于在数据空间中对历史数据组的位置进行标记,规则获取单元用于管理异常数据组的判定规则。
6.根据权利要求5所述的数据管理***,其特征在于:第一检测模块包括:关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元,其中,关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组,信息组合单元用于构建第一检测组,异常检测组判断单元用于判断第一检测组中的异常数据组,关键词内容管理单元用于获取目标关键词所在位置的文本内容。
7.根据权利要求6所述的数据管理***,其特征在于:第二检测模块包括:语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元,其中,语素提取单元用于提取关键词所在段落的语素,语素分类单元用于对语素进行分类,语素评价系数计算单元用于计算语素评价系数,关键词差异判断单元用于判断关键词描述的对象是否存在差异。
8.根据权利要求7所述的数据管理***,其特征在于:模板管理模块包括:特征关系获取单元、特征模板构建单元和特征比对单元,其中,特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系,特征模板构建单元用于构建特征模板,特征比对单元用于异常数据组的特征进行比对。
CN202410123909.XA 2024-01-30 2024-01-30 一种基于人工智能的数据管理***及方法 Active CN117669513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410123909.XA CN117669513B (zh) 2024-01-30 2024-01-30 一种基于人工智能的数据管理***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410123909.XA CN117669513B (zh) 2024-01-30 2024-01-30 一种基于人工智能的数据管理***及方法

Publications (2)

Publication Number Publication Date
CN117669513A CN117669513A (zh) 2024-03-08
CN117669513B true CN117669513B (zh) 2024-04-12

Family

ID=90068363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410123909.XA Active CN117669513B (zh) 2024-01-30 2024-01-30 一种基于人工智能的数据管理***及方法

Country Status (1)

Country Link
CN (1) CN117669513B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035251B (zh) * 2024-04-11 2024-06-21 河北省交通规划设计研究院有限公司 基于多特征融合的城市数据模型管理***及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646058A (zh) * 2013-11-29 2014-03-19 北京广利核***工程有限公司 识别技术文件中关键词的方法及***
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN107729337A (zh) * 2016-08-11 2018-02-23 北京国双科技有限公司 事件的监测方法和装置
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN111782900A (zh) * 2020-08-06 2020-10-16 平安银行股份有限公司 异常业务检测方法、装置、电子设备及存储介质
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN113268995A (zh) * 2021-07-19 2021-08-17 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
CN114706966A (zh) * 2022-03-23 2022-07-05 平安普惠企业管理有限公司 基于人工智能的语音交互方法、装置、设备及存储介质
CN116108111A (zh) * 2022-07-27 2023-05-12 启迪万众网络科技(北京)有限公司 一种数据分析管理用分析***
CN116501844A (zh) * 2023-02-28 2023-07-28 中银金融科技有限公司 语音关键词检索方法及***
WO2023148772A1 (en) * 2022-02-06 2023-08-10 Hishab India Private Limited A system and method to reduce ambiguity in natural language understanding by user expectation handling

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556065B (zh) * 2024-01-11 2024-03-26 江苏古卓科技有限公司 基于深度学习的大模型数据管理***及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646058A (zh) * 2013-11-29 2014-03-19 北京广利核***工程有限公司 识别技术文件中关键词的方法及***
CN107729337A (zh) * 2016-08-11 2018-02-23 北京国双科技有限公司 事件的监测方法和装置
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN111782900A (zh) * 2020-08-06 2020-10-16 平安银行股份有限公司 异常业务检测方法、装置、电子设备及存储介质
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN113268995A (zh) * 2021-07-19 2021-08-17 北京邮电大学 中文学术关键词抽取方法、装置和存储介质
WO2023148772A1 (en) * 2022-02-06 2023-08-10 Hishab India Private Limited A system and method to reduce ambiguity in natural language understanding by user expectation handling
CN114706966A (zh) * 2022-03-23 2022-07-05 平安普惠企业管理有限公司 基于人工智能的语音交互方法、装置、设备及存储介质
CN116108111A (zh) * 2022-07-27 2023-05-12 启迪万众网络科技(北京)有限公司 一种数据分析管理用分析***
CN116501844A (zh) * 2023-02-28 2023-07-28 中银金融科技有限公司 语音关键词检索方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于关键词提取的评论分析***研究";杜新宇;《中国优秀硕士学位论文全文数据库信息科技辑》;20240115;I138-2112 *
"基于特征空间轨迹信息的语音关键词检测方法";田颖慧等;《电子学报》;20231206;第2915-2924页 *
"面向工作报告的关键字提取的研究与实现";王子豪;《中国优秀硕士学位论文全文数据库信息科技辑》;20240115;I138-1956 *

Also Published As

Publication number Publication date
CN117669513A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US9792277B2 (en) System and method for determining the meaning of a document with respect to a concept
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US8468167B2 (en) Automatic data validation and correction
CN106909655B (zh) 基于产生式别名挖掘的知识图谱实体发现和链接方法
US20150120738A1 (en) System and method for document classification based on semantic analysis of the document
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN117669513B (zh) 一种基于人工智能的数据管理***及方法
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US7310773B2 (en) Removal of extraneous text from electronic documents
CN111475603B (zh) 企业标识识别方法、装置、计算机设备及存储介质
US20070230787A1 (en) Method for automated processing of hard copy text documents
EP1941399A2 (en) Method and apparatus for automatic entity disambiguation
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
US20110144992A1 (en) Unsupervised learning using global features, including for log-linear model word segmentation
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
WO2023045868A1 (zh) 一种文本纠错方法及其相关设备
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
WO2022143608A1 (zh) 语言标注方法、装置、计算机设备和存储介质
CN109815328B (zh) 一种摘要生成方法及装置
CN115168345A (zh) 数据库分级分类方法、***、装置及存储介质
JP5056337B2 (ja) 情報検索システム
CN114117038A (zh) 一种文档分类方法、装置、***及电子设备
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
GB2572320A (en) Hate speech detection system for online media content
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant