CN117669513B

CN117669513B - 一种基于人工智能的数据管理***及方法

Info

Publication number: CN117669513B
Application number: CN202410123909.XA
Authority: CN
Inventors: 徐步海
Original assignee: Yancheng Huiji Information Technology Co ltd; Jiangsu Guzhuo Technology Co ltd
Current assignee: Yancheng Huiji Information Technology Co ltd; Jiangsu Guzhuo Technology Co ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-12
Anticipated expiration: 2044-01-30
Also published as: CN117669513A

Abstract

本发明公开了一种基于人工智能的数据管理***及方法，涉及数据管理技术领域，对文本中的关键词进行识别，获取目标关键词各个特征信息类别的历史记录，对历史记录的数据构成数据组进行标记，获取历史记录中数据组的边界，获取异常数据组的判定规则，获取目标文本中的目标关键词信息，将包含不同特征信息类别的目标关键词进行数据组合，在目标文本中对异常数据组对应的目标关键词进行标记，获取目标关键词标记位置的段落，从段落中提取语素信息，对描述不同对象的同一目标关键词进行区分，通过区别特征构成特征模板，将异常数据组对应目标关键词进行区分，将描述不同对象的同一关键词的特征信息进行区分管理。

Description

一种基于人工智能的数据管理***及方法

技术领域

本发明涉及数据管理技术领域，具体为一种基于人工智能的数据管理***及方法。

背景技术

数据管理是对数据进行有效的收集、存储、处理和应用的过程，随着计算机技术和互联网发展，存储数据信息的媒介从传统的纸制媒介转变为电子媒介。电子媒介如计算机或数据处理软件在对规范格式的数据，例如数据库中的数据，在处理准确度上优势显著，但对于非规范数据，例如在文本或文档中提取关键词及相关特征信息时的准确度会大大下降。

现有技术中对文本中信息的提取主要是基于对文本中关键词的识别，进一步对关键词对应的信息进行提取，但是，自然语言中同一关键词可能对应不同的表述对象，尤其是涉及某领域的专有词或缩略语时，如果仅仅是通过现有技术对关键词进行识别，然后做信息提取的方法，会造成获取到的数据混乱的问题。

发明内容

本发明的目的在于提供一种基于人工智能的数据管理***及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于人工智能的数据管理***及方法。

步骤S100：对文本中的关键词进行识别，获取文本中关键词对应特征信息的数据，根据特征信息的特征信息类别进行管理，任意选择一个关键词作为目标关键词，获取目标关键词各个特征信息类别的历史记录，对历史记录的数据构成数据组进行标记，获取历史记录中数据组的边界，获取异常数据组的判定规则；

步骤S200：将待检测的文本设置为目标文本，获取目标文本中的目标关键词信息，将包含不同特征信息类别的目标关键词进行数据组合，得到第一检测组，提取第一检测组中的异常数据组，在目标文本中对异常数据组对应的目标关键词进行标记；

步骤S300：获取目标关键词标记位置的段落，从段落中提取语素信息，通过计算同种语素在对应段落中的分布情况，对描述不同对象的同一目标关键词进行区分；

步骤S400：对描述不同对象的同一目标关键词区别的特征进行提取，通过提取出的特征构成特征模板，当异常数据组的特征与特征模板比对成功后，将异常数据组对应目标关键词进行区分，将描述不同对象的同一关键词的特征信息进行区分管理。

进一步的，步骤S100包括：

步骤S101：获取目标关键词与各个特征信息的类别的对应关系，获取各个特征信息的历史数据；

步骤S102：在目标关键词的同一条历史记录中，将各特征信息类别对应的数据成一个历史数据组，将特征信息的每一个特征信息类别作为一个维度，汇集所有历史数据组，在数据空间中对历史数据组的位置进行标记；

步骤S103：在数据空间中，获取所有历史数据组的边界，根据边界制定判定规则，将在边界以里的数据组判定为正常数据组，将在边界以外的数据组判定为异常数据组。

进一步的，步骤S200包括：

步骤S201：对目标文本中的目标关键词及目标关键词对应的特征信息进行获取，将每次获取到的目标关键词与对应的特征信息组成一个待检测组；

步骤S202：将至少两个特征信息种类不同的待检测组通过特征信息种类对应数据互补的方式组成第一检测组，在数据空间中标记第一检测组对应的位置，通过判定规则进行判断，当第一检测组为异常数据组时，提取组成第一检测组的各个待检测组；

互补是指将从不同位置提出的待检测组互相进行匹配，获取一个待检测组中获取缺少的特征信息种类，通过另一个待检测组中的特征信息种类对应的信息，对所述一个待检测组中的数据进行补充，这两个待检测组就构成一个互补的关系。

步骤S203：获取各个待检测组对应的目标关键词在目标文本中的位置，对目标关键词所在位置的文本内容进行获取。

通过特征信息种类对应数据互补的方式，将不同种类的特征信息进行组合，判断组合后的信息是否符合历史规律，从而对可能存在描述不同对象的特征关键词进初步筛查；

进一步的，步骤S300包括：

步骤S301：将每个目标关键词的语素信息根据在目标文本中的顺序组成语素序列并根据语素序列的顺序给各个语素的位置进行标号，其中，每个目标关键词对应的语素序列中的语素数量一致；

语素指语言中最小的音义结合体，本方案中需要重点提取文本中的最小的语义单位，其中，语义包括词汇意义和语法意义。语素相对于词、词组等高级的音义结合单位而言，构成单位更小，为了避免词或词组通过组合构成语义的过程中产生不同的语义，所以将语义的最小单位作为描述目标关键词的提取目标；

步骤S302：对语素进行分类，将语素序列M中的语素分为公有类m₁和私有类m₂，其中m₁中的语素在除M之外的至少一个语素序列中也存在，m₂中的语素仅存在与M中，除M之外的语素序列中不包括m₂中的语素，在各个语素序列中，将语素与语素所在的语素类别进行对应，将待检测组的语素类别中的公有类设置为目标语素类别，在各个语素序列中对目标语素类别进行标记；

步骤S303：将各个语素序列进行按照各个语素序列中第1个位置的语素进行对齐，组成第二检测组，获取第二检测组中，相同位置上是目标语素类别的语素的数量，通过计算目标语素在语素序列中的分布得到语素评价系数γ；

通过对目标关键词所在段落的语素，构成一个语素列，将少两个语素序列进行对齐，提取两个语素序列中相同位置是同一语素的数量，在语素序列中，语素的总数量为一个定值时，这个数量越大说明，两个目标关键词描述的对象趋于一致。语素的语义表示出目标关键词所在段落内容描述的侧重点，顺序表示处描述过程中的语言习惯和逻辑结构，通过比较语素种类的差别和相同语素在段落中位置的对应关系，得到段落中描述内容和描述方式的差别，进一步区目标关键词的描述对象是否一致；

步骤S304：设置判定阈值γ₀，当γ＞γ₀时，判定第二检测组中的语素序列对应目标关键词描述的对象存在差异，当γ≤γ₀时，判定第二检测组中的语素序列对应目标关键词描述的对象不存在差异。

进一步的，步骤S400包括：

步骤S401：获取满足γ＞γ₀条件的第二检测组，提取出所述第二检测组中同一个位置序号上不同语素序列中的语素，获取出位置序号与所述语素的语素类别的特征关系；

步骤S402：将若干特征关系根据位置序号的顺序进行排列，组成特征模板；

步骤S403：当步骤S200中再次检测到异常数据组时，优先通过特征模板进行比对，当比对成功后判定为目标关键词存在差异，当匹配失败后，进入步骤S300，获取特征模板。

通过步骤S300中的比较方法，进一步得到在目标关键词描述的对象存在差异时语素的分布特征和语素间的相对位置关系，语素的分布表示处在文本描述过程中内容的差异，相对位置关系可以表示在文本描述内容中表述内容习惯或表述方式的差异，提取出差异的特征，在未来的检测过程中一旦检测到两组目标关键词在表述过程中差异的特征，就可以绕过步骤S300中的排列与计算的过程，快速判断出两个目标关键词描述的对象不同。

为了更好的实现上述方法，还提出一种基于人工智能的数据管理方法的数据管理***；

***包括：

规则管理模块、第一检测模块、第二检测模块和模板管理模块，其中，规则管理模块用于获取历史记录中数据组的边界，获取异常数据组的判定规则，第一检测模块用于构建第一检测组并判断异常数据组，对异常数据组进行管理，第二检测模块用于对关键词描述对象的差异进行检测，模板管理模块用于对特征模板进行管理。

进一步的，规则管理模块包括：历史记录管理单元、数据标记单元和规则获取单元，其中，历史记录管理单元用于管理特征信息的历史记录，数据标记单元用于在数据空间中对历史数据组的位置进行标记，规则获取单元用于管理异常数据组的判定规则。

进一步的，第一检测模块包括：关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元，其中，关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组，信息组合单元用于构建第一检测组，异常检测组判断单元用于判断第一检测组中的异常数据组，关键词内容管理单元用于获取目标关键词所在位置的文本内容。

进一步的，第二检测模块包括：语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元，其中，语素提取单元用于提取关键词所在段落的语素，语素分类单元用于对语素进行分类，语素评价系数计算单元用于计算语素评价系数，关键词差异判断单元用于判断关键词描述的对象是否存在差异。

进一步的，模板管理模块包括：特征关系获取单元、特征模板构建单元和特征比对单元，其中，特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系，特征模板构建单元用于构建特征模板，特征比对单元用于异常数据组的特征进行比对。

与现有技术相比，本发明所达到的有益效果是：本发明首先通过历史数据构建关键词的历史数据空间，将关键词的不同特征进行组合，发现异常的特征组合，进一步根据关键词所在段落的描述内容对同一关键词的不同描述对象进行区分；第一步是对关键词的定位与筛选，为了提高数据筛选速度，将特征信息类别的数据进行互补，判断构成的数据组是否符合历史规律；第二步是在第一步的基础上对描述内容进行精确区分，以弥补第一步中数据组合和数据匹配过程中造成的误差，通过第二步进一步构建特征模板用于快速对异常数据组的快速比对。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明专利一种基于人工智能的数据管理***的结构示意图；

图2是本发明专利一种基于人工智能的数据管理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本案中涉及名词解释如下：

语素：是指语言中最小的音义结合体。也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素，尤其是“最小”和“有义”。最小，是指单位的大小，是相对于词、词组等高级的音义结合单位而言；有义，是指语素的意义内容（符号的所指方面），包括词汇意义或语法意义。语法意义一般也称语法功能。有音，是指语素的语音形式（也即符号的能指方面）。

信息熵：描述信息源各可能事件发生的不确定性，信息中排除了冗余后的平均信息量称为“信息熵”，信息熵的计算公式为，其中，p_i表示在总共n个符号中的第i种符号出现的概率，a通常取2，使得计算结果的单位为比特（bit）。

互信息：一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

请参阅图1和图2，本发明提供技术方案：

方法包括：

其中，步骤S100包括：

其中，步骤S200包括：

例如：需要子在目标文本中提取目标关键词Q的4个特征信息种类的信息，分别为（category₁、category₂、category₃、category₄）；

从目标文本中提取到目标关键词Q₁，Q₁的特征信息对应的种类为（category¹ ₁、category¹ ₃），其中，Q₁与Q在文字表示相同，category¹ ₁与category₁是同一特征信息种类，用上标表示出category¹ ₁从Q₁的特征信息中提取，category¹ ₃与category₃是同一特征信息种类，用上标表示出category¹ ₃从Q₁的特征信息中提取；

从目标文本中提取到目标关键词Q₂，Q₂的特征信息对应的种类为（category² ₂、category² ₄），其中，Q₂与Q在文字表示相同，category¹ ₁与category₁是同一特征信息种类，用上标表示出category¹ ₁从Q₂的特征信息中提取，category² ₂与category₃是同一特征信息种类，用上标表示出category² ₄从Q₂的特征信息中提取；

将Q₁与Q₂进行互补得到Q^*（category¹ ₁、category² ₂、category¹ ₃、category² ₄）；

在数据空间中，将Q^*与目标关键词Q的历史记录中（category₁、category₂、category₃、category₄）构成的区域进行比对，当Q^*在Q外时，判定Q^*为异常数据组，对Q₁和Q₂所在位置的文本内容进行获取分别进行提取。

在提取文本信息中的关键词时，不可避免地会遇到多义词，例如“高铁”一词，既可以表示铁含量高的意思，也可以表示高速铁路***，在一些语义环境中也可是人物的姓名；所以需要根据不同的语境对“高铁”一词的具体描述对象进行区分，才能对从文本中提取出有关“高铁”一词的内容进行分类；

其中，步骤S300包括：

在一个实施例中：一个语素序列A{a₁、a₂、a₃、a₄、a₅、a₆、a₇、a₈}，和另一个语素序列B{ b₁、b₂、b₃、b₄、b₅、b₆、b₇、b₈}，将语素分为三类，第一类语素为A中存在B中也存在的语素，第二类语素为A中存在且B中不存在的语素，第三类语素为B中存在且A中不存在的语素，用“1”表示第一类语素，“2”表示第二类语素，“3”表示第三类语素，将A和B分别改写为：A{1、1、2、1、1、2}，B{3、1、1、3、3、1、3、1}，将改写后的A和B对齐后，从前到后给各个语素依次标上序号，位置序号2和位置序号6处，是都为“1”；

为了精确描述语素序列中的语素分别，在实施过程中可以进一步通过计算互信息的方式对语素序列中的语素分别进行描述，方法如下：

在A中出现“1”的概率记为p{a=1}，A中出现“2”的概率记为p{a=2}，其中，p{a=1}=5/8和p{a=2}=3/8，A的信息熵为：；

在B中出现“1”的概率记为p{b=1}，B中出现“3”的概率记为p{b=2}，其中，p{b=1}=1/2和p{b=2}=1/2，B的信息熵为：；

对齐后计算联合分布，将同一位置序号的语素作为一组，p{a=1，b=1}=1/4，p{a=1，b=3}=3/8，p{a=2，b=1}=1/4，p{a=2，b=3}=1/8，计算联合熵H（A，B）：

；

互信息I（A；B）= H（A）+ H（B）- H（A，B）= 0.1525；

将互信息的计算结果作为语素评价系数γ，γ₁= I（A；B）；

获取一个B₂作为B的对照组，对B₂的语素进行分类，分类方法与A和B的分类方式相同，B₂{1、1、3、3、1、1、3、3}；

B₂相较于B，在各个语素种类的数量上没有区别，语素的分布更接近于A，所以B₂与B相比更接近于A；

根据上述方法，计算齐后计算联合分布，p{a=1，b=1}=1/2，p{a=1，b=3}=1/8，p{a=2，b=1}=0，p{a=2，b=3}=3/8，计算联合熵H（A，B₂），H（A，B₂）=0.4215；

互信息I（A；B₂）= H（A）+ H（B₂）- H（A，B₂）= 0.1615，γ₂= I（A；B）；

γ₂＞γ₁，说明B₂相较于B更加接近于A；

综合上述方法，通过互信息计算可进一步分析语素在对应段落中的分布情况。

步骤S400：对描述不同对象的同一目标关键词区别的特征进行提取，通过提取出的特征构成特征模板，当异常数据组的特征与特征模板比对成功后，将异常数据组对应目标关键词进行区分，将描述不同对象的同一关键词的特征信息进行区分管理；

其中，步骤S400包括：

***包括：

规则管理模块、第一检测模块、第二检测模块和模板管理模块；

其中，规则管理模块用于获取历史记录中数据组的边界，获取异常数据组的判定规则，其中，规则管理模块包括：历史记录管理单元、数据标记单元和规则获取单元，其中，历史记录管理单元用于管理特征信息的历史记录，数据标记单元用于在数据空间中对历史数据组的位置进行标记，规则获取单元用于管理异常数据组的判定规则。

其中，第一检测模块用于构建第一检测组并判断异常数据组，对异常数据组进行管理，其中，第一检测模块包括：关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元，其中，关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组，信息组合单元用于构建第一检测组，异常检测组判断单元用于判断第一检测组中的异常数据组，关键词内容管理单元用于获取目标关键词所在位置的文本内容。

其中，第二检测模块用于对关键词描述对象的差异进行检测，其中，第二检测模块包括：语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元，其中，语素提取单元用于提取关键词所在段落的语素，语素分类单元用于对语素进行分类，语素评价系数计算单元用于计算语素评价系数，关键词差异判断单元用于判断关键词描述的对象是否存在差异。

其中，模板管理模块用于对特征模板进行管理，其中，模板管理模块包括：特征关系获取单元、特征模板构建单元和特征比对单元，其中，特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系，特征模板构建单元用于构建特征模板，特征比对单元用于异常数据组的特征进行比对。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的数据管理方法，其特征在于，所述方法包括以下步骤：

步骤S100包括：

步骤S103：在数据空间中，获取所有历史数据组的边界，根据边界制定判定规则，将在边界以里的数据组判定为正常数据组，将在边界以外的数据组判定为异常数据组；

步骤S200包括：

步骤S203：获取各个待检测组对应的目标关键词在目标文本中的位置，对目标关键词所在位置的文本内容进行获取；

2.根据权利要求1所述的一种基于人工智能的数据管理方法，其特征在于：步骤S300包括：

3.根据权利要求2所述的一种基于人工智能的数据管理方法，其特征在于：步骤S400包括：

4.一种用于权利要求1-3中任意一项所述的基于人工智能的数据管理方法的数据管理***，其特征在于：所述***包括以下模块：规则管理模块、第一检测模块、第二检测模块和模板管理模块，其中，规则管理模块用于获取历史记录中数据组的边界，获取异常数据组的判定规则，第一检测模块用于构建第一检测组并判断异常数据组，对异常数据组进行管理，第二检测模块用于对关键词描述对象的差异进行检测，模板管理模块用于对特征模板进行管理。

5.根据权利要求4所述的数据管理***，其特征在于：规则管理模块包括：历史记录管理单元、数据标记单元和规则获取单元，其中，历史记录管理单元用于管理特征信息的历史记录，数据标记单元用于在数据空间中对历史数据组的位置进行标记，规则获取单元用于管理异常数据组的判定规则。

6.根据权利要求5所述的数据管理***，其特征在于：第一检测模块包括：关键词信息管理单元、信息组合单元、异常检测组判断单元和关键词内容管理单元，其中，关键词信息管理单元用于目标关键词与对应的特征信息组成一个待检测组，信息组合单元用于构建第一检测组，异常检测组判断单元用于判断第一检测组中的异常数据组，关键词内容管理单元用于获取目标关键词所在位置的文本内容。

7.根据权利要求6所述的数据管理***，其特征在于：第二检测模块包括：语素提取单元、语素分类单元、语素评价系数计算单元和关键词差异判断单元，其中，语素提取单元用于提取关键词所在段落的语素，语素分类单元用于对语素进行分类，语素评价系数计算单元用于计算语素评价系数，关键词差异判断单元用于判断关键词描述的对象是否存在差异。

8.根据权利要求7所述的数据管理***，其特征在于：模板管理模块包括：特征关系获取单元、特征模板构建单元和特征比对单元，其中，特征关系获取单元用于获取出位置序号与所述语素的语素类别的特征关系，特征模板构建单元用于构建特征模板，特征比对单元用于异常数据组的特征进行比对。