CN113535952B - 一种基于人工智能的智能匹配数据处理方法 - Google Patents

一种基于人工智能的智能匹配数据处理方法 Download PDF

Info

Publication number
CN113535952B
CN113535952B CN202110787268.4A CN202110787268A CN113535952B CN 113535952 B CN113535952 B CN 113535952B CN 202110787268 A CN202110787268 A CN 202110787268A CN 113535952 B CN113535952 B CN 113535952B
Authority
CN
China
Prior art keywords
article
list
articles
score
recorded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110787268.4A
Other languages
English (en)
Other versions
CN113535952A (zh
Inventor
耿德强
武伟
李杨
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexaprism Hangzhou Technology Co ltd
Original Assignee
Hexaprism Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexaprism Hangzhou Technology Co ltd filed Critical Hexaprism Hangzhou Technology Co ltd
Priority to CN202110787268.4A priority Critical patent/CN113535952B/zh
Publication of CN113535952A publication Critical patent/CN113535952A/zh
Application granted granted Critical
Publication of CN113535952B publication Critical patent/CN113535952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于人工智能的智能匹配数据处理方法,该数据处理方法适用于对海量文章进行归类存储,该数据处理方法包括:步骤1,获取待录入文章中的关注词组,并根据关注词组计算待录入文章录入后的文章评分;步骤2,根据关注词组以及文章评分,确定待录入文章在文章列表中的文献位置,以更新文章列表;步骤3,根据更新后的文章列表,对录入的文章进行智能匹配数据归类存储。通过本申请中的技术方案,优化海量文章数据的归类存储的效果,解决因数据访问冷热程度不同而导致的迁移数据量偏大的问题。

Description

一种基于人工智能的智能匹配数据处理方法
技术领域
本申请涉及数据处理的技术领域,具体而言,涉及一种基于人工智能的智能匹配数据处理方法。
背景技术
随着互联网技术的不断发展,文章的数字化处理已经成为当下的一种趋势,通过数字化处理,可以对互联网中海量的文章进行存储、推送等处理,特别是对于科技期刊、学术论文、专利文献等学术型文章,文章的数字化处理有助于特定的用户对其关注的文章进行查找、阅读、学习。在文章的数字化处理技术中,如何对海量的文章进行归类存储,是数字化处理的关键一环。
在对海量的文章进行存储时,通常可以采用Hadoop方式进行存储。但是,随着数据量的不断累积,文章的访问热度将会呈现冷热不均的现象,而为了更快捷的调取访问热度高的文章,又引入了数据冷热程度分层存储的存储策略,以便将预设周期内新录入但访问量较小的数据进行冷数据存储,以保证访问量较大的文章的调取速度。
而现有技术中,通常是将最新录入的各个文章进行统一的数据存储,之后再根据一定时间段内各个文章的访问情况,来判断其属于“热数据”还是“冷数据”,再通过数据迁移的方式,对“冷数据”的存储空间进行迁移。而在数据迁移的过程中,不可避免地会占用服务器或者数据库的有限资源,而且,也会影响用户的阅读体验,甚至可能会出现文章数据丢失的现象。
发明内容
本申请的目的在于:优化海量文章数据的归类存储的效果,解决因数据访问冷热程度不同而导致的后期服务器或数据库中迁移数据量偏大的问题。
本申请的技术方案是:提供了一种基于人工智能的智能匹配数据处理方法,数据处理方法适用于对海量文章进行归类存储,数据处理方法包括:步骤1,获取待录入文章中的关注词组,并根据关注词组计算待录入文章录入后的文章评分;步骤2,根据关注词组以及文章评分,确定待录入文章在文章列表中的文献位置,以更新文章列表;步骤3,根据更新后的文章列表,对录入的文章进行智能匹配数据归类存储。
上述任一项技术方案中,进一步地,文章列表由多个次级列表组成,关注词组至少包括一级词组,一级词组由多个关注词组成,文章评分至少包括聚类评分,步骤1包括:步骤101,根据一级词组中的关注词,确定待录入文章在文章列表中的次级列表及初始位置;步骤102,采用遍历的方式,根据一级词组中的关注词,计算录入待录入文章后次级列表中各录入文章的关注词对称变化率;步骤103,根据关注词对称变化率,计算录入待录入文章后次级列表中各录入文章的标准化平均变化率;步骤104,根据各录入文章的标准化平均变化率,计算待录入文章录入后的各录入文章聚类评分。
上述任一项技术方案中,进一步地,对称变化率的计算公式为:
Ci(1)=α
式中,Ci(t)为第i个关注词对称变化率,Yi(t)为一级词组中第i个关注词的词得分,i=1,2,…,N,N为一级词组中关注词的总数,t为待录入文章录入次级列表后该次级列表中的文章编号,文章编号由次级列表中文章的排序确定,M为待录入文章加入次级列表后的文章总数,α为预设参数。
上述任一项技术方案中,进一步地,标准化平均变化率的计算公式为:
V(y)=R(t)/F,t=2,3,…,M
式中,V(t)为文章编号为t的文章对应的标准化平均变化率,R(t)为第t篇文章对应的平均变化率,F为标准化因子,Si(t)为标准变化率,ωi为第i个关注词的权重值。
上述任一项技术方案中,进一步地,关注词组还包括二级词组,文章评分还包括价值评分,步骤1还包括:步骤111,根据预设数值规则,对二级词组中的关注词进行数值化,记作分数修正值;步骤112,计算待录入文章的初始评分,并根据分数修正值以及待录入文章在次级列表中的文献位置,对初始评分进行修正,将修正结果记作价值评分。
上述任一项技术方案中,进一步地,文章评分至少包括聚类评分和价值评分,文章列表由多个次级列表组成,步骤2包括:步骤21,采用迭代的方式,计算待录入文章录入后的聚类评分,并判断聚类评分是否小于或等于预设阈值;步骤22,当判定聚类评分小于或等于预设阈值时,根据待录入文章在次级列表中的位置,更新次级列表对应的文章列表,生成一级列表,执行步骤24,其中,待录入文章在次级列表中的位置由待录入文章的关注词组和次级列表确定;步骤23,当判定聚类评分大于预设阈值时,调整待录入文章在次级列表中的位置,重新计算聚类评分,执行步骤21;步骤24,根据待录入文章的价值评分,依据一级列表中各个文章的价值评分高低和预设调整范围,调整待录入文章在一级列表中的位置,生成二级列表,并将二级列表记作更新后的文章列表,将调整后的待录入文章在一级列表中的位置记作文献位置。
上述任一项技术方案中,进一步地,步骤23具体包括:当判定聚类评分大于预设阈值时,根据第一移动方向和预设移动距离,调整待录入文章在次级列表中的位置,重新计算聚类评分,并判断当前迭代次数对应聚类评分是否小于或等于上一次迭代次数对应的聚类评分,若否,根据第二移动方向和预设移动距离,重新调整待录入文章在次级列表中的位置,执行步骤21,若是,判断是否达到最大迭代次数;当判定达到最大迭代次数时,对各次迭代计算出的聚类评分进行排序,选取聚类评分最小值对应的待录入文章在次级列表中的位置,更新次级列表对应的文章列表,生成一级列表,执行步骤24,当判定未达到最大迭代次数时,再次判断聚类评分是否小于或等于预设阈值,执行步骤21。
上述任一项技术方案中,进一步地,文章列表由多个次级列表组成,关注词组至少包括一级词组和二级词组,文章评分至少包括价值评分和聚类评分,步骤3包括:步骤31,基于文章列表,生成第一映射表;步骤32,根据已录入文章的价值评分和评分阈值,对第一映射表中价值评分小于或等于评分阈值的已录入文章进行筛选,生成第二映射表,第二映射表用于冷数据存储,其中,价值评分由二级词组以及待录入文章在次级列表中的文献位置确定,文献位置由聚类评分确定,聚类评分由一级词组确定;步骤33,根据第一映射表中筛选后的剩余已录入文章,生成第三映射表,第三映射表用于常规的数据存储。
本申请的有益效果是:
本申请中的技术方案,依据待录入文章中的关注词组,计算待录入文章录入后的各文章聚类评分和该待录入文章的价值评分,首先依据聚类评分对待录入文章在次级列表中的位置进行一次调节,以保证待录入文章能够准确地划分至相应的聚类区域,为海量文章的归类存储提供依据;之后根据价值评分的大小以及其在次级列表中的文献位置,对待录入文章进行二次调整,得到更新后的文章列表;最后依据价值评分进行筛选,直接将价值偏低的文章直接以第二映射表进行冷数据存储,将价值较高地文章以第三映射表进行常规数据存储。本申请中的数据处理方法,能够避免后期该文章数据因访问量偏低而由热数据或温数据存储区域转至冷数据存储区域,有助于降低海量文章数据归类存储过程中冷热数据迁移的数据量,优化归类存储效果。
在优选实现方式中,本申请将关注词组划分为至少两级,利用一级词组进行关注词变化率的计算,将较为相似的文章归类在一起,并基于价值评分进行文章在文章列表中位置的调整,有助于将相类似的文章按照文章的关注词组的相似程度、文章价值的大小进行归类、排序,进而在生成第一至第三映射表时,使得数据库同样能够按照文章的归类结果、价值大小有序地对文章数据进行存储,进而保证聚类评分和价值评分的准确性。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于人工智能的智能匹配数据处理方法的示意流程图;
图2是根据本申请的一个实施例的文章列表的示意图;
图3是根据本申请的一个实施例的更新文章列表过程的示意流程图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本实施例提供了一种基于人工智能的智能匹配数据处理方法,该方法包括:
步骤1,获取待录入文章中的关注词组,并根据关注词组计算待录入文章录入后的文章评分,其中,关注词组至少包括一级词组和二级词组,一级词组和二级词组分别由待录入文章中不同的关注词构成,文章评分包括聚类评分和价值评分;
需要说明的是,本实施例中的智能匹配数据处理方法适用于对录入数据库中的文章进行处理,处理的方法至少包括文章数据存储,其中,待录入文章的数量可为至少一篇。
具体的,本实施例中的文章为科技期刊、学术论文、专利文献等学术型文章。上传者将该文章上传至服务器,再由服务器发送至数据库进行存储,本领域技术人员可以根据实际需求对服务器、数据库进行配置。此外,本实施例对获取待录入文章的关注词组的方式并不限定,可以通过统计文章中出现频率较高的词组确定,也可以由文章特定区域的词组确定。
以学术论文为例,关注词组可以包括单位、作者姓名、关键词、论文名称等等。
本实施例中的关注词组分为多级,至少包括一级词组和二级词组,各词组的划分,可依据实际需求而设定。
对于专利文献而言,一级词组可以为:申请类型(发明、实用新型、外观设计)、法律状态(公开、专利权维持、期限届满、无效)、申请地域、申请人信息、IPC分类号、专利名称、申请日期、公开日期、授权公告日期、发明人信息等等;二级词组可以为:对比文件数量、被引用次数等。
相应的,对于科技期刊而言,一级词组可以为:期刊类别、期刊名称、文章名称、作者单位信息、关键词、发表日期、作者姓名等等;二级词组可以为:被引用次数、参考文件数量等等。
本实施例中的文章评分至少包括聚类评分和价值评分,其中,聚类评分可用于对该待录入文章进行归类,价值评分则可以用于将归类后的该待录入文章进行排序,以便进行后续的智能匹配数据处理。
本实施例示出一种待录入文章被录入文章列表后聚类评分的计算方法,该方法具体包括:
步骤101,根据一级词组中的关注词,确定待录入文章在文章列表中的次级列表及初始位置;
具体的,文章列表可以由多个次级列表组成,待录入文章被上传至服务器后,服务器可根据待录入文章的一级词组,采用常规的排序方式,对待录入文章进行排序,确定待录入文章对应的次级列表及初始位置,其中,次级列表的划分可以根据实际需求进行设定。
现以专利文献为例进行说明,可以设定每个申请人对应一个次级列表;也可以设定当申请人对应的专利文献数量大于某一阈值时,为该申请人设定一个单独的次级列表,如果专利文献数量不足,则若干个申请人共用一个次级列表;还可以将相关多个申请人的某一相近技术领域对应一个次级列表。
在确定次级列表及初始位置过程中,可以先根据申请人信息确定其次级列表,然后根据申请类型、专利名称、发明人信息等关注词,确定其在次级列表中的初始位置。
如某一次级列表中包含100篇专利文献,当对待录入文章进行上述处理后,确定其在该次级列表中的初始位置为50,则将其***到第50篇专利文献的位置,更新该次级列表中文章总数M=101,此时,前49篇专利文献的文章编号不变,后50篇专利文献的文章编号依次加1。
需要说明的是,本实施例中的文章列表是一个动态的表格,可根据相应已录入的文章定期或不定期的进行更新,以保证文章匹配存储的准确性。
步骤102,采用遍历的方式,根据一级词组中的关注词,计算录入待录入文章后次级列表中各录入文章的关注词对称变化率,其中,关注词对称变化率计算公式为:
Ci(1)=α
式中,Ci(t)为第i个关注词对称变化率,Yi(t)为一级词组中第i个关注词的词得分,i=1,2,…,N,N为一级词组中关注词的总数,t为待录入文章录入次级列表后该次级列表中的文章编号,文章编号由次级列表中文章的排序确定,M为待录入文章加入次级列表后的文章总数,α为预设参数,取值为200。
具体的,采用遍历的方式,计算录入待录入文章后次级列表中各个文章的关注词对称变化率。需要说明的是,文章列表中的各篇文章均对应有各自的关键词组。
本实施例中关注词的词得分由服务器根据预设得分规则自动计算得出,其中,预设得分规则可根据需求自行设定,如对于知名度较高的申请人,可以设定其具有一个较高的词得分,如95分;反之,则词得分较低,如25分。
步骤103,根据关注词对称变化率,计算录入待录入文章后次级列表中各录入文章的标准化平均变化率,其中,标准化平均变化率的计算公式为:
V(t)=R(t)/F,t=2,3,…,M
式中,V(t)为文章编号为t的文章对应的标准化平均变化率,R(t)为第t篇文章对应的平均变化率,F为标准化因子,Si(t)为标准变化率,ωi为第i个关注词的权重值,为设定值。
步骤104,根据各录入文章的标准化平均变化率,计算待录入文章录入后各录入文章的聚类评分,聚类评分的计算公式为:
I(1)=100
式中,I(t)为录入待录入文章后次级列表中各录入文章的聚类评分。
具体的,通过计算聚类评分,能够准确地将相同类别的文章归至一类,以便于后期基于价值评分对文章的位置进行调整,提高了文章列表排序的准确性,进而保证了存储数据用映射表中文章排序的准确性,特别是对于第三映射表而言,有助于优化后期根据访问热度确认冷热数据的可靠性。
本实施例还示出一种价值评分的计算方法,该方法具体包括:
步骤111,根据预设数值规则,对二级词组中的关注词进行数值化,记作分数修正值;
需要说明的是,预设数值规则可以根据实际需求进行设定。如对于专利文献而言,当关注词为“对比文件数量”时,若对比文件数量较多,如果其处于专利权维持状态,则证明其权力比较稳定,该关注词对应的分数修正值可以设定为一个较高值,如0.95;如果对比文件数量较少,且处于无效状态,则该关注词对应的分数修正值则设定为一个较低值,如0.05。同样的,被引用次数越高,则可设定一个较高的取值,反之则取值较低。
步骤112,计算待录入文章的初始评分,并根据分数修正值以及待录入文章在次级列表中的文献位置,对初始评分进行修正,将修正结果记作价值评分,其中,价值评分的计算公式为:
式中,P为价值评分,P0为初始评分,αj为二级词组中第j个关注词对应的分数修正值,K为二级词组中关注词的数量,εm为位置权重,m=1,2,…,M,其中,分数修正值αj的和值可以不等于1。
具体的,位置权重的取值由文献位置的先后顺序决定,也就是说,在次级列表中排序靠前的文章具有一个相对大的权重值,位置偏后的则有一个相对小的权重值,具体取值大小可根据实际需求确定。但是,位置权重的和值为1。
需要说明的是,本实施例对计算述待录入文章的初始评分P0的具体过程并不限定,比如,可以采用中国专利申请CN 112784597 A中的文章质量评价技术。
步骤2,根据关注词组以及文章评分,确定待录入文章在文章列表中的文献位置,并更新文章列表;
如图2和图3所示,该步骤2中,具体包括:
步骤21,采用迭代的方式,计算待录入文章录入后的聚类评分,并判断聚类评分是否小于或等于预设阈值;
步骤22,当判定聚类评分小于或等于预设阈值时,根据待录入文章在次级列表中的位置,更新次级列表对应的文章列表,生成一级列表,执行步骤24,其中,待录入文章在次级列表中的位置由待录入文章的关注词组和文章列表确定;
具体的,当聚类评分小于或等于预设阈值时,表明该待录入文章被***到当前位置时,其一级词组中的关注词与其邻近的各篇已录入文章一级词组中的关注词比较相似,因此,可以将该位置作为待录入文章的录入位置,以更新文章列表,生成一级列表。
当聚类评分大于预设阈值时,则表明其一级词组中的关注词与其邻近的各篇已录入文章一级词组中的关注词变化较大,需要对该待录入文章的位置进行调整。
步骤23,当判定聚类评分大于预设阈值时,调整待录入文章在次级列表中的位置,重新计算聚类评分,执行步骤21;
在本实施例的一个优选实现方式中,步骤23具体包括:
当判定聚类评分大于预设阈值时,根据第一移动方向和预设移动距离,调整待录入文章在次级列表中的位置,重新计算聚类评分,并判断当前迭代次数对应聚类评分是否小于或等于上一次迭代次数对应的聚类评分,若否,根据第二移动方向和预设移动距离,重新调整待录入文章在次级列表中的位置,执行步骤21,若是,判断是否达到最大迭代次数;
当判定达到最大迭代次数时,对各次迭代计算出的聚类评分进行排序,选取聚类评分最小值对应的待录入文章在次级列表中的位置,更新次级列表对应的文章列表,生成一级列表,执行步骤24,
当判定未达到最大迭代次数时,再次判断聚类评分是否小于或等于预设阈值,执行步骤21。
具体的,在调整待录入文章的位置时,设定第一移动方向为在文章列表中向当前位置的下方移动,第二移动方向则为向当前位置的上方移动,其中,预设移动距离是指位置调整的步长,可以根据实际需求及文章数量的大小进行设定。
仍以上述某一次级列表中包含100篇专利文献为例,设定预设移动距离为3,当待录入文章在第50篇文献位置处对应的聚类评分A大于预设阈值时,则将该待录入文章向下调整至第53篇文献位置处,重新计算其在第53篇文献位置处对应的聚类评分B。
之后,判断聚类评分A与聚类评分B之间的大小,如果聚类评分B大于聚类评分A,则表明待录入文章调整至第53篇文献位置处后,一级词组中关注词对称变化率更加明显,因此,重新调整该待录入文章的位置,调整为第47篇文献位置处,再次计算其在该位置处的聚类评分,执行步骤21,此时,迭代次数加1。
如果聚类评分B小于或等于聚类评分A,则表明待录入文章调整至第53篇文献位置处后,一级词组中关注词对称变化率变小或保持不变,此时,迭代次数加1,并判断是否达到最大迭代次数。
进一步的,在本实施例的另一个优选实现方式中,当判定当前迭代次数对应聚类评分等于上一次迭代次数对应的聚类评分时,根据聚类评分与预设阈值之间的差值,减小预设移动距离的取值,并根据减小后的预设移动距离,重新执行步骤21。
需要说明的是,本实施例中可以直接将预设移动距离的取值减小为一个固定值,也可以基于该差值与聚类评分的比值,采用分段函数的形式,对预设移动距离进行调整,如分段函数对应公式可以如下:
本实施例中,为了提高运算效率、减小运算量,可是设定最大迭代次数为50,当达到最大迭代次数50时,聚类评分仍大于预设阈值,则对50次计算出的聚类评分进行排序,每一个聚类评分均对应与一个待录入文章的录入位置,因此,选取聚类评分的最小值,其表明在上述50次迭代过程中,该录入位置处待录入文章的一级词组中的关注词与其邻近的各篇已录入文章的变化相对较小,因此,将该位置作为待录入文章的录入位置。当未达到最大迭代次数50时,重新执行步骤21。
步骤24,根据待录入文章的价值评分,依据一级列表中各个文章的价值评分高低和预设调整范围,调整待录入文章在一级列表中的位置,生成二级列表,并将二级列表记作更新后的文章列表,将调整后的待录入文章在一级列表中的位置记作文献位置。
具体的,通过待录入文章的二级词组中的关注词,对待录入文章的初始评分进行修正,以得到其价值评分,之后根据价值评分,对待录入文章的位置进行调整,以使评分高的文章排在相对靠前的位置处。
并且,为了避免调整后文章列表中各个文章一级词组中的关注词之间发生较大的波动,设定预设调整范围,如设定为[-10,10],假设当前待录入文章在第50篇文献位置处,则根据其价值评分的高低,在第40-60篇文献位置范围内进行调整。
步骤3,根据更新后的文章列表,对录入的文章进行智能匹配数据处理,其中,智能匹配数据处理至少包括文章分类存储,录入的文章包括待录入文章和已录入文章。
本实施例示出一种文章分类存储的实现方式,该过程具体包括:
步骤31,基于所述文章列表,生成第一映射表,其中,映射表为数据库存储文章数据时使用的对照表,与数据库中存储的文章数据一一对应;
优选的,在生成第一映射表时,为了提高映射表的准确性,还可以提取更新后的文章列表中各录入文章的技术标签,结合文章列表,生成第一映射表;其中,技术标签为已录入文章中出现频率符合预设条件的技术性词组。
具体的,可采用常规技术,将上述文章列表转换为数据存储用的第一映射表,以便数据库直接使用,并且,在生成第一映射表时,还可以采用技术标签与文章列表相结合的方式,以保证能够根据映射表准确地筛选、检索到对应的文章。
本实施例中,可以通过常规的数据处理技术对已录入文章进行处理,并结合大数据分析,统计已录入文章中各个技术性词组的出现频率。
需要说明的是,技术性词组可以是单个词语,也可以是由多个词语组成的集合。当技术性词组为多个词语组成的集合时,选择技术性词组的预设条件可以设定为出现频率最高的若干个词语,如5个;也可以为出现频率大于预设频率阈值的若干个词语。
此外,技术性词组可以是词语的本身,也可以是词语本身的上位概念或等同概念,如数据分级存储、数据冷热存储以及冷数据存储,其中,可以将数据分级存储作为数据冷热存储的等同概念,将数据冷热存储作为数据冷存储的上位概念。
步骤32,根据已录入文章的价值评分和评分阈值,对第一映射表中价值评分小于或等于评分阈值的已录入文章进行筛选,生成第二映射表,第二映射表用于冷数据存储,其中,价值评分由二级词组以及待录入文章在次级列表中的文献位置确定,文献位置由聚类评分确定,聚类评分由一级词组确定;
具体的,本领域技术人员能够理解的是,随着文章数据的不断积累增加,文章数据的访问程度将会呈现冷热不均的现象,其中,新录入的文章数据,前期的访问热度偏高,但对于个别价值不高的文章,其访问热度将逐渐降低,因此,可以得出,访问冷热程度与文章自身的价值高低成正比。
本实施例中,为了避免数据库中频繁变更文章数据的存储空间,在进行文章数据存储时,首先根据技术标签和一级词组中的关注词,对文章数据进行划分,生成第一映射表。
之后,第一映射表的基础上,根据计算出的价值评分,对文章进行筛选,筛选出价值度低的文章,以生成第二映射表,直接对第二映射表中的数据进行冷数据存储,如采用HDFS异构存储方式,直接将价值度低的文章存储在高存储密度但耗电较少的存储介质中,以减少后期的数据迁移量。
步骤33,根据第一映射表中筛选后的剩余已录入文章,生成第三映射表,第三映射表用于常规的数据存储。
具体的,待筛选出价值偏低的文章后,生成用于存储剩余文章的第三映射表,并对其进行常规的数据存储,其具体过程本实施例中并不限定,可以采用HDFS异构存储方式的默认存储策略,对于每个第三映射表中的数据,采用三个副本的存储方式,保存在不同节点的磁盘上。之后,在采用常规的数据处理方式,对第三映射表中文章数据进行处理,可以通过访问热度的不同,再对第三映射表中的文章数据进行冷热数据划分、存储。
因此,通过本实施例中的上述数据处理方法,通过聚类评分和价值评分,对文章数据进行划分、归类,提前将价值低的文章数据进行冷数据存储,有助于减少后期数据迁移的数据量。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种基于人工智能的智能匹配数据处理方法,该数据处理方法适用于对海量文章进行归类存储,该数据处理方法包括:步骤1,获取待录入文章中的关注词组,并根据关注词组计算待录入文章录入后的文章评分;步骤2,根据关注词组以及文章评分,确定待录入文章在文章列表中的文献位置,以更新文章列表;步骤3,根据更新后的文章列表,对录入的文章进行智能匹配数据归类存储。通过本申请中的技术方案,优化海量文章数据的归类存储的效果,解决因数据访问冷热程度不同而导致的迁移数据量偏大的问题。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (7)

1.一种基于人工智能的智能匹配数据处理方法,其特征在于,所述数据处理方法适用于对海量文章进行归类存储,所述数据处理方法包括:
步骤1,获取待录入文章中的关注词组,并根据所述关注词组计算所述待录入文章录入后的文章评分;
文章列表由多个次级列表组成,所述关注词组至少包括一级词组,所述一级词组由多个关注词组成,所述文章评分至少包括聚类评分,所述步骤1包括:
步骤101,根据所述一级词组中的关注词,确定所述待录入文章在所述文章列表中的次级列表及初始位置;
步骤102,采用遍历的方式,根据所述一级词组中的关注词,计算录入所述待录入文章后次级列表中各录入文章的关注词对称变化率;
步骤103,根据所述关注词对称变化率,计算录入所述待录入文章后次级列表中各录入文章的标准化平均变化率;
步骤104,根据所述各录入文章的标准化平均变化率,计算所述待录入文章录入后的各录入文章所述聚类评分;
步骤2,根据所述关注词组以及所述文章评分,确定所述待录入文章在文章列表中的文献位置,以更新所述文章列表;
步骤3,根据更新后的所述文章列表,对录入的文章进行智能匹配数据归类存储。
2.如权利要求1所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述对称变化率的计算公式为:
Ci(1)=α
式中,Ci(t)为第i个关注词对称变化率,Yi(t)为一级词组中第i个关注词的词得分,i=1,2,…,N,N为一级词组中关注词的总数,t为待录入文章录入次级列表后该次级列表中的文章编号,文章编号由次级列表中文章的排序确定,M为待录入文章加入次级列表后的文章总数,α为预设参数。
3.如权利要求2所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述标准化平均变化率的计算公式为:
V(t)=R(t)/F,t=2,3,…,M
式中,V(t)为文章编号为t的文章对应的标准化平均变化率,R(t)为第t篇文章对应的平均变化率,F为标准化因子,Si(t)为标准变化率,ωi为第i个关注词的权重值。
4.如权利要求1所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述关注词组还包括二级词组,所述文章评分还包括价值评分,所述步骤1还包括:
步骤111,根据预设数值规则,对所述二级词组中的关注词进行数值化,记作分数修正值;
步骤112,计算所述待录入文章的初始评分,并根据所述分数修正值以及所述待录入文章在所述次级列表中的文献位置,对所述初始评分进行修正,将修正结果记作所述价值评分。
5.如权利要求1所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述文章评分还包括价值评分,所述文章列表由多个次级列表组成,所述步骤2包括:
步骤21,采用迭代的方式,计算所述待录入文章录入后的所述聚类评分,并判断所述聚类评分是否小于或等于预设阈值;
步骤22,当判定所述聚类评分小于或等于所述预设阈值时,根据所述待录入文章在次级列表中的位置,更新所述次级列表对应的文章列表,生成一级列表,执行步骤24,其中,所述待录入文章在次级列表中的位置由所述待录入文章的关注词组和所述次级列表确定;
步骤23,当判定所述聚类评分大于所述预设阈值时,调整所述待录入文章在所述次级列表中的位置,重新计算所述聚类评分,执行步骤21;
步骤24,根据所述待录入文章的价值评分,依据所述一级列表中各个文章的价值评分高低和预设调整范围,调整所述待录入文章在所述一级列表中的位置,生成二级列表,并将所述二级列表记作更新后的文章列表,将调整后的所述待录入文章在所述一级列表中的位置记作所述文献位置。
6.如权利要求5所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述步骤23具体包括:
当判定所述聚类评分大于所述预设阈值时,根据第一移动方向和预设移动距离,调整所述待录入文章在所述次级列表中的位置,重新计算所述聚类评分,并判断当前迭代次数对应聚类评分是否小于或等于上一次迭代次数对应的聚类评分,若否,根据第二移动方向和所述预设移动距离,重新调整所述待录入文章在所述次级列表中的位置,执行步骤21,若是,判断是否达到最大迭代次数;
当判定达到所述最大迭代次数时,对各次迭代计算出的聚类评分进行排序,选取聚类评分最小值对应的所述待录入文章在所述次级列表中的位置,更新所述次级列表对应的文章列表,生成所述一级列表,执行步骤24,
当判定未达到所述最大迭代次数时,再次判断所述聚类评分是否小于或等于所述预设阈值,执行步骤21。
7.如权利要求1所述的基于人工智能的智能匹配数据处理方法,其特征在于,所述文章列表由多个次级列表组成,所述关注词组至少包括一级词组和二级词组,所述文章评分至少包括价值评分和聚类评分,所述步骤3包括:
步骤31,基于所述文章列表,生成第一映射表;
步骤32,根据已录入文章的价值评分和评分阈值,对所述第一映射表中所述价值评分小于或等于所述评分阈值的已录入文章进行筛选,生成第二映射表,所述第二映射表用于冷数据存储,其中,所述价值评分由所述二级词组以及所述待录入文章在所述次级列表中的文献位置确定,所述文献位置由所述聚类评分确定,所述聚类评分由所述一级词组确定;
步骤33,根据所述第一映射表中筛选后的剩余已录入文章,生成第三映射表,所述第三映射表用于常规的数据存储。
CN202110787268.4A 2021-07-13 2021-07-13 一种基于人工智能的智能匹配数据处理方法 Active CN113535952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110787268.4A CN113535952B (zh) 2021-07-13 2021-07-13 一种基于人工智能的智能匹配数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110787268.4A CN113535952B (zh) 2021-07-13 2021-07-13 一种基于人工智能的智能匹配数据处理方法

Publications (2)

Publication Number Publication Date
CN113535952A CN113535952A (zh) 2021-10-22
CN113535952B true CN113535952B (zh) 2024-02-09

Family

ID=78098742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110787268.4A Active CN113535952B (zh) 2021-07-13 2021-07-13 一种基于人工智能的智能匹配数据处理方法

Country Status (1)

Country Link
CN (1) CN113535952B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987128A (zh) * 2021-11-04 2022-01-28 智慧芽信息科技(苏州)有限公司 相关文章搜索方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN108614867A (zh) * 2018-04-12 2018-10-02 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及***
CN108897736A (zh) * 2018-06-20 2018-11-27 大连诺道认知医学技术有限公司 基于Paper Rank算法的文献排序方法及装置
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
CN110580279A (zh) * 2019-08-19 2019-12-17 湖南正宇软件技术开发有限公司 一种信息归类方法和***、设备及存储介质
CN112989816A (zh) * 2021-04-20 2021-06-18 中译语通科技股份有限公司 文本内容质量评估方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN108614867A (zh) * 2018-04-12 2018-10-02 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及***
CN108897736A (zh) * 2018-06-20 2018-11-27 大连诺道认知医学技术有限公司 基于Paper Rank算法的文献排序方法及装置
CN110442713A (zh) * 2019-07-08 2019-11-12 深圳壹账通智能科技有限公司 文章管理方法、装置、计算机设备和存储介质
CN110580279A (zh) * 2019-08-19 2019-12-17 湖南正宇软件技术开发有限公司 一种信息归类方法和***、设备及存储介质
CN112989816A (zh) * 2021-04-20 2021-06-18 中译语通科技股份有限公司 文本内容质量评估方法及***

Also Published As

Publication number Publication date
CN113535952A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
Lao et al. Fast query execution for retrieval models based on path-constrained random walks
CN112035658B (zh) 基于深度学习的企业舆情监测方法
Ibáñez et al. Predicting citation count of Bioinformatics papers within four years of publication
CN101133388A (zh) 基于多索引的信息检索***
US8364679B2 (en) Method, system, and apparatus for delivering query results from an electronic document collection
WO2012149378A1 (en) Electronic review of documents
CA2768901A1 (en) Method, system, and apparatus for delivering query results from an electronic document collection
CN111368891A (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN113535952B (zh) 一种基于人工智能的智能匹配数据处理方法
CN114691986A (zh) 基于子空间适应性间距的跨模态检索方法及存储介质
Lee et al. A web text mining approach based on self-organizing map
MidhunChakkaravarthy Evolutionary and incremental text document classifier using deep learning
Hsu et al. Classification algorithms for NETNEWS articles
CN115982429B (zh) 一种基于流程控制的知识管理方法及***
CN108804422B (zh) 一种科技论文文本建模方法
CN116127194A (zh) 一种企业推荐方法
Cao Classification of Digital Teaching Resources Based on Data Mining.
Ali et al. A novel inherent distinguishing feature selector for highly skewed text document classification
CN111667023B (zh) 获取目标类别的文章的方法和装置
Denzler et al. Granular knowledge cube
CN114443820A (zh) 一种文本聚合方法以及文本推荐方法
CN112507687A (zh) 一种基于二次排序的工单检索方法
CN112800270A (zh) 基于音乐标签和时间信息的音乐推荐方法及***
CN113590673A (zh) 基于区块链深度学习的数据热度统计方法
Dube et al. Improving Library Book Retrieval By Using Topic Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant