CN111611342B - 一种获取词项段落关联权重的方法和装置 - Google Patents
一种获取词项段落关联权重的方法和装置 Download PDFInfo
- Publication number
- CN111611342B CN111611342B CN202010274876.0A CN202010274876A CN111611342B CN 111611342 B CN111611342 B CN 111611342B CN 202010274876 A CN202010274876 A CN 202010274876A CN 111611342 B CN111611342 B CN 111611342B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- document structure
- structure position
- value
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种获取词项段落关联权重的方法和装置,其方法包括步骤:A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数;其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应;A2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的段落关联权重。
Description
技术领域
本发明涉及文档提取技术领域,尤其涉及一种获取词项段落关联权重的方法与装置。
背景技术
目前大多数中文文本分类***都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词。
最常用、效果比较好的文本表征方法是建立词项-文档矩阵。词项- 文档矩阵中的每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于该文档来说的重要程度。一个词对于一个文档是否重要,体现在两个方面:一个词项在一个文档中出现次数越多,则相对于文档的重要性就越大;若词项在整个语料库中出现的次数越多,那么对于该文档而言这个词就越没有意义,即越不重要,此为TF-IDF算法的思想。基于TextRank的关键词提取是另一类方法,可针对单文档实现关键词提取。TextRank关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组,TextRank算法是利用局部词汇之间的关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。
文档中的同一词项在文档同一结构位置中的所处段落不同,对文档主题的表征作用亦可能不同。譬如文档某章节第1段落与第2段落一般在行文上具有连贯性,第1段落中词项与第2段落中词项具有某种必然联系(可能是词项的重复出现,或潜在语义的相同,或逻辑上与阐述上的因果或顺序关联等)。而一般的词项-文档矩阵用中纯粹地采用词项的出现次数来表示词项对文档主题的表征,以在特定文档词项中低频、而相对其它文档高频的词项作为主题词,TF-IDF倾向于过滤掉常见的词语、保留重要的词语;TextRank算法利用局部词汇之间的关系(共现窗口) 对后续关键词进行排序,仅考虑了局部邻接词项之间的共现关系;两种常用方法均没有考虑词项在文档同一结构位置段落差异邻接关系对文档表征的差异。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述没有考虑词项在文档同一结构位置段落差异邻接关系对文档表征的差异的问题,本发明提供一种获取词项段落关联权重的方法与装置。
(二)技术方案
为了达到上述目的,本发明提供一种获取词项段落关联权重的方法,包括步骤:
A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数;
其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应;
A2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的段落关联权重。
优选的,所述步骤A2包括:
A2-1、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值;
其中,所述第一数值为:段落中所有词项的权重的平均值;
A2-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值,获取与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序;
其中,所述第一顺序为:与所述文档结构位置的编号所对应的文档结构位置中的段落的第一数值由高到低排列的顺序;
A2-3、针对与所述文档结构位置的编号所对应的文档结构位置,根据预先设定的初始值,确定所述文档结构位置中任一段落的第一关联权重;
其中,所述段落的第一关联权重为预先设定的初始值;
A2-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值和第一关联权重、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取所述预先设定的多个词项中任一词项段落关联权重。
优选的,所述步骤A2-4包括:
A2-4-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值、与所述文档结构位置的编号所对应的文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一绝对值;
其中,所述文档结构位置中任一段落的第一绝对值包括:所述任一段落分别与第一顺序中在所述段落之前的段落的第一数值的差的绝对值;
A2-4-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的段落的编号、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二绝对值;
其中,所述文档结构位置中任一段落的第二绝对值包括:所述段落分别与第一顺序中所述段落之前的段落对应的2n的数值;
其中n为所述段落分别与第一顺序中所述段落之前的段落的编号的差的绝对值;
A2-4-3、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的第一绝对值和第二绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值;
其中,所述第三绝对值包括:所述段落分别与第一顺序中所述段落之前的任一段落的第一绝对值与第二绝对值的商值;
A2-4-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值;
其中,所述第四平均值为:所述段落分别与所述段落在第一顺序中在所述段落之前的所有段落的第三绝对值的平均值;
A2-4-5、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号,确定所述词项的段落关联权重。
优选的,所述步骤A2-4-5包括:
A2-4-5-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,确定与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重;
其中,所述段落的第二关联权重为:所述段落的第四平均值与所述段落的第一数值的商的数值,然后再加所述段落的第一关联权重;
A2-4-5-2、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重的第二关联权重和预先设定的阈值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重值;
A2-4-5-3、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重和所述的第一数值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重;
其中,所述段落中任一词项的第四关联权重为:所述词项所在的段落的第三权重值和第一数值的乘积;
A2-4-5-4、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重和与所述文档结构位置的编号所对应的文档结构位置中的任一段落的编号所对应的段落中的词项的数量,获取词项的段落关联权重。
优选的,所述步骤A2-4-5-2包括:
A2-4-5-2-1、判断所述段落的第二关联权重和所述预先设定的阈值的大小,获取判断结果;
A2-4-5-2-2、基于所述判断结果,确定所述段落的第三关联权重值。
优选的,所述步骤A2-4-5-2-2包括:
若所述判断结果为所述段落的第二关联权重大于所述预先设定的阈值,则确定所述段落的第三关联权重值为:所述预先设定的阈值;
若所述判断结果为所述段落的第二关联权重小于所述预先设定的阈值,则确定所述段落的第三关联权重值与所述段落的第二关联权重的值相同。
优选的,所述预先设定的阈值为2。
优选的,所述步骤A2-4-5-4包括:
A2-4-5-4-1、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重,获取所述任一词项所有的第四关联权重的总数值;
A2-4-5-4-2、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号获取所述预先设定的多个词项中任一词项的数量;
A2-4-5-4-3、所述任一词项所有的第四关联权重的总数值和多个词项中任一词项的数量,确定所述任一词项的段落关联权重;
其中,所述最终的关联权重为所述任一词项所有的第四关联权重的平均值。
优选的,所述预先设定的初始值为1。
一种获取词项段落关联权重的装置,所述获取词项段落关联权重的装置存储计算机指令;所述计算机指令使所述获取词项段落关联权重的装置执行如上述任一项所述获取词项段落关联权重的方法。
(三)有益效果
本发明的有益效果是:本发明在表征文档主题时,考虑段落与高平均词项权重段落的近邻关系,提升近邻段落中词项的段落关联权重,提升、突出了处于文档结构重要段落附近词项的地位。
本发明在同一文档结构位置内部,同时考虑多个段落、及近邻距离的影响级差,体现多段落的共同作用。
本发明将出现在不同文档结构位置的同一词项段落关系权重求平均值,综合考虑了同一词项在的不同文档结构位置对文档主题表征的差异。
附图说明
图1为本发明的获取词项段落关联权重的方法流程图;
图2为本发明实施例二中的获取词项段落关联权重的方法示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细
具体实施例一
参见附图1,本实施例一中的获取词项段落关联权重的方法,包括步骤:
A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数。
其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应。
A2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的段落关联权重。
本实施例中,还可根据所述预先设定的多个词项中任一词项的段落权重提取文档中的主题词。其中文档中的主题词为段落权重值最高的n 个的词项。
本实施例中,还可以根据现有TF-IDF算法处理文档后,获取文档中重要的词项,然后根据本实施例中的获取词项段落关联权重的方法获取词项的段落关联权重,最后提取文档中的主题词,其中文档中的主题词为所述词项中段落权重最高的n个词项。
本实施例中优选的,所述步骤A2包括:
A2-1、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值。
其中,所述第一数值为:段落中所有词项的权重的平均值。
A2-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值,获取与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序。
其中,所述第一顺序为:与所述文档结构位置的编号所对应的文档结构位置中的段落的第一数值由高到低排列的顺序。
A2-3、针对与所述文档结构位置的编号所对应的文档结构位置,根据预先设定的初始值,确定所述文档结构位置中任一段落的第一关联权重。
其中,所述段落的第一关联权重为预先设定的初始值。
举例说明,假如某结果部分有5个段落(原始段落序列),段落编号与评价权重分别为:
段落1:5.6
段落2:3.2
段落3:8.8
段落4;1.2
段落5;6.6
则段落平均权重排序与关联权重赋初值后如下(排序段落序列):
段落3:8.8,1(初始值)
段落5;6.6,1(初始值)
段落1;5.6,1(初始值)
段落2;3.2,1(初始值)
段落4;1.2,1(初始值)
原始段落序列中段落1、3、5平均权重较高,说明这些段落中有原始权重较高的词项较多、此类段落对表征文档特征较重要。基于自然语言的上下文有关性,段落平均权重低的段落如段落2或段落4,由于其近邻段落平均权重较高的段落,此类段落的段落平均权重不能反映上下文有关性,需适当提升权重。如段落4平均权重是1.2,其前后段落3、5的平均权重较高,说明段落4对段落3、5的表征有意义。提升后段落4的权重应比计算得出的原段落平均权重略高,但不能高过段落3、5的权重;且提升后权重又不能改变原始排序顺序,且相隔越远的段落、其有关性依次减弱。从排序段落序列可知,排第一的段落3是平均权重最高的段落,其权重无法再提升,只有排序第二及以后的段落可以提升,故从排序第二的段落开始。
A2-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值和第一关联权重、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取所述预先设定的多个词项中任一词项段落关联权重。
本实施例中优选的,所述步骤A2-4包括:
A2-4-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值、与所述文档结构位置的编号所对应的文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一绝对值。
其中,所述文档结构位置中任一段落的第一绝对值包括:所述任一段落分别与第一顺序中在所述段落之前的段落的第一数值的差的绝对值。
A2-4-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的段落的编号、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二绝对值。
其中,所述文档结构位置中任一段落的第二绝对值包括:所述段落分别与第一顺序中所述段落之前的段落对应的2n的数值。
其中n为所述段落分别与第一顺序中所述段落之前的段落的编号的差的绝对值。
以平均权重差值除2的编号差值次方;离得远的段落相关性越小,直接相邻的段落以平均权重差值除2、相隔两个段落的除4,依次类推,即除2n, n为段落序号差值的绝对值,使离得越远的段落对当前段落的影响降低。
A2-4-3、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的第一绝对值和第二绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值。
其中,所述第三绝对值包括:所述段落分别与第一顺序中所述段落之前的任一段落的第一绝对值与第二绝对值的商值。
A2-4-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值。
其中,所述第四平均值为:所述段落分别与所述段落在第一顺序中在所述段落之前的所有段落的第三绝对值的平均值。
A2-4-5、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号,确定所述词项的段落关联权重。
本实施例中优选的,所述步骤A2-4-5包括:
A2-4-5-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,确定与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重。
其中,所述段落的第二关联权重为:所述段落的第四平均值与所述段落的第一数值的商的数值,然后再加所述段落的第一关联权重。
A2-4-5-2、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重的第二关联权重和预先设定的阈值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重值。
A2-4-5-3、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重和所述的第一数值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重。
其中,所述段落中任一词项的第四关联权重为:所述词项所在的段落的第三权重值和第一数值的乘积。
A2-4-5-4、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重和与所述文档结构位置的编号所对应的文档结构位置中的任一段落的编号所对应的段落中的词项的数量,获取词项的段落关联权重。
本实施例中优选的,所述步骤A2-4-5-2包括:
A2-4-5-2-1、判断所述段落的第二关联权重和所述预先设定的阈值的大小,获取判断结果。
A2-4-5-2-2、基于所述判断结果,确定所述段落的第三关联权重值。
本实施例中优选的,所述步骤A2-4-5-2-2包括。
若所述判断结果为所述段落的第二关联权重大于所述预先设定的阈值,则确定所述段落的第三关联权重值为:所述预先设定值。
若所述判断结果为所述段落的第二关联权重小于所述预先设定的阈值,则确定所述段落的第三关联权重值与所述段落的第二关联权重的值相同。
本实施例中优选的,所述预先设定的阈值为2。
本实施例中优选的,所述步骤A2-4-5-4包括:
A2-4-5-4-1、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重,获取所述任一词项所有的第四关联权重的总数值。
A2-4-5-4-2、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号获取所述预先设定的多个词项中任一词项的数量。
A2-4-5-4-3、所述任一词项所有的第四关联权重的总数值和多个词项中任一词项的数量,确定所述任一词项的段落关联权重。
其中,所述最终的关联权重为所述任一词项所有的第四关联权重的平均值。
本实施例中优选的,所述预先设定的初始值为1。
本实施例在表征文档主题时,考虑段落与高平均词项权重段落的近邻关系,提升近邻段落中词项的段落关联权重,提升、突出了处于文档结构重要段落附近词项的地位。
具体实施例二
为了更好的解释本发明,参见附图2,本实施例中词项文档段落位置表为预先输入计算机的,首先对该表进行说明。
本实施例中输入是特定文档的词项文档段落位置表words_list,是包含从特定文档中提取出的所有词项及其文档段落位置信息的数据库表,表中每一特定编号的词项在文档同一结构的不同段落、或同一段落的不同语句均可能存在多条记录,具体字段定义见表1。
表1词项文档段落位置表定义
字段名称 | 字段含义 | 字段类型 | 字段说明 |
word_id | 词项编号 | INTEGER | 特定词项的唯一编号 |
word_weight | 词项基本权重 | DECIMAL | 特定词项的基本权重 |
section_id | 文档结构编号 | INTEGER | 词项所处文档具体结构位置的编号 |
parag_id | 文档段落编号 | INTEGER | 词项所处文档具体段落的编号 |
表1中word_weight是通过某种方法获得的词项基本权重,如专利方法:一种获取领域文档词项分级权重的方法及装置;section_id是特定段落所在文档具体结构位置的编号,词项所对应同一section_id位置可能存在1个或多个段落;parag_id是特定词项所在文档具体段落的编号,相邻段落的编号是连续的,词项所对应同一parag_id段落可能存在1个或多个特定词项。
本实施例中,在输入是特定文档的词项文档段落位置表后,参见附图1,根据获取词项段落关联权重的方法,进行获取,具体步骤包括:
B1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数;
其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应。
在本实施例的具体应用中,具体的步骤为:
(1-1)进入***初始化,定义数据库操作语句执行函数sql_execute,函数sql_execute的输入参数为文本sql,文本sql为满足SQL-92标准的数据库操作语句;函数调用数据库***功能执行文本sql,文本sql的执行结果是数据库中表、或表中数据的改变,函数本身不直接输出结果;之后进入1-2)。
(1-2)将文本sql设为:SELECT section_id,parag_id, SUM(word_weight)/COUNT(word_weight)AS avg_weights,1.0AS parag_weight INTO parags_weights FROMwords_list GROUP BY section_id,parag_id ORDER BY section_id,weights DESC,通过调用函数 sql_execute,对文档词项按段落进行词项权重累加与词项计数,将段落词项累积权重除以词项数得到段落词项平均权重,设段落关联权重初始值为1.0,按文档结构位置编号上升与段落词项平均权重下降的顺序进行排序,将段落词项平均权重与段落关联权重存入段落权重表parags_weights,段落权重表parags_weights包含文档结构编号section_id、文档段落编号 parag_id、段落词项平均权重avg_weights、段落关联权重parag_weight,之后进入1-3)。
B2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的段落关联权重。
在本实施例的具体应用中,具体的步骤包括:
(1-3)针对段落权重表parags_weights的每条记录,根据同一文档结构位置各段落词项平均权重的高低、及相互的邻接关系,计算段落关联权重。设当前文档结构位置section为0,读取段落权重表parags_weights 第一条,作为当前记录,进入1-3-1)。
(1-3-1)读取当前记录的文档结构编号section_id、段落编号parag_id、段落词项平均权重avg_weights,进入1-3-2)。
(1-3-2)判断当前文档结构位置section与文档结构编号section_id 是否相等,若相等,则进入1-3-3);否则,进入1-3-8)。
(1-3-3)将文本sql设为:SELECT parag_id,(avg_weights-*)/ POWER(2,ABS(parag_id-#))+1AS weights INTO temp FROM parags_weights WHERE section_id=%AND avg_weights>*,将当前段落词项平均权重avg_weights、段落编号parag_id、文档结构编号section_id转换成字符串,并分别替换文本sql中的*、#、%;通过调用函数sql_execute,实现获取当前文档结构位置范围内词项平均权重高于当前段落词项平均权重的所有段落,计算各段落词项平均权重与当前段落词项平均权重之差、及各段落编号与当前段落编号之差的绝对值,用词项平均权重除以2 的段落编号之差绝对值次方,得到当前段落从各段落获得的累加权重,结果写入临时表temp;进入1-3-4)。
(1-3-4)将文本sql设为:SELECT SUM(weights)/COUNT(weights) /*+1 FROMtemp,将当前段落词项平均权重avg_weights转换成字符串、并替换文本sql中的*,通过调用函数sql_execute,实现从临时表temp中通过汇总各段落累加权重与段落数、再求平均值,然后平均值除以当前段落的词项平均权重、再加1,得到当前段落的初始关联权重weight;进入3-3-5)。
(1-3-5)判断当前段落的初始关联权重weight是否大于2,如果是,则将初始关联权重weight修改为2;否则,不做处理;之后,进入1-3-6)。
(1-3-6)将文本sql设为:UPDATE parags_weights SET parag_weight=#,avg_weights=avg_weights*#WHERE parag_id=%,将当前段落初始关联权重weight、段落编号parag_id转换成字符串,分别替换文本sql中的#、%,通过调用函数sql_execute,实现将当前段落关联权重与词项平均权重的更新;之后,进入1-3-7)。
(1-3-7)将文本sql设为:DROP TABLE temp,通过调用函数 sql_execute,实现临时表temp删除;进入1-3-8)。
(1-3-8)判断当前记录是否是段落权重表parags_weights的最后一条记录,如果是,则进入1-4);否则,读取下一条记录、作为当前记录,进入1-3-1)。
(1-4)将文本sql设为:SELECT word_id,parag_weight INTO temp FROM words_list,parags_weights WHERE words_list.parag_id= parags_weights.parag_id,通过调用函数sql_execute,实现根据段落编号将对应的段落关联权重赋给该段落所对应的所有词项的段落关联权重,结果写入词项段落权重关联表temp,之后进入3-5)。
(1-5)将文本sql设为:SELECT word_id,SUM(parag_weight)/ COUNT(parag_weight)AS re_weight INTO words_weights FROM temp,通过调用函数sql_execute,实现从词项段落权重关联表累加词项在文档中不同段落的段落关联权重、除以词项在文档中的词频数,得到词项段落关联权重,将结果写入词项文档段落关联权重表words_weights,之后进入1-6)。
(1-6)输出词项文档段落关联权重表words_weights。
本实施例在表征文档主题时,考虑段落与高平均词项权重段落的近邻关系,提升近邻段落中词项的段落关联权重,提升、突出了处于文档结构重要段落附近词项的地位。
本实施例二中,根据现有TF-IDF算法处理文档后,获取文档中重要的词项,然后根据本实施例二中的获取词项段落关联权重的方法获取词项的段落关联权重表words_weights,最后提取文档中的主题词,其中文档中的主题词为所述词项中段落权重最高的n个词项。
本实施例在同一文档结构位置内部,同时考虑多个重要段落、及近邻距离的影响级差,体现多段落的共同作用;
本实施例将出现在不同文档结构位置的同一词项段落关系权重求平均值,综合考虑了同一词项在的不同文档结构位置对文档主题表征的差异;
本实施例的方法适用于所有需突出不同段落近邻关系对文档表征差异性的词项权重的计算。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (3)
1.一种获取词项段落关联权重的方法,其特征在于,包括步骤:
A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数;
其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应;
A2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的段落关联权重;
所述步骤A2包括:
A2-1、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值;
其中,所述第一数值为:段落中所有词项的权重的平均值;
A2-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值,获取与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序;
其中,所述第一顺序为:与所述文档结构位置的编号所对应的文档结构位置中的段落的第一数值由高到低排列的顺序;
A2-3、针对与所述文档结构位置的编号所对应的文档结构位置,根据预先设定的初始值,确定所述文档结构位置中任一段落的第一关联权重;
其中,所述段落的第一关联权重为预先设定的初始值;
A2-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值和第一关联权重、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取所述预先设定的多个词项中任一词项段落关联权重;
所述步骤A2-4包括:
A2-4-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一数值、与所述文档结构位置的编号所对应的文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一绝对值;
其中,所述文档结构位置中任一段落的第一绝对值包括:所述任一段落分别与第一顺序中在所述段落之前的段落的第一数值的差的绝对值;
A2-4-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的段落的编号、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二绝对值;
其中,所述文档结构位置中任一段落的第二绝对值包括:所述段落与第一段落之间所对应的数值2n;
所述第一段落为在第一顺序中在所述段落之前的任一段落;
其中,n为所述段落的在第一顺序中的编号与所述第一段落在第一顺序中的编号的差的绝对值;
A2-4-3、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对应的第一绝对值和第二绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值;
其中,所述第三绝对值包括:所述段落分别与第一顺序中所述段落之前的任一段落的第一绝对值与第二绝对值的商值;
A2-4-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第三绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值;
其中,所述第四平均值为:所述段落分别与所述段落在第一顺序中在所述段落之前的所有段落的第三绝对值的平均值;
A2-4-5、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号,确定所述词项的段落关联权重;
所述步骤A2-4-5包括:
A2-4-5-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第四平均值和所述段落的第一数值,确定与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重;
其中,所述段落的第二关联权重为:所述段落的第四平均值与所述段落的第一数值的商的数值,然后再加所述段落的第一关联权重;
A2-4-5-2、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第二关联权重的第二关联权重和预先设定的阈值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重值;
A2-4-5-3、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第三关联权重和所述的第一数值,确定所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重;
其中,所述段落中任一词项的第四关联权重为:所述词项所在的段落的第三权重值和第一数值的乘积;
A2-4-5-4、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重和与所述文档结构位置的编号所对应的文档结构位置中的任一段落的编号所对应的段落中的词项的数量,获取词项的段落关联权重;
所述步骤A2-4-5-2包括:
A2-4-5-2-1、判断所述段落的第二关联权重和所述预先设定的阈值的大小,获取判断结果;
A2-4-5-2-2、基于所述判断结果,确定所述段落的第三关联权重值;
所述步骤A2-4-5-2-2包括:
若所述判断结果为所述段落的第二关联权重大于所述预先设定的阈值,则确定所述段落的第三关联权重值为:所述预先设定值;
若所述判断结果为所述段落的第二关联权重小于所述预先设定的阈值,则确定所述段落的第三关联权重值与所述段落的第二关联权重的值相同;
所述步骤A2-4-5-4包括:
A2-4-5-4-1、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中任一词项的第四关联权重,获取所述任一词项所有的第四关联权重的总数值;
A2-4-5-4-2、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号获取所述预先设定的多个词项中任一词项的数量;
A2-4-5-4-3、所述任一词项所有的第四关联权重的总数值和多个词项中任一词项的数量,确定所述任一词项的段落关联权重;
其中,所述段落关联权重为所述任一词项所有的第四关联权重的平均值。
2.根据权利要求1所述的方法,其特征在于,所述预先设定的阈值为2。
3.根据权利要求1所述的方法,其特征在于,所述预先设定的初始值为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274876.0A CN111611342B (zh) | 2020-04-09 | 2020-04-09 | 一种获取词项段落关联权重的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274876.0A CN111611342B (zh) | 2020-04-09 | 2020-04-09 | 一种获取词项段落关联权重的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611342A CN111611342A (zh) | 2020-09-01 |
CN111611342B true CN111611342B (zh) | 2023-04-18 |
Family
ID=72201801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010274876.0A Active CN111611342B (zh) | 2020-04-09 | 2020-04-09 | 一种获取词项段落关联权重的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611342B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
CN105426379A (zh) * | 2014-10-22 | 2016-03-23 | 武汉理工大学 | 基于词语位置的关键字权值计算方法 |
CN105760474A (zh) * | 2016-02-14 | 2016-07-13 | Tcl集团股份有限公司 | 一种基于位置信息的文档集的特征词提取方法及*** |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
WO2018121145A1 (zh) * | 2016-12-30 | 2018-07-05 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI434187B (zh) * | 2010-11-03 | 2014-04-11 | Inst Information Industry | 文字轉換方法與系統 |
-
2020
- 2020-04-09 CN CN202010274876.0A patent/CN111611342B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033964A (zh) * | 2011-01-13 | 2011-04-27 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
CN105426379A (zh) * | 2014-10-22 | 2016-03-23 | 武汉理工大学 | 基于词语位置的关键字权值计算方法 |
CN105760474A (zh) * | 2016-02-14 | 2016-07-13 | Tcl集团股份有限公司 | 一种基于位置信息的文档集的特征词提取方法及*** |
CN106845265A (zh) * | 2016-12-01 | 2017-06-13 | 北京计算机技术及应用研究所 | 一种文档密级自动识别方法 |
WO2018121145A1 (zh) * | 2016-12-30 | 2018-07-05 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN109766408A (zh) * | 2018-12-04 | 2019-05-17 | 上海大学 | 综合词位置因素和词频因素的文本关键词权重计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111611342A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423444B (zh) | 热词词组提取方法和*** | |
WO2020192401A1 (en) | System and method for generating answer based on clustering and sentence similarity | |
US10255354B2 (en) | Detecting and combining synonymous topics | |
Pranckevičius et al. | Application of logistic regression with part-of-the-speech tagging for multi-class text classification | |
Usman et al. | Urdu text classification using majority voting | |
CN108363694B (zh) | 关键词提取方法及装置 | |
US11144723B2 (en) | Method, device, and program for text classification | |
CN106886512B (zh) | 文章分类方法和装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN107729337B (zh) | 事件的监测方法和装置 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN106649308B (zh) | 一种分词词库更新方法及*** | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及*** | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
CN111611342B (zh) | 一种获取词项段落关联权重的方法和装置 | |
US20150227515A1 (en) | Robust stream filtering based on reference document | |
US11494555B2 (en) | Identifying section headings in a document | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
Lemnitzer et al. | Combining a rule-based approach and machine learning in a good-example extraction task for the purpose of lexicographic work on contemporary standard German | |
CN106777191B (zh) | 一种基于搜索引擎的检索模式生成方法及装置 | |
CN111079425B (zh) | 一种地质文档词项分级方法及装置 | |
JP5642229B2 (ja) | 重要性判定システム、重要性判定方法及びコンピュータプログラム | |
CN112529627A (zh) | 商品隐式属性抽取方法、装置、计算机设备及存储介质 | |
Ajmal et al. | An extractive Malayalam document summarization based on graph theoretic approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Deng Jiqiu Inventor after: Lu Biyu Inventor after: Liu Wenyi Inventor after: Li Chenhan Inventor after: He Meixiang Inventor before: Deng Jiqiu Inventor before: Lu Biyu Inventor before: Li Chenhan |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |