CN107403002B - 一种基于词汇关键度的网络论坛正文提取方法、装置 - Google Patents

一种基于词汇关键度的网络论坛正文提取方法、装置 Download PDF

Info

Publication number
CN107403002B
CN107403002B CN201710601539.6A CN201710601539A CN107403002B CN 107403002 B CN107403002 B CN 107403002B CN 201710601539 A CN201710601539 A CN 201710601539A CN 107403002 B CN107403002 B CN 107403002B
Authority
CN
China
Prior art keywords
text
content
post page
criticality
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710601539.6A
Other languages
English (en)
Other versions
CN107403002A (zh
Inventor
王红
刘锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201710601539.6A priority Critical patent/CN107403002B/zh
Publication of CN107403002A publication Critical patent/CN107403002A/zh
Application granted granted Critical
Publication of CN107403002B publication Critical patent/CN107403002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向论坛主题帖的正文筛选方法,该方法涉及数据挖掘领域,是为解决从论坛主题帖中提取正文而提出的。本算法的实现方法是从网页总体中抽取部分样本,利用去除显著的非正文部分,对剩余内容进行分词,用TF‑IDF方法评价所有词汇的关键度,定位关键度最高的若干词汇所在位置,记录出现最频繁的位置,利用该位置信息对数据集中剩余的主题帖页面进行正文提取。经实验验证,本方法具有较高的准确度和执行效率。

Description

一种基于词汇关键度的网络论坛正文提取方法、装置
技术领域
本发明设计网络数据挖掘领域,具体为根据论坛主题帖内词汇的关键度,提取主题帖正文的方法、装置。
背景技术
正文是一个论坛主题帖最重要的部分。因而提取出主题帖正文是对页面进行后续处理前最重要的准备工作。目前,对网页正文提取的方法主要有根据网页结构和文本特征进行正文提取的方法;使用布局相似性作为一句进行正文提取的方法;使用DOM节点的文本密度作为标准的正文提取方法等等。但是,在实际中,由于论坛正文的特征和论坛自身的主题紧密相关,人为指定特征缺乏客观性,又难以找到具有通用性的页面特征,上述方法均难以满足通用正文提取的需求。目前,基于词汇关键度的网络论坛正文提取方法尚未出现。
发明内容
为了解决现有技术的不足,本发明提供了一种基于词汇关键度的网络论坛正文提取方法,根据页面内有意义文本中各个词汇的关键度,选择关键词频繁出现的区域,以此指导正文提取,具有高准确度和执行效率。
本发明采用的技术方案为:
一种基于词汇关键度的网络论坛正文提取方法,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。
进一步的,所述去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
进一步的,去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:<head>、<script>和<a>。
进一步的,根据停用词库排除主题帖页面中无关内容包括:根据停用词库,将出现停用词的整行文本去除;或者根据停用词库与待测文本比对以决定是否保留该段待测文本。
进一步的,根据相似规则去除主题帖页面中不应被包含在正文中的内容包括:
比对两段待测文本的若干起始字符,判断是否保留这两段文本;或者根据相似规则去除由程序生成的不应包含在正文中的内容。
进一步的,采用TF-IDF方法计算所有自会的关键度。
进一步的,所述定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文包括:
在主题帖页面内对关键度最高的词汇打分,选出正文出现概率最高的位置;
在不同页面中,对所述正文出现概率最高的位置再次打分,以确定正文位置;
根据所确定的正文位置,提取数据集中剩余主题帖页面的正文。
进一步的,根据所确定的正文位置,提取数据集中剩余主题帖页面的正文包括:
先根据所确定的正文位置构造解析规则,再根据所述解析规则对数据集中剩余主题帖页面进行正文提取。
本发明还提出了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行以下处理:
抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。
本发明还提出了一种基于词汇关键度的网络论坛正文提取装置,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。
本发明的有益效果:
本发明是一种基于词汇关键度的网络论坛正文提取方法,在去除无关内容后,根据词汇的关键度确定正文的位置,使得可以将该位置信息用于对同论坛的大规模正文提取中,具有高准确度和执行效率。
附图说明
图1为本发明完整流程的流程图;
具体实施方式:
下面结合附图与实施例对本发明作进一步说明:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明的典型实施例是一种基于词汇关键度的网络论坛正文提取方法,包括:抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,在主题帖页面内对关键度最高的词汇打分,选出正文出现概率最高的位置;在不同页面中,对所述正文出现概率最高的位置再次打分,以确定正文位置;根据所确定的正文位置,提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。
去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
对应的虚拟模块是无关内容去除模块,用于去除页面中显著的非正文内容;停用规则模块,用于根据停用词库排除无关内容;相似规则模块,用于去除由程序生成的,不应被包含在正文中的内容;分词模块,用于将大段文本拆分为若干词汇;关键度评价模块,用于评价所有词汇的关键度;打分模块,用于避免网页噪声造成的正文定位错误;提取模块,用于根据打分定位结果从网页总体中大规模提取正文;
去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:<head>、<script>和<a>。
根据停用词库排除主题帖页面中无关内容包括:根据停用词库,将出现停用词的整行文本去除;或者根据停用词库与待测文本比对以决定是否保留该段待测文本。
根据相似规则去除主题帖页面中不应被包含在正文中的内容包括:
比对两段待测文本的若干起始字符,判断是否保留这两段文本;或者根据相似规则去除由程序生成的不应包含在正文中的内容。
本实施例中采用TF-IDF方法计算所有自会的关键度。
本发明还提出了一种计算机可读存储介质和一种基于词汇关键度的网络论坛正文提取装置,存储介质中存储有多条指令,所述指令适于由处理器加载并执行以下处理:
抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理。
下面给出一个实际应用例:
我们利用网络爬虫在互联网上爬取了若干论坛页面,去除非主题帖页面后,所有论坛剩余主题帖页面总计3417,这些页面来自13个不同的网络论坛。本例旨在从主题帖中提取出正文信息。
步骤一:抽样。从每个论坛中随机抽取5个页面进行训练,以下将针对单一论坛的处理过程进行描述。
步骤二:无关内容去除。将网页源码中的<head>,<a>,<script>等标签及其内容去除。主题帖页面的正文应当是在<body>部分的纯文本,因而<head>标签所包含的网页元数据和<a>标签所包含的超链接等均显然不是正文,同样,<script>标签包含的脚本代码也非正文,应当去除。
步骤三:标签去除。将网页源码中所有标签去除,保留其包含的内容。至此,剩余的源码应均为能够在网页中显示为纯文本的内容,源码中的每一行对应于网页中的一段文字。
步骤四:停用词去除。根据停用词库,将出现停用词的整行文本去除。如某行中出现“版权所有”,由于此文本常出现于版权声明中,有理由认为其非正文,应将其所在的整行文本去除。
步骤五:相似词去除。以每行起始的若干字符为键,若键相同,则将这两行都去除。如某行中出现“发表于”,由于此文本常出现于描述发帖时间的部分,由后台程序自动生成,而非用户所撰写,故应将其去除。同时由于不同论坛对发帖时间的描述方法存在差异,但该类文本出现频率较高,故不将其添加到停用词库中,而采用此法去除。
步骤六:分词。将每行中的文本划分为若干词汇。对于英文论坛,可以简单按照空格和标点进行分词,对于中文论坛,需使用专业软件分词,本例中使用开源分词软件jieba。
步骤七:计算关键度。对每个词汇,计算其关键度。本例中使用较为通用的词汇关键度评价方法TF-IDF方法,关键度较高的词汇有更高的概率出现在正文部分。其中TF-IDF方法的公式为
Figure BDA0001357267800000051
其中,F为语料库中所有文件的集合,f∈F为文件,w为词汇,N(f,w)为词汇w在文件f中出现的次数。
Figure BDA0001357267800000052
其中,P(f,w)为词汇出现次数,当词汇w出现在文件f中,P(f,w)为1,否则为0,分母部分+1是为了防止w在语料库中未出现,导致分母为0的情况。
W(f,w)=TF(f,w)×IDF(f,w) (3)
其中,W为词汇w的重要度。
步骤八:定位关键词。记录关键度最高的若干词汇所在的位置。本例中使用源码中标签的class属性作为位置信息记录。
步骤九:页面内打分。打分选出正文出现概率最高的位置。其实质是通过比较同一class属性值的出现次数判断正文的位置,在进行过步骤二到步骤五的预处理步骤后,正文应当占据剩余内容的主要部分。
步骤十:页面间打分。将不同页面判断的正文位置再次打分,以确定正文位置。单一页面可能由于诸如回帖过少,图片过多等异常导致正文位置判断错误,对多个页面进行打分可以降低最终结果出现错误的概率。
步骤十一:构造解析规则。根据步骤十的结果构造解析规则,用于大规模正文提取。本例中由于使用的是class属性值,因而无需额外处理即可直接使用。
步骤十二:应用解析规则。利用步骤十一得到的解析规则对所有数据集中所有主题帖页面进行正文提取。具体而言,从各网页源码中提取具有相同class属性值的标签,将其中包含的标签去除,余下的内容即是正文。
在本例中,我们每次从同一论坛的页面中随机抽取5个页面进行训练,得到解析规则,如此对每个论坛重复进行10次,分析解析规则的正确性。我们对前十一个步骤进行了计时,以体现本方法的效率。详细结果如表1所示。
表1正文提取方法结果
Figure BDA0001357267800000061
从表中可以看出,本发明提出的正文提取方法具有较高的准确率,在用时上,单网页的解析速度视内容量在1s到9s内浮动,效率较高。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于词汇关键度的网络论坛正文提取方法,其特征在于,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理;
所述去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
2.根据权利要求1所述的方法,其特征在于,去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:<head>、<script>和<a>。
3.根据权利要求1所述的方法,其特征在于,根据停用词库排除主题帖页面中无关内容包括:根据停用词库,将出现停用词的整行文本去除;或者根据停用词库与待测文本比对以决定是否保留该待测文本。
4.根据权利要求1所述的方法,其特征在于,根据相似规则去除主题帖页面中不应被包含在正文中的内容包括:
比对两段待测文本的若干起始字符,判断是否保留这两段文本;或者根据相似规则去除由程序生成的不应包含在正文中的内容。
5.根据权利要求1所述的方法,其特征在于,采用TF-IDF方法计算所有词汇的关键度。
6.根据权利要求1所述的方法,其特征在于,所述定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文包括:
在主题帖页面内对关键度最高的词汇打分,选出正文出现概率最高的位置;
在不同页面中,对所述正文出现概率最高的位置再次打分,以确定正文位置;
根据所确定的正文位置,提取数据集中剩余主题帖页面的正文。
7.根据权利要求6所述的方法,其特征在于,根据所确定的正文位置,提取数据集中剩余主题帖页面的正文包括:
先根据所确定的正文位置构造解析规则,再根据所述解析规则对数据集中剩余主题帖页面进行正文提取。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于:所述指令适于由处理器加载并执行以下处理:
抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理;
所述去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
9.一种基于词汇关键度的网络论坛正文提取装置,其特征在于:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
抽取数据集中部分主题帖页面样本,去除显著的非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理;
所述去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
CN201710601539.6A 2017-07-21 2017-07-21 一种基于词汇关键度的网络论坛正文提取方法、装置 Active CN107403002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710601539.6A CN107403002B (zh) 2017-07-21 2017-07-21 一种基于词汇关键度的网络论坛正文提取方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710601539.6A CN107403002B (zh) 2017-07-21 2017-07-21 一种基于词汇关键度的网络论坛正文提取方法、装置

Publications (2)

Publication Number Publication Date
CN107403002A CN107403002A (zh) 2017-11-28
CN107403002B true CN107403002B (zh) 2020-01-31

Family

ID=60402278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710601539.6A Active CN107403002B (zh) 2017-07-21 2017-07-21 一种基于词汇关键度的网络论坛正文提取方法、装置

Country Status (1)

Country Link
CN (1) CN107403002B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
CN104268148A (zh) * 2014-08-27 2015-01-07 中国科学院计算技术研究所 一种基于时间串的论坛页面信息自动抽取方法及***

Also Published As

Publication number Publication date
CN107403002A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
Chong et al. Using natural language processing for automatic detection of plagiarism
US20130325442A1 (en) Methods and Systems for Automated Text Correction
US20080104506A1 (en) Method for producing a document summary
CN112287684A (zh) 融合变体词识别的短文本审核方法及装置
CN107577663B (zh) 一种关键短语抽取方法和装置
JP2008282366A (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN106202255A (zh) 融合实体特性的越南语命名实体识别方法
CN111554272A (zh) 一种面向中文语音识别的语言模型建模方法
Mann et al. Multi-field information extraction and cross-document fusion
López et al. Experiments on sentence boundary detection in user-generated web content
Adeeba et al. CLE Urdu books n-grams
Wu et al. Integrating dictionary and web N-grams for chinese spell checking
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
US8977538B2 (en) Constructing and analyzing a word graph
Balog et al. The university of amsterdam at weps2
CN110717029A (zh) 一种信息处理方法和***
CN107403002B (zh) 一种基于词汇关键度的网络论坛正文提取方法、装置
Antara Kesiman et al. Knowledge representation and phonological rules for the automatic transliteration of balinese script on palm leaf manuscript
CN115757760A (zh) 文本摘要提取方法及***、计算设备、存储介质
Mandal et al. A systematic literature review on spell checkers for bangla language
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant