CN109101491B - 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质 - Google Patents

一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109101491B
CN109101491B CN201810816328.9A CN201810816328A CN109101491B CN 109101491 B CN109101491 B CN 109101491B CN 201810816328 A CN201810816328 A CN 201810816328A CN 109101491 B CN109101491 B CN 109101491B
Authority
CN
China
Prior art keywords
text
webpage
author information
word
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810816328.9A
Other languages
English (en)
Other versions
CN109101491A (zh
Inventor
郑敏
王志超
赫中翮
毛建云
周忠诚
段炼
郭建京
曾琰
陈敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN201810816328.9A priority Critical patent/CN109101491B/zh
Publication of CN109101491A publication Critical patent/CN109101491A/zh
Application granted granted Critical
Publication of CN109101491B publication Critical patent/CN109101491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质,该作者信息抽取方法包括:获取网页文本,提取所述网页文本中符合预设关键字集合的词语;获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则;按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取。本发明提供的作者信息抽取方法,可显著提高作者抽取的准确率及抽取效率,适用范围广,具有一定的使用前景。

Description

一种作者信息抽取方法、装置、计算机装置及计算机可读存储 介质
技术领域
本发明属于互联网技术领域,尤其涉及一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质。
背景技术
由于互联网技术的快速发展,网络信息呈***式的增长态势。在海量网页数据中,往往含有大量的有价值的信息,作者信息就是其中的一种。人们一方面可以将作者信息作为关联人物的基础,进行人物关系分析;另一方面,也可以通过作者信息判断某网页是否有进一步阅读的价值。
现有的作者信息抽取方法主要是针对文献期刊进行的,如专利号为201410437424.4的发明专利,公开了一种中国作者所发英文文献的作者机构信息抽取方法,又如专利号为201210072645.7的发明专利,公开了一种学术期刊论文作者信息挖掘方法及***。文献期刊论文由于其特定的文本结构,作者信息具有内容简短、格式固定、用词规范等特点,抽取相对简单;而网页的结构复杂,样式多变,作者信息出现的位置不固定,导致抽取准确率较低,且抽取效率低。因此,需要一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质,以尽可能精准的提取到网页中的作者信息。
发明内容
本发明实施例提供一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质,旨在解决现有技术中作者信息抽取准确率低且效率低的问题。
本发明是这样实现的,一种作者信息抽取方法,包括:
获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;具体包括以下过程:
确定所述词语在所述网页文本中的位置;
当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息;
当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
本发明还提供一种作者信息抽取装置,包括:
词语提取模块,用于获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
信息抽取模块,用于获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;所述信息抽取模块,具体包括:
词语位置确定单元,用于确定所述词语在所述网页文本中的位置;
第一信息抽取单元,用于当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息;
第二信息抽取单元,用于当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
第三信息抽取单元,用于当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述作者信息抽取方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述作者信息抽取方法的步骤。
本发明提供的作者信息抽取方法,通过获取网页文本,提取所述网页文本中符合预设关键字集合的词语;然后获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则;最后按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取。本方法不限定文本结构,可对不同网页类型中的作者信息进行抽取,应用范围广;针对作者信息出现的位置匹配不同的抽取规则,提高了作者信息抽取的准确率,提高了抽取效率。
附图说明
图1是本发明实施例提供的一种作者信息抽取方法的实现流程图;
图2是本发明实施例提供的一种对网页进行预处理的实现流程图;
图3是本发明实施例提供的一种确定网页文本的正文及标题的位置的实现流程图;
图4是本发明实施例提供的一种提取网页文本中符合预设关键字集合的词语的实现流程图;
图5是本发明实施例提供的第一种按照预设作者信息抽取规则对网页文本进行作者信息抽取的实现流程图;
图6是本发明实施例提供的第二种按照预设作者信息抽取规则对网页文本进行作者信息抽取的实现流程图;
图7是本发明实施例提供的第三种按照预设作者信息抽取规则对网页文本进行作者信息抽取的实现流程图;
图8是本发明实施例提供的一种作者信息抽取装置的结构示意图;
图9是本发明实施例提供的一种网页预处理模块的结构示意图;
图10是本发明实施例提供的一种DOM树解析模块的结构示意图;
图11是本发明实施例提供的一种词语提取模块的结构示意图;
图12是本发明实施例提供的第一种信息抽取模块的结构示意图;
图13是本发明实施例提供的第二种信息抽取模块的结构示意图;
图14是本发明实施例提供的第三种信息抽取模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的作者信息抽取方法,通过获取网页文本,提取所述网页文本中符合预设关键字集合的词语;然后获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则;最后按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取。本方法不限定文本结构,可对不同网页类型中的作者信息进行抽取,应用范围广;针对作者信息出现的位置匹配不同的抽取规则,提高了作者信息抽取的准确率,提高了抽取效率。
图1示出了本发明实施例提供的一种作者信息抽取方法的实现流程图;该作者信息抽取方法,包括:
在步骤S101中,获取网页,并对所述网页进行预处理,获得网页信息;其中,所述网页信息包括网页文本、网页文本语种、网页源代码。
在本发明实施例中,通过网页解析器获取网页;所述网页解析器包括但不限于Jsoup、python、Less.Html等,主要实现模糊匹配、结构化解析等功能。本实施例中采用Jsoup实现结构化解析功能。
作为本发明的一个实施例,网页文本包括网页标题和网页正文信息,网页文本语种可以是中文、英文、西班牙语等。
在步骤S102中,对所述网页源代码构建DOM树;
本发明实施例中的DOM树属于本领域的公知性常识,在此不再赘述。
在步骤S103中,解析所述DOM树,确定所述网页文本的正文及标题的位置;
在本实施例中,通过解析DOM树,可以明确知道DOM树中的文章标题和正文内容,再通过分割文本、文本相似度匹配等操作,得到网页文本的正文及标题的位置,具体过程会在图3中详细说明。
在步骤S104中,获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
在本发明实施例中,预设关键词是指预设的与“作者信息”相关的关键词,例如,撰写、writtenby、写于等。
在步骤S105中,获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;
在本发明实施例中,所述词语在所述网页文本中的位置关系有三种,第一种是词语在网页文本的标题与正文之间,第二种是词语在网页文本的正文内,第三种是词语在网页文本的正文后;根据词语所在的位置匹配不同的预设作者抽取规则,抽取准确率好,抽取效率高。
参照图2,上述步骤S101,包括:
步骤S1011:通过开源网页解析工具类解析所述网页,得到网页文本;
步骤S1012:对所述网页文本进行自然语言处理,识别所述网页文本语种;
步骤S1013:对所述网页文本进行分词,获取所述网页文本对应的分词集合。
经过此步骤可以得到网页文本、网页文本语种及网页文本对应的分词集合。例如,“这里是九曲黄河最后一个弯-新华网张庄,风沙,兰考,乡村振兴,脱贫攻坚这里是九曲黄河最后一个弯---河南兰考张庄,九曲黄河最后一个弯上一座普通而又特别的村庄。如同中国成千上万个张庄一样,随着脱贫攻坚、乡村振兴战略的实施,一个新时代的新张庄赫然呈现在世人面前。”
以上网页内容通过jsoup、Less.Html或其他主流解析工具解析后,得到网页文本“<title>=这里是九曲黄河最后一个弯-新华网,<keywords content>=张庄,风沙,兰考,乡村振兴,脱贫攻坚,<description content>=这里是九曲黄河最后一个弯---河南兰考张庄,九曲黄河最后一个弯上一座普通而又特别的村庄。如同中国成千上万个张庄一样,随着脱贫攻坚、乡村振兴战略的实施,一个新时代的新张庄赫然呈现在世人面前。”通过对该网页文本进行自然语言处理,识别语种为“中文”;对该网页文本的标题进行分词,得到对应的分词集合{这里,是,九曲黄河,最后,一个,弯,新华网}。
参照图3,上述步骤S103,包括:
步骤S1031:获取网页文本的正文和标题;
步骤S1032:将所述正文分割成行,存入正文集合;所述网页文本分割成行,存入网页文本集合;
步骤S1033:取正文集合第一个元素和最后一个元素与网页文本集合元素一一匹配,得到正文第一行和最后一行在所述网页文本的位置;
步骤S1034:将标题与网页文本集合元素一一匹配,得到标题在网页文本的位置。
在本实施例中,首先通过特有标签获得网页文本的正文和标题,如<title>标签内的文本是文章标题,<p>标签内文本大多是正文内容;然后通过字符串按行分割符截取,将正文和网页文本分割成行;最后,将正文的每一行与网页文本的每一行进行文本相似度计算,从而确定网页文本的正文及标题的位置。
参照图4,上述步骤S104,包括:
步骤S1041:判断预设关键字集合是否含有词语存在于所述分词集合中或存在于所述网页文本中;
步骤S1042:当判断结果为是时,获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则。
在本实施例中,获取网页文本后,判断预设关键字集合是否含有词语存在于所述分词集合中或网页文本中的具体做法为:根据预设关键词遍历所述分词集合或网页文本,当遍历到相同的词语(即判断结果为是)时,获取该词语在网页文本中的位置,并匹配对应的预设作者信息抽取规则,进而对网页文本进行作者信息抽取;当未遍历到相同的词语(即判断结果为否)时,则进行下一个预设关键词的循环。
参照图5,上述步骤105,包括:
步骤S1051:确定所述词语在所述网页文本中的位置;
步骤S1052:当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
在本实施例中,通过所述词语在网页文本集合元素中的索引和行内偏移量,来确定其在网页文本中的位置。
在本实施例中,“位置”指的是段落行,“分隔符”指的是“,、;”,此后不再赘述。
作为本发明的优选实施例,根据语种选择对应的过滤规则,具体为:当网页文本的语种为中文,且满足字符数≤6时,认为第二次截取的内容中包含作者信息,否则直接舍弃该内容;当网页文本的语种为英文或西班牙文,且满足字符数≤15时,认为第二次截取的内容中包含作者信息,否则直接舍弃该内容。
参照图6,上述步骤105,包括:
步骤S1051:确定所述词语在所述网页文本中的位置;
步骤S1053:当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
可以理解,本实施例中“行索引”指的是所在行的索引,“行内索引”指的是词语在当前行内的索引。
在本实施例中,行内索引差的“预设阈值”是0~5之间。例如,获取到的词语在网页文本的分词集合中的行索引是“10”,行内索引是“4”,再获取分词集合中行索引为“10”、行索引为“4”且词性为person的词语,该词语则作为作者信息。
作为本发明的优选实施例,语种为中文的行内索引差预设阈值为2,其他语言如英文、西班牙文的预设阈值为5。
在本实施例中,当所述词语在所述网页文本的正文内时,还有另一种处理方法:获取所述词语在网页文本的正文集合中的行索引;根据行索引获取正文集合中对应行文本,在文本行内,截取所述词语到行分割符(如“,、;”)之间的内容;按照预设的规则过滤所述词语到行分割符之间的内容,得到作者信息。
上述两种处理方法中,优先使用第一种处理方法(即按分词的正文抽取),若按分词的正文抽取无结果,再使用第二种的词语后截取方式,以防漏掉分词正文抽取中作者信息所在词语词性不为Person的词。
参照图7,上述步骤105,包括:
步骤S1051:确定所述词语在所述网页文本中的位置;
步骤S1054:当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
在本实施例中,截取正文后的内容,当所述词语出现在正文后1~15行内时,则进行下一步操作;当所述词语超出该范围,则认为是作者信息的可能性较小,不予考虑。
根据上述三种词语在网页文本中不同的位置关系,匹配不同的抽取规则,此抽取方法不局限于学术期刊、论文等结构化的文本类型,通用性好,提高了结果抽取的准确率,提升了抽取效率;通过预设的规则过滤提取到的信息,进一步提高了作者信息抽取的准确率。
图8示出了本发明实施例提供的一种作者信息抽取装置100的结构示意图,为了便于说明,仅示出了于本发明实施例相关的部分。该作者信息装置100,包括:
网页预处理模块110,用于获取网页,并对所述网页进行预处理,获得网页信息;其中,所述网页信息包括网页文本、网页文本语种、网页源代码;
在本发明实施例中,网页预处理模块110通过网页解析器获取网页;所述网页解析器包括但不限于Jsoup、python、Less.Html等,主要实现模糊匹配、结构化解析等功能。本实施例中采用Jsoup实现结构化解析功能。
作为本发明的一个实施例,网页文本包括网页标题和网页正文信息,网页文本语种可以是中文、英文、西班牙语等。
DOM树构建模块120,用于对所述网页源代码构建DOM树;
本发明实施例中的DOM树属于本领域的公知性常识,在此不再赘述。
DOM树解析模块130,用于解析所述DOM树,确定所述网页文本的正文及标题的位置。
在本实施例中,通过解析DOM树,可以明确知道DOM树中的文章标题和正文内容,再通过分割文本、文本相似度匹配等操作,得到网页文本的正文及标题的位置,具体过程会在图10中详细说明。
词语提取模块140,用于获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
在本发明实施例中,预设关键词是指预设的与“作者信息”相关的关键词,例如,撰写、writtenby、写于等。
信息抽取模块150,用于获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;
在本发明实施例中,所述词语在所述网页文本中的位置关系有三种,第一种是词语在网页文本的标题与正文之间,第二种是词语在网页文本的正文内,第三种是词语在网页文本的正文后;根据词语所在的位置匹配不同的预设作者抽取规则,抽取准确率好,抽取效率高。
参照图9,网页预处理模块110,包括:
网页解析单元111,用于通过开源网页解析工具类解析所述网页,得到网页文本;
语种识别单元112,用于对所述网页文本进行自然语言处理,识别所述网页文本语种;
文本分词单元113,用于对所述网页文本进行分词,获取所述网页文本对应的分词集合。
通过网页预处理模块110可以得到网页文本、网页文本语种及网页文本对应的分词集合。例如,“这里是九曲黄河最后一个弯-新华网张庄,风沙,兰考,乡村振兴,脱贫攻坚这里是九曲黄河最后一个弯---河南兰考张庄,九曲黄河最后一个弯上一座普通而又特别的村庄。如同中国成千上万个张庄一样,随着脱贫攻坚、乡村振兴战略的实施,一个新时代的新张庄赫然呈现在世人面前。”
以上网页内容通过网页解析单元111中的jsoup、Less.Html或其他主流解析工具解析后,得到网页文本“<title>=这里是九曲黄河最后一个弯-新华网,<keywordscontent>=张庄,风沙,兰考,乡村振兴,脱贫攻坚,<description content>=这里是九曲黄河最后一个弯---河南兰考张庄,九曲黄河最后一个弯上一座普通而又特别的村庄。如同中国成千上万个张庄一样,随着脱贫攻坚、乡村振兴战略的实施,一个新时代的新张庄赫然呈现在世人面前。”通过语种识别单元112对该网页文本进行自然语言处理,识别语种为“中文”;文本分词单元113对该网页文本的标题进行分词,得到对应的分词集合{这里,是,九曲黄河,最后,一个,弯,新华网}。
参照图10,DOM树解析模块130,包括:
正文与标题获取单元131,用于获取网页文本的正文和标题;
行块分割单元132,用于将所述正文分割成行,存入正文集合;所述网页文本分割成行,存入网页文本集合;
元素匹配单元133,用于取正文集合第一个元素和最后一个元素与网页文本集合元素一一匹配,得到正文第一行和最后一行在所述网页文本的位置;
标题位置确定单元134,用于将标题与网页文本集合元素一一匹配,得到标题在网页文本的位置。
在本实施例中,正文与标题获取单元131通过特有标签获得网页文本的正文和标题,如<title>标签内的文本是文章标题,<p>标签内文本大多是正文内容;然后行块分割单元132通过字符串按行分割符截取,将正文和网页文本分割成行;元素匹配单元133,标题位置确定单元134将正文的每一行与网页文本的每一行进行文本相似度计算,得到正文的开始和结束位置;标题位置确定单元134将标题与网页文本集合的每一行进行相似度计算,从而确定标题的位置。
参照图11,词语提取模块140,包括:
词语判断单元141,用于判断预设关键字集合是否含有词语存在于所述分词集合中或存在于所述网页文本中;
规则匹配单元142,用于当判断结果为是时,获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则。
在本实施例中,获取网页文本后,判断预设关键字集合是否含有词语存在于所述分词集合中或网页文本中的具体做法为:根据预设关键词遍历所述分词集合或网页文本,当遍历到相同的词语(即判断结果为是)时,获取该词语在网页文本中的位置,并匹配对应的预设作者信息抽取规则,进而对网页文本进行作者信息抽取;当未遍历到相同的词语(即判断结果为否)时,则进行下一个预设关键词的循环。
参照图12,信息抽取模块150,包括:
词语位置确定单元151,用于确定所述词语在所述网页文本中的位置;
第一信息抽取单元152,用于当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
在本实施例中,词语位置确定单元151通过所述词语在网页文本集合元素中的索引和行内偏移量,来确定其在网页文本中的位置。
在本实施例中,“位置”指的是段落行,“分隔符”指的是“,、;”,此后不再赘述。
作为本发明的优选实施例,根据语种选择对应的过滤规则,具体为:当网页文本的语种为中文,且满足字符数≤6时,认为第二次截取的内容中包含作者信息,否则直接舍弃该内容;当网页文本的语种为英文或西班牙文,且满足字符数≤15时,认为第二次截取的内容中包含作者信息,否则直接舍弃该内容。
参照图13,信息抽取模块150,包括:
词语位置确定单元151,用于确定所述词语在所述网页文本中的位置;
第二信息抽取单元153,用于当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
可以理解,本实施例中“行索引”指的是所在行的索引,“行内索引”指的是词语在当前行内的索引。
在本实施例中,行内索引差的“预设阈值”是0~5之间。例如,获取到的词语在网页文本的分词集合中的行索引是“10”,行内索引是“4”,再获取分词集合中行索引为“10”、行索引为“4”且词性为person的词语,该词语则作为作者信息。
作为本发明的优选实施例,语种为中文的行内索引差预设阈值为2,其他语言如英文、西班牙文的预设阈值为5。
在本实施例中,第二信息抽取单元153,还可以用于获取所述词语在网页文本的正文集合中的行索引;根据行索引获取正文集合中对应行文本,在文本行内,截取所述词语到行分割符(如“,、;”)之间的内容;按照预设的规则过滤所述词语到行分割符之间的内容,得到作者信息。
上述定义的两种第二信息抽取单元153,优先使用第一种(即按分词的正文抽取),若按分词的正文抽取无结果,再使用第二种的词语后截取方式,以防漏掉分词正文抽取中作者信息所在词语词性不为Person的词。
参照图14,信息抽取模块150,包括:
词语位置确定单元151,用于确定所述词语在所述网页文本中的位置;
第三信息抽取单元154,用于当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照预设的规则过滤第二次截取的内容,得到作者信息。
在本实施例中,截取正文后的内容,当所述词语出现在正文后1~15行内时,则进行下一步操作;当所述词语超出该范围,则认为是作者信息的可能性较小,不予考虑。
根据上述三种词语在网页文本中不同的位置关系,匹配不同的抽取规则,此抽取方法不局限于学术期刊、论文等结构化的文本类型,通用性好,提高了结果抽取的准确率,提升了抽取效率;通过预设的规则过滤提取到的信息,进一步提高了作者信息抽取的准确率。
本发明实施例提供一种计算机装置,该计算机装置包括处理器,处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的网页正文提取方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的网页正文提取方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个网页正文提取方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种作者信息抽取方法,其特征在于,所述作者信息抽取方法,包括:
获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;具体包括以下过程:
确定所述词语在所述网页文本中的位置;
当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照所述预设作者信息抽取规则过滤第二次截取的内容,得到作者信息;
当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照所述预设作者信息抽取规则过滤第二次截取的内容,得到作者信息。
2.如权利要求1所述的作者信息抽取方法,其特征在于,所述当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的正文集合中的行索引;根据行索引获取正文集合中对应行文本,在文本行内,截取所述词语到行分割符之间的内容;按照所述预设作者信息抽取规则过滤所述词语到行分割符之间的内容,得到作者信息。
3.如权利要求1所述的作者信息抽取方法,其特征在于,在所述获取网页文本之前,还包括:
获取网页,并对所述网页进行预处理,获得网页信息;其中,所述网页信息包括网页文本、网页文本语种、网页源代码;
对所述网页源代码构建DOM树;
解析所述DOM树,确定所述网页文本的正文及标题的位置。
4.如权利要求3所述的作者信息抽取方法,其特征在于,所述对所述网页进行预处理,包括:
通过开源网页解析工具类解析所述网页,得到网页文本;
对所述网页文本进行自然语言处理,识别所述网页文本语种;
对所述网页文本进行分词,获取所述网页文本对应的分词集合。
5.如权利要求4所述的作者信息抽取方法,其特征在于,所述提取所述网页文本中符合预设关键字集合的词语,包括:
判断预设关键字集合是否含有词语存在于所述分词集合中或存在于所述网页文本中;
当判断结果为是时,获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则。
6.如权利要求3所述的作者信息抽取方法,其特征在于,所述确定所述网页文本的正文及标题的位置,包括:
获取网页文本的正文和标题;
将所述正文分割成行,存入正文集合;所述网页文本分割成行,存入网页文本集合;
取正文集合第一个元素和最后一个元素与网页文本集合元素一一匹配,得到正文第一行和最后一行在所述网页文本的位置;
将标题与网页文本集合元素一一匹配,得到标题在网页文本的位置。
7.一种作者信息抽取装置,其特征在于,所述作者信息抽取装置,包括:
词语提取模块,用于获取网页文本,提取所述网页文本中符合预设关键字集合的词语;
信息抽取模块,用于获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则,并按照所述预设作者信息抽取规则对所述网页文本进行作者信息抽取;所述信息抽取模块,具体包括:
词语位置确定单元,用于确定所述词语在所述网页文本中的位置;
第一信息抽取单元,用于当所述词语在所述网页文本的标题与正文之间时,截取标题与正文之间的内容,得到所述词语在截取内容中的位置;根据所述词语的位置,截取该词语到行分隔符之间的内容;按照所述预设作者信息抽取规则过滤第二次截取的内容,得到作者信息;
第二信息抽取单元,用于当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的分词集合中的行索引和行内索引;获取分词集合中与所述词语的行索引相同,且行内索引差在预设阈值内的词性为person的词语,作为作者信息;
第三信息抽取单元,用于当所述词语在所述网页文本的正文后时,截取正文后的内容,获取所述词语在截取内容中的位置;根据词语的位置,截取该词语到行分隔符之间的内容;按照所述预设作者信息抽取规则过滤第二次截取的内容,得到作者信息。
8.如权利要求7所述的作者信息抽取装置,其特征在于,所述第二信息抽取单元,用于当所述词语在所述网页文本的正文内时,获取所述词语在网页文本的正文集合中的行索引;根据行索引获取正文集合中对应行文本,在文本行内,截取所述词语到行分割符之间的内容;按照所述预设作者信息抽取规则过滤所述词语到行分割符之间的内容,得到作者信息。
9.如权利要求7所述的作者信息抽取装置,其特征在于,所述作者信息抽取装置,还包括:
网页预处理模块,用于获取网页,并对所述网页进行预处理,获得网页信息;其中,所述网页信息包括网页文本、网页文本语种、网页源代码;
DOM树构建模块,用于对所述网页源代码构建DOM树;
DOM树解析模块,用于解析所述DOM树,确定所述网页文本的正文及标题的位置。
10.如权利要求9所述的作者信息抽取装置,其特征在于,所述预处理模块,包括:
网页解析单元,用于通过开源网页解析工具类解析所述网页,得到网页文本;
语种识别单元,用于对所述网页文本进行自然语言处理,识别所述网页文本语种;
文本分词单元,用于对所述网页文本进行分词,获取所述网页文本对应的分词集合。
11.如权利要求10所述的作者信息抽取装置,其特征在于,所述词语提取模块,包括:
词语判断单元,用于判断预设关键字集合是否含有词语存在于所述分词集合中或存在于所述网页文本中;
规则匹配单元,用于当判断结果为是时,获取与所述词语在所述网页文本中的位置相匹配的预设作者信息抽取规则。
12.如权利要求9所述的作者信息抽取装置,其特征在于,所述DOM树解析模块,包括:
正文与标题获取单元,用于获取网页文本的正文和标题;
行块分割单元,用于将所述正文分割成行,存入正文集合;所述网页文本分割成行,存入网页文本集合;
元素匹配单元,用于取正文集合第一个元素和最后一个元素与网页文本集合元素一一匹配,得到正文第一行和最后一行在所述网页文本的位置;
标题位置确定单元,用于将标题与网页文本集合元素一一匹配,得到标题在网页文本的位置。
13.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如权利要求1-6中任意一项所述作者信息抽取方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述作者信息抽取方法的步骤。
CN201810816328.9A 2018-07-24 2018-07-24 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质 Active CN109101491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810816328.9A CN109101491B (zh) 2018-07-24 2018-07-24 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810816328.9A CN109101491B (zh) 2018-07-24 2018-07-24 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109101491A CN109101491A (zh) 2018-12-28
CN109101491B true CN109101491B (zh) 2021-12-17

Family

ID=64847301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810816328.9A Active CN109101491B (zh) 2018-07-24 2018-07-24 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109101491B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476037B (zh) * 2020-04-14 2023-03-31 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN111581549B (zh) * 2020-05-09 2023-11-03 腾讯科技(深圳)有限公司 一种基于人工智能的语料采集方法、装置及存储介质
CN111737623A (zh) * 2020-06-19 2020-10-02 深圳市小满科技有限公司 网页信息提取方法及相关设备
CN113298914B (zh) * 2021-07-28 2021-10-15 北京明略软件***有限公司 知识组块提取方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345532A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种网页信息抽取方法及装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162275A1 (en) * 2006-08-21 2008-07-03 Logan James D Author-assisted information extraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345532A (zh) * 2013-07-26 2013-10-09 人民搜索网络股份公司 一种网页信息抽取方法及装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法
CN108268433A (zh) * 2018-02-26 2018-07-10 杭州数梦工场科技有限公司 基于网页文章的标题抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度置信网络算法的作者信息抽取研究;路明懿;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20170415;全文 *

Also Published As

Publication number Publication date
CN109101491A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109101491B (zh) 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN108763591B (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
US9323839B2 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
CN105224518B (zh) 文本相似度的计算方法及***、相似文本的查找方法及***
US8577155B2 (en) System and method for duplicate text recognition
CN105279277A (zh) 知识数据的处理方法和装置
US9251248B2 (en) Using context to extract entities from a document collection
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
RU2666277C1 (ru) Сегментация текста
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
WO2019080402A1 (zh) 结构化文本的文本信息提取方法、存储介质和服务器
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN105653984A (zh) 文件指纹校验方法及装置
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN106547895B (zh) 一种网页信息的提取方法及装置
CN111159497A (zh) 正则表达式的生成方法及基于正则表达式的数据提取方法
CN112487293A (zh) 一种安全事故案例结构化信息抽取方法、装置及介质
CN107436931B (zh) 网页正文抽取方法及装置
CN106126496B (zh) 一种信息分词方法及装置
CN111160445B (zh) 投标文件相似度计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant