CN103853834A - 基于文本结构分析的Web文档摘要的生成方法 - Google Patents

基于文本结构分析的Web文档摘要的生成方法 Download PDF

Info

Publication number
CN103853834A
CN103853834A CN201410090200.0A CN201410090200A CN103853834A CN 103853834 A CN103853834 A CN 103853834A CN 201410090200 A CN201410090200 A CN 201410090200A CN 103853834 A CN103853834 A CN 103853834A
Authority
CN
China
Prior art keywords
text
sentence
semantic
cut
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410090200.0A
Other languages
English (en)
Other versions
CN103853834B (zh
Inventor
沈怡涛
顾君忠
林晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410090200.0A priority Critical patent/CN103853834B/zh
Publication of CN103853834A publication Critical patent/CN103853834A/zh
Application granted granted Critical
Publication of CN103853834B publication Critical patent/CN103853834B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于文本结构分析的Web文档摘要的生成方法,该方法以一个URL作为输入,综合视觉特征和文本特征的网页正文提取,将正文分割成若干个语义段,再对各语义段进行摘要的方式,使得生成的摘要拥有较高的覆盖率。本发明针对Web页面结构复杂,难以识别正文,且中文自动摘要还处于探索阶段的情况下,实现了对Web网页生成质量较好的文本摘要。

Description

基于文本结构分析的Web文档摘要的生成方法
技术领域
本发明涉及网页正文提取、自然语言处理、中文自动文摘技术领域,具体地说是一种基于文本结构分析的Web文档摘要的生成方法。
背景技术
目前,Internet已经成为了人们获取信息的主要来源。特别是近年来用户生成内容(UGC)的飞速发展,Internet上的信息正在爆发式增长。搜索引擎虽然能够根据用户要求返回搜索结果。但用户仍然需要从搜索列表中寻找最适合自己需要的网页,特别是由于互联网上大量存在的搜索引擎优化和转载现象,给用户快速准确的寻找信息带来了很大困难。
自动文摘***是利用计算机快速处理Web文档,从中按一定压缩比抓取出Web文档的核心内容,用户可以从中获取主题信息并判断该Web文档的价值,提高了用户搜索信息的效率。
Web文档中大量存在着噪声信息,如广告、导航栏、用户功能条、相关推荐、版权信息等与主题无关的信息。Web文档是一种半结构化信息,虽然具有一定结构,但语义无法确定。内容在HTML源代码中的表示和最终渲染得到的页面会有很大区别。近年来JS和AJAX技术的大量应用,使得网页数据不再是静态的HTML代码,而是动态生成的,甚至针对用户的操作行为还会产生相应改变。所以如何从Web文档中抽取出和主题相关的且结构正确的内容,存在着一定的难度。
中文自动文摘***的研究大约有二十余年的历史,但目前还处于探索阶段,自动摘要的结果还远远不能令人满意。自动摘要的方法主要分为两大类,基于理解的自动文摘和基于抽取的自动文摘。由于自然语言处理技术仍没有重大突破,所以基于理解的方法并不能真正的实现自动文摘。
而面向Web文档的自动摘要技术的研究历史更短,“与传统文本相比,网页的文本结构松散,标题命名相对不那么严谨,一个句子结束也可能没有结束符,并且存在大量的与正文不相关的内容,这给摘要的生成带来一定的困难。”
发明内容
本发明的目的是提供一种基于文本结构分析的Web文档摘要的生成方法,该方法综合运用了视觉特征分析、自然语言分析、文本结构分析等技术,为搜索结果中的每个网页生成基于语义的,质量较好的网页摘要,为用户提供参考。
本发明的目的是这样实现的:
一种基于文本结构分析的Web文档摘要的生成方法,它包括以下步骤:
1)输入待摘要网页的URL;
2)从待摘要网页基于视觉分析提取网页正文,具体包括;
2.1)采用浏览器核心对Web文档进行解析和渲染;
2.2)采用视觉树(VIPS)算法对网页进行分块,得到各区块的位置、面积;
2.3)对各区块进行分词;
2.4)对各区块分析文本特征;
2.5)对各区块是否包含正文进行打分;
2.6)将得分高于某一阈值的文本按顺序连接起来;
2.7)输出Web文档正文;
3)对提取的正文进行基于文本结构分析的自动摘要,具体包括:
3.1)由步骤2)得到网页正文;
3.2)对正文进行分词和词性标注;
3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分;
3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志;
3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子;
3.6)将各句子按顺序连接起来,输出文摘。
所述步骤2.4)中的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。
所述步骤2.5)中所述判断各区块是否包含正文进行打分,使用以下公式计算打分的分值:
V ( s ) = S 2 * P ( x 1 , x 2 , x 3 , x 4 ) N + 1
其中S表示陈述句数量,N表示非陈述句数量,P是根据区块大小和位置计算得到的一个值,x1,y1表示区块左上角的坐标,x2,y2表示区块右下角的坐标。
所述步骤3.4)中语义发生转换的位置的分析识别是:
1)对文档D进行分句,每两个相邻的句子之间均为待定分割点;
2)对每个待定分割点进行打分,其公式为:
Q ( p i ) = &Sigma; i + 1 < j &le; i + a R ( s i , s j ) - &Sigma; i - a < = j < i R ( s i , s j )
其中,R(si,sj)表示句子si和句子sj的句间语义相关度;pi表示分割点在句子si和si-1之间,如果Q(pi)>Q(pi-1)且Q(pi)>Q(pi+1),说明pi是分割点权值的极大值点,所以pi是该文本中语义段之间的分割点。a为一个可调节的经验参数,表示在识别分割点时的语义分析的范围,即表示考虑分割点前后各a个句子。
3)若分割点的分值大于某一阈值,且为局部最大值,即分值高于前后两个分割点的分值,该分割点就是语义段的切分点,即步骤3.4)中所述语义发生转换的位置。
所述语义发生转换的位置的分析识别步骤2)中句间语义相关度的计算包括以下步骤:
1)将句子切分成词的集合;
2)使用以下公式计算句间语义相关度
R ( s 1 , s 2 ) = &Sigma; w i &Element; s 1 max ( R ( w i , w j ) ) ( w j &Element; s 2 )
其中R(wi,wj)表示词wi和词wj的词间语义相关度。
所述步骤3.5)中对每个句子在所在语义段中的重要性进行度量使用以下公式计算:
V(Sl)=sum(w∈S1)*TFIDF(w)
其中,计算TFIDF(w)时,将每个段落视为独立的文件,将整篇文章包含的若干个段落视为文件集。
本发明能够过滤掉网页中和主题无关的文字、链接等,识别出网页中所包含的文章正文,准确率较高,且拥有较高的鲁棒性。自动摘要流程采用了基于文本结构分析的自动文摘技术,生成的摘要覆盖率高而且摘要较为流畅。
本发明能针对Web文档,按用户指定的压缩比要求,仅需要输入待摘要网页的URL地址,就可在数秒的时间内,形成能覆盖原文意思,较为准确、流畅的摘要,帮助用户快速准确的在互联网中寻找信息。
附图说明
图1为本发明流程图;
图2为本发明网页预处理流程图;
图3为本发明自动摘要流程图
具体实施方式
本发明公开了一种面向搜索引擎的Web文档摘要生成方法,可以自动分析一个Web网页,并生成反应网页主题的文本摘要。
本发明包含一个综合了视觉特征和文本特征的网页正文提取和一个基于通过文本结构分析进行子主题划分的自动文本摘要。
本发明以一个URL作为输入,经过网页正文提取、自动摘要两个阶段,最终生成文本摘要。
下面对所述两个阶段的具体算法,结合对一个新闻网页进行摘要为例作进一步说明:
图1描述了从待摘要URL到生成摘要的总体流程,其中包括了网页预处理流程和自动摘要流程。
具体地,在实施例中,本发明在网页预处理流程(见图2)URL输入步骤中获取待摘要新闻网页的URL。网页预处理流程通过分析视觉特征,可以更准确的找到网页中的正文部分,比其他方法拥有更高鲁棒性。同时综合考虑文本特征、文本相关度分析、HTML标签特征、语义特征等其他特征,进一步提高Web网页正文提取的准确性。
网页渲染步骤负责读取输入URL对应的网页,在该实施例中,采用IE11浏览器核心对HTML标签进行处理,并渲染该网页。在网页渲染的基础上,视觉树分析步骤采用VIPS算法,对网页进行视觉树分析,得到各区块的位置、面积。在该实施例中,该步骤将待摘要的新闻网页分割成6个区块:一个顶部区块、一个底部区块、一个导航区块、一个广告区块和两个包含正文的区块。分词步骤负责对各区块进行分词。然后,文本特征分析步骤对分词结果进行文本特征分析。最后综合分析步骤对视觉树分析得到的各区块的特征和文本特征进行综合分析,输出新闻正文。
在该实施例中,采用下列公式计算P(x1,y1,x2,y2)。
P(xl,yl,x2y2)=(x2-x1)*(y2-y1)-x1*y1
其中x1,y1表示区块左上角的坐标,x2,y2表示区块右下角的坐标。然后计算出每个区块的V(s)值:
V ( s ) = S 2 * P ( x 1 , x 2 , x 3 , x 4 ) N + 1
上述6个区块的V(s)值从大到小分别为3.7×106,2.3×106,7.5×105,5.4×106,3.7×105,1.6×105,1.2×104
在该实施例中,采用的阈值为106,所以选取V(s)大于106的区块,即V(s)值最大的两个区块。在该实施例中,V(s)值最大的两个区块就是两个包含正文的区块,所以正确提取到了新闻正文。
在提取出新闻正文后,接着进行自动摘要流程(见图3),包含文本预处理、词间相关度计算、句间相关度计算、语义段分割、摘要生成这些步骤。
一个文本预处理步骤,识别正文中的基本结构,即识别文章标题,完成句子、段落切分。在该实施例中,新闻正文共包含8个段落,23个句子。
词间相关度计算步骤基于知网提供的计算语义学知识,通过计算两个词的义原相似度来得到两个词语的相关度。采用的公式如下:
R(wl,w2)=max(Rele(Ci,Cj))(Ci∈w1,Cj∈w2)
其中R(w1,w2)表示了两个词之间语义相关度,Rele(Ci,Cj)表示了两个义原的相关度,取其最大值表示两个词的语义相关度。
句间相关度步骤通过分析两个句子中词语间的相关度得到两个句子的相关度。
R ( s 1 , s 2 ) = &Sigma; w i &Element; s 1 max ( R ( w i , w j ) ) ( w j &Element; s 2 )
其中R(s1,s2)表示了两个句子之间的相关度,为每个句子1中的词,找句子2中与之相关度最大的词,计算这两个词之间的相关度。最后将这些最大值求和,得到这两个句子之间的相关度。
一个语义段分割步骤,参考了文献《基于内容相关度计算的文本结构分析方法研究》来进行文本结构分析。语义段之间分割点的特征是分割点后的第一个句子和之前若干句子的相关度很小,而跟之后若干个句子的相关度较大。采用以下公式对该实施例中的23个句子间的22个分割点计算分割点的分值,并寻找函数Q(pi)的极大值点:
Q ( p i ) = &Sigma; i + 1 < j &le; i + a R ( s i , s j ) - &Sigma; i - a < = j < i R ( s i , s j )
在该实施例中,Q(pi)包含2个极大值点,依据这两个极大值点,将该新闻分割成3个语义段。每个语义段包含了新闻的一个子主题,在该实施例中,第一个语义段是对新闻事件的概述,后两个语义段是两方对该新闻事件分别的评论。
一个摘要生成步骤,根据用户要求,从文本格式的正文中按一定比例提取出摘要。
在该实施例中,该摘要生成步骤通过句间相关度计算步骤,计算各个子主题中的句子和文章标题词汇序列的相关度之和,从而确定各子主题的价值。从子主题中抽取句子的数量和该子主题和文章标题的相关度成正比。
在该实施例中,用户指定的比例为0.2,即提取23句中的5句话形成摘要。通过对3个子主题的价值进行计算,确定从3个语义段中分别提取2、1、1个句子。最后,所述摘要生成步骤将选取的5个摘要句按顺序连接,形成摘要并输出。

Claims (6)

1.一种基于文本结构分析的Web文档摘要的生成方法,其特征在于:该方法包括以下步骤:
1)输入待摘要网页的URL;
2)从待摘要网页基于视觉分析提取网页正文,具体包括;
2.1)采用浏览器核心对Web文档进行解析和渲染;
2.2)采用视觉树算法对网页进行分块,得到各区块的位置、面积;
2.3)对各区块进行分词;
2.4)对各区块分析文本特征;
2.5)对各区块是否包含正文进行打分;
2.6)将得分高于某一阈值的文本按顺序连接起来;
2.7)输出Web文档正文;
3)对提取的正文进行基于文本结构分析的自动摘要,具体包括:
3.1)由步骤2)得到网页正文;
3.2)对正文进行分词和词性标注;
3.3)进行文本预处理:识别正文中的基本结构,即识别文章标题,完成句子、段落切分;
3.4)对正文进行语义段切分,通过文本结构分析识别语义发生转换的位置,作为语义段切分的标志;
3.5)对每个语义段,利用TFIDF的推广方法,对每个句子在所在语义段中的重要性进行度量,然后根据文摘字数要求,提取出若干句最能代表该语义段主题的句子;
3.6)将各句子按顺序连接起来,输出文摘。
2.根据权利要求1所述的方法,其特征在于:步骤2.4)中所述的文本特征为字数、字号、陈述句数量、非陈述句数量及文本片断数量。
3.根据权利要求1所述的方法,其特征在于:步骤2.5)中所述判断各区块是否包含正文进行打分,使用以下公式计算打分的分值:
V ( s ) = S 2 * P ( x 1 , x 2 , x 3 , x 4 ) N + 1
其中S表示陈述句数量,N表示非陈述句数量,P是根据区块大小和位置计算得到的一个值,x1,y1表示区块左上角的坐标,x2,y2表示区块右下角的坐标。
4.根据权利要求1所述的方法,其特征在于:步骤3.4)中所述语义发生转换的位置的分析识别是:
1)对文档D进行分句,每两个相邻的句子之间均为待定分割点;
2)对每个待定分割点进行打分,其公式为:
Q ( p i ) = &Sigma; i + 1 < j &le; i + a R ( s i , s j ) - &Sigma; i - a < = j < i R ( s i , s j )
其中,R(si,sj)表示句子si和句子sj的句间语义相关度;pi表示分割点在句子si和si-1之间,如果Q(pi)>Q(pi-1)且2(pi)>Q(pi+1),说明pi是分割点权值的极大值点,所以pi是该文本中语义段之间的分割点;a为一个可调节的经验参数,表示在识别分割点时的语义分析的范围,即表示考虑分割点前后各a个句子;
3)若分割点的分值大于某一阈值,且为局部最大值,即分值高于前后两个分割点的分值,该分割点就是语义段的切分点,即步骤3.4)中所述语义发生转换的位置。
5.根据权利要求4所述的方法,其特征在于:步骤2)中所述句间语义相关度的计算包括以下步骤:
1)将句子切分成词的集合;
2)使用以下公式计算句间语义相关度
R ( s 1 , s 2 ) = &Sigma; w i &Element; s 1 max ( R ( w i , w j ) ) ( w j &Element; s 2 )
其中R(wi,wj)表示词wi和词wj的词间语义相关度。
6.根据权利要求1所述的方法,其特征在于:步骤3.5)中所述对每个句子在所在语义段中的重要性进行度量使用以下公式计算:
V(S1)=sum(w∈S1)*TFIDF(w)
其中,计算TFIDF(w)时,将每个段落视为独立的文件,将整篇文章包含的若干个段落视为文件集。
CN201410090200.0A 2014-03-12 2014-03-12 基于文本结构分析的Web文档摘要的生成方法 Expired - Fee Related CN103853834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410090200.0A CN103853834B (zh) 2014-03-12 2014-03-12 基于文本结构分析的Web文档摘要的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410090200.0A CN103853834B (zh) 2014-03-12 2014-03-12 基于文本结构分析的Web文档摘要的生成方法

Publications (2)

Publication Number Publication Date
CN103853834A true CN103853834A (zh) 2014-06-11
CN103853834B CN103853834B (zh) 2017-02-08

Family

ID=50861489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410090200.0A Expired - Fee Related CN103853834B (zh) 2014-03-12 2014-03-12 基于文本结构分析的Web文档摘要的生成方法

Country Status (1)

Country Link
CN (1) CN103853834B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106484768A (zh) * 2016-09-09 2017-03-08 天津海量信息技术股份有限公司 文本内容显著性区域的局部特征抽取方法及***
CN106844340A (zh) * 2017-01-10 2017-06-13 北京百度网讯科技有限公司 基于人工智能的新闻摘要生成和显示方法、装置及***
CN107346335A (zh) * 2017-06-28 2017-11-14 浙江大学 一种基于组合特征的网页主题块识别方法
CN107622046A (zh) * 2017-09-01 2018-01-23 广州慧睿思通信息科技有限公司 一种根据关键词抽取文本摘要的算法
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110968752A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 数据采集方法、装置、存储介质及电子设备
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN114417808A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文章生成方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及***
US20090210381A1 (en) * 2008-02-15 2009-08-20 Yahoo! Inc. Search result abstract quality using community metadata
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及***
US20090210381A1 (en) * 2008-02-15 2009-08-20 Yahoo! Inc. Search result abstract quality using community metadata
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何媛媛: ""基于潜在语义分析的多网页自动文摘研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
钟茂生: ""基于内容相关度计算的文本结构分析方法研究"", 《中国博士学位论文全文数据库信息科技辑》 *
黄文蓓 等: ""基于分块的网页正文信息提取算法研究"", 《计算机应用》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN106484768A (zh) * 2016-09-09 2017-03-08 天津海量信息技术股份有限公司 文本内容显著性区域的局部特征抽取方法及***
CN106484768B (zh) * 2016-09-09 2019-12-31 天津海量信息技术股份有限公司 文本内容显著性区域的局部特征抽取方法及***
CN106844340A (zh) * 2017-01-10 2017-06-13 北京百度网讯科技有限公司 基于人工智能的新闻摘要生成和显示方法、装置及***
CN106844340B (zh) * 2017-01-10 2020-04-07 北京百度网讯科技有限公司 基于人工智能的新闻摘要生成和显示方法、装置及***
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN107346335B (zh) * 2017-06-28 2020-04-14 浙江大学 一种基于组合特征的网页主题块识别方法
CN107346335A (zh) * 2017-06-28 2017-11-14 浙江大学 一种基于组合特征的网页主题块识别方法
CN107622046A (zh) * 2017-09-01 2018-01-23 广州慧睿思通信息科技有限公司 一种根据关键词抽取文本摘要的算法
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置
CN108427761B (zh) * 2018-03-21 2022-01-14 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110889280A (zh) * 2018-09-06 2020-03-17 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110889280B (zh) * 2018-09-06 2023-09-26 上海智臻智能网络科技股份有限公司 基于文档拆分的知识库建设方法及装置
CN110968752A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 数据采集方法、装置、存储介质及电子设备
CN113515627A (zh) * 2021-05-19 2021-10-19 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN113515627B (zh) * 2021-05-19 2023-07-25 北京世纪好未来教育科技有限公司 文档检测方法、装置、设备及存储介质
CN114417808A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文章生成方法、装置、电子设备以及存储介质
CN114417808B (zh) * 2022-02-25 2023-04-07 北京百度网讯科技有限公司 文章生成方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN103853834B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN104933027B (zh) 一种利用依存分析的开放式中文实体关系抽取方法
US8463786B2 (en) Extracting topically related keywords from related documents
CN105956137B (zh) 一种搜索方法、搜索装置及一种搜索引擎***
Peters et al. Content extraction using diverse feature sets
TWI695277B (zh) 自動化網站資料蒐集方法
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
US20230229714A1 (en) Identifying Information Using Referenced Text
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
Asadi et al. Pseudo test collections for learning web search ranking functions
CN104035972B (zh) 一种基于微博的知识推荐方法与***
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103294664A (zh) 开放领域新词发现的方法及***
CN102750390A (zh) 新闻网页要素自动提取方法
CN101887443A (zh) 一种文本的分类方法及装置
CN103049470A (zh) 基于情感相关度的观点检索方法
CN103559234A (zh) RESTful Web服务的自动化语义标注***和方法
JP2006351002A5 (zh)
CN107479879A (zh) 一种面向软件功能维护的api及其使用推荐方法
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
CN106168947A (zh) 一种相关实体挖掘方法和***
CN103377207B (zh) 基于脚本引擎的微博用户关系采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20200312

CF01 Termination of patent right due to non-payment of annual fee