CN107168997A - 基于人工智能的网页原创评估方法、装置及存储介质 - Google Patents

基于人工智能的网页原创评估方法、装置及存储介质 Download PDF

Info

Publication number
CN107168997A
CN107168997A CN201710202081.7A CN201710202081A CN107168997A CN 107168997 A CN107168997 A CN 107168997A CN 201710202081 A CN201710202081 A CN 201710202081A CN 107168997 A CN107168997 A CN 107168997A
Authority
CN
China
Prior art keywords
sentence
webpage
original
weights
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710202081.7A
Other languages
English (en)
Other versions
CN107168997B (zh
Inventor
马晋
程刚
张晋
周志奋
李田赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710202081.7A priority Critical patent/CN107168997B/zh
Publication of CN107168997A publication Critical patent/CN107168997A/zh
Application granted granted Critical
Publication of CN107168997B publication Critical patent/CN107168997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于人工智能的网页原创评估方法、装置及存储介质,其中方法包括:针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子;根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。应用本发明所述方案,能够对网页的原创权威性进行有效的评估。

Description

基于人工智能的网页原创评估方法、装置及存储介质
【技术领域】
本发明涉及互联网技术,特别涉及基于人工智能的网页原创评估方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
随着近年来互联网数据的***性增长,搜索引擎公司开始检索千亿级别的网页资源。在海量网页资源的背后,存在相当一部分数量的站长或资源产生方,为了减少网页制作的成本,或是利用其它的优质网页为自己的网站吸取点击增加流量等,转载甚至抄袭其它的优质原创网页。
这种现象虽然在一定程度上有利于网络资源的快速传播,但由于原创内容的作者花费了一定的时间和精力创作内容,上述的转载或抄袭行为会削减甚至消除原创作者的创作价值;另外,对于搜索引擎等而言,如果搜录了大量重复的资源,会消耗掉更多的成本如储存和检索时间等。
因此,需要对网页的原创权威性进行评估,以便在进行资源筛选、检索端资源召回、检索端排序策略等场景中时,能够将那些原创并且原创价值被认可的资源展现给用户,以便促进搜索内容生态的建设等。
但是,关于如何对网页的原创权威性进行评估,现有技术中还没有一种有效的实现方式。
【发明内容】
有鉴于此,本发明提供了基于人工智能的网页原创评估方法、装置及存储介质。
具体技术方案如下:
一种基于人工智能的网页原创评估方法,包括:
针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
一种基于人工智能的网页原创评估装置,包括:预处理模块和评估模块;
所述预处理模块,用于针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
所述评估模块,用于根据所述预处理模块的识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子,进而根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性,从而实现了对于网页的原创权威性进行有效的评估。
【附图说明】
图1为本发明所述基于人工智能的网页原创评估方法实施例的流程图。
图2为本发明所述按照方式一进行网页的原创权威性评估的方法实施例的流程图。
图3为本发明所述基于人工智能的网页原创评估装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
图1为本发明所述基于人工智能的网页原创评估方法实施例的流程图,如图1所示,包括以下具体实现方式:
在101中,针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子;
在102中,根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。
以下分别对上述各部分内容的具体实现进行详细说明。
一)句子提取
对于任一网页,可通过页面解析等,获取该网页的标题(title)以及正文内容(page域)等。
针对获取到的正文内容,可对其进行句子切分,如可根据自然语言中具有句子完结意义的结束符及网页源码标签来切分句子,并可过滤掉过短的句子,自然语言中具有句子完结意义的结束符可包括“。”、“?”以及“!”等。
之后,可分别计算出每个句子的权值,具体地,可针对每个句子分别进行以下处理:按照基础粒度对该句子进行切词及去停用词处理,之后,根据处理结果计算该句子的权值,如将处理后得到的该句子中的各词(term)的逆文本频率(IDF,Inverse DocumentFrequency)值相加,将相加之和作为该句子的权值,如何获取IDF值为现有技术。
对于每个网页,可按照权值由大到小的顺序对从该网页的正文内容中切分出的各句子进行排序,并选出排序后处于前M位的句子,M为大于一的正整数,进而将选出的句子以及该网页的标题作为从该网页中提取出的句子。
M的具体取值可根据实际需要而定,比如可为30,标题可作为特殊句子进行保留并标识。
对于提取出的每个句子,还可在切词和去停用词处理的基础上计算出该句子的句子签名,如simhash值,simhash是一种常用的字符串hash算法,如果两个句子相同,那么这两个句子的simhash值也会相同,如果两个句子相似,那么这两个句子的simhash值的海明距离会很近。
二)句子原创识别
在实际应用中,为便于搜索引擎进行搜索等,可收集/采集大量的网页,保存在数据库中,每个网页分别具有各自的入库时间等。
可按照一)中的方式,分别从保存在数据库中的各网页中提取出多个句子,之后,可根据提取出的句子生成句子级的原创查找词典,如针对同一句子,通过比较该句子所在的不同网页的入库时间等区分出哪个网页上的该句子为原创句子,哪个网页上的该句子为非原创句子等,理论上来说,入库时间最早的通常为原创的。
这样,通过查询原创查找词典,即可识别出从保存在数据库中的任一网页中提取出的任一句子是否为原创句子。
需要说明的是,以上仅为举例说明,并不用于限制本发明的技术方案,除上述方式外,还可以采用本领域技术人员能够想到的其它任意方式来对句子是否原创进行识别。
三)网页的原创权威性评估
原创权威性为本发明中提出的对于网页的原创信息具有全新描述价值的一种特征,该特征的产生基于如下考量:如果某个网页中的原创句子被其它网页引用,那么该网页就会被赋予一种量化的指标,用以描述该网页在原创概念上具有某种形式的权威性。
理论上来说,对于一个网页的原创权威性,在量化描述时希望具有如下的数值变化规律:
1)该网页中的原创句子被越多的网页引用/转载,该网页的原创权威性越大;
2)引用该网页中的原创句子的网页具有越大的原创权威性,该网页的原创权威性越大。
基于上述考虑,对于网页的原创权威性评估,本发明中提供了两种实现方式,以下分别进行介绍。
方式一
图2为本发明所述按照方式一进行网页的原创权威性评估的方法实施例的流程图,如图2所示,包括以下具体实现方式。
在201中,将保存在数据库中的各网页均作为待处理的网页。
即将保存在数据库中的每个网页均作为待处理的网页,后续同时确定出每个网页的原创权威性。
在202中,根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边,每条有向边分别对应两个网页,且方向为从其中一个网页指向另一个网页。
可针对保存在数据库中的每个网页,分别进行以下处理:
将该网页作为引用网页,分别确定出该引用网页中的每个非原创句子对应的原创句子所在的网页,将确定出的网页进行去重处理,将处理后得到的每个网页分别作为该引用网页对应的引用来源网页;
分别利用该引用网页及一个引用来源网页构成一条由该引用网页指向引用来源网页的有向边。
比如,对于一个网页a,在分别识别出从网页a中提取出的各句子是否为原创句子之后,可分别确定出每个非原创句子对应的原创句子所在的网页,即确定出非原创句子的引用来源,相应地,可将确定出的网页称为引用来源网页。
假设从网页a中共提取出了30条句子,其中15条为原创句子,另外的15条为非原创句子,这15条非原创句子中,5条引用自网页b,5条引用自网页c,5条引用自网页d,那么网页b、网页c和网页d即为网页a对应的引用来源网页。
相应地,可得到3条有向边,分别为从网页a指向网页b的有向边、从网页a指向网页c的有向边,以及,从网页a指向网页d的有向边。
按照上述方式,针对保存在数据库中的所有网页,可构建出一幅网页级的加权有向无环图,对于两个网页来说,如果两者之间存在引用关系,边的方向是由入库时间决定的,因此构建出的图必然是无环的。
在203中,根据识别结果及获取到的句子的权值分别确定每条有向边的权值。
对于每条有向边来说,其权值是由引用句子的数量和引用句子的权值决定的,引用的句子越多,句子的权值越大,则有向边的权值越大。
相应地,对于每条有向边,可分别进行以下处理:
从该有向边对应的引用网页中的非原创句子中筛选出符合要求的非原创句子,所述符合要求为:对应的原创句子位于该有向边对应的引用来源网页中;
计算筛选出的各非原创句子的权值之和,得到第一相加结果;
计算该有向边对应的引用网页中的非原创句子的权值之和,得到第二相加结果;
用第一相加结果除以第二相加结果,将计算结果作为该有向边的权值。
即对于任一有向边,其权值
假设该有向边对应的引用网页为网页i,对应的引用来源网页为网页j;
Sj表示网页i中的非原创句子中对应的原创句子位于网页j中的非原创句子的集合;
s表示位于集合Sj中的句子,w(s)表示句子的权值,当句子为原创句子时,Is取值为1,否则为0;
S表示从网页i中提取出所有句子的集合,显然,集合Sj中的句子也会位于集合S中;
s'表示位于集合S中的句子,w(s')表示句子的权值,当句子为原创句子时,Is取值为1,否则为0,由于(1-1)*w(s')=0,因此,相当于是计算网页i中的非原创句子的权值之和。
在204中,根据所有有向边的权值同时确定出各网页的原创权威性。
对于获取到的各有向边的权值,可首先对其进行正则化处理,将处理结果作为迭代算法的转移概率。
对于任一网页a来说,假设共存在3条由网页a指向其它网页的有向边,所述其它网页分别为网页b、网页c和网页d,可分别计算出每条有向边的权值,假设分别为权值b、权值c和权值d,那么,对这3个权值进行正则化处理的方式可分别为:
权值b'=权值b/(权值b+权值c+权值d);
权值c'=权值c/(权值b+权值c+权值d);
权值d'=权值d/(权值b+权值c+权值d);
权值权值b'、权值c'和权值d'即为进行正则化处理之后得到的3个转移概率。
根据所有转移概率可以构成一个P*P的转移概率矩阵,P为正整数,取值等于保存在数据库中的网页数。
假设数据库中共保存有10个网页(实际远大于此),那么可得到一个10*10的转移概率矩阵,其中的每个元素即可为计算出的一个转移概率,比如,坐标位置为(2,3)的元素可表示从网页2指向网页3的有向边对应的转移概率。
根据转移概率矩阵,通过迭代算法,可同时确定出各网页的原创权威性。
具体地,可首先设置一个P维的全1纵向量e。
之后,可进行迭代运算,包括:计算原创权威性向量与转移概率矩阵的乘积,并将乘积与e相加,其中,首次迭代时,将e作为原创权威性向量;
确定是否达到迭代收敛,如果否,则将相加之和作为原创权威性向量,并重复执行所述迭代运算,如果是,则将原创权威性向量中的每个元素分别作为一个网页的原创权威性评分。
即有:vi+1=Wvi+e; (2)
v表示原创权威性向量,首次迭代时,v=e;
W表示转移概率矩阵。
最终得到的vi+1将会是一个P维的纵向量,其中的每个元素即为保存在数据库中的一个网页的原创权威性评分。
迭代过程的物理意义是:一个网页的原创权威性,是由初始原创权威性(e)和其它网页转移的原创权威性累加得到的,对于任一网页x,如果引用网页x中的原创句子的网页越多,并且引用的网页自身的原创权威性越大,那么根据迭代运算网页x的原创权威性也越大,这和期望的数值变化规律是相符的,同时由于之前所述的加权有向无环图,因此保证了迭代策略的收敛性。
如何确定是否达到迭代收敛为现有技术。
方式二
为获取网页的原创权威性,除了可采用上述方式一之外,还可以采用本发明中所述的方式二。
该方式中,可将保存在数据库中的任一网页作为待处理的网页,即可单独确定出一个网页的原创权威性,而不是像方式一中必须同时确定出所有网页的原创权威性。
针对待处理的网页中的每个原创句子,可分别计算该原创句子的权值与该原创句子对应的倒排拉链长度的乘积。
之后,可将各原创句子对应的乘积相加,将相加之和作为待处理的网页的原创权威性评分。
即有:
其中,org_auth(ui)表示待处理的网页的原创权威性评分;
n表示从待处理的网页中提取出的句子数,对于任一句子,若为原创句子,则Ij取值为1,否则为0;
w(j)表示句子的权值,fj表示句子对应的倒排拉链长度;
由于对于非原创句子来说,Ij*fj*w(j)=0,因此公式(3)中相当于是将各原创句子对应的乘积相加。
一个句子的倒排拉链长度可以是指:数据库中包含该句子的网页数,或者,、数据库中包含该句子或该句子的邻近句子的网页数,邻近句子为与该句子的句子签名之间的海明距离小于预定阈值的句子,所述阈值的具体取值可根据实际需要而定。
比如,句子A的句子签名与句子B的句子签名之间的海明距离小于所述阈值,则句子B为句子A的邻近句子,同样,句子A也为句子B的邻近句子,如何计算海明距离为现有技术。
相比于方式一,方式二中不需要进行迭代运算,因此可节省计算资源等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明所述基于人工智能的网页原创评估装置实施例的组成结构示意图,如图3所示,包括:预处理模块301和评估模块302。
预处理模块301,用于针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子。
评估模块302,用于根据预处理模块301的识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。
具体地,预处理模块301可按照以下方式来对待处理的网页进行句子提取:
获取待处理的网页的标题以及正文内容;
对正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
其中,预处理模块301可针对切分出的每个句子,分别对该句子进行切词和去停用词处理,并将处理后得到的各词的IDF值相加,将相加之和作为该句子的权值。
如图3所示,评估模块302中可包括:第一评估单元3021。
第一评估单元3021中可进一步包括:第一确定子单元30211以及第二确定子单元30212。
第一确定子单元30211,用于将保存在数据库中的各网页均作为待处理的网页;根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边,每条有向边分别对应两个网页,且方向为从其中一个网页指向另一个网页;根据识别结果及获取到的句子的权值分别确定每条有向边的权值;
第二确定子单元30212,用于根据所有有向边的权值同时确定出各网页的原创权威性。
具体地,第一确定子单元30211可针对每个网页,分别进行以下处理:
将该网页作为引用网页,分别确定出该引用网页中的每个非原创句子对应的原创句子所在的网页,将确定出的网页进行去重处理,将处理后得到的每个网页分别作为该引用网页对应的引用来源网页;
分别利用该引用网页及一个引用来源网页构成一条由该引用网页指向引用来源网页的有向边。
其中,第一确定子单元30211可针对每条有向边,分别从该有向边对应的引用网页中的非原创句子中筛选出符合要求的非原创句子,所述符合要求为:对应的原创句子位于该有向边对应的引用来源网页中;计算筛选出的各非原创句子的权值之和,得到第一相加结果;计算该有向边对应的引用网页中的非原创句子的权值之和,得到第二相加结果;用第一相加结果除以第二相加结果,将计算结果作为该有向边的权值。
第二确定子单元30212可分别对各条有向边的权值进行正则化处理,将处理结果作为迭代算法的转移概率;根据所有转移概率构成一个P*P的转移概率矩阵,P为正整数,取值等于保存在数据库中的网页数;根据转移概率矩阵,通过迭代算法,同时确定出各网页的原创权威性。
具体地,第二确定子单元30212可设置一个P维的全1纵向量e;
进行迭代运算,包括:计算原创权威性向量与转移概率矩阵的乘积,并将乘积与e相加,其中,首次迭代时,将e作为原创权威性向量;
确定是否达到迭代收敛,如果否,则将相加之和作为原创权威性向量,并重复执行所述迭代运算,如果是,则将原创权威性向量中的每个元素分别作为一个网页的原创权威性评分。
如图3所示,评估模块302中还可进一步包括:第二评估单元3022。
第二评估单元3022,用于将保存在数据库中的任一网页作为待处理的网页;针对待处理的网页中的每个原创句子,分别计算该原创句子的权值与该原创句子对应的倒排拉链长度的乘积;将各原创句子对应的乘积相加,将相加之和作为待处理的网页的原创权威性评分。
其中,倒排拉链长度包括:数据库中包含该原创句子的网页数,或者,数据库中包含该原创句子或该原创句子的邻近句子的网页数,所述邻近句子为与该原创句子的句子签名之间的海明距离小于预定阈值的句子。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图4示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图4显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理模块)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理模块、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子,根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。
具体来说,至少可以有方式一和方式二两种实现方法,请参照图1所示方法实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种基于人工智能的网页原创评估方法,其特征在于,包括:
针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
2.根据权利要求1所述的方法,其特征在于,
对待处理的网页进行句子提取包括:
获取所述待处理的网页的标题以及正文内容;
对所述正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
3.根据权利要求2所述的方法,其特征在于,
所述分别计算切分出的每个句子的权值包括:
针对切分出的每个句子,分别对所述句子进行切词和去停用词处理,并将处理后得到的各词的逆文本频率IDF值相加,将相加之和作为所述句子的权值。
4.根据权利要求1所述的方法,其特征在于,
所述根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性包括:
将保存在数据库中的各网页均作为待处理的网页;
根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边,每条有向边分别对应两个网页,且方向为从其中一个网页指向另一个网页;
根据识别结果及获取到的句子的权值分别确定每条有向边的权值;
根据所有有向边的权值同时确定出各网页的原创权威性。
5.根据权利要求4所述的方法,其特征在于,
所述根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边包括:
针对每个网页,分别进行以下处理:
将所述网页作为引用网页,分别确定出所述引用网页中的每个非原创句子对应的原创句子所在的网页,将确定出的网页进行去重处理,将处理后得到的每个网页分别作为所述引用网页对应的引用来源网页;
分别利用所述引用网页及一个所述引用来源网页构成一条由所述引用网页指向所述引用来源网页的有向边。
6.根据权利要求5所述的方法,其特征在于,
所述根据识别结果及获取到的句子的权值分别确定每条有向边的权值包括:
对于每条有向边,分别从所述有向边对应的引用网页中的非原创句子中筛选出符合要求的非原创句子,所述符合要求为:对应的原创句子位于所述有向边对应的引用来源网页中;
计算筛选出的各非原创句子的权值之和,得到第一相加结果;
计算所述有向边对应的引用网页中的非原创句子的权值之和,得到第二相加结果;
用所述第一相加结果除以所述第二相加结果,将计算结果作为所述有向边的权值。
7.根据权利要求5所述的方法,其特征在于,
所述根据所有有向边的权值同时确定出各网页的原创权威性包括:
分别对各条有向边的权值进行正则化处理,将处理结果作为迭代算法的转移概率;
根据所有转移概率构成一个P*P的转移概率矩阵,P为正整数,取值等于保存在数据库中的网页数;
根据所述转移概率矩阵,通过迭代算法,同时确定出各网页的原创权威性。
8.根据权利要求7所述的方法,其特征在于,
所述同时确定出各网页的原创权威性包括:
设置一个P维的全1纵向量e;
进行迭代运算,包括:计算原创权威性向量与所述转移概率矩阵的乘积,并将所述乘积与所述e相加,其中,首次迭代时,将所述e作为所述原创权威性向量;
确定是否达到迭代收敛,如果否,则将相加之和作为所述原创权威性向量,并重复执行所述迭代运算,如果是,则将所述原创权威性向量中的每个元素分别作为一个网页的原创权威性评分。
9.根据权利要求1所述的方法,其特征在于,
所述根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性包括:
将保存在数据库中的任一网页作为待处理的网页;
针对所述待处理的网页中的每个原创句子,分别计算所述原创句子的权值与所述原创句子对应的倒排拉链长度的乘积;
将各原创句子对应的乘积相加,将相加之和作为所述待处理的网页的原创权威性评分;
其中,所述倒排拉链长度包括:所述数据库中包含所述原创句子的网页数,或者,所述数据库中包含所述原创句子或所述原创句子的邻近句子的网页数,所述邻近句子为与所述原创句子的句子签名之间的海明距离小于预定阈值的句子。
10.一种基于人工智能的网页原创评估装置,其特征在于,包括:预处理模块和评估模块;
所述预处理模块,用于针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
所述评估模块,用于根据所述预处理模块的识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
11.根据权利要求10所述的装置,其特征在于,
所述预处理模块按照以下方式对所述待处理的网页进行句子提取:
获取所述待处理的网页的标题以及正文内容;
对所述正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
12.根据权利要求11所述的装置,其特征在于,
所述预处理模块针对切分出的每个句子,分别对所述句子进行切词和去停用词处理,并将处理后得到的各词的逆文本频率IDF值相加,将相加之和作为所述句子的权值。
13.根据权利要求10所述的装置,其特征在于,
所述评估模块中包括:第一评估单元;
所述第一评估单元中进一步包括:第一确定子单元以及第二确定子单元;
所述第一确定子单元,用于将保存在数据库中的各网页均作为待处理的网页;根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边,每条有向边分别对应两个网页,且方向为从其中一个网页指向另一个网页;根据识别结果及获取到的句子的权值分别确定每条有向边的权值;
所述第二确定子单元,用于根据所有有向边的权值同时确定出各网页的原创权威性。
14.根据权利要求13所述的装置,其特征在于,
所述第一确定子单元针对每个网页,分别进行以下处理:
将所述网页作为引用网页,分别确定出所述引用网页中的每个非原创句子对应的原创句子所在的网页,将确定出的网页进行去重处理,将处理后得到的每个网页分别作为所述引用网页对应的引用来源网页;
分别利用所述引用网页及一个所述引用来源网页构成一条由所述引用网页指向所述引用来源网页的有向边。
15.根据权利要求14所述的装置,其特征在于,
所述第一确定子单元针对每条有向边,分别从所述有向边对应的引用网页中的非原创句子中筛选出符合要求的非原创句子,所述符合要求为:对应的原创句子位于所述有向边对应的引用来源网页中;计算筛选出的各非原创句子的权值之和,得到第一相加结果;计算所述有向边对应的引用网页中的非原创句子的权值之和,得到第二相加结果;用所述第一相加结果除以所述第二相加结果,将计算结果作为所述有向边的权值。
16.根据权利要求14所述的装置,其特征在于,
所述第二确定子单元分别对各条有向边的权值进行正则化处理,将处理结果作为迭代算法的转移概率;根据所有转移概率构成一个P*P的转移概率矩阵,P为正整数,取值等于保存在数据库中的网页数;根据所述转移概率矩阵,通过迭代算法,同时确定出各网页的原创权威性。
17.根据权利要求16所述的装置,其特征在于,
所述第二确定子单元设置一个P维的全1纵向量e;
进行迭代运算,包括:计算原创权威性向量与所述转移概率矩阵的乘积,并将所述乘积与所述e相加,其中,首次迭代时,将所述e作为所述原创权威性向量;
确定是否达到迭代收敛,如果否,则将相加之和作为所述原创权威性向量,并重复执行所述迭代运算,如果是,则将所述原创权威性向量中的每个元素分别作为一个网页的原创权威性评分。
18.根据权利要求10所述的装置,其特征在于,
所述评估模块中包括:第二评估单元;
所述第二评估单元,用于将保存在数据库中的任一网页作为待处理的网页;针对所述待处理的网页中的每个原创句子,分别计算所述原创句子的权值与所述原创句子对应的倒排拉链长度的乘积;将各原创句子对应的乘积相加,将相加之和作为所述待处理的网页的原创权威性评分;
其中,所述倒排拉链长度包括:所述数据库中包含所述原创句子的网页数,或者,所述数据库中包含所述原创句子或所述原创句子的邻近句子的网页数,所述邻近句子为与所述原创句子的句子签名之间的海明距离小于预定阈值的句子。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
CN201710202081.7A 2017-03-30 2017-03-30 基于人工智能的网页原创评估方法、装置及存储介质 Active CN107168997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710202081.7A CN107168997B (zh) 2017-03-30 2017-03-30 基于人工智能的网页原创评估方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710202081.7A CN107168997B (zh) 2017-03-30 2017-03-30 基于人工智能的网页原创评估方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107168997A true CN107168997A (zh) 2017-09-15
CN107168997B CN107168997B (zh) 2021-07-20

Family

ID=59848997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710202081.7A Active CN107168997B (zh) 2017-03-30 2017-03-30 基于人工智能的网页原创评估方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN107168997B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101539923A (zh) * 2008-03-18 2009-09-23 北京搜狗科技发展有限公司 从文档中提取正文片段的方法及装置
CN101499098A (zh) * 2009-03-04 2009-08-05 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝金隆: "网络原创文章优先的搜索引擎排序算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及***
CN108595439B (zh) * 2018-05-04 2022-04-12 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及***

Also Published As

Publication number Publication date
CN107168997B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
JP7302022B2 (ja) テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
CN111930929B (zh) 一种文章标题生成方法、装置及计算设备
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN111797409B (zh) 一种大数据中文文本无载体信息隐藏方法
CN101490666A (zh) 对齐分层和顺序文档树以标识并行数据
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US8356245B2 (en) System and method of automatically mapping a given annotator to an aggregate of given annotators
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
JP2009163303A (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
CN112925914B (zh) 数据安全分级方法、***、设备及存储介质
CN114528827A (zh) 一种面向文本的对抗样本生成方法、***、设备及终端
JPWO2019106965A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN107169011A (zh) 基于人工智能的网页原创性识别方法、装置及存储介质
GB2569858A (en) Constructing content based on multi-sentence compression of source content
Oliveira et al. A concept-based ILP approach for multi-document summarization exploring centrality and position
CN107168997A (zh) 基于人工智能的网页原创评估方法、装置及存储介质
CN110609997B (zh) 生成文本的摘要的方法和装置
CN109829054A (zh) 一种文本分类方法及***
CN110287396A (zh) 文本匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant