CN108073708A - 信息输出方法和装置 - Google Patents

信息输出方法和装置 Download PDF

Info

Publication number
CN108073708A
CN108073708A CN201711383167.0A CN201711383167A CN108073708A CN 108073708 A CN108073708 A CN 108073708A CN 201711383167 A CN201711383167 A CN 201711383167A CN 108073708 A CN108073708 A CN 108073708A
Authority
CN
China
Prior art keywords
text
history
candidate
word
history text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711383167.0A
Other languages
English (en)
Inventor
黄波
李大任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711383167.0A priority Critical patent/CN108073708A/zh
Publication of CN108073708A publication Critical patent/CN108073708A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了信息输出方法和装置。该方法的一具体实施方式包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定该多个历史文本中的至少一个候选历史文本;确定该至少一个候选历史文本中的各个候选历史文本与该待检测文本的文本重复度;基于所确定的文本重复度和预设重复度阈值的比较,确定该至少一个候选历史文本中的目标历史文本,并输出该目标历史文本。该实施方式提高了信息输出的灵活性。

Description

信息输出方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及信息输出方法和装置。
背景技术
随着计算机技术的发展,移动互联网迎来了全民自媒体的时代。随着原创作品的日渐丰富,抄袭的现象也越来越多。因此,需要对用户发布的作品进行重复度检测,确定其是否为抄袭作品。
现有的方式通常是直接检索两篇文章中相同句子的数量,将相同句子的数量与待检测文章中的句子总数的比值作为重复度,来判断待检测文章的抄袭程度,进而输出用于表征该重复度的数值。
发明内容
本申请实施例提出了信息输出方法和装置。
第一方面,本申请实施例提供了一种信息输出方法,该方法包括:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本;确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。
在一些实施例中,分别从待检测文本和多个历史文本中提取特征词,包括:分别对待检测文本和多个历史文本中的各个历史文本进行分词;对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:对于多个历史文本中的每一个历史文本,确定该历史文本与待检测文本的共同特征词,并确定共同特证词在该历史文本中的权重与共同特证词在待检测文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
在一些实施例中,在对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取预设数量的词,将所选取的词确定为该文本的特征词之后,该方法还包括:对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,关联历史文本信息包括关联历史文本的标识、该特征词在关联历史文本中的权重和关联历史文本的发布时间;将所建立的各个索引归入倒排索引列表。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,包括:将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引;从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重;对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和;将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
在一些实施例中,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本,还包括:响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
在一些实施例中,确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,包括:对于待检测文本和至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;对于至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与待检测文本的共同短句和构成该候选历史文本的词语总数;确定共同短句在该候选历史文本中的权重与共同短句在待检测文本中的权重的和,并将和与词语总数的比值确定为该候选历史文本与待检测文本的句子重复度;确定该候选历史文本的关键词与待检测文本的关键词的相似度,并将相似度确定为该候选历史文本与待检测文本的词语相似度;将句子重复度和词语相似度进行融合,确定该候选历史文本与待检测文本的文本重复度。
在一些实施例中,基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本,包括:确定至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出目标历史文本。
在一些实施例中,基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本,还包括:响应于确定至少一个候选历史文本中不存在文本重复度大于预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出目标历史文本。
第二方面,本申请实施例提供了一种信息输出装置,该装置包括:提取单元,配置用于分别从待检测文本和多个历史文本中提取特征词;第一确定单元,配置用于基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本;第二确定单元,配置用于确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;输出单元,配置用于基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。
在一些实施例中,提取单元包括:分词模块,配置用于分别对待检测文本和多个历史文本中的各个历史文本进行分词;第一确定模块,配置用于对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
在一些实施例中,第一确定单元包括:第二确定模块,配置用于对于多个历史文本中的每一个历史文本,确定该历史文本与待检测文本的共同特征词,并确定共同特证词在该历史文本中的权重与共同特证词在待检测文本中的权重的和;第三确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
在一些实施例中,该装置还包括:建立单元,配置用于对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,关联历史文本信息包括关联历史文本的标识、该特征词在关联历史文本中的权重和关联历史文本的发布时间;归入单元,配置用于将所建立的各个索引归入倒排索引列表。
在一些实施例中,第一确定单元包括:检索模块,配置用于将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引;提取模块,配置用于从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重;第四确定模块,配置用于对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和;第五确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
在一些实施例中,第一确定单元还包括:第六确定模块,配置用于响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
在一些实施例中,第二确定单元包括:计算模块,配置用于对待检测文本和至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;第七确定模块,配置用于对于至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与待检测文本的共同短句和构成该候选历史文本的词语总数;确定共同短句在该候选历史文本中的权重与共同短句在待检测文本中的权重的和,并将和与词语总数的比值确定为该候选历史文本与待检测文本的句子重复度;确定该候选历史文本的关键词与待检测文本的关键词的相似度,并将相似度确定为该候选历史文本与待检测文本的词语相似度;将句子重复度和词语相似度进行融合,确定该候选历史文本与待检测文本的文本重复度。
在一些实施例中,输出单元包括:第八确定模块,配置用于确定至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;第一输出模块,配置用于将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出目标历史文本。
在一些实施例中,输出单元还包括:第二输出模块,配置用于响应于确定至少一个候选历史文本中不存在文本重复度大于预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出目标历史文本。
第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如信息输出方法中任一实施例的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如信息输出方法中任一实施例的方法。
本申请实施例提供的信息输出方法和装置,通过分别从待检测文本和多个历史文本中提取特征词,而后基于所提取的特征词,确定至少一个候选历史文本,而后确定各个候选历史文本与待检测文本的文本重复度,最后基于所确定的文本重复度和预设重复度阈值的比较,确定目标历史文本,并输出该目标历史文本。该实施方式可以输出通过文本重复度和预设重复度阈值进行比较后所确定的目标历史文本,针对不同的比较结果可以输出不同的目标历史文本,从而提高了信息输出的灵活性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的信息输出方法的一个实施例的流程图;
图3是根据本申请的信息输出方法的又一个实施例的流程图;
图4是对图3的流程图中的文本重复度确定步骤的分解流程图;
图5是根据本申请的信息输出装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的信息输出方法或信息输出装置的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本编辑类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103所发送的待检测文本提供相似文本检索服务的检索服务器。检索网页服务器可以对接收到的待检测文本、历史文本等数据进行分析等处理,并将处理结果(例如检索到的目标历史文本)反馈给终端设备。
需要说明的是,本申请实施例所提供的信息输出方法一般由服务器105执行,相应地,信息输出装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息输出方法的一个实施例的流程200。所述的信息输出方法,包括以下步骤:
步骤201,分别从待检测文本和多个历史文本中提取特征词。
在本实施例中,信息输出方法运行于其上的电子设备(例如图1所示的服务器105)可以首先提取待检测文本和多个历史文本。实践中,上述多个历史文本和上述待检测文本可以存储在上述电子设备的本地,此时,上述电子设备可以直接从本地提取上述多个历史文本和上述待检测文本。此外,上述待检测文本也可以是客户端(例如图1所示的终端设备101、102、103)通过有线连接方式或者无线连接方式发送给上述电子设备的。其中,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。在提取上述待检测文本和上述多个历史文本之后,上述电子设备可以分别从上述待检测文本和所提取的各个历史文本中提取特征词。需要说明的是,上述电子设备可以通过各种方法提取文本中的特征词。
在本实施例的一些可选的实现方式中,上述电子设备可以通过统计分析方式提取各文本中的特征词。例如,可以对每一个文本中存在的各个词语的出现频率进行统计和排序,之后,再选取出现频率排序靠前的一个或多个词语(例如50个)作为该文本的特征词。
在本实施例的一些可选的实现方式中,上述电子设备可以通过语义分析方式提取个文本中的特征词。具体地,可以按照如下步骤执行:第一步,分别对待检测文本和多个历史文本中的各个历史文本进行分词。第二步,对于进行分词后的每一个文本,可以确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量(例如50)的词,将所选取的词确定为该文本的特征词。此处,上述电子设备可以采用词频-逆向文件频率方法(Term Frequency-Inverse Document Frequency,TF-IDF)进行权重计算。实践中,词频-逆向文件频率方法的主要思想是,如果某个词或短语在一篇文章中出现的频率(Term Frequency,TF)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率(Inverse Document Frequency,IDF)主要是指,如果包含某个词或短语的文档越少,则IDF越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。需要说明的是,上述语义分析方式的各种方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤202,基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本。
在本实施例中,上述电子设备可以基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本。此处,上述电子设备可以利用各种方法确定候选历史文本。
在本实施例的一些可选的实现方式中,上述电子设备可以通过以下步骤确定候选历史文本:首先,可以将从上述待检测文本中提取的各个特征词作为目标特征词;之后,对于上述多个历史文本中的每一个历史文本,响应于确定该历史文本的特征词中包含一定数量(可以是技术人员基于大量数据统计而预先设置的数量)的目标特征词,则可以将该历史文本确定为候选历史文本。
在本实施例的一些可选的实现方式中,上述电子设备还可以通过以下步骤确定候选历史文本:首先,对于上述多个历史文本中的每一个历史文本,确定该历史文本与上述待检测文本的共同特征词,并确定上述共同特证词在该历史文本中的权重与上述共同特证词在上述待检测文本中的权重的和;而后,将所确定的权重的和中的、大于预设数值(例如0.6)的和所对应的历史文本确定为候选历史文本。需要说明的是,上述权重可以是通过词频-逆向文件频率方法确定的,在此不再赘述。
在本实施例的一些可选的实现方式中,响应于确定所确定的权重的和中不存在大于上述预设数值的和,上述电子设备可以按照权重的和从大到小的顺序选取第二预设数量(例如3)的历史文本,将所选取的历史文本确定为候选历史文本。
步骤203,确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度。
在本实施例中,上述电子设备可以确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度可以用于表征文本之间的相似程度。上述电子设备可以利用各种方式确定各个候选历史文本与待检测文本的文本重复度。
在本实施例的一些可选的实现方式中,上述电子设备可以通过以下步骤确定各个候选历史文本与待检测文本的文本重复度:
第一步,对于上述待检测文本和上述至少一个候选历史文本中的每一个文本,上述电子设备可以将该文本进行分词,按照预设的词数范围将该文本的词语组成短句(例如由3至13个词组成短句),并计算该文本中的各个短句在该本文中的权重。作为示例,上述电子设备可以首先确定短句中是否包含目标词(例如游戏名称、地名、人名、机构名称、时间词等);若包含目标词,将该短句所包含的词语的数量与该短句中所包含的目标词的权重(文本中的某个词在该文本中的权重可以通过词频-逆向文件频率方法得到)的乘积作为该短句在该本文中的权重。
第二步,对于上述至少一个候选历史文本中的每一个候选历史文本,上述电子设备可以确定该候选历史文本与上述待检测文本的共同短句和构成该候选历史文本的词语总数;确定上述共同短句在该候选历史文本中的权重与上述共同短句在上述待检测文本中的权重的和,并将上述和与上述词语总数的比值确定为该候选历史文本与上述待检测文本的文本重复度。这种方式可以识别出句子有改写的非原创文章。
在本实施例的一些可选的实现方式中,上述电子设备可以通过以下步骤确定各个候选历史文本与待检测文本的文本重复度:
第一步,对于上述待检测文本和上述至少一个候选历史文本中的每一个文本,上述电子设备可以提取该文本的关键词,并计算所提取的关键词在该文本中的权重。此处,上述关键词可以是用于表征文章的主题的词语或短语,例如“XX离婚”、“XX出轨”等。通常,关键词可以是每个文本所预先带有的标签,该标签可以是文本的作者预先设置的。
第二步,对于上述至少一个候选历史文本中的每一个候选历史文本,上述电子设备可以利用各种相似度计算方法(例如欧氏距离、余弦相似度算法等)确定该候选历史文本的关键词与上述待检测文本的关键词的相似度,并将上述相似度确定为该候选历史文本与上述待检测文本的文本重复度。
步骤204,基于所确定的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。
在本实施例中,上述电子设备可以基于各个候选历史文本的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。作为示例,对于每一个候选历史文本,上述电子设备可以确定该候选历史文本的文本重复度是否大于技术人员预先设定的预设重复度阈值,若是,可以将该候选历史文本确定为目标历史文本,并输出目标历史文本。若不存在文本重复度大于上述预设重复度阈值的候选历史文本,则可以将文本重复度较大的一个或多个候选历史文本作为目标历史文本进行输出。
在本实施例的一些可选的实现方式中,对于每一个候选历史文本,上述电子设备可以确定该候选历史文本的文本重复度是否大于技术人员预先设定的预设重复度阈值,若是,可以提取该候选历史文本;而后,上述电子设备可以对所提取的各个候选历史文本按照发布时间进行排序,按照发布时间从早到晚的顺序将一定数量(例如1个,或者3个等)的候选历史文本确定为目标历史文本,并输出目标历史文本。此处,若该候选历史文本的文本重复度不大于上述预设重复度阈值,则上述电子设备可以按照文本重复度从大到小的顺序选取一定数量(例如1个,或者3个等)的候选历史文本确定为目标历史文本,并输出目标历史文本。
本申请的上述实施例提供的方法,通过分别从待检测文本和多个历史文本中提取特征词,而后基于所提取的特征词,确定至少一个候选历史文本,而后确定各个候选历史文本与待检测文本的文本重复度,最后基于所确定的文本重复度和预设重复度阈值的比较,确定目标历史文本,并输出该目标历史文本。该实施方式可以输出通过文本重复度和预设重复度阈值进行比较后所确定的目标历史文本,针对不同的比较结果可以输出不同的目标历史文本,从而提高了信息输出的灵活性。
进一步参考图3,其示出了信息输出方法的又一个实施例的流程300。该信息输出方法的流程300,包括以下步骤:
步骤301,分别对待检测文本和多个历史文本中的各个历史文本进行分词。
在本实施例中,信息输出方法运行于其上的电子设备(例如图1所示的服务器105)可以首先提取待检测文本和多个历史文本。而后,可以分别对待检测文本和多个历史文本中的各个历史文本进行分词。
步骤302,对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
在本实施例中,对于进行分词后的每一个文本,上述电子设备可以确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量(例如50)的词,将所选取的词确定为该文本的特征词。此处,上述电子设备可以采用词频-逆向文件频率方法进行权重计算。
需要说明的是,步骤301、302的具体操作与步骤201的具体操作基本相同,在此不再赘述。
步骤303,对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引。
在本实施例中,对于从历史文本中所提取的每一个特征词,上述电子设备可以将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引。其中,上述关联历史文本信息可以包括上述关联历史文本的标识(可以是各种字符构成的字符串,例如用于区分文本的标识符)、该特征词在上述关联历史文本中的权重和上述关联历史文本的发布时间。实践中,对于从历史文本中所提取的每一个特征词,由于特征词中包含该特征词的历史文本可以有一个或多个,因此,该特征词对应的关联历史文本可以有一个或多个,该特征词对应的关联历史文本信息也可以是一个或多个。
步骤304,将所建立的各个索引归入倒排索引列表。
在本实施例中,上述电子设备可以将所建立的各个索引归入倒排索引列表。
步骤305,将从待检测文本所提取的特征词作为目标特征词,从倒排索引列表中检索与目标特征词相对应的索引。
在本实施例中,上述电子设备可以将从上述待检测文本所提取的特征词作为目标特征词,从上述倒排索引列表中检索与上述目标特征词相对应的索引。
步骤306,从检索到的索引所对应的关联历史文本信息中提取目标特征词在与目标特征词在相对应的各个关联历史文本中的权重。
在本实施例中,上述电子设备可以从检索到的索引所对应的关联历史文本信息中提取上述目标特征词在与上述目标特征词在相对应的各个关联历史文本中的权重。
步骤307,对于与目标特征词相对应的每一个关联历史文本,确定目标特征词在待检测文本中的权重与目标特征词在该关联历史文本中的权重的和。
在本实施例中,对于与上述目标特征词相对应的每一个关联历史文本,上述电子设备可以确定上述目标特征词在上述待检测文本中的权重与上述目标特征词在该关联历史文本中的权重的和。
步骤308,将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
在本实施例中,上述电子设备可以将步骤307所确定的权重的和中的、大于预设数值(例如0.6)的和所对应的关联历史文本确定为候选历史文本。
步骤309,响应于确定所确定的权重的和中不存在大于预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
在本实施例中,响应于确定所确定的权重的和中不存在大于上述预设数值的和,上述电子设备可以按照步骤307所确定的权重的和从大到小的顺序选取第二预设数量(例如3)的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
步骤310,对于待检测文本和至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重。
在本实施例中,对于上述待检测文本和上述至少一个候选历史文本中的每一个文本,上述电子设备可以对该文本进行分词,并按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重。
步骤311,对于至少一个候选历史文本中的每一个候选历史文本,对该候选历史文本执行文本重复度确定步骤。
在本实施例中,对于上述至少一个候选历史文本中的每一个候选历史文本,上述电子设备可以对该候选历史文本执行文本重复度确定步骤执行文本重复度确定步骤。可以进一步参考图4,图4是对上述文本重复度确定步骤的分解流程图。在图4中,将步骤311分解成如下的4个子步骤,即:步骤3111、步骤3112、步骤3113和步骤3114。
步骤3111,确定该候选历史文本与待检测文本的共同短句和构成该候选历史文本的词语总数。
在本实施例中,上述电子设备可以确定该候选历史文本与上述待检测文本的共同短句和构成该候选历史文本的词语总数。
步骤3112,确定共同短句在该候选历史文本中的权重与共同短句在待检测文本中的权重的和,并将和与词语总数的比值确定为该候选历史文本与待检测文本的句子重复度。
在本实施例中,上述电子设备可以确定上述共同短句在该候选历史文本中的权重与上述共同短句在上述待检测文本中的权重的和,并将上述和与上述词语总数的比值确定为该候选历史文本与上述待检测文本的句子重复度。
步骤3113,确定该候选历史文本的关键词与待检测文本的关键词的相似度,并将相似度确定为该候选历史文本与待检测文本的词语相似度。
在本实施例中,上述电子设备可以利用各种相似度计算方法确定该候选历史文本的关键词与上述待检测文本的关键词的相似度,并将上述相似度确定为该候选历史文本与上述待检测文本的词语相似度。
需要说明的是,步骤3111-步骤3113的具体操作与步骤203的具体操作基本相同,在此不再赘述。
步骤3114,将句子重复度和词语相似度进行融合,确定该候选历史文本与待检测文本的文本重复度。
在本实施例中,上述电子设备可以将上述句子重复度和上述词语相似度进行融合(例如直接相加或者加权相加),确定该候选历史文本与上述待检测文本的文本重复度。作为示例,以0.8作为句子重复度的权重,以0.2作为文本重复度的权重,进行加权相加,得到该候选历史文本与上述待检测文本的文本重复度。
步骤312,确定至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间。
在本实施例中,上述电子设备可以首先选取上述至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本;而后,确定所选取的候选历史文本的发布时间。
步骤313,将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出目标历史文本。
在本实施例中,上述电子设备可以将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出上述目标历史文本。
步骤314,响应于确定至少一个候选历史文本中不存在文本重复度大于预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出目标历史文本。
在本实施例中,响应于确定上述至少一个候选历史文本中不存在文本重复度大于上述预设重复度阈值的候选历史文本,上述电子设备可以将文本重复度最大的候选历史文本确定为目标历史文本,并输出上述目标历史文本。
从图3中可以看出,与图2对应的实施例相比,本实施例中的信息输出方法的流程300突出了基于句子重复度和词语相似度确定文本重复度的步骤。由此,本实施例描述的方案可以结合句子和关键词对文本重复度进行判定,由于句子重复度是将文本切词后重新组合为短句,因此可以识别出句子有改写的非原创文章,提高了文本重复度检测的准确性;此外,结合文本关键词进行进一步的相似度计算,进一步提高了文本重复度检测的准确性,进而可使输出的历史文本更加准确。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种信息输出装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的信息输出装置500包括:提取单元501,配置用于分别从待检测文本和多个历史文本中提取特征词;第一确定单元502,配置用于基于所提取的特征词,确定上述多个历史文本中的至少一个候选历史文本;第二确定单元503,配置用于确定上述至少一个候选历史文本中的各个候选历史文本与上述待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;输出单元504,配置用于基于所确定的文本重复度和预设重复度阈值的比较,确定上述至少一个候选历史文本中的目标历史文本,并输出上述目标历史文本。
在本实施例中,上述提取单元501可以首先提取待检测文本和多个历史文本。
在本实施例中,上述第一确定单元502可以基于所提取的特征词,确定多个历史文本中的至少一个候选历史文本。
在本实施例中,第二确定单元503可以确定至少一个候选历史文本中的各个候选历史文本与待检测文本的文本重复度,其中,文本重复度可以用于表征文本之间的相似程度。
在本实施例中,上述输出单元504可以基于各个候选历史文本的文本重复度和预设重复度阈值的比较,确定至少一个候选历史文本中的目标历史文本,并输出目标历史文本。
在本实施例的一些可选的实现方式中,上述提取单元501可以包括分词模块和第一确定模块(图中未示出)。其中,上述分词模块可以配置用于分别对待检测文本和多个历史文本中的各个历史文本进行分词。上述第一确定模块可以配置用于对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
在本实施例的一些可选的实现方式中,上述第一确定单元502可以包括第二确定模块和第三确定模块(图中未示出)。其中,上述第二确定模块可以配置用于对于上述多个历史文本中的每一个历史文本,确定该历史文本与上述待检测文本的共同特征词,并确定上述共同特证词在该历史文本中的权重与上述共同特证词在上述待检测文本中的权重的和。上述第三确定模块可以配置用于将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
在本实施例的一些可选的实现方式中,该装置还可以包括建立单元和归入单元(图中未示出)。其中,上述建立单元可以配置用于对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,上述关联历史文本信息包括上述关联历史文本的标识、该特征词在上述关联历史文本中的权重和上述关联历史文本的发布时间。上述归入单元可以配置用于将所建立的各个索引归入倒排索引列表。
在本实施例的一些可选的实现方式中,上述第一确定单元502可以包括检索模块、提取模块、第四确定模块和第五确定模块(图中未示出)。其中,上述检索模块可以配置用于将从上述待检测文本所提取的特征词作为目标特征词,从上述倒排索引列表中检索与上述目标特征词相对应的索引。上述提取模块可以配置用于从检索到的索引所对应的关联历史文本信息中提取上述目标特征词在与上述目标特征词在相对应的各个关联历史文本中的权重。上述第四确定模块可以配置用于对于与上述目标特征词相对应的每一个关联历史文本,确定上述目标特征词在上述待检测文本中的权重与上述目标特征词在该关联历史文本中的权重的和。上述第五确定模块可以配置用于将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
在本实施例的一些可选的实现方式中,上述第一确定单元502还可以包括第六确定模块(图中未示出)。其中,上述第六确定模块可以配置用于响应于确定所确定的权重的和中不存在大于上述预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
在本实施例的一些可选的实现方式中,上述第二确定单元503可以包括计算模块和第七确定模块(图中未示出)。其中,上述计算模块可以配置用于对上述待检测文本和上述至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重。上述第七确定模块可以配置用于对于上述至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与上述待检测文本的共同短句和构成该候选历史文本的词语总数;确定上述共同短句在该候选历史文本中的权重与上述共同短句在上述待检测文本中的权重的和,并将上述和与上述词语总数的比值确定为该候选历史文本与上述待检测文本的句子重复度;确定该候选历史文本的关键词与上述待检测文本的关键词的相似度,并将上述相似度确定为该候选历史文本与上述待检测文本的词语相似度;将上述句子重复度和上述词语相似度进行融合,确定该候选历史文本与上述待检测文本的文本重复度。
在本实施例的一些可选的实现方式中,上述输出单元504可以包括第八确定模块和第一输出模块(图中未示出)。其中,上述第八确定模块可以配置用于确定上述至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间。上述第一输出模块可以配置用于将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出上述目标历史文本。
在本实施例的一些可选的实现方式中,上述输出单元504还可以包括第二输出模块(图中未示出)。其中,上述第二输出模块可以配置用于响应于确定上述至少一个候选历史文本中不存在文本重复度大于上述预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出上述目标历史文本。
本申请的上述实施例提供的装置,通过提取单元501分别从待检测文本和多个历史文本中提取特征词,而后第一确定单元502基于所提取的特征词,确定至少一个候选历史文本,而后第二确定单元503确定各个候选历史文本与待检测文本的文本重复度,最后输出单元504基于所确定的文本重复度和预设重复度阈值的比较,确定目标历史文本,并输出该目标历史文本。该实施方式可以输出通过文本重复度和预设重复度阈值进行比较后所确定的目标历史文本,针对不同的比较结果可以输出不同的目标历史文本,从而提高了信息输出的灵活性。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机***600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提取单元、第一确定单元、第二确定单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,提取单元还可以被描述为“分别从待检测文本和多个历史文本中提取特征词的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:分别从待检测文本和多个历史文本中提取特征词;基于所提取的特征词,确定该多个历史文本中的至少一个候选历史文本;确定该至少一个候选历史文本中的各个候选历史文本与该待检测文本的文本重复度;基于所确定的文本重复度和预设重复度阈值的比较,确定该至少一个候选历史文本中的目标历史文本,并输出该目标历史文本。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种信息输出方法,包括:
分别从待检测文本和多个历史文本中提取特征词;
基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本;
确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;
基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本。
2.根据权利要求1所述的信息输出方法,其中,所述分别从待检测文本和多个历史文本中提取特征词,包括:
分别对待检测文本和多个历史文本中的各个历史文本进行分词;
对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
3.根据权利要求2所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,包括:
对于所述多个历史文本中的每一个历史文本,确定该历史文本与所述待检测文本的共同特征词,并确定所述共同特证词在该历史文本中的权重与所述共同特证词在所述待检测文本中的权重的和;
将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
4.根据权利要求2所述的信息输出方法,其中,在所述对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取预设数量的词,将所选取的词确定为该文本的特征词之后,所述方法还包括:
对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,所述关联历史文本信息包括所述关联历史文本的标识、该特征词在所述关联历史文本中的权重和所述关联历史文本的发布时间;
将所建立的各个索引归入倒排索引列表。
5.根据权利要求4所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,包括:
将从所述待检测文本所提取的特征词作为目标特征词,从所述倒排索引列表中检索与所述目标特征词相对应的索引;
从检索到的索引所对应的关联历史文本信息中提取所述目标特征词在与所述目标特征词在相对应的各个关联历史文本中的权重;
对于与所述目标特征词相对应的每一个关联历史文本,确定所述目标特征词在所述待检测文本中的权重与所述目标特征词在该关联历史文本中的权重的和;
将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
6.根据权利要求5所述的信息输出方法,其中,所述基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本,还包括:
响应于确定所确定的权重的和中不存在大于所述预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
7.根据权利要求1所述的信息输出方法,其中,所述确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,包括:
对于所述待检测文本和所述至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;
对于所述至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与所述待检测文本的共同短句和构成该候选历史文本的词语总数;确定所述共同短句在该候选历史文本中的权重与所述共同短句在所述待检测文本中的权重的和,并将所述和与所述词语总数的比值确定为该候选历史文本与所述待检测文本的句子重复度;确定该候选历史文本的关键词与所述待检测文本的关键词的相似度,并将所述相似度确定为该候选历史文本与所述待检测文本的词语相似度;将所述句子重复度和所述词语相似度进行融合,确定该候选历史文本与所述待检测文本的文本重复度。
8.根据权利要求1所述的信息输出方法,其中,所述基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本,包括:
确定所述至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;
将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出所述目标历史文本。
9.根据权利要求8所述的信息输出方法,其中,所述基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本,还包括:
响应于确定所述至少一个候选历史文本中不存在文本重复度大于所述预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出所述目标历史文本。
10.一种信息输出装置,包括:
提取单元,配置用于分别从待检测文本和多个历史文本中提取特征词;
第一确定单元,配置用于基于所提取的特征词,确定所述多个历史文本中的至少一个候选历史文本;
第二确定单元,配置用于确定所述至少一个候选历史文本中的各个候选历史文本与所述待检测文本的文本重复度,其中,文本重复度用于表征文本的相似程度;
输出单元,配置用于基于所确定的文本重复度和预设重复度阈值的比较,确定所述至少一个候选历史文本中的目标历史文本,并输出所述目标历史文本。
11.根据权利要求10所述的信息输出装置,其中,所述提取单元包括:
分词模块,配置用于分别对待检测文本和多个历史文本中的各个历史文本进行分词;
第一确定模块,配置用于对于进行分词后的每一个文本,确定该文本中分词后的各个词在该文本中的权重,按照权重从大到小的顺序选取第一预设数量的词,将所选取的词确定为该文本的特征词。
12.根据权利要求11所述的信息输出装置,其中,所述第一确定单元包括:
第二确定模块,配置用于对于所述多个历史文本中的每一个历史文本,确定该历史文本与所述待检测文本的共同特征词,并确定所述共同特证词在该历史文本中的权重与所述共同特证词在所述待检测文本中的权重的和;
第三确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的历史文本确定为候选历史文本。
13.根据权利要求11所述的信息输出装置,其中,所述装置还包括:
建立单元,配置用于对于从历史文本中所提取的每一个特征词,将所提取的特征词中包含该特征词的历史文本作为与该特征词对应的关联历史文本,建立该特征词与关联历史文本信息的索引,其中,所述关联历史文本信息包括所述关联历史文本的标识、该特征词在所述关联历史文本中的权重和所述关联历史文本的发布时间;
归入单元,配置用于将所建立的各个索引归入倒排索引列表。
14.根据权利要求13所述的信息输出装置,其中,所述第一确定单元包括:
检索模块,配置用于将从所述待检测文本所提取的特征词作为目标特征词,从所述倒排索引列表中检索与所述目标特征词相对应的索引;
提取模块,配置用于从检索到的索引所对应的关联历史文本信息中提取所述目标特征词在与所述目标特征词在相对应的各个关联历史文本中的权重;
第四确定模块,配置用于对于与所述目标特征词相对应的每一个关联历史文本,确定所述目标特征词在所述待检测文本中的权重与所述目标特征词在该关联历史文本中的权重的和;
第五确定模块,配置用于将所确定的权重的和中的、大于预设数值的和所对应的关联历史文本确定为候选历史文本。
15.根据权利要求14所述的信息输出装置,其中,所述第一确定单元还包括:
第六确定模块,配置用于响应于确定所确定的权重的和中不存在大于所述预设数值的和,按照权重的和从大到小的顺序选取第二预设数量的关联历史文本,将所选取的关联历史文本确定为候选历史文本。
16.根据权利要求10所述的信息输出装置,其中,所述第二确定单元包括:
计算模块,配置用于对所述待检测文本和所述至少一个候选历史文本中的每一个文本,对该文本进行分词,按照预设的词数范围将该文本的词语组成短句,并计算该文本中的各个短句在该本文中的权重;提取该文本的关键词,计算所提取的关键词在该文本中的权重;
第七确定模块,配置用于对于所述至少一个候选历史文本中的每一个候选历史文本,确定该候选历史文本与所述待检测文本的共同短句和构成该候选历史文本的词语总数;确定所述共同短句在该候选历史文本中的权重与所述共同短句在所述待检测文本中的权重的和,并将所述和与所述词语总数的比值确定为该候选历史文本与所述待检测文本的句子重复度;确定该候选历史文本的关键词与所述待检测文本的关键词的相似度,并将所述相似度确定为该候选历史文本与所述待检测文本的词语相似度;将所述句子重复度和所述词语相似度进行融合,确定该候选历史文本与所述待检测文本的文本重复度。
17.根据权利要求10所述的信息输出装置,其中,所述输出单元包括:
第八确定模块,配置用于确定所述至少一个候选历史文本中的、文本重复度大于预设重复度阈值的候选历史文本的发布时间;
第一输出模块,配置用于将所确定的、发布时间最早的候选历史文本确定为目标历史文本,并输出所述目标历史文本。
18.根据权利要求17所述的信息输出装置,其中,所述输出单元还包括:
第二输出模块,配置用于响应于确定所述至少一个候选历史文本中不存在文本重复度大于所述预设重复度阈值的候选历史文本,将文本重复度最大的候选历史文本确定为目标历史文本,并输出所述目标历史文本。
19.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201711383167.0A 2017-12-20 2017-12-20 信息输出方法和装置 Pending CN108073708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711383167.0A CN108073708A (zh) 2017-12-20 2017-12-20 信息输出方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711383167.0A CN108073708A (zh) 2017-12-20 2017-12-20 信息输出方法和装置

Publications (1)

Publication Number Publication Date
CN108073708A true CN108073708A (zh) 2018-05-25

Family

ID=62158614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711383167.0A Pending CN108073708A (zh) 2017-12-20 2017-12-20 信息输出方法和装置

Country Status (1)

Country Link
CN (1) CN108073708A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110348539A (zh) * 2019-07-19 2019-10-18 知者信息技术服务成都有限公司 短文本相关性判别方法
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111767721A (zh) * 2020-03-26 2020-10-13 北京沃东天骏信息技术有限公司 信息处理方法、装置及设备
CN112650846A (zh) * 2021-01-13 2021-04-13 北京智通云联科技有限公司 一种基于问句框架的问答意图知识库构建***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN106446148A (zh) * 2016-09-21 2017-02-22 中国运载火箭技术研究院 一种基于聚类的文本查重方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN109918627B (zh) * 2019-01-08 2024-03-19 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111460110B (zh) * 2019-01-22 2023-04-25 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN110348539A (zh) * 2019-07-19 2019-10-18 知者信息技术服务成都有限公司 短文本相关性判别方法
CN111767721A (zh) * 2020-03-26 2020-10-13 北京沃东天骏信息技术有限公司 信息处理方法、装置及设备
CN112650846A (zh) * 2021-01-13 2021-04-13 北京智通云联科技有限公司 一种基于问句框架的问答意图知识库构建***及方法

Similar Documents

Publication Publication Date Title
CN108073708A (zh) 信息输出方法和装置
Ding et al. Entity discovery and assignment for opinion mining applications
CN108090162A (zh) 基于人工智能的信息推送方法和装置
CN105095394B (zh) 网页生成方法和装置
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN107105031A (zh) 信息推送方法和装置
CN108776671A (zh) 一种网络舆情监控***及方法
CN106845999A (zh) 风险用户识别方法、装置和服务器
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN110532352A (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN110362815A (zh) 文本向量生成方法和装置
CN107548495A (zh) 识别组织中的专家和专业领域
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN109948141A (zh) 一种提取特征词的方法和装置
CN108804448A (zh) 生成待推送信息的方法和装置
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN113435859A (zh) 信访件处理方法、装置、电子设备和计算机可读介质
CN109190123A (zh) 用于输出信息的方法和装置
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN107168635A (zh) 信息呈现方法和装置
CN108460020A (zh) 用于获取信息的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180525