CN107665189B - 一种提取中心词的方法、终端以及设备 - Google Patents

一种提取中心词的方法、终端以及设备 Download PDF

Info

Publication number
CN107665189B
CN107665189B CN201710458910.8A CN201710458910A CN107665189B CN 107665189 B CN107665189 B CN 107665189B CN 201710458910 A CN201710458910 A CN 201710458910A CN 107665189 B CN107665189 B CN 107665189B
Authority
CN
China
Prior art keywords
search
score
search term
edge
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710458910.8A
Other languages
English (en)
Other versions
CN107665189A (zh
Inventor
吕梓燊
韦邕
赵清源
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710458910.8A priority Critical patent/CN107665189B/zh
Priority to US16/097,292 priority patent/US10691888B2/en
Priority to SG11201809618PA priority patent/SG11201809618PA/en
Priority to PCT/CN2017/099548 priority patent/WO2018227767A1/zh
Publication of CN107665189A publication Critical patent/CN107665189A/zh
Application granted granted Critical
Publication of CN107665189B publication Critical patent/CN107665189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种提取中心词的方法、终端以及设备,其中方法包括:获取用户输入的文本信息,文本信息包括一个或者多个搜索词;确定每个搜索词的出边权重;根据出边权重计算针对文本信息中所有搜索词的链接矩阵;根据预设文档库计算针对每个搜索词的先验分数;根据先验分数确定文本信息中所有搜索词的随机跳转向量;根据链接矩阵以及随机跳转向量计算每个搜索词的第一初步分数;根据预设的词性配置规则确定每个搜索词的第二初步分数;根据第一初步分数以及第二初步分数确定每个搜索词的最终程度分数;根据最终程度分数提取文本信息中的中心词。本发明利用文本本身的特征进行中心词提取,提高了提取的效果,并满足应用上中心词的提取要求。

Description

一种提取中心词的方法、终端以及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取中心词的方法、终端以及设备。
背景技术
中心词提取,顾名思义,即是为一段自然语言文本提取出其中比较重要的、能够概括该段文本的内容的一些词语。目前,常用的中心词提取方法有TF-IDF方法、TextRank方法等,这些方法具备一定的通用性,但是上述常用的方法中存在以下缺点:利用用户所输入的文本本身的特征进行中心词提取的方式十分有限,对于各特定领域的应用而言,直接使用现有的方法进行中心词提取会导致提取的效果很不理想,无法满足应用的要求。
发明内容
本发明实施例提供一种提取中心词的方法、终端以及设备,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,进一步可以满足应用的要求。
一方面,本发明实施例提供了一种提取中心词的方法,该方法包括:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
另一方面,本发明实施例还提供了一种提取中心词的终端,该终端包括:
第一获取单元,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
出边权重确定单元,用于确定所述每个搜索词的出边权重;
链接矩阵计算单元,用于根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
先验分数计算单元,用于根据预设文档库计算针对每个搜索词的先验分数;
随机跳转向量确定单元,用于根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
第一初步分数计算单元,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
第二初步分数确定单元,用于根据预设的词性配置规则确定每个搜索词的第二初步分数;
最终程度分数确定单元,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
中心词提取单元,用于根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述出边权重确定单元,包括:
出边距离确定单元,用于确定每个搜索词的出边距离;
出边权重确定子单元,用于根据所述出边距离确定所述出边权重。
进一步地,所述先验分数计算单元,包括:
次数统计单元,用于统计每个搜索词在预设文档库中出现的次数;
文档数量统计单元,用于统计每个搜索词在预设文档库中出现的文档数量;
字符个数统计单元,用于统计每个搜索词在预设文档库中出现的字符个数;
先验分数计算子单元,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述随机跳转向量确定单元具体用于根据以下公式计算所述文本信息中的所有搜索词的随机跳转向量:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量;
所述最终程度分数确定单元,包括:
加权计算单元,用于根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
最终程度分数确定子单元,用于将加权计算得到的结果作为每个搜索词的最终程度分数。
另一方面,本发明实施例还提供一种提取中心词的设备,该设备包括:存储器以及处理器;
存储器,用于存储实现提取中心词的程序;
处理器,用于运行所述存储器中存储的程序,以执行以下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
综上所述,本发明具有以下有益效果:本发明实施例通过获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词,确定所述每个搜索词的出边权重,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,根据预设文档库计算针对每个搜索词的先验分数,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数,根据预设的词性配置规则确定每个搜索词的第二初步分数,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,根据所述最终程度分数提取所述文本信息中的中心词,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种中心词提取的方法的示意流程图。
图2是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图3是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图4是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图5是本发明实施例提供的一种中心词提取的终端的示意性框图。
图6是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图7是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图8是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图9是本发明实施例提供的一种中心词提取的设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1是本发明实施例提供的一种提取中心词的方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。该方法主要是对用户输入的文本信息中的中心词进行提取,本发明的方法可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。如图1所示,该方法的步骤包括S101~S109。
S101,获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词。
在本发明实施例中,例如用户在终端的网页浏览器或者搜索引擎上输入需要搜索的文本信息,如“六安古墓挖掘”,终端的网页浏览器或者搜索引擎实时获取到用户输入的文本信息,即“六安古墓挖掘”,在该文本信息中包括有多个搜索词,分别为“六安”、“古墓”、“挖掘”,从而根据用户输入的文本信息确定文本信息中的搜索词。
S102,确定所述每个搜索词的出边权重。
在本发明实施例中,现有技术中,用户在同一个规定的输入窗口中所输入的文本信息,一个搜索词对其他搜索词的投票权重是一样的,在不同规定的输入窗口中,相同的边不重复添加;然而在实际应用中,同一个位置的搜索词对不同距离的搜索词的贡献程度不一样,对于某一个搜索词而言,对距离更近的其它搜索词的影响应该更大,对它们的投票权利应该更高一些,而且边的重复出现意味着该边连接的两个搜索词的相互影响程度较高,并不能简单的忽略,因此,通过确定搜索词之间的出边权重,能够更准确的反映各搜索词之间的重要程度,以增加提取中心词的准确率。
进一步地,如图2所示,步骤S102包括步骤S201~S202。
S201,确定每个搜索词的出边距离。
在本发明实施例中,所述出边距离指的是一个搜索词到另一个搜索词的距离,例如对于搜索词“六安”、“古墓”、“挖掘”,以“古墓”作为焦点词,假设输入窗口大小为3,那么搜索词“古墓”到“六安”的出边距离为1、搜索词“古墓”到“挖掘”的出边距离为1,搜索词“六安”到“挖掘”的出边距离为2;假设规定的输入窗口大小为2,那么可以为这个输入窗口构造出一条边,即“古墓”到“六安”或者“古墓”到“挖掘”,且其出边距离均为1。
S202,根据所述出边距离确定所述出边权重。
在本发明实施例中,所述出边权重跟所述出边距离成反比,出边距离越短、出边权重越大,所述出边权重跟所述出边频次成正比,出边频次越多、出边权重越大,所述出边权重的计算方法可以是先计算出这条边在不同的窗口中的距离,根据其在不同窗口中的距离算出该边在不同窗口中的权重,然后将不同窗口中该边的权重求和,将所求和的和值作为所述出边权重,例如,在窗口大小为3的窗口中,“古墓”到“六安”的权重为1.2,在窗口大小为2的窗口中,“古墓”到“六安”的权重为1.8,将从起点为“古墓”出去的边的权重进行归一化,可以得到边“古墓”到“六安”的出边权重为1.2/(1.2+1.8)=0.4,其中,出边权重为0.4的意思可以表示为有0.4的概率按照链接跳转到搜索词“六安”;另外,所述出边权重的计算方法可以由用户自行设置,具体的计算方法在此不作限定。
S103,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵。
在本发明实施例中,所述链接矩阵是针对文本信息中所有搜索词而言的,即将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现;例如文本信息中有m个词,那么该矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率。
S104,根据预设文档库计算针对每个搜索词的先验分数。
在本发明实施例中,所述先验分数可以表示在没有发现用户输入文本信息的情况下,网络的预设文档库中每个搜索词的重要程度,其中假如预设文档库中有N篇文档,对预设文档库中每一篇文档进行分词,在去除停留词之后,可以得到所有文档的分词结果。
进一步地,如图3所示,步骤S104包括步骤S301~S304。
S301,统计每个搜索词在预设文档库中出现的次数。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在整个预设文档库中出现的次数,将该次数记为freqi
S302,统计每个搜索词在预设文档库中出现的文档数量。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的文档数量,将该文档数量记为docfreqi
S303,统计每个搜索词在预设文档库中出现的字符个数。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的字符个数,将该字符个数记为charleni
S304,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
在本发明实施例中,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数,可以按照如下公式三进行计算,
所述公式三为:
其中,priori表示搜索词i的先验分数,freqi表示搜索词i在整个预设文档库中出现的次数,docfreqi表示搜索词i在预设文档库中出现的文档数量,charleni表示搜索词i在预设文档库中出现的字符个数,N表示预设文档库中的全部文档数量。
S105,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量。
在本发明实施例中,根据所述先验分数按照如下公式四确定所述文本信息中所有搜索词的随机跳转向量,所述公式四为:rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
S106,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数。
S107,根据预设的词性配置规则确定每个搜索词的第二初步分数。
在本发明实施例中,通常所述搜索词可以分为名词、动词、形容词等词性,在实际应用中,带有词性的搜索词成为中心词的可能性比较高,因此需要对不同词性的搜索词赋予不同的分数,例如搜索词“古墓”为名词、搜索词“六安”为名词、搜索词“挖掘”为动词,可以预先设置名词的分数为10、动词的分数为5,那么就可以根据不同词性的搜索词确定对应的第二初步分数了,具体地,不同词性的搜索词的分数可以由用户自行设置,具体的分数分配方法在此不作限定,用户可以根据具体的应用场景配置相对应的词性分数。
S108,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数。
进一步地,如图4所示,步骤S108包括步骤S401~S402。
S401,根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算。
S402,将加权计算得到的结果作为每个搜索词的最终程度分数。
S109,根据所述最终程度分数提取所述文本信息中的中心词。
综上所述,本发明实施例通过获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词,确定所述每个搜索词的出边权重,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,根据预设文档库计算针对每个搜索词的先验分数,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数,根据预设的词性配置规则确定每个搜索词的第二初步分数,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,根据所述最终程度分数提取所述文本信息中的中心词,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
请参阅图5,对应上述一种提取中心词的方法,本发明实施例还提出一种提取中心词的终端,该终端100包括:第一获取单元101、出边权重确定单元102、链接矩阵计算单元103、先验分数计算单元104、随机跳转向量确定单元105、第一初步分数计算单元106、第二初步分数确定单元107、最终程度分数确定单元108、中心词提取单元109。
其中,所述第一获取单元101,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词。在本发明实施例中,例如用户在终端的网页浏览器或者搜索引擎上输入需要搜索的文本信息,如“六安古墓挖掘”,终端的网页浏览器或者搜索引擎实时获取到用户输入的文本信息,即“六安古墓挖掘”,在该文本信息中包括有多个搜索词,分别为“六安”、“古墓”、“挖掘”,从而根据用户输入的文本信息确定文本信息中的搜索词。
出边权重确定单元102,用于确定所述每个搜索词的出边权重。在本发明实施例中,现有技术中,用户在同一个规定的输入窗口中所输入的文本信息,一个搜索词对其他搜索词的投票权重是一样的,在不同规定的输入窗口中,相同的边不重复添加;然而在实际应用中,同一个位置的搜索词对不同距离的搜索词的贡献程度不一样,对于某一个搜索词而言,对距离更近的其它搜索词的影响应该更大,对它们的投票权利应该更高一些,而且边的重复出现意味着该边连接的两个搜索词的相互影响程度较高,并不能简单的忽略,因此,通过确定搜索词之间的出边权重,能够更准确的反映各搜索词之间的重要程度,以增加提取中心词的准确率。
链接矩阵计算单元103,用于根据所述出边权重计算针对所述文本信息中所有的链接矩阵。在本发明实施例中,所述链接矩阵是针对文本信息中所有搜索词而言的,即将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现;例如文本信息中有m个词,那么该矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率。
先验分数计算单元104,用于根据预设文档库计算针对每个搜索词的先验分数。在本发明实施例中,所述先验分数可以表示在没有发现用户输入文本信息的情况下,网络的预设文档库中每个搜索词的重要程度,其中假如预设文档库中有N篇文档,对预设文档库中每一篇文档进行分词,在去除停留词之后,可以得到所有文档的分词结果。
随机跳转向量确定单元105,用于根据所述先验分数确定所述文本信息中所有的随机跳转向量。在本发明实施例中,根据所述先验分数按照如下公式四确定所述文本信息中所有搜索词的随机跳转向量,所述公式四为:rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
第一初步分数计算单元106,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数。
第二初步分数确定单元107,用于根据预设的词性配置规则确定每个搜索词的第二初步分数。在本发明实施例中,通常所述搜索词可以分为名词、动词、形容词等词性,在实际应用中,带有词性的搜索词成为中心词的可能性比较高,因此需要对不同词性的搜索词赋予不同的分数,例如搜索词“古墓”为名词、搜索词“六安”为名词、搜索词“挖掘”为动词,可以预先设置名词的分数为10、动词的分数为5,那么就可以根据不同词性的搜索词确定对应的第二初步分数了,具体地,不同词性的搜索词的分数可以由用户自行设置,具体的分数分配方法在此不作限定,用户可以根据具体的应用场景配置相对应的词性分数。
最终程度分数确定单元108,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数。
中心词提取单元109,用于根据所述最终程度分数提取所述文本信息中的中心词。
如图6所示,所述出边权重确定单元102,包括:
出边距离确定单元1021,用于确定每个搜索词的出边距离。在本发明实施例中,所述出边距离指的是一个搜索词到另一个搜索词的距离,例如对于搜索词“六安”、“古墓”、“挖掘”,以“古墓”作为焦点词,假设输入窗口大小为3,那么搜索词“古墓”到“六安”的出边距离为1、搜索词“古墓”到“挖掘”的出边距离为1,搜索词“六安”到“挖掘”的出边距离为2;假设规定的输入窗口大小为2,那么可以为这个输入窗口构造出一条边,即“古墓”到“六安”或者“古墓”到“挖掘”,且其出边距离均为1。
出边权重确定子单元1022,用于根据所述出边距离确定所述出边权重。在本发明实施例中,所述出边权重跟所述出边距离成反比,出边距离越短、出边权重越大,所述出边权重跟所述出边频次成正比,出边频次越多、出边权重越大,所述出边权重的计算方法可以是先计算出这条边在不同的窗口中的距离,根据其在不同窗口中的距离算出该边在不同窗口中的权重,然后将不同窗口中该边的权重求和,将所求和的和值作为所述出边权重,例如,在窗口大小为3的窗口中,“古墓”到“六安”的权重为1.2,在窗口大小为2的窗口中,“古墓”到“六安”的权重为1.8,将从起点为“古墓”出去的边的权重进行归一化,可以得到边“古墓”到“六安”的出边权重为1.2/(1.2+1.8)=0.4,其中,出边权重为0.4的意思可以表示为有0.4的概率按照链接跳转到搜索词“六安”;另外,所述出边权重的计算方法可以由用户自行设置,具体的计算方法在此不作限定。
如图7所示,所述先验分数计算单元104,包括:
次数统计单元1041,用于统计每个搜索词在预设文档库中出现的次数。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在整个预设文档库中出现的次数,将该次数记为freqi
文档数量统计单元1042,用于统计每个搜索词在预设文档库中出现的文档数量。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的文档数量,将该文档数量记为docfreqi
字符个数统计单元1043,用于统计每个搜索词在预设文档库中出现的字符个数。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的字符个数,将该字符个数记为charleni
先验分数计算子单元1044,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。在本发明实施例中,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数,可以按照如下公式三进行计算,
所述公式三为:
其中,priori表示搜索词i的先验分数,freqi表示搜索词i在整个预设文档库中出现的次数,docfreqi表示搜索词i在预设文档库中出现的文档数量,charleni表示搜索词i在预设文档库中出现的字符个数,N表示预设文档库中的全部文档数量。
如图8所示,所述最终程度分数确定单元108,包括:
加权计算单元1081,用于根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算。
最终程度分数确定子单元1082,用于将加权计算得到的结果作为每个搜索词的最终程度分数。
图9为本发明一种提取中心词的设备的结构组成示意图。如图9所示,该设备200可包括:输入装置201、输出装置202、收发装置203、存储器204以及处理器205,其中:
所述输入装置201,用于接收外部访问控制设备的输入数据。具体实现中,本发明实施例所述的输入装置201可包括键盘、鼠标、光电输入装置、声音输入装置、触摸式输入装置、扫描仪等。
所述输出装置202,用于对外输出访问控制设备的输出数据。具体实现中,本发明实施例所述的输出装置202可包括显示器、扬声器、打印机等。
所述收发装置203,用于通过通信链路向其他设备发送数据或者从其他设备接收数据。具体实现中,本发明实施例的收发装置203可包括射频天线等收发器件。
所述存储器204,用于存储实现的程序。本发明实施例的存储器204可以是***存储器,比如,挥发性的(诸如RAM),非易失性的(诸如ROM,闪存等),或者两者的结合。具体实现中,本发明实施例的存储器204还可以是***之外的外部存储器,比如,磁盘、光盘、磁带等。
所述处理器205,用于运行所述存储器204中存储的程序,并执行如下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
本领域技术人员可以理解,图9中示出的提取中心词的设备的实施例并不构成对提取中心词的设备具体构成的限定,在其他实施例中,提取中心词的设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,提取中心词的设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种提取中心词的方法,其特征在于,所述方法包括:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重,所述出边权重为一个搜索词到另一个搜索词之间的重要程度;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,其中,所述链接矩阵的计算方法为:将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现,设文本信息中有m个词,那么该链接矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
2.如权利要求1所述的方法,其特征在于,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离,所述出边距离为一个搜索词到另一个搜索词的距离;
根据所述出边距离确定所述出边权重。
3.如权利要求1所述的方法,其特征在于,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
5.一种提取中心词的终端,其特征在于,所述终端包括:
第一获取单元,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
出边权重确定单元,用于确定所述每个搜索词的出边权重,所述出边权重为一个搜索词到另一个搜索词之间的重要程度;
链接矩阵计算单元,用于根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,其中,所述链接矩阵的计算方法为:将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现,设文本信息中有m个词,那么该链接矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率;
先验分数计算单元,用于根据预设文档库计算针对每个搜索词的先验分数;
随机跳转向量确定单元,用于根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
第一初步分数计算单元,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
第二初步分数确定单元,用于根据预设的词性配置规则确定每个搜索词的第二初步分数;
最终程度分数确定单元,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
中心词提取单元,用于根据所述最终程度分数提取所述文本信息中的中心词。
6.如权利要求5所述的终端,其特征在于,所述出边权重确定单元,包括:
出边距离确定单元,用于确定每个搜索词的出边距离,所述出边距离为一个搜索词到另一个搜索词的距离;
出边权重确定子单元,用于根据所述出边距离确定所述出边权重。
7.如权利要求5所述的终端,其特征在于,所述先验分数计算单元,包括:
次数统计单元,用于统计每个搜索词在预设文档库中出现的次数;
文档数量统计单元,用于统计每个搜索词在预设文档库中出现的文档数量;
字符个数统计单元,用于统计每个搜索词在预设文档库中出现的字符个数;
先验分数计算子单元,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
8.一种提取中心词的设备,其特征在于,所述设备包括:存储器以及处理器;
存储器,用于存储实现提取中心词的程序;
处理器,用于运行所述存储器中存储的程序,以执行以下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,其中,所述链接矩阵的计算方法为:将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现,设文本信息中有m个词,那么该链接矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
CN201710458910.8A 2017-06-16 2017-06-16 一种提取中心词的方法、终端以及设备 Active CN107665189B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710458910.8A CN107665189B (zh) 2017-06-16 2017-06-16 一种提取中心词的方法、终端以及设备
US16/097,292 US10691888B2 (en) 2017-06-16 2017-08-30 Method, terminal, apparatus and computer-readable storage medium for extracting a headword
SG11201809618PA SG11201809618PA (en) 2017-06-16 2017-08-30 Method, terminal, apparatus and computer-readable storage medium for extracting a headword
PCT/CN2017/099548 WO2018227767A1 (zh) 2017-06-16 2017-08-30 提取中心词的方法、终端、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710458910.8A CN107665189B (zh) 2017-06-16 2017-06-16 一种提取中心词的方法、终端以及设备

Publications (2)

Publication Number Publication Date
CN107665189A CN107665189A (zh) 2018-02-06
CN107665189B true CN107665189B (zh) 2019-12-13

Family

ID=61121790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710458910.8A Active CN107665189B (zh) 2017-06-16 2017-06-16 一种提取中心词的方法、终端以及设备

Country Status (4)

Country Link
US (1) US10691888B2 (zh)
CN (1) CN107665189B (zh)
SG (1) SG11201809618PA (zh)
WO (1) WO2018227767A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392774B2 (en) 2020-02-10 2022-07-19 International Business Machines Corporation Extracting relevant sentences from text corpus

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和***
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US20080177994A1 (en) * 2003-01-12 2008-07-24 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US7464075B2 (en) * 2004-01-05 2008-12-09 Microsoft Corporation Personalization of web page search rankings
US7251654B2 (en) * 2004-05-15 2007-07-31 International Business Machines Corporation System and method for ranking nodes in a network
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
US20100106719A1 (en) * 2008-10-23 2010-04-29 Debora Donato Context-sensitive search
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US8200596B2 (en) * 2009-05-28 2012-06-12 Reid Andersen Speeding up analysis of compressed web graphs using virtual nodes
US10152557B2 (en) * 2014-01-31 2018-12-11 Google Llc Efficient similarity ranking for bipartite graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和***
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其***

Also Published As

Publication number Publication date
CN107665189A (zh) 2018-02-06
SG11201809618PA (en) 2019-01-30
US10691888B2 (en) 2020-06-23
WO2018227767A1 (zh) 2018-12-20
US20190340237A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
US11194965B2 (en) Keyword extraction method and apparatus, storage medium, and electronic apparatus
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN106407280B (zh) 查询目标匹配方法及装置
US9807473B2 (en) Jointly modeling embedding and translation to bridge video and language
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20170133008A1 (en) Method and apparatus for determining a recognition rate
CN108763535B (zh) 信息获取方法及装置
US20220414131A1 (en) Text search method, device, server, and storage medium
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN103646074B (zh) 一种确定图片簇描述文本核心词的方法及装置
CN110874528B (zh) 文本相似度的获取方法及装置
US11132389B2 (en) Method and apparatus with latent keyword generation
CN103577547B (zh) 网页类型识别方法及装置
CN111125348A (zh) 一种文本摘要的提取方法及装置
CN109388693B (zh) 一种确定分区意图的方法以及相关设备
JP6124489B1 (ja) クエリ提供装置、クエリ提供方法、およびクエリ提供プログラム
CN113641767B (zh) 实体关系抽取方法、装置、设备及存储介质
CN110046344B (zh) 添加分隔符的方法及终端设备
CN110389999A (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN107665189B (zh) 一种提取中心词的方法、终端以及设备
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN112949261A (zh) 文本还原方法、装置及电子设备
CN116310994A (zh) 一种视频片段提取方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1250583

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant