CN107665189A - 一种提取中心词的方法、终端以及设备 - Google Patents
一种提取中心词的方法、终端以及设备 Download PDFInfo
- Publication number
- CN107665189A CN107665189A CN201710458910.8A CN201710458910A CN107665189A CN 107665189 A CN107665189 A CN 107665189A CN 201710458910 A CN201710458910 A CN 201710458910A CN 107665189 A CN107665189 A CN 107665189A
- Authority
- CN
- China
- Prior art keywords
- search term
- fraction
- text message
- preliminary score
- priori
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种提取中心词的方法、终端以及设备,其中方法包括:获取用户输入的文本信息,文本信息包括一个或者多个搜索词;确定每个搜索词的出边权重;根据出边权重计算针对文本信息中所有搜索词的链接矩阵;根据预设文档库计算针对每个搜索词的先验分数;根据先验分数确定文本信息中所有搜索词的随机跳转向量;根据链接矩阵以及随机跳转向量计算每个搜索词的第一初步分数;根据预设的词性配置规则确定每个搜索词的第二初步分数;根据第一初步分数以及第二初步分数确定每个搜索词的最终程度分数;根据最终程度分数提取文本信息中的中心词。本发明利用文本本身的特征进行中心词提取,提高了提取的效果,并满足应用上中心词的提取要求。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取中心词的方法、终端以及设备。
背景技术
中心词提取,顾名思义,即是为一段自然语言文本提取出其中比较重要的、能够概括该段文本的内容的一些词语。目前,常用的中心词提取方法有TF-IDF方法、TextRank方法等,这些方法具备一定的通用性,但是上述常用的方法中存在以下缺点:利用用户所输入的文本本身的特征进行中心词提取的方式十分有限,对于各特定领域的应用而言,直接使用现有的方法进行中心词提取会导致提取的效果很不理想,无法满足应用的要求。
发明内容
本发明实施例提供一种提取中心词的方法、终端以及设备,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,进一步可以满足应用的要求。
一方面,本发明实施例提供了一种提取中心词的方法,该方法包括:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
另一方面,本发明实施例还提供了一种提取中心词的终端,该终端包括:
第一获取单元,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
出边权重确定单元,用于确定所述每个搜索词的出边权重;
链接矩阵计算单元,用于根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
先验分数计算单元,用于根据预设文档库计算针对每个搜索词的先验分数;
随机跳转向量确定单元,用于根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
第一初步分数计算单元,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
第二初步分数确定单元,用于根据预设的词性配置规则确定每个搜索词的第二初步分数;
最终程度分数确定单元,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
中心词提取单元,用于根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述出边权重确定单元,包括:
出边距离确定单元,用于确定每个搜索词的出边距离;
出边权重确定子单元,用于根据所述出边距离确定所述出边权重。
进一步地,所述先验分数计算单元,包括:
次数统计单元,用于统计每个搜索词在预设文档库中出现的次数;
文档数量统计单元,用于统计每个搜索词在预设文档库中出现的文档数量;
字符个数统计单元,用于统计每个搜索词在预设文档库中出现的字符个数;
先验分数计算子单元,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述随机跳转向量确定单元具体用于根据以下公式计算所述文本信息中的所有搜索词的随机跳转向量:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量;
所述最终程度分数确定单元,包括:
加权计算单元,用于根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
最终程度分数确定子单元,用于将加权计算得到的结果作为每个搜索词的最终程度分数。
另一方面,本发明实施例还提供一种提取中心词的设备,该设备包括:存储器以及处理器;
存储器,用于存储实现提取中心词的程序;
处理器,用于运行所述存储器中存储的程序,以执行以下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
综上所述,本发明具有以下有益效果:本发明实施例通过获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词,确定所述每个搜索词的出边权重,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,根据预设文档库计算针对每个搜索词的先验分数,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数,根据预设的词性配置规则确定每个搜索词的第二初步分数,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,根据所述最终程度分数提取所述文本信息中的中心词,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种中心词提取的方法的示意流程图。
图2是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图3是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图4是本发明实施例提供的一种中心词提取的方法的另一示意流程图。
图5是本发明实施例提供的一种中心词提取的终端的示意性框图。
图6是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图7是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图8是本发明实施例提供的一种中心词提取的终端的另一示意性框图。
图9是本发明实施例提供的一种中心词提取的设备的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
请参阅图1,图1是本发明实施例提供的一种提取中心词的方法的示意流程图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。该方法主要是对用户输入的文本信息中的中心词进行提取,本发明的方法可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。如图1所示,该方法的步骤包括S101~S109。
S101,获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词。
在本发明实施例中,例如用户在终端的网页浏览器或者搜索引擎上输入需要搜索的文本信息,如“六安古墓挖掘”,终端的网页浏览器或者搜索引擎实时获取到用户输入的文本信息,即“六安古墓挖掘”,在该文本信息中包括有多个搜索词,分别为“六安”、“古墓”、“挖掘”,从而根据用户输入的文本信息确定文本信息中的搜索词。
S102,确定所述每个搜索词的出边权重。
在本发明实施例中,现有技术中,用户在同一个规定的输入窗口中所输入的文本信息,一个搜索词对其他搜索词的投票权重是一样的,在不同规定的输入窗口中,相同的边不重复添加;然而在实际应用中,同一个位置的搜索词对不同距离的搜索词的贡献程度不一样,对于某一个搜索词而言,对距离更近的其它搜索词的影响应该更大,对它们的投票权利应该更高一些,而且边的重复出现意味着该边连接的两个搜索词的相互影响程度较高,并不能简单的忽略,因此,通过确定搜索词之间的出边权重,能够更准确的反映各搜索词之间的重要程度,以增加提取中心词的准确率。
进一步地,如图2所示,步骤S102包括步骤S201~S202。
S201,确定每个搜索词的出边距离。
在本发明实施例中,所述出边距离指的是一个搜索词到另一个搜索词的距离,例如对于搜索词“六安”、“古墓”、“挖掘”,以“古墓”作为焦点词,假设输入窗口大小为3,那么搜索词“古墓”到“六安”的出边距离为1、搜索词“古墓”到“挖掘”的出边距离为1,搜索词“六安”到“挖掘”的出边距离为2;假设规定的输入窗口大小为2,那么可以为这个输入窗口构造出一条边,即“古墓”到“六安”或者“古墓”到“挖掘”,且其出边距离均为1。
S202,根据所述出边距离确定所述出边权重。
在本发明实施例中,所述出边权重跟所述出边距离成反比,出边距离越短、出边权重越大,所述出边权重跟所述出边频次成正比,出边频次越多、出边权重越大,所述出边权重的计算方法可以是先计算出这条边在不同的窗口中的距离,根据其在不同窗口中的距离算出该边在不同窗口中的权重,然后将不同窗口中该边的权重求和,将所求和的和值作为所述出边权重,例如,在窗口大小为3的窗口中,“古墓”到“六安”的权重为1.2,在窗口大小为2的窗口中,“古墓”到“六安”的权重为1.8,将从起点为“古墓”出去的边的权重进行归一化,可以得到边“古墓”到“六安”的出边权重为1.2/(1.2+1.8)=0.4,其中,出边权重为0.4的意思可以表示为有0.4的概率按照链接跳转到搜索词“六安”;另外,所述出边权重的计算方法可以由用户自行设置,具体的计算方法在此不作限定。
S103,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵。
在本发明实施例中,所述链接矩阵是针对文本信息中所有搜索词而言的,即将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现;例如文本信息中有m个词,那么该矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率。
S104,根据预设文档库计算针对每个搜索词的先验分数。
在本发明实施例中,所述先验分数可以表示在没有发现用户输入文本信息的情况下,网络的预设文档库中每个搜索词的重要程度,其中假如预设文档库中有N篇文档,对预设文档库中每一篇文档进行分词,在去除停留词之后,可以得到所有文档的分词结果。
进一步地,如图3所示,步骤S104包括步骤S301~S304。
S301,统计每个搜索词在预设文档库中出现的次数。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在整个预设文档库中出现的次数,将该次数记为freqi。
S302,统计每个搜索词在预设文档库中出现的文档数量。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的文档数量,将该文档数量记为docfreqi。
S303,统计每个搜索词在预设文档库中出现的字符个数。
在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的字符个数,将该字符个数记为charleni。
S304,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
在本发明实施例中,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数,可以按照如下公式三进行计算,
所述公式三为:
其中,priori表示搜索词i的先验分数,freqi表示搜索词i在整个预设文档库中出现的次数,docfreqi表示搜索词i在预设文档库中出现的文档数量,charleni表示搜索词i在预设文档库中出现的字符个数,N表示预设文档库中的全部文档数量。
S105,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量。
在本发明实施例中,根据所述先验分数按照如下公式四确定所述文本信息中所有搜索词的随机跳转向量,所述公式四为:rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
S106,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数。
S107,根据预设的词性配置规则确定每个搜索词的第二初步分数。
在本发明实施例中,通常所述搜索词可以分为名词、动词、形容词等词性,在实际应用中,带有词性的搜索词成为中心词的可能性比较高,因此需要对不同词性的搜索词赋予不同的分数,例如搜索词“古墓”为名词、搜索词“六安”为名词、搜索词“挖掘”为动词,可以预先设置名词的分数为10、动词的分数为5,那么就可以根据不同词性的搜索词确定对应的第二初步分数了,具体地,不同词性的搜索词的分数可以由用户自行设置,具体的分数分配方法在此不作限定,用户可以根据具体的应用场景配置相对应的词性分数。
S108,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数。
进一步地,如图4所示,步骤S108包括步骤S401~S402。
S401,根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算。
S402,将加权计算得到的结果作为每个搜索词的最终程度分数。
S109,根据所述最终程度分数提取所述文本信息中的中心词。
综上所述,本发明实施例通过获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词,确定所述每个搜索词的出边权重,根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵,根据预设文档库计算针对每个搜索词的先验分数,根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量,根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数,根据预设的词性配置规则确定每个搜索词的第二初步分数,根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,根据所述最终程度分数提取所述文本信息中的中心词,可以充分利用文本本身的特征信息进行中心词提取,并提高中心词提取的效果,还可以满足应用上中心词的提取要求。
本领域普通技术员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
请参阅图5,对应上述一种提取中心词的方法,本发明实施例还提出一种提取中心词的终端,该终端100包括:第一获取单元101、出边权重确定单元102、链接矩阵计算单元103、先验分数计算单元104、随机跳转向量确定单元105、第一初步分数计算单元106、第二初步分数确定单元107、最终程度分数确定单元108、中心词提取单元109。
其中,所述第一获取单元101,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词。在本发明实施例中,例如用户在终端的网页浏览器或者搜索引擎上输入需要搜索的文本信息,如“六安古墓挖掘”,终端的网页浏览器或者搜索引擎实时获取到用户输入的文本信息,即“六安古墓挖掘”,在该文本信息中包括有多个搜索词,分别为“六安”、“古墓”、“挖掘”,从而根据用户输入的文本信息确定文本信息中的搜索词。
出边权重确定单元102,用于确定所述每个搜索词的出边权重。在本发明实施例中,现有技术中,用户在同一个规定的输入窗口中所输入的文本信息,一个搜索词对其他搜索词的投票权重是一样的,在不同规定的输入窗口中,相同的边不重复添加;然而在实际应用中,同一个位置的搜索词对不同距离的搜索词的贡献程度不一样,对于某一个搜索词而言,对距离更近的其它搜索词的影响应该更大,对它们的投票权利应该更高一些,而且边的重复出现意味着该边连接的两个搜索词的相互影响程度较高,并不能简单的忽略,因此,通过确定搜索词之间的出边权重,能够更准确的反映各搜索词之间的重要程度,以增加提取中心词的准确率。
链接矩阵计算单元103,用于根据所述出边权重计算针对所述文本信息中所有的链接矩阵。在本发明实施例中,所述链接矩阵是针对文本信息中所有搜索词而言的,即将不同输入窗口中搜索词的出边权重以矩阵的形式进行呈现;例如文本信息中有m个词,那么该矩阵的维度则为m×m,其第i行第j列表示从第i个词依据链接跳转到第j个词的概率。
先验分数计算单元104,用于根据预设文档库计算针对每个搜索词的先验分数。在本发明实施例中,所述先验分数可以表示在没有发现用户输入文本信息的情况下,网络的预设文档库中每个搜索词的重要程度,其中假如预设文档库中有N篇文档,对预设文档库中每一篇文档进行分词,在去除停留词之后,可以得到所有文档的分词结果。
随机跳转向量确定单元105,用于根据所述先验分数确定所述文本信息中所有的随机跳转向量。在本发明实施例中,根据所述先验分数按照如下公式四确定所述文本信息中所有搜索词的随机跳转向量,所述公式四为:rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
第一初步分数计算单元106,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数。
第二初步分数确定单元107,用于根据预设的词性配置规则确定每个搜索词的第二初步分数。在本发明实施例中,通常所述搜索词可以分为名词、动词、形容词等词性,在实际应用中,带有词性的搜索词成为中心词的可能性比较高,因此需要对不同词性的搜索词赋予不同的分数,例如搜索词“古墓”为名词、搜索词“六安”为名词、搜索词“挖掘”为动词,可以预先设置名词的分数为10、动词的分数为5,那么就可以根据不同词性的搜索词确定对应的第二初步分数了,具体地,不同词性的搜索词的分数可以由用户自行设置,具体的分数分配方法在此不作限定,用户可以根据具体的应用场景配置相对应的词性分数。
最终程度分数确定单元108,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数。
中心词提取单元109,用于根据所述最终程度分数提取所述文本信息中的中心词。
如图6所示,所述出边权重确定单元102,包括:
出边距离确定单元1021,用于确定每个搜索词的出边距离。在本发明实施例中,所述出边距离指的是一个搜索词到另一个搜索词的距离,例如对于搜索词“六安”、“古墓”、“挖掘”,以“古墓”作为焦点词,假设输入窗口大小为3,那么搜索词“古墓”到“六安”的出边距离为1、搜索词“古墓”到“挖掘”的出边距离为1,搜索词“六安”到“挖掘”的出边距离为2;假设规定的输入窗口大小为2,那么可以为这个输入窗口构造出一条边,即“古墓”到“六安”或者“古墓”到“挖掘”,且其出边距离均为1。
出边权重确定子单元1022,用于根据所述出边距离确定所述出边权重。在本发明实施例中,所述出边权重跟所述出边距离成反比,出边距离越短、出边权重越大,所述出边权重跟所述出边频次成正比,出边频次越多、出边权重越大,所述出边权重的计算方法可以是先计算出这条边在不同的窗口中的距离,根据其在不同窗口中的距离算出该边在不同窗口中的权重,然后将不同窗口中该边的权重求和,将所求和的和值作为所述出边权重,例如,在窗口大小为3的窗口中,“古墓”到“六安”的权重为1.2,在窗口大小为2的窗口中,“古墓”到“六安”的权重为1.8,将从起点为“古墓”出去的边的权重进行归一化,可以得到边“古墓”到“六安”的出边权重为1.2/(1.2+1.8)=0.4,其中,出边权重为0.4的意思可以表示为有0.4的概率按照链接跳转到搜索词“六安”;另外,所述出边权重的计算方法可以由用户自行设置,具体的计算方法在此不作限定。
如图7所示,所述先验分数计算单元104,包括:
次数统计单元1041,用于统计每个搜索词在预设文档库中出现的次数。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在整个预设文档库中出现的次数,将该次数记为freqi。
文档数量统计单元1042,用于统计每个搜索词在预设文档库中出现的文档数量。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的文档数量,将该文档数量记为docfreqi。
字符个数统计单元1043,用于统计每个搜索词在预设文档库中出现的字符个数。在本发明实施例中,根据网络中预设文档库的分词结果统计每个搜索词在预设文档库中出现的字符个数,将该字符个数记为charleni。
先验分数计算子单元1044,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。在本发明实施例中,根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数,可以按照如下公式三进行计算,
所述公式三为:
其中,priori表示搜索词i的先验分数,freqi表示搜索词i在整个预设文档库中出现的次数,docfreqi表示搜索词i在预设文档库中出现的文档数量,charleni表示搜索词i在预设文档库中出现的字符个数,N表示预设文档库中的全部文档数量。
如图8所示,所述最终程度分数确定单元108,包括:
加权计算单元1081,用于根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算。
最终程度分数确定子单元1082,用于将加权计算得到的结果作为每个搜索词的最终程度分数。
图9为本发明一种提取中心词的设备的结构组成示意图。如图9所示,该设备200可包括:输入装置201、输出装置202、收发装置203、存储器204以及处理器205,其中:
所述输入装置201,用于接收外部访问控制设备的输入数据。具体实现中,本发明实施例所述的输入装置201可包括键盘、鼠标、光电输入装置、声音输入装置、触摸式输入装置、扫描仪等。
所述输出装置202,用于对外输出访问控制设备的输出数据。具体实现中,本发明实施例所述的输出装置202可包括显示器、扬声器、打印机等。
所述收发装置203,用于通过通信链路向其他设备发送数据或者从其他设备接收数据。具体实现中,本发明实施例的收发装置203可包括射频天线等收发器件。
所述存储器204,用于存储实现的程序。本发明实施例的存储器204可以是***存储器,比如,挥发性的(诸如RAM),非易失性的(诸如ROM,闪存等),或者两者的结合。具体实现中,本发明实施例的存储器204还可以是***之外的外部存储器,比如,磁盘、光盘、磁带等。
所述处理器205,用于运行所述存储器204中存储的程序,并执行如下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
本领域技术人员可以理解,图9中示出的提取中心词的设备的实施例并不构成对提取中心词的设备具体构成的限定,在其他实施例中,提取中心词的设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,提取中心词的设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
本发明提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
进一步地,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
进一步地,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
进一步地,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g,其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果(每次迭代都是基于上一次迭代的结果进行计算),A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
进一步地,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
本发明前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等各种可以存储程序代码的介质。
本发明所有实施例中的单元可以通过通用集成电路,例如CPU(CentralProcessing Unit,中央处理器),或通过ASIC(Application Specific IntegratedCircuit,专用集成电路)来实现。
本发明实施例中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例中的单元可以根据实际需要进行合并、划分和删减。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种提取中心词的方法,其特征在于,所述方法包括:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
2.如权利要求1所述的方法,其特征在于,所述确定所述每个搜索词的出边权重,包括:
确定每个搜索词的出边距离;
根据所述出边距离确定所述出边权重。
3.如权利要求1所述的方法,其特征在于,所述根据预设文档库计算针对每个搜索词的先验分数,包括:
统计每个搜索词在预设文档库中出现的次数;
统计每个搜索词在预设文档库中出现的文档数量;
统计每个搜索词在预设文档库中出现的字符个数;
根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
4.如权利要求1所述的方法,其特征在于,所述文本信息中的所有搜索词的随机跳转向量根据以下公式计算所得:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数,包括:
根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
将加权计算得到的结果作为每个搜索词的最终程度分数。
6.一种提取中心词的终端,其特征在于,所述终端包括:
第一获取单元,用于获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
出边权重确定单元,用于确定所述每个搜索词的出边权重;
链接矩阵计算单元,用于根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
先验分数计算单元,用于根据预设文档库计算针对每个搜索词的先验分数;
随机跳转向量确定单元,用于根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
第一初步分数计算单元,用于根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
第二初步分数确定单元,用于根据预设的词性配置规则确定每个搜索词的第二初步分数;
最终程度分数确定单元,用于根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
中心词提取单元,用于根据所述最终程度分数提取所述文本信息中的中心词。
7.如权利要求6所述的终端,其特征在于,所述出边权重确定单元,包括:
出边距离确定单元,用于确定每个搜索词的出边距离;
出边权重确定子单元,用于根据所述出边距离确定所述出边权重。
8.如权利要求6所述的终端,其特征在于,所述先验分数计算单元,包括:
次数统计单元,用于统计每个搜索词在预设文档库中出现的次数;
文档数量统计单元,用于统计每个搜索词在预设文档库中出现的文档数量;
字符个数统计单元,用于统计每个搜索词在预设文档库中出现的字符个数;
先验分数计算子单元,用于根据所述每个搜索词在预设文档库中所出现的次数、文档数量以及字符个数计算出所述先验分数。
9.如权利要求6所述的终端,其特征在于,所述随机跳转向量确定单元具体用于根据以下公式计算所述文本信息中的所有搜索词的随机跳转向量:
rt=λArt-1+(1-λ)g;
其中,下标t是第t次迭代,rt是第t次迭代的结果,rt-1是第t-1次迭代的结果,A是链接矩阵,λ是一个加权系数,用于调整“按照链接跳转”和“随机跳转”两部分的相对权重,g是随机跳转向量;
所述最终程度分数确定单元,包括:
加权计算单元,用于根据预设的加权规则对所述第一初步分数以及所述第二初步分数进行加权计算;
最终程度分数确定子单元,用于将加权计算得到的结果作为每个搜索词的最终程度分数。
10.一种提取中心词的设备,其特征在于,所述设备包括:存储器以及处理器;
存储器,用于存储实现提取中心词的程序;
处理器,用于运行所述存储器中存储的程序,以执行以下操作:
获取用户输入的文本信息,所述文本信息包括一个或者多个搜索词;
确定所述每个搜索词的出边权重;
根据所述出边权重计算针对所述文本信息中所有搜索词的链接矩阵;
根据预设文档库计算针对每个搜索词的先验分数;
根据所述先验分数确定所述文本信息中所有搜索词的随机跳转向量;
根据所述链接矩阵以及所述随机跳转向量计算每个搜索词的第一初步分数;
根据预设的词性配置规则确定每个搜索词的第二初步分数;
根据所述第一初步分数以及所述第二初步分数确定每个搜索词的最终程度分数;
根据所述最终程度分数提取所述文本信息中的中心词。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458910.8A CN107665189B (zh) | 2017-06-16 | 2017-06-16 | 一种提取中心词的方法、终端以及设备 |
US16/097,292 US10691888B2 (en) | 2017-06-16 | 2017-08-30 | Method, terminal, apparatus and computer-readable storage medium for extracting a headword |
SG11201809618PA SG11201809618PA (en) | 2017-06-16 | 2017-08-30 | Method, terminal, apparatus and computer-readable storage medium for extracting a headword |
PCT/CN2017/099548 WO2018227767A1 (zh) | 2017-06-16 | 2017-08-30 | 提取中心词的方法、终端、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458910.8A CN107665189B (zh) | 2017-06-16 | 2017-06-16 | 一种提取中心词的方法、终端以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107665189A true CN107665189A (zh) | 2018-02-06 |
CN107665189B CN107665189B (zh) | 2019-12-13 |
Family
ID=61121790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710458910.8A Active CN107665189B (zh) | 2017-06-16 | 2017-06-16 | 一种提取中心词的方法、终端以及设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10691888B2 (zh) |
CN (1) | CN107665189B (zh) |
SG (1) | SG11201809618PA (zh) |
WO (1) | WO2018227767A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11392774B2 (en) | 2020-02-10 | 2022-07-19 | International Business Machines Corporation | Extracting relevant sentences from text corpus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和*** |
CN104731797A (zh) * | 2013-12-19 | 2015-06-24 | 北京新媒传信科技有限公司 | 一种提取关键词的方法及装置 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其*** |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US20080177994A1 (en) * | 2003-01-12 | 2008-07-24 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows |
US7464075B2 (en) * | 2004-01-05 | 2008-12-09 | Microsoft Corporation | Personalization of web page search rankings |
US7251654B2 (en) * | 2004-05-15 | 2007-07-31 | International Business Machines Corporation | System and method for ranking nodes in a network |
US8161040B2 (en) * | 2007-04-30 | 2012-04-17 | Piffany, Inc. | Criteria-specific authority ranking |
US20100106719A1 (en) * | 2008-10-23 | 2010-04-29 | Debora Donato | Context-sensitive search |
US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
US8200596B2 (en) * | 2009-05-28 | 2012-06-12 | Reid Andersen | Speeding up analysis of compressed web graphs using virtual nodes |
US10152557B2 (en) * | 2014-01-31 | 2018-12-11 | Google Llc | Efficient similarity ranking for bipartite graphs |
-
2017
- 2017-06-16 CN CN201710458910.8A patent/CN107665189B/zh active Active
- 2017-08-30 US US16/097,292 patent/US10691888B2/en active Active
- 2017-08-30 WO PCT/CN2017/099548 patent/WO2018227767A1/zh active Application Filing
- 2017-08-30 SG SG11201809618PA patent/SG11201809618PA/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和*** |
CN104731797A (zh) * | 2013-12-19 | 2015-06-24 | 北京新媒传信科技有限公司 | 一种提取关键词的方法及装置 |
CN105843795A (zh) * | 2016-03-21 | 2016-08-10 | 华南理工大学 | 基于主题模型的文档关键词抽取方法及其*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11392774B2 (en) | 2020-02-10 | 2022-07-19 | International Business Machines Corporation | Extracting relevant sentences from text corpus |
Also Published As
Publication number | Publication date |
---|---|
SG11201809618PA (en) | 2019-01-30 |
US10691888B2 (en) | 2020-06-23 |
CN107665189B (zh) | 2019-12-13 |
WO2018227767A1 (zh) | 2018-12-20 |
US20190340237A1 (en) | 2019-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200117675A1 (en) | Obtaining of Recommendation Information | |
CN104199898B (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
US20220130496A1 (en) | Method of training prediction model for determining molecular binding force | |
CN109299420A (zh) | 社交媒体账号处理方法、装置、设备及可读存储介质 | |
CN103076893B (zh) | 一种用于实现语音输入的方法与设备 | |
CN106407280A (zh) | 查询目标匹配方法及装置 | |
CN103455507A (zh) | 搜索引擎推荐方法及装置 | |
CN111400615B (zh) | 一种资源推荐方法、装置、设备及存储介质 | |
CN108287875A (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
CN107748742A (zh) | 一种基于句法依存关系提取中心词的方法、终端以及设备 | |
KR101668725B1 (ko) | 잠재 키워드 생성 방법 및 장치 | |
CN109272402A (zh) | 评分卡的建模方法、装置、计算机设备及存储介质 | |
CN109710732A (zh) | 信息查询方法、装置、存储介质和电子设备 | |
CN103577547B (zh) | 网页类型识别方法及装置 | |
CN110362662A (zh) | 数据处理方法、装置以及计算机可读存储介质 | |
CN107783861A (zh) | 交易回滚方法、装置、存储介质和计算机设备 | |
CN103514149B (zh) | 调整超链接的版面大小的装置和方法 | |
CN109364492A (zh) | 实现游戏道具转移的方法及装置 | |
CN109685293A (zh) | 一种目标对象选择方法、装置、介质和计算装置 | |
CN110516062A (zh) | 一种文档的搜索处理方法及装置 | |
CN113641767B (zh) | 实体关系抽取方法、装置、设备及存储介质 | |
CN103218419B (zh) | 网络标签聚类方法和*** | |
CN104025086B (zh) | 触发社交页面 | |
CN107665189A (zh) | 一种提取中心词的方法、终端以及设备 | |
CN106776757A (zh) | 用户完成网银操作的指示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1250583 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |