发明内容
为了解决现有技术的问题,本发明提供了一种提取标签信息的方法和装置。技术方案如下:
第一方面,本发明提供了一种提取标签信息的方法,所述方法包括:
对文本信息进行分词,得到候选短语集合,所述候选短语集合包括至少一个候选短语,每个候选短语包括至少一个关键词;
对于所述候选短语集合中的每个候选短语,确定所述候选短语所在句子的评分、以及确定所述候选短语所在句子的位置的评分,以及确定所述候选短语包括的每个关键词的第一评分,根据所述候选短语所在句子的评分、所述候选短语所在句子的位置的评分和所述候选短语包括的每个关键词的第一评分,确定所述候选短语的评分;
基于所述每个候选短语的评分,从所述候选短语集合中选择评分最高的预设数目个候选短语;
将所述预设数目个候选短语组成所述文本信息的标签信息。
在一个可能的实现方式中,所述确定所述候选短语包括的每个关键词的第一评分,包括:
对于每个关键词,确定第一出现次数和第二出现次数,所述第一出现次数为所述关键词在所述文本信息中的出现次数,所述第二出现次数为所述文本信息包括的每个关键词的总出现次数;
根据所述第一出现次数和所述第二出现次数,确定所述关键词的词频;
确定第一数量和第二数量,所述第一数量为样本文本信息库中包括的样本文本信息的数量,所述第二数量为所述样本文本信息库中包括所述关键词的文本信息的数量;
根据所述第一数量和所述第二数量,确定所述关键词的逆向文件频率;
根据所述词频和所述逆向文件频率,确定所述关键词的第一评分。
在一个可能的实现方式中,所述确定所述候选短语所在句子的位置的评分,包括:
确定所述候选短语所在句子所在段落在所述文本信息中的第一位置,以及所述候选短语在所述段落中的第二位置;
根据所述第一位置和所述第二位置,确定所述候选短语所在句子的位置的评分。
在一个可能的实现方式中,所述根据所述候选短语所在句子的评分、所述候选短语所在句子的位置的评分和所述候选短语包括的每个关键词的第一评分,确定所述候选短语的评分,包括:
确定所述候选短语所在句子对应的第一权重、所述候选短语所在句子的位置对应的第二权重、所述候选短语包括的每个关键词对应的第三权重;
对于所述候选短语包括的每个关键词,将所述候选短语所在句子的评分与所述第一权重相乘,得到第一数值,以及,将所述候选短语所在句子的位置的评分与所述第二权重相乘,得到第二数值,以及,将所述关键词的第一评分和所述关键词对应的第三权重相乘,得到第三数值,将所述第一数值、所述第二数值和所述第三数值相加,得到所述关键词的第二评分;
根据所述每个关键词的第二评分,确定所述候选短语的评分。
在一个可能的实现方式中,所述将所述第一数值、所述第二数值和所述第三数值相加,得到所述关键词的第二评分,包括:
确定所述关键词的贡献度,根据所述关键词的贡献度,确定所述关键词对应的第四权重;
将所述第一数值、所述第二数值和所述第三数值相加,得到第四数值;
将所述第四数值和所述第四权重相乘,得到所述关键词的第二评分。
在一个可能的实现方式中,所述将所述预设数目个候选短语组成所述文本信息的标签信息,包括:
从所述预设数目个候选短语中选择概念类型的候选短语组成概念标签信息;和/或,
从所述预设数目个候选短语中选择事件类型的候选短语组成事件标签信息。
在一个可能的实现方式中,所述方法还包括:
将所述概念标签信息中以预设词性的关键词结尾的候选短语移动到所述事件标签信息中;
将所述事件标签信息中不包含所述预设词性的关键词的候选短语移动到所述概念标签信息中。
在一个可能的实现方式中,所述对文本信息进行分词,得到候选短语集合,包括:
对所述文本信息进行断句,得到至少一个候选句子,将所述至少一个候选句子组成候选句子集合;
对所述候选句子集合中的每个候选句子进行分词,得到至少一个关键词,将所述至少一个关键词组成关键词集合;
基于句法树算法,将所述关键词集合中的关键词,生成至少一个候选短语;
将所述至少一个候选短语组成所述候选短语集合。
在一个可能的实现方式中,所述对所述候选句子集合中的每个候选句子进行分词,得到至少一个关键词之前,所述方法还包括:
确定所述候选句子集合中的每个候选句子的句子成分;
根据所述每个候选句子的句子成分,将所述候选句子集合中句子成分为预设成分的候选句子删除。
第二方面,本发明提供了一种提取标签信息的装置,所述装置包括:
分词模块,用于对文本信息进行分词,得到候选短语集合,所述候选短语集合包括至少一个候选短语,每个候选短语包括至少一个关键词;
评分模块,用于对于所述候选短语集合中的每个候选短语,确定所述候选短语所在句子的评分、以及确定所述候选短语所在句子的位置的评分,以及确定所述候选短语包括的每个关键词的第一评分,根据所述候选短语所在句子的评分、所述候选短语所在句子的位置的评分和所述候选短语包括的每个关键词的第一评分,确定所述候选短语的评分;
选择模块,用于基于所述每个候选短语的评分,从所述候选短语集合中选择评分最高的预设数目个候选短语;
组成模块,用于将所述预设数目个候选短语组成所述文本信息的标签信息。
在一个可能的实现方式中,所述评分模块,还用于对于每个关键词,确定第一出现次数和第二出现次数,所述第一出现次数为所述关键词在所述文本信息中的出现次数,所述第二出现次数为所述文本信息包括的每个关键词的总出现次数;根据所述第一出现次数和所述第二出现次数,确定所述关键词的词频;确定第一数量和第二数量,所述第一数量为样本文本信息库中包括的样本文本信息的数量,所述第二数量为所述样本文本信息库中包括所述关键词的文本信息的数量;根据所述第一数量和所述第二数量,确定所述关键词的逆向文件频率;根据所述词频和所述逆向文件频率,确定所述关键词的第一评分。
在一个可能的实现方式中,所述评分模块,还用于确定所述候选短语所在句子所在段落在所述文本信息中的第一位置,以及所述候选短语在所述段落中的第二位置;根据所述第一位置和所述第二位置,确定所述候选短语所在句子的位置的评分。
在一个可能的实现方式中,所述评分模块,还用于确定所述候选短语所在句子对应的第一权重、所述候选短语所在句子的位置对应的第二权重、所述候选短语包括的每个关键词对应的第三权重;对于所述候选短语包括的每个关键词,将所述候选短语所在句子的评分与所述第一权重相乘,得到第一数值,以及,将所述候选短语所在句子的位置的评分与所述第二权重相乘,得到第二数值,以及,将所述关键词的第一评分和所述关键词对应的第三权重相乘,得到第三数值,将所述第一数值、所述第二数值和所述第三数值相加,得到所述关键词的第二评分;根据所述每个关键词的第二评分,确定所述候选短语的评分。
在一个可能的实现方式中,所述评分模块,还用于确定所述关键词的贡献度,根据所述关键词的贡献度,确定所述关键词对应的第四权重;将所述第一数值、所述第二数值和所述第三数值相加,得到第四数值;将所述第四数值和所述第四权重相乘,得到所述关键词的第二评分。
在一个可能的实现方式中,所述组成模块,还用于从所述预设数目个候选短语中选择概念类型的候选短语组成概念标签信息;从所述预设数目个候选短语中选择事件类型的候选短语组成事件标签信息。
在一个可能的实现方式中,所述装置还包括:
移动模块,用于将所述概念标签信息中以预设词性的关键词结尾的候选短语移动到所述事件标签信息中;和/或,
所述移动模块,还用于将所述事件标签信息中不包含所述预设词性的关键词的候选短语移动到所述概念标签信息中。
在一个可能的实现方式中,所述分词模块,还用于对所述文本信息进行断句,得到至少一个候选句子,将所述至少一个候选句子组成候选句子集合;对所述候选句子集合中的每个候选句子进行分词,得到至少一个关键词,将所述至少一个关键词组成关键词集合;基于句法树算法,将所述关键词集合中的关键词,生成至少一个候选短语;将所述至少一个候选短语组成所述候选短语集合。
在一个可能的实现方式中,所述分词模块,还用于确定所述候选句子集合中的每个候选句子的句子成分;根据所述每个候选句子的句子成分,将所述候选句子集合中句子成分为预设成分的候选句子删除。
在本发明实施例中,对文本信息进行分词,得到候选短语集合,该候选短语集合包括至少一个候选短语,基于候选短语集合中的候选短语提取标签信息,从而能够提取出多元标签信息。并且,对于候选短语集合中的每个候选短语,确定该候选短语所在句子的评分、以及确定该候选短语所在句子的位置的评分,以及确定该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。由于结合了句子评分、位置评分和关键词评分,从而提高了确定出候选短语的评分的准确性,进而提高了提取标签信息的准确性。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种提取标签信息的方法,参见图1,该方法包括:
步骤101:对文本信息进行分词,得到候选短语集合,该候选短语集合包括至少一个候选短语,每个候选短语包括至少一个关键词。
步骤102:对于该候选短语集合中的每个候选短语,确定该候选短语所在句子的评分、以及确定该候选短语所在句子的位置的评分,以及确定该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。
步骤103:基于每个候选短语的评分,从该候选短语集合中选择评分最高的预设数目个候选短语。
步骤104:将该预设数目个候选短语组成该文本信息的标签信息。
在一个可能的实现方式中,确定该候选短语包括的每个关键词的第一评分,包括:
对于每个关键词,确定第一出现次数和第二出现次数,该第一出现次数为该关键词在该文本信息中的出现次数,该第二出现次数为该文本信息包括的每个关键词的总出现次数;
根据该第一出现次数和该第二出现次数,确定该关键词的词频;
确定第一数量和第二数量,该第一数量为样本文本信息库中包括的样本文本信息的数量,该第二数量为该样本文本信息库中包括该关键词的文本信息的数量;
根据该第一数量和该第二数量,确定该关键词的逆向文件频率;
根据该词频和该逆向文件频率,确定该关键词的第一评分。
在一个可能的实现方式中,确定该候选短语所在句子的位置的评分,包括:
确定该候选短语所在句子所在段落在该文本信息中的第一位置,以及该候选短语在该段落中的第二位置;
根据该第一位置和该第二位置,确定该候选短语所在句子的位置的评分。
在一个可能的实现方式中,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分,包括:
确定该候选短语所在句子对应的第一权重、该候选短语所在句子的位置对应的第二权重、该候选短语包括的每个关键词对应的第三权重;
对于该候选短语包括的每个关键词,将该候选短语所在句子的评分与该第一权重相乘,得到第一数值,以及,将该候选短语所在句子的位置的评分与该第二权重相乘,得到第二数值,以及,将该关键词的第一评分和该关键词对应的第三权重相乘,得到第三数值,将该第一数值、该第二数值和该第三数值相加,得到该关键词的第二评分;
根据每个关键词的第二评分,确定该候选短语的评分。
在一个可能的实现方式中,将该第一数值、该第二数值和该第三数值相加,得到该关键词的第二评分,包括:
确定该关键词的贡献度,根据该关键词的贡献度,确定该关键词对应的第四权重;
将该第一数值、该第二数值和该第三数值相加,得到第四数值;
将该第四数值和该第四权重相乘,得到该关键词的第二评分。
在一个可能的实现方式中,将该预设数目个候选短语组成该文本信息的标签信息,包括:
从该预设数目个候选短语中选择概念类型的候选短语组成概念标签信息;和/或,
从该预设数目个候选短语中选择事件类型的候选短语组成事件标签信息。
在一个可能的实现方式中,该方法还包括:
将该概念标签信息中以预设词性的关键词结尾的候选短语移动到该事件标签信息中;
将该事件标签信息中不包含该预设词性的关键词的候选短语移动到该概念标签信息中。
在一个可能的实现方式中,对文本信息进行分词,得到候选短语集合,包括:
对该文本信息进行断句,得到至少一个候选句子,将至少一个候选句子组成候选句子集合;
对该候选句子集合中的每个候选句子进行分词,得到至少一个关键词,将至少一个关键词组成关键词集合;
基于句法树算法,将该关键词集合中的关键词,生成至少一个候选短语;
将至少一个候选短语组成该候选短语集合。
在一个可能的实现方式中,对该候选句子集合中的每个候选句子进行分词,得到至少一个关键词之前,该方法还包括:
确定该候选句子集合中的每个候选句子的句子成分;
根据每个候选句子的句子成分,将该候选句子集合中句子成分为预设成分的候选句子删除。
在本发明实施例中,对文本信息进行分词,得到候选短语集合,该候选短语集合包括至少一个候选短语,基于候选短语集合中的候选短语提取标签信息,从而能够提取出多元标签信息。并且,对于候选短语集合中的每个候选短语,确定该候选短语所在句子的评分、以及确定该候选短语所在句子的位置的评分,以及确定该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。由于结合了句子评分、位置评分和关键词评分,从而提高了确定出候选短语的评分的准确性,进而提高了提取标签信息的准确性。
本发明实施例提供了一种提取标签信息的方法,该方法应用在服务器中,参见图2,该方法包括:
步骤201:服务器对文本信息进行分词,得到候选短语集合,候选短语集合包括至少一个候选短语,每个候选短语包括至少一个关键词。
为了提高用户的阅读效率,在用户通过终端从服务器中获取文本信息之前,服务器从文本信息中提取标签信息,该标签信息用于指示该文本信息的主旨。当用户通过终端从服务器中获取文本信息时,服务器向终端发送文本信息的标签信息。终端接收服务器发送的文本信息的标签信息,显示文本信息的标签信息,从而用户根据该标签信息快速了解到该文本信息的主旨。其中,该文本信息可以为任一包括文字信息的文本信息;例如,该文本信息可以为电子新闻信息、社交网络信息、商品评论信息、网页信息、邮件信息等;在本发明实施例中,对文本信息不作具体限定。
服务器对文本信息进行分词,得到候选短语集合时,服务器可以对文本信息进行分词,得到关键词集合,基于关键词集合,生成候选短语集合;相应的,本步骤可以通过以下步骤(1)至(4)实现,包括:
(1):服务器对文本信息进行断句,得到至少一个候选句子,将至少一个候选句子组成候选句子集合。
由于对于理解一篇文章,主干句的贡献远远大于从句的作用;并且,后续通过句法树算法提取候选短语时,提取的速度很大程度上受到句子长度的影响,为了提高提取候选短语的运算速度,服务器过滤掉状语从句;相应的,服务器将至少一个候选句子组成候选句子集合之后,还包括:
服务器确定候选句子集合中的每个候选句子的句子成分;根据每个候选句子的句子成分,将候选句子集合中句子成分为预设成分的候选句子删除。
预设成分可以为状语或者定语等。在本发明实施例中,对预设成分不作具体限定。
(2):服务器对候选句子集合中的每个候选句子进行分词,得到至少一个关键词,将至少一个关键词组成关键词集合。
由于“的”、“了”、“么”、“吧”、“啊”之类的关键词对文本信息的贡献度较小。因此,为了减少运算量以及提高准确性,在本步骤中,服务器还可以将“的”、“了”、“么”、“吧”、“啊”这类的关键词去除。因此,服务器将至少一个关键词组成关键词集合之后,还包括:
服务器标注关键词集合中的每个关键词的词性;根据每个关键词的词性,从关键词集合中查找第一预设词性的关键词,将第一预设词性的关键词从关键词集合中去除。其中,第一预设词性的关键词可以为助词、介词、语气词或者数词等。在本发明实施例中,对第一预设词性不作具体限定。
(3):服务器基于句法树算法,将关键词集合中的关键词,生成至少一个候选短语。
服务器将关键词集合中的每个关键词输入到句法树模型中,该句法树模型中包括该句法树算法;通过该句法树算法,将关键词集合中的关键词生成关键词树。该关键词树包括多个节点以及多个节点之间的关系;关键词树中的一个节点为一个关键词。服务器基于关键词树,生成至少一个候选短语。
由于关键词树包括关键词以及关键词之间的关系;只有具有关系的一个或多个关键词才能组成候选短语。相应的,服务器基于关键词树,生成至少一个候选短语的步骤可以为:
对于关键词树中的每个叶子节点,服务器从关键词树中选择该叶子节点的关键词以及该叶子节点的父节点的关键词组成候选短语。
在本步骤中,服务器也可以结合该叶子节点的父节点的父节点的候选关键字生成候选短语,相应的,服务器基于关键词树,生成至少一个候选短语的步骤可以为:
对于关键词树中的每个叶子节点,服务器从关键词树中选择该叶子节点的关键词,以及获取该叶子节点的父节点的关键词,以及获取父节点的父节点的关键词,直到获取到根节点的关键词;将获取的关键词组成候选短语。
在本发明实施例中,通过句法树算法进行候选短语的提取,能够保证提取出来的候选短语是多元的,而且候选短语包括的关键词之间具有很强的语义连贯性,从而提高了候选基于候选短语生成标签信息的准确性。
(4):服务器将至少一个候选短语组成候选短语集合。
服务器得到候选短语集合之后,通过以下步骤202确定该候选短语集合中的每个候选短语的评分。
步骤202:对于候选短语集合中的每个候选短语,服务器确定该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。
对于候选短语集合中的每个候选短语,服务器可以通过以下步骤(1)至(4) 确定该候选短语的评分。
(1):服务器确定该候选短语所在句子的评分。
服务器获取该候选短语所在的句子;通过BM25算法,确定该句子的评分。
(2):服务器确定该候选短语所在句子的位置的评分。
由于不同位置的句子的评分不同,例如,摘要中的句子更能体现文本信息的主旨,摘要中的句子对应较高的评分;正文中的句子对应较低的评分。因此,在本步骤之前,服务器中存储位置和评分的对应关系。该位置可以为摘要或者正文。相应的,本步骤可以为:
服务器确定该候选短语所在句子在文本信息中的位置,根据该位置,从位置和评分的对应关系中获取该候选短语所在句子的位置的评分。
在本步骤中,服务器还可以根据该候选短语所在句子的位置,计算该候选短语所在句子的位置的评分。相应的。本步骤可以为:
服务器确定该候选短语所在句子所在短落在文本信息中的第一位置,以及,该候选短语在该段落中的第二位置;根据第一位置和第二位置,确定该候选短语所在句子的位置的评分。
其中,第一位置可以为标题、摘要或者正文。第二位置可以为首段首句,首段非首句,非首段首句或者非首段非首句。相应的,服务器根据第一位置和第二位置,确定该候选短语所在句子的位置的评分的步骤可以为:
服务器根据第一位置,从第一位置和子评分的对应关系中获取第一位置对应的第一子评分;根据第二位置,从第二位置和子评分的对应关系中获取第二位置对应的第二子评分,将第一子评分和第二子评分相乘,得到该候选短语所在句子的位置的评分。
例如,第一位置为标题时,第一子评分为0.9;第一位置为摘要时,第一子评分为0.6;第一位置为正文时,第一子评分为0.3。第二位置为首段首句时,第二子评分为0.3;第二位置为非首段首句时,第二子评分为0.3*0.4=0.12;第二位置为非首段首句时,第二子评分为0.1;第二位置为非首段非首句时,第二子评分为0.1*0.4=0.04。
(3):服务器确定该候选短语包括的每个关键词的第一评分。
对于该候选短语包括的每个关键词,服务器通过以下步骤(3-1)至(3-5) 确定该关键词的第一评分,包括:
(3-1):服务器确定第一出现次数和第二出现次数,第一出现次数为该关键词在该文本信息中的出现次数,第二出现次数为该文本信息包括的每个关键词的总出现次数。
(3-2):服务器根据第一出现次数和第二出现次数,确定该关键词的词频。
服务器将第一出现次数与第二出现次数的比值确定为该关键词的词频。
(3-3):服务器确定第一数量和第二数量,第一数量为样本文本信息库中包括的样本文本信息的数量,第二数量为样本文本信息库中包括该关键词的文本信息的数量。
服务器中事先存储样本文本信息库,该样本文本信息库中包括至少一个样本文本信息。在本步骤中,服务器统计该样本文本信息库中包括的样本文本信息的数量,为了便于描述,将该数量称为第一数量。服务器统计样本文本信息库中包括该关键词的文本信息的数量,将该数量称为第二数量。
(3-4):服务器根据第一数量和第二数量,确定该关键词的逆向文件频率。
服务器根据第一数量和第二数量,通过以下公式一,确定该关键词的逆向文件频率:
公式一:其中,idf为该关键词的逆向文件频率,D为第一数量, J为第二数量。
由于样本文本信息库中可能不存在包括该关键词的文本信息,因此,第二数量可能为零。因此,在本步骤可以为:
服务器根据第一数量和第二数量,通过以下公式二,确定该关键词的逆向文件频率:
公式二:其中,idf为该关键词的逆向文件频率,D为第一数量,J为第二数量。
(3-4):服务器根据该关键词的词频和逆向文件频率,确定该关键词的第一评分。
服务器根据该关键词的词频和逆向文件频率,通过第一预设算法,确定该关键词的第一评分。
第一预设算法可以根据需要进行设置并更改,在本发明实施例中,对第一预设算法不作具体限定。例如,第一预设算法可以为乘法、加法、减法、除法、加权乘法或者加权除法。
当第一预设算法为乘法时,本步骤可以为:
服务器将该关键词的词频和逆向文件频率相乘,得到该关键词的第一评分。
(4):服务器根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。
在本步骤中,服务器可以直接根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分,也即以下第一种实现方式。服务器也可以分别为该候选短语所在句子、该候选短语所在矩阵的位置和该候选短语包括的每个关键词设置第一权重、第二权重和第三权重,基于该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分、以及第一权重、第二权重和第三权重,确定该候选短语的评分,也即以下第二种实现方式。
对于第一种实现方式,本步骤可以通过以下步骤(4-1)至(4-2)实现,包括:
(4-1):对于该候选短语包括的每个关键词,服务器根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该关键词的第一评分,通过第二预设算法,确定该关键词的第二评分。
第二预设算法可以根据需要进行设置并更改,在本发明实施例中,对第二预设算法不作具体限定。例如,第二预设算法可以为乘法、加法、减法、除法、加权乘法或者加权除法。
当第二预设算法为加法时,本步骤可以为:
服务器将该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该关键词的第一评分相加,得到该关键词的第二评分。
需要说明的是,由于单字词对理解文章的贡献度较小。因此,服务器在确定单字词的关键词的第二评分时,对该关键词进行降权处理。在文本信息中多次出现的带引号的词对理解文章的贡献度较大。因此,服务器在确定多次出现带引号的关键词的第二评分时,对该关键词进行加权处理。相应的,本步骤可以为:
对于该候选短语包括的每个关键词,服务器确定该关键词的贡献度;根据该贡献度,确定该关键词对应的第四权重;根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该关键词的第一评分,通过第二预设算法,得到第五数值;将第五数值与第四权重相乘,得到该关键词的第二评分。
服务器根据该关键词的字数和/或该关键词的重要度,确定该关键词的贡献度,具体过程可以为:
服务器将该关键词的字数作为该关键词的贡献度;并且,字数越多,贡献度越高。或者,
服务器将该关键词的重要度作为该关键词的贡献度;并且,重要度越高,贡献度越高。或者,
服务器将该关键词的字数和重要度进行加权处理后,得到该关键词的贡献度。
其中,该关键词的重要度可以用于该关键词的出现次数表示和/或该关键词被突出显示等表示。
服务器中存储贡献度和权重的对应关系;相应的,服务器根据该贡献度,确定该关键词对应的第四权重的步骤可以为:
服务器根据该贡献度,从贡献度和权重的对应关系中获取该关键词对应的第四权重。
(4-2):服务器根据该候选短语包括的每个关键词的第二评分,确定该候选短语的评分。
服务器根据该候选短语包括的每个关键词的第二评分,通过第三预设算法,确定该候选短语的评分。
第三预设算法可以根据需要进行设置并更改,在本发明实施例中,对第三预设算法不作具体限定。例如,第三预设算法可以为乘法、加法、减法、除法、加权乘法、加权除法或者求最大值等。
当第三预设算法为加法时,本步骤可以为:
服务器将该候选短语包括的每个关键词的第二评分相加,得到该候选短语的评分。
当第三预设算法为求最大值时,本步骤可以为:
服务器从该候选短语包括的每个关键词的第二评分中选择最大评分,将该最大评分作为该候选短语的评分。
对于第二种实现方式,本步骤可以通过以下步骤(4-a)至(4-c)实现,包括:
(4-a):服务器确定该候选短语所在句子对应的第一权重、该候选短语所在句子的位置对应的第二权重、该候选短语包括的每个关键词对应的第三权重。
服务器中预先存储该候选短语所在句子对应的第一权重、该候选短语所在句子的位置的第二权重;在本步骤中,服务器获取已存储的该候选短语所在句子对应的第一权重、该候选短语所在句子的位置对应的第二权重。
服务器中存储每个关键词与第三权重的对应关系;相应的,服务器获取该候选短语包括的每个关键词对应的第三权重的步骤可以为:
服务器根据该候选短语包括的每个关键词,从关键词和第三权重的对应关系中获取该候选短语包括的每个关键词对应的第三权重。
需要说明的是,每个关键词对应的第三权重可以相同,也可以不同。例如,该候选短语所在句子对应的第一权重a1=0.1,该候选短语所在句子的位置对应的第二权重a2=0.55,该候选短语包括的每个关键词对应的第三权重a3=0.35。
(4-b):对于候选短语包括的每个关键词,服务器将该候选短语所在句子的评分与第一权重相乘,得到第一数值,以及,将该候选短语所在句子的位置的评分与第二权重相乘,得到第二数值,以及,将该关键词的第一评分和该关键词对应的第三权重相乘,得到第三数值,将第一数值、第二数值和第三数值相加,得到该关键词的第二评分。
同样,由于单字词对理解文章的贡献度较小。因此,服务器在确定单字词的关键词的第二评分时,对该关键词进行降权处理。在文本信息中多次出现的带引号的词对理解文章的贡献度较大。因此,服务器在确定多次出现带引号的关键词的第二评分时,对该关键词进行加权处理。相应的,服务器将第一数值、第二数值和第三数值相加,得到该关键词的第二评分的步骤可以为:
服务器确定该关键词的贡献度;根据该贡献度,确定该关键词对应的第四权重;将第一数值、第二数值和第三数值相加,得到第四数值,将第四数值和第四权重相乘,得到该关键词的第二评分。
(4-c):服务器根据每个关键词的第二评分,确定候选短语的评分。
本步骤和步骤(4-2)相同,在此不再赘述。
步骤203:服务器基于每个候选短语的评分,从候选短语集合中选择评分最高的预设数目个候选短语。
服务器基于每个候选短语的评分,对每个候选短语按照评分由高到低的顺序进行排序,输出排序在最前的预设数目个候选短语。
预设数目可以根据需要进行设置并更改,在本发明实施例中,对预设数目不作具体限定。例如,预设数目可以为8或者10等。
在本发明实施例中,由于候选短语中可能包含没有意义的关键词,例如,助词、介词、语气词、数词;因此,服务器选择出预设数目个候选短语之后,服务器将预设数目个候选短语中的第二预设词性的关键词过滤掉。
第二预设词性和第一预设词性可以相同,也可以不相同;在本发明实施例中对此不作具体限定。例如,第二预设词性的关键词可以为助词、介词、语气词或者数词等。
在本发明实施例中,服务器可以设置概念标签信息和事件标签信息;其中,概念标签信息包括该文本信息的最核心的概念短语,事件标签信息包括该文本信息中的核心事件。执行完步骤203之后,服务器通过以下步骤204生成概念标签信息,通过以下步骤205生成事件标签信息。
步骤204:服务器从预设数个候选短语中选择概念类型的候选短语组成概念标签信息。
其中,概念类型的候选短语是指包含名词的候选短语。
步骤205:服务器从预设数目个候选短语中选择事件类型的候选短语组成事件标签信息。
其中,事件类型的候选短语是指包含动词的候选短语。
需要说明的是,步骤204和步骤205没有时间先后顺序,可以先执行步骤 204,再执行步骤205;也可以先执行步骤205,再执行步骤204。
由于服务器在分类概念标签信息和事件标签信息时可能会出错;因此,服务器还可以进行短语矫正,具体过程可以为:
服务器将概念标签信息中以第三预设词性的关键词结尾的候选短语移动到事件标签信息中;和/或,将事件标签信息中不包含第三预设词性的关键词的候选短语移动到概念标签信息中。
第三预设词性可以根据需要进行设置并更改,在本发明实施例中,对第三预设词性不作具体限定。例如,第三预设词性可以为动词。
服务器提取标签信息之后,服务器存储文本信息的标识和文本信息的标签信息的对应关系。终端可以从服务器中获取该标签信息;具体过程可以为:
终端向服务器发送获取请求,该获取请求携带待获取的文本信息的标识。服务器接收终端发送的获取请求,根据该文本信息的标识,从标识和标签信息的对应关系中获取该文本信息的标签信息,向终端发送该文本信息的标签信息。终端接收服务器发送的该文本信息的标签信息,显示该文本信息的标签信息。从而用户可以基于该文本信息的标签信息,快速理解该文本信息的主旨。其中,文本信息的标识可以为文本信息的名称、URL、存储路径或者编号等。
在本发明实施例中,现有的方法中的LDA(Latent Dirichlet Allocation,文档主题生成模型)提取的标签信息为一元标签,而本发明实施例基于句法树提取的标签信息是多元标签信息,并且提取出了概念标签信息和事件标签信息。
在本发明实施例中,对文本信息进行分词,得到候选短语集合,该候选短语集合包括至少一个候选短语,基于候选短语集合中的候选短语提取标签信息,从而能够提取出多元标签信息。并且,对于候选短语集合中的每个候选短语,确定该候选短语所在句子的评分、以及确定该候选短语所在句子的位置的评分,以及确定该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。由于结合了句子评分、位置评分和关键词评分,从而提高了确定出候选短语的评分的准确性,进而提高了提取标签信息的准确性。
本发明提供了一种提取标签信息的装置,该装置应用在服务器中,用于执行上述提取标签信息的方法中的服务器。参见图3,该装置包括:
分词模块301,用于对文本信息进行分词,得到候选短语集合,所述候选短语集合包括至少一个候选短语,每个候选短语包括至少一个关键词;
评分模块302,用于对于所述候选短语集合中的每个候选短语,确定所述候选短语所在句子的评分、以及确定所述候选短语所在句子的位置的评分,以及确定所述候选短语包括的每个关键词的第一评分,根据所述候选短语所在句子的评分、所述候选短语所在句子的位置的评分和所述候选短语包括的每个关键词的第一评分,确定所述候选短语的评分;
选择模块303,用于基于所述每个候选短语的评分,从所述候选短语集合中选择评分最高的预设数目个候选短语;
组成模块304,用于将所述预设数目个候选短语组成所述文本信息的标签信息。
在一个可能的实现方式中,所述评分模块302,还用于对于每个关键词,确定第一出现次数和第二出现次数,所述第一出现次数为所述关键词在所述文本信息中的出现次数,所述第二出现次数为所述文本信息包括的每个关键词的总出现次数;根据所述第一出现次数和所述第二出现次数,确定所述关键词的词频;确定第一数量和第二数量,所述第一数量为样本文本信息库中包括的样本文本信息的数量,所述第二数量为所述样本文本信息库中包括所述关键词的文本信息的数量;根据所述第一数量和所述第二数量,确定所述关键词的逆向文件频率;根据所述词频和所述逆向文件频率,确定所述关键词的第一评分。
在一个可能的实现方式中,所述评分模块302,还用于确定所述候选短语所在句子所在段落在所述文本信息中的第一位置,以及所述候选短语在所述段落中的第二位置;根据所述第一位置和所述第二位置,确定所述候选短语所在句子的位置的评分。
在一个可能的实现方式中,所述评分模块302,还用于确定所述候选短语所在句子对应的第一权重、所述候选短语所在句子的位置对应的第二权重、所述候选短语包括的每个关键词对应的第三权重;对于所述候选短语包括的每个关键词,将所述候选短语所在句子的评分与所述第一权重相乘,得到第一数值,以及,将所述候选短语所在句子的位置的评分与所述第二权重相乘,得到第二数值,以及,将所述关键词的第一评分和所述关键词对应的第三权重相乘,得到第三数值,将所述第一数值、所述第二数值和所述第三数值相加,得到所述关键词的第二评分;根据所述每个关键词的第二评分,确定所述候选短语的评分。
在一个可能的实现方式中,所述评分模块302,还用于确定所述关键词的贡献度,根据所述关键词的贡献度,确定所述关键词对应的第四权重;将所述第一数值、所述第二数值和所述第三数值相加,得到第四数值;将所述第四数值和所述第四权重相乘,得到所述关键词的第二评分。
在一个可能的实现方式中,所述组成模块304,还用于从所述预设数目个候选短语中选择概念类型的候选短语组成概念标签信息;从所述预设数目个候选短语中选择事件类型的候选短语组成事件标签信息。
在一个可能的实现方式中,所述装置还包括:
移动模块,用于将所述概念标签信息中以预设词性的关键词结尾的候选短语移动到所述事件标签信息中;和/或,
所述移动模块,还用于将所述事件标签信息中不包含所述预设词性的关键词的候选短语移动到所述概念标签信息中。
在一个可能的实现方式中,所述分词模块301,还用于对所述文本信息进行断句,得到至少一个候选句子,将所述至少一个候选句子组成候选句子集合;对所述候选句子集合中的每个候选句子进行分词,得到至少一个关键词,将所述至少一个关键词组成关键词集合;基于句法树算法,将所述关键词集合中的关键词,生成至少一个候选短语;将所述至少一个候选短语组成所述候选短语集合。
在一个可能的实现方式中,所述分词模块301,还用于确定所述候选句子集合中的每个候选句子的句子成分;根据所述每个候选句子的句子成分,将所述候选句子集合中句子成分为预设成分的候选句子删除。
在本发明实施例中,对文本信息进行分词,得到候选短语集合,该候选短语集合包括至少一个候选短语,基于候选短语集合中的候选短语提取标签信息,从而能够提取出多元标签信息。并且,对于候选短语集合中的每个候选短语,确定该候选短语所在句子的评分、以及确定该候选短语所在句子的位置的评分,以及确定该候选短语包括的每个关键词的第一评分,根据该候选短语所在句子的评分、该候选短语所在句子的位置的评分和该候选短语包括的每个关键词的第一评分,确定该候选短语的评分。由于结合了句子评分、位置评分和关键词评分,从而提高了确定出候选短语的评分的准确性,进而提高了提取标签信息的准确性。
需要说明的是:上述实施例提供的提取标签信息的装置在提取标签信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的提取标签信息的装置与提取标签信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是根据一示例性实施例示出的一种用于提取标签信息的服务器。参照图4,服务器400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述提取标签信息的方法中服务器所执行的功能。
服务器400还可以包括一个电源组件426被配置为执行服务器400的电源管理,一个有线或无线网络接口450被配置为将服务器400连接到网络,和一个输入输出(I/O)接口458。服务器400可以操作基于存储在存储器432的操作***,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入服务器中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行提取标签信息的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。