CN108959643B - 生成标签的方法、装置、服务器和存储介质 - Google Patents

生成标签的方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN108959643B
CN108959643B CN201810845952.1A CN201810845952A CN108959643B CN 108959643 B CN108959643 B CN 108959643B CN 201810845952 A CN201810845952 A CN 201810845952A CN 108959643 B CN108959643 B CN 108959643B
Authority
CN
China
Prior art keywords
word
words
matching
evaluation
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810845952.1A
Other languages
English (en)
Other versions
CN108959643A (zh
Inventor
乔志军
李鑫
王建华
陈雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangxin Journey Network Technology Co ltd
Original Assignee
Beijing Chuangxin Journey Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangxin Journey Network Technology Co ltd filed Critical Beijing Chuangxin Journey Network Technology Co ltd
Priority to CN201810845952.1A priority Critical patent/CN108959643B/zh
Publication of CN108959643A publication Critical patent/CN108959643A/zh
Application granted granted Critical
Publication of CN108959643B publication Critical patent/CN108959643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的方面涉及生成标签的方法、装置、服务器和计算机可读介质。生成标签的方法包括:获取预先存储的参考句式,其中,参考句式包括具有逻辑关系的多个参考词组,多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;按照逐个参考词组匹配的方式,将多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,匹配参考词语是一个或多个参考词语中与评价子句相匹配的参考词语;以及根据匹配参考词语以及匹配参考词语所属的参考词组的所述逻辑关系生成标签。本发明的技术方案能够动态地生成标签,使标签更加多样化和个性化,更好地覆盖用户评价,提高了召回率。

Description

生成标签的方法、装置、服务器和存储介质
技术领域
本发明一般地涉及互联网技术领域,更具体地涉及一种生成标签的方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,人们越来越多地通过互联网购买商品以及浏览其他人发布的信息。其中,标签可以帮助用户快速获得关键信息,从而辅助用户挑选适合的商品或者选择是否继续浏览信息。
目前为特定目标确定标签的一种方法是预先定义固定标签,用户发表点评时从固定标签中进行选择。这种方法的缺点是固定标签数量受限,无法覆盖用户的全部需求,并且标签和用户内容可能不匹配。
另一种确定标签的方法是对用户发布的点评内容进行句法解构,提取主题词和描述词组合后作为标签。在评价量非常大的时候,这种方法会产生大量的标签,对计算性能要求高并且维护不便。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种生成标签的方法、装置、服务器和存储介质,以动态生成标签,并降低计算性能要求。
本发明的一个方面提供了一种生成标签的方法,所述方法包括:获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签。
本发明的另一方面提供了一种生成标签的装置,该装置包括:句式获取模块,配置用于获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;词组匹配模块,配置用于按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及标签生成模块,配置用于根据所述词组匹配模块获得的所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签。
本发明的又一方面提供了一种服务器,所述服务器包括:存储器,配置用于存储指令;以及处理器,配置用于调用所述指令执行本发明的上述方面的生成标签的方法。
本发明的又一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行本发明的上述方面的生成标签的方法。
本发明的方面提供的用于生成标签的方案通过预先存储包括参考词组的参考句式,减少了固定标签的数量,通过参考词组组合而成的参考句式与评价文本进行匹配,能够根据不同的评价文本而动态地生成标签,参考词组中包括一个或多个语义关联的参考词组,使标签更加多样化和个性化,更好地覆盖了用户评价,提高了召回率。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了根据本发明的一个实施方式的用于生成标签的方法的流程图;
图2示出了根据本发明的另一实施方式的用于生成标签的方法的流程图;
图3示出了根据本发明的又一实施方式的用于生成标签的方法的流程图;
图4示出了根据本发明的一个实施方式的用于生成标签的方法的补充步骤的流程图;
图5示出了根据本发明的一个实施方式的用于生成标签的装置的框图;
图6示出了根据本发明的另一实施方式的用于生成标签的装置的框图;
图7示出了根据本发明的又一实施方式的用于生成标签的装置的框图;以及
图8示出了根据本发明的一个实施方式的用于生成标签的装置的补充模块的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
如图1所示,本发明的一个实施方式提出了一种用于生成标签的方法100。在一些实施方式中,方法100可以针对特定评价目标而执行,特定评价目标例如某个具体的餐厅、酒店、电影院、理发店、旅游景点等等。备选地,方法100也可以针对多个评价目标的集合而执行。在一些实施方式中,方法100可以在第三方评价服务提供者的服务器上执行。例如,服务器可以是本地服务器或者云服务器。
如图1所示,方法100包括步骤S101-S103。
在步骤S101中,获取预先存储的参考句式。在一些实施方式中,参考句式可以包括具有逻辑关系的多个参考词组,多个参考词组中的每个参考词组可以包括语义相关联的一个或多个参考词语。
参考句式可以存储为参考句式库,该参考句式库例如可以存储在执行方法100的服务器本地的存储器上,或者可以存储在与服务器进行通信的外部存储器上。
在一些实施方式中,逻辑关系可以包括位置关系、顺序关系、逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)、逻辑与非、逻辑或非、逻辑异或(XOR)、逻辑同或中的一个或多个。当然,也可以包括其他逻辑关系。
作为示例,在“{位于}AND[{地铁站}OR{码头}OR{公交站}OR{火车站}OR{机场}OR{市中心}]AND{附近}”格式的参考句式中,参考词组“地铁站”、“码头”、“公交站”、“机场”、“市中心”之间是逻辑“或(OR)”的关系。“位于”和“附近”与其之间的词组是逻辑“与(AND)”的关系。
在一些实施方式中,每个参考句式可以表示一种逻辑语义,其通过参考词组之间的组合定义参考句式,表达不同内容。每个参考句式可以具有唯一标识。举例而言,描述距离地铁站近的评价,可以由参考句式{离}{地铁站}{近}表示,其中离、地铁站、近是代表这类词语的词组。
在一些实施方式中,参考词组可以存储在参考词组库中。参考词组库由参考词组以及其包含的参考词语组成。每个参考词组和每个参考词语可以分别具有唯一标识符。
在一些实施方式中,参考词组可以包括普通词组、独立词组、感兴趣点(Point ofInterest,POI)词组、固定文字和/或专属词组。
在一些实施方式中,参考词组是对其包含的参考词语的概括和汇总,参考词语为表示该参考词组的近义词、俗语、舶来词、英语、缩写等。例如,代表班车的词组中可以包括与班车意思相同或相近的多个词语:班车、摆渡车、接驳车等等。代表地铁站的参考词组里的参考词语可以是地铁站,捷运站,快轨站轻轨等。
在一些实施方式中,参考词组也可以包括一类描述信息,比如距离近的集合,可以包括“近”、“不远”、“很近”、“走路1分钟”等参考词语。
在一些实施方式中,普通词组可以表示一般含义的词组,每个词组含有表示相同含义的词语。
在一些实施方式中,独立词组可以是可以应用于相同句式中的并列的不同含义的词组。作为示例,多个独立词组在一个句式中以或(OR)逻辑进行组合。例如,在“{离}[{地铁}OR{码头}OR{公交站}]{近}”这个参考句式中,“地铁”、“码头”、“公交站”是独立词组,可以在该相同的参考句式中使用,每个独立词组放在该参考句式中,都使句式表达出了不同的含义。可以通过“或”逻辑将其共同列在同一句式中。
在一些实施方式中,POI词组可以是为了标注并管理与例如旅游出行相关对象而采集的在各个目的地(比如北京、成都等)下具体的地点,是实际存在,不是概括性的地点,数量非常庞大。比如景点类(故宫、长城)、酒店类(北京大饭店、北京国际会议中心等)、地铁类(牡丹园、北土城)、公交站(大山子路口东、成府路口南)、商场(华联五道口店、新世界百货)等。
在一些实施方式中,固定文字可以是在一个完整的句式表达中,需要某些固定词语来完善该句式结构,而表示该含义的词只有一个,因此,无法也无需建立为词组,此种类型的词语称为固定文字。
在一些实施方式中,专属词组可以类似于一个二维词组,每一条记录其实是一个一维词组,里面包含与该词组相关的所有同义词。例如,代表民族的词组中可以包含一个民族的所有同义词。
作为另一示例,专属词组可以是代表化妆品的词组,其中包含一个化妆品牌所有的中英文表达、简称、俗称以及旗下包含的系列等。
在一些实施方式中,参考句式中的多个参考词组的逻辑关系与参考句式所表达的语义的语法逻辑关系一致。例如,参考句式可以是“{离}{POI}{近}”、“{POI}{步行}{3}{分钟}”,符合语法逻辑关系,符合人们的语言习惯。与传统的固定标签相比,更加贴近评价文本中的语言表达方式。
在步骤S102中,按照逐个参考词组匹配的方式,将多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,匹配参考词语是一个或多个参考词语中与评价子句相匹配的参考词语。
在一些实施方式中,评价子句可以是对用户对评价目标的评价文本进行拆分而得到的。例如,可以根据标点符号或者用户常用符号对评价文本进行拆分。举例而言,如果用户的评价文本是“餐厅位置很方便,饭菜很好吃”,则拆分后的评价子句分别是“餐厅位置很方便”和“饭菜很好吃”。作为示例,评价文本可以存储在评价数据库中。
在一些实施方式中,评价子句可以通过对繁体字的评价文本进行拆分而得到。例如,可以先将繁体字的评价文本转换为简体字,再进行拆分得到评价子句。通过繁体字到简体字的转换,本发明的实施方式中描述的方法可以兼容繁体字评价,而且生成与简体字评价一致的标签,避免因字体不同无法匹配到准确的标签,也避免了预先存储繁体字形式的参考词组和参考句式的需要。
在一些实施方式中,可以根据逻辑关系指定的词组顺序将多个参考词组与评价子句进行匹配,在进行匹配的参考词组中获得匹配参考词语之后,将参考句式中根据词组顺序确定的下一个参考词组与评价子句进行匹配,该次匹配在评价子句中开始的位置是与匹配参考词语相匹配的匹配评价词语所在位置的下一位。其中,根据词组顺序确定的下一个参考词组可以理解为是与匹配到匹配参考词语的参考词组顺序相邻且未进行匹配的参考词组。通过该实施方式,可以避免评价子句中已经匹配成功的部分与后续参考词组的重复匹配操作,节省了计算步骤,提高了计算效率。
作为示例,针对一条评价子句,将每个参考句式从第一个参考词组开始,把参考词组中的每个参考词语,逐个与评价子句进行匹配。如果参考词语存在于该评价子句中,则记录该参考词语。之后按参考句式中的参考词组顺序,继续匹配下个参考词组中的参考词语,评价子句中继续匹配的开始位置是上次匹配词语的结束位置的后一位,从这个位置开始再逐个匹配参考词组中的参考词语。
作为示例,可以循环上文描述的过程,直到将这个参考句式的每个参考词组都与评价子句进行匹配,则记录的每个参考词组中的匹配参考词语的组合就是这个参考句式匹配的标签。例如,参考句式{服务}{好},第一个参考词组匹配到的参考词语是该参考词组中的酒店服务,第二个参考词组匹配到的参考词语是不错,那么匹配参考词语就是“酒店服务”、“不错”。
在一些实施方式中,在进行匹配的参考词组中没有获得匹配参考词语时,终止参考句式与评价子句的匹配。也即,一旦发现一个词组匹配不成功,就不再进行后面的词组与评价子句的匹配。在要求参考句式与评价子句完全准确匹配的情况下,这样的实施方式可以在词组匹配不成功时判断参考句式与评价子句匹配不成功,就不再进行同一参考句式中后续参考词组的匹配,节省了计算步骤,提高了计算效率。
在一些实施方式中,当在当前参考词组中匹配到匹配参考词语时,跳过当前参考词组中其他未进行匹配的参考词语与评价文本的匹配。也就是,在当前进行匹配的参考词组中匹配到参考词语时,就不再对当前参考词组中的其他未进行匹配的参考词语执行匹配,而是跳过开始执行下一个参考词组的匹配。如果当前参考词组是参考句式中的最后一个词组,则终止该参考句式与评价子句的匹配。在匹配到参考词语之后即终止,可以避免将参考词组中的每个参考词语都与评价子句进行一次匹配,减少了匹配步骤、计算资源消耗,节省了计算时间。
在一些实施方式中,针对包括多个参考词语的参考词组,根据参考词组中的多个参考词语的顺序,将多个参考词语与评价文本进行匹配。多个参考词语的顺序是根据多个参考词语在之前评价中出现的频率和/或次数而排列的。
在匹配过程中,每个参考句式中的每个参考词组里的参考词语是排序好的,这个顺序是按照该参考词语在之前的评论中出现的频次排列的,频次越高的排序靠前。因此,在计算上很大概率上是只需要匹配前面的参考词语即可,可以提高计算效率上会很高。
在一些实施方式中,参与匹配的参考句式也会按照与之前的评价匹配结果进行排序,匹配率高的排序靠前,这样会提高标签匹配成功的概率。
在步骤S103中,根据匹配参考词语以及匹配参考词语所属的参考词组的逻辑关系生成标签。
作为示例,如果参考句式是“{服务}{好}”,第一个参考词组匹配到的参考词语是该参考词组中的酒店服务,第二个参考词组匹配到的参考词语是不错,那么匹配参考词语就是“酒店服务”、“不错”。根据参考词组在句式中的逻辑关系中的位置关系,生成的标签是“酒店服务不错”。
作为另一示例,如果参考句式是“{提供}{去}[{火车站}OR{飞机场}]{班车}”,第一个参考词组{提供}匹配到评价子句中的“提供”,第二个参考词组{去}匹配到评价子句中的“到”,第三参考词组和第四参考词组[{火车站}OR{飞机场}]的一个中匹配到评价子句中的“火车站”,第五个参考词组{班车}匹配到评价子句中的“接驳车”,则根据第三参考词组和第四参考词组的逻辑关系,生成标签“提供到火车站接驳车”。
本发明的实施方式提出的用于生成标签的方法100能够动态地生成大量的标签,使标签更加多样化和个性化,更好地覆盖了用户评价,提高了召回率。采用由词组灵活组合成句式,极大的减少了固定标签的数量。每个句式是多个词组联合组成,多个词组的联合复合正常的话语习惯,可以更多地覆盖用户评价文本,并且在最后提取出的标签内容上更符合用户的语言习惯,使得用户更容易理解和明白标签的含义。
本发明的另一实施方式提出了一种用于生成标签的方法200。
如图2所示,方法200包括步骤S201-S204。
在步骤S201中,获取预先存储的参考句式。
在步骤S202中,按照逐个参考词组匹配的方式,将多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语。
步骤S201-S202实现的功能与方法100中的步骤S101-S102相同,具体的实施方式、示例以及有益效果请参见步骤S101-S102的相关描述,在此不再赘述。
在步骤S203中,确定参考句式与评价子句相匹配。
在一些实施方式中,将匹配参考词语所属的参考词组的数目和/或数目与参考句式中的多个参考词组的总数目的比率与第一预定阈值进行比较。在数目和/或比率大于或者等于第一预定阈值时,确定参考句式与评价子句相匹配。否则,确定参考句式与评价子句不相匹配。
作为示例,当多个参考词组中的每个参考词组都能与评价子句相匹配时,确定参考句式与评价子句相匹配。这样可以提高匹配得到的标签的完整性。
在步骤S204中,根据匹配参考词语以及匹配参考词语所属的参考词组的逻辑关系生成标签。
本发明的实施方式提出的用于生成标签的方法200通过匹配确定过程,可以更加准确地确定参考句式与评价子句的匹配关系,避免错误。
在一些实施方式中,在确定参考句式与评价子句不相匹配时,取消生成标签。
在一些实施方式中,将与具有相邻位置关系的参考词组中的匹配参考词语相匹配的匹配评价词语在评价子句中的词距与第二预定阈值进行比较。在词距大于第二预定阈值时,确定参考句式与评价子句不相匹配。
作为示例,参考句式是“{房间}{大}”,评价子句是“酒店房间里有一幅画着蓝天和大海的油画”。如果没有词距的判断,则该评价子句将匹配到“{房间}{大}”的参考句式,但是该评价子句的意思与“房间大”这一标签表达的意思明显不同。例如,将第二预定阈值设置为三个字的词距,评价子句中“房间”与“大”之间的词距超过了三个字,就可以判断参考句式与评价子句不相匹配,避免了错误匹配。由于句式中的词语之间可能有一定的位置相关性,通过判断匹配词之间的距离是否符合阈值,剔除那些子句中成功匹配到的词语但是并不表示符合句式含义的内容。
在一些实施方式中,判断评价子句中在与匹配参考词语相匹配的匹配评价词语之前是否具有否定词。如果具有否定词,则确定参考句式与评价子句不相匹配。
例如,在匹配到一个参考词语时,当这个参考词语所在的参考词组是参考句式的第一个参考词语时,如果评价子句开始到这个词语之间有否定词,或者当这个参考词语所在的参考词组不是参考句式的第一个参考词组时,如果评价子句中的这个词语和上个匹配到的词语之间有否定词,则认为不匹配,比如饭菜不好吃,则匹配不到{包含饭菜的词组}{包含好吃的词组}这样的句式上。
通过判断对应位置是否存在否定词,可以避免得到与评价子句的本意完全相反的标签,提高标签的准确性。
在一些实施方式中,在匹配参考词语是易混淆词时,判断与易混淆词相对应的混淆词是否出现在评价子句中相对应的位置。如果混淆词出现在相对应的位置,则确定参考句式与评价子句不相匹配。
例如,对于容易混淆的词语,可以首先建立好一个混淆词语库,比如“好”这个词语,对应的混淆库的词语有“好像”,“好似”等等。在匹配到一个词语时发现它是易混淆词,则查看该词语对应的混淆词是否在这个词语的位置上,如果成立则认为不匹配,比如饭菜好像是之前的。则匹配不到{包含饭菜的词组}{包含好吃的词组}这样的句式上。
通过上述示例,可以排除易混淆词的干扰,避免产生与评价本意不相关的标签,提高标签的准确性。
本发明的又一实施方式提供了一种用于生成标签的方法300。如图3所示,方法300包括步骤S301-S305。
在步骤S301中,获取预先存储的参考句式。
在步骤S302中,按照逐个参考词组匹配的方式,将多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语。
在步骤S303中,根据匹配参考词语以及匹配参考词语所属的参考词组的逻辑关系生成标签。
步骤S301-S303与方法100中的S101-S103实现的功能相同,具体的实施方式、示例以及有益效果请参见步骤S101-S103的相关描述,在此不再赘述。
在步骤S304中,统计具有相同标签类别的标签的生成频率和/或次数。
在一些实施方式中,参考句式具有预先指定的参考类别。相应地,标签具有与参考类别相对应的标签类别。作为示例,参考类别为点评信息概括和归类,将同一类型的参考句式归类为一个参考类别,每个参考类别通过参考类别号来唯一标识。每个参考类别代表一类相近评价内容。
作为示例,“位置好类”这一类别代表所有描述位置好的评价信息。该类别包括多个参考句式,例如,“{离}{POI}{近}”、“{POI}{步行}{3}{分钟}”表示的都是位置好的参考句式。
在步骤S305中,将具有相同标签类别的生成频率和/或次数最高的标签确定为该标签类别的标签类别显示名称。
作为示例,根据评价目标的所有评价子句生成的标签所对应的标签类别号,统计每个标签类别中所有参考句式产生的标签出现的频次,将频次最高的标签作为该标签类别的显示名称。
针对在不同的评价目标,用户会有不同的评价方式,所以同一标签分类下频次最高的标签可能会不一样,因此展示出来对应的标签类别显示名称也不一样,由此可以达到个性化和差异化的目的。例如,标签类别“性价比好”有三个句式{性价比}{很好}、{性价比}{高}、{价格}{便宜},在某个评价目标下的标签统计中标签“性价比不错”、“性价比高”、“价格便宜”分别出现了5次、10次、7次,那么关于这个标签类别显示的标签为“性价比高”。
通过在标签类别显示中采用生成频次最高的标签作为整个标签类别的显示名称,可以在标签不断生成的过程中,根据标签生成的情况动态地改变显示名称,增加了标签的个性化。
在一些实施方式中,根据评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与显示指令所指向的标签类别相对应的评价子句。作为示例,根据被匹配的评价子句与所属的标签类别号之间的关系,当点击标签类别时,高亮显示对应的评价子句。
通过在标签类别与评价子句之间建立对应关系,在点击标签类别时突出显示相对应的评价子句,可以使用户直观地看到这一标签类别的来源可以根据需要去查看原始的评价子句,获得进一步的信息。
在一些实施方式中,如果所生成的标签中包括独立词组和/或感兴趣点词组中的参考词语,在接收到用户输入的指向标签的标签类别的显示指令时,与标签类别相独立地显示该标签。
作为示例,在同一个标签类别下如一个句式定义中,有需要独立显示的标签,则该句式产生的标签不和其他句式的标签合并,会独立显示该句式中频次最高的标签。比如句式{提供}{去}[{火车站}OR{飞机场}]{班车},其中设定{火车站}和{飞机场}是需要独立显示的标签,则最后这两个词语对应产生的频次最高的标签的结果是“提供去车站班车”和“提供到机场的班车”,这两个标签不会和该类别下的其他频次最高标签,比如该类别下的“去车站方便”这个标签合并,而是作为两个标签,独立显示。作为另一示例,标签类别为“位置好”类包含了两个句式,句式{离}{POI}{近}和句式{POI}{步行}{3}{分钟},设定POI是需要独立显示的类别,若产生的标签“离故宫近”的频次为10,“离景山近”的频次是15,“故宫步行3分钟”的频次是17,则关于位置好类产生的显示标签为“故宫步行3分钟”和“离景山近”。
在建立参考句式时,由于一些参考句式是可以通用的,只要更换其中的独立词组,也就是将独立词组或者POI词组合并在同一参考句式中,就可以表示出不同的信息。缩减了句式的数目,减少了匹配所需的计算过程,提高了计算效果。而这些信息对用户来说都是有用的,在匹配成功后的独立词组相关的标签单独地显示,可以将含义不同的标签区分出来,提供更多对用户有用的信息,提高标签的准确性。
如图4所示,本发明的一个实施方式提供了一种用于生成标签的方法的补充步骤S401-S406。
在步骤S401中,生成待分配词语。待分配词语是从与参考句式不相匹配的评价子句中获取的词语。
在一些实施方式中,可以通过对评价子句进行分词而生成待分配词语。
在步骤S402中,判断待分配词语是否存在于预先存储的参考词组和排除词库中,其中预先存储的参考词组中的每一个包括语义相关联的预先存储的参考词语,并且预先存储的参考词组包括参考句式中的多个参考词组。
在一些实施方式中,排除词库中可以包括一些无具体意义的词语,例如“我们”、“他们”之类的代词,当在评价子句中出现这类词语时,不做处理。
在一些实施方式中,如果待分配词语存在于预先存储的参考词组和/或排除词库中,则对待分配词语不做处理。
在步骤S403中,在待分配词语不存在于预先存储的参考词组和排除词库中时,计算待分配词语的词向量与预先存储的参考词语的词向量的相似度,获得相似度中的最大相似度以及预先存储的参考词语中具有最大相似度的最相似参考词语。
作为示例,采用WORD2VEC建立词向量模型,分析该词语最接近的参考词组。
在步骤S404中,确定最大相似度是否大于或等于相似度阈值。
在步骤S405中,在最大相似度大于或等于相似度阈值时,将待分配词语划分到最相似参考词语所属的预先存储的参考词组中。
在步骤S406中,在最大相似度小于相似度阈值时,在预先存储的参考词组中中针对待分配词语建立新的参考词组。
本发明的实施方式提供的用于生成标签的方法的补充步骤能够对参考词组库进行动态、灵活地管理,根据评价文本来更新参考词组,使得参考词组能够更好地覆盖评价子句。
如图5所示,本发明的一个实施方式提出了一种生成标签的装置500。装置500包括句式获取模块501、词组匹配模块502和标签生成模块503。
句式获取模块501配置用于获取预先存储的参考句式。其中,参考句式包括具有逻辑关系的多个参考词组,多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语。
词组匹配模块502配置用于按照逐个参考词组匹配的方式,将多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,匹配参考词语是一个或多个参考词语中与评价子句相匹配的参考词语。
标签生成模块503配置用于根据词组匹配模块502获得的匹配参考词语以及匹配参考词语所属的参考词组的逻辑关系生成标签。
在一些实施方式中,词组匹配模块502还配置用于当在当前参考词组中匹配到匹配参考词语时,跳过当前参考词组中未进行匹配的参考词语与评价文本的匹配。
在一些实施方式中,词组匹配模块502还配置用于针对包括多个参考词语的参考词组,根据参考词组中的多个参考词语的顺序,将多个参考词语与评价文本进行匹配。该顺序是根据多个参考词语在之前评价中出现的频率和/或次数而排列的。
在一些实施方式中,词组匹配模块502还配置用于:根据逻辑关系指定的词组顺序将多个参考词组与评价子句进行匹配,在进行匹配的参考词组中获得匹配参考词语之后,将参考句式中根据词组顺序确定的下一个参考词组与评价子句进行匹配,该次匹配在评价子句中开始的位置是与匹配参考词语相匹配的匹配评价词语所在位置的下一位。
在一些实施方式中,词组匹配模块502还配置用于:在进行匹配的参考词组中没有获得匹配参考词语时,终止参考句式与评价子句的匹配。
在一些实施方式中,参考词组可以包括普通词组、独立词组、感兴趣点词组、固定文字和/或专属词组。
在一些实施方式中,参考句式中的多个参考词组的逻辑关系与参考句式所表达的语义的语法逻辑关系一致。
在一些实施方式中,装置500还包括标签生成取消模块,配置用于在确定参考句式与评价子句不相匹配时,取消生成标签。
在一些实施方式中,标签生成取消模块还配置用于:将与相邻的参考词组中的匹配参考词语相匹配的匹配评价词语在评价子句中的词距与第二预定阈值进行比较;以及在词距大于第二预定阈值时,确定参考句式与评价子句不相匹配。
在一些实施方式中,标签生成取消模块还还配置用于:判断评价子句中在与匹配参考词语相匹配的匹配评价词语之前是否具有否定词;如果具有否定词,则确定参考句式与评价子句不相匹配。
在一些实施方式中,标签生成取消模块还还配置用于:在匹配参考词语是易混淆词时,判断与易混淆词相对应的混淆词是否出现在评价子句中与易混淆词语义关联的位置,其中易混淆词与混淆词之间具有语义关联的位置关系;如果混淆词出现在与易混淆词语义关联的位置,则确定参考句式与评价子句不相匹配。
如图6所示,本发明的一个实施方式提供了另外一种生成标签的装置600。装置600包括句式获取模块601、词组匹配模块602、匹配确定模块603和标签生成模块604。
其中,句式获取模块601和词组匹配模块602分别与图5中的句式获取模块501和词组匹配模块502实现相同的功能,在此不再赘述。
匹配确定模块603配置用于确定参考句式与评价子句相匹配。
标签生成模块604配置用于在匹配确定模块603确定参考句式与评价子句相匹配时,根据词组匹配模块602获得的匹配参考词语以及匹配参考词语所属的参考词组的逻辑关系生成标签。
在一些实施方式中,匹配确定模块603还配置用于:将匹配参考词语所属的参考词组的数目和/或数目与参考句式中的多个参考词组的总数目的比率与第一预定阈值进行比较;在数目和/或比率大于或者等于第一预定阈值时,确定参考句式与评价子句相匹配。
如图7所示,本发明的又一实施方式提出了一种用于生成标签的装置700。装置700包括句式获取模块701、词组匹配模块702、标签生成模块703、频次统计模块704和显示名称确定模块705。
获取模块701、词组匹配模块702和标签生成模块703与参考图5描述的句式获取模块501、词组匹配模块502和标签生成模块503实现相同的功能,在此不再赘述。
频次统计模块704配置用于统计具有相同标签类别的标签的生成频率和/或次数。
显示名称确定模块705配置用于将频次统计模块704统计的具有相同标签类别的生成频率和/或次数最高的标签确定为标签类别的标签类别显示名称。
在一些实施方式中,参考句式具有预先指定的参考类别。并且,标签具有与考类别相对应的标签类别。
在一些实施方式中,装置700还包括评价子句显示模块,配置用于根据评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与显示指令所指向的标签类别相对应的评价子句。
在一些实施方式中,装置700还包括独立显示模块,配置用于如果所生成的标签中包括独立词组和/或感兴趣点词组中的参考词语,在接收到用户输入的指向标签的标签类别的显示指令时,与标签类别相独立地显示标签。
装置500、600、700中的各个模块所实现的功能与上文描述的用于生成标签的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
如图8所示,本发明的一个实施方式提出了一种生成标签的装置的补充模块,其中包括待分配词语生成模块801、存储判断模块802、相似度计算模块803、相似度比较模块804、词语划分模块805和词组新建模块806。
待分配词语生成模块801配置用于生成待分配词语。
存储判断模块802配置用于判断待分配词语是否存在于预先存储的参考词组和排除词库中,其中预先存储的参考词组中的每一个参考词组包括语义相关联且为预先存储的参考词语,并且预先存储的参考词组包括参考句式中的多个参考词组。
相似度计算模块803配置用于在存储判断模块802判断待分配词语不存在于预先存储的参考词组和排除词库中时,计算待分配词语的词向量与预先存储的参考词语的词向量的相似度,获得相似度中的最大相似度以及预先存储的参考词语中具有最大相似度的最相似参考词语。
相似度比较模块804配置用于确定最大相似度是否大于或等于相似度阈值。
词语划分模块805配置用于在相似度比较模块804确定最大相似度大于或等于相似度阈值时,将待分配词语划分到最相似参考词语所属的预先存储的参考词组中。
词组新建模块806配置用于在相似度比较模块804确定最大相似度小于相似度阈值时,在预先存储的参考词组中针对待分配词语建立新的参考词组。
各个补充模块实现的功能与上文描述的用于生成标签的方法的补充步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
在一些实施方式中,本发明提供了一种服务器,服务器包括存储器以及处理器。存储器配置用于存储指令。处理器配置用于调用指令执行上文所述的任何方法。
在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令。计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
在一些实施方式中,本发明还提供了以下技术方案:
方案1:一种生成标签的方法,所述方法包括:
获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签。
方案2:根据方案1所述的方法,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
当在当前参考词组中匹配到匹配参考词语时,跳过所述当前参考词组中未进行匹配的参考词语与所述评价文本的匹配。
方案3:根据方案1所述的方法,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
针对包括多个参考词语的参考词组,根据所述参考词组中的所述多个参考词语的顺序,将所述多个参考词语与所述评价文本进行匹配,其中,所述顺序是根据所述多个参考词语在之前评价中出现的频率和/或次数而排列的。
方案4:根据方案1所述的方法,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
根据所述逻辑关系指定的词组顺序,将所述多个参考词组与所述评价子句进行匹配;在进行匹配的参考词组中获得匹配参考词语之后,将所述参考句式中根据所述词组顺序确定的下一个参考词组,与所述评价子句进行匹配;其中,所述下一个参考词组是与匹配到匹配参考词语的参考词组顺序相邻且未进行匹配的参考词组,在与所述下一个参考词组进行匹配时,所述评价子句中开始的位置是与所述匹配参考词语相匹配的匹配评价词语所在位置的下一位。
方案5:根据方案4所述的方法,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,还包括:
在进行匹配的参考词组中没有获得匹配参考词语时,终止所述参考句式与所述评价子句的匹配。
方案6:根据方案1所述的方法,在根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签之前,所述方法还包括:
确定所述参考句式与所述评价子句相匹配。
方案7:根据方案6所述的方法,确定所述参考句式与所述评价子句相匹配包括:
将所述匹配参考词语所属的参考词组的数目和/或所述数目与所述参考句式中的所述多个参考词组的总数目的比率与第一预定阈值进行比较;在所述数目和/或比率大于或者等于所述第一预定阈值时,确定所述参考句式与所述评价子句相匹配。
方案8:根据方案1所述的方法,所述方法还包括:
在确定所述参考句式与所述评价子句不相匹配时,取消生成标签。
方案9:根据方案8所述的方法,确定所述参考句式与所述评价子句不相匹配包括:
将与相邻的参考词组中的匹配参考词语相匹配的匹配评价词语在所述评价子句中的词距与第二预定阈值进行比较;以及在所述词距大于所述第二预定阈值时,确定所述参考句式与所述评价子句不相匹配。
方案10:根据方案8所述的方法,确定所述参考句式与所述评价子句不相匹配包括:
判断所述评价子句中在与所述匹配参考词语相匹配的匹配评价词语之前是否具有否定词;如果具有否定词,则确定所述参考句式与所述评价子句不相匹配。
方案11:根据方案8所述的方法,确定所述参考句式与所述评价子句不相匹配包括:
在所述匹配参考词语是易混淆词时,判断与所述易混淆词相对应的混淆词是否出现在所述评价子句中与所述易混淆词语义关联的位置,所述易混淆词与所述混淆词之间具有所述语义关联的位置关系;如果所述混淆词出现在与所述易混淆词语义关联的位置,则确定所述参考句式与所述评价子句不相匹配。
方案12:根据方案1所述的方法,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,所述方法还包括:
统计具有相同标签类别的标签的生成频率和/或次数;以及将具有相同标签类别的生成频率和/或次数最高的标签,确定为所述标签类别的标签类别显示名称。
方案13:根据方案1所述的方法,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,所述方法还包括:
根据所述评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与所述显示指令所指向的标签类别相对应的评价子句。
方案14:根据方案1所述的方法,所述参考词组包括普通词组、独立词组、感兴趣点词组、固定文字和/或专属词组。
方案15:根据方案14所述的方法,所述方法还包括:
如果所生成的标签中包括所述独立词组和/或所述感兴趣点词组中的参考词语,在接收到用户输入的指向所述标签的标签类别的显示指令时,与所述标签类别相独立地显示所述标签。
方案16:根据方案1所述的方法,所述参考句式中的所述多个参考词组的所述逻辑关系与所述参考句式所表达的语义的语法逻辑关系一致。
方案17:根据方案8所述的方法,所述方法还包括:
生成待分配词语,所述待分配词语是从与所述参考句式不相匹配的评价子句中获取的词语;判断所述待分配词语是否存在于预先存储的参考词组和排除词库中,其中所述预先存储的参考词组中的每一个参考词组包括语义相关联且为预先存储的参考词语,并且所述预先存储的参考词组包括所述参考句式中的所述多个参考词组;在所述待分配词语不存在于所述预先存储的参考词组和所述排除词库中时,计算所述待分配词语的词向量与所述预先存储的参考词语的词向量的相似度,获得所述相似度中的最大相似度以及所述预先存储的参考词语中具有所述最大相似度的最相似参考词语;确定所述最大相似度是否大于或等于相似度阈值;在所述最大相似度大于或等于所述相似度阈值时,将所述待分配词语划分到所述最相似参考词语所属的预先存储的参考词组中;以及在所述最大相似度小于所述相似度阈值时,在所述预先存储的参考词组中针对所述待分配词语建立新的参考词组。
方案18:一种生成标签的装置,所述装置包括:
句式获取模块,配置用于获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;
词组匹配模块,配置用于按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及
标签生成模块,配置用于根据所述词组匹配模块获得的所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签。
方案19:根据方案18所述的装置,所述词组匹配模块还配置用于:
当在当前参考词组中匹配到匹配参考词语时,跳过所述当前参考词组中未进行匹配的参考词语与所述评价文本的匹配。
方案20:根据方案18所述的装置,所述词组匹配模块还配置用于:
针对包括多个参考词语的参考词组,根据所述参考词组中的所述多个参考词语的顺序,将所述多个参考词语与所述评价文本进行匹配,其中,所述顺序是根据所述多个参考词语在之前评价中出现的频率和/或次数而排列的。
方案21:根据方案18所述的装置,所述词组匹配模块还配置用于:
根据所述逻辑关系指定的词组顺序,将所述多个参考词组与所述评价子句进行匹配;
在进行匹配的参考词组中获得匹配参考词语之后,将所述参考句式中根据所述词组顺序确定的下一个参考词组,与所述评价子句进行匹配;
其中,所述下一个参考词组是与匹配到匹配参考词语的参考词组顺序相邻且未进行匹配的参考词组,在与所述下一个参考词组进行匹配时,所述评价子句中开始的位置是与所述匹配参考词语相匹配的匹配评价词语所在位置的下一位。
方案22:根据方案21所述的装置,所述词组匹配模块还配置用于:
在进行匹配的参考词组中没有获得匹配参考词语时,终止所述参考句式与所述评价子句的匹配。
方案23:根据方案18所述的装置,所述装置还包括:
匹配确定模块,配置用于在所述标签生成模块根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签之前,确定所述参考句式与所述评价子句相匹配。
方案24:根据方案23所述的装置,所述匹配确定模块还配置用于:
将所述匹配参考词语所属的参考词组的数目和/或所述数目与所述参考句式中的所述多个参考词组的总数目的比率与第一预定阈值进行比较;在所述数目和/或比率大于或者等于所述第一预定阈值时,确定所述参考句式与所述评价子句相匹配。
方案25:根据方案18所述的装置,所述装置还包括:
标签生成取消模块,配置用于在确定所述参考句式与所述评价子句不相匹配时,取消生成标签。
方案26:根据方案25所述的装置,所述标签生成取消模块还配置用于:
将与相邻的参考词组中的匹配参考词语相匹配的匹配评价词语在所述评价子句中的词距与第二预定阈值进行比较;以及在所述词距大于所述第二预定阈值时,确定所述参考句式与所述评价子句不相匹配。
方案27:根据方案25所述的装置,所述标签生成取消模块还配置用于:
判断所述评价子句中在与所述匹配参考词语相匹配的匹配评价词语之前是否具有否定词;如果具有否定词,则确定所述参考句式与所述评价子句不相匹配。
方案28:根据方案25所述的装置,所述标签生成取消模块还配置用于:
在所述匹配参考词语是易混淆词时,判断与所述易混淆词相对应的混淆词是否出现在所述评价子句中与所述易混淆词语义关联的位置,所述易混淆词与所述混淆词之间具有所述语义关联的位置关系;如果所述混淆词出现在与所述易混淆词语义关联的位置,则确定所述参考句式与所述评价子句不相匹配。
方案29:根据方案18所述的装置,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,所述装置还包括:
频次统计模块,配置用于统计具有相同标签类别的标签的生成频率和/或次数;以及
显示名称确定模块,配置用于将所述频次统计模块统计的具有相同标签类别的生成频率和/或次数最高的标签确定为所述标签类别的标签类别显示名称。
方案30:根据方案18所述的装置,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,所述装置还包括:
评价子句显示模块,配置用于根据所述评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与所述显示指令所指向的标签类别相对应的评价子句。
方案31:根据方案18所述的装置,所述参考词组包括普通词组、独立词组、感兴趣点词组、固定文字和/或专属词组。
方案32:根据方案31所述的装置,所述装置还包括:
独立显示模块,配置用于如果所生成的标签中包括所述独立词组和/或所述感兴趣点词组中的参考词语,在接收到用户输入的指向所述标签的标签类别的显示指令时,与所述标签类别相独立地显示所述标签。
方案33:根据方案18所述的装置,所述参考句式中的所述多个参考词组的所述逻辑关系与所述参考句式所表达的语义的语法逻辑关系一致。
方案34:根据方案25所述的装置,所述装置还包括:
待分配词语生成模块,配置用于生成待分配词语,所述待分配词语是从与所述参考句式不相匹配的评价子句中获取的词语;
存储判断模块,配置用于判断所述待分配词语是否存在于预先存储的参考词组和排除词库中,其中所述预先存储的参考词组中的每一个参考词组包括语义相关联且为预先存储的参考词语,并且所述预先存储的参考词组包括所述参考句式中的所述多个参考词组;
相似度计算模块,配置用于在所述存储判断模块判断所述待分配词语不存在于所述预先存储的参考词组和所述排除词库中时,计算所述待分配词语的词向量与所述预先存储的参考词语的词向量的相似度,获得所述相似度中的最大相似度以及所述预先存储的参考词语中具有所述最大相似度的最相似参考词语;
相似度比较模块,配置用于确定所述最大相似度是否大于或等于相似度阈值;
词语划分模块,配置用于在所述相似度比较模块确定所述最大相似度大于或等于所述相似度阈值时,将所述待分配词语划分到所述最相似参考词语所属的预先存储的参考词组中;以及
词组新建模块,配置用于在所述相似度比较模块确定所述最大相似度小于所述相似度阈值时,在所述预先存储的参考词组中针对所述待分配词语建立新的参考词组。
方案35:本发明提供一种服务器,所述服务器包括:
存储器,配置用于存储指令;以及
处理器,配置用于调用所述指令执行方案1-方案17中任一项所述的生成标签的方法。
方案36:本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行方案1-方案17中任一项所述的生成标签的方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (32)

1.一种生成标签的方法,其特征在于,所述方法包括:
获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语所述参考词组包括普通词组、独立词组、感兴趣点词组、固定文字和/或专属词组;
按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及
根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签,且如果所生成的标签中包括所述独立词组和/或所述感兴趣点词组中的参考词语,在接收到用户输入的指向所述标签的标签类别的显示指令时,与所述标签类别相独立地显示所述标签。
2.根据权利要求1所述的方法,其特征在于,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
当在当前参考词组中匹配到匹配参考词语时,跳过所述当前参考词组中未进行匹配的参考词语与所述评价子句的匹配。
3.根据权利要求1所述的方法,其特征在于,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
针对包括多个参考词语的参考词组,根据所述参考词组中的所述多个参考词语的顺序,将所述多个参考词语与所述评价子句进行匹配,其中,所述顺序是根据所述多个参考词语在之前评价中出现的频率和/或次数而排列的。
4.根据权利要求1所述的方法,其特征在于,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配包括:
根据所述逻辑关系指定的词组顺序,将所述多个参考词组与所述评价子句进行匹配;
在进行匹配的参考词组中获得匹配参考词语之后,将所述参考句式中根据所述词组顺序确定的下一个参考词组,与所述评价子句进行匹配;
其中,所述下一个参考词组是与匹配到匹配参考词语的参考词组顺序相邻且未进行匹配的参考词组,在与所述下一个参考词组进行匹配时,所述评价子句中开始的位置是与所述匹配参考词语相匹配的匹配评价词语所在位置的下一位。
5.根据权利要求4所述的方法,其特征在于,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,还包括:
在进行匹配的参考词组中没有获得匹配参考词语时,终止所述参考句式与所述评价子句的匹配。
6.根据权利要求1所述的方法,其特征在于,在根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签之前,所述方法还包括:
确定所述参考句式与所述评价子句相匹配。
7.根据权利要求6所述的方法,其特征在于,确定所述参考句式与所述评价子句相匹配包括:
将所述匹配参考词语所属的参考词组的数目和/或所述数目与所述参考句式中的所述多个参考词组的总数目的比率与第一预定阈值进行比较;
在所述数目和/或比率大于或者等于所述第一预定阈值时,确定所述参考句式与所述评价子句相匹配。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所述参考句式与所述评价子句不相匹配时,取消生成标签。
9.根据权利要求8所述的方法,其特征在于,确定所述参考句式与所述评价子句不相匹配包括:
将与相邻的参考词组中的匹配参考词语相匹配的匹配评价词语在所述评价子句中的词距与第二预定阈值进行比较;以及
在所述词距大于所述第二预定阈值时,确定所述参考句式与所述评价子句不相匹配。
10.根据权利要求8所述的方法,其特征在于,确定所述参考句式与所述评价子句不相匹配包括:
判断所述评价子句中在与所述匹配参考词语相匹配的匹配评价词语之前是否具有否定词;
如果具有否定词,则确定所述参考句式与所述评价子句不相匹配。
11.根据权利要求8所述的方法,其特征在于,确定所述参考句式与所述评价子句不相匹配包括:
在所述匹配参考词语是易混淆词时,判断与所述易混淆词相对应的混淆词是否出现在所述评价子句中与所述易混淆词语义关联的位置,所述易混淆词与所述混淆词语义关联;
如果所述混淆词出现在与所述易混淆词语义关联的位置,则确定所述参考句式与所述评价子句不相匹配。
12.根据权利要求1所述的方法,其特征在于,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,
所述方法还包括:
统计具有相同标签类别的标签的生成频率和/或次数;以及
将具有相同标签类别的生成频率和/或次数最高的标签,确定为所述标签类别的标签类别显示名称。
13.根据权利要求1所述的方法,其特征在于,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,
所述方法还包括:
根据所述评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与所述显示指令所指向的标签类别相对应的评价子句。
14.根据权利要求1所述的方法,其特征在于,所述参考句式中的所述多个参考词组的所述逻辑关系与所述参考句式所表达的语义的语法逻辑关系一致。
15.根据权利要求8所述的方法,其特征在于,所述方法还包括:
生成待分配词语,所述待分配词语是从与所述参考句式不相匹配的评价子句中获取的词语;
判断所述待分配词语是否存在于预先存储的参考词组和排除词库中,其中所述预先存储的参考词组中的每一个参考词组包括语义相关联且为预先存储的参考词语,并且所述预先存储的参考词组包括所述参考句式中的所述多个参考词组;
在所述待分配词语不存在于所述预先存储的参考词组和所述排除词库中时,计算所述待分配词语的词向量与所述预先存储的参考词语的词向量的相似度,获得所述相似度中的最大相似度以及所述预先存储的参考词语中具有所述最大相似度的最相似参考词语;
确定所述最大相似度是否大于或等于相似度阈值;
在所述最大相似度大于或等于所述相似度阈值时,将所述待分配词语划分到所述最相似参考词语所属的预先存储的参考词组中;以及
在所述最大相似度小于所述相似度阈值时,在所述预先存储的参考词组中针对所述待分配词语建立新的参考词组。
16.一种生成标签的装置,其特征在于,所述装置包括:
句式获取模块,配置用于获取预先存储的参考句式,其中,所述参考句式包括具有逻辑关系的多个参考词组,所述多个参考词组中的每个参考词组包括语义相关联的一个或多个参考词语;
词组匹配模块,配置用于按照逐个参考词组匹配的方式,将所述多个参考词组中每个参考词组中的一个或多个参考词语与评价子句进行匹配,获得匹配参考词语,所述匹配参考词语是所述一个或多个参考词语中与所述评价子句相匹配的参考词语;以及
标签生成模块,配置用于根据所述词组匹配模块获得的所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签。
17.根据权利要求16所述的装置,其特征在于,所述词组匹配模块还配置用于:
当在当前参考词组中匹配到匹配参考词语时,跳过所述当前参考词组中未进行匹配的参考词语与所述评价子句的匹配。
18.根据权利要求16所述的装置,其特征在于,所述词组匹配模块还配置用于:
针对包括多个参考词语的参考词组,根据所述参考词组中的所述多个参考词语的顺序,将所述多个参考词语与所述评价子句进行匹配,其中,所述顺序是根据所述多个参考词语在之前评价中出现的频率和/或次数而排列的。
19.根据权利要求16所述的装置,其特征在于,所述词组匹配模块还配置用于:
根据所述逻辑关系指定的词组顺序,将所述多个参考词组与所述评价子句进行匹配;
在进行匹配的参考词组中获得匹配参考词语之后,将所述参考句式中根据所述词组顺序确定的下一个参考词组,与所述评价子句进行匹配;
其中,所述下一个参考词组是与匹配到匹配参考词语的参考词组顺序相邻且未进行匹配的参考词组,在与所述下一个参考词组进行匹配时,所述评价子句中开始的位置是与所述匹配参考词语相匹配的匹配评价词语所在位置的下一位。
20.根据权利要求19所述的装置,其特征在于,所述词组匹配模块还配置用于:
在进行匹配的参考词组中没有获得匹配参考词语时,终止所述参考句式与所述评价子句的匹配。
21.根据权利要求16所述的装置,其特征在于,所述装置还包括:
匹配确定模块,配置用于在所述标签生成模块根据所述匹配参考词语以及所述匹配参考词语所属的参考词组的所述逻辑关系生成标签之前,确定所述参考句式与所述评价子句相匹配。
22.根据权利要求21所述的装置,其特征在于,所述匹配确定模块还配置用于:
将所述匹配参考词语所属的参考词组的数目和/或所述数目与所述参考句式中的所述多个参考词组的总数目的比率与第一预定阈值进行比较;
在所述数目和/或比率大于或者等于所述第一预定阈值时,确定所述参考句式与所述评价子句相匹配。
23.根据权利要求16所述的装置,其特征在于,所述装置还包括:
标签生成取消模块,配置用于在确定所述参考句式与所述评价子句不相匹配时,取消生成标签。
24.根据权利要求23所述的装置,其特征在于,所述标签生成取消模块还配置用于:
将与相邻的参考词组中的匹配参考词语相匹配的匹配评价词语在所述评价子句中的词距与第二预定阈值进行比较;以及
在所述词距大于所述第二预定阈值时,确定所述参考句式与所述评价子句不相匹配。
25.根据权利要求23所述的装置,其特征在于,所述标签生成取消模块还配置用于:
判断所述评价子句中在与所述匹配参考词语相匹配的匹配评价词语之前是否具有否定词;
如果具有否定词,则确定所述参考句式与所述评价子句不相匹配。
26.根据权利要求23所述的装置,其特征在于,所述标签生成取消模块还配置用于:
在所述匹配参考词语是易混淆词时,判断与所述易混淆词相对应的混淆词是否出现在所述评价子句中与所述易混淆词语义关联的位置,所述易混淆词与所述混淆词语义关联;
如果所述混淆词出现在与所述易混淆词语义关联的位置,则确定所述参考句式与所述评价子句不相匹配。
27.根据权利要求16所述的装置,其特征在于,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,所述装置还包括:
频次统计模块,配置用于统计具有相同标签类别的标签的生成频率和/或次数;以及
显示名称确定模块,配置用于将所述频次统计模块统计的具有相同标签类别的生成频率和/或次数最高的标签确定为所述标签类别的标签类别显示名称。
28.根据权利要求16所述的装置,其特征在于,所述参考句式具有预先指定的参考类别,并且所述标签具有与所述参考类别相对应的标签类别,
所述装置还包括:
评价子句显示模块,配置用于根据所述评价子句与所生成的标签的标签类别的对应关系,在接收到用户输入的显示指令时,突出显示与所述显示指令所指向的标签类别相对应的评价子句。
29.根据权利要求16所述的装置,其特征在于,所述参考句式中的所述多个参考词组的所述逻辑关系与所述参考句式所表达的语义的语法逻辑关系一致。
30.根据权利要求23所述的装置,其特征在于,所述装置还包括:
待分配词语生成模块,配置用于生成待分配词语,所述待分配词语是从与所述参考句式不相匹配的评价子句中获取的词语;
存储判断模块,配置用于判断所述待分配词语是否存在于预先存储的参考词组和排除词库中,其中所述预先存储的参考词组中的每一个参考词组包括语义相关联且为预先存储的参考词语,并且所述预先存储的参考词组包括所述参考句式中的所述多个参考词组;
相似度计算模块,配置用于在所述存储判断模块判断所述待分配词语不存在于所述预先存储的参考词组和所述排除词库中时,计算所述待分配词语的词向量与所述预先存储的参考词语的词向量的相似度,获得所述相似度中的最大相似度以及所述预先存储的参考词语中具有所述最大相似度的最相似参考词语;
相似度比较模块,配置用于确定所述最大相似度是否大于或等于相似度阈值;
词语划分模块,配置用于在所述相似度比较模块确定所述最大相似度大于或等于所述相似度阈值时,将所述待分配词语划分到所述最相似参考词语所属的预先存储的参考词组中;以及
词组新建模块,配置用于在所述相似度比较模块确定所述最大相似度小于所述相似度阈值时,在所述预先存储的参考词组中针对所述待分配词语建立新的参考词组。
31.一种服务器,其特征在于,所述服务器包括:
存储器,配置用于存储指令;以及
处理器,配置用于调用所述指令执行权利要求1-15中任一项所述的生成标签的方法。
32.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-15中任一项所述的生成标签的方法。
CN201810845952.1A 2018-07-27 2018-07-27 生成标签的方法、装置、服务器和存储介质 Active CN108959643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810845952.1A CN108959643B (zh) 2018-07-27 2018-07-27 生成标签的方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810845952.1A CN108959643B (zh) 2018-07-27 2018-07-27 生成标签的方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN108959643A CN108959643A (zh) 2018-12-07
CN108959643B true CN108959643B (zh) 2021-09-17

Family

ID=64465941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810845952.1A Active CN108959643B (zh) 2018-07-27 2018-07-27 生成标签的方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN108959643B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978624A (zh) * 2019-03-27 2019-07-05 联想(北京)有限公司 信息处理方法、电子设备及计算机可读存储介质
CN110188180B (zh) * 2019-05-31 2021-06-01 腾讯科技(深圳)有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
US11449559B2 (en) * 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
CN110633370B (zh) * 2019-09-19 2023-07-04 携程计算机技术(上海)有限公司 Ota酒店标签的生成方法、***、电子设备和介质
CN112711663A (zh) * 2019-10-24 2021-04-27 北京一起教育信息咨询有限责任公司 一种标签的确定方法、装置、电子设备及存储介质
CN110781394A (zh) * 2019-10-24 2020-02-11 西北工业大学 一种基于多源群智数据的个性化商品描述生成方法
CN113076724B (zh) * 2021-04-08 2024-06-11 合肥工业大学 转换字符的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462363B (zh) * 2014-12-08 2018-10-23 百度在线网络技术(北京)有限公司 评论点的展现方法和装置
CN107315798A (zh) * 2017-06-19 2017-11-03 北京神州泰岳软件股份有限公司 基于多主题语义标签信息映射的结构化处理方法及装置
CN108153856B (zh) * 2017-12-22 2022-09-06 北京百度网讯科技有限公司 用于输出信息的方法和装置

Also Published As

Publication number Publication date
CN108959643A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959643B (zh) 生成标签的方法、装置、服务器和存储介质
CN108920497B (zh) 一种人机交互方法及装置
CN107451153B (zh) 输出结构化查询语句的方法和装置
CN102880649B (zh) 一种个性化信息处理方法和***
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和***
WO2008106473A1 (en) Automatic disambiguation based on a reference resource
CN107704449A (zh) 数据流的实时自然语言处理
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN111459977B (zh) 自然语言查询的转换
CN103914513A (zh) 一种实体输入方法和装置
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US20140337383A1 (en) Partial match derivation using text analysis
KR102606175B1 (ko) 정보 푸시 방법 및 장치
CN112699645B (zh) 语料标注方法、装置及设备
CN110381115B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN106156262A (zh) 一种搜索信息处理方法及***
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN110413823A (zh) 服装图片推送方法及相关装置
CN113836950B (zh) 商品标题文本翻译方法及其装置、设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant