CN108153856A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN108153856A
CN108153856A CN201711407816.6A CN201711407816A CN108153856A CN 108153856 A CN108153856 A CN 108153856A CN 201711407816 A CN201711407816 A CN 201711407816A CN 108153856 A CN108153856 A CN 108153856A
Authority
CN
China
Prior art keywords
comment
label
word
short sentence
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711407816.6A
Other languages
English (en)
Other versions
CN108153856B (zh
Inventor
刘昊
刘凯
何伯磊
肖欣延
吕亚娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711407816.6A priority Critical patent/CN108153856B/zh
Publication of CN108153856A publication Critical patent/CN108153856A/zh
Application granted granted Critical
Publication of CN108153856B publication Critical patent/CN108153856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取针对目标物品的待匹配的用户评论文本;获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合;在评论标签集合中选取与用户评论文本相匹配的评论标签;输出所选取出的评论标签。该实施方式提高了信息输出的准确率和输出效率。

Description

用于输出信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及用于输出信息的方法和装置。
背景技术
情感评论观点挖掘的主要目的是抽取用户评论文本中的情感观点信息。对于给定的产品(包括商品和服务)的用户评论文本,自动分析评论关注的维度信息和评论观点,从而帮助商家进行产品分析,并辅助用户进行消费决策。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:获取针对目标物品的待匹配的用户评论文本;获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合;在评论标签集合中选取与用户评论文本相匹配的评论标签;输出所选取出的评论标签。
在一些实施例中,评论标签集合中的评论标签包括对象词和针对对象词所指示的对象的评价词;以及在评论标签集合中选取与用户评论文本相匹配的评论标签,包括:将用户评论文本切分成至少一个用户评论短句;针对评论标签集合中的每个评论标签,响应于确定出至少一个用户评论短句中存在包括该评论标签中的对象词和评价词的用户评论短句,选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,评论标签集合中的评论标签与情感极性相对应,情感极性包括积极和消极;以及在评论标签集合中选取与用户评论文本相匹配的评论标签,包括:针对至少一个用户评论短句中的每个用户评论短句,将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,其中,第一情感极性预测模型用于表征评论文本与评论文本的情感极性之间的对应关系;针对评论标签集合中的每个评论标签,确定至少一个用户评论短句中存在的包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,若匹配,则选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,在评论标签集合中选取与用户评论文本相匹配的评论标签,包括:针对评论标签集合中的每个评论标签,基于神经网络的语义匹配技术,确定用户评论文本与该评论标签的语义相似度,响应于确定出语义相似度大于等于预设语义相似度阈值,选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,评论标签集合中的评论标签包括对象词和针对对象词所指示的对象的评价词;以及评论标签集合是通过如下步骤挖掘得到的:获取在预设历史时间段内针对属于类别的物品的历史评论文本;将历史评论文本切分成至少一个候选短句;对至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性;对于每个候选短句,在对该候选短句进行分词所得到的词语集合中,选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,选取词性为形容词、且字数大于等于第二预设字数的词语作为针对所选取出的对象词所指示的对象的评价词,并将选取出的对象词与选取出的评价词组合成候选评论标签,基于候选评论标签,生成评论标签集合。
在一些实施例中,基于候选评论标签,生成评论标签集合,包括:对于每个候选短句,确定对该候选短句进行分词所得到的各个词语之间的依存关系,并生成用于表征依存关系的依存句法树;基于依存句法树,从候选评论标签中选取满足以下至少一个依存条件的评论标签,并基于所选取出的评论标签,生成评论标签集合:对象词与对象词的依存父节点之间存在预定义的主谓关系;评价词与评价词的依存父节点之间存在预定义的动宾关系。
在一些实施例中,基于所选取出的评论标签,生成评论标签集合,包括:将选取出的评论标签输入预先建立的第二情感极性预测模型中,得到选取出的评论标签的情感极性,其中,第二情感极性预测模型用于表征评论标签与评论标签的情感极性之间的对应关系;对情感极性相同的评论标签进行聚类,确定每个簇中所包含的评论标签的数量,并将属于同一簇的评论标签进行合并,得到合并后的评论标签;按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签,生成评论标签集合。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:第一获取单元,配置用于获取针对目标物品的待匹配的用户评论文本;第二获取单元,配置用于获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合;选取单元,配置用于在评论标签集合中选取与用户评论文本相匹配的评论标签;输出单元,配置用于输出所选取出的评论标签。
在一些实施例中,评论标签集合中的评论标签包括对象词和针对对象词所指示的对象的评价词;以及选取单元,包括:切分模块,配置用于将用户评论文本切分成至少一个用户评论短句;第一选取模块,配置用于针对评论标签集合中的每个评论标签,响应于确定出至少一个用户评论短句中存在包括该评论标签中的对象词和评价词的用户评论短句,选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,评论标签集合中的评论标签与情感极性相对应,情感极性包括积极和消极;以及选取单元,包括:输入模块,配置用于针对至少一个用户评论短句中的每个用户评论短句,将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,其中,第一情感极性预测模型用于表征评论文本与评论文本的情感极性之间的对应关系;第二选取模块,配置用于针对评论标签集合中的每个评论标签,确定至少一个用户评论短句中存在的包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,若匹配,则选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,选取单元进一步配置用于:针对评论标签集合中的每个评论标签,基于神经网络的语义匹配技术,确定用户评论文本与该评论标签的语义相似度,响应于确定出语义相似度大于等于预设语义相似度阈值,选取该评论标签作为与用户评论文本相匹配的评论标签。
在一些实施例中,评论标签集合中的评论标签包括对象词和针对对象词所指示的对象的评价词;以及该装置还包括用于挖掘评论标签集合的挖掘单元,挖掘单元,包括:获取模块,配置用于获取在预设历史时间段内针对属于类别的物品的历史评论文本;切分模块,配置用于将历史评论文本切分成至少一个候选短句;分词模块,配置用于对至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性;生成模块,配置用于对于每个候选短句,在对该候选短句进行分词所得到的词语集合中,选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,选取词性为形容词、且字数大于等于第二预设字数的词语作为针对所选取出的对象词所指示的对象的评价词,并将选取出的对象词与选取出的评价词组合成候选评论标签,基于候选评论标签,生成评论标签集合。
在一些实施例中,生成模块,包括:第一生成子模块,配置用于对于每个候选短句,确定对该候选短句进行分词所得到的各个词语之间的依存关系,并生成用于表征依存关系的依存句法树;第二生成子模块,配置用于基于依存句法树,从候选评论标签中选取满足以下至少一个依存条件的评论标签,并基于所选取出的评论标签,生成评论标签集合:对象词与对象词的依存父节点之间存在预定义的主谓关系;评价词与评价词的依存父节点之间存在预定义的动宾关系。
在一些实施例中,第二生成子模块进一步配置用于:将选取出的评论标签输入预先建立的第二情感极性预测模型中,得到选取出的评论标签的情感极性,其中,第二情感极性预测模型用于表征评论标签与评论标签的情感极性之间的对应关系;对情感极性相同的评论标签进行聚类,确定每个簇中所包含的评论标签的数量,并将属于同一簇的评论标签进行合并,得到合并后的评论标签;按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签,生成评论标签集合。
第三方面,本申请实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现本申请提供的用于输出信息的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请提供的用于输出信息的方法。
本申请提供的用于输出信息的方法和装置,通过获取用户针对目标物品的用户评论文本,之后获取针对目标物品所属类别的物品的预先挖掘出的评论标签集合,然后在上述评论标签集合中选取与上述用户评论文本匹配的评论标签,并输出上述匹配的评论标签,从而在已经挖掘出的、物品所属类别对应的评论标签集合中选取与用户评论文本相匹配的评论标签,提高了信息输出的准确率和输出效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的评论标签集合挖掘步骤的示意性流程图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括用户终端1011、1012、1013,网络102和服务器103。其中,网络102用以在用户终端1011、1012、1013和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用用户终端1011、1012、1013通过网络102与服务器103交互,以接收或发送消息等。用户终端1011、1012、1013上可以安装有各种客户端应用,例如购物类应用、社交平台软件、即时通信工具、邮箱客户端等。
用户终端1011、1012、1013可以是具有显示屏并且支持信息交互的各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器103可以是提供各种服务的服务器,例如对用户终端1011、1012、1013上显示的评论标签提供支持的后台服务器。后台服务器可以对用户评论文本进行分析等处理,并将处理结果(例如评论标签)反馈给用户终端。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器103执行,相应地,用于输出信息的装置一般设置于服务器103中。
应该理解,图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,获取针对目标物品的待匹配的用户评论文本。
在本实施例中,用于输出信息的方法运行于其上的电子设备(例如图1所示的服务器)可以获取针对目标物品的待匹配的用户评论文本。目标物品可以是在预设时间段(例如,过去1小时)内用户提交的评论文本所针对的物品,物品可以包括商品和服务,例如,餐馆的菜品、酒店的客房均可以作为待售的商品,服务可以包括美甲服务、洗车服务等等。用户评论文本也可以称为用户原创内容(UGC,User Generated Content),是指用户生成的内容,如用户对物品的评价信息。例如,“这家餐馆的味道真不错”、“这个酒店的客房卫生不太好”、“衣服质量很好,但是容易起球啊”。
步骤202,获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合。
在本实施例中,上述电子设备可以获取预先挖掘出的、针对上述目标物品所属类别的物品的评论标签集合。类别是指按照物品所属种类的不同而做出的区别,在这里,类别可以包括餐饮类、酒店类、服饰类、教育类等等。上述电子设备中可以预先存储有物品类别关系表,其中,上述物品类别关系表可以用于表征类别的类别标识与属于该类别的物品的物品标识之间的对应关系,上述电子设备可以从上述物品类别关系表中确定上述目标物品所属的类别。上述电子设备也可以获取上述目标物品的物品信息,并从上述物品信息中确定上述目标物品所属的类别,其中,物品信息中可以包括预先确定出的物品所属类别的类别标识。评论标签也可以称为评论关键字,是从用户评论信息中抽取出的关键信息,主要用于便于用户快速了解商品或服务的特点。上述电子设备可以预先针对每种类别,从属于该类别的物品的评论信息中挖掘出评论标签,并生成该类别所对应的评论标签集合。
步骤203,在评论标签集合中选取与用户评论文本相匹配的评论标签。
在本实施例中,上述电子设备可以在步骤202获取到的评论标签集合中选取与上述用户评论文本相匹配的评论标签。具体地,上述电子设备可以首先生成与上述评论标签集合中每个评论标签语义相似的相似评论标签集合,例如,与评论标签“味道很好”相似的相似评论标签集合中可以包括“味道不错”、“吃起来挺香的”、“吃了一次还想再去”等等;之后,针对每个评论标签,可以确定上述用户评论文本中是否存在该评论标签对应的相似评论标签集合中的相似评论标签;若上述用户评论文本包括该评论标签对应的相似评论标签集合中的相似评论标签,则可以选取该评论标签作为与上述用户评论文本相匹配的评论标签,例如,上述电子设备可以确定出用户评论文本“这家餐馆的菜我前几天吃过一次,过几天打算请朋友再去一次”中存在“吃了一次还想再去”这个评论标签,而评论标签“吃了一次还想再去”是评论标签“味道很好”的相似评论标签,则可以选取“味道很好”这个评论标签作为与上述用户评论文本相匹配的评论标签。
步骤204,输出所选取出的评论标签。
在本实施例中,上述电子设备可以将在步骤203中选取出的评论标签进行输出。上述电子设备可以将所选取出的评论标签呈现在上述目标物品的评价信息展示区域的第一预设位置上,上述第一预设位置可以用于展示针对上述目标物品的评论标签;若上述第一预设位置上已经存在与所选取出的评论标签内容相同的评论标签,则可以获取上述已经存在的评论标签所对应的输出次数,并重新设置评论标签的输出次数(通常将输出次数的数值增加一),并可以将输出次数重设之后的评论标签进行输出。作为示例,若从针对羊毛衫的用户评论文本中选取出的评论标签为“质量不错”,且上述电子设备在上述羊毛衫的第一预设位置上确定出已经存在“质量不错”这一评论标签,可以获取到“质量不错”这一评论标签所对应的输出次数为26次,则可以重新设置“质量不错”这一评论标签输出次数为27次,最后,可以输出评论标签“质量不错(27)”,其中,“(27)”用于表征评论标签“质量不错”的输出次数。
本申请的上述实施例提供的方法通过将用户评论文本与评论标签集合中的评论标签进行匹配,提高了信息输出的准确率和输出效率。
继续参考图3,图3是根据本申请的用于输出信息的方法的评论标签集合挖掘步骤的示意性流程图300。该示意性流程图300,包括以下步骤:
步骤301,获取在预设历史时间段内针对属于类别的物品的历史评论文本。
在本实施例中,对评论标签集合进行挖掘的电子设备可以是上述电子设备,也可以是除上述电子设备之外的其他电子设备。上述电子设备在对评论标签集合进行挖掘时,可以首先获取在预设历史时间段(例如,过去一周)内针对属于上述类别的物品的历史评论文本。作为示例,若上述类别为服饰类,上述电子设备可以获取在过去一周内用户针对服饰类的各个物品(例如,外套、裤子、围巾等等)的历史评论文本。
步骤302,将历史评论文本切分成至少一个候选短句。
在本实施例中,上述电子设备可以以标点符号作为分隔符将上述历史评论文本切分成至少一个用户评论短句,例如,利用上述标点符号分割方法可以将历史评论文本“这家旅馆位置不错,环境也很好,就是房间太小了”切分成“这家旅馆位置不错”、“环境也很好”和“就是房间太小了”这三个候选短句。上述电子设备也可以对上述历史评论文本进行分词,并确定分词得到的各个词语的词性,可以以形容词为分割界限对上述历史评论文本进行分割,使得切分得到的每个历史评论文本中均包含一个形容词,例如,可以将历史评论文本“这个餐馆的味道不错就是位置距离地铁站太远”切分成“这个餐馆的味道不错”和“就是位置距离地铁站太远”这两个候选短句。
步骤303,对至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性。
在本实施例中,上述电子设备可以对步骤302划分得到的至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性。上述电子设备可以利用中文分词方法对每个候选短句进行分词。上述电子设备中可以存储有词性表,上述词性表可以存储有词语与词语的词性的对应关系。上述电子设备可以从上述词性表中查找分词所得到的每个词语的词性。
步骤304,对于每个候选短句,在对该候选短句进行分词所得到的词语集合中,选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,选取词性为形容词、且字数大于等于第二预设字数的词语作为针对所选取出的对象词所指示的对象的评价词,并将选取出的对象词与选取出的评价词组合成候选评论标签。
在本实施例中,对于上述每个候选短句,上述电子设备在对该候选短句进行分词所得到的词语集合中,可以选取词性为名词、且字数大于等于第一预设字数(例如,2)的词语作为对象词,并可以选取词性为形容词、且字数大于等于第二预设字数(例如,1)的词语作为针对上述所选取出的对象词所指示的对象的评价词。之后,上述电子设备可以将选取出的对象词与选取出的评价词组合成候选评论标签。作为示例,候选短句为“这家餐馆的味道真不错”,上述电子设备可以从上述候选短句中提取对象词“餐馆”和“味道”,并提取评价词“不错”,之后,可以将对象词和评价词组合成候选评论标签为“餐馆不错”和“味道不错”。
步骤305,对于每个候选短句,确定对该候选短句进行分词所得到的各个词语之间的依存关系,并生成用于表征依存关系的依存句法树。
在本实施例中,对于每个候选短句,上述电子设备可以确定对该候选短句进行分词所得到的各个词语之间的依存关系,并可以生成用于表征依存关系的依存句法树。依存关系指的是词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。依存语法(DP,Dependency Parsing)通过分析语言单位内成分之间的依存关系揭示其句法结构,例如,依存语法可以分析识别句子中的“主谓宾”、“定补状”这些语法成分。依存句法树中的每个节点代表一个词语,节点与节点之间的指向代表词语之间的依存关系。在这里,通过依存句法分析方法确定词语之间的依存关系是目前广泛研究和应用的公知技术,在此不再赘述。
步骤306,基于依存句法树,从候选评论标签中选取对象词与对象词的依存父节点之间存在预定义的主谓关系或评价词与评价词的依存父节点之间存在预定义的动宾关系的评论标签。
在本实施例中,基于在步骤305中所生成的依存句法树,上述电子设备可以从上述候选评论标签中选取对象词与对象词的依存父节点之间存在预定义的主谓关系,或评价词与评价词的依存父节点之间存在预定义的动宾关系的评论标签。具体地,针对每个候选评论标签,上述电子设备可以在上述依存句法树中查找用于表征该候选评论标签的对象词的节点,并查找该对象词的节点的依存父节点所表征的词语,之后,确定对象词与依存父节点所表征的词语之间是否为预定义的主谓关系(即对象词为名词,依存父节点所表征的词语为动词),若是,则选取出该候选评论标签。上述电子设备也可以在上述依存句法树中查找用于表征该候选评论标签的评价词的节点,并查找该评价词的节点的依存父节点所表征的词语,而后,确定评价词与依存父节点所表征的词语之间是否为预定义的动宾关系,若是,则选取出该候选评论标签。
步骤307,将选取出的评论标签输入预先建立的第二情感极性预测模型中,得到选取出的评论标签的情感极性。
在本实施例中,上述电子设备可以将选取出的评论标签输入到预先建立的第二情感极性预测模型中,得到选取出的评论标签的情感极性,上述情感极性主要是对网络文本信息中的主观陈述中所包含的情感进行分析得到的情感类别,情感极性可以包括积极和消极(或者,正面和负面)。作为示例,评论标签“环境不错”对应的情感极性为积极,用户评论短句“房间不好”对应的情感极性为消极。
需要说明的是,第二情感极性预测模型可以用于表征评论标签与评论标签的情感极性之间的对应关系。作为示例,第二情感极性预测模型可以是技术人员基于对大量的评论标签与评论标签的情感极性的统计而预先制定的、存储有多个评论标签与评论标签的情感极性的对应关系的对应关系表。上述电子设备也可以首先获取情感极性为积极的评论标签和情感极性为消极的评论标签;之后,可以提取情感极性为积极的评论标签的特征向量得到第一特征向量,提取情感极性为消极的评论标签的特征向量得到第二特征向量;最后,上述电子设备可以使用朴素贝叶斯模型(NBM,Naive Bayesian Model)或支持向量机(SVM,Support Vector Machine)等用于分类的模型,将上述第一特征向量作为模型的输入,将积极标识作为对应的模型输出,同时将上述第二特征向量作为模型输入,将消极标识作为对应的模型输出,利用机器学习方法,对该模型进行训练,得到第二情感极性预测模型。
步骤308,对情感极性相同的评论标签进行聚类,确定每个簇中所包含的评论标签的数量,并将属于同一簇的评论标签进行合并,得到合并后的评论标签。
在本实施例中,在步骤307中确定出评论标签的情感极性之后,上述电子设备可以首先对情感极性相同的评论标签进行聚类,如对情感极性为积极的评论标签进行聚类或对情感极性为消极的评论标签进行聚类,例如,可以使用文本聚类方法中的基于密度聚类方法、基于模型聚类方法和划分法等对评论标签进行聚类;之后,可以确定每个簇中所包含的评论标签的数量,并可以将属于同一簇的评论标签进行合并,得到合并后的评论标签。作为示例,一个簇中包括三个“口味不错”评论标签、十个“味道很好”评论标签、一个“很好吃”评论标签,则可以将这个簇中的上述十四个评论标签进行合并,并可以将出现次数最多的评论标签“味道很好”作为合并后的评论标签。
步骤309,按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签,生成评论标签集合。
在本实施例中,上述电子设备可以按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个(例如,三个)合并后的评论标签。作为示例,若预设数目为三,合并后的评论标签分别为“房间大”、“服务很好”、“位置不好”、“房间有异味”,“房间大”所属簇中所包含的评论标签的数量为15个,“服务很好”所属簇中所包含的评论标签的数量为20个,“位置不好”所属簇中所包含的评论标签的数量为9个,“房间有异味”,所属簇中所包含的评论标签的数量为3个,则可以在上述四个评论标签中选取“房间大”、“服务很好”和“位置不好”这三个评论标签,并生成包含上述三个评论标签的评论标签集合。
本申请的上述实施例提供的评论标签集合挖掘方法通过首先对上述目标物品所属类别的物品的历史评论文本进行预处理得到候选评论标签,之后利用词性筛选条件、依存关系筛选条件对候选评论标签进行筛选,而后对筛选后的评论标签进行聚类、合并、排序等操作,最终生成评论标签集合。从而,实现了富于针对性和准确性的评论标签生成。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,获取针对目标物品的待匹配的用户评论文本。
步骤402,获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合。
在本实施例中,步骤401-402的操作与步骤201-202的操作基本相同,在此不再赘述。
步骤403,将用户评论文本切分成至少一个用户评论短句。
在本实施例中,上述评论标签集合中的评论标签可以包括对象词和针对上述对象词所指示的对象的评价词,例如,评论标签“服务不错”中的对象词为“服务”、评价词为“不错”。上述电子设备可以将上述用户评论文本切分成至少一个用户评论短句。具体地,上述电子设备可以以标点符号作为分隔符将上述用户评论文本切分成至少一个用户评论短句,例如,利用上述标点符号分割方法可以将评论文本“这家旅馆位置不错,环境也很好,就是房间太小了”切分成“这家旅馆位置不错”、“环境也很好”和“就是房间太小了”这三个评论短句。上述电子设备也可以对上述用户评论文本进行分词,并确定分词得到的各个词语的词性,可以以形容词为分割界限对上述用户评论文本进行分割,使得切分得到的每个用户评论短句中均包含一个形容词,例如,可以将评论文本“这个餐馆的味道不错就是位置距离地铁站太远”切分成“这个餐馆的味道不错”和“就是位置距离地铁站太远”这两个评论短句。
步骤404,针对至少一个用户评论短句中的每个用户评论短句,将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性。
在本实施例中,针对在上述步骤403切分出的至少一个用户评论短句中的每个用户评论短句,上述电子设备可以将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,上述情感极性主要是对网络文本信息中的主观陈述中所包含的情感进行分析得到的情感类别,情感极性可以包括积极和消极(或者,正面和负面)。作为示例,用户评论短句“这里环境挺不错的”对应的情感极性为积极,用户评论短句“这个宾馆房间卫生不好”对应的情感极性为消极。
需要说明的是,第一情感极性预测模型可以用于表征评论文本与评论文本的情感极性之间的对应关系。作为示例,第一情感极性预测模型可以是技术人员基于对大量的评论文本和评论文本的情感极性的统计而预先制定的、存储有多个评论文本与评论文本的情感极性的对应关系的对应关系表。上述电子设备也可以首先获取情感极性为积极的评论文本和情感极性为消极的评论文本;之后,可以提取情感极性为积极的评论文本的特征向量得到第一特征向量,提取情感极性为消极的评论文本的特征向量得到第二特征向量;最后,上述电子设备可以使用朴素贝叶斯模型或支持向量机等用于分类的模型,将上述第一特征向量作为模型的输入,将积极标识作为对应的模型输出,同时将上述第二特征向量作为模型输入,将消极标识作为对应的模型输出,利用机器学习方法,对该模型进行训练,得到第一情感极性预测模型。
步骤405,针对评论标签集合中的每个评论标签,确定至少一个用户评论短句中是否存在包括该评论标签中的对象词的用户评论短句。
在本实施例中,针对上述评论标签集合中的每个评论标签,上述电子设备可以获取该评论标签中的对象词,并在至少一个用户评论短句中查找是否存在包括该评论标签中的对象词的用户评论短句;若上述至少一个用户评论短句中存在包括该评论标签中的对象词的用户评论短句,则可以执行步骤406。
作为示例,上述电子设备可以确定用户评论短句“这个宾馆服务态度不错”中包括评论标签“服务不错”中的对象词“服务”。
步骤406,确定包括该评论标签中的对象词的用户评论短句中是否包括该评论标签中的评价词。
在本实施例中,若在步骤405中确定出上述至少一个用户评论短句中存在包括该评论标签中的对象词的用户评论短句,则上述电子设备可以在包括该评论标签中的对象词的用户评论短句中查找是否包括该评论标签中的评价词;若上述电子设备确定出包括该评论标签中的对象词的用户评论短句中包括该评论标签中的评价词,则可以执行步骤407;若上述电子设备确定出包括该评论标签中的对象词的用户评论短句中不包括该评论标签中的评价词,则可以执行步骤408。
作为示例,上述电子设备可以确定用户评论短句“这个宾馆服务态度不错”中包括评论标签“服务不错”中的评价词“不错”。
步骤407,选取该评论标签作为与用户评论文本相匹配的评论标签。
在本实施例中,若在步骤406中确定出包括该评论标签中的对象词的用户评论短句中包括该评论标签中的评价词,则可以选取该评论标签作为与用户评论文本相匹配的评论标签。作为示例,由于用户评论短句“这个宾馆服务态度不错”中包括评论标签“服务不错”中的对象词“服务”和评价词“不错”,则可以选取出评论标签“服务不错”。
步骤408,确定包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配。
在本实施例中,上述评论标签集合中的每个评论标签均与情感极性相对应。若上述电子设备确定出包括该评论标签中的对象词的用户评论短句中不包括该评论标签中的评价词,则可以确定包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,即确定情感极性是否均为积极,或情感极性是否均为消极。若包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性匹配,则可以执行步骤409。
作为示例,用户评论短句“这个餐馆的味道不错”包括评论标签“味道很好”中的对象词“味道”,但不包括评论标签“味道很好”中的评价词“很好”,上述电子设备可以确定“这个餐馆的味道不错”的情感极性与评论标签“味道很好”所对应的情感极性是否匹配。由于“这个餐馆的味道不错”的情感极性为积极,且评论标签“味道很好”所对应的情感极性也为积极,则可以确定出“这个餐馆的味道不错”的情感极性与评论标签“味道很好”所对应的情感极性相匹配。
步骤409,选取该评论标签作为与用户评论文本相匹配的评论标签。
在本实施例中,若在步骤408中确定出包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性匹配,则上述电子设备可以选取该评论标签作为与用户评论文本相匹配的评论标签。作为示例,由于用户评论短句“这个餐馆的味道不错”的情感极性与评论标签“味道很好”的情感极性相匹配,则可以选取出评论标签“味道很好。
步骤410,针对评论标签集合中的每个评论标签,基于神经网络的语义匹配技术,确定用户评论文本与该评论标签的语义相似度。
在本实施例中,针对上述评论标签集合中的每个评论标签,上述电子设备可以基于神经网络的语义匹配技术,确定上述用户评论文本与该评论标签的语义相似度。上述神经网络的语义匹配技术可以是利用有监督的神经网络语义匹配模型SimNet进行语义匹配的技术,通过上述SimNet模型可以大幅度提升了语义匹配计算的效果。SimNet在语义表示上沿袭了隐式连续向量表示的方式,但对语义匹配问题在深度学习框架下进行了端到端End-to-End的建模,将词语的映射(Embedding)表示与句篇的语义表示、语义的向量表示与匹配度计算、文本对的匹配度计算与组合对(pair-wise)的有监督学习全部统一在一个整体框架内。上述电子设备可以对卷积神经网络(CNN,Convolutional Neural Network)、长短期记忆网络(LSTM,Long Short-Term Memory)等网络模型进行训练得到神经网络语义匹配模型SimNet。
具体地,SimNet框架主要包括输入层、表示层和匹配层。上述电子设备可以首先将上述用户评论文本与该评论标签分别输入到输入层,输入层可以将文本词序列转换成词向量(Word Embedding)序列;之后,表示层可以将序列的孤立的词语向量,转换为具有全局信息的一个或多个低维稠密的语义向量;而后,匹配层可以利用文本的语义向量进行交互计算,匹配层进行交互计算所应用的匹配算法通常包括以下两种:基于表达的匹配算法和基于交互的匹配算法。基于表达的匹配算法可以尽可能充分地将待匹配的两端都转换到等长的语义表示向量里,然后在两端对应的两个语义表示向量基础上,进行匹配度计算,可以包括如下两种匹配度计算方法:一种是通过固定的度量函数计算,比如cosine函数;另一种是将两个向量再通过一个多层感知器网络(MLP,Multi-layer Perceptron),通过数据训练拟合出一个匹配度得分。基于交互的匹配算法不会在表示层将文本转换成唯一的一个整体表示向量,而一般会保留和词位置相对应的一组表示向量。
步骤411,确定语义相似度是否大于等于预设语义相似度阈值。
在本实施例中,上述电子设备可以确定步骤410确定出的语义相似度是否大于等于预设语义相似度阈值,若上述语义相似度大于等于预设语义相似度阈值,则可以执行步骤412。
作为示例,语义相似度为0.8,语义相似度阈值为0.7,则上述电子设备可以确定出语义相似度0.8大于语义相似度阈值0.7。
步骤412,选取该评论标签作为与用户评论文本相匹配的评论标签。
在本实施例中,若在步骤411中确定出上述语义相似度大于等于预设语义相似度阈值,则上述电子设备可以选取该评论标签作为与用户评论文本相匹配的评论标签。作为示例,用户评论短句“这个料子的衣服在商场里卖的很贵”与评论标签“材质很好”的语义相似度为0.8,若语义相似度阈值为0.7,则可以选取出评论标签“材质很好”。
步骤413,输出所选取出的评论标签。
在本实施例中,步骤413的操作与步骤204的操作基本相同,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400突出了将评论标签集合与用户评论文本进行匹配的步骤。由此,本实施例描述的方案利用多种文本之间的匹配方法确定与用户评论文本相匹配的评论标签,从而提高了评论标签的召回率。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:第一获取单元501、第二获取单元502、选取单元503和输出单元504。其中,第一获取单元501配置用于获取针对目标物品的待匹配的用户评论文本;第二获取单元502配置用于获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合;选取单元503配置用于在评论标签集合中选取与用户评论文本相匹配的评论标签;输出单元504配置用于输出所选取出的评论标签。
在本实施例中,用于输出信息的装置500的第一获取单元501、第二获取单元502、选取单元503和输出单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204。
在本实施例的一些可选的实现方式中,上述评论标签集合中的评论标签可以包括对象词和针对上述对象词所指示的对象的评价词,例如,评论标签“服务不错”中的对象词为“服务”、评价词为“不错”。上述选取单元503可以包括切分模块(图中未示出)和第一选取模块(图中未示出)。上述切分模块可以将上述用户评论文本切分成至少一个用户评论短句。具体地,上述切分模块可以以标点符号作为分隔符将上述用户评论文本切分成至少一个用户评论短句。上述切分模块也可以对上述用户评论文本进行分词,并确定分词得到的各个词语的词性,可以以形容词为分割界限对上述用户评论文本进行分割,使得切分得到的每个用户评论短句中均包含一个形容词。针对上述评论标签集合中的每个评论标签,响应于确定出上述至少一个用户评论短句中存在包括该评论标签中的对象词和评价词的用户评论短句,上述第一选取模块可以选取该评论标签作为与上述用户评论文本相匹配的评论标签。
在本实施例的一些可选的实现方式中,上述选取单元503还可以包括输入模块(图中未示出)和第二选取模块(图中未示出)。针对上述切分模块切分出的至少一个用户评论短句中的每个用户评论短句,上述输入模块可以将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,上述情感极性主要是对网络文本信息中的主观陈述中所包含的情感进行分析得到的情感类别,情感极性可以包括积极和消极。作为示例,用户评论短句“这里环境挺不错的”对应的情感极性为积极,用户评论短句“这个宾馆房间卫生不好”对应的情感极性为消极。针对上述评论标签集合中的每个评论标签,确定至少一个用户评论短句中存在的包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,若匹配,则上述第二选取模块可以选取该评论标签作为与上述用户评论文本相匹配的评论标签。
在本实施例的一些可选的实现方式中,针对上述评论标签集合中的每个评论标签,上述选取单元503可以基于神经网络的语义匹配技术,确定上述用户评论文本与该评论标签的语义相似度。上述神经网络的语义匹配技术可以是利用有监督的神经网络语义匹配模型SimNet进行语义匹配的技术,通过上述SimNet模型可以大幅度提升了语义匹配计算的效果。上述选取单元503可以确定上述语义相似度是否大于等于预设语义相似度阈值,若上述语义相似度大于等于预设语义相似度阈值,则可以选取该评论标签作为与用户评论文本相匹配的评论标签。
在本实施例的一些可选的实现方式中,上述用于输出信息的装置500还可以包括用于挖掘评论标签集合的挖掘单元(图中未示出)。上述挖掘单元可以包括获取模块(图中未示出)、切分模块(图中未示出)、分词模块(图中未示出)和生成模块(图中未示出)。上述获取模块可以首先获取在预设历史时间段内针对属于上述类别的物品的历史评论文本。上述切分模块可以以标点符号作为分隔符将上述历史评论文本切分成至少一个用户评论短句;上述切分模块也可以对上述历史评论文本进行分词,并确定分词得到的各个词语的词性,可以以形容词为分割界限对上述历史评论文本进行分割,使得切分得到的每个历史评论文本中均包含一个形容词。上述分词模块可以对划分得到的至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性。上述分词模块可以利用中文分词方法对每个候选短句进行分词。上述分词模块中可以存储有词性表,上述词性表可以存储有词语与词语的词性的对应关系。上述分词模块可以从上述词性表中查找分词所得到的每个词语的词性。对于上述每个候选短句,上述生成模块在对该候选短句进行分词所得到的词语集合中,可以选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,并可以选取词性为形容词、且字数大于等于第二预设字数的词语作为针对上述所选取出的对象词所指示的对象的评价词。之后,上述生成模块可以将选取出的对象词与选取出的评价词组合成候选评论标签,并可以基于上述候选评论标签,生成评论标签集合。
在本实施例的一些可选的实现方式中,上述生成模块可以包括第一生成子模块(图中未示出)和第二生成子模块(图中未示出)。对于每个候选短句,上述第一生成子模块可以确定对该候选短句进行分词所得到的各个词语之间的依存关系,并可以生成用于表征依存关系的依存句法树。依存关系指的是词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,例如,依存语法可以分析识别句子中的“主谓宾”、“定补状”这些语法成分。依存句法树中的每个节点代表一个词语,节点与节点之间的指向代表词语之间的依存关系。基于上述第一生成子模块生成的依存句法树,上述第二生成子模块可以从上述候选评论标签中选取对象词与对象词的依存父节点之间存在主谓关系或评价词与评价词的依存父节点之间存在动宾关系的评论标签。
在本实施例的一些可选的实现方式中,上述第二生成子模块可以将选取出的评论标签输入到预先建立的第二情感极性预测模型中,得到选取出的评论标签的情感极性;之后,可以对情感极性相同的评论标签进行聚类,如对情感极性为积极的评论标签进行聚类或对情感极性为消极的评论标签进行聚类,例如,可以使用文本聚类方法中的基于密度聚类方法、基于模型聚类方法和划分法等对评论标签进行聚类;而后,可以确定每个簇中所包含的评论标签的数量,并可以将属于同一簇的评论标签进行合并,得到合并后的评论标签。最后,上述第二生成子模块可以按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机***600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机***600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、第二获取单元、选取单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。例如,输出单元还可以被描述为“输出所选取出的评论标签的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取针对目标物品的待匹配的用户评论文本;获取预先挖掘出的、针对目标物品所属类别的物品的评论标签集合;在评论标签集合中选取与用户评论文本相匹配的评论标签;输出所选取出的评论标签。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于输出信息的方法,包括:
获取针对目标物品的待匹配的用户评论文本;
获取预先挖掘出的、针对所述目标物品所属类别的物品的评论标签集合;
在所述评论标签集合中选取与所述用户评论文本相匹配的评论标签;
输出所选取出的评论标签。
2.根据权利要求1所述的方法,其中,所述评论标签集合中的评论标签包括对象词和针对所述对象词所指示的对象的评价词;以及
所述在所述评论标签集合中选取与所述用户评论文本相匹配的评论标签,包括:
将所述用户评论文本切分成至少一个用户评论短句;
针对所述评论标签集合中的每个评论标签,响应于确定出所述至少一个用户评论短句中存在包括该评论标签中的对象词和评价词的用户评论短句,选取该评论标签作为与所述用户评论文本相匹配的评论标签。
3.根据权利要求2所述的方法,其中,所述评论标签集合中的评论标签与情感极性相对应,所述情感极性包括积极和消极;以及
所述在所述评论标签集合中选取与所述用户评论文本相匹配的评论标签,包括:
针对所述至少一个用户评论短句中的每个用户评论短句,将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,其中,所述第一情感极性预测模型用于表征评论文本与评论文本的情感极性之间的对应关系;
针对所述评论标签集合中的每个评论标签,确定所述至少一个用户评论短句中存在的包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,若匹配,则选取该评论标签作为与所述用户评论文本相匹配的评论标签。
4.根据权利要求1-3之一所述的方法,其中,所述在所述评论标签集合中选取与所述用户评论文本相匹配的评论标签,包括:
针对所述评论标签集合中的每个评论标签,基于神经网络的语义匹配技术,确定所述用户评论文本与该评论标签的语义相似度,响应于确定出所述语义相似度大于等于预设语义相似度阈值,选取该评论标签作为与所述用户评论文本相匹配的评论标签。
5.根据权利要求1所述的方法,其中,所述评论标签集合中的评论标签包括对象词和针对所述对象词所指示的对象的评价词;以及
所述评论标签集合是通过如下步骤挖掘得到的:
获取在预设历史时间段内针对属于所述类别的物品的历史评论文本;
将所述历史评论文本切分成至少一个候选短句;
对所述至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性;
对于所述每个候选短句,在对该候选短句进行分词所得到的词语集合中,选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,选取词性为形容词、且字数大于等于第二预设字数的词语作为针对所选取出的对象词所指示的对象的评价词,并将选取出的对象词与选取出的评价词组合成候选评论标签,基于所述候选评论标签,生成评论标签集合。
6.根据权利要求5所述的方法,其中,所述基于所述候选评论标签,生成评论标签集合,包括:
对于所述每个候选短句,确定对该候选短句进行分词所得到的各个词语之间的依存关系,并生成用于表征所述依存关系的依存句法树;
基于所述依存句法树,从所述候选评论标签中选取满足以下至少一个依存条件的评论标签,并基于所选取出的评论标签,生成评论标签集合:
对象词与对象词的依存父节点之间存在预定义的主谓关系;
评价词与评价词的依存父节点之间存在预定义的动宾关系。
7.根据权利要求6所述的方法,其中,所述基于所选取出的评论标签,生成评论标签集合,包括:
将所述选取出的评论标签输入预先建立的第二情感极性预测模型中,得到所述选取出的评论标签的情感极性,其中,所述第二情感极性预测模型用于表征评论标签与评论标签的情感极性之间的对应关系;
对情感极性相同的评论标签进行聚类,确定每个簇中所包含的评论标签的数量,并将属于同一簇的评论标签进行合并,得到合并后的评论标签;
按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签,生成评论标签集合。
8.一种用于输出信息的装置,包括:
第一获取单元,配置用于获取针对目标物品的待匹配的用户评论文本;
第二获取单元,配置用于获取预先挖掘出的、针对所述目标物品所属类别的物品的评论标签集合;
选取单元,配置用于在所述评论标签集合中选取与所述用户评论文本相匹配的评论标签;
输出单元,配置用于输出所选取出的评论标签。
9.根据权利要求8所述的装置,其中,所述评论标签集合中的评论标签包括对象词和针对所述对象词所指示的对象的评价词;以及
所述选取单元,包括:
切分模块,配置用于将所述用户评论文本切分成至少一个用户评论短句;
第一选取模块,配置用于针对所述评论标签集合中的每个评论标签,响应于确定出所述至少一个用户评论短句中存在包括该评论标签中的对象词和评价词的用户评论短句,选取该评论标签作为与所述用户评论文本相匹配的评论标签。
10.根据权利要求9所述的装置,其中,所述评论标签集合中的评论标签与情感极性相对应,所述情感极性包括积极和消极;以及
所述选取单元,包括:
输入模块,配置用于针对所述至少一个用户评论短句中的每个用户评论短句,将该用户评论短句输入到预先建立的第一情感极性预测模型中,得到该用户评论短句的情感极性,其中,所述第一情感极性预测模型用于表征评论文本与评论文本的情感极性之间的对应关系;
第二选取模块,配置用于针对所述评论标签集合中的每个评论标签,确定所述至少一个用户评论短句中存在的包括该评论标签中的对象词、而不包括该评论标签中的评价词的用户评论短句的情感极性与该评论标签的情感极性是否匹配,若匹配,则选取该评论标签作为与所述用户评论文本相匹配的评论标签。
11.根据权利要求8-10之一所述的装置,其中,所述选取单元进一步配置用于:
针对所述评论标签集合中的每个评论标签,基于神经网络的语义匹配技术,确定所述用户评论文本与该评论标签的语义相似度,响应于确定出所述语义相似度大于等于预设语义相似度阈值,选取该评论标签作为与所述用户评论文本相匹配的评论标签。
12.根据权利要求7所述的装置,其中,所述评论标签集合中的评论标签包括对象词和针对所述对象词所指示的对象的评价词;以及
所述装置还包括用于挖掘评论标签集合的挖掘单元,所述挖掘单元,包括:
获取模块,配置用于获取在预设历史时间段内针对属于所述类别的物品的历史评论文本;
切分模块,配置用于将所述历史评论文本切分成至少一个候选短句;
分词模块,配置用于对所述至少一个候选短句中的每个候选短句进行分词,并确定分词所得到的每个词语的词性;
生成模块,配置用于对于所述每个候选短句,在对该候选短句进行分词所得到的词语集合中,选取词性为名词、且字数大于等于第一预设字数的词语作为对象词,选取词性为形容词、且字数大于等于第二预设字数的词语作为针对所选取出的对象词所指示的对象的评价词,并将选取出的对象词与选取出的评价词组合成候选评论标签,基于所述候选评论标签,生成评论标签集合。
13.根据权利要求12所述的装置,其中,所述生成模块,包括:
第一生成子模块,配置用于对于所述每个候选短句,确定对该候选短句进行分词所得到的各个词语之间的依存关系,并生成用于表征所述依存关系的依存句法树;
第二生成子模块,配置用于基于所述依存句法树,从所述候选评论标签中选取满足以下至少一个依存条件的评论标签,并基于所选取出的评论标签,生成评论标签集合:
对象词与对象词的依存父节点之间存在预定义的主谓关系;
评价词与评价词的依存父节点之间存在预定义的动宾关系。
14.根据权利要求13所述的装置,其中,所述第二生成子模块进一步配置用于:
将所述选取出的评论标签输入预先建立的第二情感极性预测模型中,得到所述选取出的评论标签的情感极性,其中,所述第二情感极性预测模型用于表征评论标签与评论标签的情感极性之间的对应关系;
对情感极性相同的评论标签进行聚类,确定每个簇中所包含的评论标签的数量,并将属于同一簇的评论标签进行合并,得到合并后的评论标签;
按照评论标签所属簇中所包含的评论标签的数量由大到小的顺序选取预设数目个合并后的评论标签,生成评论标签集合。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201711407816.6A 2017-12-22 2017-12-22 用于输出信息的方法和装置 Active CN108153856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711407816.6A CN108153856B (zh) 2017-12-22 2017-12-22 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711407816.6A CN108153856B (zh) 2017-12-22 2017-12-22 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
CN108153856A true CN108153856A (zh) 2018-06-12
CN108153856B CN108153856B (zh) 2022-09-06

Family

ID=62464416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711407816.6A Active CN108153856B (zh) 2017-12-22 2017-12-22 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN108153856B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959643A (zh) * 2018-07-27 2018-12-07 北京创鑫旅程网络技术有限公司 生成标签的方法、装置、服务器和存储介质
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN109408614A (zh) * 2018-09-11 2019-03-01 全球能源互联网研究院有限公司 一种句法依存树动态可视化方法及***
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN110674256A (zh) * 2019-09-25 2020-01-10 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及***
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111104514A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111382262A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111507773A (zh) * 2020-04-22 2020-08-07 深圳市元征科技股份有限公司 优惠券管理方法、装置及存储介质
CN111597458A (zh) * 2020-04-15 2020-08-28 北京百度网讯科技有限公司 场景元素的抽取方法、装置、设备及存储介质
CN111597791A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 评论短语的提取方法及设备
CN111814483A (zh) * 2019-06-12 2020-10-23 北京京东尚科信息技术有限公司 用于分析情感的方法和装置
CN111832313A (zh) * 2020-06-09 2020-10-27 北京百度网讯科技有限公司 文本中情感搭配集合的生成方法、装置、设备和介质
CN111966267A (zh) * 2020-07-31 2020-11-20 维沃移动通信有限公司 应用评论方法、装置和电子设备
CN112328793A (zh) * 2020-11-09 2021-02-05 北京小米松果电子有限公司 评论文本数据的处理方法、装置及存储介质
CN113177170A (zh) * 2021-04-12 2021-07-27 维沃移动通信有限公司 评论展示方法、装置及电子设备
CN113297382A (zh) * 2021-06-21 2021-08-24 西南大学 仪器设备功能标签化处理方法
CN113553421A (zh) * 2021-06-22 2021-10-26 北京百度网讯科技有限公司 评论文本的生成方法、装置、电子设备和存储介质
CN113595860A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113741759A (zh) * 2021-11-06 2021-12-03 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278065A1 (en) * 2011-04-29 2012-11-01 International Business Machines Corporation Generating snippet for review on the internet
CN103150331A (zh) * 2013-01-24 2013-06-12 北京京东世纪贸易有限公司 一种提供搜索引擎标签的方法和装置
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN105095179A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 对用户评价进行处理的方法及装置
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106649732A (zh) * 2016-12-23 2017-05-10 金蝶软件(中国)有限公司 一种信息推送方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278065A1 (en) * 2011-04-29 2012-11-01 International Business Machines Corporation Generating snippet for review on the internet
JP2013134738A (ja) * 2011-12-27 2013-07-08 Kddi Corp 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
CN103150331A (zh) * 2013-01-24 2013-06-12 北京京东世纪贸易有限公司 一种提供搜索引擎标签的方法和装置
CN105095179A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 对用户评价进行处理的方法及装置
CN105095288A (zh) * 2014-05-14 2015-11-25 腾讯科技(深圳)有限公司 数据分析方法及数据分析装置
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN106649732A (zh) * 2016-12-23 2017-05-10 金蝶软件(中国)有限公司 一种信息推送方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG YONGFENG等: "Boost Phrase-level Polarity Labelling with Review-level Sentiment Classification", 《COMPUTER SCIENCE》 *
张圣声: "基于微博平台的产品评论情感分类研究", 《中国优秀硕士学位论文全文数据库 (哲学与人文科学辑)》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190104A (zh) * 2018-06-15 2019-01-11 口口相传(北京)网络技术有限公司 标签短语处理和相似度计算方法及装置,电子和存储设备
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110738056B (zh) * 2018-07-03 2023-12-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108959643A (zh) * 2018-07-27 2018-12-07 北京创鑫旅程网络技术有限公司 生成标签的方法、装置、服务器和存储介质
CN109408614A (zh) * 2018-09-11 2019-03-01 全球能源互联网研究院有限公司 一种句法依存树动态可视化方法及***
CN109408614B (zh) * 2018-09-11 2021-10-29 全球能源互联网研究院有限公司 一种句法依存树动态可视化方法及***
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109461037B (zh) * 2018-12-17 2022-10-28 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109815333A (zh) * 2019-01-14 2019-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN111597791A (zh) * 2019-02-19 2020-08-28 北大方正集团有限公司 评论短语的提取方法及设备
CN111814483B (zh) * 2019-06-12 2024-04-12 北京京东尚科信息技术有限公司 用于分析情感的方法和装置
CN111814483A (zh) * 2019-06-12 2020-10-23 北京京东尚科信息技术有限公司 用于分析情感的方法和装置
CN110674256B (zh) * 2019-09-25 2023-05-12 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及***
CN110674256A (zh) * 2019-09-25 2020-01-10 携程计算机技术(上海)有限公司 Ota酒店的点评与回复的相关度的检测方法及***
CN111104514A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111104514B (zh) * 2019-12-23 2023-04-25 北京百度网讯科技有限公司 文档标签模型的训练方法及装置
CN111382262A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111597458B (zh) * 2020-04-15 2023-11-17 北京百度网讯科技有限公司 场景元素的抽取方法、装置、设备及存储介质
CN111597458A (zh) * 2020-04-15 2020-08-28 北京百度网讯科技有限公司 场景元素的抽取方法、装置、设备及存储介质
CN111507773A (zh) * 2020-04-22 2020-08-07 深圳市元征科技股份有限公司 优惠券管理方法、装置及存储介质
CN113595860B (zh) * 2020-04-30 2023-06-13 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113595860A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111832313B (zh) * 2020-06-09 2023-07-25 北京百度网讯科技有限公司 文本中情感搭配集合的生成方法、装置、设备和介质
CN111832313A (zh) * 2020-06-09 2020-10-27 北京百度网讯科技有限公司 文本中情感搭配集合的生成方法、装置、设备和介质
CN111966267A (zh) * 2020-07-31 2020-11-20 维沃移动通信有限公司 应用评论方法、装置和电子设备
CN112328793A (zh) * 2020-11-09 2021-02-05 北京小米松果电子有限公司 评论文本数据的处理方法、装置及存储介质
CN113177170A (zh) * 2021-04-12 2021-07-27 维沃移动通信有限公司 评论展示方法、装置及电子设备
CN113297382A (zh) * 2021-06-21 2021-08-24 西南大学 仪器设备功能标签化处理方法
CN113553421A (zh) * 2021-06-22 2021-10-26 北京百度网讯科技有限公司 评论文本的生成方法、装置、电子设备和存储介质
CN113741759B (zh) * 2021-11-06 2022-02-22 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质
CN113741759A (zh) * 2021-11-06 2021-12-03 腾讯科技(深圳)有限公司 评论信息的展示方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN108153856B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN108153856A (zh) 用于输出信息的方法和装置
CN106663095B (zh) 来自承载情感的内容的分面推荐
CN104281699B (zh) 搜索推荐方法及装置
CN108959603B (zh) 基于深度神经网络的个性化推荐***及方法
CN108171276B (zh) 用于生成信息的方法和装置
CN106104521B (zh) 用于自动检测文本中的情感的***、设备和方法
CN108629224B (zh) 信息呈现方法和装置
CN105574067A (zh) 项目推荐装置以及项目推荐方法
CN109299994B (zh) 推荐方法、装置、设备及可读存储介质
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN108932335A (zh) 一种生成文案的方法和装置
CN107609960A (zh) 推荐理由生成方法及装置
CN104636371B (zh) 信息推荐方法及设备
CN108681919A (zh) 一种内容推送方法及装置
CN107193792A (zh) 基于人工智能的生成文章的方法和装置
CN109145280A (zh) 信息推送的方法和装置
CN107507612A (zh) 一种声纹识别方法及装置
US9436768B2 (en) System and method for pushing and distributing promotion content
CN109492160A (zh) 用于推送信息的方法和装置
CN108268573A (zh) 用于推送信息的方法和装置
CN107924393A (zh) 用于语言理解的分布式服务器***
AlQahtani Product sentiment analysis for amazon reviews
CN108255857A (zh) 一种语句检测方法及装置
CN107644364A (zh) 对象过滤方法及***
CN103617192B (zh) 一种数据对象的聚类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant