CN107102993A - 一种用户诉求分析方法和装置 - Google Patents

一种用户诉求分析方法和装置 Download PDF

Info

Publication number
CN107102993A
CN107102993A CN201610094559.4A CN201610094559A CN107102993A CN 107102993 A CN107102993 A CN 107102993A CN 201610094559 A CN201610094559 A CN 201610094559A CN 107102993 A CN107102993 A CN 107102993A
Authority
CN
China
Prior art keywords
word
core
candidate
core word
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610094559.4A
Other languages
English (en)
Other versions
CN107102993B (zh
Inventor
任望
熊军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610094559.4A priority Critical patent/CN107102993B/zh
Publication of CN107102993A publication Critical patent/CN107102993A/zh
Application granted granted Critical
Publication of CN107102993B publication Critical patent/CN107102993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种用户诉求分析方法和装置,所述方法包括:利用预设的分词词性标注模型对用户评论信息进行分词词性标注处理,利用依存关系预测模型进行依存关系分析处理,以及利用预设的分类模型预测候选核心词对应的概率,最后选择最大概率对应的候选核心词作为用户评论信息的核心词,由于各个模型是根据产品业务关键词训练得到的,其能够很好地适应于关于产品业务的用户诉求的分析。由于,在预测候选核心词的概率时,充分考虑了用户评论信息包含的词与产品业务的实际关系,因此能够充分挖掘用户针对产品业务的实际诉求。可见:本申请提供的技术方案,能够自动挖掘出用户诉求,其挖掘效率和精度远远高于现有技术的人工阅读方式。

Description

一种用户诉求分析方法和装置
技术领域
本申请涉及互联网数据处理技术领域,特别涉及一种用户诉求分析方法和装置。
背景技术
随着互联网的普及和电子商务的迅速发展,互联网上存储了大量消费者对产品的评论信息,这些评论信息中包含消费者对产品性能或功能等方面褒义或贬义的评价。商家可以通过跟踪这些评价信息,及时获取消费者的反馈意见,从而改进产品。
因此,用户评论信息的意见挖掘研究营运而生,如何快速有效地从评论信息中挖掘出用户诉求已成为评论信息处理的一个研究热点。然而,目前,常通过人工阅读用户评论信息的方式挖掘用户诉求,但面对网络上海量的无结构化的评论信息,通过人工阅读的方式挖掘用户诉求是一个费时费力的过程。另外,由于每个产品都具有产品业务的独特性,这就要求分析人员必须非常熟悉产品技术和具体业务,才能够准确挖掘用户诉求。
发明内容
本申请所要解决的技术问题是针对产品的具体业务提供一种用户诉求分析方法,用以自动地从用户评论信息中挖掘用户诉求,以提高用户诉求挖掘的效率。
本申请还提供一种用户诉求分析装置,用以保证上述方法在实际中的实现及应用。
本申请第一方面提供了一种用户诉求分析方法,所述方法包括:
将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,候选核心词相关的特征包括:
候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
可选的,在所述选择最大概率对应的候选核心词作为所述用户评论信息的核心词之前,所述方法还包括:
判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述步骤:根据每个候选核心词以及对应的概率分析所述用户评论信息的核心词;
如果所述最大概率小于预设阈值,则根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词,包括:
根据预设场景词列表识别所述用户评论信息是否包含场景词;
如果是,则根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
如果否,则根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述方法还包括:
利用word2vec工具对识别出的所有核心词进行聚类。
本申请第二方面提供了一种用户诉求分析装置,所述装置包括:
分词词性标注单元,用于将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
依存关系分析单元,用于将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
候选核心词分析单元,用于将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
第一选择单元,用于选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,所述候选核心词分析单元具体提取的每个候选核心词相关的特征包括:候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
可选的,所述装置还包括:
判断单元,用于判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述第一选择单元;
如果所述最大概率小于预设阈值,则执行第二选择单元;
所述第二选择单元,用于根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述第二选择单元,包括:
场景词识别子单元,用于根据预设场景词列表识别所述用户评论信息是否包含场景词;如果是,触发第一识别子单元;如果否,触发第二识别子单元;
第一识别子单元,用于根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
第二识别子单元,用于根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述装置还包括:
聚类单元,用于利用word2vec工具对识别出的所有核心词进行聚类。
本申请提供的技术方案与现有技术相比,具有如下优点:
本申请提供的技术方案,先利用预设的分词词性标注模型对用户评论信息进行分词以及词性标注处理;由于,预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;因此,该词性标注模型针对产品特定业务具有较高的准确性;然后,利用预设的依存关系预测模型分析用户评论信息中各词之间的依存关系;由于,预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;因此,该词性标注模型针对产品特定业务具有较高的预测准确性;再,将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;最后,选择最大概率对应的候选核心词作为所述用户评论信息的核心词。由于,候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;因此,在预测过程中充分考虑了用户评论信息包含的词与产品业务的实际关系,因此能够充分挖掘用户针对产品业务的实际诉求。可见:本申请提供的技术方案,能够自动的挖掘出用户诉求,其挖掘效率和精度远远高于现有技术的人工阅读方式。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种用户诉求分析方法实施例1的流程图;
图2是基于图1所示方法提供的一种示例图;
图3是本申请提供的一种用户诉求分析方法实施例2的流程图;
图4是本申请提供的一种用户诉求分析装置实施例1的结构图;
图5是本申请提供的一种用户诉求分析装置实施例2的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模型。一般地,程序模型包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模型可以位于包括存储设备在内的本地和远程计算机存储介质中。
参考图1,示出了本申请提供的一种用户诉求分析方法的流程图,该方法可以包括以下步骤101-104:
步骤101:将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型。
由于,传统分词词性标注器是基于词典实现分词词性标注处理,因此,其与产品的实际业务很可能不匹配,使得利用传统分词词性标注器针对产品特定业务时,其准确性较低,并不能够适用于针对产品业务评论信息的挖掘。因此,本申请提供的技术方案提出了针对产品业务训练特定的分词词性标注模型。但在作模型训练时,训练数据的选取和收集是模型训练的难点,也是提高模型训练效率和可靠性的重要因素。
因此,本申请提供了关于分词词性标注模型的训练方法,以提供模型的训练效率和可靠性,使其能够更好的适用于产品特定业务中。具体的,该训练方法可以包括S11-S13.
S11:利用传统分词词性标注器对采集的用户评论信息进行分词以及词性标注处理,得到用户评论信息包含的词以及对应词性。
举例说明:用户针对产品“支付宝”下的业务“招财宝”发表的评论信息为“招财宝收益下降?”。则经过S11利用传统分词词性标注器进行分词及词性标注处理后,得到的结果是:
“招财宝/动词收益/名词下降/名词”。
在产品“支付宝”下的业务“招财宝”中,“招财宝”是业务名称,其在该产品中本定义为名词,而不是动词。若直接利用这些数据进行模型训练,其训练结果也不可靠,因此,在得到这些数据之后,利用S12对这些数据进行修正。
S12:利用预设的业务关键词词性标注方式对所述词对应的词性进行修正,得到词和修正后的词性。
其中,预设的业务关键词词性标注方式可以包含多种修正规则。
举例说明,一种修正规则为当“当招财宝为动词时,将其词性修正为名词”,通过该方式对上述“招财宝/动词 收益/名词 下降/名词”进行修正,得到的修正结果为:“招财宝/名词 收益/名词 下降/名词”。
通过S12的修正处理,使得修正后的词和对应词性是符合产品特定业务场景的,因此,利用修正后的数据进行模型训练,能够保证模型的可靠性。
S13:将词和修正后的词性作为训练样本,通过隐马尔可夫模型训练得到分词词性标注模型。
本申请提供的这种训练方法,利用传统分词词性标注器可以快速的收集用户评论信息的词和对应词性,再利用预设的业务关键词词性标注方式对词性进行修正,这样,就能够快速收集到真实、可靠的训练样本,再利用训练样本进行模型训练,就能够得到符合产品特定业务场景的分词词性标注模型。
在步骤101之后,执行步骤102。
步骤102:将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型。
由于传统的依存关系分析器是根据结构句法而获得依存句法,其仅仅使用了词本身的特征,并没有针对产品特定业务场景,其针对产品特定业务的用户评论信息的依存句法分析效果并不好,因此,本申请提出了选取标定的产品业务关键词相关的特征训练后得到的预设的依存关系预测模型。
在实现时,可以采用基于转移的依存分类器,通过机器学习方法预先训练得到依存关系预测模型,依存关系预测模型能够对接收到的词和词性进行预测,得到一个动作序列,并将动作序列转换为最终的依存关系。
步骤103:将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系。
在实现时,候选核心词相关的特征也可以包括:
候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
其中,预设的分类模型是通过机器学习训练得到的分类模型,该模型可以采用逻辑斯蒂回归模型、线性模型、决策树模型等用于实现分类的模型。
举例说明:用户评论信息是“花呗需要手续费?”,经过步骤102处理后的结果如图2所示。
其中,“花呗”与根节点root的依存距离为2;
“需要”与根节点root的依存距离为1;
“手续费”与根节点root的依存距离为2。
则步骤103的具体处理过程如下:
将“花呗需要手续费?”包含的每个词分别作为候选核心词,则得到如下信息:
1、将“花呗”作为候选核心词;
2、将“需要”作为候选核心词;
3、将“手续费”作为候选核心词;
对每个候选核心词的处理方式相同,下面仅以候选核心词“花呗”为例进行说明,根据依存关系提取与“花呗”相关的特征,具体如下:
候选核心词:花呗
候选核心词的词性:名词
候选核心词的左边词:无
候选核心词的左边词的词性:无
候选核心词的右边词:需要
候选核心词的右边词的词性:动词
候选核心词的依存距离:2
候选核心词的长度:2
候选核心词第一个字:花
候选核心词最后一字:呗
候选核心词是否为业务关键词:是
候选核心词的左边词是否为业务关键词:否
候选核心词的右边词是否为业务关键词:是
将与“花呗”相关的上述特征输入到预设的分类模型中,预测得到候选核心词“花呗”对应的概率。
步骤104:选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
另外,为了进一步提高关于用户诉求分析的准确性,本申请还提供了另一种实现方案,下面结合图2对该方案进行技术说明。
图2是本申请提供的一种用户诉求分析方法实施例2的流程图,如图2所示,所述方法包括步骤201-205:
步骤201:将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
步骤202:将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
步骤203:将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
步骤204:选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
在执行步骤204之前,先执行步骤205。
步骤205:判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;如果所述最大概率大于或等于预设阈值,则执行步骤204。否则执行步骤206。
例如,在实现时,可以选取准确率为80%对应的概率值作为预设阈值。当然,在实现时,可以根据实际情况来决定以多大的准确率为基准来设定阈值,本申请实施例对此不作具体限定。
步骤206:根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
其中,步骤206在实现时,可以包括:
根据预设场景词列表识别所述用户评论信息是否包含场景词;
如果是,则根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
如果否,则根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
其中,预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
举例说明:对于用户评论信息“花呗需要手续费”,其中,手续费为场景词,而该场景词为名词,则先初步判断出可以采用识别方式8、9、10来识别,进一步地根据识别方式8、9、10的优先级,来决定采用优先级最高的方式来处理,例如,识别方式8的优先级最高,此时,则选择有效动词作为核心词,即选择“需要”作为核心词。
另外,为了给产品优化人员提供精简、有价值的信息,在上述方法实施例1或2的基础上,还可以增加如下步骤:利用word2vec工具对识别出的所有核心词进行聚类。这样,产品优化人员可以根据聚类后的核心词来对产品性能和功能作进一步优化。
与上述方法相对应的,本申请还提供了一种用户诉求分析装置,参见图3,该装置可以包括:
分词词性标注单元301,用于将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
依存关系分析单元302,用于将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
候选核心词分析单元303,用于将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
第一选择单元304,用于选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
可选的,所述候选核心词分析单元具体提取的每个候选核心词相关的特征包括:候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
另外,参见图4,本申请还提供了一种用户诉求分析装置实施例2,如图4所示,该装置是在图3的基础上,还包括:
判断单元305,用于判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述第一选择单元;
如果所述最大概率小于预设阈值,则执行第二选择单元306;
所述第二选择单元,用于根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
可选的,所述第二选择单元,包括:
场景词识别子单元,用于根据预设场景词列表识别所述用户评论信息是否包含场景词;如果是,触发第一识别子单元;如果否,触发第二识别子单元;
第一识别子单元,用于根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
第二识别子单元,用于根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
可选的,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
可选的,所述装置还包括:
聚类单元,用于利用word2vec工具对识别出的所有核心词进行聚类。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种用户诉求分析方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种用户诉求分析方法,其特征在于,所述方法包括:
将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
2.根据权利要求1所述的方法,其特征在于,候选核心词相关的特征包括:
候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
3.根据权利要求1所述的方法,其特征在于,在所述选择最大概率对应的候选核心词作为所述用户评论信息的核心词之前,所述方法还包括:
判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述步骤:根据每个候选核心词以及对应的概率分析所述用户评论信息的核心词;
如果所述最大概率小于预设阈值,则根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
4.根据权利要求3所述的方法,其特征在于,所述根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词,包括:
根据预设场景词列表识别所述用户评论信息是否包含场景词;
如果是,则根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
如果否,则根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
5.根据权利要求4所述的方法,其特征在于,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用word2vec工具对识别出的所有核心词进行聚类。
7.一种用户诉求分析装置,其特征在于,所述装置包括:
分词词性标注单元,用于将用户评论信息输入至预设的分词词性标注模型得到所述用户评论信息包含的词和对应词性;其中,所述预设的词性标注模型是利用标定的产品业务关键词和对应词性训练后得到的模型;
依存关系分析单元,用于将所述预设的词性标注模型输出的词和对应词性输入至预设的依存关系预测模型得到依存关系;其中,所述预设的依存关系预测模型是选取标定的产品业务关键词相关的特征训练后得到的模型;
候选核心词分析单元,用于将所述用户评论信息包含的每个词分别作为候选核心词,根据所述依存关系提取每个候选核心词相关的特征,将提取到的特征输入预设的分类模型预测得到候选核心词对应的概率;所述候选核心词相关的特征至少包括:候选核心词与业务关键词的关系和候选核心词相邻的词与业务关键词之间的关系;
第一选择单元,用于选择最大概率对应的候选核心词作为所述用户评论信息的核心词。
8.根据权利要求7所述的装置,其特征在于,所述候选核心词分析单元具体提取的每个候选核心词相关的特征包括:候选核心词、候选核心词的词性、候选核心词的左边词、候选核心词的左边词的词性、候选核心词的右边词、候选核心词的右边词的词性、候选核心词的依存距离、候选核心词的长度、候选核心词第一个字、候选核心词最后一字、候选核心词是否为业务关键词、候选核心词的左边词是否为业务关键词、候选核心词的右边词是否为业务关键词。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断单元,用于判断所有候选核心词对应的概率中的最大概率是否小于预设阈值;其中,所述预设阈值是根据ROC曲线而设定的阈值;
如果所述最大概率大于或等于预设阈值,则执行所述第一选择单元;
如果所述最大概率小于预设阈值,则执行第二选择单元;
所述第二选择单元,用于根据预设场景词列表以及预设识别方式识别出所述用户评论信息的核心词;其中,所述预设场景词列表包括:与产品业务相关的、能够表征应用场景的词;所述预设识别方式包括:针对用户评论信息包含场景词的情况,如何选择核心词的方式,以及针对用户评论信息不包含场景词的情况,如何选择核心词的方式。
10.根据权利要求9所述的装置,其特征在于,所述第二选择单元,包括:
场景词识别子单元,用于根据预设场景词列表识别所述用户评论信息是否包含场景词;如果是,触发第一识别子单元;如果否,触发第二识别子单元;
第一识别子单元,用于根据场景词词性和预设识别方式中包含场景词的各个识别方式的优先级识别出所述用户评论信息的核心词;
第二识别子单元,用于根据预设识别方式中不包含场景词的识别方式识别出所述用户评论信息的核心词。
11.根据权利要求10所述的装置,其特征在于,所述预设识别方式包括:如下几种方式,其中,场景词词性相同的不同识别方式具有不同的优先级:
识别方式1:当场景词为形容词时,选择有效动词作为核心词;
识别方式2:当场景词为形容词时,选择宾语中心词作为核心词;
识别方式3:当场景词为动词时,选择情态动词作为核心词;
识别方式4:当场景词为动词时,选择否定副词作为核心词;
识别方式5:当场景词为动词时,选择宾语中心词作为核心词;
识别方式6:当场景词为动词时,选择非否定副词作为核心词;
识别方式7:当场景词为动词时,选择主语作为核心词;
识别方式8:当场景词为名词时,选择有效动词作为核心词;
识别方式9:当场景词为名词时,选择形容词作为核心词;
识别方式10:当场景词为名词时,选择从句动词作为核心词;
识别方式11:当没有无场景词时,选择第一个有效动词作为核心词。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
聚类单元,用于利用word2vec工具对识别出的所有核心词进行聚类。
CN201610094559.4A 2016-02-19 2016-02-19 一种用户诉求分析方法和装置 Active CN107102993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610094559.4A CN107102993B (zh) 2016-02-19 2016-02-19 一种用户诉求分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610094559.4A CN107102993B (zh) 2016-02-19 2016-02-19 一种用户诉求分析方法和装置

Publications (2)

Publication Number Publication Date
CN107102993A true CN107102993A (zh) 2017-08-29
CN107102993B CN107102993B (zh) 2021-01-29

Family

ID=59658572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610094559.4A Active CN107102993B (zh) 2016-02-19 2016-02-19 一种用户诉求分析方法和装置

Country Status (1)

Country Link
CN (1) CN107102993B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断***
CN109299460A (zh) * 2018-09-18 2019-02-01 北京三快在线科技有限公司 分析店铺的评价数据的方法、装置、电子设备及存储介质
CN109299094A (zh) * 2018-09-18 2019-02-01 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109508370A (zh) * 2018-09-28 2019-03-22 北京百度网讯科技有限公司 评论抽取方法、设备和存储介质
CN109857852A (zh) * 2019-01-24 2019-06-07 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及***
CN110264337A (zh) * 2019-05-28 2019-09-20 阿里巴巴集团控股有限公司 一种预测模型构建和银行卡所属国预测方法及装置
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164583A (ja) * 2005-12-15 2007-06-28 Oki Electric Ind Co Ltd 判定装置,判定方法および判定プログラム
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164583A (ja) * 2005-12-15 2007-06-28 Oki Electric Ind Co Ltd 判定装置,判定方法および判定プログラム
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断***
CN110738056A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110738056B (zh) * 2018-07-03 2023-12-19 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110908523A (zh) * 2018-09-14 2020-03-24 北京搜狗科技发展有限公司 一种输入方法及装置
CN109299460A (zh) * 2018-09-18 2019-02-01 北京三快在线科技有限公司 分析店铺的评价数据的方法、装置、电子设备及存储介质
CN109299094A (zh) * 2018-09-18 2019-02-01 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109299460B (zh) * 2018-09-18 2022-07-12 北京三快在线科技有限公司 分析店铺的评价数据的方法、装置、电子设备及存储介质
CN109508370A (zh) * 2018-09-28 2019-03-22 北京百度网讯科技有限公司 评论抽取方法、设备和存储介质
CN109857852A (zh) * 2019-01-24 2019-06-07 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及***
CN109857852B (zh) * 2019-01-24 2021-02-23 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及***
CN110264337A (zh) * 2019-05-28 2019-09-20 阿里巴巴集团控股有限公司 一种预测模型构建和银行卡所属国预测方法及装置
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置

Also Published As

Publication number Publication date
CN107102993B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN107102993A (zh) 一种用户诉求分析方法和装置
WO2020082569A1 (zh) 文本分类方法、装置、计算机设备和存储介质
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN107463658B (zh) 文本分类方法及装置
CN103207855A (zh) 针对产品评论信息的细粒度情感分析***及方法
CN110110062A (zh) 机器智能问答方法、装置与电子设备
CN107704453A (zh) 一种文字语义分析方法、文字语义分析终端及存储介质
US20120150825A1 (en) Cleansing a Database System to Improve Data Quality
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
US9632998B2 (en) Claim polarity identification
CN109376202A (zh) 一种基于nlp的企业供应关系自动抽取分析方法
CN105447038A (zh) 用于获取用户特征的方法和***
CN107436916B (zh) 智能提示答案的方法及装置
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN104715063B (zh) 搜索排序方法和装置
CN103177036A (zh) 一种标签自动提取方法和***
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN106407377A (zh) 基于人工智能的搜索方法和装置
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN114860916A (zh) 知识检索方法及装置
CN110210038A (zh) 核心实体确定方法及其***、服务器和计算机可读介质
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN114841128B (zh) 基于人工智能的业务交互方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant