CN110032724A - 用于识别用户意图的方法及装置 - Google Patents
用于识别用户意图的方法及装置 Download PDFInfo
- Publication number
- CN110032724A CN110032724A CN201811552497.2A CN201811552497A CN110032724A CN 110032724 A CN110032724 A CN 110032724A CN 201811552497 A CN201811552497 A CN 201811552497A CN 110032724 A CN110032724 A CN 110032724A
- Authority
- CN
- China
- Prior art keywords
- word
- user
- cluster
- corpus
- intention assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供用户意图识别方法及装置。用户意图识别方法包括:将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别。其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理包括:针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。而且该意图识别模型具有高泛化能力且识别效率高,从而能够提高用户意图识别的准确性和效率。
Description
技术领域
本公开涉及计算机技术领域,具体地,涉及用于识别用户意图的方法及装置。
背景技术
目前针对各种不同的业务都有专门的客服工作。客服工作主要是对用户所提出的问题或需求等进行回应。传统的客服工作是由人工来回应用户的问题或所提出的要求。为了降低客服工作的人工成本,现有技术中已提出了智能客服***,智能客服***能够自动地对用户的问题或要求等进行回应。
在智能客服***中,用户意图识别是非常重要的环节。以物流服务为例,用户经常会对快递物流等信息进行提问,智能客服***收到用户问题后,首先要进行用户问题的意图识别。例如,识别用户是针对物流信息提问,还是纯粹的询问天气等状态,抑或是闲聊等。在智能客服***中,用户意图识别的准确度是决定智能客服***是否能做出的准确且有效率的回应的关键因素。
发明内容
鉴于上述,本公开提供了一种用于训练意图识别模型的方法及装置、用于识别用户意图的方法及装置。该方法和装置利用意图识别模型来识别待识别用户语句的意图,该意图识别模型利用经过词语替换处理的用户语料语句样本进行训练的,减少了需要训练的词语的数量,因而不仅能降低该意图识别模型的训练时间和训练开销,而且该意图识别模型具有高泛化能力且识别效率高,从而能够提高用户意图识别的准确性和效率。
根据本公开的一个方面,提供了一种用于识别用户意图的方法,包括:将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别。其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理包括:针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
可选的,在一个示例中,在将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别之前,所述方法还可以包括:针对所述经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。其中,将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别可以包括:将经过分词处理和词语替换处理后的待识别用户语句提供给意图识别模型来进行意图识别。
可选的,在一个示例中,所述词语聚类可以是基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类而得到的,所述至少一个词语聚类中的每个词语聚类具有聚类代表词语。
可选的,在一个示例中,基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类可以包括:基于所述各个词语的词向量,确定所述各个词语中的每个词语与所有其他词语之间的词语相似度;基于所确定的词语相似度来对所述各个词语进行聚类,以得到至少一个词语聚类;以及确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语。
可选的,在一个示例中,确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语可以包括:针对每个词语聚类,确定该词语聚类的中的各个词语距离聚类中心的距离;以及将该词语聚类中的距离聚类中心最近的词语确定为该词语聚类的聚类代表词语。
可选的,在一个示例中,确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语可以包括:针对每个词语聚类,统计该词语聚类中的各个词语在经过分词处理后的所述至少一个用户语料语句样本中的出现词频;以及将该词语聚类中的出现词频最高的词语确定为该词语聚类的聚类代表词语。
可选的,在一个示例中,所述相似度可以采用下述中的一种来表征:夹角余弦距离;欧式距离;以及曼哈顿距离。
可选的,在一个示例中,所述各个词语的词向量可以是通过使用词向量训练模型来对给定用户语料语句库进行词向量训练而得到的。
可选的,在一个示例中,所述给定用户语料语句库可以包括用于训练所述意图识别模型的至少一个用户语料语句样本。
可选的,在一个示例中,所述词向量训练模型可以包括cw2vec模型或者word2vec模型。
可选的,在一个示例中,所述意图识别模型可以包括梯度提升决策树或随机森林。
根据本公开的另一方面,还提供一种用于识别用户意图的装置,包括:意图识别单元,被配置为使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别。其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理包括:针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
可选的,在一个示例中,所述装置还可以包括:词语替换单元,被配置为在使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别之前,针对所述经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。所述意图识别单元被配置为:使用意图识别模型来对经过分词处理和词语替换处理后的待识别用户语句进行意图识别。
可选的,在一个示例中,所述词语聚类可以是基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类而得到的,所述至少一个词语聚类中的每个词语聚类具有聚类代表词语。
可选的,在一个示例中,所述各个词语的词向量可以是通过使用词向量训练模型来对给定用户语料语句库进行词向量训练而得到的。
根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于识别用户意图的方法。
根据本公开的另一方面,还提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于识别用户意图的方法。
利用本公开的用于识别用户意图的方法和装置,利用意图识别模型来识别待识别用户语句的用户意图,该意图识别模型利用经过词语替换处理的用户语料语句样本进行训练的,减少了需要训练的词语的数量,因而不仅能降低该意图识别模型的训练时间和训练开销,而且该意图识别模型具有高泛化能力且识别效率高,从而能够提高用户意图识别的准确性和效率。
利用本公开的用于识别用户意图的方法和装置,在对经过分词处理的待识别用户语句进行意图识别之前,利用聚类代表词语替换经过词语处理的待识别用户语句中的各个词语,经过替换处理后的待识别用户语句的语义更接近与其语义匹配的意图类别,从而能够提高意图识别模型的识别效率和准确度。
利用本公开的用于识别用户意图的方法和装置,通过基于各个词语之间的两两相似度对各个词语进行聚类,能够将在至少一个用户语料语句样本的语境中具有类似语义的词语聚类在同一词语聚类中,从而能够进一步确定具有类似语义的词语聚类的聚类代表词语。聚类代表词语可用于替换用户训练意图识别模型的用户语料语句样本中的词语,从而使需要训练的词语数量大幅下降。
利用本公开的用于识别用户意图的方法和装置,将距离各个词语聚类的聚类中心最近的词语确定为聚类代表词语,能够为各个词语聚类确定最能代表该词语聚类的语义的聚类代表词语,从而提高所训练的意图识别模型的识别准确度。
利用本公开的用于识别用户意图的方法和装置,将经过分词处理后的至少一个用户语料语句样本中的出现词频最高的词语确定为相应词语聚类的聚类代表词语,能够确定最适合相应业务语境的聚类代表词语,从而提高训练效率和所训练的意图识别模型的识别准确度。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1是用于训练本公开的意图识别方法中使用的意图识别模型的训练过程的流程图;
图2是根据本公开的一个实施例的用于识别用户意图的方法的流程图;
图3是用于获取根据本公开的一个实施例的用于识别用户意图的方法中的词语聚类的过程的流程图;
图4是用于确定根据本公开的一个实施例的用于识别用户意图的方法中的聚类代表词语的过程的一个示例的流程图;
图5是用于确定根据本公开的一个实施例的用于识别用户意图的方法中的聚类代表词语的过程的另一示例的流程图;
图6是根据本公开的一个实施例的用于识别用户意图的装置的结构框图;
图7是根据本公开的另一实施例的用于识别用户意图的装置的结构框图;
图8是根据本公开的一个实施例的用于训练意图识别模型的装置的结构框图;
图9是图8所示的用于训练意图识别模型的装置中的词语聚类单元的一个示例的结构框图;
图10是图9所示的用于训练意图识别模型的装置中的聚类代表词语确定模块的一个示例的结构框图;
图11是图9所示的用于训练意图识别模型的装置中的聚类代表词语确定模块的另一示例的结构框图;
图12是根据本公开的另一实施例的用于实现用于训练意图识别模型的方法的计算设备的结构框图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
现在结合附图来描述本公开的用于识别用户意图的方法及装置。
在一个实施例中,用于识别用户意图的方法(以下称为用户意图识别方法)将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别。其中,意图识别模型是利用至少一个用户语料语句样本来训练的。
利用意图识别模型可以输出经过分词处理后的待识别用户语句所对应的标准语句或意图类别。例如,对于“我的货物到哪里了”、“我的包裹到哪里了”、“我的物件到哪里了”,经过意图识别模型的识别之后,可以确定该三个待识别用户语句的意图均是“物流信息询问”。当意图识别模型用于智能客服***时,智能客服***能够根据意图识别模型所识别到的意图快速地做出回应。
图1是用于训练本公开的意图识别方法中使用的意图识别模型的训练过程的流程图。
如图1所示,在块110,对所收集的至少一个用户语料语句样本进行分词处理,各个用户语料语句样本是经过意图标注处理的用户语料语句样本。用户语料语句样本可以从相关业务领域内收集。例如,如果被训练的意图识别模型将被应用于物流领域,则可以收集用户针对物流所提出的问题或要求等相关语句作为用户语料语句样本。各个用户语料语句样本可以被标注为意图类别,例如在互联网业务场景下,意图类别可以是物流信息询问、商品咨询、退款投诉等。意图类别可以是从用户语料语句样本中总结出的。
在一个示例中,分词处理例如可以使用隐马尔可夫(HMM)模型、条件随机场等分词模型来实现。
在训练意图识别模型的过程中,块110的分词处理并不是必需的,当所获取的用户语料语句已经过分词处理时,训练过程可以不包括分词处理。
在块120,针对经过分词处理后的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
然后,在块130,将经过词语替换处理后和分词处理后的用户语料语句样本作为意图识别模型的输入,来训练所述意图识别模型。意图识别模型可以是GBDT(梯度提升决策树)模型、RF(随机森林)模型等任意能够实现有监督学习的模型。
经过替换处理后,在用户语料语句样本的语境中语义相近的词语被用同一个聚类代表词语替换,从而所有用户语料语句样本所包括的词语的数量被大幅降低,因而能够减轻在后续模型训练时的训练开销,并提高训练效率。此外,由此训练得到的意图识别模型关注的是每个词语聚类,而不是关注每个词语,从而能够提高意图识别模型的泛化能力,进而提高意图识别的准确性。
在将经过词语替换处理和分词处理后的用户语料语句样本输入意图识别模型之后,意图识别模型可以基于各个词语的词向量,将经过词语替换处理后的各个用户语料语句样本所包含的词语转换为词向量,以将经过分词处理后的用户语料语句样本词向量化。例如,如果某一用户语料语句样本被分词处理后为“AB|C|DE|F”,其各个词语的词向量相应地为:AB对应于[X11,X12,X13,X14,X15,X16]、C对应于[X21,X22,X23,X24,X25,X26]、DE对应于[X31,X32,X33,X34,X35,X36]、F对应于[X41,X42,X43,X44,X45,X46]。则被词向量化的“AB|C|DE|F”可以被表示为:[[X11,X12,X13,X14,X15,X16],[X21,X22,X23,X24,X25,X26],[X31,X32,X33,X34,X35,X36],[X41,X42,X43,X44,X45,X46]]。
意图识别模型可以在将用户语料语句样本词向量化后,基于词量化后的用户语料语句样本来执行分类训练。
图2是根据本公开的一个实施例的用于识别用户意图的方法的流程图。
如图2所示,在块210,针对经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。在一个示例中,词语聚类和各个词语聚类的聚类代表词语可以是与意图识别模型的训练过程使用同样的词语聚类和每个词语聚类的聚类代表词语。
在用聚类代表词语替换待识别用户语句中的各个词语之后,在块220,将经过分词处理和词语替换处理后的待识别用户语句提供给意图识别模型来进行意图识别。
通过对待识别用户语句进行聚类代表词语替换,能够提高意图识别模型的识别效率。在有大量客户同时提出问题或要求时,有助于提高***的回应速度。
上述实施例中的词语聚类可以是对给定语料库中的词语进行聚类而得到的至少一个词语聚类。在一个示例中,可以对至少一个用户语料语句样本进行聚类而得到至少一个词语聚类。该至少一个词语聚类中的每个词语聚类具有聚类代表词语。聚类代表词语可以是在聚类过程中确定的,还可以是在执行聚类过程之后,根据已获得的词语聚类确定的。聚类代表词语为能够代表相应词语聚类中的所有词语的语义的词语。
例如,在物流业务场景下,假设所收集的至少一个用户语料语句样本中包括如下用户语料语句样本:我的货物到哪里了、我的包裹到哪里了、我的物件到哪里了。可以获知在至少一个用户语料语句样本的语境中,“货物”、“包裹”、“物件”的语义是相近的,因而这三个词语在聚类操作时将被聚类到一个词语聚类中,该词语聚类的聚类代表词语可以是上述词语的任意一个词语。
在一个示例中,词语聚类和各个词语聚类的聚类代表词语可以是在意图识别模型的训练过程中,对至少一个用户语料语句样本中的各个词语进行聚类而得到的。
在另一示例中,也可以单独对给定语料库进行聚类而得到至少一个词语聚类。然后可以将所得到的词语聚类应用到本公开的意图识别方法或意图识别模型的训练过程中。该给定语料库可以包括所述至少一个用户语料语句样本。
在另一示例中,还可以在意图识别模型的训练过程中,基于随机初始化的词语聚类,利用已被输入的用户语句语料样本来调整已有的词语聚类,并更新每个词语聚类的聚类代表词语。
图3是用于获得本公开的用于识别用户意图的方法中使用的词语聚类的聚类过程的一个示例的流程图。
如图3所示,在对各个词语进行聚类的过程中,在块310,基于各个词语的词向量,确定各个词语中的每个词语与所有其他词语之间的词语相似度。词语与词语之间的相似度可以采用下述中的一种来表征:夹角余弦距离、欧式距离、曼哈顿距离。
各个词语的词向量可以从已有的词向量集中获得。还可以利用词向量训练模型对给定语料库进行词向量训练,以得到各个词语的词向量。给定语料库例如可以是经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本。词向量训练模型可以采用基于cw2vec算法的cw2vec模型,还可以采用基于word2vec算法的word2vec模型。经过词向量训练后所得到的各个词语的词向量可以构成词向量集,通过查找该词向量集可以查找到每个词语的词向量。
确定出各词语之间的相似度后,在块320,基于所确定的词语相似度来对所述各个词语进行聚类,以得到至少一个词语聚类。
聚类过程还可以利用K均值算法、LVQ(学习向量量化)算法、高斯混合聚类算法等方法实现。
在得到各个词语聚类后,在块330,确定至少一个词语聚类中的每个词语聚类的聚类代表词语。能够用于实现聚类的算法中,采用某些算法执行聚类时,聚类结束时每个词语聚类的中心词是已确定的。当采用另外某些算法进行聚类时,聚类过程产生的聚类中心是虚拟中心,即聚类中心不是实际存在的词语。在此种情形下可以采用如图4-5所示的方法确定聚类代表词语。
图4是用于确定本公开的用于识别用户意图的方法中使用的聚类代表词语的过程的一个示例的流程图。
如图4所示,在块410,针对每个词语聚类,确定该词语聚类的中的各个词语距离聚类中心的距离。各个词语距离聚类中心的距离也可以用如上所述的夹角余弦距离、欧式距离、曼哈顿距离中任一者来表征。
在块420,将该词语聚类中的距离聚类中心最近的词语确定为该词语聚类的聚类代表词语。通过确定各个词语聚类中的各个词语距离该词语聚类的聚类中心的距离,然后将距离聚类中心最近的词语确定为该词语聚类的聚类代表词语,能够为每个词语聚类确定聚类代表词语。由此,能够确定出最能代表各个词语聚类的语义类别的聚类代表词语。
图5是用于确定根据本公开的用于识别用户意图的方法中使用的聚类代表词语的过程的另一示例的流程图。
如图5所示,在块510,可以针对每个词语聚类,统计该词语聚类中的各个词语在经过分词处理后的至少一个用户语料语句样本中的出现词频。
在统计得出各个词语的出现词频后,在块520,将该词语聚类中的出现词频最高的词语确定为该词语聚类的聚类代表词语。各词语聚类中的词语的出现词频越高,越能够代表该词语聚类中所有词语的语义。此外,出现词频最高的词语与意图类别之间的关联性更强。因而将出现词频最高的词语确定为相应词语聚类的聚类代表词语能够提高所训练的意图识别模型的识别准确率。
图6是根据本公开的一个实施例的用于识别用户意图的装置(以下称为用户意图识别装置)600的结构框图。如图6所示,用户意图识别装置600包括词语替换单元610和意图识别单元620。
词语替换单元610被配置为在使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别之前,针对经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。词语聚类可以是通过图3所示的聚类过程获得的。各个词语聚类的聚类代表词语可以是通过图4-5所示的过程确定的。
意图识别单元620被配置为使用意图识别模型来对经过词语替换处理和分词处理后的待识别用户语句进行意图识别。意图识别模型可以是利用图1所示的意图识别模型训练过程来训练的。
虽然图6中示出了词语替换单元,但是对于本公开的意图识别装置,词语替换单元并不是必需的,在另一示例中可以不包括词语替换单元。在该示例中,意图识别单元使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别。
图7是根据本公开的另一实施例的用户意图识别装置700的结构框图。如图7所示,用户意图识别装置700包括分词处理单元710、词语替换单元720和意图识别单元740。
分词处理单元710被配置为对待识别用户语句进行分词处理。在对待识别用户语句进行分词处理后,词语替换单元720可以针对经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。意图识别单元730被配置为使用意图识别模型来对经过词语替换处理和分词处理后的待识别用户语句进行意图识别。词语聚类可以是基于经过分词处理后的至少一个用户语料语句样本得到的,并且具有聚类代表词语。
虽然图7中的示例示出了分词处理单元,但图7的示例针对的是待识别用户语句未经过分词处理的情形。在另一示例中,本公开的用户意图识别方法可以不包括分词处理单元。在该情形下,可以直接获取已经过分词处理后的待识别用户语句。
本公开的一个实施例还提供了用于训练意图识别模型的装置(下文称为意图识别模型训练装置)。图8是根据本公开的一个实施例的意图识别模型训练装置800的结构框图。如图8所示,意图识别模型训练装置800包括分词处理单元810、词向量训练单元820、词语聚类单元830、词语替换单元840和模型训练单元850。
分词处理单元810被配置为对所收集的至少一个用户语料语句样本中的各个用户语料语句样本进行分词处理。各个用户语料语句样本是经过意图识别标注处理的用户语料语句样本。在进行分词处理后,词向量训练单元820被配置为利用词向量训练模型对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本进行词向量训练,以得到经过分词处理后的各个用户语料语句样本的各个词语的词向量。
词语聚类单元830基于各个词语的词向量,将各个词语聚类为至少一个词语聚类。所得到的至少一个词语聚类中的每个词语聚类具有聚类代表词语。在聚类处理之后,词语替换单元840针对经过分词处理后的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。然后,模型训练单元850将各个词语的词向量以及经过词语替换处理后的各个经过分词处理后的用户语料语句样本作为意图识别模型的输入,来训练所述意图识别模型。
虽然图8中的示例包括了分词处理单元,但图8的示例针对的是用户语料语句样本未经过分词处理的情形。在另一示例中,本公开的用户意图识别模型训练装置可以不包括分词处理单元。在该情形下,词向量训练单元可以直接获取已经过分词处理后的用户语料语句样本。
此外,另一示例的意图识别模型训练装置可以不包括词向量训练单元和词语聚类单元。此时,意图识别模型训练装置可以获取已有的词向量集和词语聚类及相应的聚类代表词语来执行训练。
图9是图8所示的意图识别模型训练装置800中的词语聚类单元830的一个示例的结构框图。
如图9所示,词语聚类单元830包括词语相似度确定模块831、词语聚类模块832和聚类代表词语确定模块833。词语相似度确定模块831被配置为基于各个词语的词向量,确定各个词语中的每个词语与所有其他词语之间的词语相似度。在确定出各个词语之间的相似度之后,词语聚类模块832可以基于所确定出的词语相似度,对各个词语进行聚类,以得到至少一个词语聚类。聚类代表词语确定模块833被配置为确定至少一个词语聚类中的每个词语聚类的聚类代表词语。
图10是图9所示的意图识别模型训练装置800中的聚类代表词语确定模块833的一个示例的结构框图。
如图10所示,在该示例中,聚类代表词语确定模块833可以包括距离确定子模块8331和聚类代表词语确定子模块8332。距离确定子模块8331被配置为针对每个词语聚类,确定该词语聚类中的各个词语距离聚类中心的距离。确定各个词语距离聚类中心的距离后,聚类代表词语确定子模块8332可以将每个词语聚类中的距离聚类中心最近的词语确定为该词语聚类的聚类代表词语。
图11是图9所示的意图识别模型训练装置800中的聚类代表词语确定模块833的另一示例的结构框图。
如图11所示,在该示例中,聚类代表词语确定模块833可以包括词频统计子模块8333和聚类代表词语确定子模块8334。词频统计子模块8333被配置为针对每个词语聚类,统计该词语聚类中的各个词语在经过分词处理后的至少一个用户语料语句样本中的出现词频。然后,聚类代表词语确定子模块8334可以将每个词语聚类中的出现词频最高的词语确定为该词语聚类的聚类代表词语。
如上参照图1-7,对根据本公开的用于识别用户意图的方法及装置的实施例进行了描述。应当理解的是,以上对于方法实施例的细节描述同样适用于装置实施例。以上的用于识别用户意图的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图12是根据本公开的另一实施例的用于实现用于识别用户意图的方法的计算设备1200的结构框图。如图12所示,计算设备1200可以包括至少一个处理器1210、存储器1220、内存1230、通信接口1240以及内部总线1250,该至少一个处理器1210执行在计算机可读存储介质(即,存储器1220)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器1220中存储计算机可执行指令,其当执行时使得至少一个处理器1210:将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别,其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理是针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
应该理解,在存储器1220中存储的计算机可执行指令当执行时使得至少一个处理器1210进行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。
根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-7描述的各种操作和功能。
具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (17)
1.一种用于识别用户意图的方法,包括:
将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别,
其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理包括:针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
2.如权利要求1所述的方法,在将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别之前,所述方法还包括:
针对所述经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换,
其中,将经过分词处理后的待识别用户语句提供给意图识别模型来进行意图识别包括:
将经过分词处理和词语替换处理后的待识别用户语句提供给意图识别模型来进行意图识别。
3.如权利要求1或2所述的方法,其中,所述词语聚类是基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类而得到的,所述至少一个词语聚类中的每个词语聚类具有聚类代表词语。
4.如权利要求3所述的方法,其中,基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类包括:
基于所述各个词语的词向量,确定所述各个词语中的每个词语与所有其他词语之间的词语相似度;
基于所确定的词语相似度来对所述各个词语进行聚类,以得到至少一个词语聚类;以及
确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语。
5.如权利要求4所述的方法,其中,确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语包括:
针对每个词语聚类,
确定该词语聚类的中的各个词语距离聚类中心的距离;以及
将该词语聚类中的距离聚类中心最近的词语确定为该词语聚类的聚类代表词语。
6.如权利要求4所述的方法,其中,确定所述至少一个词语聚类中的每个词语聚类的聚类代表词语包括:
针对每个词语聚类,
统计该词语聚类中的各个词语在经过分词处理后的所述至少一个用户语料语句样本中的出现词频;以及
将该词语聚类中的出现词频最高的词语确定为该词语聚类的聚类代表词语。
7.如权利要求3所述的方法,所述相似度采用下述中的一种来表征:
夹角余弦距离;
欧式距离;以及
曼哈顿距离。
8.如权利要求3所述的方法,其中,所述各个词语的词向量是通过使用词向量训练模型来对给定用户语料语句库进行词向量训练而得到的。
9.如权利要求8所述的方法,其中,所述给定用户语料语句库包括用于训练所述意图识别模型的至少一个用户语料语句样本。
10.如权利要求8所述的方法,其中,所述词向量训练模型包括cw2vec模型或者word2vec模型。
11.如权利要求1或2所述的方法,其中,所述意图识别模型包括梯度提升决策树或随机森林。
12.一种用于识别用户意图的装置,包括:
意图识别单元,被配置为使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别,
其中,所述意图识别模型是利用经过分词处理和词语替换处理的至少一个用户语料语句样本来训练的,所述用户语料语句样本是经过意图标注处理后的用户语料语句样本,以及针对所述用户语料语句样本的词语替换处理包括:针对经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换。
13.如权利要求12所述的装置,还包括:
词语替换单元,被配置为在使用意图识别模型来对经过分词处理后的待识别用户语句进行意图识别之前,针对所述经过分词处理后的待识别用户语句中的每个词语,利用该词语所属词语聚类的聚类代表词语来进行替换,以及
所述意图识别单元被配置为:使用意图识别模型来对经过分词处理和词语替换处理后的待识别用户语句进行意图识别。
14.如权利要求12所述的装置,其中,所述词语聚类是基于经过分词处理后的至少一个用户语料语句样本中的各个用户语料语句样本中的各个词语的词向量,对所述各个词语进行聚类而得到的,所述至少一个词语聚类中的每个词语聚类具有聚类代表词语。
15.如权利要求14所述的装置,其中,所述各个词语的词向量是通过使用词向量训练模型来对给定用户语料语句库进行词向量训练而得到的。
16.一种计算设备,包括:
至少一个处理器,
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到11中任一所述的方法。
17.一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811552497.2A CN110032724B (zh) | 2018-12-19 | 2018-12-19 | 用于识别用户意图的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811552497.2A CN110032724B (zh) | 2018-12-19 | 2018-12-19 | 用于识别用户意图的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110032724A true CN110032724A (zh) | 2019-07-19 |
CN110032724B CN110032724B (zh) | 2022-11-25 |
Family
ID=67235327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811552497.2A Active CN110032724B (zh) | 2018-12-19 | 2018-12-19 | 用于识别用户意图的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110032724B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046654A (zh) * | 2019-11-14 | 2020-04-21 | 深圳市优必选科技股份有限公司 | 一种语句识别方法、语句识别装置及智能设备 |
CN111125360A (zh) * | 2019-12-19 | 2020-05-08 | 网易(杭州)网络有限公司 | 游戏领域的情感分析方法、装置及其模型训练方法、装置 |
CN111191442A (zh) * | 2019-12-30 | 2020-05-22 | 杭州远传新业科技有限公司 | 相似问题生成方法、装置、设备及介质 |
CN112395390A (zh) * | 2020-11-17 | 2021-02-23 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
CN112905872A (zh) * | 2019-11-19 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN107688614A (zh) * | 2017-08-04 | 2018-02-13 | 平安科技(深圳)有限公司 | 意图获取方法、电子装置及计算机可读存储介质 |
CN107798032A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 自助语音会话中的应答消息处理方法和装置 |
US10049148B1 (en) * | 2014-08-14 | 2018-08-14 | Medallia, Inc. | Enhanced text clustering based on topic clusters |
-
2018
- 2018-12-19 CN CN201811552497.2A patent/CN110032724B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US10049148B1 (en) * | 2014-08-14 | 2018-08-14 | Medallia, Inc. | Enhanced text clustering based on topic clusters |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
CN107798032A (zh) * | 2017-02-17 | 2018-03-13 | 平安科技(深圳)有限公司 | 自助语音会话中的应答消息处理方法和装置 |
CN107688614A (zh) * | 2017-08-04 | 2018-02-13 | 平安科技(深圳)有限公司 | 意图获取方法、电子装置及计算机可读存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046654A (zh) * | 2019-11-14 | 2020-04-21 | 深圳市优必选科技股份有限公司 | 一种语句识别方法、语句识别装置及智能设备 |
CN111046654B (zh) * | 2019-11-14 | 2023-12-29 | 深圳市优必选科技股份有限公司 | 一种语句识别方法、语句识别装置及智能设备 |
CN112905872A (zh) * | 2019-11-19 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和可读存储介质 |
CN112905872B (zh) * | 2019-11-19 | 2023-10-13 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和可读存储介质 |
CN111125360A (zh) * | 2019-12-19 | 2020-05-08 | 网易(杭州)网络有限公司 | 游戏领域的情感分析方法、装置及其模型训练方法、装置 |
CN111125360B (zh) * | 2019-12-19 | 2023-10-20 | 网易(杭州)网络有限公司 | 游戏领域的情感分析方法、装置及其模型训练方法、装置 |
CN111191442A (zh) * | 2019-12-30 | 2020-05-22 | 杭州远传新业科技有限公司 | 相似问题生成方法、装置、设备及介质 |
CN111191442B (zh) * | 2019-12-30 | 2024-02-02 | 杭州远传新业科技股份有限公司 | 相似问题生成方法、装置、设备及介质 |
CN112395390A (zh) * | 2020-11-17 | 2021-02-23 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
CN112395390B (zh) * | 2020-11-17 | 2023-07-25 | 平安科技(深圳)有限公司 | 意图识别模型的训练语料生成方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110032724B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032724A (zh) | 用于识别用户意图的方法及装置 | |
WO2018157805A1 (zh) | 一种自动问答处理方法及自动问答*** | |
WO2020077895A1 (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
US20180218069A1 (en) | Massive scale heterogeneous data ingestion and user resolution | |
CN111325037B (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
JP6894534B2 (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
US8577155B2 (en) | System and method for duplicate text recognition | |
CN110083623B (zh) | 一种业务规则生成方法及装置 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN103793447B (zh) | 音乐与图像间语义相似度的估计方法和估计*** | |
CN107844533A (zh) | 一种智能问答***及分析方法 | |
JP2004139222A (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN109871437B (zh) | 用于用户问题语句处理的方法及装置 | |
CN106934005A (zh) | 一种基于密度的文本聚类方法 | |
US11553085B2 (en) | Method and apparatus for predicting customer satisfaction from a conversation | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
Sihombing et al. | Fake review detection on yelp dataset using classification techniques in machine learning | |
CN107704869B (zh) | 一种语料数据抽样方法及模型训练方法 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
US20140037154A1 (en) | Automatically determining a name of a person appearing in an image | |
CN109508557A (zh) | 一种关联用户隐私的文件路径关键词识别方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN114996360B (zh) | 数据分析方法、***、可读存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |