CN111859984B - 意图挖掘方法、装置、设备及存储介质 - Google Patents
意图挖掘方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111859984B CN111859984B CN202010714921.XA CN202010714921A CN111859984B CN 111859984 B CN111859984 B CN 111859984B CN 202010714921 A CN202010714921 A CN 202010714921A CN 111859984 B CN111859984 B CN 111859984B
- Authority
- CN
- China
- Prior art keywords
- intention
- corpus
- labeled
- role
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种意图挖掘方法、装置、设备及存储介质,用于保险业务领域的用户意图挖掘。该方法包括:从用户语料库中获取原始语料文本;通过意图角色标注模型对原始语料文本进行意图角色标注,得到标注语段和对应的角色类型标注;对标注语段进行聚类,得到包含至少两个语段组的语段组群以及语段组对应的概念;根据意图构建规则,对语段组的所有概念相互组合,获得与原始语料文本对应的概念组合;基于概念组合确定用户意图。本发明通过对文本中各语段进行标注,根据标注和语义进行聚类,根据聚类结果构建与文本对应的用户意图,准确度高。此外,本发明还涉及区块链技术,标注语段和角色类型间的对应关系可存储于区块链中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种意图挖掘方法、装置、设备及存储介质。
背景技术
当前,问答引擎机器人已经在国内运用于保险等多个金融领域。然而,搭建这样一个成熟覆盖面广的机器人***却往往需要耗费很长时间。其中很重要的一个部分是对话***中的问句语义理解或者说语义分类,而语义分类的前提就是意图挖掘。
保险领域的意图挖掘耗费时间过长,主要是因为保险等金融领域有着较多的专业术语和专业领域的实体名词(例如保险名称,保险种类等)。这些专业词汇往往还有多种不同的缩写、常用表述、网络表述等等。可见,在如此数量庞大而不同于日常用语的词汇库,以及保险业务的多样化的现状下,单独搭建的意图挖掘方法已经不能直接使用其他开源的工具库和语料库来实现了。
针对于上述问题,目前常用的意图挖掘方法是通过构建知识图谱,在知识图谱某些关键特征和节点上预先假定用户有这方面的疑问,而人为设定出用户意图。由于构建在知识图谱基础上,这种意图挖掘出来本身分类很清晰,但是这种方式与用户语境有一定的背离,往往截取片面信息来进行意图的挖掘,这样会使得挖掘出的意图不准确。
发明内容
本发明的主要目的在于解决现有的意图挖掘方式挖掘不全面,导致意图的精准度较低的技术问题。
本发明第一方面提供了一种意图挖掘方法,包括:
从用户语料库中获取原始语料文本;
通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;
将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
对所述语段组进行概念的推导,得到所述语段组对应的概念;
根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
基于所述概念组合确定所述原始语料文本对应的用户意图。
可选的,在本发明第一方面的第一种实现方式中,所述通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合包括:
利用分词算法对所述原始文本语料进行分词处理,得到字序列;
通过所述意图角色标注模型对所述字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
筛选所述标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合。
可选的,在本发明第一方面的第二种实现方式中,所述将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群包括:
将所述标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果;
根据所述聚类结果,对各角色类型下的标注语段进行分组,得到包含至少两个语段组的语段组群,其中,所述语段组中包含多个含义类似的标注语段。
可选的,在本发明第一方面的第三种实现方式中,所述计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果包括:
设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心,其中,k为大于2的整数;
分别计算所述每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
计算所述组群中标注词向量的均值向量,并根据所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将所述第一聚类结果输出;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到第二聚类结果。
可选的,在本发明第一方面的第四种实现方式中,所述对所述语段组进行概念的推导,得到所述语段组对应的概念包括:
构建每个语段组中标注语段间的语义网络关系;
从每个语段组构建的语义网络关系中抽取出现频率最高的标注语段;
将所述出现频率最高的标注语段对应的文本作为语段组的概念。
可选的,在本发明第一方面的第五种实现方式中,所述角色类型包括疑问类、动作类、状况类、背景类和槽位类。
可选的,在本发明第一方面的第六种实现方式中,所述基于所述概念组合确定所述原始语料文本对应的用户意图包括:
识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,所述意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
提取每个意图组中的意图模板客体的组成成分,所述意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
将所述意图模板主体中每个角色类型对应的概念和所述意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
本发明第二方面提供了一种意图挖掘装置,包括:
获取模块,用于从用户语料库中获取原始语料文本;
标注模块,用于通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;
分类模块,用于将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
概念推导模块,用于对所述语段组进行概念的推导,得到所述语段组对应的概念;
组合模块,根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
意图确定模块,用于基于所述概念组合确定所述原始语料文本对应的用户意图。
可选的,在本发明第二方面的第一种实现方式中,所述标注模块具体用于:
利用分词算法对所述原始文本语料进行分词处理,得到字序列;
通过所述意图角色标注模型对所述字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
筛选所述标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合。
可选的,在本发明第二方面的第二种实现方式中,所述分类模块包括:
向量转化单元,用于将所述标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
聚类单元,用于计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果;
分组单元,用于根据所述聚类结果,对各角色类型下的标注语段进行分组,得到包含至少两个语段组的语段组群,其中,所述语段组中包含多个含义类似的标注语段。
可选的,在本发明第二方面的第三种实现方式中,所述聚类单元具体用于:
设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心,其中,k为大于2的整数;
分别计算所述每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
计算所述组群中标注词向量的均值向量,并根据所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将所述第一聚类结果输出;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到第二聚类结果。
可选的,在本发明第二方面的第四种实现方式中,所述概念推导模块具体用于:
构建每个语段组中标注语段间的语义网络关系;
从每个语段组构建的语义网络关系中抽取出现频率最高的标注语段;
将所述出现频率最高的标注语段对应的文本作为语段组的概念。
可选的,在本发明第二方面的第五种实现方式中,所述角色类型包括疑问类、动作类、状况类、背景类和槽位类。
可选的,在本发明第二方面的第六种实现方式中,所述意图确定模块具体用于:
识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,所述意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
提取每个意图组中的意图模板客体的组成成分,所述意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
将所述意图模板主体中每个角色类型对应的概念和所述意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
本发明第三方面提供了一种意图挖掘设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述意图挖掘设备执行上述的意图挖掘方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的意图挖掘方法。
本发明提供的技术方案中,获取用户语料库中的原始语料文本;通过意图角色标注模型对原始语料文本进行意图角色标注,得到标注语段和对应的角色类型标注;对标注语段进行聚类,得到包含至少两个语段组的语段组群以及所述语段组对应的概念;根据预设的意图构建规则,对语段组的所有概念相互组合,获得与原始语料文本对应的概念组合;基于概念组合确定用户意图。基于概念组合确定用户意图。本发明通过对文本中各语段进行标注,根据标注和语义进行聚类,根据聚类结果构建与文本对应的用户意图,准确度高,以便根据挖掘的意图信息,为用户提供相应的搜索服务,大大提升了用户的用户体验。
附图说明
图1为本发明实施例中意图挖掘方法的第一个实施例示意图;
图2为本发明实施例中意图挖掘方法的第二个实施例示意图;
图3为本发明实施例中意图挖掘方法的第三个实施例示意图;
图4为本发明实施例中意图挖掘方法的第四个实施例示意图;
图5为本发明实施例中意图挖掘方法的第五个实施例示意图;
图6为本发明实施例中意图挖掘方法的流程示意图;
图7为本发明实施例中意图挖掘装置的一个实施例示意图;
图8为本发明实施例中意图挖掘装置的另一个实施例示意图;
图9为本发明实施例中意图挖掘设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种意图挖掘方法、装置、设备及存储介质,本发明的技术方案中,通过将获取到的用户语料库中的原始语料文本通过意图角色标注模型进行意图角色标注,得到标注语段和对应的角色类型标注;对标注语段进行聚类,得到包含至少两个语段组的语段组群以及所述语段组对应的概念;根据预设的意图构建规则,对语段组的所有概念相互组合,获得与原始语料文本对应的概念组合;基于概念组合确定用户意图。本发明能够通过意图角色标注,能过对文本中各语段进行分类,同时将多个文本的多个语段进行聚类,再从中选择出现频率最多的语段为聚类的语段组的概念,并将概念根据文本进行组合,就能精准地挖掘用户的意图信息,大大提升了用户的用户体验。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中意图挖掘方法的第一个实施例包括:
101、从用户语料库中获取原始语料文本;
可以理解的是,本发明的执行主体可以为意图挖掘装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。需要强调的是,为进一步保证上述原始语料文本的私密和安全性,上述原始语料文本还可以存储于一区块链的节点中。
在该步骤,所述用户语料库中的原始语料文本可以是之前通过客户端或者通过业务人员向用户提供的网页收集的,其中,网页获取的方式,可以是在所述用户登陆所述网页时,开始监听页面通讯内容,获得用户在所述网页的聊天窗口中输入的语料文本;客户端的方式,可以是当用户登陆客户端时,通过Hook技术的专用采集工具监听获取聊天内容,在通过上述两种方法获得语料文本后,将用户发送的语料文本自动生成HTML文件,然后将文件内容解析存入Elasticsearch中作为原始语料文本供后续使用。通过将用户的聊天内容自动生成HTML文件的方式主要是为了可以和通用网站的格式保持一致,方便与***进行整合。
在实际应用中,所述原始语料文本还可以为用户在使用通讯工具时用户的发送的自然语言文本,所述通讯工具可以是一些企业app等即时通讯工具。
102、通过预设的意图角色标注模型对原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,标注语段包括字序列和角色类型的标注;
在该步骤中,通过预置的意图角色标注模型,对所述问句语料中的每个字进行语义标注,根据标注体系的不同,可以有不同的标注方式,其中所述标注体系有BIOES体系,BIO体系等。这些标注体系都是以单个或间断的英文字符串在待标注的文本上进行编码。BIOES是将标注的类型分为“begin”、“intermediate”、“other”、“end”和“single”,而BIO体系是分为“begin”、“intermediate”和“other”。而每个大的标注下还可分为小标注。本方案用到的标注体系是BIO体系。
在本方案中,这些小标注就是角色类型标注,包括question(疑问词)、action(动作)、problem(状况)、background(背景信息)和slot(槽位),其中所述question(疑问词)代表用户核心行为疑问词,变现具体询问哪方面,action(动作)代表用户的核心行为意图,多为动词,problem(状况)代表用户遇到的状况或者不符合期望的状况,background(背景信息)代表背景情况,一般是可以省略的非关键信息,slot(槽位)代表用户具体询问的对象,对于问句语料“我的平安福明天到期,我要还款,可是找不到还款页面,怎么还?”进行意图角色标注,则其中“还款”标注为action(动作),“怎么”标注为question(疑问词),“找不到还款界面”标注为problem(状况),“平安福”标注为slot(槽位),“明天到期”标注为background(背景信息)。
以BIO标注体系为例进行说明,如训练语句中的“身份证”一词,可被标注为“身”[B-slot]“份”[I-slot]“证”[I-slot]。而该词前面的“我”被标注为[O],后面的“丢失”被标注为“丢”[B-action]“失”[I-action]。
103、将标注语段集合中的各标注语段转化为标注词向量,并基于标注词向量将标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
在该步骤中,聚类是一个将先验知识不足且不确定的样本数据划分为若干个类的特殊分类过程,划分的依据是将含义相似程度较大的数据记录划分到同一个组群中,同时的处于不同分组中的数据记录中间的相异程度最大化。是一种研究(样本或指标)分类问题的统计分析方法。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在该步骤中,可以利用Word2vec等方法分别将每个标注语段转换成词向量的形式,再计算两个词向量之间的距离,其中距离的计算方式可以是欧式距离、余弦距离或马氏距离,在本实施例中,使用的是余弦距离算法进行计算,根据所有标注语段对应词向量的余弦距离,对所述标注语段进行聚类,确定聚类结果,比如,原始语料文本对应的标注语段共有n个,M1,M2,M3...Mn分别计算各个标注语段对应词向量两两之间的余弦相似度,根据余弦距离,对样本数据进行聚类,获取聚类结果,得到多个组群,也就是将类似含义的短语放在一起。
104、对语段组进行概念的推导,得到语段组对应的概念;
在实际应用中,通过概念推导,得出语段组对应的概念,例如语段组中含有标注语段10个“更改”,20个“修改”,15个“变更”,则将“修改”作为该语段组中最具代表性的标注语段,将对应的文本作为能够代表该语段组的概念。
105、根据预设的意图构建规则,对语段组群的所有概念相互组合,获得与原始语料文本对应的概念组合,意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
在本实施例中,通过用户语料库可以获取到多条原始语料文本,将这所有的原始语料文本一起放入意图角色标注模型之后,每条原始语料文本有可以获得多个标注语段,将所有原始语料文本生成的标注语段进行聚类后并得到语段组后,定义每个组的概念,则在开始从用户语料库中获取的原始语料文本的每个标注语段都有自己的概念,例如,对于原始语料文本“我的身份证有效期如何变更?”中,“身份证有效期”对应的概念是“登记证件”“如何”对应的概念是“怎么”,“变更”对应的概念是“更改”,则“我的身份证有效期如何变更?”与“登记证件”“怎么”“更改”,根据对应关系,将“登记证件”“怎么”“更改”这三个概念组成一个与原始语料文本对应的概念组合。
106、基于概念组合确定原始语料文本对应的用户意图。
在本实施例中,可以根据不同的意图归类规则,对所述概念组合进行归类,例如对于原始文件语料“我的身份证有效期明天到期,如何变更?”中“身份证有效期”对应的概念是“登记证件”,“明天到期”对应的概念是“时间背景”,“如何”对应的概念是“怎么”,“变更”对应的概念是“更改”,则获得概念组合“登记证件”“时间背景”“怎么”“更改”,而原始语料“我的身份证信息怎么更改?”中“身份证信息”对应的概念是“登记证件”,“怎么”对应的概念是“怎么”,“更改”对应的概念是“更改”,两个概念组合只有一个“时间背景”概念的差别,这个时候,可以将两个概念组合归为一类,并将这一类概念组合定义为一个意图,如上述的两个原始语料文本“我的身份证有效期明天到期,如何变更?”和“我的身份证信息怎么更改?”归纳为意图“修改登记证件”。
在本实施例中,通过意图角色标注模型对原始语料文本进行意图角色标注,得到标注语段和对应的角色类型标注;对标注语段进行聚类,得到包含至少两个语段组的语段组群以及所述语段组对应的概念;根据预设的意图构建规则,对语段组的所有概念相互组合,获得与原始语料文本对应的概念组合;基于概念组合确定用户意图。基于概念组合确定用户意图。本发明通过对文本中各语段进行标注,根据标注和语义进行聚类,根据聚类结果构建与文本对应的用户意图,准确度高,以便根据挖掘的意图信息,为用户提供相应的搜索服务,大大提升了用户的用户体验。
请参阅图2,本发明实施例中意图挖掘方法的第二个实施例包括:
201、从用户语料库中获取原始语料文本;
202、利用分词算法对原始文本语料进行分词处理,得到字序列;
在本实施例中,在获取到所述原始语料文本后,根据分词算法对原始语料文本进行分字,也就是说,将原始语料文本中的每个字分割开来,其中,分割后的每个字的通过与原始语料文本进行比对确定位置顺序,由位置顺序确定字序列,字序列包含字以及每个字的顺序,例如,对原始语料文本“我的平安福”,分字后得到“的”“平”“我”“福”“安”,五个字,通过与原始语料文本进行比对,确定字序列为“我”“的”“平”“安”“福”,将字序列根据输入到意图角色标注模型中,意图角色标注模型会对输入其中的每个字进行标注,例如,对问句语料中的“我的平安福”,按照“我”“的”“平”“安”“福”的顺序输入到意图角色标注模型中进行标注。
203、通过意图角色标注模型对字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
在本实施例中,通过少量的人工标注训练样本进行训练,可以是使用BERT模型,得到大量的模型标注结果后,使用CRF++等速度较快的模型进行建模,得到语义角色标注模型,将所述原始语料文本输入到该意图角色标注模型后,所述意图角色标注模型会对所述原始语料文本进行自动标注。
204、筛选标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合;
在本实施例中,在该步骤中,通过所述意图角色标注模型对原始语料文本中的每个字进行标注,例如,对于原始语料文本“我的平安福明天到期,我要还款,可是找不到还款界面,怎么还?”进行标注,“我的平安福明天到期”标注结果为:'我|O','的|O','平|B-slot','安|I-slot','福|I-slot','明|B-background','天|I-background','到|I-background','期|I-background',其中“平”标注为[B-slot],含有起始标注“B”,则向后连接相同的角色类型为slot的其他标注词,当遇到不同角色类型时,则连接结束,得到一个标注语段'平|B-slot','安|I-slot','福|I-slot'。
205、将标注语段集合中的各标注语段转化为标注词向量,并基于标注词向量将标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
206、对语段组进行概念的推导,得到语段组对应的概念;
207、根据预设的意图构建规则,对语段组群的所有概念相互组合,获得与原始语料文本对应的概念组合并确定用户意图。
在本实施例中,意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
本发明实施例在上一实施例的基础上,详细描述了意图角色标注模型对原始语料文本进行角色标注的过程,在标注过程中需先将问句短语进行分字处理,再根据每个字在问句语料中的位置,确定问句语料中每个字输入到语义标注模型的顺序,语义标注模型对每个字进行角色类型标注后,将字序连续且角色类型相同的子组合成标注语段,由于标注语段中每个字的角色类型都是相同的,进而也就能够确定了标注语段的角色类型,通过本方案,能够快速对每个字进行标注,同时得到标注语段。
请参阅图3,本发明实施例中意图挖掘方法的第三个实施例包括:
301、通过预设的意图角色标注模型对原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合;
在该步骤中,标注语段包括字序列和角色类型的标注。
该步骤与第一实施例中的步骤102相似,此处不再赘述。
302、将标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
303、设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心;
在该步骤中,在计算余弦距离之前需要先将标注语段转换成词向量的形式,主要是将标注语段输入到word2vec模型中,通过word2vec模型输出标注语段对应的词向量。所述word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。word2vec主要分为CBOW(Continuous Bag ofWords)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
在本实施例中,通过K-means算法进行聚类,K-means聚类算法主要是通过确定k个聚类核心,其中,k可以认为进行选择,计算数据中每个数据与每一个聚类核心的距离(如欧式距离、余弦距离),离哪个聚类核心近,就划分到那个聚类核心所属的集合,划分好k个集合之后重新计算每个集合的聚类核心,如果新计算出来的聚类核心和原来的聚类核心之间的距离小于某一个设置的阈值可以认为聚类已经达到期望的结果,算法终止,如果新聚类核心和原聚类核心距离变化很大,则重复聚类,直到收敛为止,此外,还能够使用标签传播算法和最小熵算法进行聚类,本发明不做限定。
304、分别计算每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
在本实施例中,在对多条原始语料文本进行标注获得多个标注语段后,将标注语段根据不同的角色类型可以分为question(疑问词)、action(动作)、problem(状况)、background(背景信息)和slot(槽位)五类,其中,槽位在对话设计中的概念是***需要向用户收集的关键信息,在本实施例中,槽位类的角色类型是指除疑问词、动作、故障和背景信息以外,能够明确定义属性的角色类型,该角色类型的词能够明确该语句中的具体关键信息,例如“我的身份证如何补办”中的关键信息是“身份证”,因此将“身份证”标注为槽位类型。每个角色类型分组下都有多个相同角色类型的标注语段,聚类的过程需要根据每个不同的角色类型进行,主要通过计算每个角色类型下的标注语段两两之间的余弦距离,在本实施例中,余弦距离是用来衡量两个数据样本之间的相似度,余弦值越接近于1,说明这两个语段的含义越相似。
本实施例中,每一个组群中分别包含了若干个含义类似的语段,比如,“提示交易失败”和“说交易无法完成”和“说这个交易不了”等等说法聚类在一起。
305、将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
306、计算组群中标注词向量的均值向量,并根据均值向量重新选择当前聚类中心,以及计算当前聚类中心与对应的初始聚类中心的余弦距离;
307、若当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将第一聚类结果输出;
308、若当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到第二聚类结果;
309、对语段组进行概念的推导,得到语段组对应的概念;
310、根据预设的意图构建规则,对语段组群的所有概念相互组合,获得与原始语料文本对应的概念组合并确定用户意图。
在本实施例中,意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则。
本实施例中的步骤309-310与第一实施例中的步骤104-106相似,此处不再赘述。
本实施例在前实施例的基础上,详细描述了获取原始语料文本中各标注语段对应的概念的过程,通过意图角色标注模型对原始语料文本进行标注后,对各标注语段进行聚类,得到多个语段组,每个语段组中都包含了语义相近的标注语段,选择其中最有代表性的标注语段作为对应语段组的概念,其中,最具代表性可以是出现频率最多次的,通过本实施例的技术方案,能够通过聚类获得多个语段组以及语段组对应的概念,进而获得标注语段的概念。
请参阅图4,本发明实施例中意图挖掘方法的第四个实施例包括:
401、通过预设的意图角色标注模型对从用户语料库中获取的原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合;
在本实施例中,标注语段包括字序列和角色类型的标注。
402、将标注语段集合中的各标注语段转化为标注词向量,并基于标注词向量将标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
本实施例中的步骤401-402与第一实施例中的步骤101-103相似,此处不再赘述。
403、构建每个语段组中标注语段间的语义网络关系;
在本实施例中,所述语义网络关系用于描述物体概念与状态及其间的关系,由结点和结点之间的弧组成,其中,结点表示概念(事件、事物等),弧表示概念之间的关系。抽取具有代表性的标注语段作为所述标注语段的概念可以通过计算每个语段组群所构建的语义网络关系中每个标注语段的条件概率值,并根据条件概率值进行降序排序,提取预设数量的标注语段,再根据标注语段间的转移概率值,选择其中一个标注语段作为其中语段组群的概念,其中条件概率值根据预设的朴素贝叶斯计算公式得出。
404、从每个语段组构建的语义网络关系中抽取出现频率最高的标注语段;
405、将出现频率最高的标注语段对应的文本作为语段组的概念;
本实施例中,需要定义每个语段组的概念。比如,标注语段“银行卡”“储蓄卡”“绑定的卡”“金卡”,这些词含有类似的含义,可以聚成一类,那我们给定一个总体的“概念”,可能是:某种银行卡。那这个概念,以及这一类的所有词都聚集为一类作为语段组群。以此类推,就能形成一个有很多个概念,每一概念下面有很多属于这个概念的标注语段或词语短语,在本实施例中主要选择语段组中频次最多的标注语段对应的文本作为对应语段组的概念。
406、根据预设的意图构建规则,对语段组群的所有概念相互组合,获得与原始语料文本对应的概念组合并确定用户意图。
本实施例中的步骤406与第一实施例中的步骤105-106相似,此处不再赘述。
本实施例在上一实施例的基础上,详细描述了语段组的概念的推导过程,需要先在每个语段组中标注语段之间构建语义网络关系,在从语义网络关系中选择代表性的标注语段的文本作为对应语段组的概念,通过本方案,能够快速进行概念的推导。
请参阅图5,本发明实施例中意图挖掘方法的第五个实施例包括:
501、通过预设的意图角色标注模型对从用户语料库中获取的原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合;
在该步骤中,标注语段包括字序列和角色类型的标注。
502、将标注语段集合中的各标注语段转化为标注词向量,并基于标注词向量将标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
503、对语段组进行概念的推导,得到语段组对应的概念;
504、根据预设的意图构建规则,对语段组群的所有概念相互组合,获得与原始语料文本对应的概念组合;
在本实施例中,意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则。
本实施例中的步骤501-504与第一实施例中的步骤101-105相似,此处不再赘述。
505、识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
在本实施例中,可以根据角色类型中槽位类、动作类和疑问类的概念相同的原则生成一个意图组,例如用户的原始语料文本中“身份证有效期到期了怎么样更改”“更换了新的身份证如何更换”中对应的概念组合都包含了角色类型为槽位类“登记证件”的概念,疑问类“怎么”的概念,动作类“更改”的概念,将包含了这三类概念的概念组合分为一组,每一组都为一组意图组,上图中所有的原始语料文本都包含了这三类概念,同时也可以推出用户的意图是一样的,都是“更改登记信件”,另外的疑问类概念和背景类概念则不进行处理,在本实施例中,还可以根据将角色类型为槽位类、动作类和状况类相同概念的概念组合分为一组,具体的意图归类规则可以根据实际情况进行设置。
506、将意图组中槽位类的概念和动作类的概念组成意图模板主体;
507、提取每个意图组中的意图模板客体的组成成分,意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
508、将意图模板主体中每个角色类型对应的概念和意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
在本实施例中,生成意图组后,每个意图组代表的用户意图都是一样的,例如“身份证有效期到期了怎么样更改”“更换了新的身份证如何更换”的用户意图都是“更改登记信件”,可以根据已经进行定义的概念生成用户的意图文本,例如“我去年买的保险,保单还没有寄到家”,从“买”这个动作类角色类型的概念以及“保险”这个槽位类角色类型的概念,可以生成“买保险”这个意图文本,“保单还没有寄到家”这个状况类“没有保单”这部分意图,将两个意图结合,得到“买保险-没有保单”这个整体的意图文本。一般来讲,一个意图的核心是动作+槽位,这两个部分组成意图模板的主体,从剩下的状况+背景+疑问可以归纳出剩下的意图,具体的状况+背景+疑问这个部分的意图挖掘结果。例如,将所述意图组中角色类型属于槽位类和动作类的概念作为意图模板主体,意图模板主体为“买保险”,当状况类的概念为空或者是“怎么(How)”,同时疑问类概念为“哪里(Where)”或者“能够(Can)”时,意图模板客体为“方法查询(Method Inquiry)”,也就是生成了整体的用户意图为“买保险-方法查询”。
本实施例在前实施例的基础上详细描述了通过概念组合得到用户意图的过程,在获得到标注语段的概念后,将标注语段与原始语料文本进行比对,根据原始语料文本与标准短语的对应关系,得到原始语料文本与概念间的对应关系,得到与原始语料文本对应的概念组合,根据标注的角色类型和概念组合中的概念构建意图模板的主体和客体,根据意图模板的主体和客体,构建用户意图。本实施例中的技术方案,通过确定原始语料文本对应的概念组合,将概念组合中的概念构建成角色意图,构建的效率和准确度都较高。
下面对本发明完整的技术方案进行说明。如图6,具体实现过程:
获取原始语料文本,其中,原始语料文本具体存储在用户语料库中的用户问句,本发明主要挖掘用户问句中的用户意图,以便后续根据挖掘到的用户意图为用户提供服务,在获取到原始语料文本后,通过预置的意图角色标注模型对原始语料文本中的每个字进行意图角色标注,并根据标注后的字,构建标注语段,其中根据标注的角色类型,标语语段可以分为槽位类标注语段、背景类标注语段、动作类标注语段、状况类标注语段、疑问类标注语段。每种语段通过聚类的概念推导,可以得到标注语段对应的概念,由于用户语料库中包含多条原始语料文本,每条原始语料文本都有对应的标注语段,每个标准短语都有对应的概念,也就是说,每条原始语料文本都对应有一组概念,将原始语料文本对应的一组概念作为概念组合,根据预置的同义句筛选规则,将不同组合根据概念组合中的概念划分为不同的意图,例如在概念组合中,将槽位类、动作类、疑问类相同概念的概念组合划分为一个意图,将划分为一类意图的概念组合,根据意图构建规则,构建意图文本,在后续为用户进行搜索服务时,只要识别到用户输入的问句与意图文本对应,就可以为用户提供相应的咨询服务。
上面对本发明实施例中意图挖掘方法进行了描述,下面对本发明实施例中意图挖掘装置进行描述,请参阅图7,本发明实施例中意图挖掘装置一个实施例包括:
获取模块701,用于从用户语料库中获取原始语料文本;
标注模块702,用于通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;
分类模块703,用于将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
概念推导模块704,用于对所述语段组进行概念的推导,得到所述语段组对应的概念;
组合模块705,根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
意图确定模块706,用于基于所述概念组合确定所述原始语料文本对应的用户意图。
需要强调的是,为进一步保证上述原始语料文本的私密和安全性,上述原始语料文本还可以存储于一区块链的节点中。
本发明实施例中提供一种意图挖掘装置,所述意图挖掘装置能够运行所述意图挖掘方法,包括:通过意图角色标注模型对原始语料文本进行意图角色标注,得到标注语段和对应的角色类型标注;对标注语段进行聚类,得到包含至少两个语段组的语段组群以及所述语段组对应的概念;根据预设的意图构建规则,对语段组的所有概念相互组合,获得与原始语料文本对应的概念组合;基于概念组合确定用户意图。基于概念组合确定用户意图。本发明通过对文本中各语段进行标注,根据标注和语义进行聚类,根据聚类结果构建与文本对应的用户意图,准确度高,以便根据挖掘的意图信息,为用户提供相应的搜索服务,大大提升了用户的用户体验。
请参阅图8,本发明实施例中意图挖掘装置的另一个实施例包括:
获取模块701,用于从用户语料库中获取原始语料文本;
标注模块702,用于通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;
分类模块703,用于将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
概念推导模块704,用于对所述语段组进行概念的推导,得到所述语段组对应的概念;
组合模块705,根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
意图确定模块706,用于基于所述概念组合确定所述原始语料文本对应的用户意图。
可选的,所述标注模块702具体用于:
利用分词算法对所述原始文本语料进行分词处理,得到字序列;
通过所述意图角色标注模型对所述字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
筛选所述标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合。
其中,所述分类模块703包括:
向量转化单元7031,用于将所述标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
聚类单元7032,用于计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果;
分组单元7033,用于根据所述聚类结果,对各角色类型下的标注语段进行分组,得到包含至少两个语段组的语段组群,其中,所述语段组中包含多个含义类似的标注语段。
其中,所述聚类单元7032具体用于:
设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心,,其中,k为大于2的整数;
分别计算所述每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
计算所述组群中标注词向量的均值向量,并根据所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将所述第一聚类结果输出;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到第二聚类结果。
可选的,所述概念推导模块704具体用于:
构建每个语段组中标注语段间的语义网络关系;
从每个语段组构建的语义网络关系中抽取出现频率最高的标注语段;
将所述出现频率最高的标注语段对应的文本作为语段组的概念。
可选的,所述意图确定模块706具体用于:
识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,所述意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
提取每个意图组中的意图模板客体的组成成分,所述意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
将所述意图模板主体中每个角色类型对应的概念和所述意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
本发明实施例在上一实施例的基础上,详细描述了各模块的功能,以及部分模块中的单元,通过标注模块对原始语料文本进行角色意图标注的文本加工处理,能够得到标注语段和对应的角色类型标注,通过分类模块中的各单元,能够将标注语段通过聚类的方式进行分组,得到每个角色类型标注下不同的语段组,其中,语段组中的标注语段由于通过聚类,语义接近,并通过概念推导模块确定每个语段组的概念,通过组合模块,获取与原始语料文本对应的概念组合,根据概念组合确定该原始语料文本对应的用户意图。本方案中,标注模块运用到的意图角色标注模型事先通过文本的训练,在标注的过程中精准度高,使得在后续确定意图的过程中,保持较高的精准度。
上面图7和图8从模块化功能实体的角度对本发明实施例中的意图挖掘装置进行详细描述,下面从硬件处理的角度对本发明实施例中意图挖掘设备进行详细描述。
图9是本发明实施例提供的一种意图挖掘设备的结构示意图,该意图挖掘设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)910(例如,一个或一个以上处理器)和存储器920,一个或一个以上存储应用程序933或数据932的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器920和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对意图挖掘设备900中的一系列指令操作。更进一步地,处理器910可以设置为与存储介质930通信,在意图挖掘设备900上执行存储介质930中的一系列指令操作。
意图挖掘设备900还可以包括一个或一个以上电源940,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口960,和/或,一个或一个以上操作***931,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图9示出的意图挖掘设备结构并不构成对意图挖掘设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。需要强调的是,为进一步保证上述原始语料文本的私密和安全性,上述原始语料文本还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述意图挖掘方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种意图挖掘方法,其特征在于,所述意图挖掘方法包括:
从用户语料库中获取原始语料文本;
通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注,所述角色类型包括疑问类、动作类、状况类、背景类和槽位类;
将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
对所述语段组进行概念的推导,得到所述语段组对应的概念;
根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,所述意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
提取每个意图组中的意图模板客体的组成成分,所述意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
将所述意图模板主体中每个角色类型对应的概念和所述意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
2.根据权利要求1所述的意图挖掘方法,其特征在于,所述通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合包括:
利用分词算法对所述原始语料文本进行分词处理,得到字序列;
通过所述意图角色标注模型对所述字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
筛选所述标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合。
3.根据权利要求1所述的意图挖掘方法,其特征在于,所述将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群包括:
将所述标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果;
根据所述聚类结果,对各角色类型下的标注语段进行分组,得到包含至少两个语段组的语段组群,其中,所述语段组中包含多个含义类似的标注语段。
4.根据权利要求3所述的意图挖掘方法,其特征在于,所述计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果包括:
设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心,其中,k为大于2的整数;
分别计算所述每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
计算所述组群中标注词向量的均值向量,并根据所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将所述第一聚类结果输出;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到第二聚类结果。
5.根据权利要求1所述的意图挖掘方法,其特征在于,所述对所述语段组进行概念的推导,得到所述语段组对应的概念包括:
构建每个语段组中标注语段间的语义网络关系;
从每个语段组构建的语义网络关系中抽取出现频率最高的标注语段;
将所述出现频率最高的标注语段对应的文本作为语段组的概念。
6.一种意图挖掘装置,其特征在于,所述意图挖掘装置包括:
获取模块,用于从用户语料库中获取原始语料文本;
标注模块,用于通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注,所述角色类型包括疑问类、动作类、状况类、背景类和槽位类;
分类模块,用于将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
概念推导模块,用于对所述语段组进行概念的推导,得到所述语段组对应的概念;
组合模块,根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
意图确定模块,用于识别每个概念组合中的意图模板主体的组成成分,并将组成成分相同的概念组合归为一类,得到意图组,所述意图模板主体为包含至少一个槽位类和至少一个动作类的角色组合;
提取每个意图组中的意图模板客体的组成成分,所述意图模板客体为包括状况类、背景类和疑问类中的至少一个角色类型;
将所述意图模板主体中每个角色类型对应的概念和所述意图模板客体中每个角色类型对应的概念进行整合,得到用户意图。
7.一种意图挖掘设备,其特征在于,所述意图挖掘设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述意图挖掘设备执行如权利要求1-5中任一项所述的意图挖掘方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的意图挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714921.XA CN111859984B (zh) | 2020-07-23 | 2020-07-23 | 意图挖掘方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714921.XA CN111859984B (zh) | 2020-07-23 | 2020-07-23 | 意图挖掘方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859984A CN111859984A (zh) | 2020-10-30 |
CN111859984B true CN111859984B (zh) | 2023-02-14 |
Family
ID=72949743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010714921.XA Active CN111859984B (zh) | 2020-07-23 | 2020-07-23 | 意图挖掘方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859984B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI777316B (zh) * | 2020-11-30 | 2022-09-11 | 財團法人工業技術研究院 | 文件語句概念標註系統及其訓練方法與標註方法 |
CN112667811B (zh) * | 2020-12-29 | 2024-03-08 | 中国平安人寿保险股份有限公司 | 语料标注的校正方法、装置、终端设备及介质 |
CN112765331B (zh) * | 2020-12-31 | 2022-11-18 | 杭州摸象大数据科技有限公司 | 对话知识模板构建方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133916A (zh) * | 2014-08-14 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 搜索结果信息组织方法和装置 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108959257A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7742911B2 (en) * | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
US9880999B2 (en) * | 2015-07-03 | 2018-01-30 | The University Of North Carolina At Charlotte | Natural language relatedness tool using mined semantic analysis |
EP3430514B1 (en) * | 2016-04-18 | 2019-10-09 | Google LLC | Automated assistant invocation of appropriate agent |
CN109753664A (zh) * | 2019-01-21 | 2019-05-14 | 广州大学 | 一种面向领域的概念抽取方法、终端设备及存储介质 |
-
2020
- 2020-07-23 CN CN202010714921.XA patent/CN111859984B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133916A (zh) * | 2014-08-14 | 2014-11-05 | 百度在线网络技术(北京)有限公司 | 搜索结果信息组织方法和装置 |
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN108959257A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
CN110110086A (zh) * | 2019-05-13 | 2019-08-09 | 湖南星汉数智科技有限公司 | 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
Auto-Dialabel: Labeling Dialogue Data with Unsupervised Learning;Chen Shi et al;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181231;第684-689页 * |
基于用户自然标注的微博文本的消费意图识别;付博 等;《中文信息学报》;20170731;第31卷(第4期);第208-215页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111859984A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859984B (zh) | 意图挖掘方法、装置、设备及存储介质 | |
CN102207946B (zh) | 一种知识网络的半自动生成方法 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及*** | |
CN111831810B (zh) | 智能问答方法、装置、设备及存储介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN111639500A (zh) | 语义角色标注方法、装置、计算机设备及存储介质 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Turrado García et al. | Locating similar names through locality sensitive hashing and graph theory | |
CN112883703B (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 | |
Dyvak et al. | System for web resources content structuring and recognizing with the machine learning elements | |
Liu et al. | Efficient relation extraction method based on spatial feature using ELM | |
Pasala et al. | An analytics-driven approach to identify duplicate bug records in large data repositories | |
CN111723582B (zh) | 智能语义分类方法、装置、设备及存储介质 | |
CN111199259A (zh) | 标识转换方法、装置和计算机可读存储介质 | |
CN117725555B (zh) | 多源知识树的关联融合方法、装置、电子设备及存储介质 | |
Wang et al. | Using graph embedding to improve requirements traceability recovery | |
Siragusa et al. | Automatic extraction of correction patterns from expert-revised corpora | |
Chubarian et al. | Grouping Words with Semantic Diversity | |
Tiwari et al. | Semantically enriched knowledge extraction with data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |