CN111708869B - 人机对话的处理方法及装置 - Google Patents
人机对话的处理方法及装置 Download PDFInfo
- Publication number
- CN111708869B CN111708869B CN202010397838.4A CN202010397838A CN111708869B CN 111708869 B CN111708869 B CN 111708869B CN 202010397838 A CN202010397838 A CN 202010397838A CN 111708869 B CN111708869 B CN 111708869B
- Authority
- CN
- China
- Prior art keywords
- question
- domain
- classification
- identifying
- belongs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种人机对话的处理方法及装置,其中该方法包括:接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;当所述问题的类型为领域相关时,判断该问题是图谱问答还是FAQ问答;当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;当查询成功时,向用户输出查询结果;其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型。如此,将知识图谱引入人机对话中,提高人机对话的准确率和工作效率。
Description
技术领域
本发明实施例涉及人工智能AI(Artificial Intelligence)技术,尤指一种人机对话的处理方法及装置。
背景技术
近年来,随着客户业务需求的不断扩张,业务复杂度的提升,用户量的持续攀升,客户的客服部门承受着巨大的压力,传统的人工客服已经不能完全满足企业客服的需求。有统计数据显示,对企业来说,智能客服的成本只相当于人工的10%,使用智能客服后服务效率能提升86%,客户满意度能够达到96%,订单转化率提升约20%。人工智能(AI,Artificial Intelligence)代替传统的人工操作成为信息处理的主流趋势。自然语言处理(NLP,Natural Language Processing)是人工智能的关键领域,也是最为困难的领域之一。NLP分为自然语言识别、自然语言理解、自然语言生成三个主要方向,其中以自然语言理解(NLU,Natural Language Understanding)尤其困难,但需求也广阔。
如何在人机对话的过程中加深对自然语言问题的理解从而提高智能客服的处理效率是现有技术急需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种人机对话的处理方法,包括:
接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
当所述问题的类型为领域相关时,判断该问题是图谱问答还是FAQ问答;
当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型。
本发明实施例还提供了一种电子装置,包括:
识别单元,设置为接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
判断单元,设置为当所述问题的类型为领域相关时,判断是图谱问答还是FAQ问答;
查询单员,设置为当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
输出单元,设置为当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型。
本发明实施例还提供了一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述人机对话的处理方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述人机对话的处理方法。
本发明实施例提供的技术方案,将知识图谱引入人机对话中,提高人机对话的准确率和工作效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本发明一实施例提供的一种人机对话的处理方法的流程示意图;
图2为本发明另一实施例提供的一种人机对话的处理方法的流程示意图;
图3为本发明另一实施例提供的一种人机对话的处理方法的流程示意图;
图4为本发明一实施例中查询示例的查询图谱示意图;
图5为本发明一实施例提供的一种电子装置的结构示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
图1为本发明一实施例提供的一种人机对话的处理方法的流程示意图,如图1所示,该方法包括:
步骤101,接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
步骤102,当所述问题的类型为领域相关时,判断该问题是图谱问答还是FAQ问答;
步骤103,当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
步骤104,当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型。
在一示例中,所述判断该问题是图谱问答还是FAQ问答,包括:
根据预先设定的意图识别多分类模型识别所述问题归属的垂直领域以及在该垂直领域所归属的下属分类;
根据所述问题归属的垂直领域的下属分类确定对应的词库,基于该词库利用实体抽取算法抽取该问题对应的实体及实体关系;
基于该问题对应的实体及实体关系进行句式分类,基于句式分类判断该问题判断该问题是图谱问答还是FAQ问答;
其中,所述意图识别多分类模型是用于识别问题归属的垂直领域以及在该垂直领域所归属的下属分类的多分类模型。
在一示例中,所述基于该问题归属的垂直领域的知识图谱数据库进行查询,包括:
检查该对话类型预先设置的槽信息是否完备;当槽信息不完备时反问用户,根据用户的补充填充槽信息,以此类推直至槽信息完备;当槽信息完备时,利用对应的应用程序接口API基于该问题归属的垂直领域的知识图谱数据库进行查询。
在一示例中,该方法还包括:
当查询不成功时,将该问题与预先配置的常见问题解答FAQ进行相似度匹配,当匹配结果大于等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
在一示例中,该方法还包括:
当该问题为FAQ问答时,利用相似度匹配算法将该问题与预先配置的FAQ进行相似度匹配,当匹配结果大于或等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
在一示例中,在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,该方法还包括:
当所述问题的类型为非领域相关且为***闲聊时,将该问题输入预先训练好的深度学习模型输出回答,并将该回答返回给用户。
在一示例中,在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,该方法还包括:
当所述问题的类型为非领域相关且为自定义闲聊时,将该问题输入预先设置的自定义规则库输出回答,并将该回答返回给用户。
本发明实施例提供的技术方案,将知识图谱引入人机对话中,能够加深对自然语言问题的理解从而提高人机对话的准确率和工作效率。
图2为本发明另一实施例提供的一种人机对话的处理方法的流程示意图,如图2所示,该方法包括:
步骤201,接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
其中,该类型包括领域相关和非领域相关两种分类。该意图识别二分类模型即为一个二分类模型,输入问题,输出该问题的类型。在本示例中,该意图识别二分类模型,针对领域相关和非领域相关两个分类,即输入问题,输出该问题的类型为领域相关还是非领域相关(如闲聊)。领域相关是指该问题归属垂直领域,例如“苹果手机的最新价格”由于涉及手机领域因此属于领域相关且归属垂直领域为手机。垂直领域是指行业垂直领域,比如美妆、手机、汽车、保险、智能家居等。每个垂直领域内都有自己独有的专业术语和知识,可以根据这些专业术语和知识来识别一个问题是否属于该垂直领域。其中,垂直领域的类别可以自行设置或采用业界默认的垂直领域分类。针对每个特定领域,其他领域和闲聊都是非领域相关问题,例如针对美妆领域的问答,则3C、汽车、闲聊都是非领域相关的问题。
在一示例中,该意图识别二分类模型可以是现有的任一种意图识别模型,例如基于规则的算法、基于深度学习算法(如CNN(卷积神经网络,Convolutional NeuralNetworks),LSTM(长短期记忆网络,Long Short-Term Memory),RCNN(Regions with CNNfeatures,具有CNN功能的区域),C-LSTM(Convolutional LSTM,卷积长短期记忆网络),FastText(快速文本分类算法)等)等训练生成的意图识别模型。
在另一示例中,该意图识别二分类模型还可以是根据实际需求对现有意图识别模型进行改进后的模型,例如,基于BERT(Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder)做finetune后的模型,其训练过程包括先对训练数据进行预处理和标准化,包括分词、去停用词、词的embedding等,然后基于定好的分类规则对训练数据打标签,并使用文本相似性算法扩张标注数据,减少人工打标签的工作量,构成训练数据集合;最后,基于BERT做finetune训练模型调优,该标签是指一个问题是领域相关还是领域不相干。
在一示例中,在根据预先设定的意图识别二分类模型识别所述问题的类型之前,该方法还包括:
对该问题进行预处理以及标准化;
将预处理和标准化后的问题输入所述意图识别二分类模型。
其中,该预处理包括对该问题去除无效文本(如去掉url、去掉@、去掉harshtag、去掉表情符、去掉特殊符号等)、统一大小写、统一繁简字、去掉文本中的空格、去水去噪等操作。
其中,该标准化是指对该问题分词、多虑停用词、词性标注、同义替换等操作。
当所述问题的类型为领域相关时,执行步骤202,当所述问题的类型为非领域相关时,执行步骤209或者210:
步骤202,根据意图识别多分类模型识别所述问题归属的垂直领域以及在该垂直领域所归属的下属分类;
其中,该意图识别多分类模型即为一个分类模型,输入问题,输出该问题归属的垂直领域以及在该垂直领域所归属的下属分类。多分类是指在二分类做了第一次问题的过滤后,进入到垂直领域里面还需要做一次意图的多分类,比如,在手机领域,已知是手机的领域相关问题,还需要进行关于手机价格、手机外观、手机配置、充电、电池等下属分类的识别。各垂直领域的下属分类可以自行设置或采用业界默认的分类。
在一示例中,该意图识别多分类模型可以是现有的任一种意图识别多分类模型,例如基于规则的算法、基于深度学习算法(如CNN(卷积神经网络,Convolutional NeuralNetworks),LSTM(长短期记忆网络,Long Short-Term Memory),RCNN(Regions with CNNfeatures,具有CNN功能的区域),C-LSTM(Convolutional LSTM,卷积长短期记忆网络),FastText(快速文本分类算法)等)等训练生成的意图识别多分类模型。
在另一示例中,该意图识别多分类模型还可以是根据实际需求对现有意图识别模型进行改进后的模型,例如,基于BERT(Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder)做finetune后的模型,等。
步骤203,根据所述问题归属的垂直领域的下属分类确定对应的词库,基于该词库利用实体抽取算法抽取该问题对应的实体及实体关系;
其中,该词库包括行业词库、同义词库等。确定了垂直领域以及下属分类后就可以准确定位需要的是哪一些词库,因为不同的垂直领域以及不同的下属分类分别对应不同的词库。即使是同一个词在不同的垂直领域以及不同分下属领域可能具有不同的含义和同义词。例如,专有名词边界复杂,专有名词长度不固定,本身词性也比较丰富,容易造成边界判断错误;如“王胖子驴肉火烧”,其中“王胖子”并不能识别为人名,而是组织机构名的一部分,如果判断错误,则不能正常理解语义。又例如,语义依赖于语境,如用户输入“查找今年交大毕业的张三”,其中“交大”与用户的地理位置有关,可能指上海交通大学或北京交通大学等;另外,“今年”表示当前年份,与***当前时间有关;因此要正确理解语义,必须感知当前的语境。又例如,语义依赖于知识领域,如用户输入“查找小明的姑姑”,此处“姑姑”隐含性别信息,在实体推荐时就无需再推荐性别信息;如果没有“姑姑一定是女性”这条知识,则无法做到精准推荐。因此,为了提高实体抽取的准确率,需要找到正确的词库。
在一示例中,该实体抽取算法可以为现有的任一种实体抽取算法,过程包括实体识别、关系抽取、知识消歧等,此为现有技术在此不再赘述。
步骤204,基于该问题对应的实体及实体关系进行句式分类,基于句式分类判断该问题是图谱问答还是FAQ问答;
其中,实体在自然语言处理领域,可以简单理解为名词,例如人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等。一个实体可以有多个意思,例如同一个实体在不同的上下文中所表示的含义是不一样的。对于人来说,可以直观判断出这些实体代表的具体含义,但是对机器来说,就需要借助自然语言处理技术才能识别出每一个实体代表的具体含义,并能够区分不同的实体。而实体关系描述了两个或更多实体相互如何关联,关联可以被(粗略地)认为是动词,如:在公司和计算机之间的拥有关联,在雇员和部门之间的管理关联,在演员和歌曲之间的表演关联,在数学家和定理之间的证明关联等。
在一示例中,基于该问题对应的实体及实体关系进行句式分类,包括:
基于预先训练好的句式分类模型对该问题进行句式分类。
其中,一个句子必须按照一定的模式来组织,这个模式称为句式。句式可以分类为主谓关系、状中结构、并列关系、动宾关系、介宾关系等。在一示例中,可以针对训练样本预先训练好句式分类模型,该句式分类模型以提取的问题的实体以及实体关系为输入,以该问题的句式为输出,该训练样本为多个已标注句式的问题对应的实体以及实体关系。
在一示例中,基于句式分类判断该问题是图谱问答还是FAQ问答,包括:
基于预先训练好的问题二分类模型判断该问题是图谱问答还是FAQ问答。
其中,可以针对训练样本预先训练好问题识别二分类模型,该问题识别二分类模型以提取的问题的实句式为输入,以该问题为图谱问答或者FAQ问答为输出,该训练样本为多个已标注是图谱问题或者FAQ问题的问题对应的句式。例如,“神仙水多少钱”为图谱问答,“我用神仙水过敏怎么办”则为FAQ问答。
当该问题为FAQ问答时,执行步骤205,当该问题为图谱问答时,执行步骤206:
步骤205,利用相似度匹配算法将该问题与预先配置的常见问题解答FAQ进行相似度匹配,当匹配结果大于等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理;
其中,预先配置的FAQ(Frequently Asked Questions,常见问题解答)可以现有的该垂直领域的FAQ库或***,也可以是根据不同行业客户的数据定制化开发的FAQ库或***等。
其中,该相似度匹配算法为现有的任一种相似度算法,例如距离算法,通过计算句子中所有单词词嵌入的平均值、使用两文本间的词嵌入,测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离来判断相似度。又例如,基于BERT的神经网络优化模型,即BERT+finetune的方法等。
步骤206,检查该问题类型预先设置的槽信息是否完备;当槽信息不完备时反问用户,根据用户的补充填充槽信息,以此类推直至槽信息完备;当槽信息完备时,利用对应的API基于该问题归属的垂直领域的知识图谱数据库进行查询;
其中,不同的知识图谱数据库支持不同的查询方式,例如针对支持gremlin查询的数据库,可以当槽信息完备时,生成gremlin查询模版进行gremlin实例化,然后利用对应的API基于该问题归属的垂直领域的知识图谱数据库进行查询。又例如针对支持其他查询方式的数据库,当槽信息完备时,则利用其对应查询方式和API基于该问题归属的垂直领域的知识图谱数据库进行查询。
其中,不同的知识图谱数据库分别提供对应的API(Application ProgrammingInterface,应用程序接口),利用对应的API就可以访问和查询对应的知识图谱数据库。
其中,知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。该知识图谱数据库可以是现有的知识图谱数据库,也可以是根据业务需要定制的知识图谱数据库。
当查询成功时,执行步骤207,当查询不成功时,执行步骤208:
步骤207,向用户输出查询结果;
步骤208,将该问题与预先配置的FAQ进行相似度匹配,当匹配结果大于等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理;
其中,***可以满足多轮对话的需求,而多轮对话需要有一个槽信息的填充过程,这个槽信息需要根据前面多分类对应的下属分类来具体设计,针对不同垂直领域,槽信息会有所不同,不同下属分类的意图也需要有不同的必填槽信息和选填槽信息。比如问手机的价格,那么所需的必填槽有手机品牌、型号、配置,选填槽有颜色、***内核等。这种问题是基于一个产品属性的事实性的问题查询,可以直接通过知识图谱进行查询。
其中,知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。在本示例中,可以预先为每一个垂直领域预先构建知识图谱数据库。
步骤209,当所述问题的类型为非领域相关且为***闲聊时,将该问题输入预先训练好的深度学习模型输出回答,并将该回答返回给用户;
其中,该深度学习模型是基于深度学习算法根据语料库进行闲聊训练得到的模型,该模型以***闲聊问题为输入,以该闲聊问题的回答为输出。例如可以采用GPT2(Generative Pre-Training)做闲聊训练,准备100万的训练语料,进行模型训练和调优。
其中,***闲聊是指通常意义上的闲聊。
步骤210,当所述问题的类型为非领域相关且为自定义闲聊时,将该问题输入预先设置的自定义规则库输出回答,并将该回答返回给用户。
其中,自定义闲聊是指根据客户的需求做一些定制化的打招呼、再见等寒暄,其他闲聊则是指算法生成式的回答,没有固定规则和模版。
本发明实施例提供的技术方案,将知识图谱引入人机对话中,提高人机对话的准确率和工作效率。
图3为本发明另一实施例提供的一种人机对话的处理方法的流程示意图。
如图3所示,该方法包括:
首先,接收用户输入问题,对该问题进行预处理和标准化;
其中,预处理包括统一大小写、繁简字、去水去噪等。
其中,标准化包括分词、过滤停用词、词性标注、同义替换。
其次,对于处理和标准化后的问题进行二分类;
其中,二分类是指识别该问题的类型是领域相关还是非领域相关。
在本实施例中,非领域相关以闲聊对话为例进行说明。执行二分类的方式可以是根据预先设定的意图识别二分类模型识别该问题的类型,也可以预先训练好分类器识别该问题的类型。
再次,针对闲聊对话,区分是***闲聊还是自定义闲聊,针对***闲聊利用深度学习模型输出回答;针对自定义闲聊利用自定义规则库输出回答;
再次,针对领域相关的,可以进行意图多分类;
其中,该意图多分类是指识别该问题对应的垂直领域以及下属分类。执行意图多分分类的方式可以是根据预先设定的意图识别多分类模型识别该问题归属的垂直领域及下属分类,也可以预先训练好分类器该问题归属的垂直领域及下属分类。
再次,利用垂直领域的实体抽取算法抽取该问题的实体及实体关系,从而进行句式分类;
其中,句式分类是指对问题进行句式判断。
再次,句式分类后,基于该问题的句式判断该问题是图谱问答还是FAQ问答,如果是FAQ问答,则直接将该问进行FAQ相似度匹配,匹配结果大于等于预设阈值,就输出匹配结果即output,匹配结果小于预设阈值则转人工;
其中,如果转人工后,还可以将此问题加入训练预料,优化训练模型。该训练模型是指FAQ。
再次,句式分类后,基于该问题的句式判断该问题是图谱问答还是FAQ问答,如果是图谱问答,则判断信息是否完备,信息不完备时就反问用户,补充填槽,以此类推直至信息完备,信息完备时就生成gremlin查询模板进行gremlin实例化,查询多个APIs中该垂直领域对应的API,利用查询到的API到该垂直领域对应的知识图谱数据库中进行查询,如果查询成功则输出查询结果即output,如果查询无结果则将该问进行FAQ相似度匹配,匹配结果大于等于预设阈值,就输出匹配结果即output,匹配结果小于预设阈值则转人工。
其中,本实施例中,该垂直领域对应的知识图谱数据库以蜂巢图数据库进行举例说明。该蜂巢图数据库支持Gremlin查询。Gremlin是Apache ThinkerPop框架下的图遍历语言,Gremlin是一种函数式数据流语言,可以使用户使用简洁的方式表述复杂的属性图的遍历或查询。每个Gremlin遍历由一系列步骤(可能存在嵌套)组成,每一步都在数据流(datastream)上执行一个原子操作。比如查询价格是多少==“equal”查询,最贵的价格是多少==“max”查询。
基于本实施例提供的人机对话的处理方法,下面列举一个详细的示例,例如:
首先,问题输入:价格比iphone最贵的手机还贵的国产手机有哪些;
然后,二分类:该问题为领域相关,且该问题归属的垂直领域为手机且下属分类为价格;通过该分析可以知道用户输入的问题不是简单的查询,需要做数据的比较和推理;
然后,句式判断:“多实体比较级”;
然后,文本结构化:“slot”:{“品牌”:“iphone”,“价格”:“iphone最贵的手机价格”,“比较”:“比……贵”};
然后,Gremlin查询:g.V().has('上市日期',neq('未知')).as("V").has("品牌","iphone").values("价格").max().as("p").select("V").has('手机产地','国产手机').has("手机价格",gt(__.select("p"))).order().by('上市日期',desc).limit(6).dedup().valueMap("手机价格","手机型号").toList();
最后,结果输出:[[17000,“opporeno10倍变焦版”],[13000,“oppor17pro新年特别版”],[12999,“oppor17pro]]。
本示例的查询图谱如图4所示。
本发明实施例提供的技术方案,将自然语言转化为知识图谱的查询语句的过程,使用的是句向量和深度学习神经网络模型,而不需要依赖句式模版,对问题的识别类型更广泛也更准确。
图5为本发明一实施例提供的一种电子装置的结构示意图,如图5所示,包括:
识别单元,设置为接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
判断单元,设置为当所述问题的类型为领域相关时,判断该问题是图谱问答还是FAQ问答;
查询单元,设置为当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
输出单元,设置为当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型。
在一示例中,所述判断单元,设置为
根据预先设定的意图识别多分类模型识别所述问题归属的垂直领域以及在该垂直领域所归属的下属分类;
根据所述问题归属的垂直领域的下属分类确定对应的词库,基于该词库利用实体抽取算法抽取该问题对应的实体及实体关系;
基于该问题对应的实体及实体关系进行句式分类,基于句式分类判断该问题是图谱问答还是FAQ问答;
其中,所述意图识别多分类模型是用于识别问题归属的垂直领域以及在该垂直领域所归属的下属分类的多分类模型。
在一示例中,所述基于该问题归属的垂直领域的知识图谱数据库进行查询,包括:
检查该对话类型预先设置的槽信息是否完备;当槽信息不完备时反问用户,根据用户的补充填充槽信息,以此类推直至槽信息完备;当槽信息完备时,利用对应的应用程序接口API基于该问题归属的垂直领域的知识图谱数据库进行查询。
在一示例中,查询单元,还设置为当查询不成功时,将该问题与预先配置的常见问题解答FAQ进行相似度匹配,当匹配结果大于等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
在一示例中,该装置还包括:
匹配单元,设置为当该问题为FAQ问答时,利用相似度匹配算法将该问题与预先配置的FAQ进行相似度匹配,当匹配结果大于或等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
在一示例中,该装置还包括:
回答单元,设置为在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,当所述问题的类型为非领域相关且为***闲聊时,将该问题输入预先训练好的深度学习模型输出回答,并将该回答返回给用户。
在一示例中,该装置还包括:
回答单元,设置为在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,当所述问题的类型为非领域相关且为自定义闲聊时,将该问题输入预先设置的自定义规则库输出回答,并将该回答返回给用户。
本发明实施例提供的技术方案,将知识图谱引入人机对话中,提高人机对话的准确率和工作效率。
本发明实施例还提供了一种电子装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述人机对话的处理方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现上述任一项中所述人机对话的处理方法。
本发明的上述实施例提供的人机对话的处理方案可以应用于智能客服问题、用户意图识别等多个人工智能领域。例如,2014年以前的问答机器人实现方案主要都是基于语义解析、信息抽取等传统方法。自2015年开始,出现了基于深度学习技术的端到端***,相比传统方法整体有了一些提升。但是单纯端到端的虽然减少了大量人工构建特征所耗费的工作量,但是单纯端到端的深度学习模型是基于对已有的问答数据进行学习,不能回答没有出现过的新问题;并且深度学习模型不具有可解释行,无法对机器给出的答案进行解析和优化。例如,没有出现过的新问题是指:在传统模型中,训练语料里面有“华为p30的价格是多少?”,模型只能回答这个,如果你问“华为mate20价格是多少”在传统模型里面可能会学习到华为p30价格点答案给你。但是如果你问了一个完全新的问题,比如:你们什么时候上线新***啊,就必须转人工了。语义的本质是关联。只有基于语义的数据互联才能发挥数据集成的非线性效应,才能获取大数据的特有语义。本发明实施例的方案基于知识图谱完成问答机器人功能,实现了领域内知识的结构化,通过本方案可以实现将用户的自然语言转化结构化的有关联的语义关系,从而实现机器模拟自然语言准备回答用户问题。
本发明实施例提供的技术方案还能够帮助企业提高运营效率,节约成本为客户提供更多便利和增值服务,同时轻松解决各类客户问题,处理客户查询请求,降低人工交互需要。客户可以轻松扩展业务、打造个性化体验并保持主动性,企业可以在同一时间以人性化方式,主动为无数用户提供个性化服务。在许多场景下,基于消息传递平台运行的聊天机器人所能提供的服务和便利水平已超过了人工,有效提升客户体验。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
Claims (9)
1.一种人机对话的处理方法,包括:
接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
当所述问题的类型为领域相关时,判断该问题是图谱问答还是FAQ问答;
当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型,
其中,所述判断该问题是图谱问答还是FAQ问答,包括:
根据预先设定的意图识别多分类模型识别所述问题归属的垂直领域以及在该垂直领域所归属的下属分类;
根据所述问题归属的垂直领域的下属分类确定对应的词库,基于该词库利用实体抽取算法抽取该问题对应的实体及实体关系;
基于该问题对应的实体及实体关系进行句式分类,基于句式分类判断该问题是图谱问答还是FAQ问答;
其中,所述意图识别多分类模型是用于识别问题归属的垂直领域以及在该垂直领域所归属的下属分类的多分类模型。
2.根据权利要求1所述的处理方法,其特征在于,所述基于该问题归属的垂直领域的知识图谱数据库进行查询,包括:
检查该对话类型预先设置的槽信息是否完备;当槽信息不完备时反问用户,根据用户的补充填充槽信息,以此类推直至槽信息完备;当槽信息完备时,利用对应的应用程序接口API基于该问题归属的垂直领域的知识图谱数据库进行查询。
3.根据权利要求1所述的处理方法,其特征在于,该方法还包括:
当查询不成功时,将该问题与预先配置的常见问题解答FAQ进行相似度匹配,当匹配结果大于等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
4.根据权利要求1所述的处理方法,其特征在于,该方法还包括:
当该问题为FAQ问答时,利用相似度匹配算法将该问题与预先配置的FAQ进行相似度匹配,当匹配结果大于或等于预设相似度阈值时,向用户输出该匹配结果;当匹配结果小于预设相似度阈值时,将该问题转人工处理。
5.根据权利要求1所述的处理方法,其特征在于,在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,该方法还包括:
当所述问题的类型为非领域相关且为***闲聊时,将该问题输入预先训练好的深度学习模型输出回答,并将该回答返回给用户。
6.根据权利要求1所述的处理方法,其特征在于,在所述根据预先设定的意图识别二分类模型识别所述问题的类型之后,该方法还包括:
当所述问题的类型为非领域相关且为自定义闲聊时,将该问题输入预先设置的自定义规则库输出回答,并将该回答返回给用户。
7.一种电子装置,其特征在于,包括:
识别单元,设置为接收用户提交的问题,并根据预先设定的意图识别二分类模型识别所述问题的类型;
判断单元,设置为当所述问题的类型为领域相关时,判断是图谱问答还是FAQ问答;
查询单员,设置为当该问题为图谱问答时,基于该问题归属的垂直领域的知识图谱数据库进行查询;
输出单元,设置为当查询成功时,向用户输出查询结果;
其中,所述意图识别二分类模型是用于识别输入的问题的类型是领域相关还是非领域相关的二分类模型,
其中,所述判断该问题是图谱问答还是FAQ问答,包括:
根据预先设定的意图识别多分类模型识别所述问题归属的垂直领域以及在该垂直领域所归属的下属分类;
根据所述问题归属的垂直领域的下属分类确定对应的词库,基于该词库利用实体抽取算法抽取该问题对应的实体及实体关系;
基于该问题对应的实体及实体关系进行句式分类,基于句式分类判断该问题是图谱问答还是FAQ问答;
其中,所述意图识别多分类模型是用于识别问题归属的垂直领域以及在该垂直领域所归属的下属分类的多分类模型。
8.一种电子装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述人机对话的处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息处理程序,所述信息处理程序被处理器执行时实现如权利要求1-6任一项中所述人机对话的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397838.4A CN111708869B (zh) | 2020-05-12 | 2020-05-12 | 人机对话的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010397838.4A CN111708869B (zh) | 2020-05-12 | 2020-05-12 | 人机对话的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708869A CN111708869A (zh) | 2020-09-25 |
CN111708869B true CN111708869B (zh) | 2023-07-14 |
Family
ID=72537290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010397838.4A Active CN111708869B (zh) | 2020-05-12 | 2020-05-12 | 人机对话的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708869B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328808A (zh) * | 2020-11-03 | 2021-02-05 | 四川长虹电器股份有限公司 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN112988953B (zh) * | 2021-04-26 | 2021-09-03 | 成都索贝数码科技股份有限公司 | 自适应广播电视新闻关键词标准化方法 |
CN113299294B (zh) * | 2021-05-26 | 2024-06-11 | 中国平安人寿保险股份有限公司 | 任务型对话机器人交互方法、装置、设备及存储介质 |
CN113505209A (zh) * | 2021-07-09 | 2021-10-15 | 吉林大学 | 一种面向汽车领域的智能问答*** |
CN113434656B (zh) * | 2021-07-21 | 2023-04-25 | 广州华多网络科技有限公司 | 电商客服匹配方法及其相应的装置、设备、介质 |
CN113590788A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 应用于智能问答***的意图识别方法、装置、设备及介质 |
CN113722458A (zh) * | 2021-08-27 | 2021-11-30 | 海信电子科技(武汉)有限公司 | 视觉问答处理方法、设备、计算机可读介质和程序产品 |
CN116450858B (zh) * | 2023-06-14 | 2023-09-05 | 辰风策划(深圳)有限公司 | 一种电子产品用销售*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理***、存储介质 |
CN107451276A (zh) * | 2017-08-05 | 2017-12-08 | 龙飞 | 一种基于深度学习的智能自助导游***及其方法 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答*** |
CN109471948A (zh) * | 2018-11-08 | 2019-03-15 | 威海天鑫现代服务技术研究院有限公司 | 一种老年健康领域知识问答***构建方法 |
CN110020010A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN110019844A (zh) * | 2019-02-20 | 2019-07-16 | 众安信息技术服务有限公司 | 一种保险行业知识图谱问答***构建方法及装置 |
CN110990541A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种实现问答的方法及装置 |
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107248937A (zh) * | 2017-06-30 | 2017-10-13 | 北京百度网讯科技有限公司 | 一种基于物联网的与用户进行交互的方法与*** |
-
2020
- 2020-05-12 CN CN202010397838.4A patent/CN111708869B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理***、存储介质 |
CN107451276A (zh) * | 2017-08-05 | 2017-12-08 | 龙飞 | 一种基于深度学习的智能自助导游***及其方法 |
CN110020010A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答*** |
CN110990541A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 一种实现问答的方法及装置 |
CN109471948A (zh) * | 2018-11-08 | 2019-03-15 | 威海天鑫现代服务技术研究院有限公司 | 一种老年健康领域知识问答***构建方法 |
CN110019844A (zh) * | 2019-02-20 | 2019-07-16 | 众安信息技术服务有限公司 | 一种保险行业知识图谱问答***构建方法及装置 |
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111708869A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708869B (zh) | 人机对话的处理方法及装置 | |
US11106983B2 (en) | Intelligent interaction method and intelligent interaction system | |
CN106649825B (zh) | 语音交互***及其创建方法和装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN111159385A (zh) | 一种基于动态知识图谱的无模板通用智能问答方法 | |
CN110619050B (zh) | 意图识别方法及设备 | |
CN112115252B (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN114281957A (zh) | 自然语言数据查询方法、装置、电子设备及存储介质 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN116244412A (zh) | 多意图识别方法及装置 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
CN111353026A (zh) | 一种智能法务律师助手客服*** | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及*** | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和*** | |
CN114265921A (zh) | 问答知识库构建方法及其装置、设备、介质、产品 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN113672699A (zh) | 基于知识图谱的nl2sql生成方法 | |
US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
CN111046674B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |