CN111651572A - 一种多领域任务型对话***、方法和终端 - Google Patents
一种多领域任务型对话***、方法和终端 Download PDFInfo
- Publication number
- CN111651572A CN111651572A CN202010426573.6A CN202010426573A CN111651572A CN 111651572 A CN111651572 A CN 111651572A CN 202010426573 A CN202010426573 A CN 202010426573A CN 111651572 A CN111651572 A CN 111651572A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- text
- dialogue
- reply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明属于智能任务型对话技术领域,公开了一种多领域任务型对话***、方法和终端,所述多领域任务型对话***包括:历史数据获取模块、语音识别模块、语义理解模块、答复生成模块、语音转换模块、主控模块、话术模板管理模块、对话优化模块、云存储模块、终端模块、显示模块。本发明通过语义理解模块可以优化自然语言处理过程,减化人工繁琐的配置过程以达到更精确分词的目的;通过对话优化模块能够引导的话题既能拓展用户已知能力域,增强用户对***的了解。同时,本发明还能够进行多领域的任务对话,实现信息共享,同时能够大幅提高句子特征提取信息量,实现多领域多角色的话术生成,即可同时适用于各不同的领域,从而具有广泛适用性。
Description
技术领域
本发明属于智能任务型对话技术领域,尤其涉及一种多领域任务型对话***、方法和终端。
背景技术
目前,随着人工智能技术不断发展,对话***因其较强的适用性和广泛的应用场景,越来越受到人们的重视,逐渐走进人们生活的方方面面,语音识别与合成、自然语言处理、机器学习、深度神经网络等科学技术的发展,也加速了这一过程的转变,使机器离实现与人流畅对话的目标变得更近。
任务型对话***因场景明确,易于评估对话质量等特点,相比于非任务型具有更大的应用价值,但目前市场上的任务型对话***多为单领域的对话***,例如查天气、订火车票和订餐厅是三个独立的应用领域,如果想在一个机器人中同时集成这三种应用,目前的解决方案需要调用三个独立的域模型,这涉及到复杂的模型切换和参数更新问题,且每个域内的信息是独有的无法共享,造成这种拼凑出来的多域人机对话***的对话质量差强人意。因此,亟需一种新的、多领域任务型对话***。
通过上述分析,现有技术存在的问题及缺陷为:现有任务型对话***为单领域对话,无法进行信息的共享,且对话理解内容以及答复内容质量差。
发明内容
针对现有技术存在的问题,本发明提供了一种多领域任务型对话***、方法和终端。
本发明是这样实现的,一种多领域任务型对话方法,所述多领域任务型对话方法包括以下步骤:
步骤一,通过历史数据获取模块利用数据获取设备获取用户的历史对话语音数据;通过语音识别模块利用语音识别设备将获取的历史对话语音数据转换为文本数据。
步骤二,通过语义理解模块构造特征信息表,通过所述特征信息表对用户文本数据进行更新,通过加密算法对所述特征信息表和更新后的所述文本数据进行加密。
步骤三,输入文本数据,将转换的文本数据进行预处理,获取多个不同领域、不同目的、不同槽值的标准对话数据集。
步骤四,通过模型构建程序构建多任务级联神经网络模型,将预处理后的文本数据输入到最终多任务级联神经网络模型中,获取相应的语义理解路径。
步骤五,基于生成的语义理解路径获取文本数据中语句的领域、意图以及槽值信息;将匹配领域、目的、槽值信息的语义理解路径对构建的多任务级联神经网络模型进行训练。
步骤六,根据模型训练获得的语义理解路径,计算多任务级联神经网络模型的损失函数,模型根据损失函数值进行迭代,获得最终的多任务级联神经网络模型。
步骤七,通过特征提取程序利用所述最终的多任务级联神经网络模型根据特征信息表将数据集中相应的领域、目的、槽值信息与所述文本数据的理解路径信息进行匹配,获得文本数据的特征信息。
步骤八,保留所述文本数据的理解路径信息在所述特征信息表中出现的特征信息,对所述文本数据中的非法序列信息进行删除得到新的字符串。
步骤九,对加密后的所述用户文本数据进行解密和加载,并通过所述用户文本数据对所述新的字符串进行分词、更新,获得新的文本特征数据。
步骤十,通过答复生成模块利用答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本。
步骤十一,通过语音转换模块利用语音转换程序将答复文本转换为语音输出;通过主控模块利用主控器控制所述多领域任务型对话***各个模块的正常运行;通过话术模板管理模块利用模板管理程序进行话术模板的生成、更新以及管理。
步骤十二,通过对话优化模块初始化所述多领域任务型对话***中多个子主题的多个知识点的知识点推荐度值,获取用户的多个历史问题。
步骤十三,确定所述多个历史问题与所述多个子主题之间的相似度值,根据所述相似度值更新所述多个子主题的知识点推荐度值,利用优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;其中,所述相似度值越大,对应的知识点推荐度值越小。
步骤十四,通过云存储模块利用云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告。
步骤十五,通过终端模块利用云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控。
步骤十六,通过显示模块利用显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
进一步,步骤四中,所述多任务级联神经网络模型结构包括BERT层、domain嵌入层、intent嵌入层、domain分类层、intent分类层以及槽标签分类层。
进一步,步骤十中,所述答复文本的生成方法包括:
(1)基于提取到的领域、意图以及槽值信息匹配话术模板;
(2)确定相关答复内容在话术模板中的位置信息,将答复内容填充到对应位置处;
(3)生成包含答复内容的答复文本。
进一步,步骤(1)中,所述基于提取到的领域、意图以及槽值信息匹配话术模板包括:
1)生成话术森林;
所述话术森林采用一棵多叉树的数据结构;
所述多叉树中至少包括三层节点,按照从上到下的顺序依次为根节点、领域节点和角色节点,每个叶子节点分别对应于与所述叶子节点所在路径上的信息相对应的至少一个话术模板;
2)获取提取到的领域、意图以及槽值信息,根据所述提取到的领域、意图以及槽值信息对所述话术森林进行搜索,得到所述提取到的领域、意图以及槽值信息对应的叶子节点;
3)将得到的叶子节点对应的话术模板作为话术模板。
进一步,步骤十三中,所述确定所述多个历史问题与所述多个子主题之间的相似度值的方法,包括:
针对每一个子主题执行以下步骤以确定所述每一个子主题与所述多个历史问题之间的匹配度:
确定所述多个历史问题中的每一个历史问题与当前子主题的多个知识点之间的多个相似度值,以根据所述多个相似度值确定当前历史问题是否命中所述当前子主题;
根据命中所述当前子主题的历史问题的数量确定匹配问题数;
根据所述匹配问题数确定对应所述当前子主题的匹配度。
本发明的另一目的在于提供一种应用所述的多领域任务型对话方法的多领域任务型对话***,所述多领域任务型对话***包括:
历史数据获取模块,与主控模块连接,用于通过数据获取设备获取用户的历史对话语音数据;
语音识别模块,与主控模块连接,用于通过语音识别设备将获取的历史对话语音数据转换为文本数据;
语义理解模块,与主控模块连接,用于通过特征提取程序将转换得到的文本数据进行特征提取,获得文本特征数据;
答复生成模块,与主控模块连接,用于通过答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本;
语音转换模块,与主控模块连接,用于通过语音转换程序将答复文本转换为语音输出;
主控模块,与历史数据获取模块、语音识别模块、语义理解模块、答复生成模块、语音转换模块、话术模板管理模块、对话优化模块、云存储模块、终端模块、显示模块连接,用于通过主控器控制所述多领域任务型对话***各个模块的正常运行;
话术模板管理模块,与主控模块连接,用于通过模板管理程序进行话术模板的生成、更新以及管理;
对话优化模块,与主控模块连接,用于通过优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;
云存储模块,与主控模块连接,用于通过云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告;
终端模块,与主控模块连接,用于通过云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控;
显示模块,与主控模块连接,用于通过显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
进一步,所述语义理解模块包括:
文本预处理单元,用于将转换的文本数据进行预处理;
数据集获取单元,用于获取多个不同领域、不同目的、不同槽值的标准对话数据集;
数据集处理单元,用于对获取的数据集进行匹配处理;
训练单元,用于基于数据集对构建的多任务级联神经网络模型进行训练;
模型优化单元,用于优化得到最终的多任务级联神经网络模型;
语义理解单元,用于将预处理后的文本数据输入到最终多任务级联神经网络模型中,进行相应的语义理解;
特征提取单元,用于基于语义理解结果提取相关特征数据。
本发明的另一目的在于提供一种搭载所述多领域任务型对话方法的终端设备。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的多领域任务型对话方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的多领域任务型对话方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明能够进行多领域的任务对话,实现信息共享,同时能够大幅提高句子特征提取信息量,实现多领域多角色的话术生成,即可同时适用于各不同的领域,从而具有广泛适用性。本发明通过语义理解模块建立特征信息表,包含各种关键词以满足专业领域词汇分词目的,同时用以匹配文本数据,保留文本数据中的特征信息,可以优化自然语言处理过程,在分词的同时可以最大限度地去除与网址、分享链接等中非法序列信息和其他无意义字符。通过特征信息表可以自动更新用户文本数据中特征信息词频,减化人工繁琐的配置过程以达到更精确分词的目的。优化后的分词结果可应用于关键字匹配、文本分类、情感分析等任务中,增加匹配、识别等准确性,对用户文本数据进行加密,实现对加密用户文本数据的读取,增强用户文本数据的安全性。同时,通过对话优化模块根据用户的历史问题确定用户已知的问题,并结合***所具备的主题,确定主题的推荐度值用于找到合适的引导话题,实现引导的话题既能拓展用户已知能力域,增强用户对***的了解,又能被***准确回答。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多领域任务型对话方法流程图。
图2是本发明实施例提供的多领域任务型对话***结构示意图;
图中:1、历史数据获取模块;2、语音识别模块;3、语义理解模块;4、答复生成模块;5、语音转换模块;6、主控模块;7、话术模板管理模块;8、对话优化模块;9、云存储模块;10、终端模块;11、显示模块。
图3是本发明实施例提供的通过特征提取程序将转换得到的文本数据进行特征提取的方法流程图。
图4是本发明实施例提供的答复文本的生成方法流程图。
图5是本发明实施例提供的通过优化程序对所述多领域任务型对话***进行优化设计的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种多领域任务型对话***、方法和终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的多领域任务型对话方法包括以下步骤:
S101,通过历史数据获取模块利用数据获取设备获取用户的历史对话语音数据。
S102,通过语音识别模块利用语音识别设备将获取的历史对话语音数据转换为文本数据。
S103,通过语义理解模块利用特征提取程序将转换得到的文本数据进行特征提取,获得文本特征数据。
S104,通过答复生成模块利用答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本。
S105,通过语音转换模块利用语音转换程序将答复文本转换为语音输出;通过主控模块利用主控器控制所述多领域任务型对话***各个模块正常运行。
S106,通过话术模板管理模块利用模板管理程序进行话术模板的生成、更新以及管理。
S107,通过对话优化模块利用优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告。
S108,通过云存储模块利用云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告。
S109,通过终端模块利用云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控。
S110,通过显示模块利用显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
如图2所示,本发明实施例提供的多领域任务型对话***包括:历史数据获取模块1、语音识别模块2、语义理解模块3、答复生成模块4、语音转换模块5、主控模块6、话术模板管理模块7、对话优化模块8、云存储模块9、终端模块10、显示模块11。
历史数据获取模块1,与主控模块6连接,用于通过数据获取设备获取用户的历史对话语音数据;
语音识别模块2,与主控模块6连接,用于通过语音识别设备将获取的历史对话语音数据转换为文本数据;
语义理解模块3,与主控模块6连接,用于通过特征提取程序将转换得到的文本数据进行特征提取,获得文本特征数据;
答复生成模块4,与主控模块6连接,用于通过答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本;
语音转换模块5,与主控模块6连接,用于通过语音转换程序将答复文本转换为语音输出;
主控模块6,与历史数据获取模块1、语音识别模块2、语义理解模块3、答复生成模块4、语音转换模块5、话术模板管理模块7、对话优化模块8、云存储模块9、终端模块10、显示模块11连接,用于通过主控器控制所述多领域任务型对话***各个模块的正常运行;
话术模板管理模块7,与主控模块6连接,用于通过模板管理程序进行话术模板的生成、更新以及管理;
对话优化模块8,与主控模块6连接,用于通过优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;
云存储模块9,与主控模块6连接,用于通过云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告;
终端模块10,与主控模块6连接,用于通过云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控;
显示模块11,与主控模块6连接,用于通过显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
本发明实施例提供的语义理解模块3包括:
文本预处理单元3-1,用于将转换的文本数据进行预处理;
数据集获取单元3-2,用于获取多个不同领域、不同目的、不同槽值的标准对话数据集;
数据集处理单元3-3,用于对获取的数据集进行匹配处理;
训练单元3-4,用于基于数据集对构建的多任务级联神经网络模型进行训练;
模型优化单元3-5,用于优化得到最终的多任务级联神经网络模型;
语义理解单元3-6,用于将预处理后的文本数据输入到最终多任务级联神经网络模型中,进行相应的语义理解;
特征提取单元3-7,用于基于语义理解结果提取相关特征数据。
下面结合具体实施例对本发明作进一步描述。
实施例1
本发明实施例提供的多领域任务型对话方法如图1所示,作为优选实施例,如图3所示,本发明实施例提供的通过特征提取程序将转换得到的文本数据进行特征提取的方法包括:
S201,通过语义理解模块构造特征信息表,通过所述特征信息表对用户文本数据进行更新,通过加密算法对所述特征信息表和更新后的所述文本数据进行加密。
S202,输入文本数据,将转换的文本数据进行预处理,获取多个不同领域、不同目的、不同槽值的标准对话数据集。
S203,通过模型构建程序构建多任务级联神经网络模型,将预处理后的文本数据输入到最终多任务级联神经网络模型中,获取相应的语义理解路径。
S204,基于生成的语义理解路径获取文本数据中语句的领域、意图以及槽值信息;将匹配领域、目的、槽值信息的语义理解路径对构建的多任务级联神经网络模型进行训练。
S205,根据模型训练获得的语义理解路径,计算多任务级联神经网络模型的损失函数,模型根据损失函数值进行迭代,获得最终的多任务级联神经网络模型。
S206,通过特征提取程序利用所述最终的多任务级联神经网络模型根据特征信息表将数据集中相应的领域、目的、槽值信息与所述文本数据的理解路径信息进行匹配,获得文本数据的特征信息。
S207,保留所述文本数据的理解路径信息在所述特征信息表中出现的特征信息,对所述文本数据中的非法序列信息进行删除得到新的字符串。
S208,对加密后的所述用户文本数据进行解密和加载,并通过所述用户文本数据对所述新的字符串进行分词、更新,获得新的文本特征数据。
本发明实施例提供的多任务级联神经网络模型结构包括BERT层、domain嵌入层、intent嵌入层、domain分类层、intent分类层以及槽标签分类层。
实施例2
本发明实施例提供的多领域任务型对话方法如图1所示,作为优选实施例,如图4所示,本发明实施例提供的答复文本的生成方法包括:
S301,基于提取到的领域、意图以及槽值信息匹配话术模板。
S302,确定相关答复内容在话术模板中的位置信息,将答复内容填充到对应位置处。
S303,生成包含答复内容的答复文本。
本发明实施例提供的基于提取到的领域、意图以及槽值信息匹配话术模板包括:
1)生成话术森林;
所述话术森林采用一棵多叉树的数据结构;
所述多叉树中至少包括三层节点,按照从上到下的顺序依次为根节点、领域节点和角色节点,每个叶子节点分别对应于与所述叶子节点所在路径上的信息相对应的至少一个话术模板。
2)获取提取到的领域、意图以及槽值信息,根据所述提取到的领域、意图以及槽值信息对所述话术森林进行搜索,得到所述提取到的领域、意图以及槽值信息对应的叶子节点。
3)将得到的叶子节点对应的话术模板作为话术模板。
实施例3
本发明实施例提供的多领域任务型对话方法如图1所示,作为优选实施例,如图5所示,本发明实施例提供的通过优化程序对所述多领域任务型对话***进行优化设计的方法包括:
S401,通过对话优化模块初始化所述多领域任务型对话***中多个子主题的多个知识点的知识点推荐度值,获取用户的多个历史问题。
S402,确定所述多个历史问题与所述多个子主题之间的相似度值,根据所述相似度值更新所述多个子主题的知识点推荐度值。
S403,利用优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;其中,所述相似度值越大,对应的知识点推荐度值越小。
本发明实施例提供的所述确定所述多个历史问题与所述多个子主题之间的相似度值的方法,包括:
针对每一个子主题执行以下步骤以确定所述每一个子主题与所述多个历史问题之间的匹配度:
确定所述多个历史问题中的每一个历史问题与当前子主题的多个知识点之间的多个相似度值,以根据所述多个相似度值确定当前历史问题是否命中所述当前子主题;
根据命中所述当前子主题的历史问题的数量确定匹配问题数;
根据所述匹配问题数确定对应所述当前子主题的匹配度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种多领域任务型对话方法,其特征在于,所述多领域任务型对话方法包括以下步骤:
步骤一,通过历史数据获取模块利用数据获取设备获取用户的历史对话语音数据;通过语音识别模块利用语音识别设备将获取的历史对话语音数据转换为文本数据;
步骤二,通过语义理解模块构造特征信息表,通过所述特征信息表对用户文本数据进行更新,通过加密算法对所述特征信息表和更新后的所述文本数据进行加密;
步骤三,输入文本数据,将转换的文本数据进行预处理,获取多个不同领域、不同目的、不同槽值的标准对话数据集;
步骤四,通过模型构建程序构建多任务级联神经网络模型,将预处理后的文本数据输入到最终多任务级联神经网络模型中,获取相应的语义理解路径;
步骤五,基于生成的语义理解路径获取文本数据中语句的领域、意图以及槽值信息;将匹配领域、目的、槽值信息的语义理解路径对构建的多任务级联神经网络模型进行训练;
步骤六,根据模型训练获得的语义理解路径,计算多任务级联神经网络模型的损失函数,模型根据损失函数值进行迭代,获得最终的多任务级联神经网络模型;
步骤七,通过特征提取程序利用所述最终的多任务级联神经网络模型根据特征信息表将数据集中相应的领域、目的、槽值信息与所述文本数据的理解路径信息进行匹配,获得文本数据的特征信息;
步骤八,保留所述文本数据的理解路径信息在所述特征信息表中出现的特征信息,对所述文本数据中的非法序列信息进行删除得到新的字符串;
步骤九,对加密后的所述用户文本数据进行解密和加载,并通过所述用户文本数据对所述新的字符串进行分词、更新,获得新的文本特征数据;
步骤十,通过答复生成模块利用答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本;
步骤十一,通过语音转换模块利用语音转换程序将答复文本转换为语音输出;通过主控模块利用主控器控制所述多领域任务型对话***各个模块的正常运行;通过话术模板管理模块利用模板管理程序进行话术模板的生成、更新以及管理;
步骤十二,通过对话优化模块初始化所述多领域任务型对话***中多个子主题的多个知识点的知识点推荐度值,获取用户的多个历史问题;
步骤十三,确定所述多个历史问题与所述多个子主题之间的相似度值,根据所述相似度值更新所述多个子主题的知识点推荐度值,利用优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;其中,所述相似度值越大,对应的知识点推荐度值越小;
步骤十四,通过云存储模块利用云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告;
步骤十五,通过终端模块利用云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控;
步骤十六,通过显示模块利用显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
2.如权利要求1所述的多领域任务型对话方法,其特征在于,步骤四中,所述多任务级联神经网络模型结构包括BERT层、domain嵌入层、intent嵌入层、domain分类层、intent分类层以及槽标签分类层。
3.如权利要求1所述的多领域任务型对话方法,其特征在于,步骤十中,所述答复文本的生成方法包括:
(1)基于提取到的领域、意图以及槽值信息匹配话术模板;
(2)确定相关答复内容在话术模板中的位置信息,将答复内容填充到对应位置处;
(3)生成包含答复内容的答复文本。
4.如权利要求3所述的多领域任务型对话方法,其特征在于,步骤(1)中,所述基于提取到的领域、意图以及槽值信息匹配话术模板包括:
1)生成话术森林;
所述话术森林采用一棵多叉树的数据结构;
所述多叉树中至少包括三层节点,按照从上到下的顺序依次为根节点、领域节点和角色节点,每个叶子节点分别对应于与所述叶子节点所在路径上的信息相对应的至少一个话术模板;
2)获取提取到的领域、意图以及槽值信息,根据所述提取到的领域、意图以及槽值信息对所述话术森林进行搜索,得到所述提取到的领域、意图以及槽值信息对应的叶子节点;
3)将得到的叶子节点对应的话术模板作为话术模板。
5.如权利要求1所述的多领域任务型对话方法,其特征在于,步骤十三中,所述确定所述多个历史问题与所述多个子主题之间的相似度值的方法,包括:
针对每一个子主题执行以下步骤以确定所述每一个子主题与所述多个历史问题之间的匹配度:
确定所述多个历史问题中的每一个历史问题与当前子主题的多个知识点之间的多个相似度值,以根据所述多个相似度值确定当前历史问题是否命中所述当前子主题;
根据命中所述当前子主题的历史问题的数量确定匹配问题数;
根据所述匹配问题数确定对应所述当前子主题的匹配度。
6.一种应用如权利要求1~5任意一项所述的多领域任务型对话方法的多领域任务型对话***,其特征在于,所述多领域任务型对话***包括:
历史数据获取模块,与主控模块连接,用于通过数据获取设备获取用户的历史对话语音数据;
语音识别模块,与主控模块连接,用于通过语音识别设备将获取的历史对话语音数据转换为文本数据;
语义理解模块,与主控模块连接,用于通过特征提取程序将转换得到的文本数据进行特征提取,获得文本特征数据;
答复生成模块,与主控模块连接,用于通过答复生成程序基于识别得到的文本特征数据结合历史对话语音数据访问云数据库服务器,匹配对应的回复话术模板,并生成答复文本;
语音转换模块,与主控模块连接,用于通过语音转换程序将答复文本转换为语音输出;
主控模块,与历史数据获取模块、语音识别模块、语义理解模块、答复生成模块、语音转换模块、话术模板管理模块、对话优化模块、云存储模块、终端模块、显示模块连接,用于通过主控器控制所述多领域任务型对话***各个模块的正常运行;
话术模板管理模块,与主控模块连接,用于通过模板管理程序进行话术模板的生成、更新以及管理;
对话优化模块,与主控模块连接,用于通过优化程序对所述多领域任务型对话***进行优化设计,并生成***优化报告;
云存储模块,与主控模块连接,用于通过云数据库服务器存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告;
终端模块,与主控模块连接,用于通过云数据库服务器将获取的多领域任务型对话数据发送至移动终端,进行所述多领域任务型对话***的远程操控;
显示模块,与主控模块连接,用于通过显示器显示存储获取的用户历史对话语音数据、文本数据、提取的文本特征数据、答复文本以及***优化报告的实时数据。
7.如权利要求6所述的多领域任务型对话***,其特征在于,所述语义理解模块包括:
文本预处理单元,用于将转换的文本数据进行预处理;
数据集获取单元,用于获取多个不同领域、不同目的、不同槽值的标准对话数据集;
数据集处理单元,用于对获取的数据集进行匹配处理;
训练单元,用于基于数据集对构建的多任务级联神经网络模型进行训练;
模型优化单元,用于优化得到最终的多任务级联神经网络模型;
语义理解单元,用于将预处理后的文本数据输入到最终多任务级联神经网络模型中,进行相应的语义理解;
特征提取单元,用于基于语义理解结果提取相关特征数据。
8.一种搭载如权利要求1~5任意一项所述的多领域任务型对话方法的终端设备。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~5任意一项所述的多领域任务型对话方法。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1~5任意一项所述的多领域任务型对话方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426573.6A CN111651572A (zh) | 2020-05-19 | 2020-05-19 | 一种多领域任务型对话***、方法和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010426573.6A CN111651572A (zh) | 2020-05-19 | 2020-05-19 | 一种多领域任务型对话***、方法和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651572A true CN111651572A (zh) | 2020-09-11 |
Family
ID=72346788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010426573.6A Withdrawn CN111651572A (zh) | 2020-05-19 | 2020-05-19 | 一种多领域任务型对话***、方法和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651572A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420053A (zh) * | 2021-01-19 | 2021-02-26 | 南京纳新信息科技有限公司 | 智能交互式人机对话*** |
CN112905781A (zh) * | 2021-03-31 | 2021-06-04 | 闽江学院 | 人工智能对话方法 |
CN112905780A (zh) * | 2021-03-31 | 2021-06-04 | 闽江学院 | 人工智能对话装置 |
CN114238605A (zh) * | 2021-12-17 | 2022-03-25 | 北京斗米优聘科技发展有限公司 | 一种智能语音客服机器人自动对话方法及装置 |
CN114722171A (zh) * | 2022-03-28 | 2022-07-08 | 北京百度网讯科技有限公司 | 多轮对话处理方法、装置、电子设备及存储介质 |
CN115617972A (zh) * | 2022-12-14 | 2023-01-17 | 成都明途科技有限公司 | 一种机器人对话方法、装置、电子设备及存储介质 |
-
2020
- 2020-05-19 CN CN202010426573.6A patent/CN111651572A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420053A (zh) * | 2021-01-19 | 2021-02-26 | 南京纳新信息科技有限公司 | 智能交互式人机对话*** |
CN112905781A (zh) * | 2021-03-31 | 2021-06-04 | 闽江学院 | 人工智能对话方法 |
CN112905780A (zh) * | 2021-03-31 | 2021-06-04 | 闽江学院 | 人工智能对话装置 |
CN112905780B (zh) * | 2021-03-31 | 2022-04-29 | 闽江学院 | 人工智能对话装置 |
CN112905781B (zh) * | 2021-03-31 | 2022-05-03 | 闽江学院 | 人工智能对话方法 |
CN114238605A (zh) * | 2021-12-17 | 2022-03-25 | 北京斗米优聘科技发展有限公司 | 一种智能语音客服机器人自动对话方法及装置 |
CN114722171A (zh) * | 2022-03-28 | 2022-07-08 | 北京百度网讯科技有限公司 | 多轮对话处理方法、装置、电子设备及存储介质 |
CN114722171B (zh) * | 2022-03-28 | 2023-10-24 | 北京百度网讯科技有限公司 | 多轮对话处理方法、装置、电子设备及存储介质 |
CN115617972A (zh) * | 2022-12-14 | 2023-01-17 | 成都明途科技有限公司 | 一种机器人对话方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984683B (zh) | 结构化数据的提取方法、***、设备及存储介质 | |
CN111651572A (zh) | 一种多领域任务型对话***、方法和终端 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
CN106446045B (zh) | 基于对话交互的用户画像的构建方法及*** | |
WO2018036555A1 (zh) | 会话处理方法及装置 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110399385A (zh) | 一种用于小数据集的语义分析方法和*** | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN109885810A (zh) | 基于语义解析的人机问答方法、装置、设备和存储介质 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN109670166A (zh) | 基于语音识别的催收辅助方法、装置、设备和存储介质 | |
CN111324708A (zh) | 一种基于人机交互的自然语言处理*** | |
JP7488871B2 (ja) | 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム | |
WO2021063089A1 (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
KR102444457B1 (ko) | 단어 그래프를 이용한 대화의 요약 생성 방법 | |
EP4239496A1 (en) | Near real-time in-meeting content item suggestions | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
US20210004603A1 (en) | Method and apparatus for determining (raw) video materials for news | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN110249326B (zh) | 自然语言内容生成器 | |
US20230004715A1 (en) | Method and apparatus for constructing object relationship network, and electronic device | |
CN116108918A (zh) | 对话预训练模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200911 |
|
WW01 | Invention patent application withdrawn after publication |