CN114997154B - 一种对话机器人语料自动构造方法及*** - Google Patents
一种对话机器人语料自动构造方法及*** Download PDFInfo
- Publication number
- CN114997154B CN114997154B CN202210508635.7A CN202210508635A CN114997154B CN 114997154 B CN114997154 B CN 114997154B CN 202210508635 A CN202210508635 A CN 202210508635A CN 114997154 B CN114997154 B CN 114997154B
- Authority
- CN
- China
- Prior art keywords
- corpus
- entity
- construction
- library
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 15
- 238000007726 management method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种对话机器人语料自动构造方法及***,所述***包括单条语料构造模块,用于获取单条语料的语料内容,完成单条语料的构造;批量自动构造语料模块,先根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,根据需要构造的语料的句式进行多组实体参数的自动排列组合及填充完成语料构造;文件导入构建语料模块,用于用于接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,本发明生成语料的方式多样化,生成语料质量得到保证,语料内容更加全面、准确。
Description
技术领域
本发明涉及一种对话机器人语料自动构造方法及***,属于机器人语料构造技术领域。
背景技术
随着人工智能技术的发展,智能问答机器人***也逐渐兴起。智能问答机器人需要大量的语料来训练,才能提高应答的准确率。目前主流的语料生成工具主要由语料库实体和语料库引擎组成,其中语料库实体的内容主要是词表,即主谓宾等词汇,语料库引擎的功能包括词频统计、关键词索引等,其实现方式是语料库引擎通过对语料库实体进行计算,进而生成我们所需的语料。
但是,现有的问答机器人所使用的语料库实体需要人工去收集,人工收集的数量很大程度上决定了最终语料的数量与质量;人工收集的语料库,并不能实现同义词、相近词的联想,换言之语料某程度上也只是词库的排列组合;针对专业性强的语料,词库的收集整理需要专业人员耗费大量时间收集整理,而语料库引擎对这些语料实体进行分词时可能会跟自然语言不一样,这样就导致最终的语料跟预期相差甚远,需要重新调整引擎的模型和算法,增加了大量的工作量。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种对话机器人语料自动构造方法及***,解决现实场景中因缺乏语料训练材料导致的对话机器人意图理解不够准确的问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种对话机器人语料自动构造***,包括:
单条语料构造模块,用于获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
批量构造语料模块,用于根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
文件导入构建语料模块,用于接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中。
进一步的,所述单条语料构造模块还包括关联存储模块,用于将该语料内容以及方法名所对应的意图进行关联并存储到数据库中。
进一步的,还包括:实体库管理模块,用于对批量构造语料模块构建的实体库进行管理,包括实体库的查看、增加、删除功能。
进一步的,还包括:方法库管理模块,用于将语料意图转换为方法,建立方法库,并对方法库进行管理,包括方法的查看、新增以及删除功能。
第二方面,本发明提供一种根据前述任一项所述的对话机器人语料自动构造***的构造方法,包括:
所述单条语料构造模块的构造方法包括:获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
所述批量构造语料模块的构造方法包括:根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
所述文件导入构建语料模块的构造方法包括:接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中。
进一步的,所述单条语料构造模块的构造方法还包括:将所述语料内容以及方法名所对应的意图进行关联并存储到数据库中。
进一步的,所述批量构造语料模块的构造方法还包括:当通过实体库构造语料,存在一条语料中同时存在多个实体集合的情况时,通过排列组合算法,遍历所有实体集合中的所有实体,替换对应实体集合的位置。
进一步的,所述批量构造语料模块的构造方法还包括:当实体集合中实体过多,而对于生成的语料要求不高时,将每个实体集合中按百分比对其中的实体进行随机的抽取,然后再通过排列组合的方式进行语料的构造。
进一步的,还包括实体库管理的方法,包括:对实体库的查看、增加、删除方法;
其中,所述对实体库的查看、增加、删除方法,包括:
根据分页获取到所有实体集合的内容,通过增加参数的方式新增实体集合,同时在数据库中新建一个与该实体集合对应的表;
删除指定的实体集合,并删除数据库中该实体集合所对应的表;
查看该实体集合中的所有实体的内容,将实体的内容与数据库中对应表内的内容进行同步。
进一步的,还包括方法库管理的方法,包括:
将语料意图转换为方法,建立方法库,对方法库进行管理;
其中对方法库进行管理包括:方法的查看、新增以及删除功能。
与现有技术相比,本发明所达到的有益效果:
1、本发明提供了多种语料构造方式来提高语料构造的准确性以及全面性,能够通过文件导入、构建实体库和方法库还有特殊语料构造等方式完成语料的构造,对于具有大量需求文档的语料,可以通过基于标注的实体识别方式完成实体库的构建,从而完成语料的自动构造,对于仅有少量文档的情况,我们可以导入构建实体库以及方法库,或者管理实体库、方法库的方式完成语料的自动构造,在此基础上还增加了构造单条语料的功能来保证语料缺失情况下语料的完整性;
2、本发明提供了多种语料构造方式满足不同情况下构造语料的需求,生成语料的方式多样化,生成语料质量得到保证,语料内容更加全面、准确。在实体库中引入了实体集合的概念,语料库中存储的内容将实体替换为实体集合,实现了一对多的映射关系,当有类似功能的语料需要新增语料时,只需在实体集合中新增实体即可,而不需要重复构建内容相似的语料,节省了人力与时间。
附图说明
图1是本发明实施例提供的一种对话机器人语料自动构造***的结构框图;
图2是本发明实施例提供的意图-语料库示意图;
图3是本发明实施例提供的实体库的示意图;
图4是本发明实施例提供的方法库实体图;
图5是本发明实施例提供的实体库、方法库进行语料构造示意图;
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
如图1所示,本实施例介绍一种对话机器人语料自动构造***,包括:
单条语料构造模块,用于获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
批量构造语料模块,用于根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
文件导入构建语料模块,用于接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中。
本实施例提供的对话机器人语料自动构造***,其应用过程具体涉及如下步骤:
步骤1:实体库管理模块。实体库管理模块主要是构建的实体库并对其进行管理,包含了实体集合的查看、增加、删除功能以及实体的查看、增加、删除功能。根据实体的属性创建了实体集合,并将实体以及实体集合构建成实体库,对于相同属性或者相似功能的实体放到一个实体集合中.根据分页获取到所有实体集合的内容,通过增加参数的方式新增实体集合,同时在数据库中新建一个与该实体集合对应的表。实体集合删除功能可以删除指定的实体集合,并删除数据库中该实体集合所对应的表。选中实体集合时可以查看该实体集合中的所有实体的内容,实体的内容与数据库中对应表内的内容进行同步,也可以在该实体集合内新增实体删除实体。
步骤2:方法库管理模块。将语料意图为一个方法库,方法库管理模块主要是对方法库进行管理,包括方法的查看、新增以及删除功能。在进行语料构造时可以通过选中方法库中的内容作为该语料的意图从而使得构造语料的意图更加准确。
步骤3:单条语料构造模块。该模块用于构造少量、格式特殊、无规律性的语料。对于不涉及到实体库的语料,可以在构造语料界面,可以通过构造闲聊语料的方式进行单条语料的构造,选择正确的方法名并输入语料内容完成单条语料的构造,并将语料存储到数据库中。也可以通过文件导入的方式导入已经处理好的格式化语料,根据固定的格式获取语料的文本内容、实体内容以及意图等,并将语料存储到数据库中。
步骤4:批量构造语料模块。为了更加快速、全面、准确的生成语料,通过语料的句式、实体、意图等完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造。构造生成的语料可以进行测试,***将返回该语料所对应的意图以及回复内容。
步骤5:文件导入构建语料模块。通过上传文件,通过实体识别技术提取出文件中的语料内容,将语料送入语料训练模型中,利用基于强化学习的卷积神经网络对语料进行意图识别以及实体识别,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中。
实施例2
本实施例提供一种根据实施例1中任一项所述的对话机器人语料自动构造***的构造方法,包括:
所述单条语料构造模块的构造方法包括:获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
所述批量构造语料模块的构造方法包括:根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
所述文件导入构建语料模块的构造方法包括:接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中。
具体的,所述单条语料构造模块的构造方法还包括:将所述语料内容以及方法名所对应的意图进行关联并存储到数据库中。
具体的,所述批量构造语料模块的构造方法还包括:当通过实体库构造语料,存在一条语料中同时存在多个实体集合的情况时,通过排列组合算法,遍历所有实体集合中的所有实体,替换对应实体集合的位置。
具体的,所述批量构造语料模块的构造方法还包括:当实体集合中实体过多,而对于生成的语料要求不高时,将每个实体集合中按百分比对其中的实体进行随机的抽取,然后再通过排列组合的方式进行语料的构造。
具体的,还包括实体库管理的方法,包括:对实体库的查看、增加、删除方法;
其中,所述对实体库的查看、增加、删除方法,包括:
根据分页获取到所有实体集合的内容,通过增加参数的方式新增实体集合,同时在数据库中新建一个与该实体集合对应的表;
删除指定的实体集合,并删除数据库中该实体集合所对应的表;
查看该实体集合中的所有实体的内容,将实体的内容与数据库中对应表内的内容进行同步。
具体的,还包括方法库管理的方法,包括:
将语料意图转换为方法,建立方法库,对方法库进行管理;
其中对方法库进行管理包括:方法的查看、新增以及删除功能。
实施例3
本实施例提供一种根据实施例1中所述的对话机器人语料自动构造***的实现过程,包括:
1、单条语料构造模块实现过程
通过在文本框中输入单条语料的语料内容,绑定该语料对应的方法名,将单条语料内容传入后台,后台将该语料内容以及方法名所对应的意图进行关联并存储到数据库中,也可以通过文件导入的方式导入已经处理好的格式化语料,根据固定的格式获取语料的文本内容、实体内容以及意图等,并将语料存储到数据库中。
实验效果:可以准确生成语料,同时对该语料测试结果返回正常,满足当具有少量语料需要生成时的快速生成手段。
2、批量构造语料模块实现过程
通过构建语料时,可以在下拉框中选中实体库中的实体集合,并在文本框中输入其他构建语料的文本内容,在意图列表中选择该语料所对应的方法名,点击开始拼接即可自动生成语料,在生成的语料文本中,***会根据实体集合的名称去实体库中该实体集合中获取所有实体并填充至语料文本的实体集合出,从而自动生成一系列相应意图的语料。同时,批量构造语料模块还支持同时拼接多个意图语料。当通过实体库构造语料时,存在一条语料中同时存在多个实体集合的情况,为了得到最完整的语料,通过排列组合算法,遍历所有实体集合中的所有实体,替换对应实体集合的位置;当实体集合中实体过多,而对于生成的语料要求不高时,还支持抽取的方式进行语料的构造,即每个实体集合中按百分比对其中的实体进行随机的抽取,然后再通过排列组合的方式进行语料的构造,得到一个较为完备的语料集合。
实验效果:采用实体库构造语料,可以进行批量生成语料,且将实体进行集合入库管理,便于扩展与维护。
3、文件导入构造语料模块实现过程
通过对文件内文本内容关键词等进行标注,放入基于监督学习的卷积神经网络中进行训练,得到语料训练模型。通过上传文件,***将通过语料训练模型识别出文件中的语料文本以及关键词作为实体,将自然语言处理技术识别出的实体和语料存储到实体库与语料库中,完成语料的提取,同时为了更准确地完成语料自动构造,还提供了接口对生成语料进行修改以及再训练。
实验效果:将自然语言处理技术融入到语料自动构造***,通过机器学习自动生成语料,可以做到无人力干预完成语料的自动构造,节省了人力物力,为了提高构造语料的准确性,可以对语料进行修改,而后再次进行语料训练模型的训练。不断提高语料自动构造的准确性。
4、实体库管理模块实现过程
将具有相同或者相似属性的实体组成实体集合,实体库的管理包括了实体集合的管理以及每个实体集合内实体的管理。在实体库中创建一张表用于存放实体集合,当需要查看、增加或删除实体集合时则对该表进行相应操作,所有实体则存储在并一张实体表中,每一个实体在表中关联上其所对应的实体集合,一个实体可以关联多个实体集合。
实验效果:将实体进行分组集合,更便于管理,删除单个实体或者整个集合都不会影响到整个实体库,同时也便于对实体的批量操作。对于通过实体库自动构造语料,可以使用实体进行语料构造也可以使用实体集合进行构造,当使用实体集合进行语料构造时,***会自动将实体集合中所有实体填充到语料中,得到该实体集合中所有实体对于该意图的相关语料。
5、方法库管理模块实现过程
将意图转换为方法,建立方法库,对意图进行集中管理,具有查看、新增、删除等功能。
实验效果:将意图入库,便于管理操作,构造语料时可以快速对应上相应的意图。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种对话机器人语料自动构造***,其特征在于,包括:
单条语料构造模块,用于获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
批量构造语料模块,用于根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
文件导入构建语料模块,用于接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中;
实体库管理模块,用于对批量构造语料模块构建的实体库进行管理,包括实体库的查看、增加、删除功能;
方法库管理模块,用于将语料意图转换为方法,建立方法库,并对方法库进行管理,包括方法的查看、新增以及删除功能。
2.根据权利要求1所述的对话机器人语料自动构造***,其特征在于:所述单条语料构造模块还包括关联存储模块,用于将该语料内容以及方法名所对应的意图进行关联并存储到数据库中。
3.一种根据权利要求1-2任一项所述的对话机器人语料自动构造***的构造方法,其特征在于,包括:
所述单条语料构造模块的构造方法包括:获取单条语料的语料内容,绑定该语料对应的方法名并输入语料内容完成单条语料的构造,或者通过文件导入的方式导入已经处理好的格式化语料;
所述批量构造语料模块的构造方法包括:根据对话语料中包含的参数创建实体集合,将实体集合分表建模形成实体库,依据语料的句式、实体、意图这“三要素”完成语料的构造,构造语料时,通过获取实体库中所有的实体内容,并根据语料句式将所需要填充的实体进行排列组合得到所有语料实体参数的组合情况,在语料句式中引入语料的实体参数,最后绑定该语料所对应的意图方法从而完成语料构造;
所述文件导入构建语料模块的构造方法包括:接收预先上传的未经过处理的语料文件,将语料送入预先构建的语料训练模型中,利用基于强化学习的卷积神经网络结合***的实体库和方法库,对语料进行意图识别以及参数提取,得到语料对应的意图以及语料所包含的实体,并存储到对应的数据库中;
还包括实体库管理的方法,包括:对实体库的查看、增加、删除方法;
其中,所述对实体库的查看、增加、删除方法,包括:
根据分页获取到所有实体集合的内容,通过增加参数的方式新增实体集合,同时在数据库中新建一个与该实体集合对应的表;
删除指定的实体集合,并删除数据库中该实体集合所对应的表;
查看该实体集合中的所有实体的内容,将实体的内容与数据库中对应表内的内容进行同步;
还包括方法库管理的方法,包括:
将语料意图转换为方法,建立方法库,对方法库进行管理;
其中对方法库进行管理包括:方法的查看、新增以及删除功能。
4.根据权利要求3所述的对话机器人语料自动构造方法,其特征在于:所述单条语料构造模块的构造方法还包括:将所述语料内容以及方法名所对应的意图进行关联并存储到数据库中。
5.根据权利要求3所述的对话机器人语料自动构造方法,其特征在于:所述批量构造语料模块的构造方法还包括:当通过实体库构造语料,存在一条语料中同时存在多个实体集合的情况时,通过排列组合算法,遍历所有实体集合中的所有实体,替换对应实体集合的位置。
6.根据权利要求3所述的对话机器人语料自动构造方法,其特征在于:所述批量构造语料模块的构造方法还包括:当实体集合中实体过多,而对于生成的语料要求不高时,将每个实体集合中按百分比对其中的实体进行随机的抽取,然后再通过排列组合的方式进行语料的构造。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508635.7A CN114997154B (zh) | 2022-05-11 | 2022-05-11 | 一种对话机器人语料自动构造方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508635.7A CN114997154B (zh) | 2022-05-11 | 2022-05-11 | 一种对话机器人语料自动构造方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114997154A CN114997154A (zh) | 2022-09-02 |
CN114997154B true CN114997154B (zh) | 2024-06-25 |
Family
ID=83024747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210508635.7A Active CN114997154B (zh) | 2022-05-11 | 2022-05-11 | 一种对话机器人语料自动构造方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997154B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116860950B (zh) * | 2023-09-04 | 2023-11-14 | 北京市电通电话技术开发有限公司 | 一种术语对话机器人语料更新方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920622B (zh) * | 2018-06-29 | 2021-07-20 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
KR102358485B1 (ko) * | 2019-10-30 | 2022-02-04 | 주식회사 솔트룩스 | 도메인 자동 분류 대화 시스템 |
-
2022
- 2022-05-11 CN CN202210508635.7A patent/CN114997154B/zh active Active
Non-Patent Citations (2)
Title |
---|
Review of intent detection methods in the human-machine dialogue system;Liu Jiao 等;《Journal of physics: conference series》;20191231;第1267卷(第1期);1-10 * |
军事语料实体标注***的设计与实现;周彬彬 等;《信息***工程》;20180820(第08期);56-60 * |
Also Published As
Publication number | Publication date |
---|---|
CN114997154A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866426B (zh) | 软件测试综合控制方法及*** | |
CN105677864A (zh) | 电网调度结构化数据的检索方法及装置 | |
CN109657224B (zh) | 基于数据分析平台的航天器测试报告自动生成方法 | |
CN110489749B (zh) | 一种智能办公自动化***的业务流程优化方法 | |
CN114997154B (zh) | 一种对话机器人语料自动构造方法及*** | |
CN116028653B (zh) | 一种可视化配置多源异构数据构建图谱的方法及*** | |
CN113032418B (zh) | 一种基于树状模型的复杂自然语言查询转sql方法 | |
CN102999524A (zh) | 一种文档关联检索方法及*** | |
CN111488325A (zh) | 基于Hadoop架构的气象大数据汇聚方法 | |
CN114913376A (zh) | 基于图像的缺陷自动识别方法、装置、***及存储介质 | |
CN117093686A (zh) | 智能问答匹配方法、装置、终端及存储介质 | |
CN114417859A (zh) | 一种基于云化区块链技术的数据标准化方法及*** | |
CN108205564B (zh) | 知识体系构建方法及*** | |
CN115168543A (zh) | 一种基于非结构化文本的考题自动生成设计方法 | |
CN104392506B (zh) | 一种支持多终端平台的水电站水工巡检数据同步和数据管理方法 | |
CN114116779A (zh) | 基于深度学习的电网调控领域信息检索方法、***和介质 | |
CN114519071A (zh) | 规则匹配模型的生成方法、匹配方法、***、设备和介质 | |
CN112612812A (zh) | 一种多***数据的处理方法及装置 | |
CN109522356A (zh) | 一种核反应堆数字实验平台 | |
CN118070892B (zh) | 一种基于知识库的智能录入方法及*** | |
CN117827847B (zh) | 结合大语言模型的训练样本构建方法、***、设备及介质 | |
CN111309306B (zh) | 人机交互的对话管理*** | |
CN114722215A (zh) | 一种知识图谱模型的构建方法和*** | |
CN113760913B (zh) | 一种弹性可扩展的装备费用采集方法 | |
CN118092926A (zh) | 一种基于数据仓库模型的建表批量生成方法、***及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |