CN111159999B - 一种填充词槽的方法、装置、电子设备及存储介质 - Google Patents
一种填充词槽的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111159999B CN111159999B CN201911233540.3A CN201911233540A CN111159999B CN 111159999 B CN111159999 B CN 111159999B CN 201911233540 A CN201911233540 A CN 201911233540A CN 111159999 B CN111159999 B CN 111159999B
- Authority
- CN
- China
- Prior art keywords
- text data
- word slot
- matching
- word
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及计算机技术领域,公开了一种填充词槽的方法、装置、电子设备及存储介质。本发明中填充词槽的方法,获取待解析文本数据;从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型,匹配模型包括词槽标签与文本数据之间的对应关系,词槽标签用于标识词槽;根据匹配的匹配模型,确定待解析文本数据的词槽标签;从待解析文本数据中提取与词槽标签对应的文本数据,将提取的文本数据作为词槽的词槽内容。本实施方式,提高了填充词槽的速度以及准确性。
Description
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种填充词槽的方法、装置、电子设备及存储介质。
背景技术
随着神经网络的发展,特别是深度神经网络技术的异军突起,自然语言处理(Natural Language Process,简称“NLP”)领域也取得了非常大的进展,NLP中的语义理解(Natural Language Understand,简称“NLU”)也有了明显的进步,但是距离人们的期望还有较大的差距,因此越来越多的深度神经网络的技术应用到NLP中,期望在NLP领域取得革命性的进步。NLP领域最重要的就是语义理解,语义理解中重要的是填充词槽,填充词槽是根据输入的文本内容确定词槽,并提取词槽内容填充该词槽,通过填充词槽可以快速完成对输入的文本内容的语义解析。
发明人发现相关技术中至少存在如下问题:目前填充词槽的方法包括深度学习、模板匹配等;利用深度学习构建模型,将待解析的文本输入模型,即可得到该待解析的文本的词槽内容,但是这种训练方式得到的模型需要消耗大量的人力和时间,导致生成的模型成本高。模板匹配的方式是需要根据同一种语义的不同表达方式设计匹配的模板,通过模块匹配的方式,得到待解析的文本的词槽内容,但是这种方式的工作量大,同时由于匹配过程中,若有一个字符串不同,将导致匹配失败,不能获得准确的词槽内容,模板匹配的适用性差。
发明内容
本发明实施方式的目的在于提供一种填充词槽的方法、装置、电子设备及存储介质,提高了填充词槽的速度以及准确性。
为解决上述技术问题,本发明的实施方式提供了一种填充词槽的方法,获取待解析文本数据;从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型,匹配模型包括词槽标签与文本数据之间的对应关系,词槽标签用于标识词槽;根据匹配的匹配模型,确定待解析文本数据的词槽标签;从待解析文本数据中提取与词槽标签对应的文本数据,将提取的文本数据作为词槽的词槽内容。
本发明的实施方式还提供了一种填充词槽的装置,包括:获取模块、选取模块、确定模块以及提取模块;获取模块用于获取待解析文本数据;选取模块用于,从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型,匹配模型包括词槽标签与文本数据之间的对应关系,词槽标签用于标识所述词槽;确定模块用于,根据匹配的匹配模型,确定待解析文本数据的词槽标签;提取模块用于从待解析文本数据中提取与词槽标签对应的文本数据,将提取的文本数据作为词槽的词槽内容。
本发明的实施方式还提供了一种电子设备,包括:一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述填充词槽的方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述填充词槽的方法。
本发明实施方式相对于现有技术而言,通过先确定与待解析文本数据的文本类别匹配的匹配模型,每个匹配模型包括词槽标签与文本数据之间的对应关系,根据匹配模型确定待解析文本数据的词槽标签,通过词槽标签提取出与词槽标签对应的文本数据,完成词槽的填充,存储了多个不同文本类别的匹配模型,因而通过先确定匹配的匹配模型,缩小匹配该待解析文本数据的范围,避免出现词槽填充错误的情况,提高后续进行词槽填充的准确度,提高词槽填充的速度;同时,由于现确定匹配的匹配模型,也确定出了该待解析文本数据的文本类别,实现了对待解析文本数据的分类需求;此外,由于存储了多个匹配模型,每个匹配模型的文本类别不同,从而便于后续按照文本类别扩充匹配模型的数量;匹配模型包括文本数据与词槽标签之间的对应关系,使得可以灵活扩充或更改每个匹配模型中的对应关系,由于无需重新进行训练,降低了构建匹配模型的成本以及词槽填充的成本。
另外,匹配模型是基于字典构建的多模匹配自动机,字典以键值对的形式存储文本数据与词槽标签之间的对应关系,其中,匹配模型的文本类别与字典中的词槽标签的文本类别相同;在从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型之前,填充词槽的方法还包括:根据语料库确定字典中的每个键值对,语料库包括文本数据以及词槽标签;选取相同文本类别的词槽标签所在的键值对构建所述匹配模型。匹配模型是基于字典构建的多模匹配自动机,由于多模匹配自动机以树结构存储数据,使得匹配模型可以快速对文本数据进行匹配,提高对待解析文本数据的匹配速度;此外,每个匹配模型中文本数据对应的词槽标签的文本类别相同,有利于后续与待解析文本数据的文本类别进行匹配,选取出适合该待解析文本数据的匹配模型,提高填充词槽的准确性。
另外,根据语料库确定字典中的每个键值对,具体包括:从语料库中确定文本数据以及与文本数据对应的词槽标签;将确定的文本数据作为键值对中的键,将与文本数据对应的词槽标签作为键值对中的数值。由于键的唯一性,以文本数据作键,避免出现对相同的文本数据对应出不同的词槽标签的情况,提高填充词槽的准确性。
另外,从语料库中确定文本数据以及与文本数据对应的词槽标签,具体包括:从语料库中提取初始词槽文本数据,以及与初始词槽文本数据对应的初始词槽标签;判断提取的任意两个初始词槽文本数据是否相同,若确定相同,则将初始词槽文本数据作为文本数据;分别获取每个初始词槽标签在语料库中出现的频率,选取最大频率的初始词槽标签作为与文本数据对应的词槽标签;若确定不同,则将初始词槽文本数据作为文本数据,将初始词槽标签作为与文本数据对应的词槽标签。语料库中存储了各种初始词槽文本数据,以及与初始词槽文本数据对应的初始词槽标签,由于存在相同的初始词槽文本数据有对应多个不同初始词槽标签的情况,为了确保构建的匹配模型的准确性,根据在语料库中出现的频率,确定出与文本数据对应的词槽标签。
另外,从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型,具体包括:将待解析文本数据分别在每个匹配模型中进行匹配,获取每个匹配模型的匹配结果;根据每个匹配结果,确定每个匹配模型的匹配置信度,匹配置信度为被匹配成功的文本数据的总长度与待解析文本数据的总长度之间的比值;根据获取的每个匹配模型的匹配置信度,确定与待解析文本数据匹配的匹配模型。基于每个匹配模型的匹配置信度的大小,选取匹配模型,提高选取匹配模型的速度以及准确率。
另外,将待解析文本数据分别在每个匹配模型中进行匹配,获取每个匹配模型的匹配结果,具体包括:针对每个匹配模型进行如下处理:将匹配模型中的每个键分别与待解析文本数据进行匹配;判断多个被匹配的键对应的词槽标签中是否存在相同的词槽标签,若确定存在,则选取最大长度被匹配的键作为被匹配成功的文本数据,否则,将被匹配的键作为被匹配成功的文本数据。通过判断是否存在相同的词槽标签,选取最大长度对应的被匹配的键作为被匹配成功的文本数据,该被匹配的键对应的词槽标签为被匹配成功的文本数据对应的词槽标签,去掉匹配重复的词槽标签,有利于后续填充词槽,提高填充词槽的准确性。
另外,根据获取的每个匹配模型的匹配置信度,确定与待解析文本数据匹配的匹配模型,具体包括:按照匹配置信度对每个匹配模型进行排序;判断是否存在多个最高匹配置信度,若存在,则获取用户信息,根据用户信息从多个最高匹配置信度所对应的匹配模型中选取匹配的匹配模型;否则,选取最高匹配置信度所对应的匹配模型作为匹配的匹配模型,用户信息包括用户意图的数据。基于用户信息从多个最高匹配置信度所对应的匹配模型中选取匹配的匹配模型,进一步提高匹配模型选取的准确性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式提供的一种填充词槽的装置的具体流程图;
图2是根据本发明第一实施方式提供的一种确定文本数据以及与文本数据对应的词槽标签的具体实现示意图;
图3是根据本发明第一实施方式提供的一种选取匹配的匹配模型的具体实现示意图;
图4是根据本发明第二实施方式提供的一种填充词槽的装置的具体流程图;
图5是根据本发明第三实施方式提供的一种填充词槽的装置的具体结构示意图;
图6是根据本发明第四实施方式提供的一种电子设备的具体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
发明人发现相关技术中,实现对待解析文本数据的语义理解通常就是完成对该待解析数据填充词槽,通过对词槽的填充,确定出用户的意图,从而实现对该待解析文本数据的语义理解。目前的填充词槽的方式可以通过深度学习的方式实现,深度学习的方式需要收集大量的语料数据,按照预设规则对语料数据进行词槽的标注,语料数据完成标注后,利用深度学习模型进行训练,得到一个训练后的模型,然后使用该训练后的模型对新输入的待解析文本数据进行填充词槽,从而预测该待解析文本数据所表达的用户意图;但是对语料数据进行词槽的标注非常消耗人力成本,且训练时间长,当需要扩充使用的范围时,需要重新训练,成本高。另一种填充词槽的方式是通过设计语义理解的模板实现填充词槽,但这种方式中模板设计需要消耗大量人力,同时,设计的模板并不一定全面,会导致不能很好的对词槽进行填充,且扩展性较差,维护成本高。
本发明的第一实施方式涉及一种填充词槽的方法,该填充词槽的方法可以用于服务器、客户端等电子设备上,例如,云端服务器、机器人等。该填充词槽的方法的具体流程如图1所示。
步骤101:获取待解析文本数据。
具体的说,待解析文本数据可以由用户通过输入界面输入获得,也可以采集用户语音数据,将语音数据转换为待解析文本数据;还可以是通过其他第三方设备上传获得。
步骤102:从存储的多个匹配模型中,选取与待解析文本数据的文本类别相匹配的匹配模型,匹配模型包括词槽标签与文本数据之间的对应关系,词槽标签用于标识词槽。
在选取与待解析文本数据的文本类别相匹配的匹配模型之前,可以预先存储多个匹配模型,该匹配模型是基于字典构建的多模匹配自动机,字典以键值对的形式存储文本数据与词槽标签之间的对应关系,其中,匹配模型的文本类别与字典中的词槽标签的文本类别相同。
具体的说,多模匹配自动机(AC自动机)以字典树的结构存储数据,并基于多模匹配算法查询存储的数据。该匹配模型中的字典以键值对的形式存储文本数据与词槽标签之间的对应关系,该字典中可以存储N个键值对,N为大于0的整数。为确保匹配模型的准确性,该字典中可以包括多个键值对。每个匹配模型构建的具体过程如下:根据语料库确定字典中的每个键值对,语料库包括文本数据以及词槽标签;选取相同文本类别的词槽标签所在的键值对构建匹配模型。
在一个例子中,根据语料库确定字典中的每个键值对的具体过程为:从语料库中确定文本数据以及与文本数据对应的所述词槽标签;将确定的文本数据作为键值对中的键,将与文本数据对应的词槽标签作为该键值对中的数值。
具体的说,该语料库中存储有各种文本类别的初始词槽文本数据以及对应的初始词槽标签,该词槽标签用于标识该词槽,例如,词槽为[目的地],可以用词槽标签“city”标识该词槽[目的地]。每个词槽都有唯一的词槽标签,通过词槽标签便于在匹配模型中存储与文本数据的关系,也便于后续基于词槽标签对匹配模型的文本类别进行分类。初始词槽文本数据为每个词槽标签的不同表达,故可以不同的初始词槽文本数据对应相同的初始词槽标签,例如,初始词槽文本数据1为“深圳”,该初始词槽文本数据1为词槽[目的地]的一种表达,初始词槽文本数据2为“上海”,该初始词槽文本数据2是该词槽[目的地]的另一种表达,故该初始词槽文本数据1对应的初始词槽标签为“city”,初始词槽文本数据对应的词槽标签“city”。
下面具体介绍从语料库中确定文本数据以及与文本数据对应的词槽标签的具体过程,该过程可以包括如图2所示的子步骤。
子步骤S11:从语料库中提取初始词槽文本数据,以及与初始词槽文本数据对应的初始词槽标签。
具体的说,直接从语料库中提取出多个初始词槽文本数据,以及与初始词槽文本数据对应的初始词槽标签,可以根据实际需要选择提取初始词槽文本数据以及对应的初始词槽标签的数量。可以理解的是,为了后续准确地填充词槽,初始词槽文本数据以及对应的初始词槽标签的数量应尽可能多。
子步骤S12:判断提取的任意两个初始词槽文本数据是否相同,若确定相同,则执行步骤S13,若确定不同,则执行子步骤S15。
具体的说,语料库中的初始词槽文本数据非常大,而初始词槽标签是非常有限的,可能存在“某首歌”的字符串与“某本书”的字符串相同的情况,例如,歌名为《赤壁》,与书名为《赤壁》的字符串相同,而字典中每个键值对的键(key)是唯一的,需要先判断提取的任意两个初始词槽文本数据是否相同,即判断两个初始文本数据中的字符串是否完全相同,若是相同,则确定两个初始词槽文本数据相同。
子步骤S13:将初始词槽文本数据作为文本数据。
子步骤S14:分别获取每个初始词槽标签在语料库中出现的频率,选取最大频率的初始词槽标签作为与文本数据对应的词槽标签。
当出现任意两个初始词槽文本数据相同情况时,需要根据情况选择出准确的初始词槽文本数据作为键值对中的键,确保键的唯一性,选择的方式可以通过统计“某首歌”与“某书名”在语料库中出现的频率,选择出现的频率高的初始词槽标签作为与文本数据对应的词槽标签,这样可以保证后续构建的匹配模型对待解析文本数据进行匹配的匹配结果最优。
子步骤S15:将初始词槽文本数据作为文本数据,将初始词槽标签作为与文本数据对应的词槽标签。
具体的说,不存在多个相同的初始词槽文本数据,则可以直接将提取的初始词槽文本数据作为文本数据,将对应的词槽标签作为与该文本数据对应的词槽标签。
该电子设备中存储多个不同类别的匹配模型,选取匹配的匹配模型的具体过程可以包括如图3所示的子步骤:
子步骤S21:将待解析文本数据分别在每个匹配模型中进行匹配,获取每个匹配模型的匹配结果。
具体的说,每个匹配模型会自动将每个键与待解析文本数据进行比对,若查找到该待解析文本数据中与键相同的文本数据,则该键为被匹配的键,该匹配结果即包括每个被匹配的键,以及被匹配的键对应的词槽标签。
子步骤S22:根据每个匹配结果,确定每个匹配模型的匹配置信度,匹配置信度为被匹配成功的文本数据的总长度与待解析文本数据的总长度之间的比值。
根据每个匹配模型的匹配结果,可以计算每个匹配模型的匹配置信度,匹配置信度为被匹配成功的文本数据的总长度与待解析文本数据的总长度之间的比值。该被匹配成功的文本数据的总长度等于每个被匹配的键的长度之和。例如,待解析文本数据为“abcdefg”,被匹配的键为“bc”以及“efg”,那么该匹配置信度=(2+3)/7。
子步骤S23:根据获取的每个匹配模型的匹配置信度,确定与待解析文本数据匹配的匹配模型。
可以选取最大匹配置信度的匹配模型作为与该待解析文本数据匹配的匹配模型。具体的说,按照匹配置信度对每个匹配模型进行排序;判断是否存在多个最高匹配置信度,若存在,则获取用户信息,根据用户信息从多个最高匹配置信度所对应的匹配模型中选取匹配的匹配模型;否则,选取最高匹配置信度所对应的匹配模型作为匹配的匹配模型,用户信息包括用户意图的数据。例如,匹配模型A的匹配置信度为0.9,匹配模型B的匹配置信度为0.9,匹配置信度C的匹配置信度为0.8,按照匹配置信度进行排序,确定最高匹配置信度有多个,分别为匹配模型A和匹配模型B,获取用户信息,该用户信息可以是历史数据,确定选择匹配模型A。
步骤103:根据匹配的匹配模型,确定待解析文本数据的词槽标签。
具体的说,可以重新将待解析文本数据输入该匹配模型,重新进行匹配,得到被匹配的键以及对应词槽标签。还可以获取子步骤S21中得到的该匹配的匹配模型的匹配结果。匹配结果中包括了被匹配的键,以及对应的词槽标签,可以根据词槽标签的文本类别确定出有用的词槽标签以及无用的词槽标签,将有用的词槽标签作为该待解析文本数据的词槽标签。例如,我想听某人的某首歌”这一待解析文本数据,匹配结果为<我想听>:play,<某人>:singer,<的>:other,<某首歌>:song,根据该词槽标签的文本类别,可以确定词槽标签“other”为无用的词槽标签,从而确定出该待解析文本数据的词槽标签为:play,singer和song。
步骤104:从待解析文本数据中提取与词槽标签对应的文本数据,将提取的文本数据作为词槽的词槽内容。
例如,我想听某人的某首歌”这一待解析文本数据,匹配结果为<我想听>:play,<某人>:singer,<的>:other,<某首歌>:song,根据该词槽标签的文本类别,可以确定词槽标签“other”为无用的词槽标签,从而确定出该待解析文本数据的词槽标签为:play,singer和song,其中,词槽标签play对应的词槽[播放动作];词槽标签singer对应词槽[歌手],词槽标签song对应词槽[歌名];分别获取三个词槽标签对应的词槽,提取与词槽标签对应的文本数据作为词槽的词槽内容,即将“我想听”填充词槽[播放动作],将“某人”填充词槽[歌手],将“某歌”填充词槽[歌名],由于词槽[播放动作],电子设备识别该播放动作机会播放,与该动作相关的词槽内容没关系,不影响电子设备对该待解析文本数据的理解。
本发明实施方式相对于现有技术而言,通过先确定与待解析文本数据的文本类别匹配的匹配模型,每个匹配模型包括词槽标签与文本数据之间的对应关系,根据匹配模型确定待解析文本数据的词槽标签,通过词槽标签提取出与词槽标签对应的文本数据,完成词槽的填充,存储了多个不同文本类别的匹配模型,因而通过先确定匹配的匹配模型,缩小匹配该待解析文本数据的范围,避免出现词槽填充错误的情况,提高后续进行词槽填充的准确度,提高词槽填充的速度;同时,由于现确定匹配的匹配模型,也确定出了该待解析文本数据的文本类别,实现了对待解析文本数据的分类需求;此外,由于存储了多个匹配模型,每个匹配模型的文本类别不同,从而便于后续按照文本类别扩充匹配模型的数量;匹配模型包括文本数据与词槽标签之间的对应关系,使得可以灵活扩充或更改每个匹配模型中的对应关系,由于无需重新进行训练,降低了构建匹配模型的成本以及词槽填充的成本。
本发明的第二实施方式涉及一种填充词槽的方法。本实施方式是另一种获取每个匹配模型的匹配结果的实现方式。
针对每个匹配模型进行如图4所示的处理步骤。
步骤201:将匹配模型中的每个键分别与待解析文本数据进行匹配。
步骤202:判断被匹配的键对应的词槽标签中是否存在相同的词槽标签,若确定存在,则执行步骤203,否则,执行步骤204。
具体的说,将匹配模型中的每个键分别与待解析文本数据进行匹配,得到多个被匹配的键,由于key是词槽的不同的表达,存在同一个词槽标签对应多个key的情况,由于key的长短不一,可能某一个key中包含另一个key的全部字符串,在匹配待解析文本数据过程中,导致匹配出重复的词槽标签,而由于词槽标签为词槽的唯一标识,将导致同一词槽填充的内容不同,影响填充词槽的准确性。故为了进一步提高填充词槽的准确性,需要去除重复的词槽标签,去除的方式有多种,本实施方式中通过判断多个被匹配的键对应的词槽标签中是否存在相同的词槽标签,若确定存在,则表明需要进行词槽标签去重操作。
步骤203:选取最大长度被匹配的键作为被匹配成功的文本数据。
例如,匹配模型中的key1=abcd,key2=bc,key1对应词槽标签tag1,key2对应词槽标签tag1,,若将待解析文本数据输入该匹配模型中,那么被匹配的键为key1和key2,判断key1和key2中所对应的词槽标签相同,此时确定选取最大长度的被匹配的键作为该待解析文本数据中的被匹配成功的文本数据,即选取key1作为被匹配成功的文本数据。
步骤204:将被匹配的键作为被匹配成功的文本数据。
若确定不存在,则可以将该被匹配的键作为被匹配成功的文本数据。
本实施方式提供的填充词槽的方法,通过判断是否存在相同的词槽标签,选取最大长度对应的被匹配的键作为被匹配成功的文本数据,该被匹配的键对应的词槽标签为被匹配成功的文本数据对应的词槽标签,去掉匹配重复的词槽标签,有利于后续填充词槽,提高填充词槽的准确性。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种填充词槽的装置,该填充词槽的装置的具体结构如图5所示,包括:获取模块301、选取模块302、确定模块303以及提取模块304。
获取模块301用于获取待解析文本数据,该选取模块302用于,从存储的多个匹配模型中,选取与所述待解析文本数据的文本类别相匹配的匹配模型,所述匹配模型包括词槽标签与文本数据之间的对应关系,所述词槽标签用于标识所述词槽。确定模块303用于根据匹配的匹配模型确定待解析文本数据的词槽标签;提取模块304用于从待解析文本数据中提取与词槽标签对应的文本数据,将提取的文本数据作为词槽的词槽内容。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种电子设备,该电子设备40的具体结构如图6所示,包括:至少一个处理器401;以及,与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行,以使至少一个处理器401能够执行上述的填充词槽的方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路链接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现第一实施方式或第二实施方式中的填充词槽的方法。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种填充词槽的方法,其特征在于,包括:
获取待解析文本数据;
从存储的多个匹配模型中,选取与所述待解析文本数据的文本类别相匹配的匹配模型,所述匹配模型包括词槽标签与文本数据之间的对应关系,所述词槽标签用于标识所述词槽;
根据匹配的所述匹配模型,确定所述待解析文本数据的词槽标签;
从所述待解析文本数据中提取与所述词槽标签对应的文本数据,将提取的文本数据作为所述词槽的词槽内容。
2.根据权利要求1所述的填充词槽的方法,其特征在于,所述匹配模型是基于字典构建的多模匹配自动机,所述字典以键值对的形式存储所述文本数据与所述词槽标签之间的对应关系,其中,所述匹配模型的文本类别与所述字典中的词槽标签的文本类别相同;
在所述从存储的多个匹配模型中,选取与所述待解析文本数据的文本类别相匹配的匹配模型之前,所述填充词槽的方法还包括:
根据语料库确定所述字典中的每个键值对,所述语料库包括文本数据以及词槽标签;
选取相同文本类别的所述词槽标签所在的键值对构建所述匹配模型。
3.根据权利要求2所述的填充词槽的方法,其特征在于,所述根据语料库确定所述字典中的每个键值对,具体包括:
从所述语料库中确定文本数据以及与所述文本数据对应的所述词槽标签;
将确定的所述文本数据作为所述键值对中的键,将与所述文本数据对应的所述词槽标签作为所述键值对中的数值。
4.根据权利要求3所述的填充词槽的方法,其特征在于,所述从所述语料库中确定文本数据以及与所述文本数据对应的所述词槽标签,具体包括:
从所述语料库中提取初始词槽文本数据,以及与所述初始词槽文本数据对应的初始词槽标签;
判断提取的任意两个初始词槽文本数据是否相同,若确定相同,则将所述初始词槽文本数据作为所述文本数据;分别获取每个初始词槽标签在所述语料库中出现的频率,选取最大频率的初始词槽标签作为与所述文本数据对应的词槽标签;
若确定不同,则将所述初始词槽文本数据作为所述文本数据,将所述初始词槽标签作为与所述文本数据对应的词槽标签。
5.根据权利要求2所述的填充词槽的方法,其特征在于,所述从存储的多个匹配模型中,选取与所述待解析文本数据的文本类别相匹配的匹配模型,具体包括:
将所述待解析文本数据分别在每个所述匹配模型中进行匹配,获取每个所述匹配模型的匹配结果;
根据每个所述匹配结果,确定每个所述匹配模型的匹配置信度,所述匹配置信度为被匹配成功的文本数据的总长度与所述待解析文本数据的总长度之间的比值;
根据获取的每个所述匹配模型的匹配置信度,确定与所述待解析文本数据匹配的匹配模型。
6.根据权利要求5所述的填充词槽的方法,其特征在于,将所述待解析文本数据分别在每个所述匹配模型中进行匹配,获取每个所述匹配模型的匹配结果,具体包括:
针对每个所述匹配模型进行如下处理:
将所述匹配模型中的每个键分别与所述待解析文本数据进行匹配;
判断多个被匹配的键对应的词槽标签中是否存在相同的词槽标签,若确定存在,则选取最大长度被匹配的键作为所述被匹配成功的文本数据,否则,将所述被匹配的键作为所述被匹配成功的文本数据。
7.根据权利要求5或6所述的填充词槽的方法,其特征在于,所述根据获取的每个所述匹配模型的匹配置信度,确定与所述待解析文本数据匹配的匹配模型,具体包括:
按照所述匹配置信度对每个所述匹配模型进行排序;
判断是否存在多个最高匹配置信度,若存在,则获取用户信息,根据所述用户信息从多个最高匹配置信度所对应的匹配模型中选取所述匹配的匹配模型;否则,选取最高匹配置信度所对应的匹配模型作为所述匹配的匹配模型,所述用户信息包括所述用户意图的数据。
8.一种填充词槽的装置,其特征在于,包括:获取模块、选取模块、确定模块以及提取模块;
所述获取模块用于获取待解析文本数据;
所述选取模块用于,从存储的多个匹配模型中,选取与所述待解析文本数据的文本类别相匹配的匹配模型,所述匹配模型包括词槽标签与文本数据之间的对应关系,所述词槽标签用于标识所述词槽;
所述确定模块用于,根据匹配的所述匹配模型,确定所述待解析文本数据的词槽标签;
所述提取模块用于从所述待解析文本数据中提取与所述词槽标签对应的文本数据,将提取的文本数据作为所述词槽的词槽内容。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一所述的填充词槽的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的填充词槽的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911233540.3A CN111159999B (zh) | 2019-12-05 | 2019-12-05 | 一种填充词槽的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911233540.3A CN111159999B (zh) | 2019-12-05 | 2019-12-05 | 一种填充词槽的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159999A CN111159999A (zh) | 2020-05-15 |
CN111159999B true CN111159999B (zh) | 2023-04-18 |
Family
ID=70556418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911233540.3A Active CN111159999B (zh) | 2019-12-05 | 2019-12-05 | 一种填充词槽的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159999B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831823B (zh) * | 2020-07-10 | 2022-05-13 | 亿咖通(湖北)技术有限公司 | 一种语料生成、模型训练方法 |
CN112084770B (zh) * | 2020-09-14 | 2024-07-05 | 深圳前海微众银行股份有限公司 | 词槽填充方法、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN109712617A (zh) * | 2018-12-06 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109918479A (zh) * | 2019-02-28 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法及装置 |
CN110059163A (zh) * | 2019-04-29 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 生成模板的方法和装置、电子设备、计算机可读介质 |
US10453117B1 (en) * | 2016-06-29 | 2019-10-22 | Amazon Technologies, Inc. | Determining domains for natural language understanding |
CN110472030A (zh) * | 2019-08-08 | 2019-11-19 | 网易(杭州)网络有限公司 | 人机交互方法、装置和电子设备 |
-
2019
- 2019-12-05 CN CN201911233540.3A patent/CN111159999B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10453117B1 (en) * | 2016-06-29 | 2019-10-22 | Amazon Technologies, Inc. | Determining domains for natural language understanding |
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN109712617A (zh) * | 2018-12-06 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109918479A (zh) * | 2019-02-28 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法及装置 |
CN110059163A (zh) * | 2019-04-29 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 生成模板的方法和装置、电子设备、计算机可读介质 |
CN110472030A (zh) * | 2019-08-08 | 2019-11-19 | 网易(杭州)网络有限公司 | 人机交互方法、装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
基于情感交互的服务机器人对话***研究与设计;栗梦媛;《中国优秀硕士学位论文电子期刊》;全文 * |
查询意图识别的关键技术研究;崔建青;《中国优秀硕士学位论文电子期刊》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111159999A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN108334493B (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN104715063B (zh) | 搜索排序方法和装置 | |
CN108628830A (zh) | 一种语义识别的方法和装置 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN110209809B (zh) | 文本聚类方法和装置、存储介质及电子装置 | |
CN111159999B (zh) | 一种填充词槽的方法、装置、电子设备及存储介质 | |
CN114005015B (zh) | 图像识别模型的训练方法、电子设备和存储介质 | |
CN111401034B (zh) | 文本的语义分析方法、语义分析装置及终端 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN112925895A (zh) | 自然语言软件运维方法及装置 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
WO2024138859A1 (zh) | 跨语言实体词检索方法、装置、设备及存储介质 | |
EP4127957A1 (en) | Methods and systems for searching and retrieving information | |
CN112966501B (zh) | 一种新词发现方法、***、终端及介质 | |
CN114254642A (zh) | 实体信息处理方法、装置、电子设备和介质 | |
CN113553415A (zh) | 问答匹配的方法、装置及电子设备 | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN111159421A (zh) | 基于知识图谱的基金查询方法及装置 | |
CN117992601B (zh) | 基于人工智能的公文生成方法及装置 | |
US11836176B2 (en) | System and method for automatic profile segmentation using small text variations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |