CN112883737A

CN112883737A - 基于中文命名实体识别的机器人语言指令分析方法及***

Info

Publication number: CN112883737A
Application number: CN202110236088.7A
Authority: CN
Inventors: 许庆阳; 姜聪; 周瑞; 李贻斌; 张承进; 宋勇; 袁宪锋; 庞豹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-01
Anticipated expiration: 2041-03-03
Also published as: CN112883737B

Abstract

本发明公开了一种基于中文命名实体识别的机器人语言指令分析方法及***，包括：基于输入指令内容获取中文文本信息；提取文本特征并进行特征增强；将增强后的特征输入命名体实体识别模型，产生每个汉字归属于每个命名实体类别的分数，构造重定位矩阵，将所述重定位矩阵用于实体类别推理，通过自监督的方式输出每个汉字的命名实体类别属性；基于提取到的命名实体驱动机器人执行相应的指令。本发明使用自监督学习机制进行中文命名实体识别的，这使我们的网络彻底摆脱了对人工标注数据集的依赖。

Description

基于中文命名实体识别的机器人语言指令分析方法及***

技术领域

本发明涉及语音识别技术领域，尤其涉及基于中文命名实体识别的机器人语言指令分析方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

机器人语音控制中的核心任务之一是对语言命令进行解析并抽取有用信息，并进行机器人本体控制。命名实体识别是提取语言信息的重要工具。命名实体是指真实对象的属性名称，如人员、组织、地点等。对文本进行命名实体的识别是理解文本深层含义的基础，它作为一个基本任务为许多后端自然语言处理的实际应用提供支持，如关系抽取、文本理解、信息抽取、机器翻译、实体语料库构建等。传统的命名体识别模型主要有三种：基于规则的学习方法，基于特征的监督学习方法，和基于无监督的学习方法。传统命名体识别主要是基于规则的方法。随着技术的发展，基于监督模型的命名体识别方法主导了NER任务，但基于监督的命名体识别网络大多数都需要使用大规模人工标注的数据集进行训练，获得数据集的成本高昂。而无监督或自监督学习的方式对命名实体进行识别，无需标注数据集即可对模型就行训练，在无监督或自监督训练模式下，如何为模型提供准确的学习方向或分类依据成了无监督命名体识别模型训练的关键。

早期无监督命名实体识别的解决方案有两种：一种是通过少量的已知数据构建常用字典，并以此作为聚类中心为模型提供分类依据；另一种是通过预置“种子”规则，一种包含语法信息或特殊提示词等先验信息的基础规则，作为词的分类标准并为模型提供聚类的依据。两种模型在通过先验信息提供聚类中心或分类依据之后，大多通过计算词汇上下文的相似性获得数据结构与分布特征，并从未标注的数据中提取命名实体。值得注意的是，无论哪种方法，其核心大多是以列表查找或模式匹配的方式实现命名实体的粗粒度提取。现阶段比较热门的无监督命名实体识别的方法可以分为判别式与生成式两类：判别式模型以传统方法为基础，通过设计更加合理的度量进行命名实体的细粒度提取；生成式模型则通过模型设计实现对具有最高生成概率的实体类别的最优细分。在研究人员的努力下，目前无监督命名实体识别方向取得了一些突破，但在中文命名实体提取中因为语句没有明显的单词边界，发展较为缓慢。此外，由于无监督模型需要结合足够的上下文信息，而在某些应用领域，如机器人语言命令解析，因为指令简洁词汇量很少，往往无法提供足够的上下文信息供无监督模型使用。

发明内容

为了解决上述问题，本发明提出了基于中文命名实体识别的机器人语言指令分析方法及***，能够使模型免于复杂的参数训练以及特征预置或规则构建，进而摆脱对大规模手工标注数据集的依赖。

在一些实施方式中，采用如下技术方案：

基于中文命名实体识别的机器人语言指令分析方法，包括：

基于输入指令内容获取中文文本信息；

提取文本特征并进行特征增强；

将增强后的特征输入自监督中文命名体实体识别模型，产生每个汉字归属于每个命名实体类别的分数，构造重定位矩阵，根据重定位矩阵产生“复述”指令并将其用于实体类别推理，通过自监督的方式输出每个汉字的命名实体类别属性；

基于提取到的命名实体驱动机器人执行相应的指令。

其中，所述输入指令包括语音输入指令或者中文文本输入指令。

在另一些实施方式中，采用如下技术方案：

基于中文命名实体识别的机器人语言指令分析***，包括：

文本信息获取模块，用于基于输入指令内容获取中文文本信息；

特征增强模块，用于提取文本特征并进行特征增强；

分词模块，用于将增强后的特征输入自监督中文命名体实体识别模型，产生每个汉字归属于每个命名实体类别的分数，构造重定位矩阵，根据重定位矩阵产生“复述”指令并将其用于实体类别推理，通过自监督的方式输出每个汉字的命名实体类别属性；

机器人控制模块，用于基于提取到的命名实体驱动机器人执行相应的指令。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行上述的中文命名实体识别的机器人语言指令分析方法。

与现有技术相比，本发明的有益效果是：

本发明使用自监督学习机制进行中文命名实体识别的，这使我们的网络彻底摆脱了对人工标注数据集的依赖。

本发明创建了新颖的学习规则，使模型能够只根据二元结果进行学习，而不是像传统反向传播算法一样需要提供准确的学习方向。

本发明在“复述指令”构造子***中采用了一种独立于静态图之外的位置信息矩阵构造规则，而不是像Gumbel-SinkHorn网络那样需要根据目标进行学习逼近，理论上这会让我们的模型更简单并且运行更快。

本发明结合YOLO-V4目标检测网络在履带机器人上进行了实验，机器人能够根据SCNER提取到的命名实体找到并抓取目标物体。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本方面的实践了解到。

附图说明

图1是本发明实施例中基于中文命名实体识别的机器人语言指令分析方法示意图；

图2是本发明实施例中自监督中文命名体实体识别模型结构示意图；

图3(a)-(c)分别是本发明实施例中不同迭代周期的分数矩阵和位置信息矩阵示意图；

图4(a)-(b)是本发明实施例中在不加规则约束的情况下，损失和Logits曲线以及Logits矩阵示意图；

图5(a)-(b)是本发明实施例中网络退化后损失和Logits曲线以及Logits矩阵示意图；

图6是本发明实施例中目标检测网络训练数据集示意图；

图7是本发明实施例中履带机器人示意图；

图8(a)-(b)是训练过程图示意图；

图9(a)-(b)是经过自监督训练之后的训练结果示意图；

图10(a)-(b)分别是试验环境和机器人运动镜头示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如何实现像人类一样高效准确的学习理解语言？语言学家研究发现，婴儿早期是通过模仿来学习说话并理解语言的。当听到成人的语音时，婴儿会模仿着输出同样的话，同时将自己发出的声音与听到的成人的声音进行对比并进行修正从而学习说话。认识实体对象的学习过程也是类似的。这个过程与Denes创建的语言链(如图1)是一致的，只不过在这个过程中说话者和聆听者都是婴儿自己。此外还有一点值得注意，无论是发音或是认识物体，模仿学习通常都是一个反复的过程，需要婴儿与“陪护人员”进行多次的交互。这种模仿学习机制激发了我们的兴趣，并产生了将其应用到命名实体识别当中的想法。

当机器人获得指令(真实指令)时，它会基于命名实体识别模型提取分词，并使用这些分词构造一条“复述指令”。由于网络是未经训练的，一开始提取到的命名实体几乎是完全错误的，基于这些命名实体构造的“复述指令”也会与真实指令具有较大的差距。但以这种差距作为损失函数经过简单的训练之后，机器人将会“理解”真实指令，也就是正确的提取命名实体并构造出与真实指令一致的“复述指令”。基于这些正确的命名实体我们可以驱动机器人按照我们想法运动。

根据本发明实施例，公开了一种基于中文命名实体识别的机器人语言指令分析方法的实施例，参照图1，包括以下过程：

(1)基于输入指令内容获取中文文本信息；

具体地，输入指令可以是语音指令，此时，需要将语音输入转换为文本信息；而当输入指令为文本信息时，则无需转换。

(2)提取文本特征并进行特征增强；

具体地，本序列通过特征提取及增强模块进行特征增强及融合，融合后的组合特征经过简单的统计映射为特征序列。

在命名实体识别模型中，网络所学习的一个非常重要的隐藏特征就是上下文关系。而在自监督中文命名体实体识别模型(SCNER)中，这种通过大规模预训练获得的上下文关系是不可获得的。相较于其他语言，中文语句具有独特的语法规则，汉字也具有拼音、偏旁等多种描述属性，通过这种独特的语言结构创造特征序列可以实现特征增强，并在一定程度上建立上下文之间的联系。

本实施例中，χ_c＝[x_c0,…,x_cn]表示一个句子，其中x_ci表示第i个汉字，

表示句子对应的特征序列。给定一个句子

特征增强的目的就是通过融合汉字的其他属性建立特征序列集合

并将其映射为特征向量组ψ_F。在本文中，我们使用了五维属性进行特征增强，因此，一个句子输出的特征序列集合包含五个元素：

其中，

为汉字序列，

为句子对应的拼音序列，

为偏旁序列，

为词性序列，

为词边界序列。我们的词边界序列产生方式基于Deng等人的4-tag方法，以[B(Begin),M(Middle),E(End),S(Single)]对中文单词进行位置划分。不同的是，在特征嵌入的过程中我们没有采用任何经过预训练的词向量嵌入模型。我们的特征嵌入方式可以表示为：

其中，

表示某一汉字包含所有特征信息的原始输入序列，d表示特征的维度。函数

表示基于统计字典的编码映射。W^(l)为线性变换的权重矩阵，b^(l)为偏差向量，它们属于自监督闭环的一部分，在端到端的训练中产生而无需经过预训练。

(3)将增强后的特征输入自监督中文命名体实体识别模型(SCNER)，产生每个汉字归属于每个命名实体类别的分数，构造重定位矩阵，根据重定位矩阵产生“复述”指令并将其用于实体类别推理，通过自监督的方式输出每个汉字的命名实体类别属性；

具体地，自监督中文命名体实体识别模型结构如图2所示，包括：文本序列模块、特征增强模块和分词模块；其中，文本序列模块、特征增强模块已经在上文中进行了解释说明；分词模块包含命名实体识别子***(NERS)以及指令构造子***(IGS)。

文本序列通过特征增强模块进行特征增强及融合，融合后的组合特征经过简单的统计映射为特征序列。然后特征序列被喂入命名实体识别子***进行处理。命名实体识别子***产生每个汉字归属于每个命名实体类别的分数，这部分计算结果将被用作两个方向：产生重定位矩阵与命名实体类别推理。重定位矩阵与分数矩阵包含相同位置信息，但单纯的使用原始的分数矩阵作为重定位矩阵无法消除汉字之间的相互影响。我们通过构造类似置换矩阵形式的重定位矩阵来消除汉字间的互相影响。该方法可以使分数矩阵中的位置信息准确用于“复述指令”的产生，同时能够按照原始分数矩阵的影响力进行反向传播。这样，模型既能够在创造“复述指令”过程中将分数指令的位置信息独立的作用于每个汉字上，又能够将误差反向传播用于模型自监督学习。模型通过多次交互完成自监督学习。最后，分数矩阵将直接通过推理层用于实体类别推理，并输出每个汉字的命名实体类别属性。

如图2所示，自监督分词模块通过类似于人类模仿学习的方式对模型进行训练。以传统的命名实体识别模型为基础，在后端添加了指令构造子***以生成“复述”指令。IGS与推理层是并行工作的，但在自监督训练过程中，我们只关心IGS以及“复述”指令对网络的改变，而在命名实体抽取阶段，我们将所有的注意力集中在推理层的推理结果上。

命名体实体识别子***

机器人语言命令的解析的关键是命名实体的抽取。传统的方法通常是使用Bi-LSTM网络作为特征提取层，然后通过条件随机场CRF在有监督学***后的一维特征序列

其实现如下：

i_t＝Sigmoid(W_i′h_t-1+U_iψ_t′+b′_i)

f_t＝Sigmoid(W′_fh_t-1+U_fψ_t′+b′_f)

o_t＝Sigmoid(W′_oh_t-1+U_oψ_t′+b′_o)

h_t＝o_t⊙tanh(c_t)

其中，⊙表示元素的乘积。i_t,f_t,o_t,c_t分别表示输入门，遗忘门，输出门和记忆单元。h_t表示隐藏状态向量，存储了t时刻及之前的有用信息。U表示门控单元的权重矩阵，而W′表示门控单元中隐藏状态h_t的权重矩阵，b′表示偏差向量。

语言指令生成***

在命名体识别子***中，前端的Bi-LSTM层向后端传输的是全局化的信息，而不仅仅是最后时刻的状态。所谓全局化的信息是指模型的最终输出O_end包含每个时刻LSTM核的处理完成后的结果[O₀,O₁,...,O_t,...]，并将其全部传入后端的Bi-LSTM层。这样做可以尽可能完整的保证信息不丢失，同时使隐藏层特征序列以一定程度反映前后文之间的相关性。基于上述结构的模型对输入进行处理，产生每个汉字对应命名实体的分数序列

其中0≤i≤n，d表示命名实体类别的数量。对所有的得分序列进行整合，我们得到输入句子对应命名实体类别的分数矩阵

在对输入语句按照汉语语法规则进行设计，使用位置信息矩阵对输入指令语句进行重新构造获得“复述”指令。其中，得到位置信息矩阵

的方法可以表示为：

其中函数

表示位置信息抽取，这一过程是离散的。

表示对非目标命名实体影响力进行抑制之后的分数矩阵。

图3(a)为初始状态下的分数矩阵和位置矩阵；图3(b)为50周期迭代下的分数矩阵和位置矩阵；图3(c)为100周期迭代下的分数矩阵和位置矩阵；如图3(a)-(c)所示，相较于位置信息矩阵，原始分数矩阵的能量分布在每个单元中。对输入指令进行变换这一过程是输入序列对所有命名实体类别分量的加权求和，使用分数矩阵进行操作无疑会导致“复述”指令的混乱，因为输入指令中每个字符的信息无法独立并完整的传递到“复述”指令中。而在实施例中，我们设计了一种特殊的位置信息矩阵构造规则实现输入指令到“复述”指令信息的独立传递，旨在构造一种理想的位置信息矩阵，并通过独立于网络之外的离散操作，“

运算”，来提取位置信息矩阵，而在反向传播中采用分数矩阵的原始通道进行反向传播，可以表示为：

其中，

表示从得分矩阵

中通过离散操作抽取到的位置信息在参数学习过程中的影响力。

学习规则

我们通过在基础反向传播方法中添加相应的规则，使得SCNER模型能够在自监督闭环中无明确的学习方向这种情况下，通过输入指令与“复述”指令之间的差异进行学习，从而实现命名实体识别。SCNER每次自监督命名实体抽取的过程可以看作是网络每次只接收一个样本进行自监督学习。而在自监督训练过程中，因为输入指令唯一，网络表现为快速退化。如图4(a)-(b)所示，可以看到，在不加规则约束的情况下，表征输入指令与“复述”指令之间差异程度的LossValue会飙升至最大值，而Logits矩阵的值会向负无穷大快速退化。

为了解决这一问题，在SCNER中增加了限制条件。首先，我们对原始分数矩阵中非目标命名实体的影响力进行抑制，以使SCNER模型能够根据离散形式的位置信息矩阵进行学习，这可以表示为：

然而，单纯的抑制其他信息的影响力是不够的。如图5(a)-(b)所示，网络在训练中无法达到收敛状态，而且非目标命名实体影响力抑制只起到了延缓作用，随着训练的进行网络仍然在退化。在一般的批量学***衡。因此，我们同样考虑在自监督学***衡规则

以使其保持稳定，其实现如下：

其中，α为平衡因子。

表示线性整流单元。

表示维度为n×d的常量矩阵，其元素为1。

(4)基于提取到的命名实体驱动机器人执行相应的指令。

模型经过自监督命名实体识别之后输出命名实体对象，例如”B-Location”,”O-Object”等，用来驱动机器人运动。如图10(a)所示，为了排除不同”Location”命名实体目标的形状、大小、开关方式等信息对机器人运动控制的要求，简化试验过程，以印有位置名称的指示牌替代真实的”Location”目标进行试验环境的搭建。在试验过程中，分别对不同命名实体目标进行交叉组合测试，在图10(b)中展示了以“去冰箱拿一个苹果”指令为例的机器人运动的镜头。可以看到，机器人进入“冰箱”指示牌区域后，采用YOLO-V4网络进行目标的寻找。当视野内没有“Object”目标时，机器人将切换位置或姿态对当前区域内的其他位置进行目标检测。在找到目标对象后，机器人根据预设的运动方案对物体进行夹取。

实验设置

在实验中，分词网络采用了双层双向LSTM网络进行特征提取，每层LSTM网络包含100个LSTM单元，在底层特征提取层中采用全局特征信息作为输出。特征增强模块对输入信息进行特征增强与融合处理之后产生的特征序列传入分词网络，采用自监督的方式提取命名实体。在后端的目标检测部分，使用在VOC2007数据集上预训练完成的YOLO-V4作为目标检测模型，并在如图6所示的水果数据集(包含橘子、苹果、香蕉以及混合四类300张图像，可以在BaiduAIStudio中获得)上进行微调。在硬件方面，使用了如图7所示的履带式机器人对苹果与橘子进行了行为控制验证实验，服务器与机器人之间的通信方式为WIFI通信，履带机器人主控制器具有WIFI路由器，主控制器与舵机控制器通过串行通信连接，舵机控制器用于控制机械臂的关节舵机，机器人安装有摄像头。在本实验中，语言解析以及目标识别等处理过程都是在服务器运行，机器人负责行为实施以及环境感知等。需要注意的是，机器人的行为方式以及环境中路径信息等默认是已知的，这一部分可以通过构建语义地图等技术进一步完善。

实验环节包括SCNER模型对输入指令以自监督的方式进行命名实体识别，以及驱动机器人运动等。在NERS中，模型的输入为文本信息，并进行包括拼音、偏旁、词边界以及词性四个维度的特征增强。增强后的特征序列将被映射为100维度的词向量(每个特征映射为20个维度)。这里采用的词向量嵌入模型并未经过预训练，而是一种基于对输入指令简单统计之后的映射，每次指令输入时都将初始化映射字典，其映射规则也是在自监督端到端学***衡因子为0.12，自监督训练的迭代次数设置为200，其训练结果如图8(a)-(b)所示。

图8(a)为自监督学习过程中的准确率曲线，表示在输入指令中，识别正确的字符占所有字符的百分比。可以看到，模型在初始状态下对输入指令的命名实体识别正确率只有0％～20％。而随着自监督学习的进行，模型对所有字符的识别准确率逐渐提高，并在110个周期后获得稳定而准确识别能力。图8(b)为模型在训练过程中命名实体识别结果的采样，用来记录不同训练周期下SCNER产生的命名实体序列。其中，深背景的命名实体标签为识别正确，未做处理的标签为识别错误，其展示内容与准确率曲线相一致。

模型接收指令时的状态都是随机初始化的，因此初始时对命名实体识别的效果并不理想。在经过约100个周期的自监督训练之后，模型会快速的收敛，并在之后的训练周期里保持稳定的结果。同样，模型的Logits矩阵也会由一种完全无序状态逐渐过渡为有序状态，如图9(a)-(b)所示。位置信息矩阵是从Logits矩阵中以离散操作获取，因此无论非目标命名实体类别中负影响力是否加大，其对“复述”指令的影响均与其他非目标命名实体类别没有差异。

实施例二

根据本发明的实施例，公开了一种基于中文命名实体识别的机器人语言指令分析***的实施例，包括：

特征增强模块，用于提取文本特征并进行特征增强；

需要说明的是，上述各模块的具体实现方式已经在实施例一中进行了详细的说明，不再赘述。

实施例三

根据本发明的实施例，公开了一种终端设备的实施例，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的中文命名实体识别的机器人语言指令分析方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。