CN112818108B

CN112818108B - 基于形近字的文本语义曲解聊天机器人及其数据处理方法

Info

Publication number: CN112818108B
Application number: CN202110204001.8A
Authority: CN
Inventors: 梁循; 吴佳辰; 刘刚
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-10-13
Anticipated expiration: 2041-02-24
Also published as: CN112818108A

Abstract

本发明涉及一种基于形近字的文本语义曲解聊天机器人及其数据处理方法，其特征在于包括以下步骤：1)进行数据采集准备工作，构建形近字字典；2)从待回复的对话文本中提取文本关键词，并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词；3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复。本发明可以广泛应用于基于形近字的聊天机器人技术领域。

Description

基于形近字的文本语义曲解聊天机器人及其数据处理方法

技术领域

本发明属于基于形近字的聊天机器人技术领域，具体涉及网络数据获取、汉字拆分、自然语言处理、语言模型、基于深度学习的对话生成等技术领域，尤其是涉及一种基于形近字的文本语义曲解聊天机器人及其数据处理方法。

背景技术

基于人工智能技术，聊天机器人可以对提供的对话文本进行分析，并得出回复。目前，聊天机器人已经被应用到教育、问答、客服、公共引导、个人助理等多个领域。在过去的几年中，许多科技公司都投入了不少资金，开发自己的智能对话***，例如苹果公司的Siri，微软公司的微软小冰、Cortana，国内的像天猫的“天猫精灵”、百度的“小度”等。这些聊天机器人能够分析用户的意图，回答用户的问题，为用户提供帮助。

目前应用广泛的聊天机器人大多数都是基于规则的，开发者人工定义了模板或者数据库在管理固定的对话，当用户提供对话后，根据检索或相关性计算等方法找到最佳匹配的问答对，返回回复内容。这种聊天机器人依赖于定义好的数据库，灵活性差，一般都是为特定领域或者特定任务创建的。随着计算能力和深度学习的研究深入，人们开发了可以自动生成回复的对话生成模型，这种对话生成模型需要优质的网络架构和大量的优质数据，开发难度大。现在应用的利用对话生成模型的聊天机器人通常采用seq2seq架构，这种架构也会易于生成例如“好的”，“我不知道”这类的安全回复。因此，后期人们加入了注意力机制等方法进行优化。这种方法的好处就是对话比较灵活，但是可控性不强，精准度不够高。

目前市场上大多数聊天机器人都在追求回答的准确性，然而关于聊天机器人的一个新的应用方向的研究却很少。也就是说，如何通过将聊天机器人嵌入到社交软件中，帮助用户自动敷衍用户不想进行的聊天，使聊天无法进行下去从而终止对话，利用这样的语言技巧节省繁复的费熟人社交浪费的时间。

发明内容

针对上述问题，本发明的目的是提供一种基于形近字的文本语义曲解聊天机器人及其数据处理方法，通过偏旁部首的知识图谱构建生成形近字字典，利用网络爬虫技术爬取对话数据库，利用语料库训练对话生成模型。当聊天机器人托管对话后，参考形近字字典对关键词进行形近词替换，对替换后的句子利用对话生成模型生成回复，并随机设置回复时间。

为实现上述目的，本发明采取以下技术方案：

本发明的第一个方面，是提供一种基于形近字的文本语义曲解聊天机器人的数据处理方法，其包括以下步骤：

1)进行数据采集准备工作，构建形近字字典；

2)从待回复的对话文本中提取文本关键词，并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词；

3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复。

进一步，所述步骤1)中，构建形近字字典的方法，包括以下步骤：

1.1)从预先构建的偏旁部首的知识图谱中，获取汉字拆分规则对常用字进行拆分，得到常用字所对应的偏旁部首及其剩余部；

1.2)确定相似偏旁部首，并得到各相似偏旁部首之间的相似概率，进而构建相似偏旁部首用户数据字典；

1.3)基于步骤1.1)中得到的常用字的偏旁部首和剩余部件以及步骤1.2)构建的相似偏旁部首用户数据字典，对汉字相同或相似部件进行排列组合，生成各常用字对应的形近字字典。

进一步，所述步骤1.1)中，获取的汉字拆分规则包括：选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化。

进一步，所述步骤1.3)中，生成各常用字对应的形近字字典的方法为：

首先，对常用字的每个汉字，基于步骤1.1)得到每个汉字的偏旁部首及其剩余部件，并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件，对这些相似部件进行组合，并计算得到其生成相似汉字的相似概率值，进而生成形近字字典；

然后，基于常用字字典对形近字字典中不常用的汉字进行筛选删除，作为最后的形近字字典。

进一步，所述步骤2)中，得到最优候选替代词的方法，包括以下步骤：

2.1)统计对话库句子的词频，使用TF-IDF的方法提取提取待回复的对话文本中的一个关键词作为文本关键词；

2.2)基于提取出的文本关键词，使用形近字字典组合生成该文本关键词的混淆替代集合，并计算得出混淆替代集合中各候选替代词的相似概率；

2.3)基于预先构建的常用口语词词典，对候选替代词进行扫描和语义匹配，结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。

进一步，所述步骤2.2)中，所述候选替代词的相似概率等于该候选替代词中包含的各形近字的相似概率的乘积。

进一步，所述步骤3)中，基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型，对替换后的句子生成回复，并在回复时间内进行回复的方法，包括以下步骤：

3.1)收集社交网络上的历史对话数据，构造对话生成模型语料库，训练对话生成模型；

3.2)基于步骤2)中确定的最优候选替代词得到替换后的待回复对话文本，将替换后的待回复对话文本输入步骤3.1)中构造的对话生成模型，得到回复语句并进行回复。

进一步，所述步骤3.1)中，收集社交网络上的历史对话数据，构造对话生成模型语料库，训练对话生成模型的方法，包括以下步骤：

3.1.1)利用爬虫程序爬取社交网络上的预设数量的对话数据，对所有对话数据进行预处理后构建语料库，并获得训练集和测试集；

3.1.2)将训练集数据输入基于seq2seq和Attention的对话生成模型进行训练，得到训练好的对话生成模型。

进一步，所述步骤3.2)中，基于步骤2)中确定的最优候选词得到替换后的句子，将替换后的句子输入步骤3.1)中的对话生成模型，得到回复语句的方法，包括以下步骤：

3.2.1)基于步骤2)中确定的最优候选词得到替换后的待回复对话文本，把替换后的待回复对话文本输入训练好的对话生成模型，利用该对话生成模型对替换后的待回复对话文本可能产生的回复进行预测，得到回复语句；

3.2.2)基于预先设置的最长回复字数，对回复语句进行判断，如果回复语句超过设定的最长回复字数则认为回复失败；

3.2.3)在达到预设回复时间时，将步骤3.2)中的回复语句进行回复。

本发明的第二个方面，是提供一种基于形近字的文本语义曲解聊天机器人，其包括：

形近字字典构建模块，用于进行数据采集准备工作，构建形近字字典；

关键词替换模块，用于从待回复的对话文本中提取文本关键词，并基于构建的形近字字典得到文本关键词的最优候选替代词；

语义曲解回复模块，用于基于确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明通过建立的形近字字典对待回复文本中的关键词进行替换，以借助形近字来模拟用户看错，实现了帮助用户自动敷衍用户不想进行的聊天的创新应用。

2、本发明由于把知识图谱和对话生成模型相结合，利用偏旁部首知识图谱生成形近字，以实现对对话***中问句的关键词进行替换，之后生成回答的对话生成模式，使得对话能够自然的结束。

本发明可以广泛应用于聊天机器人领域。

附图说明

图1是本发明实施例中基于形近字的文本语义曲解聊条机器人方法流程图；

图2是本发明实施例中的简明形近字字典例图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明试图探讨聊天机器人的一个新的应用方向，即对提供的语句做出语义曲解并给出回复。对方发送文本信息后，本发明通过借助形近字来模拟用户看错聊天内容，来进行语义曲解，从而使这段对话自然而然的无法继续进行下去。在实际的人与人的打字对话中，也会出现一些错别字的现象，这时候，聊天机器人就可以直接根据错别字内容进行回复。总之，本发明的目标就是通过误解对方想表达的意思，通过语义曲解的方式使用户不愿意进行的对话无法继续。

本发明在获得用户好友的一段文本后，对文本进行分析，采用自然语言处理的方法提取文本中的关键词，然后参考形近字字典对提取的关键词构建混淆词集，其中形近字字典可以提供汉字部件之间的相似概率，通过概率和语义的筛选就可以从混淆词集中获得最优的替换词，把这个词带回原句中作为基于深度学习的对话生成模型的输入，生成回复。

基于这样的发明流程，本发明首先构建了一个形近字字典，该形近字字典参考了偏旁部首知识图谱，通过把汉字拆分成偏旁和剩余部件，参考相似偏旁部首的用户词典，重新组合生成了汉字的形近字字典。

当使用本发明进行托管聊天以后，就可以根据对方发出的文本生成语义曲解的回复，之后设置一个随机回复时间，这个随机回复时间可以设置的稍微长一些，也可以暗示对方这边在忙，不是很方便聊天，以减少对话频率。由此，本发明达到了以语义曲解的方法帮助用户应付的聊天的目的，为用户节约了社交时间。

实施例1

如图1所示，本实施例提供的一种基于形近字的文本语义曲解聊天机器人的数据处理方法，包括以下步骤：

1)进行数据采集准备工作，构建形近字字典。

具体地，包括以下步骤：

1.1)从预先构建的偏旁部首的知识图谱中，获取汉字拆分规则对常用字进行拆分，得到常用字所对应的偏旁部首及其剩余部件。

首先需要获取偏旁部首的知识图谱，该知识图谱为以偏旁部首为基础的、揭示汉字与汉字之间内在关系的语义网络。具体来说，该知识图谱的实体包括现代汉语词典中的部分汉字、将汉字拆分后的偏旁部首及子部分；实体间的关系包括汉字与其组成部分的“组成”关系、字形相似的偏旁部首之间的“形近”关系。

这里本发明主要利用该知识图谱中的汉字拆分规则，对常用字进行拆分，获得常用字拆分后对应的偏旁部首及其剩余部件。本发明参考偏旁部首知识图谱，获得的汉字拆分规则，主要包括：选取“部首”的拆分方式、选取“含有另一个汉字”的拆分方式(含有部首)、选取“含有另一个汉字”的拆分方式(不含有部首)、选取“部首字形”的拆分方式以及“相同组成部件”单一化。根据获取的汉字拆分规则，对常用汉字进行拆分，共形成1476组汉字及其拆分部件。

1.2)确定相似偏旁部首，并得到各相似偏旁部首之间的相似概率，构建相似偏旁部首用户数据字典。

通过文献和资料调研了解容易混淆的偏旁部首，并根据问卷访谈、专家打分等形式确定常见的相似偏旁部首，例如：“冫氵”、“亻彳”等，使汉字在不具备完全相同的部件的时候也能联系起来，并通过问卷调查、专家打分的方式为偏旁部首的相似度确定相似概率。

具体的，包括以下步骤：

首先，如图2所示，对常用字的每个汉字，基于步骤1.1)得到每个汉字的偏旁部首及其剩余部件，并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件，对这些相似部件进行组合，并计算得到其生成相似汉字的相似概率值，进而生成形近字字典；其中，生成的形近字字典中，每个汉字对应多组数据，每组数据包括一个相似汉字和该相似汉字对应的相似概率值，该相似概率值由该相似汉字中每个部件的相似概率进行相乘得到；

其次，在构成形近字字典后，基于常用字字典对形近字字典中不常用的汉字进行筛选删除，作为最后的形近字字典。

2)从待回复的对话文本中提取文本关键词，并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词。

具体地，包括以下步骤：

2.1)统计对话库句子的词频，使用TF-IDF(词频-逆文档频率算法)的方法提取待回复的对话文本中的一个关键词作为文本关键词，也即提取对话库中TF-IDF值最大的一个词作为文本关键词。

2.2)基于提取出的文本关键词，使用形近字字典组合生成该文本关键词的混淆替代集合，并计算得出混淆替代集合中各候选替代词的相似概率。其中，由于每个形近字对应一个相似概率，因此，候选替代词的相似概率就等于该候选替代词中包含的各形近字的相似概率的乘积。

2.3)基于预先构建的常用口语词词典(可以利用网络爬虫和分词建立)，对候选替代词进行扫描和语义匹配，结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。

具体地，包括以下步骤：

3.1)收集社交网络上的历史对话数据，构造对话生成模型语料库，训练对话生成模型。

基于深度学习的生成模型大多为seq2seq模型的改进形式，大体的思路就是收集大量对话的数据训练模型，在输入端输入对话的上下文来编码，把真实的回复内容作为训练的目标进行解码，让模型学习到对话中的特征，使训练好的模型对提供的语句可以自动生成回复。本发明采用的模型在传统的seq2seq模型，加入注意力机制来提高对话生成模型对语句关键词的关注程度，解决关键词识别率低的问题，避免生成重复的无意义回复。

具体地，包括以下步骤：

3.1.1)利用爬虫程序爬取社交网络上的大量(例如10w条对话以上)对话数据，对所有对话数据进行预处理后构建语料库，并获得训练集和测试集。

其中，对所有对话数据进行预处理的方法为：首先对所有对话数据进行清洗和筛选，删除掉回复内容过长或过短(例如小于2个字或超过50个字)的数据，并剔除乱码等作为初始数据集；然后，从初始数据集中筛选出其中回复为问句的对话，作为训练对话生成模型的语料库，存储在txt文件中；最后，把语料库中的对话数据随机划分成为训练集和测试集。

具体的，包括以下步骤：

①对语料库中的语句进行分词，构建词典以及词典的映射关系；

②将语料库拆分为问、答数据集；

③训练词向量，训练方法为本领域技术人员公知技术，本发明在此不再赘述。

④利用tensorflow框架编写seq2seq和Attention模型的Encoder和Decoder模块和损失函数。

⑤训练模型，更改模型参数以得到一个较好的结果。

⑥保存训练好的模型。

包括以下步骤：

3.2.1)基于步骤2)中确定的最优候选词得到替换后的句子，把替换后的句子输入训练好的对话生成模型，利用该对话生成模型对替换后的句子可能产生的回复进行预测，得到回复语句；

3.2.2)基于预先设置的最长回复字数，对回复语句进行判断，如果回复语句超过设定的最长回复字数则认为回复失败，则不进行回复；

3.2.3)在达到预设回复时间时，基于步骤3.2)中的回复语句进行回复。

获得回复语句以后，设置一个随机回复时间，例如2分钟到2小时，这个时间可以设置的稍微长一些，也可以暗示对方这边在忙，不是很方便聊天，以减少对话频率。当然，该随机回复时间也可以由用户自定义。特地的，当设置的随机回复时间很长时，可以将回复语句定义为“不好意思，刚才在忙”，同时加上生成的回复语句。

通过以上步骤，可以托管用户的聊天，进行基于谐音字替换的语义曲解回复。

实施例2

本实施例提供一种基于形近字的文本语义曲解聊天机器人，其包括：形近字字典构建模块，用于进行数据采集准备工作，构建形近字字典；关键词替换模块，用于从待回复的对话文本中提取文本关键词，并基于构建的形近字字典得到文本关键词的最优候选替代词；语义曲解回复模块，用于基于确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种基于形近字的文本语义曲解聊天机器人的数据处理方法，其特征在于包括以下步骤：

1)进行数据采集准备工作，构建形近字字典；

3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复；

所述步骤1)中，构建形近字字典的方法，包括以下步骤：

1.3)基于步骤1.1)中得到的常用字的偏旁部首和剩余部件以及步骤1.2)构建的相似偏旁部首用户数据字典，对汉字相同或相似部件进行排列组合，生成各常用字对应的形近字字典；

所述步骤1.1)中，获取的汉字拆分规则包括：选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化；

所述步骤1.3)中，生成各常用字对应的形近字字典的方法为：

然后，基于常用字字典对形近字字典中不常用的汉字进行筛选删除，作为最后的形近字字典；

所述步骤2)中，得到最优候选替代词的方法，包括以下步骤：

2.如权利要求1所述的基于形近字的文本语义曲解聊天机器人的数据处理方法，其特征在于：所述步骤2.2)中，所述候选替代词的相似概率等于该候选替代词中包含的各形近字的相似概率的乘积。

3.如权利要求1所述的基于形近字的文本语义曲解聊天机器人的数据处理方法，其特征在于：所述步骤3)中，基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型，对替换后的句子生成回复，并在回复时间内进行回复的方法，包括以下步骤：

4.如权利要求3所述的基于形近字的文本语义曲解聊天机器人的数据处理方法，其特征在于：所述步骤3.1)中，收集社交网络上的历史对话数据，构造对话生成模型语料库，训练对话生成模型的方法，包括以下步骤：

5.如权利要求3所述的基于形近字的文本语义曲解聊天机器人的数据处理方法，其特征在于：所述步骤3.2)中，基于步骤2)中确定的最优候选词得到替换后的句子，将替换后的句子输入步骤3.1)中的对话生成模型，得到回复语句的方法，包括以下步骤：

6.一种基于形近字的文本语义曲解聊天机器人，其特征在于，包括：

语义曲解回复模块，用于基于确定的最优候选替代词以及预先构建的对话生成模型，对替换后的待回复对话文本生成回复，并在设定的回复时间内进行回复；

所述构建形近字字典，包括：

从预先构建的偏旁部首的知识图谱中，获取汉字拆分规则对常用字进行拆分，得到常用字所对应的偏旁部首及其剩余部；

确定相似偏旁部首，并得到各相似偏旁部首之间的相似概率，进而构建相似偏旁部首用户数据字典；

基于得到的常用字的偏旁部首和剩余部件以及构建的相似偏旁部首用户数据字典，对汉字相同或相似部件进行排列组合，生成各常用字对应的形近字字典；

所述获取的汉字拆分规则包括：选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化；

所述生成各常用字对应的形近字字典，包括：

首先，对常用字的每个汉字，基于每个汉字的偏旁部首及其剩余部件，并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件，对这些相似部件进行组合，并计算得到其生成相似汉字的相似概率值，进而生成形近字字典；

所述得到最优候选替代词，包括：

统计对话库句子的词频，使用TF-IDF的方法提取提取待回复的对话文本中的一个关键词作为文本关键词；

基于提取出的文本关键词，使用形近字字典组合生成该文本关键词的混淆替代集合，并计算得出混淆替代集合中各候选替代词的相似概率；

基于预先构建的常用口语词词典，对候选替代词进行扫描和语义匹配，结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。