CN110610000A

CN110610000A - 一种关键人名语境错误检测方法及***

Info

Publication number: CN110610000A
Application number: CN201910737596.6A
Authority: CN
Inventors: 张勇; 朱立松
Original assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Current assignee: CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-12-24

Abstract

本发明是关键人名语境错误检测方法及***，该方法包括：确定需审核的关键人名集合；选定连续N个字作为暗词或者选定关键人名，然后取这个暗词或关键人名的上下文；使用分词算法分别对暗词或关键人名上下文进行分词；将分词结果向量化；将结果输入机器学习分类器，分类器输出；当暗词不属于关键人名集合中的人名且分类器的输出不是其它时，判断该暗词为错误用词，当关键人名属于关键人名集合中的人名且与分类器的输出不同时，判断该词为错误语境，提示审核人员进行重点审核。该***包括输入、暗词选择、名字标定、取上下文、分词、词向量化、分类器和警报器模块。本发明的优点：能够识别存在指代含义的暗词，能够识别出现在错误语境中的关键人名。

Description

一种关键人名语境错误检测方法及***

技术领域

本发明涉及的是一种关键人名语境错误检测方法及***，属于文本信息处理技术领域。

背景技术

互联网已经成为了一个全民参与的网络，大到国家政治生活，小到油盐酱醋，无一不与互联网有关。互联网是一个虚拟的空间，人人都可参与，人人都可发言，它天生就有娱乐化的倾向；但是当互联网与某些严肃的话题结合在一起的时候，我们就必须要对它进行严格规范，以保持其严肃性。

然而这一工作看似简单，实际上存在着诸多挑战。下面以“朱元璋”的名字为例，列举常见的拼写错误情况：

1)近音错误的情况，即使用与“朱”“元”“璋”三个字音同字不同的汉字来指代“朱元璋”。例如：“猪元璋”、“朱员章”、“朱元账”等。这一类错误常常是因为网民使用汉字拼音输入法时出现的错误。

2)缩写错误的情况，例如使用“ZYZ”或“zhuyuanzhang”或“zyz”等来代替“朱元璋”。

3)完全错误的情况，例如正确的原句应为：“朱元璋击败了元帝国的大军，打败了其它的所有强敌，建立了一个新的王朝”，错误的句子为：“猪八八击败了元帝国的大军，打败了其它的所有强敌，建立了一个新的王朝”。这种情况句子中没有出现“朱元璋”三个字，但是我们可以看出来错误句子中的“猪八八”实际上就是指代朱元璋。而且此种指代存在侮辱性含义，极易引起舆论事件。又因为“猪八八”与“朱元璋”音不同，字不同，这就增加了检查的难度，因为审核人员只能根据上下文进行推断。

4)语境错误的情况，例如正确的原句应为：“楚霸王是汉刘邦最有力的敌人之一，不过他也最终被击败了”；错误的句子为：“楚霸王是朱元璋最有力的敌人之一，不过他也最终被击败了”。此种情况虽然朱元璋三个字没有任何拼写错误，但是却将朱元璋与汉刘邦弄混了。

5)语境无关的情况，例如原句为：“朱元璋周末在家洗衣做饭，辅导孩子写作业，过上了相夫教子的生活”。也许真的有一个人同“朱元璋”同名同姓，她确实是在过相夫教子的生活，但是由于“朱元璋”是公众熟知的历史人物，所以这样的内容也是不合适的。事实上语境无关的情况也是一种语境错误的情况。

为应对以上情况，现有技术中一般采用关键词扫描的方式来辅助人工审核。关键词扫描***将审核人员指定的关键词扫描出来并高亮显示，提醒审核人员重点关注。由于可能的错误多种多样，这就增加了审核的难度，关键词扫描***对人工的辅助作用十分有限。现有的技术手段是使用计算机扫描文本，匹配所有正确的“朱元璋”三个字，以及已知的可能错误，例如：“猪八八”、“猪元璋”、“朱员章”、“ZYZ”、“zhuyuanzhang”、“zyz”等。将这些匹配项以高亮形式提供给人工审核员进行人工审核。

现有技术存在以下缺陷：

1)采用关键词扫描的技术方法无法列举所有可能的错误形式。除了上面列举的常见错误之外，还可能存在多种其它具体的错误，例如“猪重八”。

2)采用关键词扫描的技术方法可能得到大量的扫描结果，无法有效地辅助审核人员、缩短审核时间、提高审核效率。

3)现有技术只能标记出需要人工审核员重点关注的关键词，而实际上是否存在错误是要结合上下文综合进行判断的。例如上文中所列举的完全错误的情况，使用现有技术是无能为力的，因为在错误句子中没有任何关键词会被匹配到。

4)对于语境错误和语境无关的情况，现有的关键词标记技术也是无能为力的，这需要审核人员具备一定的政治历史知识，知道张飞与朱元璋不是同一时代人物才能发现句子中的错误。

发明内容

本发明提出的是一种关键人名语境错误检测方法及***，其目的旨在克服现有技术存在的上述缺陷，利用与人名相关的上下文进行综合分析，预测对某个关键人名是否存在关键人名完全错误的情况，以及预测对某个关键人名是否存在语境错误或语境无关的情况。

本发明的技术解决方案：一种关键人名语境错误检测方法，该方法包括以下步骤：

第1步：首先确定需要进行审核的关键人名集合，集合中包含其它；

第2步：选定一篇文章或一句话或一段话中连续的N个字作为一个词，称这个词为暗词，然后取这个暗词的上下文；或者选定一篇文章或一句话或一段话中的关键人名，并选取这个关键人名的上下文；

第3步：使用分词算法分别对暗词或关键人名的上下文进行分词；

第4步：将分词结果向量化；

第5步：将向量化分词结果输入一个机器学习分类器，分类器输出指示该上下文是否归属于第1步中确定的关键人名集合中的一个人名，如果是，则指示归属于关键人名集合中的哪一个人名；

第6步：当暗词不属于关键人名集合中的人名且分类器的输出不是其它时，判断该暗词为错误用词，提示审核人员进行重点审核，

当关键人名属于关键人名集合中的人名且与分类器的输出不同时，判断该词为错误语境，提示审核人员进行重点审核。

优选的，所述的第1步中，确定需要进行审核的关键人名集合NAMES， NAMES＝{“α”，“β”，“γ”，……，“NONE”}，其中“α”，“β”，“γ”等是需要重点关注的人名，“NONE”表示其它。

优选的，是所述的第2步中，取这个暗词或关键人名的上下文，具体是：取这个暗词或关键人名左侧的M个字作为该暗词或关键人名的上文，取这个暗词或关键人名右侧的M个字作为该暗词或关键人名的下文；当暗词或关键人名出现在句子开头时，不存在上文或上文不足M个字；当暗词或关键人名出现在句子末尾时，不存在下文或下文不足M个字。

优选的，所述的第4步中，将分词结果向量化，具体是：将每个词或字转换为D维的向量，若上文中有K个词，下文中也有K个词，根据上下文得到一个D行2K列的数据矩阵，记此矩阵为C_D×2K；不足K个词时用0向量补足。

优选的，所述的第5步中，将C_D×2K输入机器学习分类器，分类器输出指示该上下文不归属于第1步中确定的关键人名集合中的一个人名时即为“NONE”。

优选的，所述的第6步中，具体的，当暗词不属于集合NAMES-{“NONE”} 且分类器的输出不是NONE时，判断该暗词为错误用词，提示审核人员进行重点审核，NAMES-{“NONE”}是集合NAMES与集合{“NONE”}的差集，

当关键人名属于集合NAMES-{“NONE”}且与分类器的输出不同时，判断该词为错误语境，提示审核人员进行重点审核。

一种关键人名语境错误检测***，包括

输入模块，用于输入给定的待审核文本和需要进行审核的关键人名集合；

暗词选择模块，用于假定所述的待审核文本中任意连续N个字组成一个暗词；

名字标定模块，用于将所述的待审文本中出现的关键人名集合中的名字直接标定出来；

取上下文模块，用于根据所述的暗词选择模块选择的暗词或所述的名字标定模块名字标定的名字，选择暗词或名字的上下文，

分词模块，用于使用分词算法对取上下文模块选择的上下文进行分词，

词向量化模块，用于将分词模块分得的词转换为D维向量，上下文分别分出K个词，得到一个D行2K列的矩阵，用以表示所述的暗词或名字对应的上下文，不足K个词时用0向量补足；

分类器模块，用于输入词向量化模块输出的D行2K列的矩阵，并输出关键人名集合中的某个元素，分类器模块为机器学习分类器；

警报器模块，用于在分类器模块将一个暗词的上下文预测为属于某个关键人名的上下文时，判断该暗词被用于指代某个关键人名，发出警报并使输出模块高亮显示，提示审核人员进行重点审核；或在将一个关键人名A的上下文输入分类器模块进行分类，分类器模块的输出不是A 时，判断该词为错误语境，发出警报并使输出模块高亮显示，提示审核人员进行重点审核。

输出模块，用于输出警报器模块传输来的高亮显示信号。

优选的，所述的待审核文本为一篇文章或一句话或一段话；

所述的需要进行审核的关键人名集合为NAMES，NAMES＝{“α”，“β”，“γ”，……，“NONE”}，其中“α”，“β”，“γ”等是需要重点关注的人名，“NONE”表示其它；

所述的取上下文模块选择暗词或名字的上下文时，取这个暗词或名字左侧的M个字作为该暗词或名字的上文，取这个暗词或名字右侧的M 个字作为该暗词或名字的下文，当暗词或名字出现在句子开头时，不存在上文或上文不足M个字，当暗词或名字出现在句子末尾时，不存在下文或下文不足M个字；

所述的D行2K列的矩阵为C_D×2K；

所述的分类器模块将一个暗词的上下文预测为属于某个关键人名的上下文，即暗词不属于集合NAMES-{“NONE”}，且分类器的输出不是NONE；将一个关键人名A的上下文输入分类器进行分类，分类器的输出不是A，即当关键人名属于集合NAMES-{“NONE”}且与分类器的输出不同。

本发明的优点：利用与人名相关的上下文进行综合分析，可预测对某个关键人名是否存在关键人名完全错误的情况，以及预测对某个关键人名是否存在语境错误或语境无关的情况，能够识别存在指代含义的暗词，能够识别出现在错误语境中的关键人名，可有效辅助审核人员、缩短互联网上需要被审核的内容的审核时间、提高审核效率和审核的准确性。

附图说明

图1是本发明关键人名语境错误检测***的结构原理图。

具体实施方式

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

语言学相关研究和计算机自然语言处理相关研究表明，一个词的含义其实不是由它本身决定的，而是由它的上下文决定的。只有当大量的语言现象已经赋予某个词相对稳定的特定含义时，该词才能单独存在以表示某个特定的含义。

例1：在错误的句子：“猪八八击败了元帝国的大军，打败了其它的所有强敌，建立了一个新的王朝”中，人类阅读者可以轻松推断“猪八八”指代的是朱元璋，就是因为人类阅读者可以利用上下文知识以及其它先验背景知识进行推断。击败元帝国大军的有很多人，建立了新王朝的只有一个人，就是朱元璋。所以，根据这些上下文和背景知识，人类阅读者推断“猪八八”指代的是朱元璋。通过这个例子可以看出，虽然“猪八八”与“朱元璋”音不同，字不同，形不同，属于用词完全错误的情况，但是阅读者还是能推断出“猪八八”指代“朱元璋”，就是因为上下文起到了巨大的作用。

例2：在错误的句子“朱元璋周末在家洗衣做饭，辅导孩子写作业，过上了相夫教子的生活”中，“朱元璋”三个字是完全正确的，但是整个句子不正确，这是因为“朱元璋”这三个字与错误的上下文搭配在一起。因为朱元璋是公知的历史人物，由于大量的语言现象，“朱元璋”这三个字已经被赋予了十分稳定的含义，即意指明朝的开国皇帝，而不是某个家庭妇女。所以“朱元璋”与“相夫教子”的上下文搭配在一起是错误的。

实施例

一种关键人名语境错误检测方法，该方法包括以下步骤：

第1步：首先确定需要进行审核的关键人名的集合NAMES，例如： NAMES＝{“朱元璋”，“商纣王”，“刘邦”，“NONE”}。其中“朱元璋”等是需要重点关注的人名，“NONE”表示其它。

第2步：对于任意一篇文章或一句话或一段话，选定其中任意连续的N个字作为一个词，为了描述方便，称这个词为“暗词”，之所以称它为暗词是因为这个词有可能是指代某个政治敏感人物。下面取这个词的上下文，具体取法为：取这个词左侧的M个字作为该词的上文，取这个词右侧的M个字作为该词的下文。当暗词出现在句子开头时，不存在上文或上文不足M个字；当暗词出现在句子末尾时，不存在下文或下文不足M个字。

猪八八击败了元帝国的大军，打败了其它的所有强敌，建立了一个新的王朝

对于上面这段话，举两个例子进行说明：

例1：假设N＝2，M＝10，选中了“打败”两个字作为暗词，则该暗词的上文是[八击败了元帝国的大军，]，该暗词的下文是[了其它的所有强敌，建立]。

例2：假设N＝3，M＝10，选中了“其它的”三个字作为暗词，则该暗词的上文是[了元帝国的大军，打败了]，该暗词的下文是[所有强敌，建立了一个新]。

或者，对于任意一篇文章或一句话或一段话，选定其中的关键人名，并选取关键人名的上下文。关键人名的上下文选取方法与暗词的上下文选取方法相同。

第3步：分别对上文和下文进行分词，例如上文[八击败了元帝国的大军]将被分为词序列：[“八”,“击败”,“了”,“元帝国”,“的”, “大军”]，下文[了其它的所有强敌，建立]将被分为词序列：[“了”, “其它的”,“所有”,“强敌”,“，”,“建立”]。中文分词是现有技术中文自然语言处理中的常用算法，在此不赘述。也可不进行分词而是简单地将上下文分割为单个的字以及标点符号。

第4步：将分词结果向量化，即将每个词(或字)转换为D维的向量，假设上文中有K个词，下文中也有K个词，不足K个词的情况用0 向量补足。这样根据上下文就能得到一个D行2K列的数据矩阵，记此矩阵为C_D×2K。

第5步：将C_D×2K作为一个机器学习分类器的输入，分类器的输出指示该上下文应归属于关键人名集合(在第1步中给出)中的哪一个人名 (有可能是“NONE”)。

第6步：当暗词不属于集合NAMES-{“NONE”}(集合NAMES与集合 {“NONE”}的差集)且分类器的输出不是NONE时，判断该暗词为错误用词，提示审核人员进行重点审核。

如图1所示，一种关键人名语境错误检测***，包括

输入模块，用于输入给定的待审核文本和指定的人名集合。例如待审核的文本是一篇政治题材的文章，或者是一篇新闻报道。人名集合是审核业务关注的关键人名的集合，如前述第1步中的例子。

暗词选择模块，用于假定上述待审核文本中任意连续N个字组成一个暗词。所以当待审核文本较长时，可能的暗词会很多。

名字标定模块，用于将上述待审文本中出现的人名集合中的名字直接标定出来。这一步只需要简单的匹配就可进行标定。

取上下文模块，用于根据上述暗词选择的结果或名字标定的结果，选择暗词或所标定名字的上下文。

分词模块，用于使用分词算法对上述上下文进行分词。因为中文与英文不同，中文是连续书写的汉字，由汉字组成的词之间没有空格分隔。

词向量化模块，用于将词转换为D维向量，如果上下文分别分出K 个词，就可以得到一个D行2K列的矩阵，用来表示某个暗词或名字对应的上下文。可方便计算机的处理。

分类器模块，用于输入词向量化模块输出的D行2K列的矩阵，并输出人名集合中的某个元素。可以使用机器学习的方法训练该分类器。

警报器模块，用于在一个暗词的上下文被分类器预测为属于某个关键人名的上下文时(即暗词不属于集合NAMES-{“NONE”}，且分类器的输出不是NONE)，判断该暗词被用于指代某个关键人名，发出警报并高亮显示提示审核人员进行重点审核；或在将一个关键人名A的上下文输入分类器进行分类，分类器的输出不是A时(即当关键人名属于集合 NAMES-{“NONE”}且与分类器的输出不同)，判断该词为错误语境，发出警报并高亮显示提示审核人员进行重点审核。

输出模块，用于输出警报器模块传输来的高亮显示信号。

以上所述各部件均为现有技术，本领域技术人员可使用任意可实现其对应功能的型号和现有设计。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种关键人名语境错误检测方法，其特征是该方法包括以下步骤：

第4步：将分词结果向量化；

2.如权利要求1所述的一种关键人名语境错误检测方法，其特征是所述的第1步中，确定需要进行审核的关键人名集合NAMES，NAMES＝{“α”，“β”，“γ”，……，“NONE”}，其中“α”，“β”，“γ”等是需要重点关注的人名，“NONE”表示其它。

3.如权利要求2所述的一种关键人名语境错误检测方法，其特征是所述的第2步中，取这个暗词或关键人名的上下文，具体是：取这个暗词或关键人名左侧的M个字作为该暗词或关键人名的上文，取这个暗词或关键人名右侧的M个字作为该暗词或关键人名的下文；当暗词或关键人名出现在句子开头时，不存在上文或上文不足M个字；当暗词或关键人名出现在句子末尾时，不存在下文或下文不足M个字。

4.如权利要求3所述的一种关键人名语境错误检测方法，其特征是所述的第4步中，将分词结果向量化，具体是：将每个词或字转换为D维的向量，若上文中有K个词，下文中也有K个词，根据上下文得到一个D行2K列的数据矩阵，记此矩阵为C_D×2K；不足K个词时用0向量补足。

5.如权利要求4所述的一种关键人名语境错误检测方法，其特征是所述的第5步中，将C_D×2K输入机器学习分类器，分类器输出指示该上下文不归属于第1步中确定的关键人名集合中的一个人名时即为“NONE”。

6.如权利要求5所述的一种关键人名语境错误检测方法，其特征是所述的第6步中，具体的，当暗词不属于集合NAMES-{“NONE”}且分类器的输出不是NONE时，判断该暗词为错误用词，提示审核人员进行重点审核，NAMES-{“NONE”}是集合NAMES与集合{“NONE”}的差集，

7.一种关键人名语境错误检测***，其特征是包括

警报器模块，用于在分类器模块将一个暗词的上下文预测为属于某个关键人名的上下文时，判断该暗词被用于指代某个关键人名，发出警报并使输出模块高亮显示，提示审核人员进行重点审核；或在将一个关键人名A的上下文输入分类器模块进行分类，分类器模块的输出不是A时，判断该词为错误语境，发出警报并使输出模块高亮显示，提示审核人员进行重点审核。

输出模块，用于输出警报器模块传输来的高亮显示信号。

8.如权利要求7所述的一种关键人名语境错误检测***，其特征是所述的待审核文本为一篇文章或一句话或一段话；

所述的取上下文模块选择暗词或名字的上下文时，取这个暗词或名字左侧的M个字作为该暗词或名字的上文，取这个暗词或名字右侧的M个字作为该暗词或名字的下文，当暗词或名字出现在句子开头时，不存在上文或上文不足M个字，当暗词或名字出现在句子末尾时，不存在下文或下文不足M个字；

所述的D行2K列的矩阵为C_D×2K；