CN111159686B

CN111159686B - 一种基于自然语言处理的人机验证方法和***

Info

Publication number: CN111159686B
Application number: CN201911233815.3A
Authority: CN
Inventors: 潘玉彪; 杨祉; 吴晨皓
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2022-06-07
Anticipated expiration: 2039-12-05
Also published as: CN111159686A

Abstract

提出一种基于自然语言处理的人机验证方法和***，通过若干方法获取用于进行人机验证的中文/英文语料；利用现有的语料库单词转换为多维词向量来分析单词与单词之间的关系，挖掘语料库中单词的联系；利用现有的一部分语料库凭借词向量构建人机验证模型；将用户输入的验证答案输入模型进行判断；将人类输入结果作为标签、训练集进行交叉验证，进行训练合并至原有验证集。基于自然语言处理的人机验证***及方法对用户进行人机验证，降低互联网受到恶意攻击的风险，可用于登陆、注册等网络场景下对用户进行人机验证并生成自然语言训练语料集。

Description

一种基于自然语言处理的人机验证方法和***

技术领域

本发明涉及安全防护和自然语言处理技术领域，特别是指一种基于自然语言处理的人机验证方法和***。

背景技术

即使现在互联网已经渗透到我们生活的方方面面，但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。

这就意味着自动化程序同样可以模仿人的行为，同时，因为机器速度更快且不知疲倦，它会被用于批量在论坛、网站、App中发布营销信息。而且，在监管不足的情况下，利润更高的行业往往底线更低。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码，给网站带来巨大的安全隐患。

验证码正是为了解决这样的问题而生的。它也是个自动化程序，不过存在目的是区分用户到底是机器人还是真实的人。这些验证码有一个共同的原则：人类很容易识别，但对计算机来说非常困难。

其次，验证码本身就被被称为一种「图灵测试」，所以它在设计之初就有促进人工智能发展的初衷。目前的人机验证机制大多通过图像识别等方式来提供验证，而对于图像的人工智能技术已经日趋完善。然而，市面上仍然存在打码机器人众多、人机验证识别度低和自然语言处理类型人机识别验证缺失等问题。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于自然语言处理的人机验证方法和***。

本发明采用如下技术方案：

一种基于自然语言处理的人机验证方法，其特征在于，包括如下步骤：

S1：构建验证集的语料库；

S2：根据语料库构建词向量模型；

S3：根据语料库和词向量模型构建人机验证模型；

S4：对验证集采用模板法随机生成验证码；

S5：将采集到的验证答案输入人机验证模型,判断是否满足要求，若否，则重复该步骤，若是，则验证通过。

优选的，步骤S1具体包括如下：

S11：使用Scrapy框架爬取网络上的资讯、小说、百科和论文获得文本语料；

S12：下载基于***、百度百科和搜狗提供的文本语料；

S13：对所有文本语料进行文本清洗；

S14：使用Jieba对清洗后的文本语料进行分词操作；

S15：通过现有语料标注或人工标注构建所述语料库。

优选的，步骤S2中，采用Word2Vec构建词向量模型。

优选的，步骤S3中，具体包括：

S31：采用所述词向量模型计算验证集中语料的文本向量距离，其包含杰卡德系数、TF-IDF词袋模型和编辑距离；

S32：获取验证集中文本词性和句子成分。

优选的，步骤S31具体包括：

S311：计算杰卡德系数，比较验证集的文本语料之间的相似性与差异性；

S312：计算步骤S2获得的TF矩阵中两个向量的相似度；

S313：计算TF-IDF系数，在词频TF的基础上再加入IDF逆文档频率的信息；

S314：计算验证集中不同文本语料之间的编辑距离。

优选的，步骤S32具体包括：

S321：通过语料库的文本语料得到文本语料中各分词的词性及句子成分；

S322：通过语料统计，得到语料库中未曾记录的词语的起始概率、发射概率和转移概率；

S323：使用Viterbi算法，将对输入的句子进行分词转化得到语料库中词性标注种类和个数。

优选的，步骤S4具体包括：

S41：随机从验证集中抽取一个句子；

S42：对抽取到的句子自动进行句子结构的划分，形式为<Ei，R，Ej>，Ei、 Ej为实体，R为关系；

S43：依据句子结构划分借助已有的问题模板进行问题生成。

优选的，步骤S5具体包括：

S51：判断用户输入的验证答案是否符合自然语法；

S52：判断用户输入验证答案和抽取的句子相似度是否达到80％；

S53：若达到相似的要求，则验证通过；否则，返回步骤S4。

优选的，还包括步骤S6，利用PCR回归建模，通过交叉验证对验证集进行优化、合并，具体包括如下：

S61：服务器存储收集来的各种通过人机验证的语料；

S62：选取通过次数较多的语料，输入到PCR回归模型中进行交叉验证结果正确性；

S63：将通过交叉验证的语料输入训练好的TF-IDF词袋模型进行训练；

S64：将通过交叉验证的语料合并至已有验证集。

一种基于自然语言处理的人机验证***，其特征在于，应用上述的一种基于自然语言处理的人机验证方法，包括：

验证集模块，设有验证集，其包括语料库和词向量模型；

验证码生成模块，对验证集采用模板法随机生成验证码；

人机界面模块，提供操作界面以供显示验证码和输入验证答案；

人机验证模型模块，用于根据输入的验证答案,判断是否满足要求。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

1、降低互联网受到恶意攻击的风险，可用于登陆、注册等网络场景下对用户进行人机验证，有效防止了机器人爬虫。

2、生成并公开自然语言训练语料集用于自然语言处理领域促进当代人工智能产业发展。

附图说明

图1为本发明流程图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

本发明的一种基于自然语言处理的人机验证***及方法，包括以下步骤：(1) 验证集语料库的构建；(2)验证集语料的词向量模型的构建；(3)人机验证自然语言处理模型的构建；(4)利用模板法随机生成验证码；(5)将采集到的验证答案进行人机识别分析；(6)利用PCR回归建模，通过交叉验证对验证集进行优化、合并。

参见图1，一种基于自然语言处理的人机验证方法，包括如下步骤：

S1：构建验证集的语料库。其具体包括如下：

S12：下载基于***、百度百科和搜狗提供的文本语料；

S13：对所有文本语料进行文本清洗。文本清洗包括文本标准化、符后标准化、停词去除、词性分析、命名实体、变形标准化等。

S14：使用Jieba对清洗后的文本语料进行分词操作。

S15：通过现有语料标注或人工标注构建所述语料库。

S2：根据语料库构建词向量模型，具体的，本发明采用Word2Vec构建词向量模型。

S3：根据语料库和词向量模型构建人机验证模型。其具体包括：

S31：采用词向量模型计算验证集中语料的文本向量距离，其包含杰卡德系数、TF-IDF词袋模型和编辑距离。TF-IDF词袋模型中包含TF-IDF系数及余弦相似度。本步骤具体包括：

S312：计算步骤S2获得的TF矩阵中两个向量的相似度，即采用Word2Vec 构建的两个单词的词向量；

S314：计算验证集中不同文本语料之间的编辑距离。

S32：获取验证集中文本词性(863词性标注集)和句子成分(分词标注集)。

步骤S32具体包括：

S321：通过步骤S15中已有语料库的文本语料统计得到文本语料中各分词的词性及句子成分；

S322：通过前文的语料统计，得到语料库中未曾记录的词语的起始概率、发射概率和转移概率。未曾记录的词语即步骤S15中现有语料标注或人工标注构建的语料库中未曾记录的词语。起始概率是指某一个词性出现的次数/语料库总词性标记数，发射概率是指该词语不同词性出现的次数/该词语总共出现的总次数，转移概率是指词性出现时的前一个词性的次数/该词性出现的总次数。

S323：使用Viterbi算法，将对输入的句子(即观测序列)进行分词转化得到语料库中词性标注种类和个数(隐藏序列)。

S4：对验证集采用模板法随机生成验证码。具体包括：

S41：随机从验证集中抽取一个句子；

S43：依据句子结构划分借助已有的问题模板进行问题生成。

步骤S5具体包括：

S51：判断用户输入的验证答案是否符合自然语法；

S53：若达到相似的要求，则验证通过；否则，返回步骤S4。

进一步的，本发明还包括步骤S6，利用PCR回归建模，通过交叉验证对验证集进行优化、合并，具体包括如下：

S61：服务器存储收集来的各种通过人机验证的语料，即用户在网页上进行人机验证的答案；

S64：将通过交叉验证的语料合并至已有验证集。

本发明还提出一种基于自然语言处理的人机验证***，应用上述的基于自然语言处理的人机验证方法，包括：

验证集模块，设有验证集，其包括语料库和词向量模型；

验证码生成模块，对验证集采用模板法随机生成验证码；

本发明提出的基于自然语言处理的人机验证***及方法充分挖掘了自然语言的内在潜力，降低了用户验证难度，增加了人机验证的趣味性和破解难度，提升了人机验证的效率、准确度和安全性。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于自然语言处理的人机验证方法，其特征在于，包括如下步骤：

S1：构建验证集的语料库；

S2：根据语料库构建词向量模型；

S3：根据语料库和词向量模型构建人机验证模型，具体包括：

S31：采用所述词向量模型计算验证集中语料的文本向量距离，其包含杰卡德系数、TF-IDF词袋模型和编辑距离；具体包括：

S312：计算步骤S2获得的TF矩阵中两个向量的相似度；

S314：计算验证集中不同文本语料之间的编辑距离；

S32：获取验证集中文本词性和句子成分，具体包括：

S322：通过语料统计，得到语料库中未曾记录的词语的起始概率、发射概率和转移概率，起始概率是指某一个词性出现的次数/语料库总词性标记数，发射概率是指该词语不同词性出现的次数/该词语总共出现的总次数，转移概率是指词性出现时的前一个词性的次数/该词性出现的总次数；

S323：使用Viterbi算法，将对输入的句子进行分词转化得到语料库中词性标注种类和个数；

S4：对验证集采用模板法随机生成验证码；

2.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于，步骤S1具体包括如下：

S12：下载基于***、百度百科和搜狗提供的文本语料；

S13：对所有文本语料进行文本清洗；

S14：使用Jieba对清洗后的文本语料进行分词操作；

S15：通过现有语料标注或人工标注构建所述语料库。

3.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S2中，采用Word2Vec构建词向量模型。

4.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S4具体包括：

S41：随机从验证集中抽取一个句子；

S42：对抽取到的句子自动进行句子结构的划分，形式为<Ei，R，Ej>，Ei、Ej为实体，R为关系；

S43：依据句子结构划分借助已有的问题模板进行问题生成。

5.如权利要求4所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S5具体包括：

S51：判断用户输入的验证答案是否符合自然语法；

S53：若达到相似的要求，则验证通过；否则，返回步骤S4。

6.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于,还包括步骤S6，利用PCR回归建模，通过交叉验证对验证集进行优化、合并，具体包括如下：

S61：服务器存储收集来的各种通过人机验证的语料；

S62：选取验证通过次数较多的语料，输入到PCR回归模型中进行交叉验证结果正确性；

S64：将通过交叉验证的语料合并至已有验证集。

7.一种基于自然语言处理的人机验证***，其特征在于，应用权利要求1至6中任一项所述的一种基于自然语言处理的人机验证方法，包括：

验证集模块，设有验证集，其包括语料库和词向量模型；

验证码生成模块，对验证集采用模板法随机生成验证码；