CN108763897A - 身份合法性的校验方法、终端设备及介质 - Google Patents

身份合法性的校验方法、终端设备及介质 Download PDF

Info

Publication number
CN108763897A
CN108763897A CN201810496073.2A CN201810496073A CN108763897A CN 108763897 A CN108763897 A CN 108763897A CN 201810496073 A CN201810496073 A CN 201810496073A CN 108763897 A CN108763897 A CN 108763897A
Authority
CN
China
Prior art keywords
video image
human face
pixel
feature vector
characteristic point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810496073.2A
Other languages
English (en)
Inventor
王义文
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810496073.2A priority Critical patent/CN108763897A/zh
Priority to PCT/CN2018/097449 priority patent/WO2019223102A1/zh
Publication of CN108763897A publication Critical patent/CN108763897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于信息处理技术领域,提供了一种身份合法性的校验方法、终端设备及介质,该方法包括:当检测到用户发出的语音信号时,采集用户的视频图像;对视频图像进行人脸检测处理,以确定出视频图像中的人脸区域;定位人脸区域中的唇部像素点;根据定位的唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;将各个第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;根据文本信息以及预设的身份验证信息,确定用户的身份合法性。本发明中,视频图像并不会受到外部环境的吵杂声的干扰,保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能提高身份识别的准确率,降低了身份合法性的校验难度。

Description

身份合法性的校验方法、终端设备及介质
技术领域
本发明属于信息处理技术领域,尤其涉及一种身份合法性的校验方法、终端设备及计算机可读存储介质。
背景技术
随着语音识别技术的不断发展,基于用户的声纹特征来验证用户的身份已发展成为了一种新的身份验证技术。例如,银行***可接收用户发出的语音信号,并通过提取语音信号中的声纹特征,与预先存储的账户合法声纹特征作对比,进而根据对比结果来确定用户是否为账户的合法用户等。
然而,在银行等人数较多的应用场景之下,用户在发出语音信号时,语音信号中往往都夹杂有大量的环境噪声。此时,银行***基于语音识别技术来对该语音信号来进行识别操作时,也会因环境噪声的存在而导致声纹特征的提取准确率降低,因此,也间接降低了对用户身份验证的识别准确率。
发明内容
有鉴于此,本发明实施例提供了一种身份合法性的校验方法、终端设备及计算机可读存储介质,以解决现有技术中用户身份验证的识别准确率较为低下的问题。
本发明实施例的第一方面提供了一种身份合法性的校验方法,包括:
当检测到用户发出的语音信号时,采集所述用户的视频图像;
对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
定位所述人脸区域中的唇部像素点;
根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
本发明实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的身份合法性的校验方法的步骤。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的身份合法性的校验方法的步骤。
本发明实施例中,由于用户在说话过程中,嘴唇唇形会产生动态变化,因而通过采集用户在发出语音信号过程中的视频图像,并定位出视频图像中的唇部像素点,分别构建各个不同时刻与唇部像素点对应的特征向量,使得预先训练得到的神经网络模型能够直接输出用户在各个时刻所需表达的文本信息。由于视频图像的获取并不会受到外部环境的吵杂声的干扰,由此保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能够提高身份识别的准确率,降低了复杂噪音环境下身份合法性的校验难度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的身份合法性的校验方法的实现流程图;
图2是本发明实施例提供的身份合法性的校验方法S102的具体实现流程图;
图3是本发明实施例提供的身份合法性的校验方法S103的具体实现流程图;
图4是本发明实施例提供的包含人脸特征点所对应的标签值的人脸区域示意图;
图5是本发明实施例提供的身份合法性的校验方法S104的具体实现流程图;
图6是本发明实施例提供的身份合法性的校验方法S105的具体实现流程图;
图7是本发明实施例提供的身份合法性的校验装置的结构框图;
图8是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的身份合法性的校验方法的实现流程,详述如下:
S101:当检测到用户发出的语音信号时,采集所述用户的视频图像。
本发明实施例中,通过预设的语音接收器,检测外界所产生的语音信号。若检测到语音信号的幅值强度大于预设值,则确定当前语音信号为用户发出的语音信号。此时,启动摄像头,以通过该摄像头,采集用户的视频图像。
S102:对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域。
本发明实施例中,通过预设的人脸检测算法,对摄取得到的各帧视频图像进行识别处理。上述人脸检测算法例如可以是AdaBoost人脸识别算法以及基于人脸特征的OPENCV检测算法等,在此不作限定。根据识别得到的各个人脸特征的位置点,可确定出视频图像中的人脸区域。
作为本发明的一个实施例,图2示出了本发明实施例提供的身份合法性的校验方法S102的具体实现流程,详述如下:
S1021:分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。
S1022:对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量。
S1023:将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置。
本发明实施例中,对每一帧视频图像,通过以下公式,计算该帧视频图像中每一像素点分别在x轴方向上的第一图像梯度Gx(x,y)和在y轴方向上的第二图像梯度Gy(x,y):
其中,(x,y)表示视频图像中像素点的坐标,H(x,y)为基于openCV所提供的Sobel算子对坐标为(x,y)这一像素点的像素值进行运行处理后所得到的输出值。
优选地,在计算视频图像中每一像素点在x轴方向上的第一图像梯度信息以及在y轴方向上的第二图像梯度信息之前,将视频图像进行归一化处理,包括:分别获取视频图像中像素点在各个颜色通道上的灰度值,计算各个灰度值的平方根。由此,实现了对视频图像的压缩,有效地降低了因视频图像局部的阴影和光照变化而带来后续运算过程中的识别误差。
本发明实施例中,对各个第一图像梯度信息以及第二图像梯度信息进行量化,以构建得到视频图像的第二特征向量。将上述第二特征向量输入基于Dlib库的人脸检测模型。上述Dlib库的人脸检测模型通过方向梯度直方图(Histogram Of Gradient,HOG)来识别出第二特征向量所表示出的各个人脸特征,再通过预设的向量机(Support VectorMachine,SVM)来对识别出各人脸特征所分别对应的分类类型。上述分类类型可以是指人脸器官中的一个位置,即,每一分类类型与视频图像中的一个位置点匹配。因此,在确定出各分类类型后,可在视频图像的各个坐标位置,确定已标记的各个人脸特征点。
本发明实施例中,上述基于Dlib库的人脸检测模型用于标记视频图像中的68个人脸特征点。
S1024:根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
在上述得到的68个人脸特征点中,分别检测出纵坐标值最大、纵坐标值最小、横坐标值最大以及横坐标值最小的四个人脸特征点。生成外切于上述四个人脸特征点的矩形检测框,则该矩形检测框所包围的图像区域即为当前视频图像中的人脸区域。
本发明实施例中,通过获取视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息,基于第一图像梯度信息以及第二图像梯度信息来构建视频图像的特征向量,使得该特征向量能够被用于描述视频图像中局部图像的内容,且对该视频图像内的像素变化具有相对不变性。通过将特征向量输入人脸检测模型,以根据输出的人脸特征点的标记位置来确定视频图像中的人脸区域,实现了在识别人脸特征点的同时,准确定位并标记每一人脸特征点的具***置,因此,提高了人脸区域的识别准确度。
S103:定位所述人脸区域中的唇部像素点。
本发明实施例中,人脸区域包含有人脸对应各个器官位置的人脸特征点。通过预设的唇部特征定位算法,识别出人脸区域中的唇部轮廓后,可将邻近于唇部轮廓以及唇部轮廓中的各个人脸特征点进行提取,以得到人脸区域中的各个唇部像素点。
优选地,在上一实施例的基础之上,步骤S1023还包括:获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别。此时,作为本发明的一个实施例,图3示出了本发明实施例提供的身份合法性的校验方法S103的具体实现流程,详述如下:
S1031:获取预先设置的与唇部像素点对应的标签阈值。
本发明实施例中,人脸检测模型在输出视频图像中各个人脸特征点的标记位置时,还在标记位置展示各个人脸特征点的标签值。其中,每一标签值用于表示当前标记位置所指示的人脸特征点所属的一个特征类别。上述标签值以数字序号的形式来进行展示。示例性地,图4为视频图像中,包含有68个人脸特征点所对应的标签值的人脸区域示意图。可见,标签值为27至35的人脸特征点表示这些人脸特征点所属的特征类别为鼻子。
本发明实施例中,获取预先设置的与唇部像素点对应的标签阈值。标签阈值表示唇部像素点所对应的标签值中,数值最小的一个标签值。例如,唇部像素点所对应的标签阈值为48。
S1032:在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
对每一人脸特征点所对应的标签值,判断该标签值是否大于或等于上述标签阈值。若该标签值大于或等于上述标签阈值,则将该人脸特征点识别为人脸区域中的一个唇部像素点。若该标签值小于上述标签阈值,则将该人脸特征点识别为非唇部像素点。如此类推,直至人脸区域中的各个人脸特征点均分类完成。
本发明实施例中,通过人脸检测模型输出视频图像中各个人脸特征点所对应的标签值,实现了基于标签值与标签阈值的大小关系来完成对唇部像素点的识别,无须再依赖于复杂的唇部精确定位算法来对视频图像进行处理,因此,提高了对唇部像素点的识别效率以及识别准确率。
S104:根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量。
图5示出了本发明实施例提供的身份合法性的校验方法S104的具体实现流程,详述如下:
S1041:将所述视频图像划分为多个子图像。
S1042:分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间。
S1043:对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量。
S1044:根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
根据上述视频图像中每一像素点分别在x方向上的第一图像梯度Gx(x,y)和在y方向上的第二图像梯度Gy(x,y),计算出视频图像中该像素点的梯度幅值G(x,y)以及梯度方向角β:
本发明实施例中,将视频图像划分为多个等分的子图像。对每一子图像,生成该子图像对应的一个加权梯度方向直方图HOG,并根据上述梯度方向角,沿梯度方向将该HOG平均划分为9个区间。其中,划分区间为0°至360°。即,沿梯度方向将HOG分成9组,使得每一组所匹配的角度范围为40°。
对属于同一区间下的各个像素点,读取各个像素点的梯度幅值,并将各个梯度幅值进行叠加后,得到该区间的特征值。
本发明实施例中,将每相邻的4个子图像作为一个图像块,把一个图像块所对应的各个区间的特征值进行联合,得到36维的特征向量。以一个图像块为单位,对当前的视频图像帧进行扫描,扫描步长为一个单位。将所有图像块的特征向量串联起来后,将得到的向量输出为该帧视频图像中与唇部像素点对应的第一特征向量。
优选地,在将每相邻的4个子图像作为一个图像块后,对图像块内的HOG进行归一化处理,以使各个子图像能够组合成空间上连通的图像块。由于归一化操作能够对图像块的光照、阴影以及边缘进行压缩,因此,基于归一化后的图像块所得到的第一特征向量,能够在后续识别唇部像素点所对应的文本信息的过程中,提高文本信息的识别准确率。
由于在不同时刻所捕获的视频图像不同,故根据预设时长内所连续捕获得到的多帧视频图像,可通过上述方式获取得到唇部像素点分别在各个时刻所对应的第一特征向量。
S105:将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。
本发明实施例中,使用循环神经网络模型对唇部像素点在各个时刻所对应的第一特征向量进行处理。其中,循环神经网络模型以预设的多个第一特征向量以及已知的文本信息来作为训练样本。通过上述循环神经网络模型,在空间和时间上对第一特征向量做卷积,相当于在空间或者平面上加上一维时间,以表征时间序列在空间上变化。循环神经网络模型所使用的卷积核为三维的卷积核,在时间的维度上所卷积得到的结果用于表征唇部像素点在时间上的变化特征。
本发明实施例中,循环神经网络模型包含有三个卷积层和三个池化层。池化层用于提取第一特征向量中的主要特征,以降低第一特征向量的维度,提高神经网络模型的泛化能力,同时引入平移、旋转和尺度不变性。
优选地,为了保持输出文本信息的序列不变,循环神经网络模型中,池化层的时间维度为一。
优选地,作为本发明的一个实施例,图6示出了本发明实施例提供的身份合法性的校验方法S105的具体实现流程,详述如下:
S1051:获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。
S1052:将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素。
S1053:依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列。
S1054:基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
本发明实施例中,循环神经网络模型包含有两个双向LSTM层,将唇部像素点分别在各个时刻所对应的第一特征向量依序通过上述两个LSTM层后,输出关联的各个发音音素以及每一发音音素的发音时长。发音音素例如可以是“a”“o”以及“b”等拼音字母。依照各个发音音素的输出顺序,构建包含各个发音音素的音素序列。其中,若检测到任意两个发音音素之间的时长间隔大于预设值,则在音素序列中,在上述两个发音音素之间***一静音音素。
以静音音素为分隔符,对包含静音音素以及发音音素的音素序列进行切分,使得该音素序列能够被分割为仅包含发音音素的多个音素组。
在每一音素组,将连续出现的多个发音音素进行串接,并通过预设算法,识别出与这些发音音素匹配文本字符。至此,获取得到用户在发出语音信号的时间段内,该语音信号所对应的文本信息。
特别地,若与发音音素匹配的文本字符有多个,则根据各个文本字符所构成词组的使用频率高低,依序输出各个词组。
例如,若音素组中所依序出现的发音音素为“w-o-s-h-i-s-h-u-i”,则匹配的文本字符可以是“我是谁”以及“我是水”等。此时,将“我是谁”以及“我是水”均输出为第一特征向量所对应的文本信息。
S106:根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
本发明实施例中,获取用户所预先自定义的身份验证信息。上述身份验证信息包括但不限于语音信息以及文本信息。其中,当身份验证信息为语音信息时,通过语音识别算法对该语音信息进行处理,以输出该语音信息对应的文本信息。
将上述S105所得到的文本信息与当前身份验证信息中的文本信息进行对比,判断二者是否相同。若判断结果为是,则确定当前用户为合法用户;若判断结果为否,则确定当前用户为非法用户。
特别地,若上述S105中所得到的文本信息有多个,则分别将得到的各文本信息与当前身份验证信息中的文本信息进行对比。若存在相同的文本信息,则确定当前用户为合法用户;若不存在相同的文本信息,则确定当前用户为非法用户。
本发明实施例中,由于用户在说话过程中,嘴唇唇形会产生动态变化,因而通过采集用户在发出语音信号过程中的视频图像,并定位出视频图像中的唇部像素点,分别构建各个不同时刻与唇部像素点对应的特征向量,使得预先训练得到的神经网络模型能够直接输出用户在各个时刻所需表达的文本信息。由于视频图像的获取并不会受到外部环境的吵杂声的干扰,由此保证了基于视频图像所得到的文本信息来确定用户的身份合法性时,能够提高身份识别的准确率,降低了复杂噪音环境下身份合法性的校验难度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于本发明实施例所提供的身份合法性的校验方法,图7示出了本发明实施例提供的身份合法性的校验装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图7,该装置包括:
采集单元71,用于当检测到用户发出的语音信号时,采集所述用户的视频图像。
检测单元72,用于对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域。
定位单元73,用于定位所述人脸区域中的唇部像素点。
生成单元74,用于根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量。
输入单元75,用于将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。
确定单元76,用于根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
可选地,所述检测单元72包括:
第一获取子单元,用于分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。
量化子单元,用于对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量。
输入子单元,用于将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置。
确定子单元,用于根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
可选地,所述输入子单元还用于:
获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
所述定位所述人脸区域中的唇部像素点,包括:
获取预先设置的与唇部像素点对应的标签阈值;
在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
可选地,所述生成单元74包括:
分割子单元,用于将所述视频图像划分为多个子图像。
生成子单元,用于分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间。
计算子单元,用于对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量。
读取子单元,用于根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
可选地,所述输入单元75包括:
第二获取子单元,用于获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。
输出子单元,用于将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素。
构建子单元,用于依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列。
转换子单元,用于基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
图8是本发明一实施例提供的终端设备的示意图。如图8所示,该实施例的终端设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如身份合法性的校验程序。所述处理器80执行所述计算机程序82时实现上述各个身份合法性的校验方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图7所示单元71至76的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述终端设备8中的执行过程。
所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是终端设备8的示例,并不构成对终端设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述终端设备8的内部存储单元,例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备,例如所述终端设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种身份合法性的校验方法,其特征在于,包括:
当检测到用户发出的语音信号时,采集所述用户的视频图像;
对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
定位所述人脸区域中的唇部像素点;
根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
2.如权利要求1所述的身份合法性的校验方法,其特征在于,所述对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域,包括:
分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
3.如权利要求2所述的身份合法性的校验方法,其特征在于,所述将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置,还包括:
获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
所述定位所述人脸区域中的唇部像素点,包括:
获取预先设置的与唇部像素点对应的标签阈值;
在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
4.如权利要求1所述的身份合法性的校验方法,其特征在于,根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量,包括:
将所述视频图像划分为多个子图像;
分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间;
对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
5.如权利要求1所述的身份合法性的校验方法,其特征在于,所述将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息,包括:
获取预设的循环神经网络模型,所述循环神经网络模型包含两个双向长短期记忆网络LSTM层;
将各个所述第一特征向量依序通过所述双向LSTM层,以输出每一时刻所对应的发音音素;
依照所述发音音素的输出顺序,构建包含静音音素以及包含各个所述发音音素的音素序列;
基于所述音素序列中所存在的所述静音音素,将所述音素序列分成多个音素组,并通过预设算法,将每一所述音素组转换为对应的文本字符。
6.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
当检测到用户发出的语音信号时,采集所述用户的视频图像;
对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域;
定位所述人脸区域中的唇部像素点;
根据定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量;
将各个所述第一特征向量输入预设的循环神经网络模型,以输出每一时刻所对应的文本信息;其中,所述循环神经网络模型用于识别第一特征向量所匹配的文本信息;
根据所述文本信息以及预设的身份验证信息,确定所述用户的身份合法性。
7.如权利要求6所述的终端设备,其特征在于,所述对所述视频图像进行人脸检测处理,以确定出所述视频图像中的人脸区域,包括:
分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息;
对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化,以构建得到所述视频图像的第二特征向量;
将所述第二特征向量输入人脸检测模型,以输出视频图像中各个人脸特征点的标记位置;
根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
8.如权利要求7所述的终端设备,其特征在于,所述处理器执行所述计算机程序时,还实现如下步骤:
获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值;所述标签值用于表示所述人脸特征点的特征类别;
所述定位所述人脸区域中的唇部像素点,包括:
获取预先设置的与唇部像素点对应的标签阈值;
在所述人脸检测模型所标记的各个所述人脸特征点中,将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
9.如权利要求6所述的终端设备,其特征在于,所述根据各个时刻所定位的所述唇部像素点,分别生成各个时刻所述唇部像素点对应的第一特征向量,包括:
将所述视频图像划分为多个子图像;
分别生成每一所述子图像所对应的加权梯度方向直方图HOG,所述HOG包含多个区间;
对每一所述区间,计算该区间内各个像素点的梯度幅度的模值,并将各个所述模值进行叠加,以得到该区间对应的第三特征向量;
根据预设的扫描步长,读取所述视频图像的中各个所述区间的所述第三特征向量,并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN201810496073.2A 2018-05-22 2018-05-22 身份合法性的校验方法、终端设备及介质 Pending CN108763897A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810496073.2A CN108763897A (zh) 2018-05-22 2018-05-22 身份合法性的校验方法、终端设备及介质
PCT/CN2018/097449 WO2019223102A1 (zh) 2018-05-22 2018-07-27 身份合法性的校验方法、装置、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496073.2A CN108763897A (zh) 2018-05-22 2018-05-22 身份合法性的校验方法、终端设备及介质

Publications (1)

Publication Number Publication Date
CN108763897A true CN108763897A (zh) 2018-11-06

Family

ID=64008298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496073.2A Pending CN108763897A (zh) 2018-05-22 2018-05-22 身份合法性的校验方法、终端设备及介质

Country Status (2)

Country Link
CN (1) CN108763897A (zh)
WO (1) WO2019223102A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135889A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 智能推荐书单的方法、服务器及存储介质
CN110247898A (zh) * 2019-05-23 2019-09-17 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN110298394A (zh) * 2019-06-18 2019-10-01 中国平安财产保险股份有限公司 一种图像识别方法和相关装置
CN110648667A (zh) * 2019-09-26 2020-01-03 云南电网有限责任公司电力科学研究院 多人场景人声匹配方法
WO2020253051A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 唇语的识别方法及其装置
CN112507311A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多模态特征融合的高安全性身份验证方法
WO2021051606A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN116226821A (zh) * 2023-05-04 2023-06-06 成都致学教育科技有限公司 一种教学数据中台管理***

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129410B (zh) * 2019-12-31 2024-06-07 深圳云天励飞技术有限公司 素描图像转换方法及相关产品
CN111341320B (zh) * 2020-02-28 2023-04-14 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN113393834B (zh) * 2020-03-11 2024-04-16 阿里巴巴集团控股有限公司 一种控制方法及装置
CN111626187B (zh) * 2020-05-25 2023-08-08 京东科技信息技术有限公司 一种身份标注方法、装置、电子设备及存储介质
CN111901627B (zh) * 2020-05-28 2022-12-30 北京大米科技有限公司 视频处理方法、装置、存储介质及电子设备
CN111916054B (zh) * 2020-07-08 2024-04-26 标贝(青岛)科技有限公司 基于唇形的语音生成方法、装置和***及存储介质
CN112131988B (zh) * 2020-09-14 2024-03-26 北京百度网讯科技有限公司 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN115880744B (zh) * 2022-08-01 2023-10-20 北京中关村科金技术有限公司 一种基于唇动的视频角色识别方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226587A1 (en) * 2012-02-27 2013-08-29 Hong Kong Baptist University Lip-password Based Speaker Verification System
CN106529379A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种活体识别方法及设备
CN106919891A (zh) * 2015-12-26 2017-07-04 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223582B2 (en) * 2014-10-28 2019-03-05 Watrix Technology Gait recognition method based on deep learning
CN106778496A (zh) * 2016-11-22 2017-05-31 重庆中科云丛科技有限公司 活体检测方法及装置
CN107633205B (zh) * 2017-08-17 2019-01-18 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679447A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 面部特征点检测方法、装置及存储介质
CN107633204B (zh) * 2017-08-17 2019-01-29 平安科技(深圳)有限公司 人脸遮挡检测方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226587A1 (en) * 2012-02-27 2013-08-29 Hong Kong Baptist University Lip-password Based Speaker Verification System
CN106529379A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种活体识别方法及设备
CN106919891A (zh) * 2015-12-26 2017-07-04 腾讯科技(深圳)有限公司 一种图像处理方法及装置
CN107992812A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇语识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张毅 等: "《中国人工智能进展》", pages: 115 - 116 *
苏松志 等: "《行人检测:理论与实践》", 31 March 2016, pages: 30 - 33 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135889A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 智能推荐书单的方法、服务器及存储介质
CN110247898A (zh) * 2019-05-23 2019-09-17 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN110247898B (zh) * 2019-05-23 2021-11-19 平安普惠企业管理有限公司 身份验证方法、装置、介质及电子设备
CN110298394A (zh) * 2019-06-18 2019-10-01 中国平安财产保险股份有限公司 一种图像识别方法和相关装置
WO2020253051A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 唇语的识别方法及其装置
CN110298394B (zh) * 2019-06-18 2024-04-05 中国平安财产保险股份有限公司 一种图像识别方法和相关装置
WO2021051606A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于双向lstm的唇形样本生成方法、装置和存储介质
CN110648667A (zh) * 2019-09-26 2020-01-03 云南电网有限责任公司电力科学研究院 多人场景人声匹配方法
CN110648667B (zh) * 2019-09-26 2022-04-08 云南电网有限责任公司电力科学研究院 多人场景人声匹配方法
CN112507311A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多模态特征融合的高安全性身份验证方法
CN116226821A (zh) * 2023-05-04 2023-06-06 成都致学教育科技有限公司 一种教学数据中台管理***

Also Published As

Publication number Publication date
WO2019223102A1 (zh) 2019-11-28

Similar Documents

Publication Publication Date Title
CN108763897A (zh) 身份合法性的校验方法、终端设备及介质
CN109166586B (zh) 一种识别说话人的方法及终端
US10699103B2 (en) Living body detecting method and apparatus, device and storage medium
CN106778525B (zh) 身份认证方法和装置
CN108875732B (zh) 模型训练与实例分割方法、装置和***及存储介质
WO2018028546A1 (zh) 一种关键点的定位方法及终端、计算机存储介质
US8593452B2 (en) Face feature vector construction
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
US7873189B2 (en) Face recognition by dividing an image and evaluating a similarity vector with a support vector machine
CN105740780B (zh) 人脸活体检测的方法和装置
CN108932456B (zh) 人脸识别方法、装置和***及存储介质
KR20120069922A (ko) 얼굴 인식 장치 및 그 방법
WO2019200702A1 (zh) 去网纹***训练方法、去网纹方法、装置、设备及介质
US20230056564A1 (en) Image authenticity detection method and apparatus
CN109389098B (zh) 一种基于唇语识别的验证方法以及***
JP6071002B2 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
US10423817B2 (en) Latent fingerprint ridge flow map improvement
CN110491368B (zh) 基于方言背景的语音识别方法、装置、计算机设备和存储介质
CN110738204B (zh) 一种证件区域定位的方法及装置
CN108875556A (zh) 用于人证核验的方法、装置、***及计算机存储介质
CN113515988A (zh) 掌纹识别方法、特征提取模型训练方法、设备及介质
CN113886792A (zh) 一种声纹识别和人脸识别相结合的印控仪应用方法和***
CN108921006B (zh) 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法
CN116884045B (zh) 身份识别方法、装置、计算机设备和存储介质
CN108875553A (zh) 人证核验的方法、装置、***及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication