CN104751033B

CN104751033B - 一种基于音视频文件的用户行为认证方法和装置

Info

Publication number: CN104751033B
Application number: CN201510094395.0A
Authority: CN
Inventors: 顾少丰; 郑可爽
Original assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Current assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Priority date: 2015-03-03
Filing date: 2015-03-03
Publication date: 2017-11-24
Anticipated expiration: 2035-03-03
Also published as: CN104751033A

Abstract

本申请提供一种基于音视频文件的用户行为认证方法和装置。所述方法包括：判断用户上传的音视频文件的视频是否满足认证条件；如果所述音视频文件的视频满足所述认证条件，则将所述音视频文件的音频转换为对应的待认证文本；根据所述音视频文件对应的待认证文本对用户行为进行认证。本申请实现基于音视频文件对用户行为进行自动认证，节省人力资源，提高认证效率。

Description

一种基于音视频文件的用户行为认证方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于音视频文件的用户行为认证方法和装置。

背景技术

随着互联网技术的广泛发展，用户可以通过互联网实现各种业务操作。比如：用户可以通过互联网进行交流通信，用户也可以通过互联网进行财务借贷等。要实现上述业务，服务提供方往往需要先对用户的行为进行认证，比如：通过用户的行为认证用户是否已经清楚了解业务操作的规定等。

相关技术中，用户可以上传一段音视频文件，然后由服务提供方基于该音视频文件对用户的行为进行认证。然而，目前服务提供方通常采用人工认证的方式，效率较低，且成本较高。因此，一种基于音视频文件的用户行为自动认证方案是亟待提供的。

发明内容

有鉴于此，本申请提供一种基于音视频文件的用户行为认证方法和装置。

具体地，本申请是通过如下技术方案实现的：

一种基于音视频文件的用户行为认证方法，所述方法包括：

判断用户上传的音视频文件的视频是否满足认证条件；

如果所述音视频文件的视频满足所述认证条件，则将所述音视频文件的音频转换为对应的待认证文本；

根据所述音视频文件对应的待认证文本对用户行为进行认证。

进一步地，所述判断用户上传的音视频文件的视频是否满足认证条件，包括：

从所述音视频文件中提取多张图片；

判断所述多张图片的背景的相似度是否大于等于第一阈值；

如果所述多张图片的背景的相似度大于等于所述第一阈值，则确认所述音视频文件的视频满足所述认证条件。

进一步地，所述将所述音视频文件的音频转换为对应的待认证文本，包括：

根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段，N为大于1的自然数；

将所述音频片段中的音频转换为对应的初始文本；

组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。

进一步地，在将所述音频片段中的音频识别为对应的初始文本之后，所述方法还包括：

根据预设的第二分割规则从所述音视频文件的音频中提取出N-1个校验音频片段；

将所述校验音频片段中的音频转换为对应的校验文本；

根据所述N-1个校验文本判断所述N个音频片段对应的N个初始文本是否准确；

如果所述N个音频片段对应的N个初始文本准确，则组合所述N个音频片段对应的N个初始文本。

进一步地，所述根据所述音视频文件对应的待认证文本对用户行为进行认证，包括：

计算所述音视频文件对应的待认证文本和预设的认证文本的文本相似度；

当所述文本相似度大于等于预设的第二阈值时，确认用户认证通过。

一种基于音视频文件的用户行为认证装置，所述装置包括：

判断单元，用于判断用户上传的音视频文件的视频是否满足认证条件；

转换单元，用于在所述音视频文件的视频满足所述认证条件时，将所述音视频文件的音频转换为对应的待认证文本；

认证单元，用于根据所述音视频文件对应的待认证文本对用户行为进行认证。

进一步地，所述判断单元，具体用于从所述音视频文件中提取多张图片，判断所述多张图片的背景的相似度是否大于等于第一阈值，并在所述多张图片的背景的相似度大于等于所述第一阈值时，确认所述音视频文件的视频满足所述认证条件。

进一步地，所述转换单元，具体用于根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段，N为大于1的自然数；将所述音频片段中的音频转换为对应的初始文本；组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。

进一步地，所述装置还包括：

校验单元，用于在将所述音频片段中的音频识别为对应的初始文本之后，根据预设的第二分割规则从所述音视频文件的音频中提取出N-1个校验音频片段；将所述校验音频片段中的音频转换为对应的校验文本；根据所述N-1个校验文本判断所述N个音频片段对应的N个初始文本是否准确；

所述转换单元，具体在所述N个音频片段对应的N个初始文本准确时，组合所述N个音频片段对应的N个初始文本。

进一步地，所述认证单元，具体计算所述音视频文件对应的待认证文本和预设的认证文本的文本相似度，并当所述文本相似度大于等于预设的第二阈值时，确认用户认证通过。

由以上描述可以看出，本申请可以在确认用户上传的音视频文件的视频满足认证条件后，将所述音视频文件的音频转换为对应的待认证文本，并根据所述待认证文本对用户行为进行认证，从而可以基于音视频文件对用户行为进行自动认证，节省人力资源，提高认证效率。

附图说明

图1是本申请一示例性实施例中一种基于音视频文件的用户行为认证方法的流程图。

图2是本申请一示例性实施例中另一种基于音视频文件的用户行为认证方法的流程图。

图3是本申请一示例性实施例中一种终端结构示意图。

图4是本申请一示例性实施例中一种基于音视频文件的用户行为认证装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对上述问题，本申请提供一种基于音视频文件的用户行为的自动认证方案。

请参考图1，本申请提供一种基于音视频文件的用户行为认证方法，所述方法可以应用在终端上，包括有以下步骤：

步骤101，判断用户上传的音视频文件的视频是否满足认证条件。

在本实施例中，可以从用户上传的音视频文件中随机提取出多张图片，然后判断所述多张图片的背景的相似度是否大于等于预设的第一阈值，当所述多张图片的背景的相似度大于等于所述第一阈值时，可以确认所述音视频文件的视频满足所述认证条件。

步骤102，如果所述音视频文件的视频满足所述认证条件，则将所述音视频文件的音频转换为对应的待认证文本。

在本实施例中，可以在所述视音频文件的视频满足所述认证条件时，将所述音视频文件的音频转换为对应的待认证文本。具体地，可以通过语音识别方法将所述音频转换为对应的待认证文本。为了提高音频转换的准确度，也可以将所述音频分为多个音频片段，然后分别将每个音频片段的音频转换为对应的初始文本，通过组合各个初始文本以得到所述音频对应的待认证文本。当然，本领域技术人员也可以采用其他方法将所述音视频文件的音频转换为对应的待认证文本，本申请对此不作特殊限制。

步骤103，根据所述音视频文件对应的待认证文本对用户行为进行认证。

在本实施例中，可以将所述音视频文件对应的待认证文本与预设的认证文本进行匹配，比如：计算所述待认证文本和认证文本的文本相似度，当所述文本相似度大于等于第二阈值时，确认用户认证通过。

请参考图2，本申请提供另一种基于音视频文件的用户行为认证方法，所述方法可以应用在终端上，包括有以下步骤：

步骤201，从用户上传的音视频文件中提取多张图片。

在本实施例中，当服务提供方要认证用户是否已经清楚了解业务操作的规定时，可以让用户上传其朗读业务操作规定内容的音视频文件，以提供认证的基础。通常来讲，如果用户上传的音视频文件是用户朗读业务操作规定的音视频文件，则所述音视频文件的拍摄背景不变，或者变化很小。因此，可以先对所述音视频文件的背景进行判断。

具体地，在本步骤中，可以先从所述音视频文件中提取出多张图片。比如：可以通过随机算法从所述音视频文件的视频帧中提取出多张图片。提取出的图片的数量可以由开发人员进行设置，本申请对此不作特殊限制。

步骤202，判断所述多张图片的背景的相似度是否大于等于第一阈值，如果所述多张图片的背景的相似度大于等于第一阈值，则执行步骤203。

基于前述步骤201，在提取出多张图片后，针对每张图片，可以先进行人脸识别，然后将所述图片中的人脸去除后，得到所述图片的背景。在得到所述多张图片的多个背景后，计算所述多张图片的背景的相似度，比如：可以通过SIFT(Scale-invariant featuretransform，尺度不变特征转换)算法、MD5(message-digest algorithm5，信息摘要)算法等算法计算所述多张图片的背景的相似度，本申请对此不作特殊限制。

具体地，在本实施例中，针对所述多张图片，可以计算任意两张图片的背景的相似度，比如：图片a和图片b的相似度S_ab，然后计算得到的多个相似度S_ab的平均值，将所述平均值作为所述多张图片的背景的相似度。

在本步骤中，判断所述多张图片的背景的相似度是否大于等于所述第一阈值。其中，所述第一阈值可以由开发人员进行设置，本申请对此不作特殊限制。如果所述多张图片的背景的相似度大于等于所述第一阈值，则可以确认所述音视频文件的拍摄背景不变或者变化很小，所述音视频文件满足所述认证条件，执行步骤203。如果所述多张图片的背景的相似度小于所述第一阈值，则可以重新执行步骤201，重新提取多张图片进行判断。当达到预设的重新提取次数时，如果提取的多张图片的背景的相似度仍然小于所述第一阈值，则可以确认所述音视频文件的视频不满足认证条件，比如：用户随便找了一个音视频文件上传。在本实施例中，可以返回认证失败的消息。

步骤203，确认所述音视频文件的视频满足所述认证条件。

基于前述步骤202的判断结果，在所述多张图片的背景的相似度大于等于第一阈值时，可以确认所述音视频文件的视频满足所述认证条件，执行步骤204。

可选的，在本申请另一实施例中，在从用户上传的音视频文件中提取出多张图片后，也可以针对每张图片，进行人脸识别，然后判断所述多张图片的人脸相似度，当所述多张图片的人脸相似度大于等于预设的某一阈值后，确认所述音视频文件的视频满足所述认证条件，执行步骤204。

步骤204，根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段。

在本实施例中，在确认所述音视频文件的视频满足所述认证条件时，将所述音视频文件的音频转换为对应的待认证文本，以完成认证过程。在实际实现中，针对所述音视频文件的音频，可以先进行去噪处理，比如：可以通过分析频谱剔除所述音频中的干扰，然后再根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段。

具体地，在本实施例中，可以根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段，其中，所述N的取值为大于1的自然数，所述第一分割规则可以由开发人员进行设置，比如：可以按照时间的顺序将所述音视频文件的音频分为时长为5秒的音频片段。

步骤205，将所述音频片段中的音频转换为对应的初始文本。

基于前述步骤204，在得到所述音视频片段中的音频的N个音频判断之后，针对每个音频片段，可以根据相关技术中提供的语音识别方法将所述音频片段转换为对应的文本，在本实施例中，将所述音频片段对应的文本称为初始文本。

步骤206，组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。

基于前述步骤205，在得到所述N个音频片段对应的N个初始文本后，在本步骤中，按照时间先后的顺序组合所述N个初始文件，以得到所述音视频文件对应的待认证文本。

进一步地，在本实施例中，为了提高所述待认证文本的准确性，在步骤205将所述音频片段中的音频识别为对应的初始文本之后，执行对所述初始文本准确性的校验流程。比如：可以根据预设的第二分割规则从所述音视频文件的音频中提取出N-1个校验音频片段，然后将所述校验音频片段中的音频转换为对应的校验文本，并根据所述N-1个校验文本判断所述N个音频片段对应的N个初始文本是否准确，如果准确，则组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。所述第二分割规则也可以由开发人员进行设置，举例来说，根据所述第二分割规则提取出的N-1个校验音频片段中的每个校验音频片段与根据所述第一分割规则划分的两个连续的音频片段都有交集。假设，根据所述第一分割规则将用户上传的音视频文件的音频分为三个音频片段，其中，第一音频片段的时间信息为所述音频的0-5秒，第二音频片段的时间信息为所述音频的5-10秒，第三音频片段的时间信息为所述音频的10-15秒。则可以根据所述第二分割规则提取出的2个校验音频片段，其中，第一校验音频片段的时间信息可以为所述音频的4-7秒，所述第一校验音频片段与所述第一音频片段和所述第二音频片段都有交集，第二校验音频片段的时间信息为所述音频的9-12秒，所述第二校验音频片段与所述第二音频片段和所述第三音频片段都有交集。

在本实施例中，在提取出所述N-1个校验音频片段后，将所述校验音频片段中的音频转换为对应的校验文本，然后判断所述校验音频片段对应的校验文本是否包含在与该校验音频片段有交集的音频片段对应的初始文本中，如果是，则可以确认所述N个音频片段对应的N个初始文本准确。仍以前述假设为例，如果前述第一音频片段对应的初始文本为“申请人已阅读”，前述第二音频片段对应的初始文本为“上述规则规定”，前述第三音频片段对应的初始文本为“2015年2月1日”，而前述第一校验音频片段对应的校验文本为“阅读上述”，前述第二校验音频片段对应的校验文本为“规定，2015年”，则所述第一校验音频片段对应的校验文本“阅读上述”包含在所述第一音频片段对应的初始文本“申请人已阅读”和所述第二音频片段对应的初始文本“上述规则规定”中，所述第二校验音频片段对应的校验文本“规定，2015年”包含在所述第二音频片段对应的初始文本“上述规则规定”和所述第三音频片段对应的初始文本“2015年2月1日”中，可以确认前述3个音频片段对应的初始文本准确。如果所述校验音频片段对应的校验文本没有包含在该校验音频片段有交集的音频片段对应的初始文本中，则可以确认所述N个音频片段对应的N个初始文本不准确。

在本实施例中，当确认所述N个音频片段对应的N个初始文本不准确时，可以根据预设的第三分割规则重新提取N-1个校验音频片段进行校验，如果校验结果仍然是不准确，则可以根据这N-1个校验音频片段对应的校验文本对所述初始文本进行修正，也可以根据预设的第四分割规则重新将用户上传的音视频文件的音频分割为M个音频片段，然后执行步骤205以及后续的校验流程，本申请对此不作特殊限制。

步骤207，计算所述音视频文件对应的待认证文本和预设的认证文本的文本相似度。

基于前述步骤206，在得到所述音视频文件对应的待认证文本后，计算所述待认证文本和预设的认证文本的文本相似度。具体地，在本步骤中，可以根据相关技术中提供的文本相似度算法来计算所述待认证文本和预设的认证文本的文本相似度，本申请在此不再一一赘述。

步骤208，当所述文本相似度大于等于预设的第二阈值时，确认用户认证通过。

基于前述步骤207，在计算得到所述待认证文本和预设的认证文本的文本相似度后，判断该文本相似度是否大于等于第二阈值，所述第二阈值可以由开发人员进行设置。如果所述文本相似度大于等于预设的第二阈值时，则可以确认用户认证通过，如果所述文本相似度小于所述第二阈值，则可以确认用户认证失败。

进一步地，在本申请另一可选的实施例中，还可以设置有第三阈值，所述第三阈值小于所述第二阈值。当所述文本相似度小于所述第二阈值时，还可以判断所述文本相似度是否大于等于第三阈值，如果所述文本相似度大于等于第三阈值，则可以向管理员输出提示，以提醒管理人员基于该音视频文件进行用户行为的人工认证。

与前述基于音视频文件的用户行为认证方法实施例相对应，本公开还提供了基于音视频文件的用户行为认证装置的实施例。

与本申请基于音视频文件的用户行为认证方法的实施例相对应，本申请还提供一种基于音视频文件的用户行为认证装置。本申请所述的装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，本申请基于音视频文件的用户行为认证装置作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

请参考图3和图4，本申请提供一种基于音视频文件的用户行为认证装置300，所述装置300包括有：判断单元301、转换单元302、认证单元303以及校验单元304。

其中，所述判断单元301，用于判断用户上传的音视频文件的视频是否满足认证条件；

所述转换单元302，用于在所述音视频文件的视频满足所述认证条件时，将所述音视频文件的音频转换为对应的待认证文本；

所述认证单元303，用于根据所述音视频文件对应的待认证文本对用户行为进行认证。

进一步地，所述判断单元301，具体用于从所述音视频文件中提取多张图片，判断所述多张图片的背景的相似度是否大于等于第一阈值，并在所述多张图片的背景的相似度大于等于所述第一阈值时，确认所述音视频文件的视频满足所述认证条件。

进一步地，所述转换单元302，具体用于根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段，N为大于1的自然数；将所述音频片段中的音频转换为对应的初始文本；组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。

所述校验单元304，用于在将所述音频片段中的音频识别为对应的初始文本之后，根据预设的第二分割规则从所述音视频文件的音频中提取出N-1个校验音频片段；将所述校验音频片段中的音频转换为对应的校验文本；根据所述N-1个校验文本判断所述N个音频片段对应的N个初始文本是否准确；

进一步地，所述认证单元303，具体计算所述音视频文件对应的待认证文本和预设的认证文本的文本相似度，并当所述文本相似度大于等于预设的第二阈值时，确认用户认证通过。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于音视频文件的用户行为认证方法，其特征在于，所述方法包括：

判断用户上传的音视频文件的视频是否满足认证条件；

根据所述音视频文件对应的待认证文本对用户行为进行认证；

所述判断用户上传的音视频文件的视频是否满足认证条件，包括：

从所述音视频文件中提取多张图片；

判断所述多张图片的背景的相似度是否大于等于第一阈值；

2.根据权利要求1所述的方法，其特征在于，所述将所述音视频文件的音频转换为对应的待认证文本，包括：

将所述音频片段中的音频转换为对应的初始文本；

3.根据权利要求2所述的方法，其特征在于，在将所述音频片段中的音频识别为对应的初始文本之后，所述方法还包括：

将所述校验音频片段中的音频转换为对应的校验文本；

4.根据权利要求1所述的方法，其特征在于，所述根据所述音视频文件对应的待认证文本对用户行为进行认证，包括：

5.一种基于音视频文件的用户行为认证装置，其特征在于，所述装置包括：

认证单元，用于根据所述音视频文件对应的待认证文本对用户行为进行认证；

所述判断单元，具体用于从所述音视频文件中提取多张图片，判断所述多张图片的背景的相似度是否大于等于第一阈值，并在所述多张图片的背景的相似度大于等于所述第一阈值时，确认所述音视频文件的视频满足所述认证条件。

6.根据权利要求5所述的装置，其特征在于，

所述转换单元，具体用于根据预设的第一分割规则将所述音视频文件的音频分为N个音频片段，N为大于1的自然数；将所述音频片段中的音频转换为对应的初始文本；组合所述N个音频片段对应的N个初始文本，以得到所述音视频文件对应的待认证文本。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求5所述的装置，其特征在于，

所述认证单元，具体计算所述音视频文件对应的待认证文本和预设的认证文本的文本相似度，并当所述文本相似度大于等于预设的第二阈值时，确认用户认证通过。