CN112019786B - 智能教学录屏方法和*** - Google Patents

智能教学录屏方法和*** Download PDF

Info

Publication number
CN112019786B
CN112019786B CN202010857325.7A CN202010857325A CN112019786B CN 112019786 B CN112019786 B CN 112019786B CN 202010857325 A CN202010857325 A CN 202010857325A CN 112019786 B CN112019786 B CN 112019786B
Authority
CN
China
Prior art keywords
sound signal
actual
optimized
frequency domain
screen recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010857325.7A
Other languages
English (en)
Other versions
CN112019786A (zh
Inventor
崔炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd filed Critical Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority to CN202010857325.7A priority Critical patent/CN112019786B/zh
Publication of CN112019786A publication Critical patent/CN112019786A/zh
Application granted granted Critical
Publication of CN112019786B publication Critical patent/CN112019786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供了智能教学录屏方法和***,其不同于现有技术只针对录屏得到的实际声音信号本身进行降噪优化,其通过收集相应的标准声音信号作为参考信号,并从声音信号的时域和频域层面上对上述两种声音信号进行时域特征参数和频域特征参数的提取、实际声音信号的降噪优化和声音信号的信号统计误差分析,再根据信号统计误差分析的结果实现优化声音信号与录屏图像的相互组合匹配,从而提高录屏声音信号与录屏图像信号的组合匹配可靠性。

Description

智能教学录屏方法和***
技术领域
本发明涉及智能教育的技术领域,特别涉及智能教学录屏方法和***。
背景技术
在智能教学过程中通常需要对线上教学过程进行录屏,以便于后续根据录屏结果实时调整教学方式。对线上教学过程进行录屏包括声音录屏和图像录屏,其中声音录屏得到的声音信号通常包含一定的噪声成分,为了保证录屏结果的可靠性,需要对该声音信号进行优化后再与录屏图像重新组合,但是现有技术都只是针对该声音信号本身进行滤波降噪,其并未参考其他标准声音信号进行适应性的优化,这不利于对录屏声音信号的降噪优化以及提高后续录屏声音信号与录屏图像信号的组合匹配可靠性。
发明内容
针对现有技术存在的缺陷,本发明提供智能教学录屏方法和***,其通过收集标准声音信号以及录屏过程中录入的实际声音信号,并对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理,并根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号,再确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配;可见,该智能教学录屏方法和***不同于现有技术只针对录屏得到的实际声音信号本身进行降噪优化,其通过收集相应的标准声音信号作为参考信号,并从声音信号的时域和频域层面上对上述两种声音信号进行时域特征参数和频域特征参数的提取、实际声音信号的降噪优化和声音信号的信号统计误差分析,再根据信号统计误差分析的结果实现优化声音信号与录屏图像的相互组合匹配,从而提高录屏声音信号与录屏图像信号的组合匹配可靠性。
本发明提供智能教学录屏方法,其特征在于,其包括如下步骤:
步骤S1,收集标准声音信号以及录屏过程中录入的实际声音信号,并对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理;
步骤S2,根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号;
步骤S3,确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配;
进一步,在所述步骤S1中,收集标准声音信号以及录屏过程中录入的实际声音信号,并对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理具体包括,
步骤S101,对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干所述历史教学声音信号提取共同存在的声音信号,以此作为所述标准声音信号;
步骤S102,对所述标准声音信号进行时域分析处理和频域分析处理,以此从所述标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数;
步骤S103,对所述实际声音信号进行时域分析处理和频域分析处理,以此从所述实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数;
进一步,在所述步骤S2中,根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号具体包括,
步骤S201,根据下面公式(1),确定所述标准声音信号与所述实际声音信号之间的相似性评价值
Figure BDA0002646888000000031
在上述公式(1)中,simA表示所述标准声音信号与所述实际声音信号之间的相似性评价值,xi表示从所述实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从所述标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从所述实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从所述标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从所述实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从所述标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量;
步骤S202,将所述相似性评价值与预设相似度评价阈值进行比对,若所述相似性评价值大于或者等于所述预设相似度评价阈值,则对所述实际声音信号进行滤波降噪处理,以此得到所述优化声音信号,若所述相似性评价值小于所述预设相似度评价阈值,则重新录入实际声音信号,并再次确定所述标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达所述相似性评价值大于或者等于所述预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到所述优化声音信号;
进一步,在所述步骤S3中,确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配具体包括,
步骤S301,根据下面公式(2),确定所述优化声音信号与所述标准声音信号之间的实际均方误差
Figure BDA0002646888000000041
在上述公式(2)中,MSE1表示所述优化声音信号与所述标准声音信号之间的实际均方误差,
Figure BDA0002646888000000042
表示所述标准声音信号中第t帧声音片段的功率,
Figure BDA0002646888000000043
表示所述优化声音信号中第t帧声音片段的功率,c表示所述标准声音信号和所述优化声音信号中声音片段各自对应的总数量;
步骤S302,根据下面公式(3),确定所述实际均方误差MSE1与预设均方误差MSE2之间的比值Q
Figure BDA0002646888000000044
在上述公式(3)中,所述预设均方误差MSE2的取值范围为[0.1,0.6];
步骤S303,若所述比值Q小于或者等于1,则根据所述录屏过程对应的录屏操作时序信息,将所述优化声音信号与所述录屏图像进行组合匹配,若所述比值Q大于1,则对所述优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定所述比值Q,以及在重新确定的比值Q小于或者等于1时,根据所述录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与所述录屏图像进行组合匹配。
本发明还提供智能教学录屏***,其特征在于,其包括声音信号获取模块、声音信号预处理模块、优化声音信号生成模块和声音信号-录屏图像组合模块;其中,
所述声音信号获取模块用于收集标准声音信号以及录屏过程中录入的实际声音信号;
所述声音信号预处理模块用于对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理;
所述优化声音信号生成模块用于根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号;
所述声音信号-录屏图像组合模块用于确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配;
进一步,所述声音信号获取模块收集标准声音信号具体包括对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干所述历史教学声音信号提取共同存在的声音信号,以此作为所述标准声音信号;
所述声音信号预处理模块对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理具体包括,
对所述标准声音信号进行时域分析处理和频域分析处理,以此从所述标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数,
并对所述实际声音信号进行时域分析处理和频域分析处理,以此从所述实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数;
进一步,所述优化声音信号生成模块根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号具体包括,
根据下面公式(1),确定所述标准声音信号与所述实际声音信号之间的相似性评价值
Figure BDA0002646888000000051
在上述公式(1)中,simA表示所述标准声音信号与所述实际声音信号之间的相似性评价值,xi表示从所述实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从所述标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从所述实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从所述标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从所述实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从所述标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量,
将所述相似性评价值与预设相似度评价阈值进行比对,若所述相似性评价值大于或者等于所述预设相似度评价阈值,则对所述实际声音信号进行滤波降噪处理,以此得到所述优化声音信号,若所述相似性评价值小于所述预设相似度评价阈值,则重新录入实际声音信号,并再次确定所述标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达所述相似性评价值大于或者等于所述预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到所述优化声音信号;
进一步,所述声音信号-录屏图像组合模块确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配,
根据下面公式(2),确定所述优化声音信号与所述标准声音信号之间的实际均方误差
Figure BDA0002646888000000061
在上述公式(2)中,MSE1表示所述优化声音信号与所述标准声音信号之间的实际均方误差,
Figure BDA0002646888000000062
表示所述标准声音信号中第t帧声音片段的功率,
Figure BDA0002646888000000063
表示所述优化声音信号中第t帧声音片段的功率,c表示所述标准声音信号和所述优化声音信号中声音片段各自对应的总数量;
再根据下面公式(3),确定所述实际均方误差MSE1与预设均方误差MSE2之间的比值Q
Figure BDA0002646888000000071
在上述公式(3)中,所述预设均方误差MSE2的取值范围为[0.1,0.6];
最后若所述比值Q小于或者等于1,则根据所述录屏过程对应的录屏操作时序信息,将所述优化声音信号与所述录屏图像进行组合匹配,若所述比值Q大于1,则对所述优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定所述比值Q,以及在重新确定的比值Q小于或者等于1时,根据所述录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与所述录屏图像进行组合匹配。
相比于现有技术,该智能教学录屏方法和***通过收集标准声音信号以及录屏过程中录入的实际声音信号,并对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理,并根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号,再确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配;可见,该智能教学录屏方法和***不同于现有技术只针对录屏得到的实际声音信号本身进行降噪优化,其通过收集相应的标准声音信号作为参考信号,并从声音信号的时域和频域层面上对上述两种声音信号进行时域特征参数和频域特征参数的提取、实际声音信号的降噪优化和声音信号的信号统计误差分析,再根据信号统计误差分析的结果实现优化声音信号与录屏图像的相互组合匹配,从而提高录屏声音信号与录屏图像信号的组合匹配可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的智能教学录屏方法的流程示意图。
图2为本发明提供的智能教学录屏***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的智能教学录屏方法的流程示意图。该智能教学录屏方法包括如下步骤:
步骤S1,收集标准声音信号以及录屏过程中录入的实际声音信号,并对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理;
步骤S2,根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号;
步骤S3,确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配。
优选地,在该步骤S1中,收集标准声音信号以及录屏过程中录入的实际声音信号,并对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理具体包括,
步骤S101,对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干该历史教学声音信号提取共同存在的声音信号,以此作为该标准声音信号;
步骤S102,对该标准声音信号进行时域分析处理和频域分析处理,以此从该标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数;
步骤S103,对该实际声音信号进行时域分析处理和频域分析处理,以此从该实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数。
优选地,在该步骤S2中,根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号具体包括,
步骤S201,根据下面公式(1),确定该标准声音信号与该实际声音信号之间的相似性评价值
Figure BDA0002646888000000091
在上述公式(1)中,simA表示该标准声音信号与该实际声音信号之间的相似性评价值,xi表示从该实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从该标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从该实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从该标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从该实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从该标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量;
步骤S202,将该相似性评价值与预设相似度评价阈值进行比对,若该相似性评价值大于或者等于该预设相似度评价阈值,则对该实际声音信号进行滤波降噪处理,以此得到该优化声音信号,若该相似性评价值小于该预设相似度评价阈值,则重新录入实际声音信号,并再次确定该标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达该相似性评价值大于或者等于该预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到该优化声音信号。
优选地,在该步骤S3中,确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配具体包括,
步骤S301,根据下面公式(2),确定该优化声音信号与该标准声音信号之间的实际均方误差
Figure BDA0002646888000000101
在上述公式(2)中,MSE1表示该优化声音信号与该标准声音信号之间的实际均方误差,
Figure BDA0002646888000000102
表示该标准声音信号中第t帧声音片段的功率,
Figure BDA0002646888000000103
表示该优化声音信号中第t帧声音片段的功率,c表示该标准声音信号和该优化声音信号中声音片段各自对应的总数量;
步骤S302,根据下面公式(3),确定该实际均方误差MSE1与预设均方误差MSE2之间的比值Q
Figure BDA0002646888000000104
在上述公式(3)中,该预设均方误差MSE2的取值范围为[0.1,0.6];
步骤S303,若该比值Q小于或者等于1,则根据该录屏过程对应的录屏操作时序信息,将该优化声音信号与该录屏图像进行组合匹配,若该比值Q大于1,则对该优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定该比值Q,以及在重新确定的比值Q小于或者等于1时,根据该录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与该录屏图像进行组合匹配。
总体而言,该智能教学录屏方法通过在历史教学过程对应的无噪声环境中收集标准声音信号,以标准声音信号作为参考,然后再获取录屏过程中工作人员录入的实际声音信号,通过标准声音信号与实际声音信号对比,通过公式(1)计算相似度评价值,并对相似度评价值大于或等于预设相似度评价阈值的实际声音信号进行剔除,防止错误声音信号混入,造成录屏过程中图像信息与声音信号不匹配的问题,对相似度评价值大于预设相似度评价阈值的实际声音信号进行降噪处理,消除了实际声音信号中的部分噪音,使声音信号更加清晰,通过公式(2)计算优化声音信号和标准声音信号的实际均方误差,并根据公式(3)确认实际均方误差与预设均方误差的比值,能够确认经过降噪处理后的处理效果,当所述实际均方误差与预设均方误差的比值小于或等于1时,说明处理效果满足匹配条件,可以将优化声音信号与录制的图像信息进行匹配,并进行存储,当实际均方误差与预设均方误差的比值大于1时,说明处理效果不满足匹配条件,需将优化声音信号再次进行降噪处理,直至优化声音信号的实际均方误差与预设均方误差的比值小于或等于1时再与录制的图像信息进行匹配,保证与录制的图像信息匹配的优化声音信号更加准确、可靠,教学时图像与声音更加匹配,声音更加准确清晰,提高了教学过程中的用户体验。
参阅图2,为本发明实施例提供的智能教学录屏***的结构示意图。该智能教学录屏***包括声音信号获取模块、声音信号预处理模块、优化声音信号生成模块和声音信号-录屏图像组合模块;其中,
该声音信号获取模块用于收集标准声音信号以及录屏过程中录入的实际声音信号;
该声音信号预处理模块用于对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理;
该优化声音信号生成模块用于根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号;
该声音信号-录屏图像组合模块用于确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配。
优选地,该声音信号获取模块收集标准声音信号具体包括对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干该历史教学声音信号提取共同存在的声音信号,以此作为该标准声音信号;
该声音信号预处理模块对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理具体包括,
对该标准声音信号进行时域分析处理和频域分析处理,以此从该标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数,
并对该实际声音信号进行时域分析处理和频域分析处理,以此从该实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数。
优选地,该优化声音信号生成模块根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号具体包括,
根据下面公式(1),确定该标准声音信号与该实际声音信号之间的相似性评价值
Figure BDA0002646888000000121
在上述公式(1)中,simA表示该标准声音信号与该实际声音信号之间的相似性评价值,xi表示从该实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从该标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从该实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从该标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从该实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从该标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量,
将该相似性评价值与预设相似度评价阈值进行比对,若该相似性评价值大于或者等于该预设相似度评价阈值,则对该实际声音信号进行滤波降噪处理,以此得到该优化声音信号,若该相似性评价值小于该预设相似度评价阈值,则重新录入实际声音信号,并再次确定该标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达该相似性评价值大于或者等于该预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到该优化声音信号。
优选地,该声音信号-录屏图像组合模块确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配,
根据下面公式(2),确定该优化声音信号与该标准声音信号之间的实际均方误差
Figure BDA0002646888000000131
在上述公式(2)中,MSE1表示该优化声音信号与该标准声音信号之间的实际均方误差,
Figure BDA0002646888000000132
表示该标准声音信号中第t帧声音片段的功率,
Figure BDA0002646888000000133
表示该优化声音信号中第t帧声音片段的功率,c表示该标准声音信号和该优化声音信号中声音片段各自对应的总数量;
再根据下面公式(3),确定该实际均方误差MSE1与预设均方误差MSE2之间的比值Q
Figure BDA0002646888000000141
在上述公式(3)中,该预设均方误差MSE2的取值范围为[0.1,0.6];
最后若该比值Q小于或者等于1,则根据该录屏过程对应的录屏操作时序信息,将该优化声音信号与该录屏图像进行组合匹配,若该比值Q大于1,则对该优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定该比值Q,以及在重新确定的比值Q小于或者等于1时,根据该录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与该录屏图像进行组合匹配。
总体而言,该智能教学录屏***通过在历史教学过程对应的无噪声环境中收集标准声音信号,以标准声音信号作为参考,然后再获取录屏过程中工作人员录入的实际声音信号,通过标准声音信号与实际声音信号对比,通过公式(1)计算相似度评价值,并对相似度评价值大于或等于预设相似度评价阈值的实际声音信号进行剔除,防止错误声音信号混入,造成录屏过程中图像信息与声音信号不匹配的问题,对相似度评价值大于预设相似度评价阈值的实际声音信号进行降噪处理,消除了实际声音信号中的部分噪音,使声音信号更加清晰,通过公式(2)计算优化声音信号和标准声音信号的实际均方误差,并根据公式(3)确认实际均方误差与预设均方误差的比值,能够确认经过降噪处理后的处理效果,当所述实际均方误差与预设均方误差的比值小于或等于1时,说明处理效果满足匹配条件,可以将优化声音信号与录制的图像信息进行匹配,并进行存储,当实际均方误差与预设均方误差的比值大于1时,说明处理效果不满足匹配条件,需将优化声音信号再次进行降噪处理,直至优化声音信号的实际均方误差与预设均方误差的比值小于或等于1时再与录制的图像信息进行匹配,保证与录制的图像信息匹配的优化声音信号更加准确、可靠,教学时图像与声音更加匹配,声音更加准确清晰,提高了教学过程中的用户体验。
从上述实施例的内容可知,该智能教学录屏方法和***通过收集标准声音信号以及录屏过程中录入的实际声音信号,并对该标准声音信号和该实际声音信号进行时域分析处理和频域分析处理,并根据该时域分析处理和该频域分析处理的结果,确定该标准声音信号与该实际声音信号之间的相似性评价值,再根据该相似性评价值,对该实际声音信号进行优化处理,以此得到优化声音信号,再确定该优化声音信号对应的信号统计误差信息,并根据该信号统计误差信息,执行该优化声音信号与该录屏过程得到的录屏图像的相互组合匹配;可见,该智能教学录屏方法和***不同于现有技术只针对录屏得到的实际声音信号本身进行降噪优化,其通过收集相应的标准声音信号作为参考信号,并从声音信号的时域和频域层面上对上述两种声音信号进行时域特征参数和频域特征参数的提取、实际声音信号的降噪优化和声音信号的信号统计误差分析,再根据信号统计误差分析的结果实现优化声音信号与录屏图像的相互组合匹配,从而提高录屏声音信号与录屏图像信号的组合匹配可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (2)

1.智能教学录屏方法,其特征在于,其包括如下步骤:
步骤S1,收集标准声音信号以及录屏过程中录入的实际声音信号,并对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理;
步骤S2,根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号;
步骤S3,确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配;
其中,在所述步骤S1中,收集标准声音信号以及录屏过程中录入的实际声音信号,并对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理具体包括,
步骤S101,对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干所述历史教学声音信号提取共同存在的声音信号,以此作为所述标准声音信号;
步骤S102,对所述标准声音信号进行时域分析处理和频域分析处理,以此从所述标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数;
步骤S103,对所述实际声音信号进行时域分析处理和频域分析处理,以此从所述实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数;
其中,在所述步骤S2中,根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号具体包括,
步骤S201,根据下面公式(1),确定所述标准声音信号与所述实际声音信号之间的相似性评价值:
Figure FDA0002969252410000021
在上述公式(1)中,simA表示所述标准声音信号与所述实际声音信号之间的相似性评价值,xi表示从所述实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从所述标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从所述实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从所述标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从所述实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从所述标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量;
步骤S202,将所述相似性评价值与预设相似度评价阈值进行比对,若所述相似性评价值大于或者等于所述预设相似度评价阈值,则对所述实际声音信号进行滤波降噪处理,以此得到所述优化声音信号,若所述相似性评价值小于所述预设相似度评价阈值,则重新录入实际声音信号,并再次确定所述标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达所述相似性评价值大于或者等于所述预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到所述优化声音信号;
其中,在所述步骤S3中,确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配具体包括,
步骤S301,根据下面公式(2),确定所述优化声音信号与所述标准声音信号之间的实际均方误差:
Figure FDA0002969252410000031
在上述公式(2)中,MSE1表示所述优化声音信号与所述标准声音信号之间的实际均方误差,
Figure FDA0002969252410000032
表示所述标准声音信号中第t帧声音片段的功率,
Figure FDA0002969252410000033
表示所述优化声音信号中第t帧声音片段的功率,c表示所述标准声音信号和所述优化声音信号中声音片段各自对应的总数量;
步骤S302,根据下面公式(3),确定所述实际均方误差MSE1与预设均方误差MSE2之间的比值Q:
Figure FDA0002969252410000034
在上述公式(3)中,所述预设均方误差MSE2的取值范围为[0.1,0.6];
步骤S303,若所述比值Q小于或者等于1,则根据所述录屏过程对应的录屏操作时序信息,将所述优化声音信号与所述录屏图像进行组合匹配,若所述比值Q大于1,则对所述优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定所述比值Q,以及在重新确定的比值Q小于或者等于1时,根据所述录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与所述录屏图像进行组合匹配。
2.智能教学录屏***,其特征在于,其包括声音信号获取模块、声音信号预处理模块、优化声音信号生成模块和声音信号-录屏图像组合模块;其中,
所述声音信号获取模块用于收集标准声音信号以及录屏过程中录入的实际声音信号;
所述声音信号预处理模块用于对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理;
所述优化声音信号生成模块用于根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号;
所述声音信号-录屏图像组合模块用于确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配;
其中,所述声音信号获取模块收集标准声音信号具体包括对若干历史教学过程进行录音,以此得到相应的历史教学声音信号,再从若干所述历史教学声音信号提取共同存在的声音信号,以此作为所述标准声音信号;所述声音信号预处理模块对所述标准声音信号和所述实际声音信号进行时域分析处理和频域分析处理具体包括,
对所述标准声音信号进行时域分析处理和频域分析处理,以此从所述标准声音信号中提取得到第一时域特征参数、第一频域特征参数和第一倒谱频域特征参数,
并对所述实际声音信号进行时域分析处理和频域分析处理,以此从所述实际声音信号中提取得到第二时域特征参数、第二频域特征参数和第二倒谱频域特征参数;
其中,所述优化声音信号生成模块根据所述时域分析处理和所述频域分析处理的结果,确定所述标准声音信号与所述实际声音信号之间的相似性评价值,再根据所述相似性评价值,对所述实际声音信号进行优化处理,以此得到优化声音信号具体包括,
根据下面公式(1),确定所述标准声音信号与所述实际声音信号之间的相似性评价值:
Figure FDA0002969252410000051
在上述公式(1)中,simA表示所述标准声音信号与所述实际声音信号之间的相似性评价值,xi表示从所述实际声音信号中提取的第i个第二时域特征参数,m表示第二时域特征参数的总数量,xj表示从所述标准声音信号中提取的第j个第一时域特征参数,n表示第一时域特征参数的总数量,yh表示从所述实际声音信号中提取的第h个第二频域特征参数,e表示第二频域特征参数的总数量,yk表示从所述标准声音信号中提取的第k个第一频域特征参数,f表示第一频域特征参数的总数量,zp表示从所述实际声音信号中提取的第p个第二倒谱频域特征参数,r表示第二倒谱频域特征参数的总数量,zq表示从所述标准声音信号中提取的第q个第一倒谱频域特征参数,s表示第一倒谱频域特征参数的总数量,
将所述相似性评价值与预设相似度评价阈值进行比对,若所述相似性评价值大于或者等于所述预设相似度评价阈值,则对所述实际声音信号进行滤波降噪处理,以此得到所述优化声音信号,若所述相似性评价值小于所述预设相似度评价阈值,则重新录入实际声音信号,并再次确定所述标准声音信号与重新录入的实际声音信号之间的相似性评价值,直达所述相似性评价值大于或者等于所述预设相似度评价阈值时,再对重新录入的实际声音信号进行滤波降噪处理,以此得到所述优化声音信号;其中,所述声音信号-录屏图像组合模块确定所述优化声音信号对应的信号统计误差信息,并根据所述信号统计误差信息,执行所述优化声音信号与所述录屏过程得到的录屏图像的相互组合匹配,
根据下面公式(2),确定所述优化声音信号与所述标准声音信号之间的实际均方误差:
Figure FDA0002969252410000061
在上述公式(2)中,MSE1表示所述优化声音信号与所述标准声音信号之间的实际均方误差,
Figure FDA0002969252410000062
表示所述标准声音信号中第t帧声音片段的功率,
Figure FDA0002969252410000063
表示所述优化声音信号中第t帧声音片段的功率,c表示所述标准声音信号和所述优化声音信号中声音片段各自对应的总数量;
再根据下面公式(3),确定所述实际均方误差MSE1与预设均方误差MSE2之间的比值Q:
Figure FDA0002969252410000064
在上述公式(3)中,所述预设均方误差MSE2的取值范围为[0.1,0.6];最后若所述比值Q小于或者等于1,则根据所述录屏过程对应的录屏操作时序信息,将所述优化声音信号与所述录屏图像进行组合匹配,若所述比值Q大于1,则对所述优化声音信号再次进行滤波降噪处理,并根据再次经过滤波降噪处理后的优化声音信号,重新确定所述比值Q,以及在重新确定的比值Q小于或者等于1时,根据所述录屏过程对应的录屏操作时序信息,将再次经过滤波降噪处理后的优化声音信号与所述录屏图像进行组合匹配。
CN202010857325.7A 2020-08-24 2020-08-24 智能教学录屏方法和*** Active CN112019786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010857325.7A CN112019786B (zh) 2020-08-24 2020-08-24 智能教学录屏方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010857325.7A CN112019786B (zh) 2020-08-24 2020-08-24 智能教学录屏方法和***

Publications (2)

Publication Number Publication Date
CN112019786A CN112019786A (zh) 2020-12-01
CN112019786B true CN112019786B (zh) 2021-05-25

Family

ID=73505690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010857325.7A Active CN112019786B (zh) 2020-08-24 2020-08-24 智能教学录屏方法和***

Country Status (1)

Country Link
CN (1) CN112019786B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104581346A (zh) * 2015-01-14 2015-04-29 华东师范大学 一种微视频课程制作***及其制作方法
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
KR101722332B1 (ko) * 2015-10-21 2017-04-03 한국해양대학교 산학협력단 음향신호를 이용한 모션 탐지 처리 방법
CN107346665A (zh) * 2017-06-29 2017-11-14 广州视源电子科技股份有限公司 音频检测的方法、装置、设备以及存储介质
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107610715A (zh) * 2017-10-10 2018-01-19 昆明理工大学 一种基于多种声音特征的相似度计算方法
CN108200526A (zh) * 2017-12-29 2018-06-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN109635759A (zh) * 2018-12-18 2019-04-16 北京嘉楠捷思信息技术有限公司 一种信号处理方法、装置及计算机可读存储介质
CN109637211A (zh) * 2019-01-22 2019-04-16 合肥市云联鸿达信息技术有限公司 一种全自动录播***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766461B (zh) * 2018-07-17 2021-01-26 厦门美图之家科技有限公司 音频特征提取方法及装置
CN109065059A (zh) * 2018-09-26 2018-12-21 新巴特(安徽)智能科技有限公司 用音频特征主成分建立的语音群集来识别说话人的方法
CN110534121B (zh) * 2019-08-21 2021-09-03 中国传媒大学 一种基于频域特征的音频内容一致性的监测方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104581346A (zh) * 2015-01-14 2015-04-29 华东师范大学 一种微视频课程制作***及其制作方法
KR101722332B1 (ko) * 2015-10-21 2017-04-03 한국해양대학교 산학협력단 음향신호를 이용한 모션 탐지 처리 방법
CN105679120A (zh) * 2016-01-29 2016-06-15 右江民族医学院 基于tts技术制作标准普通话语音微课件的方法
CN107402965A (zh) * 2017-06-22 2017-11-28 中国农业大学 一种音频检索方法
CN107346665A (zh) * 2017-06-29 2017-11-14 广州视源电子科技股份有限公司 音频检测的方法、装置、设备以及存储介质
CN107527623A (zh) * 2017-08-07 2017-12-29 广州视源电子科技股份有限公司 传屏方法、装置、电子设备及计算机可读存储介质
CN107610715A (zh) * 2017-10-10 2018-01-19 昆明理工大学 一种基于多种声音特征的相似度计算方法
CN108200526A (zh) * 2017-12-29 2018-06-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN109635759A (zh) * 2018-12-18 2019-04-16 北京嘉楠捷思信息技术有限公司 一种信号处理方法、装置及计算机可读存储介质
CN109637211A (zh) * 2019-01-22 2019-04-16 合肥市云联鸿达信息技术有限公司 一种全自动录播***

Also Published As

Publication number Publication date
CN112019786A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
EP3309782B1 (en) Method, device and system for noise suppression
Hilger et al. Quantile based histogram equalization for noise robust large vocabulary speech recognition
CN109473123A (zh) 语音活动检测方法及装置
CN101894551B (zh) 一种咳嗽自动识别装置
CN109034046B (zh) 一种基于声学检测的电能表内异物自动识别方法
CN113628627B (zh) 一种基于结构化语音分析的电力行业客户服务质检***
CN110807585A (zh) 一种学员课堂学习状态在线评估方法及***
CN110689885B (zh) 机器合成语音识别方法、装置、存储介质及电子设备
US11238289B1 (en) Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN106971724A (zh) 一种防干扰声纹识别方法和***
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN113823293A (zh) 一种基于语音增强的说话人识别方法及***
CN112712790A (zh) 针对目标说话人的语音提取方法、装置、设备及介质
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN114974229A (zh) 基于电力现场作业音频数据提取异常行为的方法和***
CN109065026B (zh) 一种录音控制方法及装置
CN111105798B (zh) 基于语音识别的设备控制方法
CN113077812B (zh) 语音信号生成模型训练方法、回声消除方法和装置及设备
CN112019786B (zh) 智能教学录屏方法和***
CN109346099B (zh) 一种基于语音识别的迭代去噪方法和芯片
CN115910034A (zh) 基于深度学习的语音语种识别方法及***
CN113948089B (zh) 声纹模型训练和声纹识别方法、装置、设备及介质
CN114333828A (zh) 用于数码产品的快速语音识别***
CN111833897B (zh) 一种用于交互式教育的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20221020

Granted publication date: 20210525

PP01 Preservation of patent right