CN116189671A - 一种用于语言教学的数据挖掘方法及*** - Google Patents

一种用于语言教学的数据挖掘方法及*** Download PDF

Info

Publication number
CN116189671A
CN116189671A CN202310467728.4A CN202310467728A CN116189671A CN 116189671 A CN116189671 A CN 116189671A CN 202310467728 A CN202310467728 A CN 202310467728A CN 116189671 A CN116189671 A CN 116189671A
Authority
CN
China
Prior art keywords
data
voice
language
learner
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310467728.4A
Other languages
English (en)
Other versions
CN116189671B (zh
Inventor
张宝英
刘燕霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingyu International Culture And Art Communication Co ltd
Original Assignee
Lingyu International Culture And Art Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingyu International Culture And Art Communication Co ltd filed Critical Lingyu International Culture And Art Communication Co ltd
Priority to CN202310467728.4A priority Critical patent/CN116189671B/zh
Publication of CN116189671A publication Critical patent/CN116189671A/zh
Application granted granted Critical
Publication of CN116189671B publication Critical patent/CN116189671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及语音数据处理技术领域,尤其涉及一种用于语言教学的数据挖掘方法及***。该方法包括以下步骤:获取学员语言语音数据;根据学员语言语音数据进行优化处理,从而获得学员有效语音数据;利用预设的语言语音识别模型对学员有效语音数据进行识别,从而生成学员语言文本数据;根据学员语言文本数据进行分词处理并进行词性标注,以进行深度使用词语评估,从而获得学员水平文本数据;对学员水平文本数据进行词汇量语义特征提取以及语法表达能力特征提取,分别获得词汇量语言特征以及语言语法表达能力特征。本发明通过对学员语言语音数据进行深度挖掘,从而对学员的语言水平进行精准评估,提供了更准确的学员语言水平反馈。

Description

一种用于语言教学的数据挖掘方法及***
技术领域
本发明涉及语音数据处理技术领域,尤其涉及一种用于语言教学的数据挖掘方法及***。
背景技术
语言的学习除了阅读、听讲解、记忆以外,还需要用户通过大量的,不同类型题目的反复练习,才能够逐步掌握。通过不同难易程度、不同类型题目的练习,一方面可以引导用户由浅入深的掌握相关知识和方法,另一方面可以帮助用户自己或者辅导人能够发现用户对各相关知识和方法掌握的情况,以便更有针对性的加强学习和辅导。尤其是用户没有很好理解和掌握的部分,针对性的加强练习能够有效的巩固相关学习成果,提高用户的学习效率。人工智能(Artificial Intelligence,简称AI)是指让机器像人一样具有思维智能的技术和应用。人工智能包括了多个领域,利用大量数据和算法,帮助计算机模拟人类智力活动并实现自主决策和行动。未来人工智能的前景非常广阔。随着技术的不断发展和应用场景的不断拓展,人工智能将在各个领域中得到广泛应用。如何将人工智能与语言教学结合起来以使提升语言教学的质量以及有效性便成为了一个问题。
发明内容
本发明为解决上述技术问题,提出了一种用于语言教学的数据挖掘方法及***,以解决至少一个上述技术问题。
本申请提供了一种用于语言教学的数据挖掘方法,包括以下步骤:
步骤S1:获取学员语言语音数据;
步骤S2:根据学员语言语音数据进行优化处理,从而获得学员有效语音数据;
步骤S3:利用预设的语言语音识别模型对学员有效语音数据进行识别,从而生成学员语言文本数据;
步骤S4:根据学员语言文本数据进行分词处理并进行词性标注,以进行深度使用词语评估,从而获得学员水平文本数据;
步骤S5:对学员水平文本数据进行词汇量语义特征提取以及语法表达能力特征提取,分别获得词汇量语言特征以及语言语法表达能力特征;
步骤S6:根据词汇量语言特征进行词汇量评估,从而获得词汇量水平数据,并通过语言表达能力识别模型对语言语法表达能力特征进行识别,从而获得语言表达能力数据;
步骤S7:根据词汇量水平数据以及语言表达能力数据进行学员语言水平综合评估,从而获得学员语言水平评估数据。
本发明中通过对学员语言文本数据进行词汇量以及表达能力的维度进行语言水平评估,提供了准确的学员语言水平反馈,将自然语言处理技术(如分词、词性标注等)应用于学员语言数据的处理,实现了学员语言水平评估的智能化。
优选地,步骤S2具体为:
步骤S21:对学员语言语音数据进行降噪处理,从而获得降噪语音数据;
步骤S22:对降噪语音数据进行增强处理,从而获得增强语音数据;
步骤S23:对增强语音数据进行优化分帧处理,从而获得分帧语音数据;
步骤S24:对分帧语音数据进行加窗处理,从而获得学员有效语音数据。
本发明通过降噪处理、增强处理、分帧处理和加窗处理,可以有效减小环境噪声和其他非语音因素对语音识别的影响,从而提高语音识别准确率,对原始语音数据进行优化处理,可以在去除噪声和其他干扰因素的同时,保留学员语音中的关键信息,有助于更准确地评估学员的语言能力,通过对学员语音数据进行预处理和优化,可以降低后续识别模型的计算复杂度和资源消耗,提高处理效率。
优选地,其中步骤S23中优化分帧处理具体为:
步骤S231:根据增强语音数据进行分帧处理,从而获得初步分帧语音数据;
步骤S232:对初步分帧语音数据的当前帧语音数据进行聚类计算,从而获得当前帧聚类特征数据;
步骤S233:通过有效帧聚类特征识别器对当前帧聚类特征数据进行识别,从而获得有效性语音标签数据,其中有效性语音标签数据包括合格语音标签数据、存疑语音标签数据以及无效语音标签数据;
步骤S234:确定有效性语音标签数据为合格语音标签数据时,将当前帧语音数据确定为分帧语音数据;
步骤S235:确定有效性语音标签数据为存疑语音标签数据时,对当前帧语音数据进行能量谱有效性确认作业;
步骤S236:确定有效性语音标签数据为无效语音标签数据时,将当前帧语音数据删除。
本发明中通过聚类计算和有效帧聚类特征识别器的识别,能够较好地筛选出有效的语音数据,避免了因噪音、干扰等因素影响造成的误判和误报,提高了语音数据的准确性和可靠性,根据增强语音数据进行分帧处理,与传统分帧处理方式相比,更加符合实际情况,并且灵活性更强,能够更好地适应不同的语音环境和场景需求,当有效性语音标签数据为存疑语音标签数据时,该方法会对当前帧语音数据进行能量谱有效性确认作业,进一步提高了存疑语音数据的准确性,当有效性语音标签数据为无效语音标签数据时,该方法会自动将当前帧语音数据删除,避免了无效数据的占用和浪费,提高了语音数据的利用率。
优选地,其中有效帧聚类特征识别器的构建步骤包括以下步骤:
步骤S237:获取历史有效帧数据;
步骤S238:根据历史有效帧数据进行聚类计算,从而获得历史有效帧聚类特征数据;
步骤S239:根据历史有效帧聚类特征数据进行中心点提取,从而获得历史有效帧聚类特征中心集;
步骤S240:根据历史有效帧聚类特征中心集进行优化边缘距离提取,从而获取优化聚类特征中心集以及对应的优化聚类特征中心距离值集;
步骤S241:将优化聚类特征中心以及对应的优化聚类特征中心距离值进行建构,从而构建有效帧聚类子识别器,以将所有的有效帧聚类子识别器进行耦合关联,从而获得有效帧聚类特征识别器。
本发明中通过历史有效帧的聚类计算和提取优化聚类特征中心,能够更加准确地对语音帧进行分类,从而提高分类精度,使用聚类算法统计历史有效帧的特征数据,可以减少噪声的影响,提高***的鲁棒性,长语音容易出现不同时间段内的语音帧特征变化较大的情况,采用历史有效帧作为输入可以缓解这种情况,提高识别准确性。
优选地,其中优化边缘聚类提取的步骤具体为:
步骤S201:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与其余的历史有效帧聚类特征中心进行距离计算,从而获得特征中心距离集;
步骤S202:根据特征中心距离集进行最小距离值以及次小距离值提取,从而获得特征中心距最小距离集以及特征中心次小距离值集;
步骤S203:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与最近两个的历史有效帧聚类特征中心进行相对距离计算,从而获得优化边缘距离集;
步骤S204:根据优化边缘距离集进行排序,从而获得有序边缘距离集;
步骤S205:将有序边缘距离集中最小值对应的历史有效帧聚类特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S206:将剩余的历史有效帧距离特征中心集中的历史有效帧距离特征中心与优化聚类特征中心集中的优化聚类特征中心进行相对距离计算并提取最大值,从而获得相对最大距离值,确定相对最大距离值大于历史有效帧距离特征中心对应的特征中心次小距离值时,将历史有效帧距离特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S207:重复步骤S206直至有序边缘距离集为空。
本实施例由于采用了优化边缘聚类特征提取步骤,可以通过提取最小距离值以及次小距离值等方式,来提高历史有效帧聚类特征中心的聚类精度,从而更准确地判断语音帧是否包含有效语音。过去的算法可能会将非人声语音帧误判为有效语音,在处理具有噪声环境和语音非常低时,可能会导致较高的误判率。然而,该方法可以在提高聚类精度的同时,通过计算相对最大距离值对应的阈值,以减少对非人声语音帧进行误判。由于该方法能够更准确地确定语音帧中是否包含有效语音,因此可以提高后续语音识别的准确性和质量,使得整个语音识别***更加准确和稳定。
优选地,能量谱有效性确认作业通过语音帧能量谱计算公式进行计算生成的语音能量数值进行阈值确认,其中语音帧能量谱计算公式具体为:
Figure SMS_1
G为语音能量数值,α为第一权重系数,wi为语音帧中第i个采样点,β为第二权重系数,wi+1为语音帧中第i+1个采样点,sgn(wi)为wi的符号函数,γ为第三权重系数,h为历史语音数据修正项,t为当前帧语音数据调整项,m为语音帧能量谱缩放系数,r为常数项,o为根据当前帧语音数据生成的平滑调整项,N为语音帧的采样点数,u为语音能量数值的修正系数。
本发明提供一种语音帧能量谱计算公式,该计算公式充分考虑了第一权重系数α、语音帧中第i个采样点wi、第二权重系数β、语音帧中第i+1个采样点wi+1、wi+1的符号函数sgn(wi)、第三权重系数γ、历史语音数据修正项h、当前帧语音数据调整项t、语音帧能量谱缩放系数m、常数项r、根据当前帧语音数据生成的平滑调整项o、语音帧的采样点数N以及相互之间的作用关系,该公式通过语音帧中的能量、过零率和历史数据的计算,然后通过权重系数和各项调整因素进行权重计算,得到一个能量谱值。这个能量谱值可以用于判断语音帧是否包含有效语音,第一权重系数α、第二权重系数β以及第三权重系数γ,分别为语言帧能量、过零率以及历史数据的权重系数,根据实际应用场景进行调整,从而获取更加准确的生成值,根据语音帧能量谱缩放系数用于调整能量谱的大小,当前帧语音数据调整项t用于调整当前语音帧的能量计算结果,通过语音能量数值的修正系数u进行修正,从而实现对语音能量数值的精准计算,通过与预设阈值的比较来判断当前语音帧是否包含有效语音。
优选地,步骤S3中语言语音识别模型的构建步骤具体为:
步骤S31:获取标准语音数据以及对应的语音标签数据;
步骤S32:根据标准语音数据进行同一格式转换,从而获得标准格式语音数据;
步骤S33:根据标准格式语音数据进行降噪计算,从而生成标准降噪语音数据;
步骤S34:对标准降噪语音数据进行静音段剔除,生成标准人声语音数据;
步骤S35:对标准人声语音数据进行分帧处理,从而获得标准分帧语音数据;
步骤S36:根据标准分帧语音数据进行加窗处理,从而获得标准加窗语音数据;
步骤S37:根据标准加窗语音数据进行语言音素特征提取以及语言音素组合特征提取,从而获得语音音素特征以及语言音素组合特征;
步骤S38:根据语音音素特征进行优化卷积神经网络映射,从而初步构建初级语言语音识别模型;
步骤S39:根据语言音素组合特征对初级语言语音识别模型进行修正误差迭代,从而获得语言语音识别模型。
本发明中提高语音识别准确率,通过使用标准格式语音数据进行降噪、剔除静音段等预处理操作,可以提高语音识别准确度,减少噪音和非人声干扰的影响降低模型误差通过使用语言音素特征和语言音素组合特征进行模型训练和修正误差,可以降低模型误差,更好地适应不同的语音输入提高模型可靠性使用多种预处理技术和特征提取方法对语音数据进行处理,可以减少噪声和干扰对模型的影响,提高模型的可靠性和鲁棒性强应用场景根据本发明的构建步骤。
优选地,优化卷积神经网络映射的步骤具体为:
步骤S381:根据语音音素特征进行双向循环神经网络构建,从而获得语音神经网络模型;
步骤S382:对语音神经网络模型解码,从而获得连接时序音素序列模型;
步骤S383:根据连接时序音素序列模型以及对应的语音标签数据进行推理搜索,从而获得初级语言语音识别模型。
本发明将传统的单向循环神经网络替换为双向循环神经网络进行语音音素特征的构建,并通过解码得到连接时序音素序列模型和对应的语音标签数据进行推理搜索,从而获得初级语言语音识别模型。这种优化卷积神经网络映射的方法,可以提高语音识别的准确性和稳定性,特别是在复杂的语音环境中具有更好的效果。提高语音识别的准确性,该方法采用基于双向循环神经网络的语音音素特征构建方式,这种方法可以捕捉更多的上下文信息,使得语音识别更加准确,提高语音识别的稳定性:改进后的解码器可以减少噪声和其他失真因素对语音识别的影响,提高了语音识别的稳定性。
优选地,学员水平文本数据包括词语词性使用程度数据以及词语词性熟悉程度数据,步骤S4具体为:
步骤S41:根据学员语言文本数据进行分词处理,从而获得词语数据;
步骤S42:对词语数据进行词性标注,从而获得词语词性数据;
步骤S43:基于上下文规则对词语词性数据进行标注,从而获得词语语义数据;
步骤S44:根据词语语义数据进行词汇类型识别,从而获得词语词性使用程度数据;
步骤S45:根据词语语义数据进行词汇分布情况统计计算,从而获得词语词性熟悉程度数据。
本发明中词语词性使用程度数据和词语词性熟悉程度数据可以用于评估学员的语言水平,包括词汇量、熟练程度等方面,通过对词语词性使用程度数据和词语词性熟悉程度数据的统计和分析,为后续的学员语言教学数据的进一步深度挖掘做好预统计分析处理,提供更加深度的学员语言能力水平数据。
本申请提供一种用于语言教学的数据挖掘***,所述***包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的一种用于语言教学的数据挖掘方法。
本发明的有益效果在于通过获取学员有效语音数据并应用预设的语言语音识别模型,可以更高效地将学员语音数据转化为文本数据,提高语音识别的准确性。通过分词、词性标注以及词汇量和语法表达能力特征提取,可以更全面地了解学员的语言水平,包括词汇量和语法能力等方面。据词汇量水平数据和语言表达能力数据进行学员语言水平综合评估,可以为教育者提供针对性的建议和反馈,有助于实现个性化教学。通过对学员语言语音数据的深度挖掘,从而提供更加具有针对性的评估结果,从而使得从业人员或专业人员能够更好地分配语言教育资源,以提高教育资源的利用效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了一实施例的用于语言教学的数据挖掘方法的步骤流程图;
图2示出了一实施例的学员有效语音数据获取方法的步骤流程图;
图3示出了一实施例的优化分帧处理方法的步骤流程图;
图4示出了一实施例的有效帧聚类特征识别器构建方法的步骤流程图;
图5示出了一实施例的优化边缘聚类提取方法的步骤流程图;
图6示出了一实施例的语言语音识别模型构建方法的步骤流程图;
图7示出了一实施例的优化卷积神经网络映射方法的步骤流程图;
图8示出了一实施例的学员水平文本数据获取方法的步骤流程图。
具体实施方式
下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
请参阅图1至图8,本申请提供了一种用于语言教学的数据挖掘方法,包括以下步骤:
步骤S1:获取学员语言语音数据;
具体地,例如在网络在线课堂中,可以通过麦克风设备进行语音输入,从而获取学员语言语音数据。
具体地,例如使用录音设备(如手机、录音笔等)来记录学员的语音数据,然后将录音文件导入到分析***中进行处理。
步骤S2:根据学员语言语音数据进行优化处理,从而获得学员有效语音数据;
具体地,例如根据学员语言语音数据进行降噪处理、增强处理、分帧处理以及加窗处理,从而获得学员有效语音数据。
步骤S3:利用预设的语言语音识别模型对学员有效语音数据进行识别,从而生成学员语言文本数据;
具体地,例如使用预训练的深度神经网络(如卷积神经网络、循环神经网络、Transformer等)进行语音识别。
步骤S4:根据学员语言文本数据进行分词处理并进行词性标注,以进行深度使用词语评估,从而获得学员水平文本数据;
具体地,例如使用现有的开源分词工具(如jieba、NLTK、spaCy等)对学员语言文本数据进行分词处理。对分词后的文本数据进行词性标注,可以使用词性标注工具(如Stanford POS Tagger、spaCy等)或预训练的深度学***进行评估,例如,统计学员在表达中使用的高频词汇、低频词汇以及专业词汇,分析学员的词汇量和词汇使用偏好;分析学员在语法结构和句子复杂度方面的表现,以评估其语法能力等;根据深度词语评估结果,生成学员水平文本数据。这些数据可以包括词汇量评分、语法能力评分、词汇使用分布等信息。
步骤S5:对学员水平文本数据进行词汇量语义特征提取以及语法表达能力特征提取,分别获得词汇量语言特征以及语言语法表达能力特征;
具体地,例如学员水平文本数据中的词汇量语义特征,如词汇多样性:计算学员文本中的词汇多样性指标(例如,词汇丰富度),句子复杂度分析:计算学员文本中的句子复杂度指标(例如,平均句子长度、从句使用频率等),反映学员在语言表达上的复杂程度。
步骤S6:根据词汇量语言特征进行词汇量评估,从而获得词汇量水平数据,并通过语言表达能力识别模型对语言语法表达能力特征进行识别,从而获得语言表达能力数据;
具体地,例如根据教学目标和学***的阈值,如基础词汇量、中级词汇量和高级词汇量等。词汇量分类,将学员词汇量语言特征与设定的阈值进行比较,将学员划分为不同的词汇量水平,基于专家规则或预设的评分规则为学员的词汇量水平评分。利用已标注的学员文本数据训练语言表达能力识别模型,如分类模型(如支持向量机、决策树等)或深度学***。
步骤S7:根据词汇量水平数据以及语言表达能力数据进行学员语言水平综合评估,从而获得学员语言水平评估数据。
具体地,例如为词汇量水平数据和语言表达能力数据分配权重,例如,词汇量水平数据的权重为0.6,语言表达能力数据的权重为0.4。将两者按照权重相加,得到学员语言水平综合评估数据。
本发明中通过对学员语言文本数据进行词汇量以及表达能力的维度进行语言水平评估,提供了准确的学员语言水平反馈,将自然语言处理技术(如分词、词性标注等)应用于学员语言数据的处理,实现了学员语言水平评估的智能化。
优选地,步骤S2具体为:
步骤S21:对学员语言语音数据进行降噪处理,从而获得降噪语音数据;
具体地,例如使用谱减法(Spectral Subtraction)进行降噪处理。谱减法通过估计噪声的功率谱并从输入语音信号中减去噪声功率谱。
步骤S22:对降噪语音数据进行增强处理,从而获得增强语音数据;
具体地,例如使用基于加性因子的语音增强方法。通过在语音信号中添加随机的谐波信号或白噪声等加性因子来增强语音信号。
步骤S23:对增强语音数据进行优化分帧处理,从而获得分帧语音数据;
具体地,例如对每一个语音帧进行自相关分析,得到自相关函数,如defautocorrelation(signal):计算自相关函数,param signal:一维数组,代表信号,return:一维数组,长度为n,表示自相关函数,n=len(signal),corr =[],fork in range(n):,r_k=0,for i in range(n-k): r_k += signal[i]×signal[i+k],corr.append(r_k),returncorr,该函数接受一个一维数组作为输入,返回一个一维数组,其中每个值代表在该延迟下的自相关值。该函数遍历所有可能的延迟值,并计算对应的自相关值。利用自相关函数得到语音信号的周期。通过判断周期是否稳定来确定分帧点。根据分帧点进行切得到分帧语音数据。
步骤S24:对分帧语音数据进行加窗处理,从而获得学员有效语音数据。
具体地,例如对每个语音帧进行加窗处理,如选用汉明窗,加窗公式为:w(n)=0.54-0.46×cos(2×pi×n/(N-1))\n,其中,N为一帧语音的采样点数。
本发明通过降噪处理、增强处理、分帧处理和加窗处理,可以有效减小环境噪声和其他非语音因素对语音识别的影响,从而提高语音识别准确率,对原始语音数据进行优化处理,可以在去除噪声和其他干扰因素的同时,保留学员语音中的关键信息,有助于更准确地评估学员的语言能力,通过对学员语音数据进行预处理和优化,可以降低后续识别模型的计算复杂度和资源消耗,提高处理效率。
优选地,其中步骤S23中优化分帧处理具体为:
步骤S231:根据增强语音数据进行分帧处理,从而获得初步分帧语音数据;
具体地,例如通过预设的分帧帧数,如25ms一帧,将语音数据进行分段处理。
步骤S232:对初步分帧语音数据的当前帧语音数据进行聚类计算,从而获得当前帧聚类特征数据;
具体地,例如针对分帧语音数据的特征,如MFCC、PLP等,采用k-means聚类算法将所有帧进行聚类。在实际应用中,可以选择合适的k值,以便将相似特征的帧归为一类。然后计算当前帧与各个聚类中心的距离,将当前帧划归到距离最近的聚类中心所在的类别,获得当前帧的聚类特征数据。
步骤S233:通过有效帧聚类特征识别器对当前帧聚类特征数据进行识别,从而获得有效性语音标签数据,其中有效性语音标签数据包括合格语音标签数据、存疑语音标签数据以及无效语音标签数据;
具体地,例如对于每个聚类特征,可以事先设定合格语音、存疑语音和无效语音的阈值范围。将当前帧聚类特征数据与阈值进行比较,根据比较结果为当前帧分配相应的有效性语音标签。
步骤S234:确定有效性语音标签数据为合格语音标签数据时,将当前帧语音数据确定为分帧语音数据;
步骤S235:确定有效性语音标签数据为存疑语音标签数据时,对当前帧语音数据进行能量谱有效性确认作业;
步骤S236:确定有效性语音标签数据为无效语音标签数据时,将当前帧语音数据删除。
具体地,例如对于标注为“有效”的语音帧,将该帧作为分帧语音数据;对于标注为“存疑”的语音帧,需要进行能量谱有效性确认处理。例如,可以使用一定的能量门限,对语音帧中的每个采样点的能量进行检测,如果能量超过门限,则判断该采样点为有效,否则为无效。根据采样点是否有效,可以得到一系列有效性标记,根据这些标记,将语音帧分成若干个有效性子段,然后再对每个子段进行分帧处理。对于标注为“无效”的语音帧,直接删除该帧的语音数据,不进行任何处理。
本发明中通过聚类计算和有效帧聚类特征识别器的识别,能够较好地筛选出有效的语音数据,避免了因噪音、干扰等因素影响造成的误判和误报,提高了语音数据的准确性和可靠性,根据增强语音数据进行分帧处理,与传统分帧处理方式相比,更加符合实际情况,并且灵活性更强,能够更好地适应不同的语音环境和场景需求,当有效性语音标签数据为存疑语音标签数据时,该方法会对当前帧语音数据进行能量谱有效性确认作业,进一步提高了存疑语音数据的准确性,当有效性语音标签数据为无效语音标签数据时,该方法会自动将当前帧语音数据删除,避免了无效数据的占用和浪费,提高了语音数据的利用率。
优选地,其中有效帧聚类特征识别器的构建步骤包括以下步骤:
步骤S237:获取历史有效帧数据;
具体地,例如在处理当前帧数据时,可以设置一个固定长度的时间窗口。从当前帧向前回溯,获取时间窗口内的有效帧数据。
具体地,例如在处理语音数据的过程中,将每个有效帧的索引信息存储在一个列表或其他数据结构中。当需要获取历史有效帧数据时,可以根据索引信息快速定位到相应的有效帧,并提取所需的数据。
步骤S238:根据历史有效帧数据进行聚类计算,从而获得历史有效帧聚类特征数据;
具体地,例如可以使用K-means聚类算法对历史有效帧数据进行聚类计算。首先,选择合适数量的聚类中心(如K个),然后根据每个有效帧数据与聚类中心的距离进行归类,迭代更新聚类中心,直到满足收敛条件。最终得到的聚类结果可以用于提取历史有效帧的聚类特征数据。
步骤S239:根据历史有效帧聚类特征数据进行中心点提取,从而获得历史有效帧聚类特征中心集;
具体地,例如语音样本有100000帧,在特征提取、预处理和去噪之后,将其中的有效帧聚类成若干个群。根据这些聚类结果,提取每个聚类群的中心点作为历史有效帧聚类特征中心集。使用K-Means算法对有效帧进行聚类,并设置聚类数量为10。在每一次训练之后,得到的聚类结果中提取10个聚类群的中心点,并将它们保存到历史有效帧聚类特征中心集当中。
步骤S240:根据历史有效帧聚类特征中心集进行优化边缘距离提取,从而获取优化聚类特征中心集以及对应的优化聚类特征中心距离值集;
具体地,例如对于每个聚类簇中心,计算其与历史有效帧聚类特征中心集中其他聚类簇中心的距离,将这些距离值按从小到大排序,得到距离值集。优化聚类特征中心集:根据距离值集,选择距离值最小的k个聚类簇中心,将它们作为新的聚类特征中心,得到优化聚类特征中心集。对应的优化聚类特征中心距离值集:对于每个优化聚类特征中心,计算它与历史有效帧聚类特征中心集中其他聚类簇中心的距离,将这些距离值按从小到大排序,得到对应的优化聚类特征中心距离值集。
步骤S241:将优化聚类特征中心以及对应的优化聚类特征中心距离值进行建构,从而构建有效帧聚类子识别器,以将所有的有效帧聚类子识别器进行耦合关联,从而获得有效帧聚类特征识别器。
具体地,例如根据待分类样本与训练样本集中的样本的距离来确定待分类样本的类别。对于有效帧聚类特征识别器,通过K-近邻分类器将待识别的帧与优化聚类特征中心进行比较,选择与待识别帧距离最近的K个优化聚类特征中心,然后根据这K个优化聚类特征中心所属的类别进行投票,将得票最多的类别作为待识别帧的类别。
对每个声音特征信号进行分段,并将分段后的所有有效帧传入到聚类子识别器中,以利用已优化的聚类中心进行分类。使用欧式距离或余弦距离等方法,计算每个特征向量与所有聚类中心的距离,并选择距离最近的聚类中心作为该特征向量所属的类别标签。有效帧聚类特征识别器构建:将所有的有效帧聚类子识别器进行耦合关联,从而获得有效帧聚类特征识别器。对于新的声音信号,先将其分段,然后将分段后的所有有效帧传递给聚类子识别器进行分类,最终将分类结果汇总,即可完成声音信号的特征识别。
本发明中通过历史有效帧的聚类计算和提取优化聚类特征中心,能够更加准确地对语音帧进行分类,从而提高分类精度,使用聚类算法统计历史有效帧的特征数据,可以减少噪声的影响,提高***的鲁棒性,长语音容易出现不同时间段内的语音帧特征变化较大的情况,采用历史有效帧作为输入可以缓解这种情况,提高识别准确性。
优选地,其中优化边缘聚类提取的步骤具体为:
步骤S201:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与其余的历史有效帧聚类特征中心进行距离计算,从而获得特征中心距离集;
具体地,例如余弦相似度用于计算两个特征中心向量之间的夹角余弦值,公式如下:cos(θ)=(AB)/(||A||×||B||),其中,A和B分别表示两个特征中心向量,AB表示向量的点积,||A||和||B||表示向量的模长。
步骤S202:根据特征中心距离集进行最小距离值以及次小距离值提取,从而获得特征中心距最小距离集以及特征中心次小距离值集;
具体地,例如对于计算出来的所有样本的特征中心距离值进行排序,选取其中最小距离值和次小距离值。
步骤S203:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与最近两个的历史有效帧聚类特征中心进行相对距离计算,从而获得优化边缘距离集;
具体地,例如采用欧式距离进行计算,计算两个点在各个维度上差值的平方和再开方。计算历史有效帧聚类特征中心与最近两个历史有效帧聚类特征中心在特征空间中的欧式距离。
步骤S204:根据优化边缘距离集进行排序,从而获得有序边缘距离集;
具体地,例如通过排序函数进行排序,如采用python的函数库中的sort()函数。
步骤S205:将有序边缘距离集中最小值对应的历史有效帧聚类特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S206:将剩余的历史有效帧距离特征中心集中的历史有效帧距离特征中心与优化聚类特征中心集中的优化聚类特征中心进行相对距离计算并提取最大值,从而获得相对最大距离值,确定相对最大距离值大于历史有效帧距离特征中心对应的特征中心次小距离值时,将历史有效帧距离特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S207:重复步骤S206直至有序边缘距离集为空。
具体地,例如从距离列表中按顺序选取距离最小的聚类中心点,将其作为一个有效的聚类中心点,并将其从距离列表中删除。然后,对于剩余的聚类中心点,如果其与已选取的聚类中心点的距离大于其次小距离,则将其作为一个有效的聚类中心点,并将其从距离列表中删除。重复这个过程,直到距离列表为空,即所有有效的聚类中心点都已经被提取出来。
本实施例由于采用了优化边缘聚类特征提取步骤,可以通过提取最小距离值以及次小距离值等方式,来提高历史有效帧聚类特征中心的聚类精度,从而更准确地判断语音帧是否包含有效语音。过去的算法可能会将非人声语音帧误判为有效语音,在处理具有噪声环境和语音非常低时,可能会导致较高的误判率。然而,该方法可以在提高聚类精度的同时,通过计算相对最大距离值对应的阈值,以减少对非人声语音帧进行误判。由于该方法能够更准确地确定语音帧中是否包含有效语音,因此可以提高后续语音识别的准确性和质量,使得整个语音识别***更加准确和稳定。
优选地,能量谱有效性确认作业通过语音帧能量谱计算公式进行计算生成的语音能量数值进行阈值确认,其中语音帧能量谱计算公式具体为:
Figure SMS_2
G为语音能量数值,α为第一权重系数,wi为语音帧中第i个采样点,β为第二权重系数,wi+1为语音帧中第i+1个采样点,sgn(wi)为wi的符号函数,γ为第三权重系数,h为历史语音数据修正项,t为当前帧语音数据调整项,m为语音帧能量谱缩放系数,r为常数项,o为根据当前帧语音数据生成的平滑调整项,N为语音帧的采样点数,u为语音能量数值的修正系数。
本发明提供一种语音帧能量谱计算公式,该计算公式充分考虑了第一权重系数α、语音帧中第i个采样点wi、第二权重系数β、语音帧中第i+1个采样点wi+1、wi+1的符号函数sgn(wi)、第三权重系数γ、历史语音数据修正项h、当前帧语音数据调整项t、语音帧能量谱缩放系数m、常数项r、根据当前帧语音数据生成的平滑调整项o、语音帧的采样点数N以及相互之间的作用关系,该公式通过语音帧中的能量、过零率和历史数据的计算,然后通过权重系数和各项调整因素进行权重计算,得到一个能量谱值。这个能量谱值可以用于判断语音帧是否包含有效语音,第一权重系数α、第二权重系数β以及第三权重系数γ,分别为语言帧能量、过零率以及历史数据的权重系数,根据实际应用场景进行调整,从而获取更加准确的生成值,根据语音帧能量谱缩放系数用于调整能量谱的大小,当前帧语音数据调整项t用于调整当前语音帧的能量计算结果,通过语音能量数值的修正系数u进行修正,从而实现对语音能量数值的精准计算,通过与预设阈值的比较来判断当前语音帧是否包含有效语音。
优选地,步骤S3中语言语音识别模型的构建步骤具体为:
步骤S31:获取标准语音数据以及对应的语音标签数据;
具体地,例如从数据库或者开源数据集中获取一些包含语音和对应标签数据的样本。
步骤S32:根据标准语音数据进行同一格式转换,从而获得标准格式语音数据;
具体地,例如将不同采样率、码率、格式等的语音文件统一转换为相同的标准格式,如16kHz采样率、16bit PCM编码的.wave格式。
步骤S33:根据标准格式语音数据进行降噪计算,从而生成标准降噪语音数据;
具体地,例如使用各种降噪算法,如谱减法、小波软阈值去噪等,对语音进行去噪处理,得到降噪后的语音数据。
步骤S34:对标准降噪语音数据进行静音段剔除,生成标准人声语音数据;
具体地,例如对语音进行能量判断,将过于安静的部分(静音段)剔除,留下包含人声的语音数据。
步骤S35:对标准人声语音数据进行分帧处理,从而获得标准分帧语音数据;
具体地,例如将语音数据按照固定时长(通常为20ms)进行分帧处理,得到一段段的语音帧数据。
步骤S36:根据标准分帧语音数据进行加窗处理,从而获得标准加窗语音数据;
具体地,例如对每一帧语音数据进行汉明窗等窗函数加权处理,得到加窗后的语音数据。
步骤S37:根据标准加窗语音数据进行语言音素特征提取以及语言音素组合特征提取,从而获得语音音素特征以及语言音素组合特征;
具体地,例如使用各种特征提取方法,如MFCC、FBANK等,将每一帧语音数据转换为对应的语音特征向量,进一步提取音素组合特征,如音素状态等,生成用于训练分类器的特征向量。
步骤S38:根据语音音素特征进行优化卷积神经网络映射,从而初步构建初级语言语音识别模型;
具体地,例如使用卷积神经网络或者其他深度学习模型进行特征提取和分类,训练初级语音识别模型,并对模型进行优化和调参。
步骤S39:根据语言音素组合特征对初级语言语音识别模型进行修正误差迭代,从而获得语言语音识别模型。
具体地,例如通过误差反向传播等算法对模型进行迭代优化,得到具有更高准确度的语音识别模型。
本发明中提高语音识别准确率,通过使用标准格式语音数据进行降噪、剔除静音段等预处理操作,可以提高语音识别准确度,减少噪音和非人声干扰的影响降低模型误差通过使用语言音素特征和语言音素组合特征进行模型训练和修正误差,可以降低模型误差,更好地适应不同的语音输入提高模型可靠性使用多种预处理技术和特征提取方法对语音数据进行处理,可以减少噪声和干扰对模型的影响,提高模型的可靠性和鲁棒性强应用场景根据本发明的构建步骤。
优选地,优化卷积神经网络映射的步骤具体为:
步骤S381:根据语音音素特征进行双向循环神经网络构建,从而获得语音神经网络模型;
具体地,例如使用长短时记忆(LSTM)网络或者门控循环单元(GRU)作为BiRNN的基本单元,以捕获时序信息。
步骤S382:对语音神经网络模型解码,从而获得连接时序音素序列模型;
具体地,例如采用连接时序分类(CTC)解码算法,将神经网络模型的输出转换为音素序列。
步骤S383:根据连接时序音素序列模型以及对应的语音标签数据进行推理搜索,从而获得初级语言语音识别模型。
具体地,例如使用Beam Search算法在连接时序音素序列模型上进行搜索,从候选序列中挑选出最佳音素序列,结合语音标签数据进行训练和优化,从而获得初级语言语音识别模型。
本发明将传统的单向循环神经网络替换为双向循环神经网络进行语音音素特征的构建,并通过解码得到连接时序音素序列模型和对应的语音标签数据进行推理搜索,从而获得初级语言语音识别模型。这种优化卷积神经网络映射的方法,可以提高语音识别的准确性和稳定性,特别是在复杂的语音环境中具有更好的效果。提高语音识别的准确性,该方法采用基于双向循环神经网络的语音音素特征构建方式,这种方法可以捕捉更多的上下文信息,使得语音识别更加准确,提高语音识别的稳定性:改进后的解码器可以减少噪声和其他失真因素对语音识别的影响,提高了语音识别的稳定性。
优选地,学员水平文本数据包括词语词性使用程度数据以及词语词性熟悉程度数据,步骤S4具体为:
步骤S41:根据学员语言文本数据进行分词处理,从而获得词语数据;
具体地,例如使用jieba分词库、NLTK等自然语言处理函数库进行分词操作。
步骤S42:对词语数据进行词性标注,从而获得词语词性数据;
具体地,例如使用哈工大词性标注工具、Stanford POS Tagger等工具进行词性标注。
步骤S43:基于上下文规则对词语词性数据进行标注,从而获得词语语义数据;
具体地,例如使用依存句法分析工具,如Stanford Parser、spaCy等,以捕捉词语之间的关系和上下文信息。
步骤S44:根据词语语义数据进行词汇类型识别,从而获得词语词性使用程度数据;
具体地,例如将词语根据其语义类别划分为不同的词汇类型,并记录学员在该类型词汇上的使用频率与准确率等数据,以评估学员的词性使用程度。
步骤S45:根据词语语义数据进行词汇分布情况统计计算,从而获得词语词性熟悉程度数据。
具体地,例如统计不同词汇类型的单词数量,以及学员对该类型词汇的掌握程度情况,计算学员对不同词性的熟悉程度。
本发明中词语词性使用程度数据和词语词性熟悉程度数据可以用于评估学员的语言水平,包括词汇量、熟练程度等方面,通过对词语词性使用程度数据和词语词性熟悉程度数据的统计和分析,为后续的学员语言教学数据的进一步深度挖掘做好预统计分析处理,提供更加深度的学员语言能力水平数据。
本申请提供一种用于语言教学的数据挖掘***,所述***包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的一种用于语言教学的数据挖掘方法。
本发明的有益效果在于通过获取学员有效语音数据并应用预设的语言语音识别模型,可以更高效地将学员语音数据转化为文本数据,提高语音识别的准确性。通过分词、词性标注以及词汇量和语法表达能力特征提取,可以更全面地了解学员的语言水平,包括词汇量和语法能力等方面。据词汇量水平数据和语言表达能力数据进行学员语言水平综合评估,可以为教育者提供针对性的建议和反馈,有助于实现个性化教学。通过对学员语言语音数据的深度挖掘,从而提供更加具有针对性的评估结果,从而使得从业人员或专业人员能够更好地分配语言教育资源,以提高教育资源的利用效率。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种用于语言教学的数据挖掘方法,其特征在于,包括以下步骤:
步骤S1:获取学员语言语音数据;
步骤S2:根据学员语言语音数据进行优化处理,从而获得学员有效语音数据;
步骤S3:利用预设的语言语音识别模型对学员有效语音数据进行识别,从而生成学员语言文本数据;
步骤S4:根据学员语言文本数据进行分词处理并进行词性标注,以进行深度使用词语评估,从而获得学员水平文本数据;
步骤S5:对学员水平文本数据进行词汇量语义特征提取以及语法表达能力特征提取,分别获得词汇量语言特征以及语言语法表达能力特征;
步骤S6:根据词汇量语言特征进行词汇量评估,从而获得词汇量水平数据,并通过语言表达能力识别模型对语言语法表达能力特征进行识别,从而获得语言表达能力数据;
步骤S7:根据词汇量水平数据以及语言表达能力数据进行学员语言水平综合评估,从而获得学员语言水平评估数据。
2.根据权利要求1所述的方法,其特征在于,步骤S2具体为:
步骤S21:对学员语言语音数据进行降噪处理,从而获得降噪语音数据;
步骤S22:对降噪语音数据进行增强处理,从而获得增强语音数据;
步骤S23:对增强语音数据进行优化分帧处理,从而获得分帧语音数据;
步骤S24:对分帧语音数据进行加窗处理,从而获得学员有效语音数据。
3.根据权利要求2所述的方法,其特征在于,其中步骤S23中优化分帧处理具体为:
根据增强语音数据进行分帧处理,从而获得初步分帧语音数据;
对初步分帧语音数据的当前帧语音数据进行聚类计算,从而获得当前帧聚类特征数据;
通过有效帧聚类特征识别器对当前帧聚类特征数据进行识别,从而获得有效性语音标签数据,其中有效性语音标签数据包括合格语音标签数据、存疑语音标签数据以及无效语音标签数据;
确定有效性语音标签数据为合格语音标签数据时,将当前帧语音数据确定为分帧语音数据;
确定有效性语音标签数据为存疑语音标签数据时,对当前帧语音数据进行能量谱有效性确认作业;
确定有效性语音标签数据为无效语音标签数据时,将当前帧语音数据删除。
4.根据权利要求3所述的方法,其特征在于,其中有效帧聚类特征识别器的构建步骤包括以下步骤:
获取历史有效帧数据;
根据历史有效帧数据进行聚类计算,从而获得历史有效帧聚类特征数据;
根据历史有效帧聚类特征数据进行中心点提取,从而获得历史有效帧聚类特征中心集;
根据历史有效帧聚类特征中心集进行优化边缘距离提取,从而获取优化聚类特征中心集以及对应的优化聚类特征中心距离值集;
将优化聚类特征中心以及对应的优化聚类特征中心距离值进行建构,从而构建有效帧聚类子识别器,以将所有的有效帧聚类子识别器进行耦合关联,从而获得有效帧聚类特征识别器。
5.根据权利要求4所述的方法,其特征在于,其中优化边缘聚类提取的步骤具体为:
步骤S201:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与其余的历史有效帧聚类特征中心进行距离计算,从而获得特征中心距离集;
步骤S202:根据特征中心距离集进行最小距离值以及次小距离值提取,从而获得特征中心距最小距离集以及特征中心次小距离值集;
步骤S203:将历史有效帧聚类特征中心集中的历史有效帧聚类特征中心与最近两个的历史有效帧聚类特征中心进行相对距离计算,从而获得优化边缘距离集;
步骤S204:根据优化边缘距离集进行排序,从而获得有序边缘距离集;
步骤S205:将有序边缘距离集中最小值对应的历史有效帧聚类特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S206:将剩余的历史有效帧距离特征中心集中的历史有效帧距离特征中心与优化聚类特征中心集中的优化聚类特征中心进行相对距离计算并提取最大值,从而获得相对最大距离值,确定相对最大距离值大于历史有效帧距离特征中心对应的特征中心次小距离值时,将历史有效帧距离特征中心确定为优化聚类特征中心,以加入优化聚类特征中心集以及将优化聚类特征中心对应的特征中心次小距离值确定为优化聚类特征中心距离值,并删除有序边缘距离集中的优化聚类特征中心对应的有序边缘距离;
步骤S207:重复步骤S206直至有序边缘距离集为空。
6.根据权利要求3所述的方法,其特征在于,能量谱有效性确认作业通过语音帧能量谱计算公式进行计算生成的语音能量数值进行阈值确认,其中语音帧能量谱计算公式具体为:
Figure QLYQS_1
G为语音能量数值,α为第一权重系数,wi为语音帧中第i个采样点,β为第二权重系数,wi+1为语音帧中第i+1个采样点,sgn(wi)为wi的符号函数,γ为第三权重系数,h为历史语音数据修正项,t为当前帧语音数据调整项,m为语音帧能量谱缩放系数,r为常数项,o为根据当前帧语音数据生成的平滑调整项,N为语音帧的采样点数,u为语音能量数值的修正系数。
7.根据权利要求1所述的方法,其特征在于,步骤S3中语言语音识别模型的构建步骤具体为:
获取标准语音数据以及对应的语音标签数据;
根据标准语音数据进行同一格式转换,从而获得标准格式语音数据;
根据标准格式语音数据进行降噪计算,从而生成标准降噪语音数据;
对标准降噪语音数据进行静音段剔除,生成标准人声语音数据;
对标准人声语音数据进行分帧处理,从而获得标准分帧语音数据;
根据标准分帧语音数据进行加窗处理,从而获得标准加窗语音数据;
根据标准加窗语音数据进行语言音素特征提取以及语言音素组合特征提取,从而获得语音音素特征以及语言音素组合特征;
根据语音音素特征进行优化卷积神经网络映射,从而初步构建初级语言语音识别模型;
根据语言音素组合特征对初级语言语音识别模型进行修正误差迭代,从而获得语言语音识别模型。
8.根据权利要求7所述的方法,其特征在于,优化卷积神经网络映射的步骤具体为:
根据语音音素特征进行双向循环神经网络构建,从而获得语音神经网络模型;
对语音神经网络模型解码,从而获得连接时序音素序列模型;
根据连接时序音素序列模型以及对应的语音标签数据进行推理搜索,从而获得初级语言语音识别模型。
9.根据权利要求1所述的方法,其特征在于,学员水平文本数据包括词语词性使用程度数据以及词语词性熟悉程度数据,步骤S4具体为:
根据学员语言文本数据进行分词处理,从而获得词语数据;
对词语数据进行词性标注,从而获得词语词性数据;
基于上下文规则对词语词性数据进行标注,从而获得词语语义数据;
根据词语语义数据进行词汇类型识别,从而获得词语词性使用程度数据;
根据词语语义数据进行词汇分布情况统计计算,从而获得词语词性熟悉程度数据。
10.一种用于语言教学的数据挖掘***,其特征在于,所述***包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至9中任意一项所述的一种用于语言教学的数据挖掘方法。
CN202310467728.4A 2023-04-27 2023-04-27 一种用于语言教学的数据挖掘方法及*** Active CN116189671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310467728.4A CN116189671B (zh) 2023-04-27 2023-04-27 一种用于语言教学的数据挖掘方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310467728.4A CN116189671B (zh) 2023-04-27 2023-04-27 一种用于语言教学的数据挖掘方法及***

Publications (2)

Publication Number Publication Date
CN116189671A true CN116189671A (zh) 2023-05-30
CN116189671B CN116189671B (zh) 2023-07-07

Family

ID=86434879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310467728.4A Active CN116189671B (zh) 2023-04-27 2023-04-27 一种用于语言教学的数据挖掘方法及***

Country Status (1)

Country Link
CN (1) CN116189671B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391902A (zh) * 2023-12-13 2024-01-12 北京师范大学珠海校区 基于大语言模型的语文核心素养教育的评价方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法
US20170193987A1 (en) * 2015-12-30 2017-07-06 Le Holdings (Beijing) Co., Ltd. Speech recognition method and device
CN108062954A (zh) * 2016-11-08 2018-05-22 科大讯飞股份有限公司 语音识别方法和装置
CN110675292A (zh) * 2019-09-23 2020-01-10 浙江优学智能科技有限公司 一种基于人工智能的儿童语言能力评测方法
CN110853627A (zh) * 2019-11-07 2020-02-28 证通股份有限公司 用于语音标注的方法及***
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法
US11158302B1 (en) * 2020-05-11 2021-10-26 New Oriental Education & Technology Group Inc. Accent detection method and accent detection device, and non-transitory storage medium
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
US20170193987A1 (en) * 2015-12-30 2017-07-06 Le Holdings (Beijing) Co., Ltd. Speech recognition method and device
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法
CN108062954A (zh) * 2016-11-08 2018-05-22 科大讯飞股份有限公司 语音识别方法和装置
CN110675292A (zh) * 2019-09-23 2020-01-10 浙江优学智能科技有限公司 一种基于人工智能的儿童语言能力评测方法
CN110853627A (zh) * 2019-11-07 2020-02-28 证通股份有限公司 用于语音标注的方法及***
US11158302B1 (en) * 2020-05-11 2021-10-26 New Oriental Education & Technology Group Inc. Accent detection method and accent detection device, and non-transitory storage medium
WO2022227037A1 (zh) * 2021-04-30 2022-11-03 深圳市大疆创新科技有限公司 音频处理、视频处理方法、装置、设备及存储介质
CN113203987A (zh) * 2021-07-05 2021-08-03 成都启英泰伦科技有限公司 一种基于k均值聚类的多声源方位估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张士玲,杨林楠,孙向前,刘燕霞: "浅论数据挖掘技术", 福建电脑, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391902A (zh) * 2023-12-13 2024-01-12 北京师范大学珠海校区 基于大语言模型的语文核心素养教育的评价方法和装置
CN117391902B (zh) * 2023-12-13 2024-04-26 北京师范大学珠海校区 基于大语言模型的语文核心素养教育的评价方法和装置

Also Published As

Publication number Publication date
CN116189671B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN112712804B (zh) 语音识别方法、***、介质、计算机设备、终端及应用
WO2021174757A1 (zh) 语音情绪识别方法、装置、电子设备及计算机可读存储介质
CN109461441B (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
Dua et al. Discriminative training using noise robust integrated features and refined HMM modeling
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN116189671B (zh) 一种用于语言教学的数据挖掘方法及***
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
Somogyi The Application of Artificial Intelligence
CN106448660B (zh) 一种引入大数据分析的自然语言模糊边界确定方法
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN113191133B (zh) 一种基于Doc2Vec的音频文本对齐方法及***
Wang et al. A research on HMM based speech recognition in spoken English
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN116645980A (zh) 一种聚焦样本特征间距的全生命周期语音情感识别方法
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
El Hajji et al. Transfer Learning based Audio Classification for a noisy and speechless recordings detection task, in a classroom context.
CN118155623B (zh) 基于人工智能的语音识别方法
CN114780786B (zh) 一种基于瓶颈特征和残差网络的语音关键词检索方法
CN117094291B (zh) 基于智能写作的自动新闻生成***
CN113408780B (zh) 汽车未来保值率预测方法、***、设备及可读存储介质
CN118227894A (zh) 一种基于多维向量融合的政务事项对话推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant