CN118197303A - 一种智能语音识别与情感分析***及方法 - Google Patents

一种智能语音识别与情感分析***及方法 Download PDF

Info

Publication number
CN118197303A
CN118197303A CN202410077111.6A CN202410077111A CN118197303A CN 118197303 A CN118197303 A CN 118197303A CN 202410077111 A CN202410077111 A CN 202410077111A CN 118197303 A CN118197303 A CN 118197303A
Authority
CN
China
Prior art keywords
voice
user
data
recognition
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410077111.6A
Other languages
English (en)
Inventor
赵建伟
彭成圆
王宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Institute of Technology
Original Assignee
Wuxi Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Institute of Technology filed Critical Wuxi Institute of Technology
Priority to CN202410077111.6A priority Critical patent/CN118197303A/zh
Publication of CN118197303A publication Critical patent/CN118197303A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能语音识别与情感分析***及方法,涉及语音识别分析技术领域,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当判断需要进行情感分析时基于情感分析技术识别用户的情感类别,并获取语音识别助手对用户的反馈数据,基于情感类别的识别结果以及反馈数据对语音识别助手进行优化。该分析方法在语音识别助手识别用户语音的过程中进行录音,并在语音交互完成后判断是否需要进行情感分析,有效降低分析***的数据处理负担,并提高语音识别助手的语音识别效率。

Description

一种智能语音识别与情感分析***及方法
技术领域
本发明涉及语音识别分析技术领域,具体涉及一种智能语音识别与情感分析***及方法。
背景技术
智能语音识别(ASR)是语音处理领域的重要组成部分,经过多年的研发和技术进步,使得***能够准确地将口头语言转换为文本,深度学习技术的崛起,特别是端到端的模型设计,使得ASR的性能得到了显著提升,ASR广泛应用于语音助手、语音搜索、语音识别笔记等领域,其在提高用户体验、增强设备人机交互能力方面发挥了关键作用,情感分析,又称为情感计算、意见挖掘,是一种基于自然语言处理和机器学习技术的方法,用于识别和理解文本中的情感倾向,情感计算的发展得益于自然语言处理、文本挖掘和机器学习等领域的进步;
现有分析***通常是在语音识别助手识别用户语音的过程中进行情感分析,然后在与用户当前交互完成后,基于情感分析的结果对语音识别助手进行优化,该种处理方式存在以下缺陷:
若每次用户对语音识别助手输入语音时均进行情感分析,则会增加分析***的数据处理负担,使得分析***即要对语音进行识别,也要进行进行情感分析,降低语音识别助手的语音识别效率。
发明内容
本发明的目的是提供一种智能语音识别与情感分析***及方法,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种智能语音识别与情感分析方法,所述分析方法包括以下步骤:
用户通过实体按键或者语音关键词唤醒语音识别助手,且用户向语音识别助手输入语音,语音识别助手识别语音后,基于用户语音识别内容进行相应反馈;
用户输入语音过程中,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,判断是否需要对用户输入的语音数据进行情感分析;
当判断需要进行情感分析时,分析***获取对用户的录音数据,对录音数据提取特征数据,基于情感分析技术分析特征数据后识别用户的情感类别,并获取语音识别助手对用户的反馈数据,对反馈数据分析后,基于情感类别的识别结果以及反馈数据分析结果对语音识别助手进行优化。
在一个优选的实施方式中,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,环境数据包括背景噪音指数,设备数据包括采样率以及语音正确识别指数。
在一个优选的实施方式中,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析包括以下步骤:
在语音交互完成后,获取背景噪音指数、采样率以及语音正确识别指数,并代入优化判断模型中进行分析,输出优化系数;
若优化系数≥优化阈值,判断需要对用户输入的语音数据进行情感分析;
若优化系数<优化阈值,判断不需要对用户输入的语音数据进行情感分析。
在一个优选的实施方式中,所述优化判断模型的建立包括以下步骤:
将背景噪音指数、采样率以及语音正确识别指数标准化处理后,综合计算获取优化系数;
获取优化系数yhx后,将优化系数yhx与预设的优化阈值进行对比,完成对优化判断模型的建立,优化阈值用于分析环境和设备对语音情感分析的影响大小。
在一个优选的实施方式中,所述背景噪音指数的获取逻辑为:在用户输入语音的过程中,若出现其他人声,且其他人声的分贝超过第一分贝阈值的时段为人声分贝预警的时段;
在用户输入语音的过程中,若出现非人声噪音,且非人声噪音的分贝超过第二分贝阈值的时段为非人声分贝预警的时段;
将人声分贝预警的时段与非人声分贝预警的时段进行积分运算后获取背景噪音指数,计算表达式为:式中,Z(t)为语音识别错误率,[tx,ty]为人声分贝预警的时段,[ti,tj]为非人声分贝预警的时段。
在一个优选的实施方式中,所述语音正确识别指数的计算逻辑为:获取用户在整个交互过程中输入的语音段数量,并计算每段语音的正确识别率,表达式为:式中,F表示正确识别率,ZQS表示语音正确识别字数,ZSL表示交互过程中所有语音的字数;
将整个交互过程中,正确识别率最大语音段的正确识别率作为语音正确识别指数,表达式为:YZL=max(F1、F2、...、Fn),式中,n表示整个交互过程中语音段的数量,且n为整数,max()表示最大正确识别率。
在一个优选的实施方式中,获取语音识别助手对用户的反馈数据,对反馈数据分析包括以下步骤:
获取语音识别助手对用户的反馈数据,反馈数据包括识别响应速度、卡顿频率以及语音指令覆盖率;
将识别响应速度、卡顿频率以及语音指令覆盖率综合计算获取反馈系数;
若反馈系数≥预设的反馈阈值,评估语音识别助手的语音识别性能好;
若反馈系数<预设的反馈阈值,评估语音识别助手的语音识别性能差。
本发明还提供一种智能语音识别与情感分析***,包括唤醒模块、语音识别模块、录音模块、数据采集模块、判断模块、特征提取模块、情感分析模块、识别分析模块、优化模块;
唤醒模块:用户通过唤醒模块唤醒语音识别模块;
语音识别模块:用户向语音识别模块输入语音,语音识别模块识别语音后,基于用户语音识别内容进行相应反馈;
录音模块:用户输入语音过程中,对用户语音进行录音处理;
数据采集模块:获取用户语音输入过程中的环境数据以及设备数据;
判断模块:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,判断是否需要对用户输入的语音数据进行情感分析;
特征提取模块:当判断需要进行情感分析时,获取对用户的录音数据,并提取录音数据中的特征数据;
情感分析模块:基于情感分析技术分析特征数据后识别用户的情感类别;
识别分析模块:获取语音识别模块对用户的反馈数据,并对反馈数据进行分析;
优化模块:基于情感类别的识别结果以及反馈数据分析结果对语音识别模块进行优化。
在上述技术方案中,本发明提供的技术效果和优点:
1、本发明在用户输入语音过程中,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当判断需要进行情感分析时基于情感分析技术识别用户的情感类别,并获取语音识别助手对用户的反馈数据,基于情感类别的识别结果以及反馈数据对语音识别助手进行优化。该分析方法在语音识别助手识别用户语音的过程中进行录音,并在语音交互完成后判断是否需要进行情感分析,有效降低分析***的数据处理负担,并提高语音识别助手的语音识别效率;
2、本发明通过获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当环境和设备对用户输入的语音影响过大时,鉴于继续进行情感分析将加重分析***的工作负担,且可能引发分析精度下降,影响分析结果,我们在对环境和设备对录音所产生影响进行分析后,根据实际情况判断是否展开情感分析,从而在无需对录音进行情感分析时,能作出恰当的决策。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图。
图2为本发明的***模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:请参阅图1所示,本实施例所述一种智能语音识别与情感分析方法,所述分析方法包括以下步骤:
用户通过实体按键或者语音关键词唤醒语音识别助手,且用户向语音识别助手输入语音,包括以下步骤:
实体按键唤醒:用户通过按下设备上的特定物理按键,例如手机上的语音助手按钮,激活语音识别助手;
语音关键词唤醒:设备处于待机状态时,***通过持续监听环境声音,一旦检测到用户说出预定义的语音关键词,即激活语音识别助手;
语音输入:用户在唤醒后,可以开始说出语音指令、问题或请求,语音输入可能包括对话、查询、命令等多种形式;
语音信号采集:设备使用内置或外部麦克风等设备采集用户的语音信号,语音信号采集可能涉及降噪和语音端点检测等预处理步骤,以提高语音质量和准确性;
用户反馈和交互:***向用户提供响应后,用户可以继续与语音助手进行交互,提出进一步的问题或指令,反馈机制可用于改善***的性能,并确保用户满意度。
语音识别助手识别语音后,基于用户语音识别内容进行相应反馈,相应反馈包括文本输出、语音输出或进行相应动作,包括以下步骤:
语音识别结果生成:将用户语音转换为文本,形成语音识别结果,使用智能语音识别技术,例如深度学习模型,将语音信号转化为相应的文字;
意图识别和命令解析:分析语音识别结果,确定用户的意图和请求,利用自然语言处理技术,例如命名实体识别和关键词提取,以理解用户的意图并解析具体的命令或请求;
生成***回应:基于用户的意图,生成***的文本或语音回应,利用对话生成模型、预定义的响应模板或其他自然语言处理技术,以形成***的回应;
文本输出或语音合成:将生成的文本回应显示给用户,例如在屏幕上显示,如果用户希望得到语音回应,***会使用语音合成技术将文本转化为语音,使用文本到语音(TTS)引擎,根据生成的文本生成自然语音;
语音输出:当用户期望通过听觉方式接收回应时,***通过扬声器或耳机向用户提供语音输出,利用设备上的音频输出设备,以人耳可听的方式播放生成的语音;
执行相应动作:根据用户请求,***可能需要执行特定的操作或动作,调用相关的服务或功能,例如控制智能家居设备、发送消息、进行搜索等;
用户反馈和互动:提供机会让用户做出反馈,提问更多问题,或发出新的命令,设计对话交互方式,以维持与用户的实时交流;
记录用户上下文:***记录和维护用户的对话上下文,以更好地理解用户的需求和提供连贯的对话,使用上下文管理技术,确保***能够记住之前的对话历史。
用户输入语音过程中,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,包括以下步骤:
语音信号采集:利用设备上的麦克风等硬件设备采集用户的语音信号,使用音频采集技术,通过麦克风转换声音波形为电信号;
语音信号预处理:对采集到的语音信号进行预处理,以提高语音识别的准确性,预处理步骤可能包括降噪、语音端点检测、去除回音等处理;
录音开始标记:标记语音输入的开始时间点,记录时间戳或其他标记,以便后续分析时确定语音输入的时间范围;
环境数据采集:获取与语音输入环境相关的数据,如环境噪音水平、温度、湿度等,利用传感器或设备记录周围环境的相关信息;
设备数据采集:获取语音输入设备的相关信息,如设备型号、电池状态、网络连接状态等,利用设备的传感器和***接口获取设备的状态和属性信息;
录音结束标记:标记语音输入的结束时间点,记录时间戳或其他标记,以便后续分析时确定语音输入的时间范围;
语音信号存储:将采集到的语音信号存储起来,以便后续分析和处理,将语音信号以音频文件的形式保存在***中,通常以.wav或者.mp3等格式;
数据传输和处理:将采集到的语音信号、环境数据和设备数据传输给相应的分析***,利用网络连接或本地数据传输方式将数据发送给后台***进行进一步的处理。
在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当判断需要进行情感分析时,分析***获取对用户的录音数据,对录音数据提取特征数据,特征数据包括情感词汇、语调、语速等,包括以下步骤:
语音数据预处理:对录音数据进行预处理,以减少噪音并提高分析的准确性,包括降噪、语音端点检测、去除回音等处理步骤;
语音信号特征提取:从语音数据中提取有用的特征,用于后续情感分析;
语谱特征提取:包括梅尔频率倒谱系数(MFCC)、声音能量等;
基于时域的特征:如短时能量、短时过零率等;
基于频域的特征:如频谱平均值、频谱带宽等;
情感词汇提取:从录音数据中提取包含情感信息的词汇,使用情感词汇库,通过文本分析或语音识别结果中提取涉及情感的关键词;
语调分析:分析语音中的语调模式,以了解说话者的情感状态,利用基频提取、语调曲线分析等技术,识别语音的音调起伏;
语速分析:分析语音的语速,即说话者讲话的速度,通过计算语音中的音节持续时间、语速变化等信息来估计语速;
特征归一化:对提取的特征进行归一化,以确保它们在相同尺度上,有利于后续的模型训练和分析,可以使用标准化或其他归一化方法,使不同特征的值范围相近;
特征存储和分析:存储提取的特征,并进行后续的情感分析和语音识别,利用数据库或文件***存储特征数据,并使用相应的算法进行情感分。
基于情感分析技术分析特征数据后识别用户的情感类别,情感类别包括高兴、悲伤、愤怒等,包括以下步骤:
获取用户的录音数据,提取录音数据中的特征数据,包括声调、语速、能量、频率,通过训练完成的KNN模型对特征数据进行情感分类预测,对于每个测试样本,找到其最近的K个邻居,并根据它们的情感类别进行投票,选择得票最多的类别作为预测结果;
KNN模型的建立包括以下步骤:
收集包含用户语音样本和相应情感类别标签的数据集,对语音样本进行标注,标记情感类别,如高兴、悲伤、愤怒,对语音数据进行特征提取,将语音转化为机器学习模型可用的数值特征,提取与情感相关的声学特征,以及可能的文本特征,如情感词汇,对特征数据进行预处理,以确保数据的一致性和可用性,包括数据清理、归一化、标准化等步骤,以减小特征之间的差异,确保训练和测试数据集的分布一致,将数据集划分为训练集和测试集,以便在训练和评估模型时使用,通过交叉验证选择表现最好的K邻居数,使用训练集训练KNN模型,将训练集的特征数据和相应的情感类别标签提供给KNN算法,训练模型以建立特征与情感类别之间的关系,完成KNN模型的建立;
通过交叉验证选择表现最好的K邻居数包括以下步骤:
选择一系列K值,通常从较小的值开始,逐渐增加,例如,可以选择K=1,3,5,7,9等,对于每个K值,进行交叉验证循环,对于每次循环:将训练集分为子训练集和验证集,使用子训练集对KNN模型进行训练,使用验证集评估模型性能,对于每个K值,计算在验证集上的性能指标,如准确性、精确度、召回率等,可以选择一个或多个指标来评估模型性能,基于性能指标的结果,选择在验证集上表现最好的K值,这可能是具有最高准确性或其他优良性能的K值,使用整个训练集(包括验证集)和选择的最优K值,重新训练KNN模型。
例如:本申请收集的语音数据如表1所示:
语音样本 声音能量 声调 情感类别
Sample1 10 3 Happy
Sample2 8 2 Sad
Sample3 5 1 Angry
Sample4 12 4 Happy
Sample5 6 2 Sad
表1
我们选择声音能量和声调作为特征,将数据集分为训练集和测试集,这里我们使用留出法,80%的数据作为训练集,20%的数据作为测试集,假设我们选择K=3,我们使用训练集的特征数据和相应的情感类别标签进行模型训练,对于每个样本,KNN算法会找到最近的3个邻居,使用训练好的KNN模型对测试集中的新样本进行情感分类预测,对于每个测试样本,找到其最近的3个邻居。
获取语音识别助手对用户的反馈数据,对反馈数据分析后,基于情感类别的识别结果以及反馈数据分析结果对语音识别助手进行优化。
本申请在用户输入语音过程中,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当判断需要进行情感分析时基于情感分析技术识别用户的情感类别,并获取语音识别助手对用户的反馈数据,基于情感类别的识别结果以及反馈数据对语音识别助手进行优化。该分析方法在语音识别助手识别用户语音的过程中进行录音,并在语音交互完成后判断是否需要进行情感分析,有效降低分析***的数据处理负担,并提高语音识别助手的语音识别效率;
本申请通过获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,当环境和设备对用户输入的语音影响过大时,鉴于继续进行情感分析将加重分析***的工作负担,且可能引发分析精度下降,影响分析结果,我们在对环境和设备对录音所产生影响进行分析后,根据实际情况判断是否展开情感分析,从而在无需对录音进行情感分析时,能作出恰当的决策。
实施例2:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,包括以下步骤:
在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,环境数据包括背景噪音指数,设备数据包括采样率以及语音正确识别指数;
在语音交互完成后,获取背景噪音指数BZS、采样率CYL以及语音正确识别指数YZL,并代入优化判断模型中进行分析,输出优化系数;
若优化系数≥优化阈值,判断需要对用户输入的语音数据进行情感分析;
若优化系数<优化阈值,判断不需要对用户输入的语音数据进行情感分析;
背景噪音指数的获取逻辑为:在用户输入语音过程中,若出现除用户外的其他人声,则会增大分析***识别用户语音情感的错误率,其他人声分贝越大,会导致分析***识别用户语音情感的错误率越大,因此,在用户输入语音的过程中,若出现其他人声,且其他人声的分贝超过第一分贝阈值的时段为人声分贝预警的时段;
在用户输入语音过程中,若出现非人声噪音,不仅会导致分析***识别用户语音情感的准确性降低,而且还可能损坏录音设备,非人声噪音越大,会导致分析***识别用户语音情感的错误率越大,因此,在用户输入语音的过程中,若出现非人声噪音,且非人声噪音的分贝超过第二分贝阈值的时段为非人声分贝预警的时段;
将人声分贝预警的时段与非人声分贝预警的时段进行积分运算后获取背景噪音指数,计算表达式为:式中,Z(t)为语音识别错误率,[tx,ty]为人声分贝预警的时段,[ti,tj]为非人声分贝预警的时段;
在用户输入语音过程中,若出现除用户外的其他人声,则会增大分析***识别用户语音情感的错误率,具体为:
混淆和交叠:其他人的声音可能与用户的语音混合在一起,使得情感分析***难以准确地分辨和识别用户的情感,由于混淆和交叠,***可能错误地将其他人的情感影响纳入分析,导致错误率的增加;
情感表达差异:不同个体可能以不同的方式表达相同的情感,而其他人的声音可能引入额外的情感表达差异,情感分析***需要能够区分不同说话者的情感表达方式,否则可能对用户的情感分析产生误导;
情感转变:用户在语音输入的过程中情感可能发生变化,而其他人的声音也可能带有不同的情感色彩,***需要追踪和理解语音中可能存在的情感转变,而其他人的情感可能引入噪音,使得分析变得更加困难;
语音指令混淆:如果其他人在用户表达情感时发出类似的语音指令,***可能难以确定哪个声音是用户的情感表达,这可能导致情感分析***误将其他人的情感表达或指令识别为用户的,从而增加错误率;
背景噪音引入:其他人的语音可能作为背景噪音引入,降低了语音信号的质量,背景噪音可能导致***难以准确地提取和分析用户语音中的情感特征,从而增加错误率。
若出现非人声噪音,不仅会导致分析***识别用户语音情感的准确性降低,而且还可能损坏录音设备,具体为:
影响情感分析准确性:非人声噪音,如机械噪音、电子噪音等,可能与用户的语音混合在一起,使情感分析***难以准确地提取和分析用户语音中的情感特征,非人声噪音引入了额外的信号,可能干扰情感特征的提取,从而降低***对用户情感的准确性;
损坏录音设备:强烈的非人声噪音,尤其是高强度的噪音,可能会对录音设备产生不良影响,高强度的非人声噪音可能导致录音设备的麦克风或其他组件受损,降低设备的寿命,甚至引起设备损坏;
信噪比下降:非人声噪音会引入额外的噪音成分,降低语音信号的信噪比,降低的信噪比使得语音情感分析***更难以清晰地识别和分析用户语音,导致分析困难;
语音信号失真:非人声噪音可能导致语音信号的失真,使得原始语音信息无法被清晰地传递到分析***,失真的语音信号会降低情感分析***对用户情感表达的准确性,因为关键的情感特征可能已经被失真影响。
采样率的获取方式为:
操作***设置:在Windows操作***中,你可以通过打开"声音"设置,选择录音设备,并查看其属性,在"高级"或"高级属性"选项卡中,你应该能够找到设备的默认采样率,在macOS中,你可以打开"音频MIDI设置",选择"音频设备",并查看设备的配置信息,包括采样率,在Linux操作***中,你可以使用命令行工具如arecord或者aplay,并通过参数获取设备的采样率信息;
设备文档:查阅设备的用户手册或技术规格表,通常,设备的规格表中会提供关于采样率的详细信息;
音频设备管理工具:在某些情况下,设备制造商提供了专用的音频设备管理工具,通过这些工具你可以查看和配置设备的详细设置,包括采样率;
应用程序设置:在某些应用程序中,你可以直接在设置或首选项中找到音频设备的配置信息,包括采样率。
由于背景噪音指数的获取逻辑为通过分析人声或非人声分贝对情感分析错误率的影响,然而,在实际情况中,还存在设备本身存在异常时,会导致语音识别正确率下降;
但在实际应用中,现有的语音识别助手即使对用户输入的一段语音中的某几个字或词未正确识别,也会通过理解上下文的方式来自动填补未正确识别的某几个字或词;
然而,未正确识别的某几个字或词会导致分析***无法准确分析用户的语音情感,增大分析误差,因此,本申请还对用户输入的语音进行识别正确率分析;
语音正确识别指数的计算逻辑为:获取用户在整个交互过程中输入的语音段数量,并计算每段语音的正确识别率,表达式为:式中,F表示正确识别率,ZQS表示语音正确识别字数,ZSL表示交互过程中所有语音的字数;
将整个交互过程中,正确识别率最大语音段的正确识别率作为语音正确识别指数,表达式为:YZL=max(F1、F2、...、Fn),式中,n表示整个交互过程中语音段的数量,且n为整数,max()表示最大正确识别率。
优化判断模型的建立包括以下步骤:
将背景噪音指数BZS、采样率CYL以及语音正确识别指数YZL标准化处理后,综合计算获取优化系数yhx,表达式为:
式中,BZS为背景噪音指数,CYL为采样率,YZL为语音正确识别指数,α、β、γ分别为采样率、语音正确识别指数以及背景噪音指数的比例系数,且α、β、γ均大于0;
获取优化系数yhx后,将优化系数yhx与预设的优化阈值进行对比,完成对优化判断模型的建立,优化阈值用于分析环境和设备对语音情感分析的影响大小。
获取语音识别助手对用户的反馈数据,对反馈数据分析包括以下步骤:
获取语音识别助手对用户的反馈数据,反馈数据包括识别响应速度、卡顿频率以及语音指令覆盖率;
将识别响应速度、卡顿频率以及语音指令覆盖率综合计算获取反馈系数fkx,计算表达式为:式中,XYD、FGL、KDL分别为识别响应速度、语音指令覆盖率以及卡顿频率,a1、a2、a3分别为识别响应速度、语音指令覆盖率以及卡顿频率的比例系数,且a1、a2、a3均大于0;
若反馈系数fkx≥预设的反馈阈值,评估语音识别助手的语音识别性能好;
若反馈系数fkx<预设的反馈阈值,评估语音识别助手的语音识别性能差;
识别响应速度的获取方式为:在语音识别助手的代码中,可以使用计时器或时间戳来记录用户语音输入开始的时间和***产生响应的时间,通过计算这两个时间点之间的差值,就可以得到识别助手的响应时间。
卡顿频率的获取方式为:在语音识别助手中添加详细的日志记录,包括语音识别请求的时间戳、处理时间和响应时间等信息,分析这些日志以识别***在响应语音输入时是否存在卡顿现象,以及卡顿的频率和时长。
语音指令覆盖率的获取方式为:如果***已经在实际应用中使用,可以分析用户日志来了解用户实际使用的语音指令,这可以通过匿名收集和分析用户的语音输入数据来实现,从用户日志中提取语音指令,然后分析每个指令的成功率,以评估***在实际使用中的覆盖率。
基于情感类别的识别结果以及反馈数据分析结果对语音识别助手进行优化,包括以下步骤:
关联情感与指令响应:将情感类别与相应的指令响应关联起来。例如,当用户表达愤怒时,***可以采取更冷静的回应,或提供额外的支持以解决用户的问题。
个性化情感模型:考虑开发个性化情感模型,能够适应不同用户的情感表达方式。通过个性化模型,提高***对用户情感的理解和识别准确性。
反馈机制:在用户交互中引入情感反馈机制,以便***能够根据用户的情感状态调整交互策略。例如,当检测到用户愉悦时,***可以提供更加友好和轻松的回应。
用户调查和反馈:进行用户调查,了解用户对语音识别助手在情感识别方面的期望和反馈。收集用户对***情感识别准确性的看法,并根据反馈进行相应调整。
优化情感标签和分类:定期审查和优化情感类别标签和分类体系。确保情感类别的定义与用户期望和实际语境相符,以提高情感识别的准确性。
处理多模态输入:考虑处理多模态输入,例如结合语音和图像信息进行情感分析。这可以增强对用户情感的理解,尤其在视频通话或语音交互中更为有用。
隐私保护:在优化情感识别功能时,要注意保护用户隐私。明确告知用户情感识别的目的和使用方式,确保符合隐私法规。
语音数据质量优化:语音识别助手可能受到语音输入质量的影响,如噪音、回声等。使用噪音抑制技术、回声消除算法,或在用户输入前提供清晰的语音输入指导,以提高语音数据的质量。
多模态输入支持:只依赖语音输入可能限制了***的性能,尤其是在复杂的交互场景中。支持多模态输入,例如结合语音和文本输入,以提高***对用户意图的理解和准确性。
语音指令覆盖范围扩展:语音识别助手可能未能覆盖用户广泛的语音指令。扩展语音指令的覆盖范围,包括常用指令和特定领域的指令,以适应更多用户需求。
实时性能监测:语音识别助手在实时性能方面可能存在问题,导致卡顿或延迟。引入实时性能监测机制,以追踪***的性能并及时发现潜在问题,使得***能够更加流畅地处理语音输入。
语言和口音适应性提升:在处理多语言和口音时,语音识别助手可能表现不佳。改进语言模型,引入口音适应性技术,以提高***在不同语境下的识别准确性。
调整语音识别引擎参数:语音识别引擎的默认参数可能不适用于特定应用场景。调整语音识别引擎的参数,例如音频特征提取的参数、模型深度等,以优化识别性能。
用户反馈机制:语音识别错误时,缺乏用户反馈可能导致问题未被及时发现。引入用户反馈机制,允许用户报告语音识别错误,并收集这些反馈以指导***优化。
模型迭代和更新:使用的语音识别模型可能过时或不适应当前用户的语言习惯。定期更新语音识别模型,利用最新的语音数据和技术,进行模型迭代和优化。
难度级别适应:语音识别***可能无法处理复杂或难以理解的语音输入。引入难度级别适应机制,使***能够动态调整对语音输入的处理水平,以适应不同难度水平的用户。
隐私和安全保障:不充分的隐私和安全保障可能降低用户对语音识别助手的信任。采取措施确保语音数据的安全存储和处理,并明确告知用户有关隐私政策和数据使用方式。
实施例3:请参阅图2所示,本实施例所述一种智能语音识别与情感分析***,包括唤醒模块、语音识别模块、录音模块、数据采集模块、判断模块、特征提取模块、情感分析模块、识别分析模块、优化模块;
唤醒模块:用户通过唤醒模块唤醒语音识别模块;
语音识别模块:用户向语音识别模块输入语音,语音识别模块识别语音后,基于用户语音识别内容进行相应反馈,相应反馈包括文本输出、语音输出或进行相应动作,反馈数据发送至识别分析模块;
录音模块:用户输入语音过程中,对用户语音进行录音处理,录音数据发送至特征提取模块;
数据采集模块:获取用户语音输入过程中的环境数据以及设备数据,环境数据以及设备数据发送至判断模块;
判断模块:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析,判断结果发送至特征提取模块;
特征提取模块:当判断需要进行情感分析时,获取对用户的录音数据,对录音数据提取特征数据,特征数据包括情感词汇、语调、语速等,特征数据发送至情感分析模块;
情感分析模块:基于情感分析技术分析特征数据后识别用户的情感类别,情感类别包括高兴、悲伤、愤怒等,或者进行情感极性分析,如正面、负面、中性等,情感类别的识别结果发送至优化模块;
识别分析模块:获取语音识别模块对用户的反馈数据,对反馈数据分析,反馈数据分析结果发送至优化模块;
优化模块:基于情感类别的识别结果以及反馈数据分析结果对语音识别模块进行优化。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种智能语音识别与情感分析方法,其特征在于:所述分析方法包括以下步骤:
用户通过实体按键或者语音关键词唤醒语音识别助手,且用户向语音识别助手输入语音,语音识别助手识别语音后,基于用户语音识别内容进行相应反馈;
用户输入语音过程中,分析***对用户语音进行录音处理,并获取用户语音输入过程中的环境数据以及设备数据,在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,判断是否需要对用户输入的语音数据进行情感分析;
当判断需要进行情感分析时,分析***获取对用户的录音数据,对录音数据提取特征数据,基于情感分析技术分析特征数据后识别用户的情感类别,并获取语音识别助手对用户的反馈数据,对反馈数据分析后,基于情感类别的识别结果以及反馈数据分析结果对语音识别助手进行优化。
2.根据权利要求1所述的一种智能语音识别与情感分析方法,其特征在于:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,环境数据包括背景噪音指数,设备数据包括采样率以及语音正确识别指数。
3.根据权利要求2所述的一种智能语音识别与情感分析方法,其特征在于:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据后,判断是否需要对用户输入的语音数据进行情感分析包括以下步骤:
在语音交互完成后,获取背景噪音指数、采样率以及语音正确识别指数,并代入优化判断模型中进行分析,输出优化系数;
若优化系数≥优化阈值,判断需要对用户输入的语音数据进行情感分析;
若优化系数<优化阈值,判断不需要对用户输入的语音数据进行情感分析。
4.根据权利要求3所述的一种智能语音识别与情感分析方法,其特征在于:所述优化判断模型的建立包括以下步骤:
将背景噪音指数、采样率以及语音正确识别指数标准化处理后,综合计算获取优化系数;
获取优化系数yhx后,将优化系数yhx与预设的优化阈值进行对比,完成对优化判断模型的建立,优化阈值用于分析环境和设备对语音情感分析的影响大小。
5.根据权利要求4所述的一种智能语音识别与情感分析方法,其特征在于:所述背景噪音指数的获取逻辑为:在用户输入语音的过程中,若出现其他人声,且其他人声的分贝超过第一分贝阈值的时段为人声分贝预警的时段;
在用户输入语音的过程中,若出现非人声噪音,且非人声噪音的分贝超过第二分贝阈值的时段为非人声分贝预警的时段;
将人声分贝预警的时段与非人声分贝预警的时段进行积分运算后获取背景噪音指数,计算表达式为:式中,Z(t)为语音识别错误率,[tx,ty]为人声分贝预警的时段,[ti,tj]为非人声分贝预警的时段。
6.根据权利要求5所述的一种智能语音识别与情感分析方法,其特征在于:所述语音正确识别指数的计算逻辑为:获取用户在整个交互过程中输入的语音段数量,并计算每段语音的正确识别率,表达式为:式中,F表示正确识别率,ZQS表示语音正确识别字数,ZSL表示交互过程中所有语音的字数;
将整个交互过程中,正确识别率最大语音段的正确识别率作为语音正确识别指数,表达式为:YZL=max(F1、F2、...、Fn),式中,n表示整个交互过程中语音段的数量,且n为整数,max()表示最大正确识别率。
7.根据权利要求6所述的一种智能语音识别与情感分析方法,其特征在于:获取语音识别助手对用户的反馈数据,对反馈数据分析包括以下步骤:
获取语音识别助手对用户的反馈数据,反馈数据包括识别响应速度、卡顿频率以及语音指令覆盖率;
将识别响应速度、卡顿频率以及语音指令覆盖率综合计算获取反馈系数;
若反馈系数≥预设的反馈阈值,评估语音识别助手的语音识别性能好;
若反馈系数<预设的反馈阈值,评估语音识别助手的语音识别性能差。
8.一种智能语音识别与情感分析***,用于实现权利要求1-7任一项所述的分析方法,其特征在于:包括唤醒模块、语音识别模块、录音模块、数据采集模块、判断模块、特征提取模块、情感分析模块、识别分析模块、优化模块;
唤醒模块:用户通过唤醒模块唤醒语音识别模块;
语音识别模块:用户向语音识别模块输入语音,语音识别模块识别语音后,基于用户语音识别内容进行相应反馈;
录音模块:用户输入语音过程中,对用户语音进行录音处理;
数据采集模块:获取用户语音输入过程中的环境数据以及设备数据;
判断模块:在语音交互完成后,通过优化判断模型分析环境数据以及设备数据,判断是否需要对用户输入的语音数据进行情感分析;
特征提取模块:当判断需要进行情感分析时,获取对用户的录音数据,并提取录音数据中的特征数据;
情感分析模块:基于情感分析技术分析特征数据后识别用户的情感类别;
识别分析模块:获取语音识别模块对用户的反馈数据,并对反馈数据进行分析;
优化模块:基于情感类别的识别结果以及反馈数据分析结果对语音识别模块进行优化。
CN202410077111.6A 2024-01-18 2024-01-18 一种智能语音识别与情感分析***及方法 Pending CN118197303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410077111.6A CN118197303A (zh) 2024-01-18 2024-01-18 一种智能语音识别与情感分析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410077111.6A CN118197303A (zh) 2024-01-18 2024-01-18 一种智能语音识别与情感分析***及方法

Publications (1)

Publication Number Publication Date
CN118197303A true CN118197303A (zh) 2024-06-14

Family

ID=91397330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410077111.6A Pending CN118197303A (zh) 2024-01-18 2024-01-18 一种智能语音识别与情感分析***及方法

Country Status (1)

Country Link
CN (1) CN118197303A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
WO2014062521A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
WO2015070645A1 (zh) * 2013-11-14 2015-05-21 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US20190103105A1 (en) * 2017-09-29 2019-04-04 Lenovo (Beijing) Co., Ltd. Voice data processing method and electronic apparatus
KR20190143116A (ko) * 2018-06-20 2019-12-30 주식회사 샤우터 대화 자동 저장 장치 및 방법
CN112235468A (zh) * 2020-10-16 2021-01-15 绍兴市寅川软件开发有限公司 用于语音客服评价的音频处理方法及***
CN114464180A (zh) * 2022-02-21 2022-05-10 海信电子科技(武汉)有限公司 一种智能设备及智能语音交互方法
CN114492579A (zh) * 2021-12-25 2022-05-13 浙江大华技术股份有限公司 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN115148193A (zh) * 2022-07-04 2022-10-04 鼎富新动力(北京)智能科技有限公司 一种语音识别方法及***
WO2023065619A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 多维度细粒度动态情感分析方法及***
US20230154487A1 (en) * 2021-11-15 2023-05-18 Chu-Ying HUANG Method, system and device of speech emotion recognition and quantization based on deep learning

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
WO2014062521A1 (en) * 2012-10-19 2014-04-24 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
WO2015070645A1 (zh) * 2013-11-14 2015-05-21 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US20190103105A1 (en) * 2017-09-29 2019-04-04 Lenovo (Beijing) Co., Ltd. Voice data processing method and electronic apparatus
KR20190143116A (ko) * 2018-06-20 2019-12-30 주식회사 샤우터 대화 자동 저장 장치 및 방법
CN112235468A (zh) * 2020-10-16 2021-01-15 绍兴市寅川软件开发有限公司 用于语音客服评价的音频处理方法及***
WO2023065619A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 多维度细粒度动态情感分析方法及***
US20230154487A1 (en) * 2021-11-15 2023-05-18 Chu-Ying HUANG Method, system and device of speech emotion recognition and quantization based on deep learning
CN114492579A (zh) * 2021-12-25 2022-05-13 浙江大华技术股份有限公司 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN114464180A (zh) * 2022-02-21 2022-05-10 海信电子科技(武汉)有限公司 一种智能设备及智能语音交互方法
CN115148193A (zh) * 2022-07-04 2022-10-04 鼎富新动力(北京)智能科技有限公司 一种语音识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王展帆: ""基于深度学习的多模态情感分析"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 02, 15 February 2023 (2023-02-15) *

Similar Documents

Publication Publication Date Title
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
Mishra et al. Robust features for connected Hindi digits recognition
US11842721B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
CN111489743A (zh) 一种基于智能语音技术的运营管理分析***
Kumar et al. Machine learning based speech emotions recognition system
Hafen et al. Speech information retrieval: a review
Vacher et al. Speech and sound use in a remote monitoring system for health care
Grewal et al. Isolated word recognition system for English language
CN117524259A (zh) 音频处理方法及***
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN116386633A (zh) 一种适用于噪声条件下的智能终端设备控制方法及***
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
CN111402887A (zh) 一种语音转义文字的方法及装置
CN118197303A (zh) 一种智能语音识别与情感分析***及方法
CN112420022A (zh) 一种噪声提取方法、装置、设备和存储介质
CN117935865B (zh) 一种用于个性化营销的用户情感分析方法及***
Girirajan et al. Hybrid Feature Extraction Technique for Tamil Automatic Speech Recognition System in Noisy Environment
Avikal et al. Estimation of age from speech using excitation source features
Narain et al. Impact of emotions to analyze gender through speech
US20240071367A1 (en) Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model
Kurian et al. Malayalam Isolated Digit Recognition using HMM and PLP cepstral coefficient

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination