CN108597522A - 一种语音处理方法及装置 - Google Patents

一种语音处理方法及装置 Download PDF

Info

Publication number
CN108597522A
CN108597522A CN201810443395.0A CN201810443395A CN108597522A CN 108597522 A CN108597522 A CN 108597522A CN 201810443395 A CN201810443395 A CN 201810443395A CN 108597522 A CN108597522 A CN 108597522A
Authority
CN
China
Prior art keywords
content
model
speech
voice
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810443395.0A
Other languages
English (en)
Other versions
CN108597522B (zh
Inventor
王睿宇
段效晨
余景逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810443395.0A priority Critical patent/CN108597522B/zh
Publication of CN108597522A publication Critical patent/CN108597522A/zh
Application granted granted Critical
Publication of CN108597522B publication Critical patent/CN108597522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种语音处理方法及装置,方法包括:在预设的语音输入入口获取语音内容;确定设置于浏览器端的语音处理模型;通过所述语音处理模型将所述语音内容转换为目标显示内容;在预设显示区域展示所述目标显示内容。本发明实施例通过将语音处理模型确定在浏览器端,由浏览器端实现对语音内容的转换,因此在语音内容转换中不会对服务器造成压力,使得用户可以在浏览器中发布语音评论内容。

Description

一种语音处理方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种语音处理方法及装置。
背景技术
随着社会的发展,人们可以在互联网上对感兴趣的视频、文字、图片等等发表评论。
现有技术中,由于音频文件所占据的存储空间较大,若用户发表语音评论,需要通过服务器将语音文件转换为文字后,将文字存储于服务器,并在浏览器中展示文字评论。
然而,本领域技术人员在研究上述技术方案的过程中发现,上述技术方案存在如下缺陷:由于用户每发表一条语音评论,都需要服务器进行一次语音文件转换,而语音评论的数量通常较大,因此对服务器造成很大的压力,使得通常在客户端的浏览器上,只是给用户提供文字评论的输入口,而不设置语音评论入口,用户不能在浏览器通过语音输入发布评论。
发明内容
本发明实施例提出了一种语音处理方法及装置,以便克服因为语音评论造成服务器压力过大,使得用户不能通过语音输入发布评论的问题。
根据本发明的第一方面,提供了一种语音处理方法,应用于浏览器,所述方法包括:
在预设的语音输入入口获取语音内容;
确定设置于浏览器端的语音处理模型;
通过所述语音处理模型将所述语音内容转换为目标显示内容;
在预设显示区域展示所述目标显示内容。
根据本发明的第二方面,提供了一种语音处理装置,应用于浏览器端,所述装置包括:
语音内容获取模块,用于在预设的语音输入入口获取语音内容;
语音处理模型确定模块,用于确定设置于浏览器端的语音处理模型;
目标显示内容转换模块,用于通过所述语音处理模型将所述语音内容转换为目标显示内容;
目标显示内容展示模块,用于在预设显示区域展示所述目标显示内容。
本发明实施例包括以下优点:本发明实施例通过将语音处理模型确定在浏览器端,由浏览器端实现对语音内容的转换,因此在语音内容转换中不会对服务器造成压力,使得用户可以在浏览器中发布语音评论内容。具体来说,在浏览器端中预设语音输入接口,在语音输入接口获取到语音内容后,确定设置于浏览器端的语音处理模型,将语音内容转换为目标显示内容,在浏览器端的预设显示区域显示目标内容,服务器不需要对语音内容转换,减小了服务器的压力。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种语音处理方法的流程图;
图2a是本发明实施例提供的一种语音处理方法的具体流程图;
图2b是本发明实施例提供的一种显示界面图;
图3是本发明实施例提供的一种语音处理装置的框图;
图4是本发明实施例提供的一种语音处理装置的具体框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
应当理解,此处所描述的具体实施例仅用以解释本发明,仅仅是本发明一部分实施例,而不是全部的实施例,并不用于限定本发明。
实施例一
参照图1,示出了一种语音处理方法的流程图。
可以理解,本发明实施例可以应用于浏览器端,浏览器端具体可以是设置有浏览器的客户端。浏览器是个显示网站服务器或文件***内的文件,并让用户与这些文件交互的一种应用软件。它用来显示在万维网或局域网等内的文字、图像及其他信息。这些文字或图像,可以是连接其他网址的超链接,用户可迅速及轻易地浏览各种信息。客户端可以是电脑、以及其它具有GPU的电子设备等,本发明实施例对此不做具体限制。
该方法具体可以包括如下步骤:
步骤101:在预设的语音输入入口获取语音内容。
本发明实施例中,在浏览器的用户界面中,可以预先通过添加脚本或控件等设置语音输入入口,该语音输入入口可以访问浏览器所在的客户端的麦克风等录音设备。当用户触发该语音输入入口,并通过语音输入入口输入语音内容后,可以在该语音输入入口获取到用户输入的语音内容。
步骤102:确定设置于浏览器端的语音处理模型。
本发明实施例中,语音处理模型可以设置在服务器端,浏览器从服务器端调用预设的语音处理模型;另外,预设的语音处理模型也可以设置在该浏览器所在的客户端,浏览器从客户端调用预设的语音处理模型,本发明实施例对预设的语音处理模型的实际存放位置不做具体限定。
实际应用中,语音处理模型可以是语音识别模型。具体的,该语音识别模型可以通过下述方式创建得到:
首先,在客户端采集用户朗读样本的语音,得到用户语音样本。供用户朗读的样本可以是静态样本,例如汉语拼音表、英语字母表、数字表、易混淆词表等;供用户朗读的样本还可以是动态样本,例如包含用户被错误识别的语音内容,如易混淆发音的音节、出错发音等。
然后,由服务器对采集的用户语音样本进行特征提取,根据提取的特征,创建语音识别模型。当然,如果要得到更加优化的语音识别模型,可以重复上述创建语音识别模型的步骤,多次训练后,选择更加优化的语音识别模型。
实际应用中,语音处理模型还可以是语音情感分析模型。具体的,该语音情感分析模型可以通过下述方式创建得到:
首先,获取大量的语音文件为训练样本,提取语音文件的语音情感特征,形成一个语音情感特征向量;其中,语音情感特征包括短时过零率,短时能量,基音频率,共振峰,谐波噪声比等。
其次,通过语音情感分类器对语音情感特征向量分类。其中,判断的情感类别可包括愤怒、高兴、悲伤、惊讶、厌恶、恐惧和平静等。
最后,根据判断的结果,创建语音情感分析模型。当然,如果要得到更加优化的语音情感分析模型,可以重复上述创建语音情感分析模型的步骤,多次训练后,选择更加优化的语音情感分析模型。
可以理解,该语音处理模型还可以由本领域技术人员根据实际应用场景进行设定,语音处理模型的训练方法例如对于语音样本,也可以由本领域技术人员根据实际应用场景进行设定,例如,利用LSTM(Long Short-Term Memory,时间递归神经网络)基于人工智能学习***Keras训练语音识别模型等,本发明实施例对此不做具体限制。
步骤103:通过所述语音处理模型将所述语音内容转换为目标显示内容。
本发明实施例中,通过语音处理模型可以将语音内容转换为文字、色彩、图片、表情等任意一种可以部分或全部的反映出用户所输入语音内容的目标显示内容;可以理解,由于文字、色彩、图片、表情等所占用的存储空间要小于语音文件本身所占用的存储空间,因此,对存储资源占用也就会较小。
步骤104:在预设显示区域展示所述目标显示内容。
本发明实施例中,预设显示区域可以是浏览器用户界面的评论区,例如,在浏览器界面包括播放视频的区域,或展示新闻的区域等,那么该预设显示区域可以是位于该播放视频的区域或展示新闻的区域的周围的上、下、左、右任意区域,在该预设显示区域可以逐条展示目标显示内容。
综上所述,本发明实施例通过将语音处理模型确定在浏览器端,由浏览器端实现对语音内容的转换,因此在语音内容转换中不会对服务器造成压力,使得用户可以在浏览器中发布语音评论内容。具体来说,在浏览器端中预设语音输入接口,在语音输入接口获取到语音内容后,确定设置于浏览器端的语音处理模型,将语音内容转换为目标显示内容,在浏览器端的预设显示区域显示目标内容,服务器不需要对语音内容转换,减小了服务器的压力。
实施例二
参照图2a,示出了一种语音处理方法的具体流程图,应用于浏览器,具体可以包括如下步骤:
步骤201:在预设的语音输入入口获取语音内容。
步骤202:通过所述模型导入模块得到模型配置文件;其中,所述浏览器中设置有模型导入模块。
本发明实施例中,语音处理模型预先存储在服务器端,浏览器中设置有模型导入模块,通过该模型导入模块,浏览器可以确定出能将服务器端存储的语音处理模块导入到浏览器所在的客户端的模型配置文件。当获取到用户通过语音输入入口输入的语音内容时,浏览器启用模型导入模块,确定模型配置文件。
较佳地,所述模型导入模块基于模型构建框架kerasJs构建。
具体应用中,Keras是一个高层神经网络API(Application ProgrammingInterface,应用程序编程接口),Keras可以由Python编写而成。KerasJs可以单独运行在网络后台,进行大量的运算,基于模型构建框架kerasJs构建的模型导入模块具有运算效率高、易于实现的优点。
步骤203:根据所述模型配置文件,将服务器端的语音处理模型导入所述浏览器端。
本发明实施例中,模型配置文件将服务器端的语音处理模型导入浏览器所在的客户端后,可以在客户端实现对语音内容的分析处理,减少了服务器的计算压力。
步骤204:将所述语音处理模型保存在所述浏览器端。
本发明实施例中,考虑到用户如果已经使用浏览器输入过语音内容,那么,用户所使用浏览器的客户端中已经导入了语音处理模型,将语音处理模型保存在浏览器端,则当用户再次通过浏览器输入语音内容后,就可以不再从服务器导入语音处理模型,而直接在客户端调用语音处理模型,减少确定模型配置文件和导入语音处理模型的步骤,提升语音处理的效率。
步骤205:确定设置于浏览器端的语音处理模型。
可以理解,本发明实施例中,步骤203至步骤204可以在步骤201之后执行,当获取到用户在浏览器端的语音内容后,再调用服务器的语音处理模型,并将语音处理模型确定到浏览器端,之后步骤205中可以在浏览器端确定语音处理模型;步骤203至步骤204也可以在步骤201之前执行,预先调用服务器的语音处理模型,并将语音处理模型确定到浏览器端,当获取到用户在浏览器端的语音内容后,步骤205中可以直接在浏览器端确定语音处理模型,本发明实施例对各步骤的具体执行顺序不做具体限定。
步骤206:通过所述语音处理模型将所述语音内容转换为目标显示内容。
作为本发明实施例的一种优选方案,所述语音处理模型包括:语音识别模型,和/或,语音情感分析模型;所述目标显示内容包括:文字内容,和/或,情感展示内容。
当语音处理模型为语音识别模型时,所述确定设置于所述浏览器端的语音处理模型;通过所述语音处理模型将所述语音内容转换为目标显示内容的步骤包括:
确定设置于所述浏览器端的语音识别模型;通过所述语音识别模型将所述语音内容转换为文本内容,并将所述文本内容确定为目标显示内容。
本发明实施例中,通过语音识别模型,将语音内容转换为文本内容,将文本内容确定为将在浏览器用户界面展示的目标显示内容。使用该浏览器的用户可以通过该文本内容,了解到用户发布的具体是什么内容的语音内容。
当语音处理模型为语音情感分析模型时,所述确定设置于所述浏览器端的语音处理模型;通过所述语音处理模型将所述语音内容转换为目标显示内容的步骤包括:
确定设置于所述浏览器端的语音情感分析模型;通过所述语音情感分析模型分析所述语音内容的情感类型;获取与所述情感类型具有对应关系的情感展示内容,并将所述情感展示内容确定为目标显示内容。
本发明实施例中,通过语音情感分析模型,分析出语音内容的情感类型,例如,如果用户发出的语音是用愤怒的语调说出“声音一集大一集小,工作不仔细啊”,可以分析出用户的情感类型是愤怒;如果用户发出的语音是用高兴的语调说出“虽然不太懂,但还是觉得好厉害呀”,可以分析出用户的情感类型是高兴,等等。
具体应用中,可以预先确定情感类型与情感展示内容的对应关系。例如,如果情感展示内容是色彩,可以确定情感类型“愤怒”对应红色,情感类型“高兴”对应绿色,情感类型“忧伤”对应蓝色等等。在确定出语音内容的情感类型后,可以通过情感类型与情感展示内容的对应关系,确定出与该情感类型对应的情感展示内容,作为目标显示内容。
具体应用中,情感展示内容可以包括:背景色彩、表情或图片的一种或几种,例如情感展示内容可以是表示高兴、愤怒、忧伤等感情类型的表情;或者是表示高兴、愤怒、忧伤等感情类型的图片;表示高兴、愤怒、忧伤等感情类型的表情和色彩的组合,等等,本发明实施例对此不作具体限制。通过情感展示内容的展示,使用该浏览器的用户可以了解到用户发布的具体是什么情感类型的语音内容。
步骤207:在预设显示区域展示所述目标显示内容。
本发明实施例中,在预设显示区域,例如评论区,可以只展示通过语音识别模型转换的文本内容,使得用户可以通过文本内容了解到评论的具体内容;本发明实施例中,在预设显示区域,例如评论区,也可以只展示通过语音情感分析模型确定的情感展示内容,例如只展示色彩、表情、图片等;使得用户可以通过情感展示内容,了解到发布评论的用户的情感,本发明实施例对此不作具体显示。
作为本发明实施例的一种优选方案,语音处理模型同时包括了语音识别模型和语音情感分析模型。
以语音情感分析模型的目标展示内容为色彩为例,可以将色彩作为文本内容的背景,如图2b所示,预设显示区域为展示评论的评论区域,当用户在语音输入区输入语音后,经过语音识别模型和语音情感分析模型对该语音内容的处理,在评论区域展示该语音内容的文本内容,并同时将该语音内容的情感类型作为文本内容的背景色彩,让用户在评论区能一目了然的知道评论内容和发布该评论内容的用户的情感类型,增加用户观看评论区的趣味性和直观性。
步骤208:将所述目标显示内容发送至服务器端,以使所述服务器端存储所述目标显示内容。
本发明实施例中,将目标显示内容发送到服务器端,服务器端存储该目标显示内容,使得使用该服务器端提供服务支持的浏览器中可以长久展示目标显示内容。
优选地,在步骤208之后,还可以从所述客户端中删除所述语音处理模型。
本发明实施例中,考虑到在客户端中导入语音处理模型后,会对客户端的资源造成一定占用,因此,在完成目标内容显示后,可以将客户端的语音处理模型删除,避免对客户端资源的占用。
本发明实施例通过将语音处理模型确定在浏览器端,由浏览器端实现对语音内容的转换,因此在语音内容转换中不会对服务器造成压力,使得用户可以在浏览器中发布语音评论内容。具体来说,在浏览器端中预设语音输入接口,在语音输入接口获取到语音内容后,确定设置于浏览器端的语音处理模型,将语音内容转换为目标显示内容,在浏览器端的预设显示区域显示目标内容,服务器不需要对语音内容转换,减小了服务器的压力。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
实施例三
参照图3,示出了一种语音处理装置的框图,该装置应用于浏览器端,具体可以包括:
语音内容获取模块310,用于在预设的语音输入入口获取语音内容。
语音处理模型确定模块320,用于确定设置于所述浏览器端的语音处理模型。
目标显示内容转换模块330,用于通过所述语音处理模型将所述语音内容转换为目标显示内容。
目标显示内容展示模块340,用于在预设显示区域展示所述目标显示内容。
优选地,参照图4,在图3的基础上,所述语音处理模型包括:语音识别模型,和/或,语音情感分析模型;所述目标显示内容包括:文字内容,和/或,情感展示内容;
所述语音处理模型确定模块320、目标显示内容转换模块330包括:
语音识别模型确定子模块,用于确定设置于所述浏览器端的语音识别模型;
文本内容转换子模块,用于通过所述语音识别模型将所述语音内容转换为文本内容,并将所述文本内容确定为目标显示内容;
和/或,
语音情感分析模型确定子模块,用于确定设置于所述浏览器端的语音情感分析模型;
情感类型分析子模块,用于通过所述语音情感分析模型分析所述语音内容的情感类型;
情感展示内容获取子模块,用于获取与所述情感类型具有对应关系的情感展示内容,并将所述情感展示内容确定为目标显示内容。
优选地,所述浏览器中设置有模型导入模块;
所述装置还包括:
模型配置文件确定模块360,用于通过所述模型导入模块得到模型配置文件。
导入模块370,用于根据所述模型配置文件,将所述服务器端的语音处理模型导入所述浏览器端。
优选地,还包括:
保存模块,用于将所述语音处理模型保存在所述浏览器端。
优选地,所述模型导入模块基于模型构建框架kerasJs构建;所述装置还包括:
发送模块350,用于将所述目标显示内容发送至服务器端,以使所述服务器端存储所述目标显示内容。
本发明实施例通过将语音处理模型确定在浏览器端,由浏览器端实现对语音内容的转换,因此在语音内容转换中不会对服务器造成压力,使得用户可以在浏览器中发布语音评论内容。具体来说,在浏览器端中预设语音输入接口,语音内容获取模块310在语音输入接口获取到语音内容后,语音处理模型确定模块320调用预设的语音处理模型,目标显示内容转换模块330将语音内容转换为目标显示内容,目标显示内容展示模块340在浏览器端的预设显示区域显示目标内容。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程语音处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程语音处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程语音处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程语音处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音处理方法和一种语音处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音处理方法,其特征在于,所述方法包括:
在预设的语音输入入口获取语音内容;
确定设置于浏览器端的语音处理模型;
通过所述语音处理模型将所述语音内容转换为目标显示内容;在预设显示区域展示所述目标显示内容。
2.根据权利要求1所述的方法,其特征在于,所述语音处理模型包括:语音识别模型,和/或,语音情感分析模型;所述目标显示内容包括:文字内容,和/或,情感展示内容;
所述确定设置于所述浏览器端的语音处理模型;通过所述语音处理模型将所述语音内容转换为目标显示内容的步骤包括:
确定设置于所述浏览器端的语音识别模型;
通过所述语音识别模型将所述语音内容转换为文本内容,并将所述文本内容确定为目标显示内容;
和/或,
确定设置于所述浏览器端的语音情感分析模型;
通过所述语音情感分析模型分析所述语音内容的情感类型;
获取与所述情感类型具有对应关系的情感展示内容,并将所述情感展示内容确定为目标显示内容。
3.根据权利要求1或2任一所述的方法,其特征在于,所述浏览器端设置有模型导入模块;
所述方法还包括:
通过所述模型导入模块得到模型配置文件;
根据所述模型配置文件,将服务器端的语音处理模型导入所述浏览器端。
4.根据权利要求3所述的方法,其特征在于,还包括:
将所述语音处理模型保存在所述浏览器端。
5.根据权利要求3所述的方法,其特征在于,所述通过所述语音处理模型将所述语音内容转换为目标显示内容的步骤之后,还包括:
将所述目标显示内容发送至服务器端,以使所述服务器端存储所述目标显示内容。
6.一种语音处理装置,其特征在于,所述装置包括:
语音内容获取模块,用于在预设的语音输入入口获取语音内容;
语音处理模型确定模块,用于确定设置于浏览器端的预设的语音处理模型;
目标显示内容转换模块,用于通过所述语音处理模型将所述语音内容转换为目标显示内容;
目标显示内容展示模块,用于在预设显示区域展示所述目标显示内容。
7.根据权利要求6所述的装置,其特征在于,所述语音处理模型包括:语音识别模型,和/或,语音情感分析模型;所述目标显示内容包括:文字内容,和/或,情感展示内容;
所述语音处理模型确定模块、目标显示内容转换模块包括:
语音识别模型确定子模块,用于确定设置于所述浏览器端的语音识别模型;
文本内容转换子模块,用于通过所述语音识别模型将所述语音内容转换为文本内容,并将所述文本内容确定为目标显示内容;
和/或,
语音情感分析模型确定子模块,用于确定设置于所述浏览器端的语音情感分析模型;
情感类型分析子模块,用于通过所述语音情感分析模型分析所述语音内容的情感类型;
情感展示内容获取子模块,用于获取与所述情感类型具有对应关系的情感展示内容,并将所述情感展示内容确定为目标显示内容。
8.根据权利要求6或7任一所述的装置,其特征在于,所述浏览器端设置有模型导入模块;
所述装置还包括:
模型配置文件确定模块,用于通过所述模型导入模块得到模型配置文件;
导入模块,用于根据所述模型配置文件将服务器端的语音处理模型导入所述浏览器端。
9.根据权利要求8所述的装置,其特征在于,还包括:
保存模块,用于将所述语音处理模型保存在所述浏览器端。
10.根据权利要求6所述的装置,其特征在于,还包括:
发送模块,用于将所述目标显示内容发送至服务器端,以使所述服务器端存储所述目标显示内容。
CN201810443395.0A 2018-05-10 2018-05-10 一种语音处理方法及装置 Active CN108597522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810443395.0A CN108597522B (zh) 2018-05-10 2018-05-10 一种语音处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810443395.0A CN108597522B (zh) 2018-05-10 2018-05-10 一种语音处理方法及装置

Publications (2)

Publication Number Publication Date
CN108597522A true CN108597522A (zh) 2018-09-28
CN108597522B CN108597522B (zh) 2021-10-15

Family

ID=63637016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810443395.0A Active CN108597522B (zh) 2018-05-10 2018-05-10 一种语音处理方法及装置

Country Status (1)

Country Link
CN (1) CN108597522B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN112419471A (zh) * 2020-11-19 2021-02-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置及智能设备、存储介质
CN113408736A (zh) * 2021-04-29 2021-09-17 中国邮政储蓄银行股份有限公司 语音语义模型的处理方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764945A (zh) * 2003-03-25 2006-04-26 法国电信 分布式语音识别***
CN102215233A (zh) * 2011-06-07 2011-10-12 盛乐信息技术(上海)有限公司 信息***客户端及信息发布与获取方法
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
CN103685393A (zh) * 2012-09-13 2014-03-26 大陆汽车投资(上海)有限公司 车载语音操控终端和语音操控***及数据处理***
CN104125483A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 音频评论信息生成方法和装置,音频评论播放方法和装置
CN104183237A (zh) * 2014-09-04 2014-12-03 百度在线网络技术(北京)有限公司 用于便携式终端的语音处理方法及装置
CN104714937A (zh) * 2015-03-30 2015-06-17 北京奇艺世纪科技有限公司 一种评论信息发布方法及装置
CN105847099A (zh) * 2016-05-30 2016-08-10 北京百度网讯科技有限公司 基于人工智能的物联网实现***和方法
US20160239259A1 (en) * 2015-02-16 2016-08-18 International Business Machines Corporation Learning intended user actions
WO2016144841A1 (en) * 2015-03-06 2016-09-15 Apple Inc. Structured dictation using intelligent automated assistants
US20160292898A1 (en) * 2015-03-30 2016-10-06 Fujifilm Corporation Image processing device, image processing method, program, and recording medium
CN107180041A (zh) * 2016-03-09 2017-09-19 广州市动景计算机科技有限公司 网页内容评论方法及***
CN107967104A (zh) * 2017-12-20 2018-04-27 北京时代脉搏信息技术有限公司 对信息实体进行语音评论的方法和电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1764945A (zh) * 2003-03-25 2006-04-26 法国电信 分布式语音识别***
CN102215233A (zh) * 2011-06-07 2011-10-12 盛乐信息技术(上海)有限公司 信息***客户端及信息发布与获取方法
CN103685393A (zh) * 2012-09-13 2014-03-26 大陆汽车投资(上海)有限公司 车载语音操控终端和语音操控***及数据处理***
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
CN104125483A (zh) * 2014-07-07 2014-10-29 乐视网信息技术(北京)股份有限公司 音频评论信息生成方法和装置,音频评论播放方法和装置
CN104183237A (zh) * 2014-09-04 2014-12-03 百度在线网络技术(北京)有限公司 用于便携式终端的语音处理方法及装置
US20160239259A1 (en) * 2015-02-16 2016-08-18 International Business Machines Corporation Learning intended user actions
WO2016144841A1 (en) * 2015-03-06 2016-09-15 Apple Inc. Structured dictation using intelligent automated assistants
CN104714937A (zh) * 2015-03-30 2015-06-17 北京奇艺世纪科技有限公司 一种评论信息发布方法及装置
US20160292898A1 (en) * 2015-03-30 2016-10-06 Fujifilm Corporation Image processing device, image processing method, program, and recording medium
CN107180041A (zh) * 2016-03-09 2017-09-19 广州市动景计算机科技有限公司 网页内容评论方法及***
CN105847099A (zh) * 2016-05-30 2016-08-10 北京百度网讯科技有限公司 基于人工智能的物联网实现***和方法
CN107967104A (zh) * 2017-12-20 2018-04-27 北京时代脉搏信息技术有限公司 对信息实体进行语音评论的方法和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354362A (zh) * 2020-02-14 2020-06-30 北京百度网讯科技有限公司 用于辅助听障者交流的方法和装置
CN112419471A (zh) * 2020-11-19 2021-02-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置及智能设备、存储介质
CN112419471B (zh) * 2020-11-19 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置及智能设备、存储介质
CN113408736A (zh) * 2021-04-29 2021-09-17 中国邮政储蓄银行股份有限公司 语音语义模型的处理方法和装置
CN113408736B (zh) * 2021-04-29 2024-04-12 中国邮政储蓄银行股份有限公司 语音语义模型的处理方法和装置

Also Published As

Publication number Publication date
CN108597522B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
US10553201B2 (en) Method and apparatus for speech synthesis
US10726826B2 (en) Voice-transformation based data augmentation for prosodic classification
WO2020253509A1 (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
US10210867B1 (en) Adjusting user experience based on paralinguistic information
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及***
US10019988B1 (en) Adjusting a ranking of information content of a software application based on feedback from a user
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
CN113239147A (zh) 基于图神经网络的智能会话方法、***及介质
CN112632961A (zh) 基于上下文推理的自然语言理解处理方法、装置以及设备
CN108597522A (zh) 一种语音处理方法及装置
CN109376363A (zh) 一种基于耳机的实时语音翻译方法及装置
US20230401978A1 (en) Enhancing video language learning by providing catered context sensitive expressions
US20230267950A1 (en) Audio signal generation model and training method using generative adversarial network
JP2019091416A (ja) 人工知能応用を構築する方法及び装置
CN110288974B (zh) 基于语音的情绪识别方法及装置
CN113987149A (zh) 任务型机器人的智能会话方法、***及存储介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN112667787A (zh) 基于话术标签的智能应答方法、***及存储介质
CN111354344A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Boonstra Introduction to conversational AI
CN111462736B (zh) 基于语音的图像生成方法、装置和电子设备
KR20230025708A (ko) 오디오 제시 인터렉션을 갖는 자동화된 어시스턴트
Chung et al. A question detection algorithm for text analysis
CN113066473A (zh) 一种语音合成方法、装置、存储介质及电子设备
CN113409756A (zh) 语音合成方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant