CN109599094A - 声音美容与情感修饰的方法 - Google Patents
声音美容与情感修饰的方法 Download PDFInfo
- Publication number
- CN109599094A CN109599094A CN201811538693.4A CN201811538693A CN109599094A CN 109599094 A CN109599094 A CN 109599094A CN 201811538693 A CN201811538693 A CN 201811538693A CN 109599094 A CN109599094 A CN 109599094A
- Authority
- CN
- China
- Prior art keywords
- sound
- word
- emotion
- voice
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 34
- 230000003796 beauty Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims abstract description 13
- 230000004048 modification Effects 0.000 title claims abstract description 12
- 238000012986 modification Methods 0.000 title claims abstract description 12
- 230000036651 mood Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000003745 diagnosis Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种声音美容与情感修饰的方法,主要通过用户的需求,对语音进行声音处理以及情感修饰,改变原来语音的音色、音调、以及原来所包含的情感,并且也可以去噪使得所听到的语音更清晰易懂。不仅可以满足用户对想听声音的需求,并且也可通过调整对方说话的情绪使得自己更为舒适放松。
Description
技术领域
本发明属于情感、声音识别与声音处理领域,主要是将用户所听到的语音处理为含有用户想要情绪的、想听到声音类型的语音,同时也需要对口音以及不清楚的地方进行去噪使得用户听的更清楚,满足用户需求,提高用户的满意度。
背景技术
随着人工智能语音识别领域的迅速发展,Google、讯飞等企业在语音识别领域已经做出了很大的成果,可以通过识别语音将其转化为文字,再转化为其他语言;目前家居、电器、手机等都可以通过语音控制其行为,例如可以通过声音控制空调的开关,直接通过Siri告知自己想打给的联系人,会自动拨通,这些都是语音识别的一步步发展。
每个人都有不顺心的时候,如果这时还受到别人严厉的批评,会给他再加一层压力。并且我们作为有情感的高等生物,希望在一些特定的情景之下听到特殊情感表达的话语,或是一些不同音色、音调的声音,所以将人的情感与声音识别与处理相结合,对用户是一种很好的享受。
在日常的通话中,我们经常会遇到由于方言、普通话不标准或是周围噪音的影响,造成我们的通话有些许困难或是障碍,为了解决这样的问题,我们可以通过声音美容来增强效果。
发明内容
技术问题:本发明公开了一种声音美容与情感修饰的方法,主要通过用户的需求,对语音进行声音处理以及情感修饰,改变原来语音的音色、音调、以及原来所包含的情感,并且也可以去噪使得所听到的语音更清晰易懂。
技术方案:为了解决上述背景技术中所存在的问题,本发明提出一种声音美容与情感修饰的方法。首先,需要采集声音数据,将每个字都通过语音识别识别出来,注意对带有口音的语音的识别;然后根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇;其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调;然后根据以上的数据积累,对声音进行处理,通过语调、声音强弱、间隔等改变原语音的情绪,并且可通过收集特殊人的声音信息对声音进行美容,使其听起来像某位明星的声音;最后,可对最后输出的结果消除白噪音,或增强声音的辨识度。本发明不仅可以满足用户对想听声音的需求,并且也可通过调整对方说话的情绪使得自己更为舒适放松。
体系结构
(1)通过语音识别采集声音数据,对于有口音的声音数据要进行模糊识别(若包含国内外的方言,则需要在过程中查询方言语音数据库,来较为精确地确定该用户所说话的语义以及词义),将输入的声音转化为特征量方便进一步处理。
(2)根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇,其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调。可以根据关键词之间的相对强度识别出模糊语句的大概意思,词语与词语之间的间隔可以避免不同词连接在一起有不同的意思,有助于分辨哪些字应该组成一个词,并表达出这个词的含义。对于每句话、每个词甚至每个字,语调以及强弱不同,都能表达出不一样的情感,我们可以根据这个基础来确定用户所听到或者自己说的话是饱含一种怎样的情感,并且也可以根据这些因素来改变语音使得其具有用户所需要的情绪。具体做法根据在存储有读音与音素之间的转换规则或读音与音素串之间的转换规则的转换规则的存储部内存储的转换规则,将在存储有识别词的读音的识别此存储部内存储的识别词的读音转换成音素串。再提取出标准模式,最后进行连接。对识别词读音多的情况下也非常适用。
(3)根据以上的数据积累,对声音进行处理,通过语调、声音强弱、间隔等改变原语音的情绪,并且可通过收集特殊人的声音信息对声音进行美容,使其听起来像某位明星的声音;详细一点说,采集一些特殊声音的数据,例如某位主持人声音的音调、音频、音色、语调等等,可以根据得到的这些数据来调整用户希望改变的那一段语音,对它的各种值进行修改,从而尽最大程度上满足用户需要。即详细解释为:对所拥有的声音数据存为数据库,将他们的一些特征都转化为参数存入,在用户要求转变时,即可通过改变这些参数来改变声音的收听效果;我们不仅仅需要建立声音转化模型,情感转化模型也是必须的。先获取训练数据(可根据动态时间规整算法对输入输出数据做时长对齐),再对其进行预处理,提取训练数据的情绪影响因素(包括字词的音调、说话间隔等),根据初始化声音转换模型的参数,训练模型建立,因为该模型可以是神经网络模型,由编码器组成,每个编码器代表某一类相似原发音人语音信息的本证空间,需要对其语音信号的频谱特征进行变换。
(其中表示输入编码层i的第n个本征空间模型的输出,表示输入层i的
第n个本征空间模型对于的网络参数,δ表示激励函数)。
(4)对最后输出的结果消除影响效果的各种噪音噪音(白噪音或其他有色噪音),或增强声音的辨识度。通过信号处理消除噪音,可通过在声学上输出与向可移动体的空间里面泄露的噪音的相位具有相反相位的声音来消除噪音。使得声音美容和情绪化之后的语音更加清晰,让用户听觉上也更加舒适。
有益效果
(1)有利于用户调节自身情绪,营造舒适的听觉氛围;
(2)给用户制造新的娱乐环境,使得自己可以通过自己的需求改变他人或自己的声音以及声音中蕴含的情感;
(3)一定程度上可以促进互相通话的两人的交流。
附图说明
图1是声音美容与情感修饰的方法的实现流程图。
具体实施方式
(1)通过语音识别采集声音数据,对于有口音的声音数据要进行模糊识别(若包含国内外的方言,则需要在过程中查询方言语音数据库,来较为精确地确定该用户所说话的语义以及词义),将输入的声音转化为特征量方便进一步处理。
(2)根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇,其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调。可以根据关键词之间的相对强度识别出模糊语句的大概意思,词语与词语之间的间隔可以避免不同词连接在一起有不同的意思,有助于分辨哪些字应该组成一个词,并表达出这个词的含义。对于每句话、每个词甚至每个字,语调以及强弱不同,都能表达出不一样的情感,我们可以根据这个基础来确定用户所听到或者自己说的话是饱含一种怎样的情感,并且也可以根据这些因素来改变语音使得其具有用户所需要的情绪。具体做法根据在存储有读音与音素之间的转换规则或读音与音素串之间的转换规则的转换规则的存储部内存储的转换规则,将在存储有识别词的读音的识别此存储部内存储的识别词的读音转换成音素串。再提取出标准模式,最后进行连接。对识别词读音多的情况下也非常适用。
(3)根据以上的数据积累,对声音进行处理,通过语调、声音强弱、间隔等改变原语音的情绪,并且可通过收集特殊人的声音信息对声音进行美容,使其听起来像某位明星的声音;详细一点说,采集一些特殊声音的数据,例如某位主持人声音的音调、音频、音色、语调等等,可以根据得到的这些数据来调整用户希望改变的那一段语音,对它的各种值进行修改,从而尽最大程度上满足用户需要。即详细解释为:对所拥有的声音数据存为数据库,将他们的一些特征都转化为参数存入,在用户要求转变时,即可通过改变这些参数来改变声音的收听效果;我们不仅仅需要建立声音转化模型,情感转化模型也是必须的。先获取训练数据(可根据动态时间规整算法对输入输出数据做时长对齐),再对其进行预处理,提取训练数据的情绪影响因素(包括字词的音调、说话间隔等),根据初始化声音转换模型的参数,训练模型建立,因为该模型可以是神经网络模型,由编码器组成,每个编码器代表某一类相似原发音人语音信息的本证空间,需要对其语音信号的频谱特征进行变换。
(其中表示输入编码层i的第n个本征空间模型的输出,表示输入层i的第
n个本征空间模型对于的网络参数,δ表示激励函数)。
(4)对最后输出的结果消除影响效果的各种噪音噪音(白噪音或其他有色噪音),或增强声音的辨识度。通过信号处理消除噪音,可通过在声学上输出与向可移动体的空间里面泄露的噪音的相位具有相反相位的声音来消除噪音。使得声音美容和情绪化之后的语音更加清晰,让用户听觉上也更加舒适。
Claims (1)
1.本发明公开了一种声音美容与情感修饰的方法,主要通过用户的需求,对语音进行声音处理以及情感修饰,改变原来语音的音色、音调、以及原来所包含的情感,并且也可以去噪使得所听到的语音更清晰易懂;
不仅可以满足用户对想听声音的需求,并且也可通过调整对方说话的情绪使得自己更为舒适放松;
(1)通过语音识别采集声音数据,对于有口音的声音数据要进行模糊识别(若包含国内外的方言,则需要在过程中查询方言语音数据库,来较为精确地确定该用户所说话的语义以及词义),将输入的声音转化为特征量方便进一步处理;
(2)根据关联词之间的相对强度以及词语与词语之间的间隔标记出重点词汇,其次根据每个词语的语调、声音的强弱以及句子整体的说话方式奠定情感基调;
可以根据关键词之间的相对强度识别出模糊语句的大概意思,词语与词语之间的间隔可以避免不同词连接在一起有不同的意思,有助于分辨哪些字应该组成一个词,并表达出这个词的含义;
对于每句话、每个词甚至每个字,语调以及强弱不同,都能表达出不一样的情感,我们可以根据这个基础来确定用户所听到或者自己说的话是饱含一种怎样的情感,并且也可以根据这些因素来改变语音使得其具有用户所需要的情绪;
具体做法根据在存储有读音与音素之间的转换规则或读音与音素串之间的转换规则的转换规则的存储部内存储的转换规则,将在存储有识别词的读音的识别此存储部内存储的识别词的读音转换成音素串;
再提取出标准模式,最后进行连接;
对识别词读音多的情况下也非常适用;
(3)根据以上的数据积累,对声音进行处理,通过语调、声音强弱、间隔等改变原语音的情绪,并且可通过收集特殊人的声音信息对声音进行美容,使其听起来像某位明星的声音;详细一点说,采集一些特殊声音的数据,例如某位主持人声音的音调、音频、音色、语调等等,可以根据得到的这些数据来调整用户希望改变的那一段语音,对它的各种值进行修改,从而尽最大程度上满足用户需要;
即详细解释为:对所拥有的声音数据存为数据库,将他们的一些特征都转化为参数存入,在用户要求转变时,即可通过改变这些参数来改变声音的收听效果;我们不仅仅需要建立声音转化模型,情感转化模型也是必须的;
先获取训练数据(可根据动态时间规整算法对输入输出数据做时长对齐),再对其进行预处理,提取训练数据的情绪影响因素(包括字词的音调、说话间隔等),根据初始化声音转换模型的参数,训练模型建立,因为该模型可以是神经网络模型,由编码器组成,每个编码器代表某一类相似原发音人语音信息的本证空间,需要对其语音信号的频谱特征进行变换
(其中表示输入编码层i的第n个本征空间模型的输出,表示输入层i的第
n个本征空间模型对于的网络参数,δ表示激励函数);
(4)对最后输出的结果消除影响效果的各种噪音噪音(白噪音或其他有色噪音),或增强声音的辨识度;
通过信号处理消除噪音,可通过在声学上输出与向可移动体的空间里面泄露的噪音的相位具有相反相位的声音来消除噪音;
使得声音美容和情绪化之后的语音更加清晰,让用户听觉上也更加舒适。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811538693.4A CN109599094A (zh) | 2018-12-17 | 2018-12-17 | 声音美容与情感修饰的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811538693.4A CN109599094A (zh) | 2018-12-17 | 2018-12-17 | 声音美容与情感修饰的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109599094A true CN109599094A (zh) | 2019-04-09 |
Family
ID=65962684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811538693.4A Pending CN109599094A (zh) | 2018-12-17 | 2018-12-17 | 声音美容与情感修饰的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599094A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和*** |
CN110288983A (zh) * | 2019-06-26 | 2019-09-27 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
CN111489739A (zh) * | 2020-04-17 | 2020-08-04 | 杭州嘉楠耘智信息科技有限公司 | 音素识别方法、装置及计算机可读存储介质 |
CN111554317A (zh) * | 2020-05-11 | 2020-08-18 | 江苏美的清洁电器股份有限公司 | 一种语音播报方法、设备、计算机存储介质及*** |
CN112837700A (zh) * | 2021-01-11 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种情感化的音频生成方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120089396A1 (en) * | 2009-06-16 | 2012-04-12 | University Of Florida Research Foundation, Inc. | Apparatus and method for speech analysis |
US20140067397A1 (en) * | 2012-08-29 | 2014-03-06 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
CN104811565A (zh) * | 2015-04-30 | 2015-07-29 | 努比亚技术有限公司 | 实现变声通话的方法及终端 |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、***及终端设备 |
-
2018
- 2018-12-17 CN CN201811538693.4A patent/CN109599094A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120089396A1 (en) * | 2009-06-16 | 2012-04-12 | University Of Florida Research Foundation, Inc. | Apparatus and method for speech analysis |
US20140067397A1 (en) * | 2012-08-29 | 2014-03-06 | Nuance Communications, Inc. | Using emoticons for contextual text-to-speech expressivity |
CN104811565A (zh) * | 2015-04-30 | 2015-07-29 | 努比亚技术有限公司 | 实现变声通话的方法及终端 |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、***及终端设备 |
Non-Patent Citations (2)
Title |
---|
袁杰: "基于ANN和GMM融合的语音情感识别方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈晓东: "基于卷积神经网络的语音情感识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和*** |
CN110288983A (zh) * | 2019-06-26 | 2019-09-27 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
CN110288983B (zh) * | 2019-06-26 | 2021-10-01 | 上海电机学院 | 一种基于机器学习的语音处理方法 |
CN111489739A (zh) * | 2020-04-17 | 2020-08-04 | 杭州嘉楠耘智信息科技有限公司 | 音素识别方法、装置及计算机可读存储介质 |
CN111554317A (zh) * | 2020-05-11 | 2020-08-18 | 江苏美的清洁电器股份有限公司 | 一种语音播报方法、设备、计算机存储介质及*** |
CN111554317B (zh) * | 2020-05-11 | 2024-04-09 | 美智纵横科技有限责任公司 | 一种语音播报方法、设备、计算机存储介质及*** |
CN112837700A (zh) * | 2021-01-11 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种情感化的音频生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599094A (zh) | 声音美容与情感修饰的方法 | |
Cooke et al. | Evaluating the intelligibility benefit of speech modifications in known noise conditions | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
Rachman et al. | DAVID: An open-source platform for real-time transformation of infra-segmental emotional cues in running speech | |
CN108847249A (zh) | 声音转换优化方法和*** | |
CN109189980A (zh) | 与用户进行语音交互的方法和电子设备 | |
Song et al. | ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems | |
CN104538043A (zh) | 一种通话中实时情感提示装置 | |
US11289082B1 (en) | Speech processing output personalization | |
WO2020171868A1 (en) | End-to-end speech conversion | |
DE112021001064T5 (de) | Vorrichtungsgerichtete Äußerungserkennung | |
CN107945790A (zh) | 一种情感识别方法和情感识别*** | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
EP3033140A1 (en) | Device for language processing enhancement in autism | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
CN110874137A (zh) | 一种交互方法以及装置 | |
CN112562681B (zh) | 语音识别方法和装置、存储介质 | |
EP1280137B1 (en) | Method for speaker identification | |
Aryal et al. | Articulatory-based conversion of foreign accents with deep neural networks | |
Luong et al. | Laughnet: synthesizing laughter utterances from waveform silhouettes and a single laughter example | |
CN114283820A (zh) | 多角色语音的交互方法、电子设备和存储介质 | |
Johar | Paralinguistic profiling using speech recognition | |
Murphy et al. | Rd as a Control Parameter to Explore Affective Correlates of the Tense-Lax Continuum. | |
CN112863476A (zh) | 个性化语音合成模型构建、语音合成和测试方法及装置 | |
CN112885326A (zh) | 个性化语音合成模型创建、语音合成和测试方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190409 |