CN103003876A - 修改经由声音通道的对话中的语音质量 - Google Patents
修改经由声音通道的对话中的语音质量 Download PDFInfo
- Publication number
- CN103003876A CN103003876A CN2011800347948A CN201180034794A CN103003876A CN 103003876 A CN103003876 A CN 103003876A CN 2011800347948 A CN2011800347948 A CN 2011800347948A CN 201180034794 A CN201180034794 A CN 201180034794A CN 103003876 A CN103003876 A CN 103003876A
- Authority
- CN
- China
- Prior art keywords
- spoken language
- voice quality
- language
- spoken
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004048 modification Effects 0.000 title claims description 10
- 238000012986 modification Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000033764 rhythmic process Effects 0.000 claims description 20
- 230000036651 mood Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 13
- 230000002996 emotional effect Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 206010027940 Mood altered Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007510 mood change Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了用于修改经由声音通道的对话中的语音质量的技术。举例而言,一种用于修改相关联于可经由声音通道而传输的口语话语的语音质量的方法包含以下步骤。在该口语话语的预期接收者接收该口语话语之前获取该口语话语。判定该口语话语的现有语音质量。比较该口语话语的该现有语音质量与相关联于至少一个先前获取的口语话语的至少一个所需语音质量,以判定该现有语音质量是否实质上匹配于该所需语音质量。当该现有语音质量未实质上匹配于该所需语音质量时,修改该口语话语的至少一个特性,以将该口语话语的该现有语音质量改变为该所需语音质量。向该预期接收者呈现具有该所需语音质量的该口语话语。
Description
技术领域
本发明大体上涉及语音信号处理,且更具体而言,涉及修改经由声音通道的对话中的语音质量。
背景技术
在差旅费用昂贵且成本削减幅度增加的形势下,更多企业经由电话及其它远程方法进行商务(business),而不是经由面对面会议进行商务。因此,需要在这些远程通信中给人“留下好形象”,因为此做法已变成进行商务的一般方式,且个人需要在仅允许访问声音通道的情况下建立印象。
然而,在任何特定一日或在该日的任何特定时刻,对话者的声音可能不处于“最佳状态”。说话者可能想要进行令人信服的销售推销或吸引人的介绍,但不能自然地唤起其想要的热情度以听起来有权威、精力充沛等等。
一些用户可能由于残疾(诸如,失语症、自闭症或失聪)而不能够达到在特定场景中所需要的韵律范围(prosodic range)。
替代方案包括经由文字进行通信,及使用文字提示以指示情绪、精力等等。但,文字并非总是用来进行商务的理想通道。
另一选项涉及面对面会议,其中可利用其它特性(模仿、手势等等)以产生要点。但,如上面所提及的,面对面会议在物流方面(logistically)并非总是可能的。
发明内容
本发明的原理提供了用于修改经由声音通道的对话中的语音质量的技术。本发明的技术也允许说话者选择性地管理这种修改。
举例而言,根据本发明的一个方面,一种用于修改关联于可经由声音通道传输的口语话语的语音质量的方法包含以下步骤。在该口语话语的预期接收者接收该口语话语之前获取该口语话语。判定该口语话语的现有语音质量。比较该口语话语的该现有语音质量与相关联于至少一个先前获取的口语话语的至少一个所需语音质量,以判定该现有语音质量是否实质上匹配于该所需语音质量。当该现有语音质量未实质上匹配于该所需语音质量时,修改该口语话语的至少一个特性,以将该口语话语的该现有语音质量改变为该所需语音质量。向该预期接收者呈现具有该所需语音质量的该口语话语。
该口语话语的语音质量可包含该口语话语的可感知语气或情绪(例如,快乐、悲伤、自信、热情等等)。该口语话语的语音质量可包含该口语话语的可感知意图(例如,疑问、命令、讽刺、反语等等)。
可基于该口语话语的说话者的偏好(例如,可经由用户接口而选择的)而手动地选择该所需语音质量。
可基于相关联于该口语话语的实质性上下文及关于该口语话语对该预期接收者应当听起来如何的判定而自动地选择该所需语音质量。在一个实施例中,可通过分析该口语话语的内容且针对该口语话语应当听起来如何以达成目的来判定声音匹配而自动地选择该所需语音质量。可基于先前针对该口语话语的该说话者所建立的一个或多个声音模型而判定声音匹配。可经由后台数据收集(例如,对该说话者实质上透明的)或经由显式数据收集(例如,在说话者明确地知道及/或参与的情况下)而建立该一个或多个声音模型中的至少一个。
该方法也可包含该说话者标记(例如,经由用户接口)一个或多个口语话语。可分析这些已标记口语话语以判定后续所需语音质量。
该方法也可包含当判定该口语话语的内容含有不良语言时编辑该口语话语的内容。
在该修改步骤中所修改的该口语话语的该至少一个特性可包含相关联于该口语话语的韵律(prosody)。在一个实施例中,可在传输该口语话语之前(例如,在声音通道的说话者端)修改该口语话语的该至少一个特性。在另一实施例中,可在传输该口语话语之后(例如,在该声音通道的接收者端)修改该口语话语的该至少一个特性。
本发明的其它方面包含用于施实及/或实现上述方法步骤的装置及制品。
本发明的这些及其它特征、目的及优势将从应结合附图阅读的本发明的说明性实施例的以下详细描述而变得明显。
附图说明
图1为根据本发明的一实施例的用于创建针对特定说话者的声音模型的***的图。
图2为根据本发明的一实施例的用于以适当口语语言替换不适当口语语言的***的图。
图3为根据本发明的一实施例的用于选择所需韵律特性的用户接口的图。
图4为根据本发明的一实施例的用于处理语音信号的方法的图。
图5为用于实施根据本发明的一个或多个实施例的一个或多个步骤及/或组件的计算***的图。
具体实施方式
本文将在电话对话的上下文中描述本发明的原理。然而,应了解,本发明的原理不限于用于电话对话,而是可根据需要修改语音质量的任何合适声音通道而应用。为此,可对所示实施例进行在本发明的范围内的众多修改。也就是说,不预期或不应推断对于本文所描述的特定实施例的限制。
如本文所使用的,术语“韵律”为口语话语的特性,且可指语音的节奏、重音及声调中的一个或多个。韵律可反映说话者或话语的各种特征,包括(但不限于):说话者的情绪状态;话语是陈述、疑问还是命令;说话者是说反语或带讽刺;强调、对比及聚焦;或可能未被语法或词汇选择所编码的其它语言元素。在声学方面,口头语言的“韵律”涉及语音声音的音节长度、响度、音调及共振峰频率的变化。
如本文所使用的,词组“语音质量”旨在一般地指语音的可感知的语气或情绪(例如,快乐语音、悲伤语音、热情语音、平和语音等等),而非指在由于低位速率编码及包传输等的传输错误、噪声、失真及损失的意义上的语音质量。此外,如本文所使用的,“语音质量”可指语音的可感知的意图,例如,命令、疑问、讽刺、反语等等,该意图的传达方式不同于通过语法及词汇而传达意图的方式。
应理解,当本文陈述获取、比较、修改、呈现或以某种其它方式操纵口语话语时,这通常被理解为意味着使用语音信号输入、处理及输出技术而获取、比较、修改、呈现或以某种其它方式操纵代表口语话语的一个或多个电信号。
本发明的说明性实施例通过使用声音变形(更改)技术以强调语音样本中的关键点且选择性地转换说话者的声音以展现一种质量而非另一种质量(仅举例而言,将平和语音转换成热情语音)来克服上文在背景技术部分中所提及的缺点,以及其它缺点。
这使得用户能够使用电话的声音通道来更有效地进行商务,即使当其语气(如在其声音中所显现的)的其声音不处于最佳状态时也如此。
此外,本发明的说明性实施例允许用户指示其想要使其声音在对话期间听起来如何。***也可在给定口语材料的上下文的情况下,自动地判定用户应适当地听起来如何。这可通过如下方式实现:分析说话者所说的内容,且接着针对说话者应听起来如何以更适当地产生要点来建立“声音匹配”。
此外,本发明的说明性实施例也可自动地分析如由说话者所标记的先前的“成功”或“不成功”对话。接着,可将“成功”对话的韵律及语音质量映射至关于相似主题的未来对话。
此外,本发明的说明性实施例也可创建反映情绪状态(例如,“快乐声音”、“严肃声音”等等)的不同声音模型。
用户可事先地(a priori)指示其想要使其声音在特定对话中听起来如何(例如,热情、失望等等)。
本发明的说明性实施例也可以在给定口语材料的上下文的情况下,自动地判定用户应适当地听起来如何。这可通过如下方式实现:分析说话者所说的内容(使用语音识别及文本分析),且接着针对说话者应听起来如何以更适当地产生要点来创建“声音匹配”。
为了建立“目标声音”的基准,用户建立在所需模式(mode)(例如,“愉快”、“严肃”等等)中其声音的模型。由此,用户具有定制的声音模型集合,其中被修改的唯一维度为“感知的情绪”。
在创建反映不同情绪状态的声音模型时的另一选项可以作为“后台”(background)数据收集,而非“显式”数据收集来进行。用户可依据其正常活动而说话,且“标记”其在给定段期间是否感觉“快乐”或是“悲伤”。在用户感知其为“快乐”、“悲伤”等等时所产生的语音段可用于填充“情绪语音”数据库。
另一方法需要自动地识别“快乐声音”、“严肃声音”等等。***在延长时段中自动地监视及记录用户。使用与不同语气相关联的声学特征而自动地检测“快乐语音”、“严肃语音”等等的段。
通过使用词组拼接(splice)技术,可创建反映用户所说内容的“愉快声音”版本或更“严肃”版本的话语字符串。
可使用语音识别而自动地识别用户所说的话语,且接着重新合成话语以表现用户选择表现的语气/韵律。
在用户不能创建“快乐语音样本”或“严肃语音样本”的数据库及清单(repertoire)的状况下,***可使用规则产生方法来重新合成用户的语音以反映“快乐”或“悲伤”。举例而言,可强加增加的基频偏移以创建更“生动的”语音。
除了修改韵律以外,此技术也可编辑用户所说的内容。举例而言,如果用户使用了不适当的语言,则可重新合成句子,从而消除不当词组,或用更可接受的同义词进行替换。
一旦已创建表示若干模式中的用户声音的模型,用户可自选项范围进行选择,以判定其在特定对话中选择表现哪种声音,或其在该对话的特定部分中选择表现哪种声音。这可使用在用户接口上的“按钮”(诸如,“快乐声音”、“严肃声音”等等)而被例示。可在选择之前为用户播放每一可用语气中的语音字符串的样本。
本发明的说明性实施例可被部署以帮助具有受损韵律变化的说话者。这些群体可包括:声音天生单调的个体、患有各种类型的失语症的个体、失聪个体、或患有自闭症的个体。在一些情况下,他们可能不能够修改其韵律,即使他们知道其正设法达成何种目标。在其它情况下,这些个体可能未意识到“快乐语音”与关联的声音质量之间的相关性(例如,自闭症说话者)。选择标记“快乐语音”且由此自动地引入不同韵律变化的“按钮”的能力可能是需要的。
应注意,对于后一群组,这些个体自身可能不能够针对“当我快乐/悲伤/等等时,我的声音便是如此”来“训练”***。在这些状况下,引入改变其语音韵律的由规则控制的修改,且由此重新合成其语音。
图1示出根据本发明的一实施例的用于针对特定说话者创建声音模型的***。如图所示,说话者108经由电话通信。应了解,电话***可能为无线的或有线的。本发明的原理不旨在限于用于接收/传输语音信号的声音通道或通信***的类型。
说话者的语音经由语音数据收集器101而被收集且经由自动语音识别器102而传递,在自动语音识别器102中语音被转录成文本。语音数据收集器101可为用于正被***处理的语音的存储库。自动语音识别器102可利用任何常规的自动语音识别(ASR)技术以将语音转录成文本。
语音分析器103将语音分析应用于由自动语音识别器102输出的文本。语音分析的示例可包括(但不限于)判定正讨论的主题、说话者的身分、说话者的性别、说话者的情绪、语音相对于背景非语音噪声的量及位置,等等。
启动自动语气检测器104以判定说话者的声音是否正传输为“快乐”、“悲伤”、“无聊”等等。也就是说,自动语气检测器104判定由用户108所发出的语音的“语音质量”。可通过检查语音信号中的多个特征(包括但不限于精力、音调及韵律)来检测语气。美国专利第7,373,301号、美国专利第7,451,079号及美国专利公开第2008/0040110号(其公开内容的全文以引用方式并入本文中)中描述了可应用于检测器104中的情绪/语气检测技术的示例。
经由韵律特征提取器105而提取关联于说话者的语气的韵律特征。如果在说话者的清单中不存在合适的“语气词组”,则经由词组拼接创建器106而创建反映所需目标语气的新词组。如果在说话者的清单中存在反映所需语气的合适词组,则使用韵律特征增强器107而将这些“语气增强”迭加于现有词组上。美国专利第6,961,704号、美国专利第6,873,953号及美国专利第7,069,216号(其公开内容的全文以引用方式并入本文中)中描述了可应用于模块105、106及107中的韵律特征提取、词组拼接及特征增强的技术的示例。
图2示出根据本发明的一实施例的用于以适当口语语言替换不适当口语语言的***。如图所示,说话者206经由电话而通信。再次地,本发明的原理不限于任何特定类型的电话***。说话者的语音系经由语音数据收集器201(相同或相似于图1中的101)而被收集且经由自动语音识别器202(相同或相似于图1中的102)而被传递,在自动语音识别器202中语音被转录成文本。语音分析器203(相同或相似于图1中的103)将语音分析应用于文本输出。
接着,文本分析器204分析文本以判定是否已使用不适当语言(例如,亵渎、侮辱等等)。在识别了不适当语言的情况下,经由自动化文本替换模块205而引入适当文本以替换不适当语言。接着,经由常规的文本到语音技术而在模块205中将已修改文本重新合成在说话者的声音中。美国专利第7,139,031号、美国专利第6,807,563号、美国专利第6,972,802号及美国专利第5,521,816号(其公开内容的全文以引用方式并入本文中)中描述了可应用于模块204及205中的关于不适当语言的文本分析及替换的技术的示例。
图3示出根据本发明的一实施例的用于选择所需韵律特性的用户接口。在电话上的说话者303正进行对话,且知道其想要在此特定通话中听起来“快乐”或“严肃”。说话者启动其电话设备(用户接口)301上的一个或多个按钮(按键),该一个或多个按钮(按键)将自动地将其声音变形为其所需目标韵律。词组拼接选择器302提取适当韵律词组拼接,且代替用户想要修改的当前词组。
图3的方法在两个步骤中操作。第一,词组分段器检测要分段的适当词组。美国专利公开第2009/0259471号、美国专利第5,797,123号及美国专利第5,806,021号(其公开内容的全文以引用方式并入本文中)中描述了可用于此处的词组分段器的示例。第二,一旦词组被分段,基于用户所需的建议情绪而改变每一段内的情绪。美国专利第5,559,927号、美国专利第5,860,064号及美国专利第7,379,871号(其公开内容的全文以引用方式并入本文中)中描述了可用于此处的情绪更改的示例。
本发明的说明性实施例也允许用户标记(注释)用户自身感知为快乐、悲伤等等的所产生的语音段。这在图3中示出,其中用户303可再次使用其电话(用户接口)301上的一个或多个按钮(按键)以表示开始时间及停止时间,用户在该开始时间与停止时间之间的口语话语将被选择以供分析。这允许许多益处。第一,举例而言,自用户收集反馈会允许创建情绪数据库304。第二,举例而言,可执行错误分析304以判定***创建了不同于用户假设的情绪的情绪的地方,以在未来改进语音的情绪创建。美国专利第7,506,262号及美国专利公开第2005/0273700号(其公开内容的全文以引用方式并入本文中)中描述了可用于此处的语音注释技术的示例。
图4示出根据本发明的一实施例的用于处理语音信号的方法。在步骤400中,拼接及处理由人员在电话上所产生的语音段。在步骤401中,判定是否可分类语音段的“情绪内容”。如果可分类,则在步骤402中,判定词组的情绪内容是否匹配于在此上下文中所需要的情绪内容,及/或词组的情绪内容是否匹配于用户指示为其针对此通话的所需韵律信息传递的情绪内容。
如果在步骤401中不能分类情绪内容,则***继续处理下一语音段。
如果情绪内容符合此特定对话的需要(如在步骤402中所判定的),则***在步骤400中处理下一语音段。如果情绪内容(如在步骤402中所判定的)不匹配于此对话所需的要求,则***在步骤403中检查是否存在用韵律适当的段实时地替换此语音段的机制。如果存在替换该语音段的机制及适当语音段,则在步骤404中进行替换。如果不存在可替换原始语音段的立即可用语音段,则在步骤405中将语音发送至离线***以产生替换,以用于在未来以适当韵律内容播放此消息。
所属技术领域的技术人员知道,本发明可以实现为***、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“***”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本文参照本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(article ofmanufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
再次参看图1至图4,这些图中的图示说明根据本发明的各种实施例的***、方法及计算机程序产品的可能实施方式的架构、功能及操作。在此方面,流程图或方块图中每一块可代表代码的一模块、段或部分,其包含用于实施指定逻辑功能的一个或多个可执行指令。也应注意,在一些替代实施方式中,块中所提到的功能可不以图中所提到的次序发生。举例而言,取决于所涉及的功能,被示为相继的两个块实际上可基本上同时地执行,或这些块有时可以相反次序执行。也应注意,方块图及/或流程图图示中的每一块以及方块图及/或流程图图示中的块的组合可由执行指定功能或动作的基于专用硬件的***或专用硬件与计算机指令的组合来实施。
因此,举例而言,如图1至4所描绘的本发明的技术也可包括(如本文所描述的)提供一***,其中该***包括不同的模块(例如,包含软件、硬件或软件及硬件的模块)。仅举例而言,这些模块可包括(但不限于)语音数据收集器模块、自动语音识别器模块、语音分析模块、自动语气检测模块、文本分析模块、自动化语音替换模块、韵律特征提取器模块、词组拼接创建器模块、韵律特征增强器模块、用户接口模块、及词组拼接选择器模块。举例而言,这些及其它模块可被配置为执行在图1至4的上下文中所描述及说明的步骤。
一个或多个实施例可使用在通用计算机或工作站上执行的软件。参看图5,这种实施方式500采用(例如)处理器502、存储器504、以及(例如)由显示器506及键盘508形成的输入/输出接口。本文所使用的术语“处理器”旨在包括任何处理器件,诸如,包括CPU(中央处理单元)及/或其它形式的处理电路的处理器件。另外,术语“处理器”可指一个以上个别处理器。术语“存储器”旨在包括相关联于处理器或CPU的存储器,诸如,RAM(随机存取存储器)、ROM(只读存储器)、固定存储器器件(例如,硬盘驱动器)、可移除存储器器件(例如,软盘)、闪存等。另外,本文所使用的词组“输入/输出接口”旨在包括(例如)用于将数据输入至处理单元的一个或多个机制(例如,键盘或鼠标),及用于提供相关联于处理单元的结果的一个或多个机制(例如,显示器或打印机)。
处理器502、存储器504以及诸如显示器506及键盘508的输入/输出接口可(例如)经由作为数据处理单元512的部分的总线510而互连。合适的互连(例如,经由总线510)也可提供至网络接口514(诸如,网络卡,其可被提供以与计算机网络介接)及介质接口516(诸如,软盘或CD-ROM驱动器,其可被提供以与介质518介接)。
适于存储及/或执行程序代码的数据处理***可包括经由***总线510而直接或间接耦接至存储器组件504的至少一个处理器502。所述存储器组件可包括在程序代码的实际执行期间所采用的本机存储器、大容量存储器、及高速缓存,所述高速缓存提供至少某些程序代码的暂时存储,以便减少在执行中必须自大容量存储器获取程序代码的次数。
输入/输出或I/O器件(包括(但不限于)键盘508、显示器506、指点设备等)可直接(诸如,经由总线510)耦接至***,或经由介于其间的I/O控制器(为了清晰起见而省略)而耦接至***。
网络适配器(诸如,网络接口514)也可耦接至***,以使得数据处理***能够经由介于其间的私有或公共网络而耦接至其它数据处理***或远程打印机或存储器件。调制解调器、线缆调制解调器及以太网络卡仅仅为当前可用的网络配接器类型中的少数几种。
如本文所使用的,“服务器”包括运行服务器程序的物理数据处理***(例如,如图5所示的***512)。应理解,此物理服务器可能包括或可能不包括显示器及键盘。
可了解且应理解,可以多种不同方式来实现上文所描述的本发明的例示性实施例。给定本文所提供的本发明的教示,本领域的技术人员将能够预期本发明的其它实施方式。确实,尽管本文已参照附图描述了本发明的说明性实施例,但应理解,本发明不限于这些精确实施例,且本领域的技术人员可在不脱离本发明的范围或精神的情况下进行各种其它改变及修改。
Claims (25)
1.一种用于修改相关联于可经由声音通道而传输的口语话语的语音质量的方法,其包含以下步骤:
在该口语话语的预期接收者接收该口语话语之前获取该口语话语;
判定该口语话语的现有语音质量;
比较该口语话语的该现有语音质量与相关联于至少一个先前获取的口语话语的至少一个所需语音质量,以判定该现有语音质量是否实质上匹配于该所需语音质量;
当该现有语音质量未实质上匹配于该所需语音质量时,修改该口语话语的至少一个特性,以将该口语话语的该现有语音质量改变为该所需语音质量;以及
向该预期接收者呈现具有该所需语音质量的该口语话语。
2.如权利要求1的方法,其中该口语话语的语音质量包含该口语话语的可感知语气或情绪。
3.如权利要求1的方法,其中该口语话语的语音质量包含该口语话语的可感知意图。
4.如权利要求1的方法,其中基于该口语话语的说话者的偏好而手动地选择该所需语音质量。
5.如权利要求1的方法,其中基于相关联于该口语话语的实质性上下文及关于该口语话语对该预期接收者应当听起来如何的判定而自动地选择该所需语音质量。
6.如权利要求5的方法,其中通过分析该口语话语的内容且针对该口语话语应当听起来如何以达成一目的来判定声音匹配而自动地选择该所需语音质量。
7.如权利要求6的方法,其中基于先前针对该口语话语的该说话者所创建的一个或多个声音模型而判定声音匹配。
8.如权利要求7的方法,其中经由后台数据收集而创建该一个或多个声音模型中的至少一个。
9.如权利要求7的方法,其中经由显式数据收集而创建该一个或多个声音模型中的至少一个。
10.如权利要求1的方法,其中在该修改步骤中所修改的该口语话语的该至少一个特性包括相关联于该口语话语的韵律。
11.如权利要求1的方法,其进一步包含该说话者标记一个或多个口语话语的步骤。
12.如权利要求11的方法,其中分析这些已标记口语话语以判定后续所需语音质量。
13.如权利要求1的方法,其进一步包含当判定该口语话语的内容含有不良语言时编辑该口语话语的内容的步骤。
14.如权利要求1的方法,其中在传输该口语话语之前修改该口语话语的该至少一个特性。
15.如权利要求1的方法,其中在传输该口语话语之后修改该口语话语的该至少一个特性。
16.一种用于修改相关联于可经由声音通道而传输的口语话语的语音质量的装置,其包含:
存储器;以及
至少一个处理器设备,其操作性地耦接至该存储器且被配置为执行如下操作:
在该口语话语的预期接收者接收该口语话语之前获取该口语话语;
判定该口语话语的现有语音质量;
比较该口语话语的该现有语音质量与相关联于至少一个先前获取的口语话语的至少一个所需语音质量,以判定该现有语音质量是否实质上匹配于该所需语音质量;
当该现有语音质量未实质上匹配于该所需语音质量时,修改该口语话语的至少一个特性,以将该口语话语的该现有语音质量改变为该所需语音质量;以及
向该预期接收者呈现具有该所需语音质量的该口语话语。
17.如权利要求16的装置,其中该口语话语的语音质量包含该口语话语的可感知语气或情绪。
18.如权利要求16的装置,其中该口语话语的语音质量包含该口语话语的可感知意图。
19.如权利要求16的装置,其中基于该口语话语的说话者的偏好而手动地选择该所需语音质量。
20.如权利要求16的装置,其中基于相关联于该口语话语的实质性上下文及关于该口语话语对该预期接收者应当听起来如何的判定而自动地选择该所需语音质量。
21.如权利要求16的装置,其中在该修改步骤中所修改的该口语话语的该至少一个特性包括相关联于该口语话语的韵律。
22.如权利要求16的装置,其中该至少一个处理器设备进一步被配置为允许该说话者标记一个或多个口语话语。
23.如权利要求22的装置,其中分析这些已标记口语话语以判定后续所需语音质量。
24.如权利要求16的装置,其中该至少一个处理器设备进一步被配置为当判定该口语话语的内容含有不良语言时编辑该口语话语的内容。
25.一种用于修改相关联于可经由声音通道而传输的口语话语的语音质量的制品,该制品包含计算机可读存储介质,该计算机可读存储介质具有有形地体现于其上的计算机可读程序代码,该计算机可读程序代码在执行时使计算机:
在该口语话语的预期接收者接收该口语话语之前获取该口语话语;
判定该口语话语的现有语音质量;
比较该口语话语的该现有语音质量与相关联于至少一个先前获取的口语话语的至少一个所需语音质量,以判定该现有语音质量是否实质上匹配于该所需语音质量;
当该现有语音质量未实质上匹配于该所需语音质量时,修改该口语话语的至少一个特性,以将该口语话语的该现有语音质量改变为该所需语音质量;以及
向该预期接收者呈现具有该所需语音质量的该口语话语。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/838,103 | 2010-07-16 | ||
US12/838,103 US20120016674A1 (en) | 2010-07-16 | 2010-07-16 | Modification of Speech Quality in Conversations Over Voice Channels |
PCT/US2011/036439 WO2012009045A1 (en) | 2010-07-16 | 2011-05-13 | Modification of speech quality in conversations over voice channels |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103003876A true CN103003876A (zh) | 2013-03-27 |
Family
ID=45467638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800347948A Pending CN103003876A (zh) | 2010-07-16 | 2011-05-13 | 修改经由声音通道的对话中的语音质量 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120016674A1 (zh) |
JP (1) | JP2013534650A (zh) |
CN (1) | CN103003876A (zh) |
TW (1) | TW201214413A (zh) |
WO (1) | WO2012009045A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992013A (zh) * | 2016-01-20 | 2017-07-28 | 哈曼国际工业有限公司 | 语音情感修改 |
CN109074803A (zh) * | 2017-03-21 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 语音信息处理***和方法 |
CN110634479A (zh) * | 2018-05-31 | 2019-12-31 | 丰田自动车株式会社 | 语音交互***、其处理方法以及其程序 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI473080B (zh) * | 2012-04-10 | 2015-02-11 | Nat Univ Chung Cheng | The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals |
JP2015517684A (ja) * | 2012-05-07 | 2015-06-22 | オーディブル・インコーポレイテッドAudible, Inc. | コンテンツのカスタマイズ |
WO2013184667A1 (en) | 2012-06-05 | 2013-12-12 | Rank Miner, Inc. | System, method and apparatus for voice analytics of recorded audio |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
WO2015101523A1 (en) * | 2014-01-03 | 2015-07-09 | Peter Ebert | Method of improving the human voice |
US9799324B2 (en) * | 2016-01-28 | 2017-10-24 | Google Inc. | Adaptive text-to-speech outputs |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
FR3052454B1 (fr) | 2016-06-10 | 2018-06-29 | Roquette Freres | Polyester thermoplastique amorphe pour la fabrication de corps creux |
US20190019497A1 (en) * | 2017-07-12 | 2019-01-17 | I AM PLUS Electronics Inc. | Expressive control of text-to-speech content |
US10861483B2 (en) | 2018-11-29 | 2020-12-08 | i2x GmbH | Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person |
US10930284B2 (en) * | 2019-04-11 | 2021-02-23 | Advanced New Technologies Co., Ltd. | Information processing system, method, device and equipment |
DE102019111365A1 (de) | 2019-05-02 | 2020-11-05 | Johannes Raschpichler | Verfahren, Computerprogrammprodukt, System und Vorrichtung zum Modifizieren von akustischen Interaktionssignalen, die von mindestens einem Interaktionspartner erzeugt werden, hinsichtlich eines Interaktionsziels |
US11062691B2 (en) | 2019-05-13 | 2021-07-13 | International Business Machines Corporation | Voice transformation allowance determination and representation |
US11501752B2 (en) * | 2021-01-20 | 2022-11-15 | International Business Machines Corporation | Enhanced reproduction of speech on a computing system |
US20230009957A1 (en) * | 2021-07-07 | 2023-01-12 | Voice.ai, Inc | Voice translation and video manipulation system |
DE102021208344A1 (de) | 2021-08-02 | 2023-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Sprachsignalbearbeitungsvorrichtung, Sprachsignalwiedergabesystem und Verfahren zum Ausgeben eines entemotionalisierten Sprachsignals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
US7444402B2 (en) * | 2003-03-11 | 2008-10-28 | General Motors Corporation | Offensive material control method for digital transmissions |
CN101454816A (zh) * | 2006-05-22 | 2009-06-10 | 皇家飞利浦电子股份有限公司 | 训练构音障碍的说话者的***和方法 |
CN101766014A (zh) * | 2007-07-26 | 2010-06-30 | 思科技术公司 | 语音通信***的自动化失真检测 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3237566B2 (ja) * | 1997-04-11 | 2001-12-10 | 日本電気株式会社 | 通話方法、音声送信装置及び音声受信装置 |
US6049765A (en) * | 1997-12-22 | 2000-04-11 | Lucent Technologies Inc. | Silence compression for recorded voice messages |
US7085719B1 (en) * | 2000-07-13 | 2006-08-01 | Rockwell Electronics Commerce Technologies Llc | Voice filter for normalizing an agents response by altering emotional and word content |
US20030187652A1 (en) * | 2002-03-27 | 2003-10-02 | Sony Corporation | Content recognition system for indexing occurrences of objects within an audio/video data stream to generate an index database corresponding to the content data stream |
US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
US6959080B2 (en) * | 2002-09-27 | 2005-10-25 | Rockwell Electronic Commerce Technologies, Llc | Method selecting actions or phases for an agent by analyzing conversation content and emotional inflection |
EP1900125A1 (en) * | 2005-04-14 | 2008-03-19 | Thomson Licensing | Automatic replacement of objectionable audio content from audio signals |
US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
CN101223571B (zh) * | 2005-07-20 | 2011-05-18 | 松下电器产业株式会社 | 音质变化部位确定装置及音质变化部位确定方法 |
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
US7912718B1 (en) * | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8036899B2 (en) * | 2006-10-20 | 2011-10-11 | Tal Sobol-Shikler | Speech affect editing systems |
US8886663B2 (en) * | 2008-09-20 | 2014-11-11 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
US8340267B2 (en) * | 2009-02-05 | 2012-12-25 | Microsoft Corporation | Audio transforms in connection with multiparty communication |
US20100280828A1 (en) * | 2009-04-30 | 2010-11-04 | Gene Fein | Communication Device Language Filter |
-
2010
- 2010-07-16 US US12/838,103 patent/US20120016674A1/en not_active Abandoned
-
2011
- 2011-05-13 WO PCT/US2011/036439 patent/WO2012009045A1/en active Application Filing
- 2011-05-13 CN CN2011800347948A patent/CN103003876A/zh active Pending
- 2011-05-13 JP JP2013519681A patent/JP2013534650A/ja not_active Withdrawn
- 2011-07-15 TW TW100125200A patent/TW201214413A/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444402B2 (en) * | 2003-03-11 | 2008-10-28 | General Motors Corporation | Offensive material control method for digital transmissions |
US20070208569A1 (en) * | 2006-03-03 | 2007-09-06 | Balan Subramanian | Communicating across voice and text channels with emotion preservation |
CN101454816A (zh) * | 2006-05-22 | 2009-06-10 | 皇家飞利浦电子股份有限公司 | 训练构音障碍的说话者的***和方法 |
CN101766014A (zh) * | 2007-07-26 | 2010-06-30 | 思科技术公司 | 语音通信***的自动化失真检测 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992013A (zh) * | 2016-01-20 | 2017-07-28 | 哈曼国际工业有限公司 | 语音情感修改 |
CN106992013B (zh) * | 2016-01-20 | 2023-09-19 | 哈曼国际工业有限公司 | 语音情感修改 |
CN109074803A (zh) * | 2017-03-21 | 2018-12-21 | 北京嘀嘀无限科技发展有限公司 | 语音信息处理***和方法 |
CN109074803B (zh) * | 2017-03-21 | 2022-10-18 | 北京嘀嘀无限科技发展有限公司 | 语音信息处理***和方法 |
CN110634479A (zh) * | 2018-05-31 | 2019-12-31 | 丰田自动车株式会社 | 语音交互***、其处理方法以及其程序 |
CN110634479B (zh) * | 2018-05-31 | 2023-02-28 | 丰田自动车株式会社 | 语音交互***、其处理方法以及其程序 |
Also Published As
Publication number | Publication date |
---|---|
TW201214413A (en) | 2012-04-01 |
US20120016674A1 (en) | 2012-01-19 |
JP2013534650A (ja) | 2013-09-05 |
WO2012009045A1 (en) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103003876A (zh) | 修改经由声音通道的对话中的语音质量 | |
Bell et al. | Prosodic adaptation in human-computer interaction | |
CN111128126B (zh) | 多语种智能语音对话的方法及*** | |
US20200105275A1 (en) | Diarization using linguistic labeling | |
CN101030368B (zh) | 在保持情感的同时跨通道进行通信的方法和*** | |
JP4768969B2 (ja) | 高度対話型インターフェースに対する理解同期意味オブジェクト | |
JP4768970B2 (ja) | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト | |
CN101010934B (zh) | 用于机器学习的方法 | |
US8219397B2 (en) | Data processing system for autonomously building speech identification and tagging data | |
JP2018124425A (ja) | 音声対話装置及び音声対話方法 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN109155132A (zh) | 说话者验证方法和*** | |
KR102097710B1 (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
US11093110B1 (en) | Messaging feedback mechanism | |
CN109545197B (zh) | 语音指令的识别方法、装置和智能终端 | |
CN111489765A (zh) | 一种基于智能语音技术的话务服务质检方法 | |
CN111508501B (zh) | 一种电话机器人中带口音的语音识别方法及*** | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN111489743A (zh) | 一种基于智能语音技术的运营管理分析*** | |
CN111128175B (zh) | 口语对话管理方法及*** | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
KR20190032557A (ko) | 음성 기반 통신 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
WO2014208298A1 (ja) | 文章分類装置、文章分類方法、及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130327 |