CN102124515A

CN102124515A - 基于语音分析的说话者表征

Info

Publication number: CN102124515A
Application number: CN2009801320343A
Authority: CN
Inventors: 尤阿伍·德加尼; 依赛·扎姆尔
Original assignee: VoiceSense Ltd
Current assignee: VoiceSense Ltd
Priority date: 2008-06-17
Filing date: 2009-06-17
Publication date: 2011-07-13
Anticipated expiration: 2029-06-17
Also published as: EP2304718B1; EP3396668A1; ES2668969T3; ES2896267T3; WO2009153788A2; EP2304718A2; KR20110043600A; WO2009153788A3; EP3396668B1; KR101683310B1; US20120221336A1; US8195460B2; US8682666B2; US20090313018A1; JP2011524551A; CN102124515B

Abstract

本发明公开了一种用于通过对说话者在某一特定环境和背景下的语音语调进行分析以确定说话者在所述特定环境和背景下的当前行为、心理和说话风格特征的计算机执行方法、数据处理***、装置和计算机程序产品。所述分析计算了语音语调的包含有语调和振幅参数的基本语音参数的特有的二阶导数，并将这些特有参数与已得到的标示不同行为、心理和说话风格特征的参考语音数据相比较。本方法包括所述语音参数参考分类数据库的构成，以及对说话者的语音语调的分析以确定所述说话者在特定的环境里的当前行为、心理和说话风格的特征。

Description

基于语音分析的说话者表征

技术领域

本发明涉及语音分析领域，特别是使用语音的韵律特征判断人在特定环境下的行为、心理和语言风格特征。

背景技术

语音分析是用于处理人类语音以揭露其意义的电脑化方法的一个统称。语音分析通常归类于语言科学中的语音学的一部分。

语音分析可以分为两种主要的方法：第一种方法致力于通过学习文字、音节和音素的发音和句子的排列来揭露语音内容。许多语音识别应用，比如“语音文字转换”或者“文字识别”，均使用了此方法来提取语音的内容。

第二种方法为语音的韵律分析，其致力于分析语音的非音段（非词语、非内容）的特征，比如语调、语速、感情的强烈程度、重音和节奏，以研究人们的说话方式。

这里所述的说话方式提供了语音的“旋律”，所述“旋律”有助于深入理解语音的整体意义和背景。比如，人们通过一个句尾的升调来感知一个问句。腔调是经典的关于韵律语音参数如何改变说话发音的一个例子。演员们改变他们的腔调使其听起来象是某个角色。韵律还存在着性别差异，例如，女性通常有比男性更高频率的声调。许多时候，韵律特征改变了言语的意思：我们可以通过改变发音方式（韵律）将一个同样的句子演绎成带有怀疑、讽刺或者其它简单意思的句子。

说话语调的韵律特征还包含了关于讲话者的情感信息。这可以在这些年来的研究文献中看到。这是非常直观的—一个激动的人在打应急服务电话时的语速通常都是非常快的，他的声音会是紧张的、带呼吸声的、有波动的等等。另一方面，一个处于悲伤失望中的人会倾向于比较缓慢地说话，缺乏活力并带有长停顿以及类似特征。这些特征均反应在语音的韵律特征上。

已经有数个关于使用韵律上的语音特征自动分析讲话者的情感状态的专利被公开。其中，Pertrushin的美国专利6151571和Slaney的美国专利6173260用于分类不同的情感状态，Degani和Zamir的欧洲专利1423846用于确认普通的情绪唤起。所有的专利在这里组成一个整体作为参考。

人们尝试把说话者的个性和谈话的韵律特征关联到一起。Bogdashevsky的美国专利6006188描述了这样一种方法，所述方法测定带有类似性格类型的人们的语音特征（根据已知的心理感觉测验），然后使用检测到的特征进行性格类型分类。言谈反映个性这一观点是讲得通的而且非常直观：比如我们可以想象一个性格内向的人的讲话方式是温和而且犹豫的，这与性格外向的人的响亮而且冲动的讲话方式是相反的。

将性格和讲话方式结合到一起很好地反映了我们对于言谈广泛地表达了个人特征的理解。然而，此观点的缺陷在于其具体实施。性格代表了一个人稳定的特征，这样其应该被始终如一地评估。这意味着说话者的反映其性格的讲话方式应该在不断改变的环境、多变的心理状态和不同的背景下保持始终如一。这并不符合实际：讲话方式会被环境因素严重影响，例如，已经证明了情绪状态和讲话腔调之间的牢固关系。即使上述例子中的性格内向的人也会时不时变得愤怒，此时他的讲话方式（和他的韵律上的语音特征）会发生极大的改变并且变得类似于一个性格开朗外向的人的讲话方式。在统计上，如果我们评估性格内向的人在不同的场合的讲话方式，我们或许会发现他的性格和讲话方式之间存在着可观的联系。我们只有在与参考数据被采集的情况非常类似的情况下的言谈进行采样，结果才有可能是可靠的。但这样做当环境因素在其间起主导作用时是不符合实际的。在实际生活中，环境因素频繁地影响我们的言谈。这样，基于语音韵律的性格评估并不能作为一种与环境无关的方法。

发明内容

本发明提出了一计算机执行方法、数据处理***、计算机程序的产品和装置，它们通过分析讲话者的语调以确定讲话者在特定情形和背景下的当前行为和心理特征，同时还确定了说话者当前说话风格。

所述分析基于计算说话者的基本音调和振幅参数的特有的二阶导数（secondary derivative），当其整体使用时标示了说话者在特定环境和背景下的当前行为、心理和说话风格特征。

对当前行为、心理和讲话风格特征的分类通过将说话者的评估了的第二语音参数与预先得到的数据进行比较而得以实现，所述预先得到的数据代表了在一定范围的环境和背景下不同的行为、心理和讲话风格特征的所述第二语音参数值以及所述参数值的组合。

本发明的提供了一个普遍的并与说话者无关的方法，通过分析一个人在特定环境下的语音韵律特征，以确定其当前行为、心理和讲话风格特征。讲话者的性格特征可以与短暂的、与环境相关的参数相关，又或者是与稳定的、与环境无关的参数，比如性格，相关。本发明的实施方案能够确定一个人当前听起来是坦率的、开朗的、公正的、富有表情的还是含蓄的，但不能确定这些特征是否反映了其内在性格或者特定的环境和背景。出于不同的信息反馈、培训和交流的目的，此类信息会对于分析人们本身是极其有用的。

在不同的实施方案中，本发明可以作为用于描绘人们的环境行为、心理和讲话风格特征的一计算机执行方法、数据处理***、计算机程序产品和装置。

附图说明

依照其后的具体实施方案的说明，本发明的主题会变得更加清晰易懂，所述说明以举例的方式提出，并参考相关附图（附图，或者简单的“图”），而且只用于讨论本发明的目的，其中：

图1是一个概括性的流程图，其显示了根据本发明所提出的方法，获取和构成用于对不同的行为、心理和讲话风格特征进行分类的语音参数参考数据库的各个步骤；

图2是一个概括性的流程图，其显示了在本发明的具体实施方案中，使用参考数据库分析当前讲话者的语音语调和确定其在特定的环境下其行为、心理和讲话风格的特征的各个步骤；

图3是一个概括性的流程图，其显示了根据本发明所提出的方法，在一些实施方案中可能实行的一些额外的可选步骤；

图4是本发明的具体实施方案中的一种数据处理***的框架示意图；

图5是本发明的具体实施方案中的一种装置的框架示意图。

结合附图和以下详细说明，本领域技术人员会更易于理解本发明是如何实现的。

具体实施方式

在详尽解释本发明之前，详细说明一下在下文中所用到某些术语是相当有用的。

在这里所使用的术语“环境”指的是与说话者的当前状况相关的特征。相反地，环境特征并不能证明说话者通常都处于此类环境。比如，一个环境特征可以是“说话者听起来是自信的”（现在），或者“说话者听起来是含蓄的”，或者“说话者听起来是有计划的”诸如此类。但这并不代表说话者就其本质而言通常是自信、含蓄或者有计划的，这只是根据说话者当前的语调而得出的其目前所处于的状态。显然地，同一个说话者在不同的环境中可能会听起来有所不同。

这里所使用的术语“背景”被定义为代表环境的普遍特征（所述特征可以影响言谈），所述特征来源与于说话者的个人背景，包括文化、语言、口音、年龄等等，或者环境设定的特殊属性，比如交谈或者独白、朗读或者自由发言、正常说话或者处于身体运动、角色扮演、讲课、演讲或者处于有压力的环境中—格斗、紧急事件、球赛或者其它。

这里所使用的术语“说话风格”在本发明中指的是典型的说话方式，代表一组行为和心理特征，并倾向于在某些环境中使用。比如，有表现力的说话风格、有计划的说话风格、坦率的说话风格等等。人们倾向于根据特定的环境和背景改变他们的说话方式。

这里所使用的术语“通信***”在本发明中指的是任何能传输声音的语音通信***。这些***可以是，例如，有线或者无线电话***、蜂窝通信网络、基于网页的通信***、其它IP网络电话***、电话局通讯***等等。

在接着的具体描述中，许多细节会被详尽的描述以对本发明提供一个全面的认识。然而，必须明白本发明可以不使用这些特征细节。在另外一些例子中，公知的方法、程序、部件和电路并没有被详细描述，以避免使本发明的主体模糊不清。

本发明在它的一些具体实施方案中公开了一种基于语音分析技术并用于确定说话者的环境行为、心理和说话风格特征的计算机执行的方法、数据处理***、装置和计算机程序产品。

本发明的基础在于本发明认为说话方式不仅反映了说话者的情绪状态，还反映了其行为和心理特征的更广的范围。许多所述的行为和心理特征并不是情绪方面的，但可以通过说话方式所表达出来，举例来说：坦率、自信、开放、富有表现力、犹豫、含蓄、威严、控制、计划性、耐心、不耐心等等。本发明致力于分析这些包括在言语中的行为、心理和说话风格特征。

在本发明的具体实施方案中，本发明的实施考虑到在说话方式中所述特征主要反映了一种环境相关的性质而不是稳定的始终如一的性质。某些时候一种行为特征会与环境背景相关，有些时候会与说话者的情绪状态相关，有些时候会与说话者的性格相关，而许多时候与以上因素的集合相关。举例来说，一种直率自信的说话方式可以以一段在比赛中（背景）的教练与运动员之间的标准对话为特征，或者其可以与一个处于愤怒中（情绪）的不满意的顾客的对话相关联。当然，在其它案例中，其可以反映说话者的自信的性格。语音韵律参数（反映语速、语调、语气等等）可以标示当前的语音，但这些参数并不能指出其特定的背景或者区分是否与环境或者性格相关。

因此，本发明有两个主要基础：语音的韵律特征广泛地反映了说话者的行为、心理特征；这些特征在说话方式中的表现有着强烈的环境天性，即，其主要指明了说话者的当前状态。

这样，本发明的目的在于提供一个普遍的、与说话者无关的方法，通过分析人们在一个特定环境中的语音的韵律特征以确定其当前行为和心理特征。

有优势的是，本发明可以用于为人们提供他们在不同的环境中的行为和心理特征的反馈，以作为各种不同的职业、教育、治疗和休闲娱乐应用的一部分。本发明还可以为某些人提供见解，这些人致力于研究如何能更好地与他人相沟通，这些研究基于对研究对象的当前行为和心理特征的理解，并出于多种商业的、职业、教育、治疗和休闲娱乐的目的。

本发明所克服的一项挑战在于提取和检测行为和心理特征的指示性参数，所述参数是与说话者无关的。人们在他们各自的韵律语音特征（其典型的音高、语调、语速等等）上是不同的。他们在他们各自表达行为和心理特征的方式上也是不同的。比如，一个人可能会通过改变语气强烈程度来表达其充满信心，而另一个可能会通过改变语速等等来达到同样的效果。实现一个说话者无关的数据处理需要克服这些在行为和心理特征的韵律表达上的个人差异。

本发明通过使用在语音的基本语调和振幅参数中提取的第二语音参数以分析韵律特征而实现与说话者无关的数据处理。这些第二参数是语音语调中的多种不同的统计指示特征的升调、降调和平声片段。这些特有的第二参数受到个人语调影响较小，因此更能在本质上指明说话者的行为和心理特征。

本发明的另一特征在于说话风格。当在经验上检验多个行为和心理特征的说话方式时，明显地，可以分类成数个所述的特征串以构成可区别的说话风格。在聆听语音并将语音分类时这变得非常明显：某些行为和心理特征倾向于与相同语调（相同环境）频繁出现，暗示它们是相关联的。另外，当分析它们的韵律特征时，某些行为和心理特征相对其它来说更为相似，再次暗示着它们的相互关系。

以下是一些可能的这样的说话风格的例子。一种风格可能会被称为“被动的”或者“稳定的”说话风格，包含有例如反应敏捷的、开放的、健谈的、富有表现力的等等之类的行为和心理特征。另一种风格可以被称为“自信的”，包含有例如坦率的、颐指气使的、语速极快的、大声的、活泼的等等之类的特征。还有另外一种称为“有计划的”风格，包含有例如善于分析的、非情绪化的、克制的、含蓄的、有条理的等等之类的特征。这些说话风格在此处仅作为例子。自然地，其它几种说话风格也可以被语音的韵律特征所描述。

在这里非常有必要强调这些说话风格同时带有非常强的环境天性。尽管这些说话风格不时可以代表一个较为稳定的说话者的特征，很多时候它们可以代表当前的互动方式，或者说话者与特定的环境或者背景相关的当前内部状态。同一个人经常会在不同的背景环境中切换其说话风格。

通过语音分析确定所述说话风格对以上所述的潜在的应用是非常有优势的，因为其能为所分析的环境提供更为深入的见解。

这样，本发明的另一目的在于通过分析人们在特定环境下的语音韵律特征提供一个普遍的、与说话者无关的方法以确定某人的当前说话风格。

本发明的实施方式受益于三个与普通语音韵律分析方法不同的方面。第一个方面是极大地开拓说话者的能通过韵律语音分析而被确定的个人特征的范围。在说话者的情绪状态之外还可以确定多种说话者的行为和心理特征，所述情绪状态是语音分析在过去的主要应用。第二个不同之处在于说话者的当前的、环境的和行为上的属性和他或她相对应的语音特征之间的联系。第三个不同之处在于其使用在语音的基本的频率和振幅参数中萃取的特有的第二参数，以达到与说话者无关的数据处理。使用这些特有的第二参数及其组合使克服语音表达中的个人差异成为可能，这样，类似的行为和心理特征可以在不同人的语音特征中得到类似的体现。

图1是一个概括性的流程图，其显示了在本发明的具体实施方案中，建立用于对不同的行为、心理和讲话风格的特征进行分类的语音参数参考数据库的方法的各个步骤。所述方法包括：人工选择某一语境，比如某一语言，文化或者特有的环境设定1010；人工选择要分析的处于所选择语境中的行为、心理和说话风格特征1020；获得人们在所选择的语境中的多个语音语调1030；将语音语调人工分成代表类似行为、心理和说话方式特征的组1040。这可以使用合适并公知的评估方法，比如专家等级评定、同等评价法、自我评价法、目标测试等等，或者任何其它在社会和行为科学中使用和公知的评估方法。作为例子而言，所述的环境特征可以是坦率、自信、反应敏捷、开放、富有表现力、犹豫、含蓄、颐指气使、克制、有计划、耐心、不耐心、投入的或者其它在语音中得以表达或反映的环境行为和心理的特征。作为例子而言，所述说话风格可以是一种“被动的”或“稳定的”说话风格，包括数种行为和心理特征，比如迟钝、安静、稳重、镇静、犹豫等等，或者一种“畅谈的”说话风格，比如反应敏捷、开放、健谈、富有表现力等特征，或者一种“自信的”说话风格，包括坦率、颐指气使、快节奏、大声、活跃等特征，或者是一种“有计划的”说话方式，包括善于分析、非情绪化、克制、含蓄、有条理等特征。在本发明的一些实施方案中，所述数据库可以包含有代表任何数量的（一个或者多个）行为、心理和说话风格特征的语音特征。所述方法还包括：将所述代表类似行为、心理和说话风格特征的组中的每一语音片段预处理成无声和有声部分1050；将有声语音片段分成一串长度相同的块，所述块带有包括音调和振幅参数的基本语音参数1060；从基本语音参数中导出多个第二语音参数，所述第二语音参数包括所述块串内的每一时间单位内所包含的平声、升调和降调趋势片段的总和以及所述平声、升调、降调趋势片段的平均长度1070；然后从所述导出的第二参数中确定每组语音所独有的第二语音参数、参数组合以及参数的值1080，所述参数是组内语音片段所共有的并且代表了每一组语音的典型行为、心理或者说话风格的特征。我们必须明白使用数据库只不过是本发明的一种实施方式，所述语音参数以及它们在特定背景下的所对应的行为心理特征的集合可以以任何表现作为参比的语音参数的方式存储。数据库或参数库能够采用不同方式存储，或者不用实际的软件数据库而通过计算机程序作为参比使用

在本发明的一些实施方式中，导出多个第二语音参数的步骤集中于从一个列表中选择参数，所述列表包括：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络线样式以及升调、降调和平声声调趋势的时间顺序样式。

图2是一个概括性的流程图，其显示了在本发明的具体实施方案中，使用参考数据库分析当前讲话者的语音语调和确定其在特定的环境下其行为、心理和讲话风格的特征的电脑实施方法的各个步骤。所述方法包括：建立一个语音参数参考数据库以根据不同的讲话者的行为、心理和说话风格特征对语音语调进行分类2010；获得说话者在一个特定环境和背景下的语音语调2020；对所获得语调进行预处理成，获得无声和有声片段并把有声部分分成一串相同长度的块2030，所述块带有基本的语音参数，所述参数包括音调和振幅参数；从所述基本参数中导出多个第二语音参数2040，所述第二语音参数包括在所述块串内的单位时间的平声、升调和降调趋势语调的总长度和平均长度；根据语音语调内的第二参数计算具有代表性的环境行为、心理和说话风格特征的特有语音参数、其组合以及所述参数的值2050；通过将计算出的参数和预定义的参考数据库进行比较对环境行为、心理和说话风格等特征进行判断和评估2060；然后输出分析结果2070。

与数据库的建立相类似，在本发明的一些实施方式中，对多个第二参数的导出集中于在一个列表中对参数进行选择，此列表包括参数：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络样式，以及升调、降调和平声声调趋势的时间顺序样式。

图3是一个概括性的流程图，其显示了根据本发明所提出的计算机执行方法，在其一些实施方案中可能实行的一些额外的可选步骤，所述步骤用于分析说话者在特定环境和背景下的语音语调并确定所述说话者在所所述特定环境和背景下的行为、心理和说话风格的特征。

根据本发明的一些具体实施方式，所述分析方法还包括在语音参数参考数据库内预提取当前被分析的说话者的语音样本以识别说话者独有的说话方式的步骤3010，这样对说话者的当前分析就会成为说话者相关而不是与说话者无关，以增加对说话者的环境行为、心理和说话风格特征确定和评估的准确性。

根据本发明的一些具体实施方式，所述分析方法还包括重复分析同一说话者在多个不同环境中的语音，然后提取其在不同环境中的重复的和普遍的说话方式的步骤3020，以确定说话者的个性特征并将它们从环境特征中区别开来。

在本发明的一些具体实施方式中，所述分析方法还包括通过语音分析使用情绪检测以将说话者的当前情绪状态和环境状态区别开来的步骤3030，以增加环境行为、心理和说话风格的特征确定和评估的准确性。

在本发明的一些具体实施方式中，所述分析方法还包括使用基于语音识别的语音文字及内容的分析步骤3040，与语音的韵律分析构成互补，以增加环境行为、心理和说话方式特征的确定和评估的准确性。

在本发明的一些具体实施方式中，所述分析方法还包括通过对说话者的视觉分析，使用身体语言分析的步骤3050，与语音分析形成互补，以增加环境行为、心理和说话方式特征的确定和评估的准确性。

在本发明的一些具体实施方式中，所述分析方法还包括提供基于使用进行中的说话者的行为、心理和说话方式的特征分析的学习***以提高语音参数参考数据库和分类处理的准确性。

在本发明的一些具体实施方式中，所述分析方法还针对了包括多个说话者的语音语调，其中所述方法还包括区别开多个说话者的声音，所述方法的每次执行只对应单独的一个说话者。

图4是一个框架示意图，根据本发明的一些实施方式其显示了一个分析说话者语音语调并确定其在特定环境下的行为、心理以及说话风格特征的数据处理***。所述***4000包括：对说话者的声音进行采样或者直接取得声音样本的语音输入单元4010、一与所述语音输入单元4010相连接以对语音输入进行预处理的预处理单元4020、一与所述预处理单元4020相连接的主处理单元4030、一主指示信号输出单元4040；以及一与所述主处理单元4030相连接的说话者参考数据库4050。

运行时，语音输入单元4010用于对处于特定环境或背景的说话者的语音进行采样或者取得语音采样信号；预处理单元4020用于对采样了的语音信号进行处理，以取得无声和有声部分语音并把有声部分分成一串长度相同的块，所述块带有基本语音参数，包括语调和振幅参数。进一步，数据库4050用于存储行为、心理和说话风格的分类以及其具有代表性的第二语音参数和参数的组合，其中这些参数从一个列表中选择，此列表包括：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络样式，以及声调、降调和平声声调趋势的时间顺序样式；进一步，主处理单元4030用于从当前分析的语音语调中取得多个从包含有所述第二语音参数目录中选择的第二语音参数的值；所述主处理单元4030还用于从所述语音语调的第二参数中计算环境行为、心理和说话风格特征的特有的并具代表性的参数、参数的组合以及它们的值；所述主处理单元还用于通过将所述参数与预定义的语音参数的参考数据库进行比较以对环境行为、心理和说话风格特征进行确定和评估。最后，主指示单元4040用于输出分析结果。

在本发明的一些具体实施方式中，输出单元4040包括了至少一个以下接口：视觉、音频、存储、文字、监测设备接口、互联网接口、本地和远程设备或者计算机接口、跨网络接口、有线、无线或者蜂窝电话接口、电脑游戏接口、玩具接口、个人电子记事本接口，以及电子输出设备接口。

在本发明的一些具体实施方式中，***4000在通信***内实施，所述通信***选自一组群包括：语音通信***、无线或者有线通信***、蜂窝通信网络、基于网页的通信***、其它IP语音通信***，以及电话局通信***。

在本发明的一些具体实施方式中，***4000可用于至少一个以下用途：自我反馈、自我了解、娱乐、行为训练、销售优化、客户服务优化、客户和商业智能、防卫和安全应用、商业协商、广告、提亲、约会、消遣、游戏、玩具、辅导、人力资源应用、行政培训、雇员和职业培训、心理和教育应用，以及医学应用。

在本发明的一些具体实施方式中，数据库4050还包括预先得到的当前分析的说话者的语音样本以识别所述说话者独有的语音样式，这样对所述说话者的当前分析会成为说话者相关的而不是说话者无关的，以增加环境行为、心理和说话方式特征的确定和评估的准确性。

在本发明的一些具体实施方式中，***4000还用于重复地分析同一说话者在数个不同环境中的语音样本，并提取其在不同环境中重复出现的具有普遍性的说话方式，以确定所述说话者的个性特征并将这些个性特征与环境特征分开来。

在本发明的一些具体实施方式中，所述***4000还使用基于语音分析的情绪检测以将当前情绪状态从环境特征中区别开来，以增加环境行为、心理和说话方式特征的确定和评估的准确性。

在本发明的一些具体实施方式中，所述***4000还使用基于语音识别技术的语音文字和内容的分析，与韵律语音分析形成互补，以增加环境行为、心理和说话方式特征的确定和评估的准确性。

在本发明的一些具体实施方式中，所述***4000还使用了基于说话者的视觉分析的身体语言分析，与语音分析形成互补，以增加环境行为、心理和说话方式的特征确定和评估的准确性。

在本发明的一些具体实施方式中，所述***4000还提供了基于使用进行中的说话者的行为、心理和说话方式特征分析的学习***，以增强语音参数参考数据库和分类处理。

在本发明的一些具体实施方式中，所述***4000还关注包含有多个说话者的语音语调，其中所述***4000用于区分开多个说话者的声音并且其每次执行只单独分析一个说话者。

图5是一个概括性的***方框图，其显示了一个在本发明的一些实施方式中的用于通过分析一个说话者的语音语调而确定其在一个特定的环境和背景下的行为、心理和说话方式特征的装置。装置5000包括：一用于对说话者的语音进行采样或者取得语音采样信号的语音输入单元5010、一与所述语音输入单元5010相连接并用于对从语音输入单元5010输入的采样信号进行预处理的预处理单元5020、一与所述预处理单元5020相连接的主处理单元5030；以及一与所述主处理单元5030相连接的主指示信号输出单元5040。

运行时，语音输入单元5010用于对说话者的在某特定环境和背景下的语音进行采样或者直接取得语音采样信号；预处理单元5020用于对采样的语音信号进行预处理，以取得无声和有声两个部分信号并把有声部分分成一串长度相同的块。所述块带有基本的语音参数，所述参数包括语调和振幅参数。进一步，所述装置5000与一个用于存储说话者的行为、心理和和说话方式分类以及它们的具代表性的第二语音参数、所述参数组合的参考数据库相关联，其中这些参数从一个参数目录中选出，所述参数目录包括：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络样式，以及声调、降调和平声声调趋势的时间顺序样式。

进一步，所述主处理单元5030还用于从当前分析的语音语调中根据所述第二语音参数列表取得多个第二语音参数。主处理单元5030还用于计算环境行为、心理和说话风格特征的独有并具有代表性的语音参数、参数的组合以及所述参数的值；所述主处理单元5030还能用于通过将计算出的参数与预定义的参考数据库进行比较以对语音语调中的环境行为、心理和说话方式特征进行确定和评估。最后，主指示信号输出单元5040用于输出分析结果。

在本发明的一些具体实施方式中，所述装置5000包含有至少一个以下用途：自我反馈、自我了解、娱乐、行为训练、销售优化、客户服务优化、客户和商业智能、防卫和安全应用、商业协商、广告、提亲、约会、消遣、游戏、玩具、辅导、人力资源应用、行政培训、雇员和职业培训、心理和教育应用，以及医学应用。

在本发明的一些具体实施方式中，所述装置5000 选自一个列表，所述列表包括：声音通信设备、有线或者无线声音设备、蜂窝通信设备、联网的（或非联网的）个人掌上电脑（PDA）、录音设备、个人电脑和服务器。

在本发明的一些具体实施方式中，所述输出单元5040包括至少一个以下接口：视觉、音频、存储、文字、监测设备接口、互联网接口、本地和远程设备或者计算机接口、跨网络接口、有线、无线或者蜂窝电话接口、电脑游戏接口、玩具接口、个人电子记事本接口，以及电子输出设备接口。

在本发明的一些具体实施方式中，本发明的所述计算机执行方法、数据处理***、和计算机程序产品可以在一个有线或者无线的通讯***中实施。特别地，本发明可以在一个蜂窝通信***中实施。本发明在一些实施方案中也可以用于实时环境中，或者可选地，用于离线语音分析***。

在一些实施方式中，本发明可以为多个架构。比如，提供一个执行以上所述的步骤的中心分析模块，以处理经过一个处于任何物理位置的蜂窝电话服务商的中心服务器的电话语音数据。

在另外一些实施方式中，本发明可以作为一个单机模块实施，所述单机模块可以作为软件或者硬件整合到一个通信装置中，比如语音通信设备。例如，提供一个分析模块以执行以上步骤，以处理经过特定用户的蜂窝电话设备的语音数据。

可选地，本发明的实施可以用于，但不局限于，分析处于对话中的说话者中的一个或者全部，以用于自我反馈、自我了解、娱乐、行为训练、销售优化、客户服务优化、客户和商业智能、防卫和安全应用、商业协商、广告、提亲、约会、消遣、游戏、玩具、辅导、人力资源应用、行政培训、雇员和职业培训、心理和教育应用，以及医学应用等等。

在一些实施方式中，本发明的所述计算机执行方法、数据处理***、装置和计算机程序产品可以在电话中心和呼叫中心的实时或者离线对话语音分析中实施，以改进其服务，销售、客户服务、培训及其它组织目的。

在一些实施方式中，本发明提供了有线电话对话的实时和离线语音分析，分析对话中的一个或者全部说话者，以达到与以上所述相同的目的。

在一些实施方式中，本发明提供了基于网页对话的实时和离线语音分析，分析对话中的其中一方或者两方，以达到与以上所述相同的目的。

在一些实施方式中，本发明提供了面对面对话的实时和离线语音分析，分析其中一方或者两方，以达到与以上所述相同的目的。

在一些实施方式中，本发明提供了任何录音的实时和离线语音分析，无论是对话还是观众前的个人演讲，分析其中一方或者两方，以达到与以上所述相同的目的。

有优势的是，对人们的交流、心理、个人和行为的特征的评估为不同的应用提供了重大的意义。首先，其为说话者本身提供了评估数据，因此促进了认识、发展和不同的学习用途。另外，对于那些想从说话者中学到些什么，或者帮助说话者，又或者为了更好地与说话者互动，以达到不同目的的人们来说，这些目的可以是个人、商业、教育、职业、医学、心理上的等等，所述评估数据是非常重要的。

在本发明的一些实施方式中，所述***可以在数字电子电路，或者电脑硬件、固件、软件或者它们的组合中实施。

本发明可以在一个或者多个可在可编程***上执行的计算机程序中实施，所述可编程***包括至少一个可以接收和传输数据和指令的可编程处理器、一存储***、至少一个输入设备，和至少一个输出设备。计算机程序是一组可以在电脑中直接或者间接使用的以执行某一活动或者带来某一结果的指令。计算机程序可以使用任何计算机语言编写，包括汇编或者解释语言，其可以部署为任何形式，包括单机程序或者作为一个模块、组件、子程序、或者其它适用于电脑环境的形式。

适用于执行指令程序的处理器包括，举例来说，数字信号处理器（DSP）、普通用途的微处理器以及任何电脑的单核或多核处理器。一般说来，处理器从只读存储器或/和随机存取存储器中接收指令和数据。计算机***的核心组件包括执行指令的处理器和一个或者多个存储指令和数据的存储器。一般说来，一台电脑还包括一个或者多个用于存储数据文件的大容量数据存储设备；这些设备包括磁盘，比如内置硬盘或者可移动硬盘；磁光碟和光盘。适用于承载电脑程序指令和数据的存储设备包括任何形式的非易失性存储器，比如属于半导体存储器设备的EPROM、EEPROM或闪存设备；属于磁盘的内置硬盘或外置硬盘；光磁盘；CD-ROM或者DVD-ROM设备。所述处理器和存储器可以通过ASICs（专用接口集成电路）得到补充或者合成一体。

在以上的说明中，一个实施方式是本发明的一个例子或者一个具体实施。“一种实施方式”、“一个实施方式”或者“多个实施方式”的不同表示并不是必须得指向相同的实施方式。

尽管本发明的许多不同的特征可能在单一的实施方式中的得以描述，所述特征也可以单独或者以任何合适的组合形式而得以实施，本发明也可以在一单一的实施方式中实现。

在说明书中提及的“一些实施方式”、“一种实施方式”、“一个实施方式”或者“其它实施方式”意味着一个特定的与所述实施方式相联系的特征、结构或者性质被包括在至少一些具体实施中，但并不必须是所有的实施方式。

应明白这里所使用的说法和术语并不用于限制用途而是用于描述的用途。

结合附属的详细说明、图表和范例，本发明的原理和用途可以得到更好的说明。

应明白这里详细描述的细节并不构成对本发明应用的限制。

另外，还需明白本发明可以通过不同的方式得以贯彻或者实施，因而本发明除了以上所述的实施方式外，其还可以通过其它的方式得以实施。

应明白术语“包括”、“包含”、“由…组成”以及其语法上的变更并不排除额外的一个或者多个组件、特征、步骤或者上述个体的组合，因而所述术语只是用于具体说明组件、特征以及步骤。

如果所述说明书或者权利要求提及“一额外的”组件，这并不妨碍超过一个额外的组件存在。

应明白在权利要求或说明书中提及“一个”部件时，这并不意味着只有一个此类部件。

应明白在说明书中陈述到一个部件、特征、结构或者特性“可能”、“可以”被包括在内时，所述特定的部件、特征、结构或特性并不必须被包括在内。

在应用时，尽管状态图、流程图或者两者都被用于描述实施方案，本发明并不被限制在此类图表中或者其相应的描述中。举例来说，流程并不需要经过所有所描述的步骤或者状态，或者按照与所描述或显示的流程完全相同的顺序进行。

本发明所提出的方法可以通过人工、自动或者所述两者的组合执行或者完成所选择的步骤或者任务而得以实施。

所述术语“方法”可以为用于完成一个特定任务的方式、手段、技巧和程序，这些方式、手段、技巧和程序是公知的或者是由本发明所属于的技术领域中的从业者从公知的方式、手段、技巧和程序中可较为容易地发展出来的。

在权利要求和说明书中出现的所述说明、例子、方法和材料并不能解释为限制性的而应解释为只是解说性的。

此中使用的技术和科学术语的意思通常可以被本发明所属的技术领域中的技术人员所理解，否则会被明确定义。

本发明可以使用与以上所描述的相当的方法和材料在试验和实践中实施。

任何出版物，包括在本说明书中所引用或涉及的专利、专利应用和文章，于此整体引入本说明书，如同此中每一被特别和单独指出的出版物。另外，在本发明的一些具体实施方式中对任何参考文献的引用和验证都不应被解释为承认所述文献为本发明的现有技术。

本说明书结合数量有限的具体实施方式对本发明进行了说明，但这些实施方式不应被理解成对本发明的限制，而应该被理解为本发明的一些实施范例。其它可能的变更、修改和应用也处于本发明的保护范围内。相应地，本发明的范围不应被所描述的实施内容所限制，而应该被附属的权利要求以及其合法的等同物所界定。

Claims

1.一种建立用于根据不同的行为、心理和说话风格的特征以对语音语调进行分类的语音参数参考数据库的计算机执行方法，所述计算机执行方法包括：

人工选择某一语境；

人工选择要分析的并处于所选择语境中的行为、心理和说话风格特征；

获得人们在所选择的语境中的多个语音语调；

将语音语调人工分成代表类似行为、心理和说话风格特征的组；

将所述代表类似行为、心理和说话风格特征的组中的每一段语音预处理成无声和有声片段；

将有声语音片段分成一串长度相同的块，所述块带有包括有音调和振幅参数的基本语音参数；

从基本语音参数中导出多个第二语音参数，其中所述选择的多个语音参数包括以下参数中至少一个：所述块串内的每一时间单位内所包含的平声、升调和降调趋势片段的总和，以及所述块串内的平声、升调和降调趋势片段的平均长度；和

从所述第二参数中确定每组语音所特有的第二语音参数、参数的组合和所述参数的值，其中所述特有的第二参数是所述组内语音片段所共有并代表了每一组语音的典型行为、心理或者说话风格特征。

2.根据权利要求1所述的方法，其中导出的多个第二语音参数包括以下参数中的至少一项：平均停顿长度、单位时间内的总停顿长度、短时沉默的平均长度、单位时间内短时沉默的总长度、平声片段的平均长度、单位时间内平声片段的总长度、升调片段的平均长度、单位时间内升调片段的总长度、降调片段的平均长度、单位时间内降调片段的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状和频谱包络样式，以及平声、升调和降调趋势的时间顺序样式。

3.一种分析说话者在特定环境和背景下的语音语调并确定说话者在所述特定的环境下的行为、心理和说话风格特征的计算机执行方法，所述计算机执行方法包括：

建立一个语音参数参考数据库以根据不同的行为、心理和说话风格特征对语音语调进行分类；

获得说话者在一个特定环境和背景下的语音语调；

将所获得语音语调预处理成无声和有声片段并把有声片段分成一串相同长度的块，所述块带有包括音调和振幅参数的基本语音参数；和

从所述基本参数中导出多个第二语音参数，其中所述多个选择的语音参数包括以下参数中至少一个：所述块串内的每一时间单位内所包含的平声、升调和降调趋势片段的总和，以及所述块串内的平声、升调和降调趋势片段的平均长度；

根据语音语调内的所述第二参数计算具有代表性的环境行为、心理和说话风格特征的特有语音参数、参数的组合以及所述参数的值；

通过将计算出的参数与预定义的参考数据库进行比较对环境行为、心理和说话风格的特征进行判断和评估；

输出判断和评估结果。

4.根据权利要求3所述的方法，其中所导出的多个第二语音参数包括以下参数中的至少一项：平均停顿长度、单位时间内的总停顿长度、短时沉默的平均长度、单位时间内短时沉默的总长度、平声片段的平均长度、单位时间内平声片段的总长度、升调片段的平均长度、单位时间内升调片段的总长度、降调片段的平均长度、单位时间内降调片段的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状和频谱包络样式，以及平声、升调和降调趋势的时间顺序样式。

5.根据权利要求4所述的方法，其中建立一个对语音语调进行分类的语音参数参考数据库包括：

人工选择某一语境；

人工选择所要分析的并处于所选择语境中的行为、心理和说话风格特征；

获得人们在所选择的语境中的多个语音语调；

导出多个第二语音参数，其中所述多个选择的语音参数包括以下参数中至少一个：平均停顿长度、单位时间内的总停顿长度、短时沉默的平均长度、单位时间内短时沉默的总长度、平声片段的平均长度、单位时间内平声片段的总长度、升调片段的平均长度、单位时间内升调片段的总长度、降调片段的平均长度、单位时间内降调片段的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状和频谱包络样式，以及平声、升调和降调趋势的时间顺序样式；和

从所述第二语音参数中确定每组所特有的第二语音参数、参数的组合和所述参数的值，其中所述特有的第二参数是所述组内语音片段所共有的并代表了每一组语音的典型行为、心理或者说话风格特征。

6.根据权利要求5所述的方法，其还包含有预先获得的包括在语音参数参考数据库内的当前分析的说话者的语音样本，以识别说话者独有的说话方式，这样对说话者的当前分析就会成为说话者相关的而不是说话者无关的，以增加说话者的环境行为、心理和说话风格特征确认和评估的准确性。

7.根据权利要求5所述的方法，其还包括对在不同环境中的同一说话者进行分析，并进一步提取其在不同环境中重复出现并具有普遍性的语音样式，以确认所述说话者的个性特征并将所述个性特征与环境特征区别开来。

8.根据权利要求5所述的方法，其还包括使用基于语音分析的情绪检测以将说话者的当前情绪状态同环境特征区分开来，以增加说话者的环境行为、心理和说话风格特征确认和评估的准确性。

9.根据权利要求5所述的方法，其还包括使用基于语音识别技术的语音文字和内容分析，与韵律语音分析形成互补，以增加说话者的环境行为、心理和说话风格特征确认和评估的准确性。

10.根据权利要求5所述的方法，其还包括使用基于说话者的视觉分析的身体语言分析，与语音分析形成互补，以增加说话者的环境行为、心理和说话风格特征确认和评估的准确性。

11.根据权利要求5所述的方法，其还包括使用进行中的说话者行为、心理和说话风格特征分析提供学习***的特性，以改进语音参数参考数据库和分类处理。

12.根据权利要求5所述的方法，其还关注包括有多个说话者的语音语调，其中所述方法还包括将多个说话者的声音区别开来而且所述方法的每一次执行只单独分析一个说话者。

13.一种用于分析一说话者在特定的环境和背景下的语音语调并确定所述说话者在所述特定环境和背景下的行为、心理和说话风格特征的数据处理***，所述***包括：

一语音输入单元，其用于：对说话者的声音进行采样或者接收说话者的声音样本信号；

一与所述语音输入单元相连接以对从语音输入单元输入的语音样本进行预处理的预处理单元；

一与所述预处理单元相连接的主处理单元；

与所述主处理单元相连接的输出单元以及说话者参考数据库；

其中所述预处理单元用于：

对语音的采样信号进行预处理，以取得无声和有声语音片段并把有声片段分成一串长度相同的块，所述块带有包括有语调和振幅参数的基本语音参数；

其中所述数据库用于根据基于其特有的第二语音参数以及所述参数的集合的行为、心理和说话风格特征对语音语调进行分类，其中所选的多个特有的第二语音参数包括一下参数中的至少一项：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络样式，以及声调、降调和平声声调趋势的时间顺序样式；

其中所述主处理单元用于：

从当前分析的语音语调中导出多个从包含有所述第二语音参数的列表中选择的第二语音参数；

根据所述语音语调的第二参数计算出具代表性的环境行为、心理和说话风格特征所特有的参数、参数的组合以及所述参数的值；

通过将所述参数与预定义的第二语音参数的参考数据库进行比较以对环境行为、心理和说话风格特征进行确定和评估；

其中所述输出单元用于输出分析结果。

14.根据权利要求13所述的***，其中所述输出单元包括以下接口中至少一种：视觉、音频、存储、文字、监测设备接口、互联网接口、本地和远程设备或者计算机接口、跨网络接口、有线、无线或者蜂窝电话接口、电脑游戏接口、玩具接口、个人电子记事本接口、以及电子输出设备接口。

15.根据权利要求13所述***，其中所述***可以在通信***内实施，所述通信***选自一组群包括：语音通信***、无线或者有线电话***、蜂窝通信网络、基于网页的通信***、其它IP语音通信***，或电话局通信***。

16.根据权利要求13所述***，其中所述***可以用于至少一个以下用途：自我反馈、自我了解、娱乐、行为训练、销售优化、客户服务优化、客户和商业智能、防卫和安全应用、商业协商、广告、提亲、约会、消遣、游戏、玩具、辅导、人力资源应用、行政培训、雇员和职业培训、心理和教育应用，以及医学应用。

17.根据权利要求13所述***，其中所述数据库还包括预先得到的当前分析的说话者的语音样本以识别所述说话者独有的说话方式，这样对所述说话者的当前分析会成为说话者相关的而不是说话者无关的，以增加环境行为、心理和说话方式特征确定和评估的准确性。

18.根据权利要求13所述***，其中所述***还用于重复地分析同一说话者在数个不同环境中的语音样本，并提取其在不同环境中重复出现的具有普遍性的语音样式，以确定所述说话者的个性特征并将这些个性特征与环境特征区分开来。

19.根据权利要求13所述***，其中所述***还使用基于语音分析的情绪检测以将当前情绪状态从环境特征中区别开来，以增加环境行为、心理和说话风格特征确定和评估的准确性。

20.根据权利要求13所述***，其中所述***还使用基于语音识别技术的语音文字和内容分析，与韵律语音分析形成互补，以增加环境行为、心理和说话风格特征确定和评估的准确性。

21.根据权利要求13所述***，其中所述***还使用了基于说话者的视觉分析的身体语言分析，与语音分析形成互补，以增加环境行为、心理和说话方式的特征确定和评估的准确性。

22.根据权利要求13所述***，其中所述***还提供了基于使用进行中的说话者的行为、心理和说话风格特征分析的学习***特性，以改进语音参数参考数据库和分类处理。

23.根据权利要求13所述***，其中所述***还关注包含有多个说话者的语音语调，其中所述***用于区分多个说话者的声音并每次执行只单独分析一个说话者。

24.一种用于通过分析一个说话者的语音语调而确定其在一个特定的环境和背景下的行为、心理和说话风格特征的装置，所述装置包括：

一用于对说话者的语音进行采样或者取得语音采样信号的语音输入单元；

一与所述语音输入单元相连接并用于对从语音输入单元输入的采样信号进行预处理的预处理单元；

一与所述预处理单元相连接的主处理单元；

以及一与所述主处理单元相连接的主指示信号输出单元；

其中所述预处理单元用于：

对采样的语音信号进行预处理，以取得无声和有声语音片段并把有声片段分成一串长度相同的块，所述块带有包括有语调和振幅参数的基本语音参数；

其中所述装置与一个参考数据库相关联，所述数据库用于根据基于其特有的第二语音参数以及所述参数的集合的行为、心理和说话风格特征对语音语调进行分类，其中所选的多个特有的第二语音参数包括一下参数中的至少一项：平均停顿长度、单位时间内的总停顿长度、平均短沉默长度、单位时间内短沉默的总长度、平声片段的平均长度、单位时间内平声的总长度、升调片段的平均长度、单位时间内升调的总长度、降调片段的平均长度、单位时间内降调的总长度、平声片段的平均振幅偏移、升调片段的平均振幅偏移、降调片段的平均振幅偏移、单位时间内的音调差异和范围、单位时间内的音调斜率、语音信号的时间频谱形状以及频谱包络样式，以及声调、降调和平声声调趋势的时间顺序样式；

其中所述主处理单元用于：

根据所述语音语调的第二参数计算出具代表性的环境行为、心理和说话风格特征的特有的参数、参数的组合以及它们的值；通过将所述参数与预定义的第二语音参数的参考数据库进行比较以对环境行为、心理和说话风格特征进行确定和评估；

其中所述主指示信号输出单元用于输出分析结果。

25.根据权利要求24所述的装置，其中所述装置包含有至少一个以下用途：自我反馈、自我了解、娱乐、行为训练、销售优化、客户服务优化、客户和商业智能、防卫和安全应用、商业协商、广告、提亲、约会、消遣、游戏、玩具、辅导、人力资源应用、行政培训、雇员和职业培训、心理和教育应用，以及医学应用。

26.根据权利要求24所述的装置，其中所述装置选自一个列表，所述列表包括：声音通信设备、有线或者无线声音设备、蜂窝通信设备、联网的个人掌上电脑（PDA）、非联网的PDA、录音设备、个人电脑和服务器。

27.根据权利要求24所述的装置，其中所述输出单元包括至少一个以下接口：视觉、音频、存储、文字、监测设备接口、互联网接口、本地和远程设备或者计算机接口、跨网络接口、有线、无线或者蜂窝电话接口、电脑游戏接口、玩具接口、个人电子记事本接口，以及电子输出设备接口。