CN1283843A - 会话数据开采 - Google Patents

会话数据开采 Download PDF

Info

Publication number
CN1283843A
CN1283843A CN00122702.5A CN00122702A CN1283843A CN 1283843 A CN1283843 A CN 1283843A CN 00122702 A CN00122702 A CN 00122702A CN 1283843 A CN1283843 A CN 1283843A
Authority
CN
China
Prior art keywords
user
emotional state
audio system
relevant
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00122702.5A
Other languages
English (en)
Other versions
CN1157710C (zh
Inventor
第米垂·卡那威斯基
斯第芬·荷曼·梅斯
杰弗里·斯考特·琐伦森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1283843A publication Critical patent/CN1283843A/zh
Application granted granted Critical
Publication of CN1157710C publication Critical patent/CN1157710C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一种用于收集和话音***用户的话音相关的数据的方法包括:和用户进行对话,捕获并数字化用户的语音波形,从数字化语音波形中提取至少一个声学特征以及在数据仓库中以利用随后的数据开采的形式存储与声学特征对应的属性数据以及标识标记。在该方法的一种替代形式中,在带有或不带有存储用于随后的数据开采的数据下,可利用用户属性实时修改话音***的行为。

Description

会话数据开采
本发明涉及面向话音的***,具体地涉及一种便利数据开采的面向声学的方法和设备以及一种用于加工话音***的响应成为话音***用户的声学鉴定状态的面向声学的方法和设备。
数据开采是近来日益普及的一种跨学科领域。它指的是使用各种以无监督方式或极小监督方式从数据中提取信息的方法。“无监督”指的是其中不存在事先标注的技术;允许其自己推导出各个类。声音是簇集的,并由人明白推导出那些类。在交易、风险和欺诈管理中使用数据开采。
在数据开采(data mining)领域中,普遍认同更多数据更好。从而,从事数据开采的公司频繁地编辑或获取用户数据库。这些数据库可基于邮购史、过去顾客史、信用史等。预计顾客的电子商务以及其互联网习性很快地也会提供一种顾客数据库基础。可以从对交易或事件的人工或自动编码处理中得到所存储信息的特性。交易的一个例子可以是某给定人在某些条件下在某给定价格下购买某给定产品,或者,某给定人对某邮寄目录作出响应。事件的一个例子可包括某人在某日出交通事件,或者某家庭在上个月搬入。
传统上把数据开采所运算的数据存储在数据仓库里。一旦确定出商务对象,检查该数据仓库以选择有关特征,评估数据的品质,并把数据转换到适用于预定分析的分析模型中。接着可施加诸如预测建模、数据库分段、连接分析和偏差检测之类的技术,以便输出目标、进行预报和检查,在确认后,可以导出结果模型。
当前,常常在电话上通过话务员或交互式话音响应(IVR)***进行各种各样的交易。大家知道,作为这种交易中的通信方式的话音携带着有关用户的各种属性的信息,诸如性别、年龄、母语、口音、方言、社会经济条件、教育程度和情绪状态。这些参数中的一个或多个对于参与数据开采的各个人可能是有用的。目前,这些交易中所含有的数据上所发现的不可多得的内容或者全都丢失给数据开采者,或者为了有效地应用必须进行人工检索。
从而,现有技术需要一种用于收集数据仓库中的和话音***用户的话音相关的数据的方法,其可有效地和自动地使用利用话音***(例如电话、商亭等)的交易中所得到的数据。还要求该方法实现成实时的、带有或不带有数据仓库存储的,以允许由诸如交互式话音响应***等的话音***进行“飞行中”的修改。
解决现有技术中所确定的需求的本发明提供一种方法,用于收集数据仓库中和话音***用户的话音相关的数据。该方法包括步骤:和话音***用户进行会话,捕获语音波形,数字化该语音波形,从数字化的语音波形中提取至少一个声学特征,以及在数据仓库中存储和声学特征对应的属性数据。可通过话务员和话音允许机***中的至少一种进行和话音***用户的会话。所捕获的语音波形是和会话期间话音***用户说出的发音相关的。语音波形的数字化提供数字化语音波形。从数字化波形中提取至少一个声学特征,并且和至少一个诸如用户性别、年龄、口音、母语、方言、社会经济类别、教育程度和情绪状态的用户属性相关。存储在数据仓库里的该属性数据对应于声学特征,该声学特征和至少一个用户属性相关并且和至少一个标识标记一起存储。在数据仓库中以便利随后的数据开采的形式存储该数据。
本发明还提供一种把话音***响应加工成话音***用户的声学鉴定状态的方法。该方法包括通过该话音***和话音***用户进行对话的步骤。该方法还包括如前面所讨论的捕获语音波形并数字化该语音波形的步骤。此外,还如上述那样,该方法包括从数字化语音波形提取声学特征的步骤。最后,该方法包括根据至少一个用户属性修改该话音***的行为的步骤,其中所述至少一个用户属性和至少一个声学特征相关。
本发明还包括一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的用于实现上述方法之一的指令程序。
本发明还提供一种设备,用于收集和用户的话音相关的数据。该设备包括一个对话管理单元,一个声频捕获模块,一个声学前端,一个处理模块以及一个数据仓库。该对话管理单元进行与用户的会话。该声频捕获模块和该对话管理单元相连接,并捕获与会话期间由用户说出的发音相关的语音波形。
该声学前端和该声频捕获模块相连接,并配置成接收及数字化该语音波形以提供数字化语音波形,而且配置成从数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征。该至少一个用户属性可包括上面对各方法讨论的至少一个用户属性。
该处理模块和该声学前端相连并分析至少一个声学特征以确定至少一个用户属性。该数据仓库和该处理模块相连,并以随后的数据开采的格式存储该至少一个用户属性。
本发明还提供一种用于和用户交互的可实时修改的话音***。该***包括一个上述讨论类型的对话管理单元,一个上述讨论类型的声频捕获模块以及一个上述讨论类型的声学前端。此外,该话音***还包括一个上述讨论类型的处理模块。该处理模型配置成根据该至少一个用户属性来修改该话音***的行为。
为了更好理解本发明以及它的其它和更多的优点,请在结合各附图下参阅下述说明,而在附属权利要求书中指出本发明的范围。
图1是依据本发明的用于收集和用户的话音相关的数据的设备图;
图2是依据本发明的用于和用户交互的可实时修改的话音***图;
图3是依据本发明的用于在数据仓库中收集和话音***用户的话音相关的数据的方法的流程图;
图4描述图3中所示方法的某些细节,它们也可应用于图5;
图5是依据本发明的用于把话音***响应加工成话音***用户的声学鉴定状态的方法的流程图;以及
图6描述图5方法的某些细节。
现参照图1,其描述依据本发明的用于收集和用户的话音相关的数据的设备。该设备概括地用100标示。该设备包括一个与用户104进行会话的对话管理单元102。设备100还包括一个和对话管理单元102连接的并在会话期间捕获与用户104说出的发音相关的语音波形的声频捕获模块106。如本文中所使用的那样,应把会话广义地理解成包括第一人和/或者第二人、或者一个机器或者第二人与机器的组合之间的任何交互,该会话包括至少一些语音。
设备100还包括一个声学前端108,前端108和声频捕获模块106相连并被配置成接收及数字化该语音波形,从而提供数字化语音波形。此外,声学前端108还配置成从该数字化语音波形提取至少一个和用户104的至少一个用户属性相关的声学特征。该至少一个用户属性可包括下述中的至少一个:用户的性别、用户的年龄、用户的口音、用户的母语、用户的方言、用户的社会经济类别、用户的教育水平以及用户的情绪状态。对话管理单元102可使用从声学前端108得到的诸如MEL逆谱的声学特征,从而若需要时二者之间可以有直接连接。
设备100还包括一个和声学前端108连接的处理模块110,其分析该至少一个声学特征以确定至少一个用户属性。此外,设备100还包括一个和处理模块110连接的数据仓库112,其在随后的数据开采的形式下存储该至少一个用户属性以及至少一个标识标记。在本文的其它处讨论标识标记。
用户的性别可以通过对用户话音音调分类或者通过对特征组的简单聚类得到确定。在后一种方法中,建立和一种给定性别的大量说话人相关的话音声纹,然后借助这二组模型进行说话人的分类。以类似于性别分类的方式通过年龄组的分类可以确定用户的年龄。尽管可靠性有限,可以以这种方式区分各种年龄类别,例如,儿童、青少年、成人和老年人。
从声学特征中确定口音在技术上是周知的。例如,Lincoln等于1998年国际口语处理年会[以下称为ICSLP’98],Sidney,Australia提出的论文“A Comparison of Two Unsupervised Approaches to AccentIdentification”叙述了各种有用的技术。可以以基本上等同于口音分类的方式确定用户的母语。可以增添说话人的母语的有关元数据以定义每种口音/母语模型。
即,在创造用于各种母语的模型时,可以使用一个或多个以该语言作为他们的母语的说话人。在ICSLP”98上由Matrouf等提出的论文“Language Identification Incorporating Lexical Information”中讨论了各种语言识别的技术。
可以从口音以及某给定方言中的专用的关键字或习语的使用确定用户的方言。例如,在法语中,为数字90选用“nonante”而不是选用“Quatre Vingt Dix”可以标明该说话人为比利时或瑞士血统,而不是法国人或加拿大人。进而,随后为数字80选用“qutre-vingt”而不选用“octante”或“Huitante”可标明该人是比利时人而不是瑞士人,在美式英语中选用“grocery sack”而不选用“grocery bag”可标识某个人来自于中西部而不是来自于中大西洋部。美语中中西部和中大西洋部不同的另一个例子是,在中西部对软饮料选用“pop”,而在中大西洋部为该相应的软饮料选用“soda”。在国际环境下,使用“holiday”以代替“vacation”可标明某人为英国而不是美国血统。本段中所讨论的操作可利用后面讨论的语音识别器126实现。
用户的社会经济分类可包括诸如用户的种族背景、用户的人种背景及用户的经济类型等因素,例如,兰领、白领-中产阶级或富人。可以通过训练时刻带注释的口音和方言以及通过检查用户用词选择对此作出确定,尽管其可靠性只是中等的,确信这些技术可充分了解用户背景,从而对数据开采是有用的。
以类似于社会经济分类的方式,可通过词的选择以及口音确定用户的教育等级;同样只能期待局部可靠性,但对于数据开采目的是足够的。
从声学特征中确定用户的情绪状态在技术上是周知的。可以识别的情绪类型包括:激怒、忍怒、惊慌、恐惧、焦急、悲哀、得意、失望、高兴、感兴趣、厌烦、害羞、轻视、慌乱、厌恶和傲慢。下述在ICSLP’98上提交的论文都描述了从有关的声学特征中确定情绪状态的示例方法:Pereira和Watson的“Some Acoustic Characteristics of Emotion”,Amir和Ron的“Towards an Automatic Classification of Emotions in Speech”,以及Whiteside的“Simulated Emotions:An Acoustic study of Voice andPerturbation Measures.”
声频捕获模块106可包括例如模数转换器板、交互话音响应***和麦克风中的至少一个。对话管理单元102可包括一个电话交互话音响应***,例如用于实现声频捕获的同一***。备择地,对话管理单元可以简单电是一个对话务员的声学接口。对话管理单元102可包括自然语言理解(NLO)、自然语言生成(NLG)、有限状态语法(FSG)和/或用于代替或辅助话务员的对用户进行机器提示的文本至语音的合成(TTS)。处理模块110可在IVR的处理器部分中实现,或者可由一个单独的带有适当软件的用计算机实现。另外,可以利用诸如专用集成电路(ASIC)的专用电路实现处理模块,或者用采用分离元件的或采用分离及集成元件组合的专用电路实现。
处理模块110可包括一个情绪状态分类器114。分类器114可进而包括一个情绪状态分类模块116以及一个情绪状态原型数据库118。
处理模块110还包括一个说话人聚类器及分类器120。部件120还可包括一个说话人聚类及分类模块122和一个说话人类别数据库124。
处理模块110还可包括一个语音识别器126,后者进而可包括一个语音识别模块128和一个语音原型、语言模型及语法数据库130。语音识别器126可以是对话管理单元102的一部分,或者,例如是处理模块的实现内的一个独立部件。此外,处理模块110可包括一个口音识别器132,后者进而包括一个口音识别模块134和一个口音数据库136。
处理模块110可包括部件114、120、126和132中的任一部件;可包括所有这些部件或它们的任何组合。
设备100还可包括一个后处理器138,其和数据仓库112连接并且配置成译出用户的发音并对用户发音进行关键字识别。尽管在图1中是按一个独立物示出的,后处理器可以是处理模块110的一部分或者是处理模块110的任何子部件。例如,它可实现成是语音识别器126的一部分。可以按专用电路或带有适当软件模块组的通用计算机上的一部分,把后处理器138实现成IVR的处理器部分。后处理器138可使用语音识别器126。后处理器138还可包括一个语义模块(未示出)以解释短语的含义。语音识别器126可使用该语义模块以指示某列表中某些译码侯选物是无意义的并应丢弃/或用有意义的候选物代替。
声学前端108如技术上周知可以典型地是一个八维加能量前端。但应理解,可采用13、24或任何其它数量的维数。例如可以在带有10ms重叠的25ms的帧组上计算MEL逆谱以及三角(deleta)参数和双三角参数,即,一次和二次微商。如图1中所示,可把这些声学特征提供给说话人聚类器及分类器120、语音识别器126和口音识别器132。
可以由声学前端108提取其它类型的声学特征。可把它们标示成情绪状态特征,例如平均运行音调(pitch)、运行音调方差、音调跳动、运行能量方差、语音速率、摆振(shimmer)、基频以及基频中的偏差。音调跳动指的是音调的一阶导数中符号的改变次数。摆振是能量跳动。可把这些特征从声学前端108提供到情绪状态分类器114。上述包括MEL逆谱和情绪状态特征在内的声学特征可看成是原始的即未处理的特征。
可通过IVR等译出用户询问。可首先例如在说话人聚类器和分类器120中,通过和文本无关的说话人分类***处理语音特征。这允许根据其话音的声学类似性对说话人分类。在1996年2月2日提交的美国专利申请S.N.60/011,058,1997年1月28日提交的美国专利申请S.N.08/787,031(现为1999年4月20日颁布的美国专利5,895,447),1997年1月28日提交的美国专利申请S.N.08/788,471以及1997年1月28日提交的美国专利申请S.N.08/787,029中公开这样的***的实现和使用,所有这些专利申请都共同转让给国际商用机器公司,这些公开都特意与本文相结合供用于各种参考。对说话人的分类可以是受监视的或不受监视的。在受监视的情况下,根据外部信息事先决定类别。典型地,这种分类可区分男与女、成人与儿童、母语说话人与非母语说话人等等。该分类处理的标示构成处理过的特征。该处理的结果可提供给情绪状态分类器114,并且可与训练期间用于根据对某给定类观测到的均值把情绪状态特征归一化成中性情绪状态。该归一化情绪状态特征由输出情绪状态估计的情绪状态分类器114使用。该输出也被当成是处理过的特征的一部分。概言之,情绪状态分类器114可根据语音聚类器及分类器120生成的每个类归一化情绪状态特征。可按如下归一化一个特征。令Xo为额定频率。并令Xi为测出频率·归一化特征则由Xi减Xo给出。该量可为正、为负或为零,通常是无量纲的。
语音识别器126可改录来自用户的询问。这可以是与说话人无关的或者与类别相关的大词汇量连续语音识别,或者,***可简单到是一个关键字识别器以检测出(例如)危害等。这类***是技术中周知的。输出可以是完整的句子,但也可得到精细颗粒;例如,各识别出的词的时间校准。该带时间印记的改录也可当作一部分处理过的特征,在后面根据本发明的方法会进一步作出说明。这样,可以译出并存储事务的每个阶段中的会话。如图1中所示,适当的数据从说话人聚类器及分类器120传送到情绪状态分类器114和语音识别器126。如所提及,有可能利用用户104的输入语音进行口音、方言及语言识别。可根据具有要识别的不同口音的几个说话人的语音训练连续语音识别器。每个训练说话人还带有一个口音向量,该向量的各个维代表与每个lefeme的每个状态有关的最有可能的混合构件。可以根据这些口音向量之间的距离对说话人聚类,并且例如可通过说话人成员组的口音标识各聚类器。可以通过从用户的语音中提取口音向量并进行分类实现口音识别。如所述,可以根据用户104使用的词汇和词序列估计方言、社会经济类别等。通过专家语言知识可以编辑要检测的适当关键字、句子或语法错误。口音、社会经济背景、性别、年龄等是一部分处理过的特征。如图1中所示,任何用实箭头指示的处理过的特征可存储在数据仓库112中。此外,在数据仓库112中还可存储用虚线指示的原始特征。
在完成事务后,可在数据仓库112中存储任何处理过的或原始的特征,并把它们和其它已收集的数据关联起来。然后施加传统的数据开采技术。这样的技术是已知的,例如在Alex Berson和Stephen J.Smith所著的由McGraw Hill出版社于1977年出版的“Data warehousing,Data Mining and OAAP”一书中以及在Cabena等著的由Prentice Hall出版社于1998年出版的“Discovering Date Mining”一书中所描述的。对于给定的商用目的,例如目标营销(target marketing),通过应用适当的开采方法可自动地得到预测模型或分类器。数据仓库112中存储的所有数据可以以一种便利随后的数据开采的格式存储。业内人士知道用于要被开采的数据的各种适当格式,例如上述二本参考书籍中所描述。商用目的例如可包括检查对提出购买某给定产品或服务敏感的用户,检查对自动***存在问题从而应转到话务员的用户,以及检查对服务生气并应转到上级主管的用户。用户104可以是使用设备100的某商业顾客,或者可以是其它类型机构,例如非赢利机构、政府部门等的客户。
通过各种模型可以提取各种特征并且可动态地回送决策。后面会对此进一步讨论。
现参照图2,其描述依据本发明的并概括地用200表示的一个用于和用户交互的可实时修改的话音***。图2中类似于图1中的部件的各部件用递增了100的相似参考数表示。***200可包括一个与前面的讨论类似的对话管理单元202。具体地,如图2中所建议,单元202可以是一个话务员或管理人员、IVR或者话音用户接口(VUI)。***200还可包括一个和上述讨论类似的声频捕获模块206以及一个亦和上述讨论类似的声学前端208。和设备100一样,单元202在需要时可和声学前端208直接连接,以便使用由前端208确定的MEL逆谱或其它声学特征。此外,***200包括一个与上述讨论类似的但具有一些现要说明的附加特性的处理模块210。处理模块210可包括一个实行用户204的动态分类的动态分类模块240。从而,处理模块210配置成根据至少一个用户属性修改话音***200的行为,所述至少一个用户属性是根据从用户的语音中提取的至少一个声学特征确定的。***200还包括一个商用逻辑单元242,后者和对话管理单元202、动态分类模块240连接并供选择地和声学前端208连接。该商用逻辑单元可按IVR或VUI的处理部分实现,可以是适当编程的通用计算机的一部分,或者可以是专用电路。目前认为处理模块110、210(包括模块240)最好按通用计算机实现并且商用逻辑242最好在交互话音响应***中的处理器部分中实现。如粗线244所建议那样,动态分类模块可配置成向商用逻辑单元242和对话管理单元202提供反馈,该反馈可以是实时反馈。
可以如所示选用地设置数据仓库212和后处理器238,它们可按上面对数据收集设备100讨论的那样运行。然而,要强调的是,在本发明的可实时修改的话音***200中,数据仓库是选用的,并且若需要该***在可局限于由线244指示的对部件240、242、202所讨论的实时反馈上。
通过如和对话管理单元202连接的反馈线244所示那样提示话务员,处理模块210可以修改,至少部分地,***200的行为。例如,当检测到用户204的生气情绪状态时可以警告话务员并提醒对用户204使用缓和的词组,或把该用户转到更高层的管理人员。另外,处理模块210可修改***200的商用逻辑242。例如当处理模块210和商用逻辑单元242都是IVR***的一部分时,这是可做到的。后面会进一步讨论商用逻辑的修改例子,其中可包括根据***200检测到的用户属性修改对用户204的营销报价。
如所述,处理模块210及其各子部件以和图1的处理模块110基本相同的方式运行。然而要注意到由图2中的虚线和箭头示出的语音识别模块228的输出对商用逻辑242的反馈的选项。
应注意在本申请中,包括说明书和各附图中,术语“心情”被认为是等同于术语“情绪状态”。
现转到图3,其中描述用于在数据仓库中收集和话音***用户的话音相关的数据的一种方法的流程图。在框302处启动后,该方法包括按照框304经过话务员和话音操纵机器***中的至少一种和该话音***的用户进行会话的步骤。按照框306,该方法还包括捕获语音波形,该波形是和会话期间话音***用户说出的发音相关的。按照框308,该方法还包括数字化该语音波形以提供数字化语音波形的步骤。按照框310,该方法还包括从数字化语音波形提供至少一个和至少一个用户属性相关的声学特征的步骤。该至少一个声学特征可以是上面讨论的任何特征,例如MEL逆谱或任一种情绪状态特征。用户属性可包括上面讨论的任何用户属性,即,性别、年龄、口音和其余上述属性。最后,按照框316该方法可包括在数据仓库中以利于随后的数据开采的形式存储和声学特征对应的属性数据以及至少一个标识标记的步骤,其中所述声学特征和至少一个用户属性相关。可以使用任何所需类型的标识标记;该术语是广泛理解的。例如,该标识标记可以是时间印记,其对应于某给定时间进行的某会话的各种特性,从而标识该给定的事务;该标识标记可以是标识号或姓名等,以标识该用户;或者,该标识标记可以是任何其它与用于数据开采过程中的属性数据相关的信息条目。
如判定框320所示,可以为多次附加的会话重复框304、306、308、310和316中的上述各步骤,以提供包括属性数据和标识标记的存储数据的集合。这可重复多次直至对数据开采存在充分的数据。接着,如框322中所示,可开采该存储数据集合以提供所需的信息,例如用于修改该话音***的基础商用逻辑的信息。
如所述,按照框316,存储步骤可包括在其中所存储的至少一个标识标记是时间印记。收集的数据越多,可建立的各种模型越好。数据收集可以注释,这可能通过使用已经训练过的用于识别各条目的现有分类器组或者仅通过估计所需条目的翻译器的注解。也可使用这二种技术的组合,上面讨论的多次附加会话最好是和多个不同的用户进行的,从而可具有来自大量说话人的数据。
按照框310的提取步骤可包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态特征。
按照框312,可以归一化提取出的特征,当这些特征是情绪状态的指示时相信这是特别有用的。前面已根据本发明的设备对此做了讨论。
按照框314,方法300还可包括处理至少一个声学特征以确定至少一个用户属性的附加步骤。在该情况下,得到处理过的各特征,及属性数据可以是属性值本身,例如,情绪状态的某个值。这不同于只存储原始数据的方法,在该情况下属性数据可简单地是各原始特征,即,上面讨论的MEL逆谱或情绪状态特征。从而,概言之,在框316中可存储原始声学特征(例如,波形、MEL逆谱、情绪状态特征)和处理过的声学特征(例如情绪状态的值(高兴、悲伤、迷惑)、会话翻译)中的一种或者原始及处理过的声学特征二者。
参照框318,在按照框314执行处理步骤中所使用的处理模块可在每次把附加属性存储到数据仓库中时自动地得到改进。即,可以利用每条新数据改进上面根据本发明的设备所讨论的聚类、分类和识别功能。
现参照图4,其中示出一些选用的子步骤,最好把它们和图3中示出连带在一起地执行。具体地,若需要,图3中的框310可包括至少提取MEL逆谱,如图4中的框310’内所示。在这种情况下,该方法还可包括下述步骤:根据MEL逆谱识别用户的语音(框314A),翻译语音(框314B)以及确定语音(框314C)。可以为词的选择和词汇集中的至少一个确定语音,以便确定用户的教育水平、用户的社会经济类别及用户的方言之中的至少一个。根据需要还可确定和词的选择以及词汇集相关的其它用户属性。在另一种意义上,可把步骤314A、314B和314C当成是图3的处理框314的子步骤。
回到图3,该流程的结束可由框324表示。
现参照图5,其中描述代表一种依据本发明的用于把话音***响应加工成话音***用户的声学确定状态的方法的流程图400。在从框402开始后,按照框404,该方法包括通过该话音***和话音***用户进行会话的步骤。按照框406,该方法还包括捕获与会话期间该话音***用户说的发音相关的语音波形的步骤。此外,按照框408,该方法包括数字化语音波形的步骤以提供数字化语音波形的步骤。而且,按照框410,该方法包括从该数字化语音波形提取至少一个和至少一个用户属性相关的声学特征的步骤。该至少一个用户属性可包括上面讨论的任何用户属性。可以理解框402-410类似于图3中的框302-310。
最后,按照框415,该方法可包括根据该至少一个用户属性修改该话音***的行为。与不带有修改的话音***的预定响应相比,话音***行为的修改可包括实时改变话音***的商用逻辑和实时修改话音***响应中的至少一种。应参照上面对本发明的设备的讨论。例如,话音***响应的实时修改可把烦恼用户转给话务员。
按照框410的提取步骤可包括提取任何上述的情绪状态特征,或者提取前面讨论的任何其它特征。按照框412,该方法可选用地包括归一化声学特征的附加步骤,具体地当声学特征是情绪状态特征的情况下。依据框416,该方法可选用地包括在数据仓库中存储对应于声学特征的属性数据以及至少一个标识标记的附加步骤,其中所述声学特征和至少一个用户属性相关。该存储可以用有利于随后的数据开采的形式,并且可包括原始状态或处理过状态中的一种状态。该步骤基本上类似于上面对由流程图300所代表的方法中的有关讨论。应理解,按照框414,可利用一个处理模块处理特征以确定所需的属性。在该情况下,属性数据可以是属性本身;当未进行处理时,属性数据可以是原始声学特征。尽管图5中描述的方法可限制成修改话音***的行为,若需要也可进行框418的改进步骤、由判定框420控制的重复以及数据开采步骤(即,如图3中描述的方法那样)。框424表示该方法的结束。
如流程图300所代表的方法那样,流程图400所代表的方法可根据对用户语音的翻译确定某些用户属性。从而,在框410的提取步骤中,可包括至少MEL逆谱的提取。重新参照图4,这是在框410’中实现的。其它的步骤可包括:基于MEL逆谱对用户语音的识别(框414A);对语音的翻译(框414B);以及为词的选择和词汇集中的至少一个检查语音(框414C),从而确定用户的教育水平、用户的社会经济类别和用户的方言中的至少一种。如前面那样,可确定其它与词选择的词汇集相关的用户属性。
现参照图6,其中描述和流程图400的方法的某些方面相关的某些细节。具体地,在依据流程图400的方法的某些实施例中,按照图6中的框414D,处理步骤414可包括检查情绪状态特征以确定用户的情绪状态。此外,按照图6中的框415A,行为修改框415可包括采取行动以响应于先前确定的情绪状态。这样,可以检查情绪状态特征以判定用户是否为快活(即高兴)的情绪状态还是处于厌恶、轻视、害怕和生气的情绪状态中的至少一种状态下。当发现用户处于快活情绪状态时,如框415A中采取的动作那样,可向他或她提出至少一种产品或服务。替代地,当发现用户处于快活情绪状态时,可对该用户进行营销研究,以作为框415A中采取的动作。
仍参照图6,在利用情绪状态特征判定情绪状态的情况下,按照框426可以确定不同于情绪状态特征的特征以判定情绪状态之外的属性,并且接着按照框428在框415A中采取的动作可改变成响应于与情绪状态不同的属性。例如,当向快活的用户提出产品和服务中的至少一个时,可根据至少一个不同于情绪状态的用户属性而修改提出的产品或服务。替代地,当该快活的用户受到营销研究时,可修改该营销研究以响应于至少一个不同于情绪状态的用户属性。例如,假定要向一个愉快的用户提出产品和服务中的一种,可检查语言类型以判定用户来自钓鲈鱼很流行的美国南部的农区地区,此外若需要还可检查音调以判断定其为男性。然后可对该人提议提供钓鲈鱼的设备及录像带。或者,假定把要进行营销研究的快活的对象判定成来自富有的城市地区并受过良好教育的中年女性。该营销研究可修改成向她询问其对高级化妆品、时装购买爱好或时髦度假胜地。
如所述,可以检查情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气的情绪状态之中的一种状态下。若利用IVR***进行该方法,并且检测出这样的情绪状态,则框415A应构造成响应于用户的这种被检测出的情绪状态把该用户从IVR切换到话务员上。替代地,在采用混合式交互话音响应***的情况下,若检测出类似的情绪状态,在框415A中采取的行动应把该用户从低层话务员切换到高层管理人员上以响应于用户的这种情绪状态。
另外,可以检查情绪状态特征以判定用户是否处于迷惑情绪状态。这可以利用技术上已知的方法,例如上面讨论的ICSLP’98中叙述的方法来达到。例如可通过推迟对问题的回答、结结巴巴、重复、不说话等表现出迷惑。这样,语音识别和翻译是有价值的。当检测出迷惑情绪状态时,框415A中采取的行动应响应于该迷惑情绪状态把用户从基本上自动的IVR***转到话务员上。
本发明还包括一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的指令程序,用于实现本文中公开的任何方法的各方法步骤或者这些方法的任何步骤子集。例如,在由通用计算机或IVR***的处理器部分常规地执行各方法步骤的某子集的场合,可在软盘、CD-ROM等上写入适当的程序指令。在流程图300中示出的方法里,这些方法步骤应包括读出对应于语音波形的数字数据,其中所述语音波形和在话音***用户与话务员及话音操纵机器***之中的至少一个会话期间由该话音***用户说出的发音相关。用于附加步骤的程序指令应包括实现框310和316中所描述的任务或者所需的任何其它框的任务的指令。
类似地,对于流程图400中描述的方法,要通过程序指令执行的第一步骤应包括读出和语音波形对应的数字数据,其中所述语音波形和在话音***用户与话务员及话音操纵机器***之中的至少一个会话期间由该话音***用户说出的发音相关。在该程序指令组中带有的附加方法步骤应该例如是框410和框415中的方法步骤,如前面所述,或者,实际上是本文中讨论的任何其他方法步骤。
应该理解,可以通过本发明的模型提取特征并动态地回送决策。除了已经叙述的这些例子之外,当诸如顾客的用户害怕地说话时,话务员可出于各种原因,例如保证交易不是强迫的,可以侦听通话。此外,可以检测出用户(或者,操作员)的气愤,除了修改自动式或混合式IVR***的响应之外,其还可用于质量控制,例如用作估评和训练顾客服务机构的手段。
本发明可扩充到声信息之外的别的信息。例如,可包括伴有或不伴有声频数据的视频信息。从而,要求进行会话的方法步骤应替代地进行视频交易。视频信息可帮助识别或分类用户属性。可以自然地通过可视电话、商亭中的摄象机、计算机上的摄象机等收集这样的数据。诸如微笑、大笑、哭等的属性和情绪状态可得到识别。此外,可以标记和某些可视觉确定的用户属性或情绪状态相对应的话音部分。这应能建立一个训练数据库,该数据库对于建立用于只通过声学数据识别用户属性的各种自动技术应是有用的。从而,可以在只从视觉确定的用户属性、只从声学确定的用户属性或二者上进行数据开采。
可以根据共同的人类经验从外观上确定用户属性,即,红脸意味愤怒或窘迫,微笑意味高兴或快活的心情,泪水意味着悲伤。此外,可以和视频及声学数据一起得到适当的生物统计数据。另外,同时可得到多于一个人的数据。例如可同时监视父母和孩子,或者,也可同时监视寻找房子或汽车的一对夫妇。可以检测到对一大堆食品高兴的孩子,同时还检测出对这样的选择不悦的父母。当太太选择购买昂贵的珠宝时,丈夫可能是生气的,而妻子是高兴的。替代地,当丈夫的选择是购买昂贵的一组高尔夫球棍时,丈夫是高兴的而他的妻子不高兴。
如所述,可以使用时间印记,作为一种和用户属性数据一起存储的标记。这允许研究在一天的不同时刻人们如何响应,或者观察人们在人生的不同阶段的演变,例如从儿童长大成青少年然后是成人,或者人们变老时对成年时的兴趣的改变。还可跟踪和绘出亲属间的相似性。另外,可被跟踪的一个用户属性是疲劳。这样的***例如可安装在汽车、火车、飞机或长途载重车里以监视操作员的疲劳,并提示操作员换班并休息,或者大声放音乐以使操作员保持清醒。Zadrozny和Kanevsky的标题为“防止睡觉的汽车上对话***”的共同转让的美国专利申请09/078,807(1998年5月4日提交)特意作为本文的参考资料。
应注意本文中讨论的话音***可包括对计算机等通话的电话***、公用电话亭。术语“声学特征”是广义理解的,并且如所讨论那样可包括原始特征或处理过的特征,或者二者。例如,当声学特征是MEL逆谱时,一些处理过的特征可包括关键词、句子部分等。某些关键字例如可以是不能接收的脏词,应把它们去掉,并导致召来管理人员,或导致对雇员的处分。还应强调,在用于进行话音***的实时修改的设备和方法中,在数据仓库里存储带有标记的属性是供选用的,不是必须进行的。
当训练模型时,话务员在对不同的用户属性作出受教育的猜测时可注释数据。替代地,可以利用一组已训练过的现有分类器自动地完成注释。也可采用这两种技术的组合。所存储的标记除了本文中讨论的时间印记和其它项目之外可包括交易事件或结果,或者任何其它有用信息。流程图400描述的方法也可用于借助话务员的现场会话,以人工地改变由话务员使用的商用逻辑,或者当注意生气和其它不希望的情况时自动地召来管理人员。
尽管说明了目前认为是本发明的各种优选实施例,业内人士可意识到可在不背离本发明的实质的情况下对本发明作出各种改变和修改,并且本发明的范围内的所有这样的改变和修改是受到权利保护的。

Claims (44)

1.一种用于在数据仓库中收集和话音***用户的话音相关的数据的方法,所述方法包括步骤:
(a)通过话务员和话音操纵机器***中的至少一个进行与话音***用户的会话;
(b)捕获与所述会话期间由该话音***用户说出的发音相关的语音波形;
(c)数字化所述语音波形以提供数字化语音波形;
(d)从所述数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(d-1)用户的性别;
(d-2)用户的年龄;
(d-3)用户的口音;
(d-4)用户的母语;
(d-5)用户的方言;
(d-6)用户的社会经济类别;
(d-7)用户的教育水平;以及
(d-8)用户的情绪状态;以及
(e)在数据仓库中以利于随后对其进行数据开采的形式存储和所述声学特征对应的属性数据以及至少一个标识标记,其中所述声学特征和所述至少一个用户属性相关。
2.权利要求1的方法,还包括下述附加的步骤:
(f)为多次与其它用户的其它会话重复步骤(a)-(e),以提供包括属性数据和标识标记的存储数据的集合;以及
(g)开采存储数据集合,以提供用于修改话音***的基础商用逻辑的信息。
3.权利要求1的方法,其中步骤(e)包括存储包含时间印记的至少一个标识标记。
4.权利要求1的方法,其中步骤(d)包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态特征。
5.权利要求4的方法,还包括归一化所述至少一个情绪状态特征的附加步骤。
6.权利要求1的方法,还包括处理所述至少一个声学特征以确定所述至少一个用户属性的附加步骤,其中步骤(e)中的所述属性数据至少包括所述用户属性的一个值。
7.权利要求6的方法,还包括响应在数据仓库中存储附加的属性自动改进所述处理步骤的附加步骤。
8.权利要求1的方法,其中步骤(e)包括把所述属性数据存储为至少一个实质上原始的声学特征。
9.权利要求1的方法,其中步骤(d)包括至少提取MEL逆谱,其中还包括基于所述MEL逆谱识别用户的语音、翻译所述语音以及从词选择和词汇集中之一检查所述语音以确定用户的教育水平、用户的社会经济类别及用户的方言中的至少一个附加步骤。
10.一种用于把话音***响应加工成从声学上确定的话音***用户的状态的方法,所述方法包括步骤:
(a)通过话音***和该话音***用户进行会话;
(b)捕获与所述会话期间由该话音***用户说出的发音相关的语音波形;
(c)数字化所述语音波形以提供数字化语音波形;
(d)从所述数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(d-1)用户的性别;
(d-2)用户的年龄;
(d-3)用户的口音;
(d-4)用户的母语;
(d-5)用户的方言;
(d-6)用户的社会经济类别;
(d-7)用户的教育水平;以及
(d-8)用户的情绪状态;以及
(e)根据所述至少一个用户属性修改该话音***的行为。
11.权利要求10的方法,其中步骤(e)中的所述修改至少包括下述之一:
实时改变话音***的商用逻辑;以及
和不带有所述修改的话音***的期待响应相对比,实时地修改话音***响应。
12.权利要求10的方法,其中步骤(d)包括提取基频、基频中的偏差、平均运行音调、运行音调方差、音调跳动、运行能量方差、语音速率以及摆振中的至少一个,以作为和用户的情绪状态相关的至少一个情绪状态的特征。
13.权利要求12的方法,还包括归一化所述至少一个情绪状态特征的附加步骤。
14.权利要求10的方法,其中步骤(d)包括至少提取MEL逆谱,其中还包括基于所述MEL逆谱识别用户的语音、翻译所述语音以及从词选择和词汇集中之一检查所述语音以确定用户的教育水平、用户的社会经济类别及用户的方言中的至少一个附加步骤。
15.权利要求12的方法,还包括检查所述至少一个情绪状态特征以判定该用户是否处于快活情绪状态的附加步骤;
其中步骤(e)包括响应于所述快活情绪状态向该用户至少提出一种产品和一种服务中的至少一种。
16.权利要求15的方法,还包括下述附加步骤:
确定至少一个和情绪状态不同的用户属性;以及
响应于所述至少一个和情绪状态不同的用户属性而修改所述一种产品和一种服务中的至少一种。
17.权利要求12的方法,还包括检查所述至少一个情绪状态特征以判定该用户是否处于快活情绪状态的附加步骤;
其中步骤(e)包括响应所述快活情绪状态至少对该用户进行营销研究。
18.权利要求17的方法,还包括下述附加步骤:
确定至少一个不同于情绪状态的用户属性;以及
响应于所述至少一个不同于情绪状态的用户属性而修改所述市场研究。
19.权利要求12的方法,其中所述话音***实质上是自动交互话音响应(IVR)***,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气的情绪状态中的至少一种状态下的附加步骤;
其中步骤(e)包括响应于所述厌恶、轻视、害怕和生气情绪状态中的至少一种状态至少把所述用户从所述IVR转到话务员上。
20.权利要求12的方法,其中所述话音***是混合式交互话音响应(IVR)***,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于厌恶、轻视、害怕和生气情绪状态中的至少一种状态下的附加步骤;
其中步骤(e)包括响应于所述厌恶、轻视、害怕和生气情绪状态中的至少一种状态至少把所述用户从低层话务员转到高层管理人员。
21.权利要求12的方法,其中所述话音***实质上是自动交互话音响应(IVR)***,该方法还包括检查所述至少一个情绪状态特征以判定用户是否处于迷惑情绪状态下的附加步骤;
其中步骤(e)包括响应于所述迷惑情绪状态把所述用户从所述IVR转到话务员。
22.权利要求10的方法,还包括附加步骤:
(e)在数据仓库中以利于随后对其进行数据开采的形式存储和所述声学特征对应的属性数据以及至少一个标识标记,其中所述声学特征和所述至少一个用户属性相关。
23.一种用于收集和用户的话音相关的数据的设备,所述设备包括:
(a)一个和用户进行会话的对话管理单元;
(b)一个和所述对话管理单元连接并捕获与会话期间由该用户说出的发音相关的语音波形的声频捕获模块。
(c)一个声学前端,其和所述声频捕获模块连接并配置成:
接收并数字化语音波形以提供数字化语音波形;以及
从数字化语音波形中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(c-1)用户的性别;
(c-2)用户的年龄;
(c-3)用户的口音;
(c-4)用户的母语;
(c-5)用户的方言;
(c-6)用户的社会经济类别;
(c-7)用户的教育水平;以及
(c-8)用户的情绪状态;
(d)一个和所述声学前端连接并分析所述至少一个声学特征以确定所述至少一个用户属性的处理模块;以及
(e)一个和所述处理模块连接并以随后在其上进行数据开采的形式存储所述至少一个用户属性以及至少一个标识标记的数据仓库。
24.权利要求23的设备,其中所述声频捕获模块由模数转换器板、交互话音响应(IVR)***和麦克风中之一构成。
25.权利要求23的设备,其中所述对话管理单元由电话交互话音响应(IVR)***构成。
26.权利要求25的设备,其中所述处理模块由所述IVR的处理器部分构成。
27.权利要求23的设备,其中所述处理模块由带有适当软件的独立通用计算机构成。
28.权利要求23的设备,其中所述处理模块由专用电路构成。
29.权利要求23的设备,其中所述处理模块包括至少一个情绪状态分类器。
30.权利要求29的设备,其中所述处理模块还包括至少:
一个说话人聚类器及分类器;
一个语音识别器;以及
一个口音识别器。
31.权利要求30的设备,还包括一个和所述数据仓库连接并配置成译出用户的发音和在其上进行关键词确定的后处理器。
32.一种用于和用户交互的可实时修改的话音***,所述***包括:
(a)一个和用户进行会话的对话管理单元;
(b)一个和所述对话管理单元连接并捕获与会话期间由该用户说出的发音相关的语音波形的声频捕获模块。
(c)一个声学前端,其和所述声频捕获模块连接并配置成:
接收并数字化语音波形以提供数字化语音波形;以及
从数字化语音波形提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(c-1)用户的性别;
(c-2)用户的年龄;
(c-3)用户的口音;
(c-4)用户的母语;
(c-5)用户的方言;
(c-6)用户的社会经济类别;
(c-7)用户的教育水平;以及
(c-8)用户的情绪状态;以及
(d)一个和所述声学前端连接并分析所述至少一个声学特征以确定所述至少一个用户属性的处理模块;
其中所述处理模块配置成根据所述至少一个用户属性修改该话音***的行为。
33.权利要求32的***,其中所述处理模块通过提示话务员至少部分地修改该话音***的行为。
34.权利要求32的***,其中所述处理模块由交互话音响应(IVR)***的处理器部分构成,并且其中所述处理器模块通过修改IVR的商用逻辑至少部分地修改,该话音***的行为。
35.权利要求32的***,其中所述声频捕获模块由模数转换器板、交互话音响应(IVR)***和麦克风中之一构成。
36.权利要求32的***,其中所述对话管理单元由电话交互话音响应(IVR)***构成。
37.权利要求36的***,其中所述处理模块由所述IVR的处理器部分构成。
38.权利要求32的***,其中所述处理模块由带有适当软件的独立通用计算机构成。
39.权利要求32的***,其中所述处理模块由专用电路构成。
40.权利要求32的***,其中所述处理模块包括至少一个情绪状态分类器。
41.权利要求40的***,其中所述处理模块至少还包括:
一个说话人聚类器及分类器,
一个语音识别器;以及
一个口音识别器。
42.权利要求41的***,还包括一个和所述数据仓库连接并配置成译出用户的发音和在其上进行关键词确定的后处理器。
43.一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的指令程序,以实现在数据仓库中收集和话音***用户的话音相关的方法步骤,所述方法步骤组包括,
(a)读出对应于语音波形的数字数据,其中所述语音波形和在话音***用户与话务员及话音操纵机器***之中的至少一个会话期间由该话音***用户说出的发音相关;
(b)从所述数字数据中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(b-1)用户的性别;
(b-2)用户的年龄;
(b-3)用户的口音;
(b-4)用户的母语;
(b-5)用户的方言;
(b-6)用户的社会经济类别;
(b-7)用户的教育水平;以及
(b-8)用户的情绪状态;以及
(c)在数据仓库中以利于随后对其进行数据开采的形式存储和所述声学特征对应的属性数据以及至少一个标识标记,其中所述声学特征和所述至少一个用户属性相关。
44.一种可由机器读的程序存储部件,其有形地嵌有可由该机器执行的指令程序,以实现用于把话音***响应加工成由声学确定的话音***用户的状态的方法步骤,所述方法步骤组包括:
(a)读出对应于语音波形的数字数据,其中所述语音波形和在话音***用户与话务员及话音操纵机器***之中的至少一个会话期间由该话音***用户说出的发音相关;
(b)从所述数字数据中提取至少一个和至少一个用户属性相关的声学特征,所述至少一个用户属性包括下述中的至少一个:
(b-1)用户的性别;
(b-2)用户的年龄;
(b-3)用户的口音;
(b-4)用户的母语;
(b-5)用户的方言;
(b-6)用户的社会经济类别;
(b-7)用户的教育水平;以及
(b-8)用户的情绪状态;以及
(c)根据所述至少一个用户属性修改话音***的行为。
CNB001227025A 1999-08-10 2000-08-08 会话数据开采 Expired - Lifetime CN1157710C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/371,400 1999-08-10
US09/371,400 US6665644B1 (en) 1999-08-10 1999-08-10 Conversational data mining

Publications (2)

Publication Number Publication Date
CN1283843A true CN1283843A (zh) 2001-02-14
CN1157710C CN1157710C (zh) 2004-07-14

Family

ID=23463836

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001227025A Expired - Lifetime CN1157710C (zh) 1999-08-10 2000-08-08 会话数据开采

Country Status (6)

Country Link
US (1) US6665644B1 (zh)
EP (1) EP1076329B1 (zh)
CN (1) CN1157710C (zh)
AT (1) ATE341071T1 (zh)
CA (1) CA2311439C (zh)
DE (1) DE60030920T2 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241699B (zh) * 2008-03-14 2012-07-18 北京交通大学 一种远程汉语教学中的说话人确认方法
CN102802114A (zh) * 2012-06-20 2012-11-28 北京语言大学 利用语音进行座席筛选的方法及***
CN103377432A (zh) * 2012-04-16 2013-10-30 殷程 智能客服营销分析***
CN103680518A (zh) * 2013-12-20 2014-03-26 上海电机学院 基于虚拟仪器技术的语音性别识别方法及***
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
CN103810995A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
CN101548314B (zh) * 2006-05-18 2014-06-11 Ex音频技术公司 通过语音分析确定个人生存、稳衡、发展概要的***和方法
CN104183235A (zh) * 2013-05-28 2014-12-03 通用汽车环球科技运作有限责任公司 用于塑造语音***的对话的方法和***
CN105206269A (zh) * 2015-08-14 2015-12-30 百度在线网络技术(北京)有限公司 一种语音处理方法和装置
CN107003723A (zh) * 2014-10-21 2017-08-01 罗伯特·博世有限公司 用于会话***中的响应选择和组成的自动化的方法和***
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及***
CN110648670A (zh) * 2019-10-22 2020-01-03 中信银行股份有限公司 欺诈识别方法、装置、电子设备及计算机可读存储介质

Families Citing this family (247)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6191585B1 (en) * 1996-05-03 2001-02-20 Digital Control, Inc. Tracking the positional relationship between a boring tool and one or more buried lines using a composite magnetic signal
JP3842497B2 (ja) * 1999-10-22 2006-11-08 アルパイン株式会社 音声処理装置
EP1226521A1 (en) * 1999-10-29 2002-07-31 BRITISH TELECOMMUNICATIONS public limited company Method and apparatus for processing queries
GB9926134D0 (en) * 1999-11-05 2000-01-12 Ibm Interactive voice response system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
GB0000735D0 (en) 2000-01-13 2000-03-08 Eyretel Ltd System and method for analysing communication streams
US7899180B2 (en) 2000-01-13 2011-03-01 Verint Systems Inc. System and method for analysing communications streams
US6871140B1 (en) * 2000-02-25 2005-03-22 Costar Group, Inc. System and method for collection, distribution, and use of information in connection with commercial real estate
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
US7664673B1 (en) * 2000-09-18 2010-02-16 Aol Llc Smart transfer
US7325190B1 (en) 2000-10-02 2008-01-29 Boehmer Tiffany D Interface system and method of building rules and constraints for a resource scheduling system
US20090132316A1 (en) * 2000-10-23 2009-05-21 Costar Group, Inc. System and method for associating aerial images, map features, and information
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
GB0103381D0 (en) 2001-02-12 2001-03-28 Eyretel Ltd Packet data recording method and system
US8180643B1 (en) * 2001-02-15 2012-05-15 West Corporation Script compliance using speech recognition and compilation and transmission of voice and text records to clients
US7174297B2 (en) * 2001-03-09 2007-02-06 Bevocal, Inc. System, method and computer program product for a dynamically configurable voice portal
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
US8015042B2 (en) 2001-04-02 2011-09-06 Verint Americas Inc. Methods for long-range contact center staff planning utilizing discrete event simulation
US6952732B2 (en) 2001-04-30 2005-10-04 Blue Pumpkin Software, Inc. Method and apparatus for multi-contact scheduling
US6959405B2 (en) 2001-04-18 2005-10-25 Blue Pumpkin Software, Inc. Method and system for concurrent error identification in resource scheduling
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
EP1280137B1 (en) * 2001-07-24 2004-12-29 Sony International (Europe) GmbH Method for speaker identification
DE60108373T2 (de) 2001-08-02 2005-12-22 Sony International (Europe) Gmbh Verfahren zur Detektion von Emotionen in Sprachsignalen unter Verwendung von Sprecheridentifikation
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
GB2388739B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
DE10154423A1 (de) * 2001-11-06 2003-05-15 Deutsche Telekom Ag Verfahren für einen sprachgesteuerten Zugang zu einem Informationssystem und sprachgesteuerte Benutzerschnittstelle
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
US7882212B1 (en) * 2002-01-28 2011-02-01 Verint Systems Inc. Methods and devices for archiving recorded interactions and retrieving stored recorded interactions
US7219138B2 (en) * 2002-01-31 2007-05-15 Witness Systems, Inc. Method, apparatus, and system for capturing data exchanged between a server and a user
US9008300B2 (en) 2002-01-28 2015-04-14 Verint Americas Inc Complex recording trigger
US7424715B1 (en) 2002-01-28 2008-09-09 Verint Americas Inc. Method and system for presenting events associated with recorded data exchanged between a server and a user
US7149788B1 (en) 2002-01-28 2006-12-12 Witness Systems, Inc. Method and system for providing access to captured multimedia data from a multimedia player
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
US7277913B2 (en) * 2002-05-09 2007-10-02 Sun Microsystems, Inc. Persistent queuing for distributed file systems
US20030212763A1 (en) * 2002-05-09 2003-11-13 Ravi Kashyap Distributed configuration-managed file synchronization systems
US7092972B2 (en) * 2002-05-09 2006-08-15 Sun Microsystems, Inc. Delta transfers in distributed file systems
US20070260517A1 (en) * 2006-05-08 2007-11-08 Gary Zalewski Profile detection
US20070061413A1 (en) * 2005-09-15 2007-03-15 Larsen Eric J System and method for obtaining user information from voices
US20070261077A1 (en) * 2006-05-08 2007-11-08 Gary Zalewski Using audio/visual environment to select ads on game platform
GB0219493D0 (en) 2002-08-21 2002-10-02 Eyretel Plc Method and system for communications monitoring
US20040073425A1 (en) * 2002-10-11 2004-04-15 Das Sharmistha Sarkar Arrangement for real-time automatic recognition of accented speech
US8793127B2 (en) * 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
US20040107097A1 (en) * 2002-12-02 2004-06-03 General Motors Corporation Method and system for voice recognition through dialect identification
US7389228B2 (en) 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
US7275024B2 (en) * 2003-03-12 2007-09-25 Microsoft Corporation Automatic generation of a dimensional model for business analytics from an object model for online transaction processing
US7546226B1 (en) 2003-03-12 2009-06-09 Microsoft Corporation Architecture for automating analytical view of business applications
US7634478B2 (en) * 2003-12-02 2009-12-15 Microsoft Corporation Metadata driven intelligent data navigation
US7313561B2 (en) 2003-03-12 2007-12-25 Microsoft Corporation Model definition schema
WO2004114207A2 (en) * 2003-05-24 2004-12-29 Gatelinx Corporation Artificial intelligence dialogue processor
US7340398B2 (en) * 2003-08-21 2008-03-04 Hewlett-Packard Development Company, L.P. Selective sampling for sound signal classification
US7349527B2 (en) 2004-01-30 2008-03-25 Hewlett-Packard Development Company, L.P. System and method for extracting demographic information
US8447027B2 (en) 2004-01-30 2013-05-21 Hewlett-Packard Development Company, L.P. System and method for language variation guided operator selection
US7899698B2 (en) 2004-03-19 2011-03-01 Accenture Global Services Limited Real-time sales support and learning tool
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US8086462B1 (en) * 2004-09-09 2011-12-27 At&T Intellectual Property Ii, L.P. Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems
DE102004056164A1 (de) * 2004-11-18 2006-05-24 Deutsche Telekom Ag Verfahren zur Dialogsteuerung und danach arbeitendes Dialogsystem
US20070189544A1 (en) 2005-01-15 2007-08-16 Outland Research, Llc Ambient sound responsive media player
US7562117B2 (en) 2005-09-09 2009-07-14 Outland Research, Llc System, method and computer program product for collaborative broadcast media
US20060184800A1 (en) * 2005-02-16 2006-08-17 Outland Research, Llc Method and apparatus for using age and/or gender recognition techniques to customize a user interface
KR100678212B1 (ko) * 2005-03-11 2007-02-02 삼성전자주식회사 휴대단말기의 감정정보 제어방법
US8094790B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and software for training a customer service representative by analysis of a telephonic interaction between a customer and a contact center
US7995717B2 (en) 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US8094803B2 (en) 2005-05-18 2012-01-10 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
US7912720B1 (en) * 2005-07-20 2011-03-22 At&T Intellectual Property Ii, L.P. System and method for building emotional machines
WO2007017853A1 (en) * 2005-08-08 2007-02-15 Nice Systems Ltd. Apparatus and methods for the detection of emotions in audio interactions
US20070038633A1 (en) * 2005-08-10 2007-02-15 International Business Machines Corporation Method and system for executing procedures in mixed-initiative mode
US8122259B2 (en) 2005-09-01 2012-02-21 Bricom Technologies Ltd Systems and algorithms for stateless biometric recognition
US20140125455A1 (en) * 2005-09-01 2014-05-08 Memphis Technologies, Inc. Systems and algorithms for classification of user based on their personal features
US8645985B2 (en) * 2005-09-15 2014-02-04 Sony Computer Entertainment Inc. System and method for detecting user attention
US8616973B2 (en) * 2005-09-15 2013-12-31 Sony Computer Entertainment Inc. System and method for control by audible device
US8176101B2 (en) 2006-02-07 2012-05-08 Google Inc. Collaborative rejection of media for physical establishments
US7917148B2 (en) 2005-09-23 2011-03-29 Outland Research, Llc Social musical media rating system and method for localized establishments
US20070121873A1 (en) * 2005-11-18 2007-05-31 Medlin Jennifer P Methods, systems, and products for managing communications
EP2109097B1 (en) * 2005-11-25 2014-03-19 Swisscom AG A method for personalization of a service
US7396990B2 (en) 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7773731B2 (en) * 2005-12-14 2010-08-10 At&T Intellectual Property I, L. P. Methods, systems, and products for dynamically-changing IVR architectures
US7577664B2 (en) * 2005-12-16 2009-08-18 At&T Intellectual Property I, L.P. Methods, systems, and products for searching interactive menu prompting system architectures
US7552098B1 (en) 2005-12-30 2009-06-23 At&T Corporation Methods to distribute multi-class classification learning on several processors
US20070158128A1 (en) * 2006-01-11 2007-07-12 International Business Machines Corporation Controlling driver behavior and motor vehicle restriction control
US8112298B2 (en) 2006-02-22 2012-02-07 Verint Americas, Inc. Systems and methods for workforce optimization
US8670552B2 (en) 2006-02-22 2014-03-11 Verint Systems, Inc. System and method for integrated display of multiple types of call agent data
US8108237B2 (en) 2006-02-22 2012-01-31 Verint Americas, Inc. Systems for integrating contact center monitoring, training and scheduling
US7864946B1 (en) 2006-02-22 2011-01-04 Verint Americas Inc. Systems and methods for scheduling call center agents using quality data and correlation-based discovery
US8117064B2 (en) 2006-02-22 2012-02-14 Verint Americas, Inc. Systems and methods for workforce optimization and analytics
US8160233B2 (en) 2006-02-22 2012-04-17 Verint Americas Inc. System and method for detecting and displaying business transactions
US7853006B1 (en) 2006-02-22 2010-12-14 Verint Americas Inc. Systems and methods for scheduling call center agents using quality data and correlation-based discovery
US9129290B2 (en) * 2006-02-22 2015-09-08 24/7 Customer, Inc. Apparatus and method for predicting customer behavior
US8112306B2 (en) 2006-02-22 2012-02-07 Verint Americas, Inc. System and method for facilitating triggers and workflows in workforce optimization
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US7961856B2 (en) * 2006-03-17 2011-06-14 At&T Intellectual Property I, L. P. Methods, systems, and products for processing responses in prompting systems
US8050392B2 (en) * 2006-03-17 2011-11-01 At&T Intellectual Property I, L.P. Methods systems, and products for processing responses in prompting systems
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
US7734783B1 (en) 2006-03-21 2010-06-08 Verint Americas Inc. Systems and methods for determining allocations for distributed multi-site contact centers
US8126134B1 (en) 2006-03-30 2012-02-28 Verint Americas, Inc. Systems and methods for scheduling of outbound agents
US8594313B2 (en) 2006-03-31 2013-11-26 Verint Systems, Inc. Systems and methods for endpoint recording using phones
US8254262B1 (en) 2006-03-31 2012-08-28 Verint Americas, Inc. Passive recording and load balancing
US7822018B2 (en) 2006-03-31 2010-10-26 Verint Americas Inc. Duplicate media stream
US7995612B2 (en) 2006-03-31 2011-08-09 Verint Americas, Inc. Systems and methods for capturing communication signals [32-bit or 128-bit addresses]
US7826608B1 (en) 2006-03-31 2010-11-02 Verint Americas Inc. Systems and methods for calculating workforce staffing statistics
US8130938B2 (en) 2006-03-31 2012-03-06 Verint Americas, Inc. Systems and methods for endpoint recording using recorders
US7701972B1 (en) 2006-03-31 2010-04-20 Verint Americas Inc. Internet protocol analyzing
US8442033B2 (en) * 2006-03-31 2013-05-14 Verint Americas, Inc. Distributed voice over internet protocol recording
US7680264B2 (en) 2006-03-31 2010-03-16 Verint Americas Inc. Systems and methods for endpoint recording using a conference bridge
US7792278B2 (en) 2006-03-31 2010-09-07 Verint Americas Inc. Integration of contact center surveys
US7774854B1 (en) 2006-03-31 2010-08-10 Verint Americas Inc. Systems and methods for protecting information
US7672746B1 (en) 2006-03-31 2010-03-02 Verint Americas Inc. Systems and methods for automatic scheduling of a workforce
US8204056B2 (en) 2006-03-31 2012-06-19 Verint Americas, Inc. Systems and methods for endpoint recording using a media application server
US8000465B2 (en) 2006-03-31 2011-08-16 Verint Americas, Inc. Systems and methods for endpoint recording using gateways
US7852994B1 (en) 2006-03-31 2010-12-14 Verint Americas Inc. Systems and methods for recording audio
US8155275B1 (en) 2006-04-03 2012-04-10 Verint Americas, Inc. Systems and methods for managing alarms from recorders
US20070244751A1 (en) * 2006-04-17 2007-10-18 Gary Zalewski Using visual environment to select ads on game platform
US20070255630A1 (en) * 2006-04-17 2007-11-01 Gary Zalewski System and method for using user's visual environment to select advertising
US20070243930A1 (en) * 2006-04-12 2007-10-18 Gary Zalewski System and method for using user's audio environment to select advertising
US8331549B2 (en) 2006-05-01 2012-12-11 Verint Americas Inc. System and method for integrated workforce and quality management
US8396732B1 (en) 2006-05-08 2013-03-12 Verint Americas Inc. System and method for integrated workforce and analytics
US7817795B2 (en) 2006-05-10 2010-10-19 Verint Americas, Inc. Systems and methods for data synchronization in a customer center
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
US7660407B2 (en) 2006-06-27 2010-02-09 Verint Americas Inc. Systems and methods for scheduling contact center agents
US7660406B2 (en) 2006-06-27 2010-02-09 Verint Americas Inc. Systems and methods for integrating outsourcers
US7660307B2 (en) 2006-06-29 2010-02-09 Verint Americas Inc. Systems and methods for providing recording as a network service
US7903568B2 (en) 2006-06-29 2011-03-08 Verint Americas Inc. Systems and methods for providing recording as a network service
US7966397B2 (en) 2006-06-30 2011-06-21 Verint Americas Inc. Distributive data capture
US7853800B2 (en) 2006-06-30 2010-12-14 Verint Americas Inc. Systems and methods for a secure recording environment
US7953621B2 (en) 2006-06-30 2011-05-31 Verint Americas Inc. Systems and methods for displaying agent activity exceptions
US7769176B2 (en) 2006-06-30 2010-08-03 Verint Americas Inc. Systems and methods for a secure recording environment
US8131578B2 (en) 2006-06-30 2012-03-06 Verint Americas Inc. Systems and methods for automatic scheduling of a workforce
US7881471B2 (en) 2006-06-30 2011-02-01 Verint Systems Inc. Systems and methods for recording an encrypted interaction
US7848524B2 (en) 2006-06-30 2010-12-07 Verint Americas Inc. Systems and methods for a secure recording environment
US20080010067A1 (en) * 2006-07-07 2008-01-10 Chaudhari Upendra V Target specific data filter to speed processing
JP2008022493A (ja) * 2006-07-14 2008-01-31 Fujitsu Ltd 受付支援システムとそのプログラム
US20080027725A1 (en) * 2006-07-26 2008-01-31 Microsoft Corporation Automatic Accent Detection With Limited Manually Labeled Data
US20080086690A1 (en) * 2006-09-21 2008-04-10 Ashish Verma Method and System for Hybrid Call Handling
US7953750B1 (en) 2006-09-28 2011-05-31 Verint Americas, Inc. Systems and methods for storing and searching data in a customer center environment
US7930314B2 (en) 2006-09-28 2011-04-19 Verint Americas Inc. Systems and methods for storing and searching data in a customer center environment
US7873156B1 (en) 2006-09-29 2011-01-18 Verint Americas Inc. Systems and methods for analyzing contact center interactions
US7881216B2 (en) 2006-09-29 2011-02-01 Verint Systems Inc. Systems and methods for analyzing communication sessions using fragments
US8005676B2 (en) 2006-09-29 2011-08-23 Verint Americas, Inc. Speech analysis using statistical learning
US7752043B2 (en) 2006-09-29 2010-07-06 Verint Americas Inc. Multi-pass speech analytics
US7570755B2 (en) 2006-09-29 2009-08-04 Verint Americas Inc. Routine communication sessions for recording
US7920482B2 (en) 2006-09-29 2011-04-05 Verint Americas Inc. Systems and methods for monitoring information corresponding to communication sessions
US7965828B2 (en) 2006-09-29 2011-06-21 Verint Americas Inc. Call control presence
US8645179B2 (en) 2006-09-29 2014-02-04 Verint Americas Inc. Systems and methods of partial shift swapping
US7899178B2 (en) 2006-09-29 2011-03-01 Verint Americas Inc. Recording invocation of communication sessions
US8199886B2 (en) 2006-09-29 2012-06-12 Verint Americas, Inc. Call control recording
US7991613B2 (en) 2006-09-29 2011-08-02 Verint Americas Inc. Analyzing audio components and generating text with integrated additional session information
US8068602B1 (en) 2006-09-29 2011-11-29 Verint Americas, Inc. Systems and methods for recording using virtual machines
US7899176B1 (en) 2006-09-29 2011-03-01 Verint Americas Inc. Systems and methods for discovering customer center information
US8837697B2 (en) 2006-09-29 2014-09-16 Verint Americas Inc. Call control presence and recording
US7885813B2 (en) 2006-09-29 2011-02-08 Verint Systems Inc. Systems and methods for analyzing communication sessions
US8280011B2 (en) 2006-12-08 2012-10-02 Verint Americas, Inc. Recording in a distributed environment
US8130926B2 (en) 2006-12-08 2012-03-06 Verint Americas, Inc. Systems and methods for recording data
US8130925B2 (en) 2006-12-08 2012-03-06 Verint Americas, Inc. Systems and methods for recording
DE102006055864A1 (de) * 2006-11-22 2008-05-29 Deutsche Telekom Ag Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
WO2008084476A2 (en) * 2007-01-09 2008-07-17 Avraham Shpigel Vowel recognition system and method in speech to text applications
CN101242452B (zh) 2007-02-05 2013-01-23 国际商业机器公司 用于自动生成声音文档以及提供声音文档的方法和***
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) * 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US20110022395A1 (en) * 2007-02-15 2011-01-27 Noise Free Wireless Inc. Machine for Emotion Detection (MED) in a communications device
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8370145B2 (en) * 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
US8718262B2 (en) 2007-03-30 2014-05-06 Mattersight Corporation Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication
US8170184B2 (en) 2007-03-30 2012-05-01 Verint Americas, Inc. Systems and methods for recording resource association in a recording environment
US7869586B2 (en) 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics
US9106737B2 (en) 2007-03-30 2015-08-11 Verint Americas, Inc. Systems and methods for recording resource association for recording
US8437465B1 (en) 2007-03-30 2013-05-07 Verint Americas, Inc. Systems and methods for capturing communications data
US8023639B2 (en) 2007-03-30 2011-09-20 Mattersight Corporation Method and system determining the complexity of a telephonic communication received by a contact center
US8743730B2 (en) 2007-03-30 2014-06-03 Verint Americas Inc. Systems and methods for recording resource association for a communications environment
US8315901B2 (en) 2007-05-30 2012-11-20 Verint Systems Inc. Systems and methods of automatically scheduling a workforce
US7949526B2 (en) * 2007-06-04 2011-05-24 Microsoft Corporation Voice aware demographic personalization
GB2451907B (en) * 2007-08-17 2010-11-03 Fluency Voice Technology Ltd Device for modifying and improving the behaviour of speech recognition systems
US8312379B2 (en) * 2007-08-22 2012-11-13 International Business Machines Corporation Methods, systems, and computer program products for editing using an interface
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US10419611B2 (en) 2007-09-28 2019-09-17 Mattersight Corporation System and methods for determining trends in electronic communications
JP5171962B2 (ja) * 2007-10-11 2013-03-27 本田技研工業株式会社 異種データセットからの知識移転を伴うテキスト分類
FR2923319B1 (fr) * 2007-11-06 2012-11-16 Alcatel Lucent Dispositif et procede d'obtention de contextes d'utilisateurs de terminaux de communication, a partir de signaux audio captes dans leur environnement
US8126723B1 (en) 2007-12-19 2012-02-28 Convergys Cmg Utah, Inc. System and method for improving tuning using caller provided satisfaction scores
US7475344B1 (en) 2008-05-04 2009-01-06 International Business Machines Corporation Genders-usage assistant for composition of electronic documents, emails, or letters
US8401155B1 (en) 2008-05-23 2013-03-19 Verint Americas, Inc. Systems and methods for secure recording in a customer center environment
CA2665014C (en) 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665055C (en) * 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
CA2665009C (en) * 2008-05-23 2018-11-27 Accenture Global Services Gmbh System for handling a plurality of streaming voice signals for determination of responsive action thereto
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
EP2172895A1 (en) * 2008-10-02 2010-04-07 Vodafone Holding GmbH Providing information within the scope of a voice communication connection
CA2685779A1 (en) * 2008-11-19 2010-05-19 David N. Fernandes Automated sound segment selection method and system
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8630726B2 (en) 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
US20110044447A1 (en) * 2009-08-21 2011-02-24 Nexidia Inc. Trend discovery in audio signals
US9438741B2 (en) * 2009-09-30 2016-09-06 Nuance Communications, Inc. Spoken tags for telecom web platforms in a social network
US10115065B1 (en) 2009-10-30 2018-10-30 Verint Americas Inc. Systems and methods for automatic scheduling of a workforce
US20110276326A1 (en) * 2010-05-06 2011-11-10 Motorola, Inc. Method and system for operational improvements in dispatch console systems in a multi-source environment
US8417530B1 (en) * 2010-08-20 2013-04-09 Google Inc. Accent-influenced search results
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
US8769009B2 (en) 2011-02-18 2014-07-01 International Business Machines Corporation Virtual communication techniques
JP5250066B2 (ja) * 2011-03-04 2013-07-31 東芝テック株式会社 情報処理装置およびプログラム
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
US8825533B2 (en) 2012-02-01 2014-09-02 International Business Machines Corporation Intelligent dialogue amongst competitive user applications
WO2013184667A1 (en) 2012-06-05 2013-12-12 Rank Miner, Inc. System, method and apparatus for voice analytics of recorded audio
US8914285B2 (en) * 2012-07-17 2014-12-16 Nice-Systems Ltd Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
US9245428B2 (en) 2012-08-02 2016-01-26 Immersion Corporation Systems and methods for haptic remote control gaming
US9507755B1 (en) 2012-11-20 2016-11-29 Micro Strategy Incorporated Selecting content for presentation
US9105042B2 (en) 2013-02-07 2015-08-11 Verizon Patent And Licensing Inc. Customer sentiment analysis using recorded conversation
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9191510B2 (en) 2013-03-14 2015-11-17 Mattersight Corporation Methods and system for analyzing multichannel electronic communication data
US20150287410A1 (en) * 2013-03-15 2015-10-08 Google Inc. Speech and semantic parsing for content selection
CN103310788B (zh) * 2013-05-23 2016-03-16 北京云知声信息技术有限公司 一种语音信息识别方法及***
US9215510B2 (en) 2013-12-06 2015-12-15 Rovi Guides, Inc. Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments
CN103778917B (zh) * 2014-01-10 2017-01-04 厦门快商通信息技术有限公司 一种在电话满意度调查中检测身份冒充的***与方法
US9363378B1 (en) 2014-03-19 2016-06-07 Noble Systems Corporation Processing stored voice messages to identify non-semantic message characteristics
CN105744090A (zh) 2014-12-09 2016-07-06 阿里巴巴集团控股有限公司 语音信息处理方法及装置
US9722965B2 (en) * 2015-01-29 2017-08-01 International Business Machines Corporation Smartphone indicator for conversation nonproductivity
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
WO2016209888A1 (en) 2015-06-22 2016-12-29 Rita Singh Processing speech signals in voice-based profiling
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
US10043517B2 (en) 2015-12-09 2018-08-07 International Business Machines Corporation Audio-based event interaction analytics
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US10915819B2 (en) 2016-07-01 2021-02-09 International Business Machines Corporation Automatic real-time identification and presentation of analogies to clarify a concept
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106534598A (zh) * 2016-10-28 2017-03-22 广东亿迅科技有限公司 一种基于情感识别的呼叫平台排队***及其实现方法
US10096319B1 (en) * 2017-03-13 2018-10-09 Amazon Technologies, Inc. Voice-based determination of physical and emotional characteristics of users
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
JP6863179B2 (ja) * 2017-08-29 2021-04-21 沖電気工業株式会社 顧客の苦情検知機能を備えたコールセンタシステム、コールセンタ装置、対話方法、およびそのプログラム
US10135977B1 (en) * 2017-11-24 2018-11-20 Nice Ltd. Systems and methods for optimization of interactive voice recognition systems
EP3576084B1 (de) 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
CN109147800A (zh) 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
US11195507B2 (en) * 2018-10-04 2021-12-07 Rovi Guides, Inc. Translating between spoken languages with emotion in audio and video media streams
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11152005B2 (en) * 2019-09-11 2021-10-19 VIQ Solutions Inc. Parallel processing framework for voice to text digital media
CN113257225B (zh) * 2021-05-31 2021-11-02 之江实验室 一种融合词汇及音素发音特征的情感语音合成方法及***
EP4202738A1 (de) * 2021-12-22 2023-06-28 Deutsche Telekom AG Nutzeridentifikation anhand einer spracheingabe

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
EP0574951B1 (en) * 1992-06-18 2000-04-05 Seiko Epson Corporation Speech recognition system
IL108401A (en) * 1994-01-21 1996-12-05 Hashavshevet Manufacture 1988 Method and apparatus for indicating the emotional state of a person
US6052441A (en) * 1995-01-11 2000-04-18 Fujitsu Limited Voice response service apparatus
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
WO1997021201A1 (en) * 1995-12-04 1997-06-12 Bernstein Jared C Method and apparatus for combined information from speech signals for adaptive interaction in teaching and testing
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
WO1998031007A2 (en) * 1997-01-09 1998-07-16 Koninklijke Philips Electronics N.V. Method and apparatus for executing a human-machine dialogue in the form of two-sided speech as based on a modular dialogue structure
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6014647A (en) * 1997-07-08 2000-01-11 Nizzari; Marcia M. Customer interaction tracking
US6151601A (en) * 1997-11-12 2000-11-21 Ncr Corporation Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area
JP3886024B2 (ja) * 1997-11-19 2007-02-28 富士通株式会社 音声認識装置及びそれを用いた情報処理装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101548314B (zh) * 2006-05-18 2014-06-11 Ex音频技术公司 通过语音分析确定个人生存、稳衡、发展概要的***和方法
CN101241699B (zh) * 2008-03-14 2012-07-18 北京交通大学 一种远程汉语教学中的说话人确认方法
CN103377432A (zh) * 2012-04-16 2013-10-30 殷程 智能客服营销分析***
CN102802114A (zh) * 2012-06-20 2012-11-28 北京语言大学 利用语音进行座席筛选的方法及***
CN102802114B (zh) * 2012-06-20 2015-02-18 北京语言大学 利用语音进行座席筛选的方法及***
CN103811002A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
CN103810995A (zh) * 2012-11-13 2014-05-21 通用汽车环球科技运作有限责任公司 用于语音***的调节方法和***
CN104183235A (zh) * 2013-05-28 2014-12-03 通用汽车环球科技运作有限责任公司 用于塑造语音***的对话的方法和***
CN103680518A (zh) * 2013-12-20 2014-03-26 上海电机学院 基于虚拟仪器技术的语音性别识别方法及***
CN107003723A (zh) * 2014-10-21 2017-08-01 罗伯特·博世有限公司 用于会话***中的响应选择和组成的自动化的方法和***
CN105206269A (zh) * 2015-08-14 2015-12-30 百度在线网络技术(北京)有限公司 一种语音处理方法和装置
CN107886955A (zh) * 2016-09-29 2018-04-06 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
CN107919137A (zh) * 2017-10-25 2018-04-17 平安普惠企业管理有限公司 远程审批方法、装置、设备及可读存储介质
CN109036436A (zh) * 2018-09-18 2018-12-18 广州势必可赢网络科技有限公司 一种声纹数据库建立方法、声纹识别方法、装置及***
CN110648670A (zh) * 2019-10-22 2020-01-03 中信银行股份有限公司 欺诈识别方法、装置、电子设备及计算机可读存储介质
CN110648670B (zh) * 2019-10-22 2021-11-26 中信银行股份有限公司 欺诈识别方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
EP1076329A3 (en) 2003-10-01
CA2311439C (en) 2007-05-22
CA2311439A1 (en) 2001-02-10
DE60030920T2 (de) 2007-04-05
EP1076329A2 (en) 2001-02-14
US6665644B1 (en) 2003-12-16
EP1076329B1 (en) 2006-09-27
ATE341071T1 (de) 2006-10-15
CN1157710C (zh) 2004-07-14
DE60030920D1 (de) 2006-11-09

Similar Documents

Publication Publication Date Title
CN1157710C (zh) 会话数据开采
WO2020119630A1 (zh) 一种多模态客户满意度综合评价***、方法
Cao et al. Speaker-sensitive emotion recognition via ranking: Studies on acted and spontaneous speech
CN1310207C (zh) 使用多模式输入进行多模式焦点检测,参考歧义解析和语气分类的***和方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
US5621857A (en) Method and system for identifying and recognizing speech
AU2004229094A1 (en) Conversation control apparatus, and conversation control method
Gupta et al. Two-stream emotion recognition for call center monitoring.
CN108877769B (zh) 识别方言种类的方法和装置
CN110135879A (zh) 基于自然语言处理的客服质量自动评分方法
CN106599110A (zh) 基于人工智能的语音搜索方法及装置
Lee et al. On natural language call routing
Scholten et al. Learning to recognise words using visually grounded speech
López-Cózar et al. Enhancement of emotion detection in spoken dialogue systems by combining several information sources
Atassi et al. Analysis of high-level features for vocal emotion recognition
Jia et al. A deep learning system for sentiment analysis of service calls
Duduka et al. A neural network approach to accent classification
CN115147067A (zh) 一种基于深度学习智能招聘人才的方法
Malla et al. A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal
Lee et al. A study on natural language call routing
Ehlen et al. A Meeting Browser that Learns.
Gordon et al. Automated story capture from conversational speech
Sharma et al. A review of stylized image captioning techniques, evaluation parameters, and datasets
Hoseini Persian speech emotion recognition approach based on multilayer perceptron
Varma et al. Speech emotion recognition using deep learning

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20040714

CX01 Expiry of patent term