CN116129874A - 通信***和操作通信***的方法 - Google Patents
通信***和操作通信***的方法 Download PDFInfo
- Publication number
- CN116129874A CN116129874A CN202211412303.5A CN202211412303A CN116129874A CN 116129874 A CN116129874 A CN 116129874A CN 202211412303 A CN202211412303 A CN 202211412303A CN 116129874 A CN116129874 A CN 116129874A
- Authority
- CN
- China
- Prior art keywords
- data
- speech
- utterance
- speaker
- metric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 211
- 238000004891 communication Methods 0.000 title claims abstract description 133
- 238000012795 verification Methods 0.000 claims abstract description 352
- 230000008451 emotion Effects 0.000 claims description 186
- 238000012549 training Methods 0.000 claims description 92
- 230000007547 defect Effects 0.000 claims description 36
- 238000012790 confirmation Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 description 55
- 239000003795 chemical substances by application Substances 0.000 description 20
- 238000010200 validation analysis Methods 0.000 description 18
- 238000005259 measurement Methods 0.000 description 15
- 230000002996 emotional effect Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 206010062519 Poor quality sleep Diseases 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010020850 Hyperthyroidism Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 208000018910 keratinopathic ichthyosis Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229930014251 monolignol Natural products 0.000 description 1
- 125000002293 monolignol group Chemical group 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5166—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5175—Call or contact centers supervision arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种通信***和操作通信***的方法。公开了通信***和相关方法,特别是操作通信***的方法。该方法包括:获得表示一个或多个话语的音频数据,该音频数据包括第一话语的第一音频数据;基于第一音频数据获得第一话语数据;其中,获得第一话语数据包括对第一音频数据应用话语模型;其中,第一话语数据包括第一说话者度量数据;输出指示第一话语数据的第一话语表示;基于第一话语表示,从第一验证者获得第一话语验证数据;基于第一话语表示,从第二验证者获得第二话语验证数据;基于第一话语验证数据和第二话语验证数据确定一致性度量;基于一致性度量确定第一验证分数;以及输出第一验证分数。
Description
技术领域
本公开涉及语音处理和相关工具与方法以及***,具体用于分析、监控、指导和/或评估一个或多个说话者的语音,例如,呼叫者和/或呼叫的代理和/或电话对话或会议(例如,在线会议)的一个或多个参与者。因此,提供了一种通信***、一种电子装置和相关方法,特别是操作通信***的方法。
背景技术
今天,人们之间的交互越来越多地发生在远距离和虚拟的地方,例如,经由电话、电话会议等。然而,在电话的每一方,彼此讲话的人可能很难仅仅通过听一次演讲来理解对方的情绪或情感。人们的声音和/或言语能力变得越来越重要。
例如,几乎所有的支持和售后服务都是在发起和/或应答呼叫的呼叫中心代理与被联系的潜在客户或因各种问题联系呼叫中心代理的客户之间通过电话进行的。在呼叫中心、支持中心或联络中心工作的呼叫中心代理会为一项有时单调重复的工作而苦恼。这对代理来说是一种消极的体验,但它也会导致更差的音质表现,进而降低电话另一端客户的满意度,平均而言,通话时间会更长。接了很多个小时的电话后,可能很难记得电话的另一端有一个人渴望得到帮助,以解决问题。此外,对于说话者来说,提高他/她的说话技巧也可能是困难的。
发明内容
因此,需要具有改进的话语数据验证的通信***、电子装置和操作通信***的方法。
公开了一种操作通信***的方法。该方法包括获得表示一个或多个话语的音频数据,该音频数据包括第一话语的第一音频数据。该方法包括基于第一音频数据获得第一话语数据。获得第一话语数据包括对第一音频数据应用话语模型。第一话语数据包括第一说话者度量数据。该方法包括输出指示第一话语数据的第一话语表示。该方法包括基于第一话语表示从第一验证者获得第一话语验证数据。该方法包括基于第一话语表示从第二验证者获得第二声音验证数据。该方法包括基于第一话语验证数据和第二话语验证数据确定一致性度量。该方法包括基于一致性度量确定第一验证分数。该方法包括输出第一验证分数。
本公开的优点是提供了一种改进的话语模型。此外,本公开的优点是提供了具有改进的话语模型验证的方法和工具。进而,可以提供更准确的话语模型。可以理解,本公开可以减少提供和/或更新话语模型所需的数据量,进而减少用于提供和/或更新话语模型的资源密集型计算。此外,本公开可以提供更短的模型更新周期和/或更快地获得(例如,检索)话语验证数据(例如,注释数据)。例如,可以在客户端应用程序(例如,运行话语模型的客户端应用程序)的运行时间期间直接获得话语验证数据,与离线收集音频数据相比,这允许更快地获得话语验证数据。例如,在离线收集音频数据的后处理中,可能需要创建数据库、发送到一个或多个验证者(例如,注释器)以及平衡数据,这是耗时的。
可以理解,本公开的优点是可以提供一种改进的验证评估,进而提供验证者/用户的改进的自我评估(例如,通过提供验证分数)。本公开可以提供话语数据的更诚实的验证/注释。这反过来可以帮助验证者/用户提高他的讲话技能。本公开可以提供对两个验证者之间的相似性的改进理解,例如,基于一致性度量。
本公开的一个优点在于,可以提高用户/验证者的讲话和/或话语能力,进而提高用户与之交谈的客户的客户满意度。本公开还可以提高对话和/或呼叫的效率,例如,导致更短和更有效的对话/呼叫。本公开还可以为用户提供发展路径或领域,以及时提高其技能和/或能力,例如,帮助用户达到和/或提高其关键绩效指标KPI。本公开可以改善用户的随访。此外,本公开可以向用户/验证者提供个性化/定制的反馈。
此外,可以提供关于用户表现或对话结果的改进的反馈。本公开可以识别、展示或诊断用户话语的缺陷和/或优势。此外,本公开可以将用户话语的改善与客户满意度的改善相关联。本公开例如可以增加用户对他/她的工作的参与度,例如,通过能够可视化表现的改善。本公开可以例如增加用户的动机,并给出激励或动机因素,以改善表现和/或用户反馈。用户可以提高他/她的说话能力,例如,通过与消极说话者保持积极/良好的音调来提高一天中的一致性,避免不良的话语表现,例如,中断、长时间停顿、单调和/或语速。
本公开的优点在于,说话者/用户能够监控/评估会话、客户和/或会议,进而允许说话者/用户适应或调整说话者的话语,例如,讲话的音调,以提高他/她在会话期间的表现。这可以改善说话者的呈现结果和/或说话者与一个或多个其他说话者之间的会话或会议的结果。说话者可以进一步提高对会话和/或另一说话者的理解,例如,更好地掌握另一说话者的情感和/或情感情绪。
此外,公开了一种通信***,该通信***包括被配置为执行根据本公开的任何方法的电子装置。该电子装置包括界面、处理器和存储器。
附图说明
通过参考附图对本发明的示例性实施例的以下详细描述,本发明的上述和其他特征和优点对于本领域技术人员来说将变得显而易见,其中:
图1示意性地示出了根据本公开的示例性通信***;以及
图2A至图2C是根据本公开的示例性方法的流程图。
具体实施方式
下文将参考相关附图描述各种示例性实施例和细节。应当注意,附图可以按比例绘制,也可以不按比例绘制,并且在所有附图中,相似结构或功能的元件由相同的附图标记表示。还应当注意,附图仅旨在便于实施例的描述。它们不是对本发明的详尽描述,也不是对本发明范围的限制。此外,所示实施例不需要具有所示的所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例,并且可以在任何其他实施例中实践,即使没有如此示出,或者如果没有如此明确描述。
公开了一种操作通信***的方法。该通信***可以可选地包括训练模块,该训练模块包括界面、处理器和存储器。该通信***可以可选地包括服务器装置,该服务器装置包括界面、一个或多个处理器和存储器。通信***可以是用于训练和/或指导一个或多个用户的***,例如,一个或多个用户的话语和/或讲话。该通信***可以是用于执行、监视、处理和/或分析表示一个或多个话语的音频数据的***,例如,包括一个或多个音频信号,包括一个或多个说话者的音频信号,例如,独白或会话,例如,会议会话、视频/电话会议会话或呼叫,例如,电话或VoIP呼叫。该***可以是用于执行、监视、处理和/或分析一个或多个音频信号的***,例如,说话者的独白或两个或多个人/说话者之间的会话,例如,电话或会议中的会话。该通信***可以例如是呼叫中心***的一部分,包括或充当呼叫中心***,用于监控、处理和/或分析一个或多个音频信号,例如,说话者的独白或两个或多个人之间的会话,例如,呼叫中心***的代理和客户或呼叫者之间的电话呼叫。
通信***可以可选地包括电子装置。该电子装置可以包括界面、处理器和存储器。该电子装置例如可以是或包括移动电话(例如,智能手机)、计算机(例如,膝上型计算机或PC)、或平板电脑。电子装置例如可以是用户装置,例如,移动电话或计算机,该用户装置被配置为在用户和一个或多个人之间执行呼叫。电子装置可以被配置为获得音频数据,例如,包括第一音频输入,例如,来自第一话语的第一音频输入。可以从用户和另一个人之间的呼叫中获得音频数据。例如,电子装置可以充当呼叫代理装置,其中,用户可以是代理,例如,呼叫中心的代理,例如,支持呼叫中心、售后呼叫中心、营销呼叫中心、接待呼叫中心或销售呼叫中心。电子装置例如可以是用户装置,例如,移动电话或计算机,被配置为记录来自第一说话者的第一音频输入,例如,记录第一说话者说话或讲话。电子装置可以被配置为获得音频数据,例如,包括一个或多个音频信号,例如,生成包括第一音频数据(例如,包括第一音频信号)的一个或多个音频信号。第一音频信号可以基于第一音频输入。
该方法包括获得表示一个或多个话语的音频数据,也表示为AD。音频数据包括第一话语(也表示为V_1)的第一音频数据,也表示为AD_1。
第一话语V_1可以被视为第一说话者(例如,通信***的用户)的话语。
第一话语V_1可以被视为电子装置的用户的话语。
音频数据AD可以包括一个或多个音频信号,也表示为AS_i,i=1,2,…N,其中,N是说话者/音频信号的数量。一个或多个音频信号可以包括第一话语的第一音频信号,也表示为AS_1。第一话语可以是第一说话者的第一话语通信的话语和/或第一说话者的多个话语通信的话语。第一音频信号可以表示第一对话的第一说话者的第一语音/话音。第一说话者可以是呼叫者、代理或电话对话或会议中的第一参与者,例如,包括第一对话和/或多个对话,例如,第一对话和/或多个对话发生的地方。一个或多个音频信号可选地包括第二音频信号,也表示为AS_2。第二音频信号可以表示第一对话和/或多个对话的第二说话者的第二语音/话音。第二说话者可以是例如包括第一对话的电话对话或会议中的呼叫者、代理人、采访者或第二参与者,例如,第一对话发生的地方。第一音频数据可以包括一个或多个第一片段,例如,第一音频片段,例如,包括第一话语。第一音频数据可以包括第一话语的至少5个音频片段、第一话语的至少20个音频片段、第一话语的至少50个音频片段和/或第一话语的至少100个音频片段。第一音频数据可以包括至少两方之间的一个或多个对话的一个或多个记录(例如,音频捕捉)。第一音频数据可以包括来自呼叫中心的一个或多个记录,例如,来自呼叫中心对话的记录。
获得音频数据可以包括从由说话者/用户执行的一个或多个对话中获得一个或多个音频输入,例如,从由第一说话者/用户执行的一个或多个对话中获得第一音频输入。换言之,第一音频数据可以基于第一音频输入。可以从用户和另一个人之间的呼叫或对话中获得第一音频数据,例如,第一呼叫或第一对话和/或由第一说话者/用户执行的多个对话。第一说话者可以是在第一次呼叫和/或第一对话期间讲话/说话最多的人。第一说话者可以是在第一呼叫和/或第一对话期间和/或在多个对话期间说话的第一人。第一说话者可以是感兴趣的人,例如,可以接受话语指导和/或训练的用户。可以从电子装置获得第一音频数据,例如,记录第一话语,例如,从第一说话者输入的第一音频。第一音频数据可以包括来自一个或多个对话的一个或多个记录片段。例如,记录第一说话者说话或讲话。获得音频数据可以包括生成第一话语的第一音频数据。获得音频数据可以包括生成一个或多个音频信号,包括第一音频信号。第一音频信号可以基于第一音频输入。第一音频信号可以包括第一说话者音频信号。第一音频信号可以是代理音频信号或呼叫者音频信号,第二音频信号是另一个。
该方法包括基于音频数据AD获得话语数据,也表示为VD。该方法可以包括基于第一音频数据AD_1获得第一话语数据,也表示为VD_1。第一话语数据VD_1可以包括指示第一话语的数据,例如,第一说话者的数据。获得第一话语数据可以包括基于第一音频数据生成第一话语的第一话语数据。第一话语数据可以是第一代理话语数据,例如,通信***的第一用户/代理的第一话语数据。第一话语数据可以包括说话者度量数据,也表示为SPMD。话语数据可以被记录和/或保存在存储器上。话语数据可以包括时间戳、日期、事件类型和/或话语音频。话语数据可以包括第一话语的一个或多个频谱图。
该方法包括对第一音频数据AD_1应用话语模型,也表示为VM。话语模型VM可以被视为初始话语模型。换言之,该方法可以包括应用机器学***均值、中值和标准偏差中的一个或多个。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如,随机森林、XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如,ML模型可以将例如说话者语调和/或话语质量映射到副语言度量,例如,音调度量和/或情感度量。例如,ML模型可以将例如说话者语调和/或话语质量映射到副语言度量,例如,情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括在100,000个参数到1,000,000,000个参数范围内的参数,例如,500,000到100,000,000个参数。ML模型可以包括在5层到50层范围内的层,例如,10层到15层。例如,ML模型可以是CNN,并且包括15,000,000个参数和30层。对第一音频数据AD_1应用话语模型VM可以包括一个或多个预处理步骤。例如,对第一音频数据应用话语模型VM可以包括对第一音频数据执行降噪、增益归一化和特征提取中的一个或多个。例如,对第一音频数据应用话语模型VM可以包括对音频信号(例如,第一音频信号AS_1)执行噪声降低、增益正规化和特征提取中的一个或多个。
在一个或多个示例性方法中,基于音频数据获得话语数据包括基于音频数据确定说话者的说话者度量数据,也表示为SPMD。在一个或多个示例性方法中,基于第一音频数据AD_1获得第一话语数据VD_1包括基于第一音频数据AD_1确定第一说话者(也表示为SP_1)的第一说话者度量数据(也表示为SPMD_1)。换言之,第一话语数据VD_1包括第一说话者度量数据SPMD_1。第一说话者SP_1可以具有和/或输出第一话语V_1。第一说话者度量数据SPMD_1可以包括第一主要说话者度量数据SPMD_1_1。第一说话者度量数据SPMD_1可以包括第一话语的一个或多个话语参数/特征。在一个或多个示例性方法中,第一说话者度量数据SPMD_1包括一个或多个副语言度量。一个或多个副语言度量可以包括音调度量、情感度量、激活度、效价、优势度和情绪音调中的一个或多个。副语言度量可以被视为说话者度量。副语言度量可以包括分数,例如,第一说话者/话语分数,例如,副语言度量分数。例如,当话语模型VM预测指示觉醒的副语言度量时,副语言度量可以包括副语言度量分数,副语言度量分数在-1到1的范围内,其中,-1指示没有觉醒,1指示高度觉醒。可以确定,当副语言度量分数高于或等于0.5时,觉醒程度高。第一说话者度量数据可以包括一个或多个说话者(例如,第一说话者)的说话音调参数(例如,音调度量数据)、语音特征参数(例如,语音特征数据)、情感参数和声音特征参数(例如,声音特征数据)中的一个或多个。换言之,第一说话者度量数据可以包括一个或多个说话者(例如,第一说话者)的音调度量、语音特征度量、情感度量和声音特征度量中的一个或多个。第一说话者度量数据可以包括第一说话者/话语分数。换言之,确定第一说话者度量数据可以包括基于第一音频数据确定第一说话者/话语分数。可以基于音调度量、语音特征度量、情感度量和声音特征度量中的一个或多个来确定第一说话者分数。例如,可以基于第一说话者度量数据来确定第一说话者的一般第一说话者分数。可替代地或另外,可以为每个说话者度量确定第一说话者分数,例如,音调度量、语音特征度量、情感度量和声音特征度量。语音特征参数(例如,语音特征数据)可以例如包括和/或指示第一说话者(例如,在第一话语中)的热情、友好、专业、缺乏热情、缺乏友好、缺乏同理心和缺乏专业中的一个或多个。
声音特征参数(例如,声音特征数据)可以例如包括和/或指示第一说话者例如在第一话语中的单调声音、不愉快的语速、不愉快的语调变化、不清晰的发音、变化的声音、愉快的语速和/或清晰的发音中的一个或多个。
说话音调参数(例如,音调度量数据)可以例如包括和/或指示第一说话者例如在第一话语中的肯定说话音调、满意说话音调、服务意识音调、热情音调、有帮助的音调、否定说话音调、不满意说话音调、担心音调、厌烦音调和/或害怕音调中的一个或多个。
说话者度量数据SPMD可以包括随时间变化的一个或多个说话者度量,例如,随时间变化的一个或多个第一说话者度量。换言之,确定说话者度量数据SPMD可以包括例如在会话期间确定随时间变化的一个或多个说话者度量SM。确定第一说话者度量数据SPMD_1可以包括例如在第一会话或第一说话者的第一记录期间确定随时间变化的一个或多个第一说话者度量SPM_1。
确定第一说话者度量数据SPMD_1可以包括确定第一主要说话者度量数据,也表示为SPMD_1_1。确定第一主要说话者度量数据SPMD_1_1可以包括例如在第一会话或第一说话者的第一记录期间确定随时间变化的一个或多个第一主要说话者度量SPM_1_1。换言之,第一说话者度量数据SPMD_1可以包括第一主要说话者度量数据SPMD_1_1。此外,第一说话者度量数据可以包括或指示包括一个或多个第一主要说话者度量的一个或多个第一主要说话者度量数据SPMD_1_1、包括一个或多个第一次要说话者度量的第一次要说话者度量数据SPMD_1_2、以及包括一个或多个第一三元说话者度量的第一三元说话者度量数据SPMD_1_3。换言之,确定第一话语数据是否满足第一验证标准可以包括确定第一说话者度量数据SPMD是否满足第一验证标准,例如,第一说话者度量数据SPMD_1是否满足第一验证标准。例如,确定第一话语数据是否满足第一验证标准可以包括确定第一说话者度量SPM_1是否满足第一验证标准。换言之,确定第一话语数据是否满足第二验证标准可以包括确定第一说话者度量数据SPMD是否满足第二验证标准,例如,第一说话者度量数据SPMD_1是否满足第二验证标准。例如,确定第一话语数据是否满足第二验证标准可以包括确定第一说话者度量SPM_1是否满足第二验证标准。
在一个或多个示例性方法中,第一主要说话者度量数据包括情感度量数据。确定第一主要说话者度量数据SPMD_1_1可以包括确定情感度量数据,也表示为SMD。在一个或多个示例性方法中,确定第一主要说话者度量数据SPMD_1_1可以包括确定一个或多个第一情感度量,也表示为SM_1_i,i=1,2,…,M,其中,M是第一情感度量的数量。换言之,情感度量数据SMD可以包括随时间变化的一个或多个第一情感度量。
情感度量指示说话者的情感状态。情感度量数据SMD可以指示说话者对会话和/或会话的一部分的平均情感。在一个或多个示例性方法中,情感度量数据SMD可以指示随时间变化的一个或多个情感度量。例如,情感度量数据SMD可以指示一系列情感等级,例如,每个会话回合的一个情感等级。情感度量可以包括情感类型标识符、情感等级和置信度分数中的一个或多个。换言之,确定第一话语数据是否满足第一验证标准可以包括确定第一情感数据是否满足第一验证标准。
一个或多个第一情感度量(例如,SM_1_1和/或SM_1_2)指示第一说话者状态,即第一说话者的一个或多个第一情感状态,并且可以基于第一音频数据(例如,基于第一音频信号)和/或第二音频信号。一个或多个第一情感度量SM_1_i可以包括指示第一说话者状态的一个或多个参数。
一个或多个第一情感度量SM_1_i可以包括第一主要情感度量,也表示为SM_1_1,其指示第一说话者的主要情感状态。换言之,SM_1_1可以指示第一说话者的主要情感。SM_1_1可以指示第一说话者在时间上的支配情感状态和/或第一情感状态。主要情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、高亢、满意、放松、精力充沛、热情和快乐。在一个或多个示例性方法/***中,可以从一组主要的情感状态中选择第一说话者的主要情感状态。
第一情感度量SM_1_i可以包括第一情感类型标识符,也表示为ST_ID_1_i,其中,i是索引,i=1,2,…H,其中,H是第一情感类型标识符的数量。换言之,确定一个或多个第一情感度量SM_1_i可以包括确定第一情感类型标识符ST_ID_1_i,例如,第一主要情感度量SM_1_1的第一主要情感类型标识符ST_ID_1_1。情感类型标识符指示说话者的情感状态。
情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或值,例如,整数。例如,可以分别从相同或不同的情感类型标识符集合中选择ST_ID_1_i。例如,可以从主要的情感类型标识符集合中选择ST_ID_1_1,和/或可以从次要的情感类型标识符集合中选择ST_ID_1_2。主要的情感类型标识符集合可以不同于或相同于次要的情感类型标识符集合。主要情感类型标识符集合和次要情感类型标识符集合可以共享一个或多个(例如,多个)情感类型标识符。
在一个或多个示例性方法中,第一主要情感度量SM_1_1包括从主要的情感类型标识符ST_ID_SET_1集合中选择的第一主要情感类型标识符ST_ID_1_1,其中,ST_ID_SET_1包括多个情感类型标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。
在一个或多个示例性方法中,主要的情感类型标识符ST_ID_SET_1集合由下式给出:
ST_ID_SET_1={1,2,3,4,5},
其中,“1”表示例如,“非常消极”的情感,“2”表示例如,“消极”的情感,“3”表示例如,“中立”的情感,可选的“4”表示例如,“积极”的情感,可选的“5”表示例如,“非常积极”的情感。
在一个或多个示例性方法中,主要的情感类型标识符ST_ID_SET_1集合由下式给出:
ST_ID_SET_1={“非常消极”、“消极”、“中立”、“积极”、“非常积极”}
例如,其中,“非常消极”和/或“非常积极”是可选的。
情感类型标识符集合(例如,主要的情感类型标识符集合和/或次要的情感类型标识符集合)可以包括至少三个或至少四个不同的情感类型标识符,例如,五个、六个、七个、八个、九个或更多个情感类型标识符。换言之,每种情绪或情感类型都可能有相应的ST_ID_1_i。例如,第一主要情感度量SM_1_1可以包括第一主要情感类型标识符ST_ID_1_1,其指示或对应于主要情感状态或第一说话者状态为“积极”。
第一情感度量SM_1_i可以包括情感等级,也表示为SL_1_i,i=1,2,…,O,其中,O是情感等级的数量。换言之,确定SM_1_i可以包括确定SL_1_i,例如,确定SM_1_1可以包括确定第一主要情感等级SL_1_1。情感等级SL_1_i可以指示第i种情感类型的等级。换言之,SL_1_i可以表示第i种情感类型的程度。例如,当ST_ID_1_1对应于第一说话者状态“积极”时,第一主要情感等级SL_1_1可以指示或对应于情感“积极”的程度,例如,以例如从0到1或从1到10的级别,或者从“低”、“中”和“高”中选择。换言之,情感度量的情感等级可以是一个级别,例如,从0到1或从1到10。
第一情感度量SM_1_i可以包括置信度分数,分别表示为SCS_1_i,i=1,2,…,P,其中,P是置信度分数的数量。换言之,确定SM_1_i可以包括确定第一置信度分数SCS_1_i,例如,确定第一主要情感度量SM_1_1可以包括确定第一主要置信度分数SCS_1_1。情感度量的置信度分数可以指示所确定的情感度量(例如,情感类型标识符和/或情感等级)正确的分数或概率,例如,情感状态或情感类型(由情感度量的情感类型标识符识别)正确。例如,SCS_1_1=0.88可以表示所确定的ST_ID_1_1(例如,为“积极”)是正确的概率为88%。
确定指示第一说话者状态的一个或多个第一情感度量可以包括从第一音频信号中(例如,从第一音频信号中)提取一个或多个说话者特征,例如,其中,一个或多个第一情感度量基于一个或多个说话者特征。一个或多个说话者特征可以包括副语言特征。一个或多个说话者特征可以例如包括说话者声调特征、说话者语调特征、说话者功率或音量特征、说话者音调特征、说话者质量特征、说话者速率特征和/或说话者频率特征。
在一个或多个示例性方法中,一个或多个第一情感度量SM_1_i包括也表示为SM_1_2的第一次要情感度量,其指示第一说话者的次要情感状态。
在一个或多个示例性方法中,第一次要说话者度量数据SPMD_1_2是音调度量数据,也表示为TMD。音调度量数据可以包括说话音调数据。确定第一次要说话者度量数据SPMD_1_2可以包括确定音调度量数据。在一个或多个示例性方法中,确定第一次要说话者度量数据SPMD_1_2可以包括确定一个或多个第一音调度量,也表示为TM_1_i,i=1,2,…,m,其中,m是第一音调度量的数量。换言之,音调度量数据TMD可以包括随时间变化的一个或多个第一音调度量,例如,在第一会话期间。
音调度量可指示说话者的音调。第一说话者度量数据可以包括一个或多个第一音调参数,例如,包括在音调度量数据TMD中。一个或多个第一音调参数可以基于一个或多个第一音调度量。例如,音调度量数据TMD可以指示或包括第一音调参数,该第一音调参数是会话期间说话者的平均音调、时间间隔和/或会话的音调结果(例如,当会话和/或声音回合终止时说话者的总音调)。音调度量数据TMD可以指示会话和/或声音回合中说话者的平均音调。在一个或多个示例性方法中,音调度量数据TMD可以指示一个或多个随时间变化的音调度量。例如,音调度量数据SMD可以指示一系列音调等级,例如,每个会话回合的一个音调等级。音调度量数据TMD可以包括一个或多个语音度量。换言之,音调度量数据可以包括一个或多个语音度量,例如,中断、过度讲话、长时间停顿、高或低语速、高或低语调、说话者扭转或突然改变(例如,将顾客从否定转向肯定或相反)和/或响应性。音调度量数据可以包括事件的计数,例如,一个或多个度量的计数。
在一个或多个示例性方法中,获得第一话语数据VD_1包括确定指示第一话语V_1的一个或多个缺陷的第一说话者度量数据SPMD_1。缺陷可以被视为与第一话语V_1的目标语音特征和/或简档的差异。
在一个或多个示例性方法中,获得第一话语数据VD_1包括确定指示第一话语的一个或多个缺陷的第一缺陷数据,也表示为DD_1。换言之,获得第一话语数据可以包括确定第一话语数据(例如,第一话语)是否包括一个或多个缺陷。缺陷可以被定义为话语数据,例如,第一说话者/用户在预定或定义的范围、阈值和/或值之外的说话者度量和/或话语度量。也可以根据说话者/用户没有按照要求或定义进行操作的事件来确定缺陷。
在一个或多个示例性方法中,确定第一话语数据是否满足第一验证标准包括确定指示第一话语的一个或多个缺陷的第一缺陷数据。在一个或多个示例性方法中,确定第一话语数据是否满足第二验证标准包括确定指示第一话语的一个或多个缺陷的第一缺陷数据。获得第一缺陷数据可以包括识别一个或多个说话者度量和/或话语度量,其中,第一说话者的表现低于定义的标准。
在一个或多个示例性方法中,缺陷数据包括说话音调缺陷、语音特征缺陷和声音特征缺陷中的一个或多个。第一缺陷数据可以包括第一说话者的说话音调缺陷、语音特征缺陷和声音特征缺陷中的一个或多个。说话音调缺陷可以例如包括否定的说话音调、不满意的说话音调、担心的音调、厌烦的音调和/或害怕的音调。语音特征缺陷可以例如包括缺乏热情、缺乏友好和/或缺乏第一说话者的专业精神,例如,在第一话语中。声音特征缺陷可以例如包括单调的声音、令人不快的语速和/或不清晰的发音。
在一个或多个示例性方法中,该方法包括输出(例如,确定、产生、存储和/或传输)第一话语表示,也表示为VR_1,其指示第一话语数据VD_1。在一个或多个示例性方法中,该方法包括确定指示第一话语数据VD_1的第一话语表示VR_1。第一话语表示VR_1可以基于第一说话者度量数据SPMD_1。可通过使用话语模型VM来确定第一话语表示VR_1。换言之,第一话语表示可以基于话语模型的输出。第一话语表示可以包括话语模型的结果。第一话语表示可以包括指示第一音频数据的音频信号。输出第一话语表示可以包括播放指示第一音频数据的音频信号(例如,音频样本)。输出第一话语表示可以包括显示、展示和存储第一话语表示中的一个或多个。例如,输出第一话语表示可以包括在电子装置的显示器上显示第一话语表示,例如,显示给用户和/或验证者(例如,第一验证者和/或第二验证者)。第一话语表示可以包括用户界面,该用户界面包括将由验证者验证的话语模型的输出以及输出所基于的话语模型的输入(例如,第一音频数据)。话语表示可以指示被分析的片段,例如,语音片段或话语。例如,话语活动检测模块可识别一个或多个语言/语音片段并丢弃噪声。例如,片段可以是至少5秒或至少10秒的语音片段。话语活动检测模块可检测长于例如400ms、500ms或1s的暂停。当出现暂停时,当另一个说话者开始说话时,或者当片段达到定义的最大长度(例如,最多8秒)时,可以检测到语音片段,可以指示该语音片段的结束。确定第一话语表示VR_1可以包括基于第一主要说话者度量数据SPMD_1_1确定第一主要话语表示VR_1_1,基于第一次要说话者度量数据SPMD_1_2确定第一次要话语表示VR_1_2,和/或基于第一三元说话者度量数据SPMD_1_3确定第一三元话语表示VR_1_3。
该方法包括基于第一话语表示VR_1从也表示为VAL_1的第一验证者获得(例如,检索、接收和/或确定)也表示为VVD_1的第一话语验证数据。第一验证数据VVD_1可以包括指示第一验证者VAL_1是否与第一话语表示一致的数据。换言之,第一验证数据VVD_1可以包括指示第一验证者VAL_1是否与话语VM的输出一致的数据,例如,鉴于第一音频数据。第一验证者可以将第一话语表示与第一音频数据进行比较。可以理解,第一验证数据VVD_1可以包括第一话语表示的替代。第一验证数据VVD_1可以包括指示第一验证者VAL_1是否与第一说话者度量数据一致的数据。例如,第一验证数据可以指示第一验证者是否与说话音调参数(例如,音调度量)、语音特征参数(例如,语音特征度量)、声音特征参数(例如,声音特征度量)、情感度量、情感类型标识符、情感等级、情感类型、情感度量的置信度分数和说话者状态中的一个或多个一致。例如,当第一话语表示VR_1指示第一说话者的情感状态是消极的时,第一验证数据可以包括指示第一验证者一致第一说话者的情感状态是消极的参数。例如,当第一话语表示VR_1指示包括第一说话者的情感状态为消极的情绪度量时,第一验证数据可以包括指示第一验证者与第一说话者不一致的情感状态为消极的参数。当第一验证者与第一话语表示不一致和/或作废第一话语表示时,第一验证者可以改为指示第一话语表示的替代。例如,第一验证者可以指示第一说话者的情感状态是积极的。第一验证者VAL_1可以是验证/注释他/她自己的第一话语数据(例如,他自己的表现)的用户。换言之,第一话语可以是第一验证者的话语和/或第一话语数据可以是第一验证者的数据。例如,第一验证者可以是呼叫中心的代理,评估/注释他自己的话语数据,例如,来自在呼叫中心上执行的一个或多个对话。换言之,第一验证者可以基于他自己的话语的音频数据来验证(例如,注释)话语模型的输出。因此,第一验证者接收对他自己的声音的自我评估的反馈,这又改进了对话语模型的验证输入。
该方法包括基于第一话语表示VR_1从也表示为VAL_2的第二验证者获得(例如,检索、接收和/或确定)也表示为VVD_2的第二话语验证数据。鉴于第一音频数据,第二验证数据VVD_2可以包括指示第二验证者VAL_2是否与第一话语表示一致的数据。第二验证者可以将第一话语表示(例如,第一话语数据)与第一音频数据进行比较。换言之,第二验证数据VVD_2可以包括指示第二验证者VAL_2是否与话语模型VM的输出一致的数据。可以理解,第二验证数据VVD_2可以包括第一话语表示的替代。第二验证数据VVD_2可以包括指示第二验证者VAL_2是否与第一说话者度量数据一致的数据。例如,第二验证数据可以指示第二验证者是否与说话音调参数(例如,音调度量)、语音特征参数(例如,语音特征度量)、声音特征参数(例如,声音特征度量)、情感度量、情感类型标识符、情感等级、情感类型、情感度量的置信度分数和说话者状态中的一个或多个。例如,当第一话语表示VR_1指示第一说话者的情感状态是消极的时,第二验证数据可以包括指示第二验证者一致第一说话者的情感状态是消极的参数。例如,当第一话语表示VR_1指示包括第一说话者的情感状态为消极的情绪度量时,第二验证数据可以包括指示第二验证者与第一说话者不一致的情感状态为消极的参数。当第二验证者与第一话语表示不一致和/或作废第一话语表示时,第二验证者可以指示第一话语表示的替代。例如,第二验证者可以指示第一说话者的情感状态是积极的。第二验证者VAL_2可以是验证/注释第一话语数据(例如,第一话语的表现)的第二用户。第二验证者可以包括一个或多个用户,例如,一组用户。第二验证者可以是通信***的管理者,例如,作为通信***的代理/用户的第一验证者的管理者。例如,第二验证者可以是评估/注释第一验证者的话语数据的呼叫中心的管理者,例如,来自在存在第一验证者的呼叫中心上执行的一个或多个对话。换言之,第二验证者可以基于第一验证者的话语的音频数据来验证(例如,注释)话语模型的输出。
诸如第一验证者VAL_1和/或第二验证者VAL_2等验证者可以被视为评估话语模型和/或话语数据的输出的验证者。验证者可以被视为对话语模型和/或声音数据的输出进行评级的评级人员。验证者可以与话语模型的输出的替代一致、不一致和/或指示话语模型的输出的替代。换言之,验证者可以被视为验证或作废第一话语表示和/或第一话语表示的内容的管理者。例如,验证者可以被视为验证或作废话语模型的输出的管理者。验证者可以包括人类验证者和/或验证模型(例如,第一验证模型和/或第二验证模型)。验证模型可以包括ML模型。验证模型可以包括更高计算复杂度的模型(例如,更多层、更多参数和/或多个(整体)模型)和/或在不同和/或额外音频特征和/或不同和/或额外频数据上训练。验证模型可以包括不同类型的模型、不同的体系结构(例如,不同的层)和/或不同的参数,例如,不同的最优值,例如,由于随机优化。由于其较高的复杂性,验证模型可以以离线(非实时)方式工作,从而形成验证模型的异步验证者。此外,由于可以在不同的特征(例如,从抄写中导出的文本特征)上训练,所以可以具有不同的(明显地,更好的)表现。验证模型本身可以生成预测,然后通过将其预测与原始模型预测进行比较来执行验证,和/或训练,以基于音频数据AD(例如,第一音频数据AD_1,例如,音频样本)和验证模型的预测来返回是/否答案。
在一个或多个示例性方法中,基于第一话语表示VR_1从第一验证者VAL_1获得第一话语验证数据VVD_1包括经由电子装置(例如,第一用户装置,例如,第一验证者装置)上的用户界面从第一验证者VAL_1获得第一输入I_1。换言之,第一话语验证数据可以包括第一输入和/或作为第一输入的结果。第一话语表示可以包括用户界面。用户界面可以经由电子装置显示,例如,经由电子装置的显示器。第一话语表示VR_1可以包括将由验证者验证的话语模型的输出和输出所基于的话语模型的输入(例如,第一音频数据)。第一验证者VAL_1可以响应于提供给第一验证者的用户界面而提供第一输入I_1(例如,第一验证者输入)。第一输入I_1可以由第一验证者VAL_1提供,作为对经由用户界面来自电子装置的提示的响应。换言之,第一输入可以被视为来自第一验证者的关于第一话语表示和/或第一话语数据的反馈。
电子装置的处理器可以被配置为在界面(例如,第一显示器)上显示一个或多个用户界面,例如,用户界面屏幕,包括第一用户界面和/或第二用户界面,例如,第一话语表示。用户界面可以包括一个或多个(例如,多个)用户界面对象。例如,第一用户界面可以包括第一主要用户界面对象和/或第一次要用户界面对象。第二用户界面可以包括第二主要用户界面对象和/或第二次要用户界面对象。用户界面可以被称为用户界面屏幕。
诸如第一输入I_1和/或第二输入I_2等输入可以包括触摸(例如,轻击、强制触摸、长按)、点击(例如,鼠标点击)、打字(例如,在键盘上打字)、音频记录(例如,经由麦克风)、和/或接触移动(例如,滑动手势,例如,用于切换)。接触上的移动可以由例如电子装置的第一显示器上的触敏表面来检测。因此,第一显示器可以是触敏显示器。第一输入(例如,第一用户输入)可以包括抬起。诸如第一输入等用户输入可以包括触摸和移动,随后是抬起。
电子装置的显示器可以被配置为检测用户输入,例如,第一输入。用户输入可以包括来自用户的触摸输入,例如,当第一显示器包括触敏显示器时。用户输入可以包括触敏显示器上的接触、包含在电子装置中或连接到电子装置的键盘和/或鼠标。触敏显示器可以在电子装置和用户之间提供用户界面(例如,输入界面)和输出界面。电子装置的处理器可以被配置为从触敏显示器接收电信号和/或向触敏显示器发送电信号。触敏显示器可以被配置为向用户显示视觉输出,例如,第一话语表示。视觉输出可选地包括图形、文本、图标、视频、音频图标及其任意组合(统称为“图形”)。例如,一些、大部分或全部视觉输出可以被视为对应于用户界面对象。电子装置还可以被配置为输出包括音频输出的第一话语表示,例如,第一话语的记录、话语表示、音频图标、文本输出、图形输出和/或听觉反馈。
在一个或多个示例性方法中,基于第一话语表示VR_1从第二验证者VAL_2获得第二话语验证数据VVD_2包括经由电子装置(例如,第二用户装置,例如,第二验证者装置)上的用户界面从第二验证者VAL_2获得第二输入I_2。换言之,第二话语验证数据可以包括第二输入和/或作为第二输入的结果。第一话语表示可以包括用户界面。用户界面可以经由电子装置显示,例如,经由电子装置的显示器。第一话语表示VR_1可以包括将由验证者验证的话语模型的输出和输出所基于的话语模型的输入(例如,第一音频数据)。第二验证者VAL_2可以响应于提供给第二验证者的用户界面而提供第二输入I_1(例如,第二验证者输入)。第二输入I_2可以由第二验证者VAL_2提供,作为对经由用户界面来自电子装置的提示的响应。换言之,第二输入可以被视为基于第一音频数据的来自第二验证者的对第一话语表示和/或第一话语数据的反馈。
在一个或多个示例性方法中,获得第一话语验证数据VVD_1和/或获得第二话语验证数据VVD_2包括接收表征第一音频数据AD_1的一个或多个标签参数。换言之,第一验证者和/或第二验证者可以提供输入(例如,第一输入和/或第二输入),该输入提供表征第一音频数据AD_1的一个或多个标签参数。标签参数可以理解为验证者与第一音频数据相关联的标签。标签参数可以提供绝对反馈。标签参数可以例如包括说话音调参数(例如,音调度量)、语音特征参数(例如,语音特征度量)、声音特征参数(例如,声音特征度量)、情感度量、情感类型标识符、情感等级、情感类型、情感度量的置信度分数和说话者状态中的一个或多个。验证者可以例如经由电子装置的用户界面提供标签参数。
在一个或多个示例性方法中,获得第一话语验证数据VVD_1和/或获得第二话语验证数据VVD_2包括接收验证数据,也表示为CD,其指示第一话语数据VD_1的有效性或无效性。换言之,鉴于第一音频数据,第一话语验证数据VVD_1和/或第二话语验证数据VVD_2可以包括确认数据,该确认数据指示第一验证者VAL_1和/或第二验证者VAL_2是否与话语模型VM的输出一致。确认数据CD可以由第一输入和/或第二输入提供。确认数据CD可以被视为来自第一验证者和/或第二验证者对第一话语数据和/或第一话语表示的反馈。确认数据可以被视为隐式反馈,例如,指示对来自第一验证者和/或第二验证者的话语模型的正确或错误输出的评估。确认数据可以包括一个或多个标签参数。在一个或多个示例性方法中,标签参数可指示第一话语数据VD_1的有效性或无效性。例如,当第一话语验证数据包括对应于第一话语数据的参数的标签参数时,标签参数可以验证第一话语数据。验证者可以例如经由电子装置的用户界面提供确认数据。
在一个或多个示例性方法中,第一话语验证数据VVD_1包括关于第一话语数据VD_1是否满足第一验证标准(也表示为VC_1)的信息。换言之,该方法可以包括确定第一话语数据是否满足第一验证标准。该方法可以包括确定第一话语数据是否满足或履行第一验证标准。当确定第一话语数据满足第一验证标准时,这可以是第一验证者验证(有效性)第一话语数据的指示。当确定第一话语数据不满足第一验证标准时,这可以是第一验证者不验证(无效)第一话语数据的指示。
在一个或多个示例性方法中,确定第一话语数据是否满足第一验证标准包括确定第一话语数据是否高于、等于或低于第一阈值或在第一范围内。当确定第一话语数据满足第一验证标准时,第一话语数据高于第一阈值。当确定第一话语数据不满足第一验证标准时,第一话语数据可以等于或低于第一阈值。
第一验证标准可以包括第一模型目标数据。例如,第一验证标准可以包括第一话语数据必须履行的标准说话者分数。确定第一话语数据是否满足第一验证标准可以包括确定第一话语数据的第一说话者分数是否满足第一模型目标数据(例如,标准说话者分数)。
在一个或多个示例性方法中,验证标准(例如,第一验证标准)基于说话者度量数据(例如,第一说话者度量数据)。可以基于一个或多个第一说话者度量来确定第一验证标准。例如,当第一说话者度量数据包括第一音调度量时,第一验证标准可以包括第一音调度量。然后,可以将第一音调度量与第一验证标准的标准音调度量和/或音调度量的阈值进行比较。
在一个或多个示例性方法中,第二话语验证数据VVD_2包括关于第一话语数据VD_1是否满足第二验证标准(也表示为VC_2)的信息。换言之,该方法可以包括确定第一话语数据是否满足第二验证标准。该方法可以包括确定第一话语数据是否满足或履行第二验证标准。当确定第一话语数据满足第二验证标准时,这可以是第二验证者验证(有效性)第一话语数据的指示。当确定第一话语数据不满足第二验证标准时,这可以是第二验证者不验证(无效)第一话语数据的指示。
诸如第一验证标准和/或第二验证标准之类的验证标准可以包括第一话语数据(例如,第一说话者度量数据)可以与之进行比较的一个或多个参数。例如,第一验证标准和/或第二验证标准可以包括可以与第一话语数据进行比较的说话音调标准/参数、语音特征标准/参数、声音特征标准/参数、数量参数(例如,验证的数量)和/或时间参数/标准(例如,验证者已经提供话语验证数据的最小时间段)。换言之,第一验证标准和/或第二验证标准可以包括第一话语数据要满足的一个或多个条件。第一验证标准VC_1的描述也可以适用于第二验证标准VC_2。
该方法包括基于第一话语验证数据VVD_1和第二话语验证数据VVD_2确定一致性度量,也表示为AM。确定一致性度量可以基于第一话语验证数据和第二话语验证数据的比较。一致性度量可以被视为指示第一验证者和第二验证者对于第一音频数据是否一致的度量。换言之,一致性度量可以被视为指示第一验证者和第二验证者之间的一致程度的度量。确定一致性度量可以包括确定一致性分数。基于第一话语验证数据和第二话语验证数据,一致性分数可以指示第一验证者和第二验证者一致的分数或概率。一致性度量可以指示第一验证者和第二验证者是否已经提供了相同或相似的话语验证数据。换言之,一致性度量可以指示第一验证者和第二验证者是否已经提供了相同或相似的输入、标签参数和/或确认数据。一致性度量可以提供第一验证者和第二验证者之间的一致程度的指示。例如,一致性分数例如可以是0和1之间的值或分数。例如,当一致性分数为0时,一致性分数可以指示在第一验证者和第二验证者之间存在0%的一致。当一致性分数为0.5时,一致性分数可以指示第一验证者和第二验证者之间50%的一致。换言之,第一验证者和第二验证者可以就第一话语数据的50%达成一致(例如,第一话语验证数据和第二话语验证数据之间50%的一致)。例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括二进制信息和/或分类信息(例如,是/否)时,当第一话语验证数据VVD_1等于第二话语验证数据VVD_2,VVD_1=VVD_2时,一致性度量可以被确定为1,AM=1。否则,一致性度量可以被确定为0,AM=0。例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括数字信息(例如,标度上的数字)时,一致性度量可以被确定为第二话语验证数据VVD_2和第一话语验证数据VVD_1之间的差,例如,第二话语验证数据VVD_2和第一话语验证数据VVD_1的减法,AM=VVD_2-VVD_1。
可以基于一个或多个音频片段或语音样本(例如,语音片段)来确定一致性度量。例如,可以基于第一话语的至少5个音频片段、第一话语的至少20个音频片段、第一话语的至少50个音频片段和/或第一话语的至少100个音频片段来确定一致性度量。换言之,可以基于第一话语的多个音频片段的聚集来确定一致性度量。通过聚集第一话语的多个音频片段,一致性度量可以基于更大数量的数据点,并且可以提供第一话语数据的充分分布(例如,第一说话者度量数据的充分分布)。
在一个或多个示例性方法中,确定一致性度量AM是基于与第一验证者VAL_1相关联的第一偏差B_1的。在一个或多个示例性方法中,该方法包括基于一个或多个等式确定第一偏差B_1。诸如第一偏差和/或第二偏差等偏差可以包括一个或多个系数,例如,偏差系数。第一偏差可以被视为第一验证者的偏差,例如,用户注释/评估他自己的第一话语的偏差。换言之,当提供第一话语验证数据时,第一验证者可能有偏差。例如,当第一话语是第一验证者的话语时,第一验证者可能在注释/评估他自己的第一话语时有偏差。确定一致性度量可以包括对第一话语验证数据应用第一偏差B_1。可以通过要求用户注释一组预先注释的文件(例如,预先注释的音频表示、片段和/或注释器嵌入)来确定第一偏差B_1,其中,出现每个情感音调的所有或一些值(例如,{消极、中性、积极})。偏差可以被视为验证者的隐式注释校准。例如,倾向于比话语模型更消极地验证的验证者对于情感类型标识符“消极”,例如,对于情感“消极”,可能具有较低的验证精度。偏差可以被视为注释者对每个音调的准确性。当验证者是ML模型时,可以遵循相同的过程。此外,当第二验证者与模型一致时,可以通过对第一验证者所犯的错误进行计数,来在线近似/调整偏差。例如,当第二验证者VAL_2与话语模型一致时,例如,对于指示情感为“消极”的情感类型标识符,但是第一验证者VAL_1与话语模型不一致,则这将被计为第一验证者VAL_1的错误。对于每个情感类型标识符,当第一验证者VAL_1不一致但是第二验证者VAL_2一致时,可以保持运行比率。该运行比率可以定义第一偏差B_1和/或第二偏差B_2。
在一个或多个示例性方法中,确定一致性度量AM是基于与第二验证者VAL_1相关联的第二偏差B_2的。在一个或多个示例性方法中,该方法包括基于一个或多个等式确定第二偏差B_2。诸如第一偏差和/或第二偏差等偏差可以包括一个或多个系数,例如,偏差系数,和/或一个或多个权重,例如,偏差权重。第二偏差可以被视为第二验证者的偏差,例如,注释/评估第一话语的用户/管理者的偏差。换言之,当提供第二声音验证数据时,第二验证者可能有偏差。确定一致性度量可以包括对第二话语验证数据应用第二偏差B_2。例如,当第一话语是第一验证者的话语时,第一偏差可以大于第二偏差。当第二验证者是中立的监督者/验证者时,第二验证者可以被视为无偏差的。可以通过要求用户注释一组预先注释的文件(例如,预先注释的音频表示、片段和/或注释器嵌入)来确定第二偏差B_2,其中,出现每个情感音调的所有或一些值(例如,{消极、中性、积极})。偏差可以被视为验证者的隐式注释校准。例如,倾向于比话语模型更消极地验证的验证者对于情感类型标识符“消极”,例如,对于情感“消极”,可能具有较低的验证精度。偏差可以被视为注释者对每个音调的准确性。当验证者是ML模型时,可以遵循相同的过程。此外,当第二验证者与模型一致时,可以通过对第一验证者所犯的错误进行计数,来在线近似/调整偏差。例如,当第一验证者VAL_1与话语模型一致时,例如,对于指示情感为“积极”的情感类型标识符,但是第二验证者VAL_2与话语模型不一致,则这将被计为第二验证者VAL_2的错误。
对于每个情感类型标识符,当第二验证者VAL_2不一致但是第一验证者VAL_1一致时,可以保持运行比率。该运行比率可以定义第一偏差B_1和/或第二偏差B_2。
例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括二进制信息和/或分类信息(例如,是/否)时,当第一话语验证数据VVD_1乘以第一偏差B_1等于第二话语验证数据VVD_2乘以第二偏差B_2,VVD_1*B_1=VVD_2*B_2时,一致性度量可以被确定为1,AM=1。否则,一致性度量可以被确定为0,AM=0。
例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括数字信息(例如,标度上的数字)时,一致性度量可以被确定为第二话语验证数据VVD_2乘以第二偏差B_2和第一话语验证数据VVD_1乘以第一偏差B_1之间的差,例如,第二话语验证数据VVD_2乘以第二偏差B_2和第一话语验证数据VVD_1乘以第一偏差B_1的减法,AM=VVD_2*B_2–VVD_1*B_1。
在一个或多个示例性方法中,确定一致性度量AM是基于与话语模型VM相关联的话语模型偏差VMB的。在一个或多个示例性方法中,该方法包括确定话语模型偏差VMB。话语模型偏差可以被视为关于话语的偏差,例如,第一话语、性别和/或语言。换言之,当应用于第一音频数据时,话语模型可能有偏差。话语模型偏差可以被视为关于第一话语的偏差。例如,可以根据模型目标(例如,模型标准)来配置话语模型。模型目标和/或模型标准可以包括目标说话音调、目标语音特征、目标声音特征(例如,目标声音类型和/或目标口音)和/或目标情感度量(例如,情感类型标识符、情感等级和/或情感类型)。当第一话语(例如,第一音频数据)偏离模型目标和/或模型标准时,可以基于如何配置话语模型来使话语模型有偏差。
例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括二进制信息和/或分类信息(例如,是/否)时,当第一话语验证数据VVD_1乘以第一偏差B_1等于第二话语验证数据VVD_2乘以第二偏差B_2且等于第一话语表示VR_1乘以话语模型偏差VMB,VVD_1*B_1=VVD_2*B_2=VR_1*VMB时,一致性度量可以被确定为1,AM=1。否则,一致性度量可以被确定为0,AM=0。
可以通过基于一组预先注释的文件(例如,预先注释的音频表示、片段和/或注释器嵌入)运行话语模型来确定话语模型偏差VMB,其中,出现每个情感音调(例如,{消极、中性、积极})的所有或一些值。这可以离线完成。可以基于例如第一验证者VAL_1和第二验证者VAL_2在由话语模型输出的给定情感类型标识符上都一致或不一致的比率来在线确定话语模型偏差。
偏差可以被视为话语模型的隐含注释校准。例如,当话语模型倾向于输出不同于一个或两个验证者的情感类型标识符时,话语模型对于该情感类型标识符可能具有较低的准确度。当第一验证者VAL_1和/或第二验证者VAL_2与每个情感类型标识符的话语模型不一致时,可以保持运行比率。这个运行比率可以定义话语模型偏差VMB。
可以基于群组(例如,性别)来确定话语模型偏差VMB。这可以允许确定每个标记/组对的正确/不正确比率,例如,消极-消极、消极-积极和/或积极-消极。这可以基于可用的元数据离线计算,或者基于来自其他模型的预测在线计算。
例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括数字信息(例如,标度上的数字)时,一致性度量可以被确定为第二话语验证数据VVD_2乘以第二偏差B_2与第一话语验证数据VVD_1乘以第一偏差B_1加上(例如,加法)第一话语表示VR_1乘以话语模型偏差VMB之间的差,例如,第二话语验证数据VVD_2乘以第二偏差B_2和第一话语验证数据VVD_1乘以第一偏差B_1的减法加上(例如,加法)第一话语表示VR_1乘以话语模型偏差VMB,AM=VVD_2*B_2–VVD_1*B_1+VR_1*VMB。
本文中所公开的偏差(例如,第一偏差、第二偏差和/或话语模型偏差)可以基于关于模型和验证者的误差可能性和偏差的先验知识。
该方法包括基于一致性度量AM确定第一验证分数,也表示为VS_1。第一验证分数可以被视为指示第一话语验证数据和/或第二话语验证数据的质量参数、公正性参数、信任参数和/或评估参数的分数。第一验证分数可以基于第一验证者和第二验证者之间的一致性分数。第一验证分数可以向验证者(例如,第一验证者和/或第二验证者)提供关于他如何验证/注释第一话语数据的反馈,例如,他在验证/注释方面有多好。例如,当第一话语是第一验证者的话语时,第一验证分数可以向第一验证者提供关于他如何评估他自己的话语和/或表现的反馈。验证者可以向通信***提供在线反馈。第一验证分数可以提供对验证者的自我评估质量的指示,例如,验证验证者是否可以验证他自己的对话和/或表现。例如,第一验证分数可以指示验证者(例如,第一验证者)是否已经提供了第一话语数据的真实注释。第一验证分数可以基于第一偏差、第二偏差和/或话语模型偏差。通过提供第一验证分数,可以实现来自验证者的更诚实的验证。此外,具有第一话语并且第一音频数据所基于的第一说话者/用户(例如,代理)可能会因具有更诚实的验证而更受激励。换言之,第一说话者/用户可能更有动力去适应他/她的验证者偏好。换言之,第一说话者/用户可能更有动力,因为对他/她的音频数据的验证可能更精确和/或更现实,这又提供了第一说话者的改进的自我评估。在一个或多个示例性方法中,该方法包括为第二话语数据确定第二验证分数VS_2。在一个或多个示例性方法中,第一验证分数VS_1等于一致性度量AM。根据本公开,由于具有第一验证分数VS_1,可以提供无偏差估计(例如,金标准),例如,以改进话语模型。换言之,例如,对于每个说话者度量(例如,对于每个标签),验证分数VS可以被视为验证者偏差的倒数。例如,每当验证者确定音频数据包括消极的女性时,验证者可能有20%的时间是错误的。换言之,验证分数VS可以被视为第一验证者VAL_1和第二验证者VAL_2之间的总一致性度量AM。例如,第一验证分数VS_1可以指示第一验证者VAL_1在80%的时间内与第二验证者VAL_2(例如,第一验证者的管理者)一致。
在一个或多个示例性方法中,根据满足训练标准(也表示为TC),该方法包括基于第一音频数据AD_1以及第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2和一致性度量AM中的一个或多个来训练(例如,更新)话语模型VM,以提供更新的话语模型(也表示为UVM)。换言之,该方法可以包括确定话语模型是否满足训练标准。该方法可以包括确定话语模型是否满足或履行训练标准。当确定话语模型满足训练标准时,这可能是话语模型需要被训练和/或重新训练的指示。当确定话语模型不满足训练标准时,这可能是话语模型不需要训练和/或重新训练的指示,并且该方法包括避免训练话语模型。例如,当确定话语模型不满足训练标准时,这可能是话语模型性能令人满意的指示。在一个或多个示例性方法中,训练标准包括训练阈值。在一个或多个示例性方法中,对话语模型是否满足训练标准的确定是基于确定话语模型性能参数是否高于训练阈值,例如,确定话语模型性能分数是否高于训练阈值。例如,当第一话语验证数据和第二话语验证数据都指示第一话语数据无效时,可以满足训练标准,并且可以训练话语模型。
训练标准TC可以基于第一验证者VAL_1和第二验证者VAL_2与话语模型VM不一致的一定百分比(X%)的数据(例如,音频数据)的集合。例如,当第一验证者VAL_1和第二验证者VAL_2对于至少1%、至少2%、至少5%、至少10%、至少20%和/或更多的所收集的数据(例如,音频数据)与话语模型不一致时,可以满足训练标准TC。
训练标准TC可以基于一定百分比(X%)的数据(例如,音频数据)的集合,对于该数据,无偏差验证者(例如,具有指示无偏差的第一偏差B_1的第一验证者VAL_1和/或具有指示无偏差的第二偏差B_2的第二验证者VAL_2)与话语模型不一致。例如,对于某些话语表示(例如,对于某些说话者度量),无偏差验证者可能与话语模型不一致,例如,当验证者对于某个情感度量和/或某个性别是无偏差的时,则训练标准TC可以基于验证者与该情感度量和/或性别不一致的话语数据。
训练标准TC可以基于一定百分比(X%)的数据(例如,音频数据)的集合,对于这些数据,话语模型VM的置信度分数低于某一阈值(例如,训练阈值)。
训练标准TC可以基于一定百分比(X%)的数据(例如,音频数据)的集合,对于这些数据,包括例如情感度量的话语表示很少出现。换言之,该方法可以包括减轻训练数据TD(例如,初始训练数据)的类别不平衡。
例如,当第一话语验证数据VVD_1和第二话语验证数据VVD_2包括二进制信息和/或分类信息(例如,是/否)时,一致性度量被确定为1,AM=1,(例如,第一验证者和第二验证者彼此一致),并且第一话语验证数据VVD_1和第二话语验证数据VVD_2等于1(例如,第一验证者和第二验证者与第一话语数据VD_1一致),该方法包括训练(例如,更新)话语模型VM。
在一个或多个示例性方法中,第一话语验证数据VVD_1和/或第二话语验证数据VVD_2包括数字信息,例如,介于0和1之间的验证分数。例如,当第一话语验证数据VVD_1和/或第二话语验证数据VVD_2包括数字信息,例如,介于0和1之间的验证分数时,一致性度量可以被确定为具有置信度分数和/或不确定性的0或1。例如,AM=1(例如,第一验证者和第二验证者彼此一致),并且第一话语验证数据VVD_1和第二话语验证数据VVD_2在0.5和1之间(例如,第一验证者和第二验证者与第一话语数据VD_1一致),该方法包括训练(例如,更新)话语模型VM。一致性度量的置信度分数和/或不确定性(例如,误差)可以被确定为第一话语验证数据VVD_1和第一话语数据VD_1(例如,数字的)之间的差(例如,减法)乘以2,加上(例如,加法)第二话语验证数据VVD_2和第一话语数据VD_1(例如,数字的)之间的差(例如,减法)乘以2。不同地被编写为不确定性(U_1)=(VVD_1–VD_1)*2+(VVD_2–VD_1)*2。
替代地和/或附加地,一致性度量的置信度分数和/或不确定性(例如,误差)可以被确定为第一话语验证数据VVD_1和第二话语验证数据VVD_2的和除以2(例如,除法),减去第一话语数据VD_1,其结果乘以(例如,乘法)2。不同地被编写为不确定性(U_1)=((VVD_1+VVD_2)/2–VD_1)*2。
替代地和/或附加地,一致性度量的置信度分数和/或不确定性(例如,误差)可以被确定为第一话语验证数据VVD_1乘以第一偏差B_1加上第二话语验证数据VVD_2乘以第二偏差B_2,其结果除以第一偏差B_1加上第二偏差B_2减去第一话语数据,再乘以2。不同地被编写为不确定性(U_1)=((VVD_1*VB_1+VVD_2*VB_2)/(VB_1+VB_2)-VD_1)*2。
置信度分数和/或不确定性(例如,误差)可用于训练话语模型。例如,当置信度分数和/或不确定性(例如,误差)高于某一阈值(例如,训练阈值)时,该方法可以包括基于第一话语验证数据VVD_1、第二话语验证数据VVD_2和/或置信度分数和/或不确定性来训练(例如,更新)话语模型VM。
否则,当第一话语验证数据VVD_1和第二话语验证数据VVD_2等于0时(例如,第一验证者和第二验证者与第一话语数据VD_1不一致),该方法包括避免训练(例如,更新)话语模型VM。换言之,当第一验证者和第二验证者与第一话语数据VD_1不一致时,该方法可以仅经由话语模型的强化学习RL来训练话语模型。例如,当验证者提供二进制信息和/或分类信息时,可以使用RL来预测说话者度量,例如,预测情感度量。例如,RL可以用于预测情绪度量,例如,生气、高兴、中立和/或悲伤。RL可用于确定第一验证者VAL_1的“诚实性”和/或准确性,例如,通过比较第一话语验证数据VVD_1和第二话语验证数据VVD_2。RL可用于确定第一验证者VAL_1可以提供准确的话语验证数据的情况(例如,话语数据),例如,基于第一偏差B_1。换言之,RL可用于确定可以信任第一验证者VAL_1的情况(例如,话语数据)。可以理解,话语模型VM可以最小化第一验证者VAL_1和/或第二验证者VAL_2与话语模型不一致的话语表示(例如,次数)。否则,当一致性度量已被确定为0,AM=0时(例如,第一验证者和第二验证者彼此不一致),该方法包括避免训练(例如,更新)话语模型VM。
在一个或多个示例性方法中,该方法包括基于训练数据TD来训练话语模型VM,该训练数据TD基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个。换言之,训练数据TD可以包括第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个。换言之,该方法可以包括基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个来视场训练数据,例如,历史第一音频数据AD_1、历史第一话语数据VD_1、历史第一话语验证数据VVD_1、历史一致性度量AM和历史第二话语验证数据VVD_2中的一个或多个。训练数据可以基于一个或多个存储的呼叫和/或对话。在一个或多个示例性方法中,该方法包括存储训练数据TD,例如,将训练数据存储在训练数据库中。
在一个或多个示例性方法中,训练话语模型VM包括基于训练数据TD更新话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性方法中,训练话语模型VM包括基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2、一致性度量AM和第一验证分数VS_1中的一个或多个来确定候选话语模型CVM。
在一个或多个示例性方法中,训练话语模型VM包括确定候选话语模型CVM是否满足更新标准UC。更新标准可以基于以下一个或多个:均方误差MSE、一致性相关系数CCC、异常相关系数ACC、未加权平均召回率UAR、专家通知的加权准确度分数、F1分数和未加权平均偏差。可以使用未加权平均偏差作为度量,来测量例如关于受保护变量(例如,性别)的话语模型偏差VMB。在一个或多个示例性方法中,更新标准包括更新阈值。在一个或多个示例性方法中,对候选话语模型是否满足更新标准的确定是基于确定候选话语模型性能参数是否高于更新阈值,例如,确定候选话语模型性能分数是否高于更新阈值。当确定候选话语模型满足更新标准时,这可能是候选话语模型可用于更新话语模型以提供更新的话语模型的指示。当确定候选话语模型不满足更新标准时,这可能是候选话语模型对于更新话语模型不够好的指示,并且该方法包括避免用候选话语模型更新话语模型。例如,当确定候选话语模型不满足更新标准时,这可能是候选话语模型性能不令人满意的指示。
在一个或多个示例性方法中,可以离线执行对候选话语模型CVM是否满足更新标准的确定。例如,可以基于测试音频数据(例如,音频数据的测试集合)来执行候选话语模型CVM是否满足更新标准的确定。可以基于候选话语模型CVM(例如,基于测试数据)确定话语表示(例如,说话者度量数据),与话语模型VM的话语表示进行比较。换言之,候选话语模型CVM的输出可以与话语模型VM的输出进行比较。当来自候选话语模型CVM的输出(例如,话语表示)优于来自话语模型VM的输出(例如,话语表示)时,可以满足更新标准,并且可以更新话语模型。
在一个或多个示例性方法中,可以在线执行对候选话语模型CVM是否满足更新标准的确定。例如,候选话语模型CVM和话语模型VM可以以交替的方式应用,例如,使用A/B测试。例如,话语模型VM可以应用于第一次呼叫,候选话语模型CVM可以应用于第二次呼叫,诸如此类。然后可以确定第一验证者VAL_1和/或第二验证者VAL_2与话语模型VM和候选话语模型中的哪一个最一致。在一个或多个示例性方法中,根据确定满足更新标准UC,该方法包括用候选话语模型CVM更新话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性方法中,该方法包括基于更新的话语模型UVM来更新服务器装置上的服务器话语模型,也表示为SVM。换言之,可以在服务器装置上执行话语模型的训练。服务器装置可以被配置为将服务器话语模型分发给通信***的一个或多个电子装置。
在一个或多个示例性方法中,该方法包括将更新的话语模型UVM传输到被配置为使用话语模型VM的一个或多个客户端应用程序(例如,呼叫中心应用)。例如,该方法包括将更新的话语模型分发给通信***的一个或多个电子装置。一个或多个电子装置可以被配置为运行被配置为使用话语模型的客户端应用程序。
公开了一种通信***。该通信***包括电子装置。该电子装置包括处理器、存储器和界面。电子装置(例如,电子装置的处理器)被配置为执行根据本公开的任何方法。该通信***可以包括服务器装置和电子装置。
在一个或多个示例性通信***中,电子装置至少部分地在服务器装置中实现。
在一个或多个示例性通信***中,电子装置至少部分地在用户装置中实现。用户装置包括处理器、存储器和界面。电子装置可以是通信***的用户装置。用户装置可以被视为被配置为应用和/或运行话语模型和/或训练话语模型的模型训练装置。
通信***可以被配置为例如使用电子装置和/或服务器装置获得表示一个或多个话语的音频数据,音频数据包括第一话语的第一音频数据。
电子装置可以例如包括移动电话、计算机和平板电脑中的一个或多个。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为执行用户和另一个人之间的呼叫。电子装置可以被配置为获得第一音频输入,例如,来自用户和另一个人之间的对话或呼叫的第一音频输入。例如,电子装置可以充当呼叫代理装置,其中,用户可以是代理,例如,呼叫中心的代理,例如,支持呼叫中心、售后呼叫中心、营销呼叫中心或销售呼叫中心。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为记录来自第一说话者/用户(例如,代理)的第一音频输入,例如,记录第一说话者说话或讲话。电子装置可以被配置为获得例如包括在音频数据中的一个或多个音频信号。电子装置可以被配置为生成一个或多个音频信号,包括例如包含在第一音频数据中的第一音频信号。第一音频信号可以基于第一音频输入,并且第一音频数据可以基于第一音频信号。
在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置来基于第一音频数据获得第一话语数据。
在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置来基于第一音频数据AD_1获得第一话语数据VD_1。
在一个或多个示例性通信***中,获得第一话语数据VD_1包括例如使用电子装置和/或服务器装置对第一音频数据AD_1应用话语模型VM,第一话语数据VD_1包括第一说话者度量数据SPMD_1。在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置输出指示第一话语数据VD_1的第一话语表示VR_1。在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置基于第一话语表示VR_1从第一验证者VAL_1获得第一话语验证数据VVD_1。
在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置基于第一话语表示VR_1从第二验证者VAL_2获得第二话语验证数据VVD_2。
在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置基于第一话语验证数据VVD_1和第二话语验证数据VVD_2来确定一致性度量AM。
在一个或多个示例性通信***中,该通信***被配置为例如使用电子装置和/或服务器装置基于一致性度量AM来确定第一验证分数VS_1。
在一个或多个示例性通信***中,通信***被配置为例如使用电子装置和/或服务器装置来输出第一验证分数VS_1。
电子装置的界面可以包括第一显示器。电子装置的处理器可以被配置为在界面(例如,第一显示器)上显示一个或多个用户界面,例如,用户界面屏幕,包括第一用户界面和/或第二用户界面,例如,作为第一话语表示和/或第一验证分数。用户界面可以包括一个或多个(例如,多个)用户界面对象。例如,第一用户界面可以包括第一主要用户界面对象和/或第一次要用户界面对象。第二用户界面可以包括第二主要用户界面对象和/或第二次要用户界面对象。用户界面可以被称为用户界面屏幕。
通信***可以是用于执行一个或多个对话的***,例如,两个或多个人之间的呼叫,例如,电话呼叫或会议中的对话。该通信***可以是用于指导和/或训练一个或多个用户(例如,一个或多个说话者)的***。该通信***可以是用于监控、处理和/或分析一个或多个音频信号的***,例如,说话者说话,例如,作为独白或对话。该***可以是用于监视、处理和/或分析一个或多个音频信号的***,例如,两个或更多人之间的对话,例如,电话或会议中的对话。该***可以例如包括或充当呼叫中心***,用于执行呼叫和/或监控、处理和/或分析一个或多个音频信号,例如,两个或更多人之间的对话,例如,呼叫中心***的代理和客户或呼叫者之间的电话呼叫。
应当理解,与方法相关的特征描述也适用于电子装置、服务器装置和/或通信***中的相应特征。
图1示意性地示出了根据本公开的示例性通信***,例如,通信***2。通信***2包括电子装置10和可选的服务器装置20。电子装置10包括存储器10A、一个或多个界面10B和处理器10C。服务器装置20包括存储器20A、一个或多个界面20B以及一个或多个处理器20C。用户/第一说话者1A可以使用电子装置10(例如,移动电话或计算机)来执行或接收呼叫、接收第一话语表示和/或第一验证分数、和/或提供话语验证数据。用户1A例如可以是第一验证者VAL_1。电子装置可以可选地被配置为执行或接收来自说话者1B(例如,第二说话者)的呼叫。说话者1B可以使用说话者电子装置30来与用户1A通信。说话者1B可以是第一说话者1A与之对话的第二说话者,例如,通过通信***的呼叫。说话者1B可以是用户1A可以与之通信的管理者。说话者1B可以是第二验证者VAL_2。说话者电子装置30可以附加地和/或替代地是第二验证者电子装置,例如,第二验证者VAL_2可以使用的管理者电子装置。
电子装置10可以被配置为充当用户装置,用户1A可以使用该用户装置来获得/输出第一话语表示和/或第一验证分数,和/或提供话语验证数据。电子装置10可以被配置为充当用户装置,用户1A可以使用该用户装置来传送和/或监控与另一个说话者的呼叫/对话。电子装置10(例如,处理器10C)被配置为获得4、14表示一个或多个话语的音频数据,该音频数据包括第一话语的第一音频数据。可以从电子装置10获得14第一音频信号,例如,经由网络40,例如,全球网络,例如,因特网或电信网络。第一话语例如可以是用户1A的话语。音频数据可以包括一个或多个音频信号,包括第一音频信号。可以从说话者电子装置30获得22第一音频信号,例如,经由网络40,例如,全球网络,例如,因特网或电信网络。可以从服务器装置20获得14音频数据(例如,第一音频数据),例如,经由网络40,例如全球网络,例如,因特网或电信网络。可以从存储器10A获得音频数据(例如,第一音频数据)。电子装置10(例如,处理器10C)被配置为基于第一音频数据获得4、14第一话语数据。电子装置10(例如,处理器10C)可以被配置为在电子装置10本身上获得第一话语数据,例如,确定第一话语数据。
说话者电子装置30可以被配置为记录来自说话者1B的音频输入32,例如,第一音频输入,例如,记录说话者1B说话或讲话。电子装置30可以被配置为获得一个或多个音频信号,例如,基于音频输入32生成一个或多个音频信号,包括基于第一音频输入的第一音频信号。说话者电子装置30可以被配置为例如经由网络40向电子装置10传输22音频数据,例如,第一音频信号。说话者电子装置30可以被配置为从电子装置10获得24一个或多个音频信号,例如,基于用户输入4,例如,用户音频输入。用户输入4可以是用户1A说话或讲话,例如,电子装置10记录用户1A说话或讲话。用户1A可以是第一说话者和/或第二说话者。
通信***2被配置为例如使用电子装置10和/或服务器装置20来获得表示一个或多个话语的音频数据AD,音频数据AD包括第一话语V_1的第一音频数据AD_1。
通信***2被配置为例如使用电子装置10和/或服务器装置20基于第一音频数据AD_1获得第一话语数据VD_1。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40基于第一音频数据AD_1获得第一话语数据VD_1。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40基于第一音频数据AD_1获得第一话语数据VD_1。
通信***2被配置为获得第一话语数据VD_1,包括例如使用电子装置10和/或服务器装置20对第一音频数据AD_1应用话语模型VM,第一话语数据VD_1包括第一说话者度量数据SPMD_1。例如,电子装置10可以被配置为例如使用处理器10C和/或经由网络40对第一音频数据AD_1应用话语模型VM。例如,服务器装置20可以被配置为例如使用处理器20C和/或经由网络40将话语模型VM应用于第一音频数据AD_1。
通信***2被配置为例如使用电子装置10和/或服务器装置20输出指示第一话语数据VD_1的第一话语表示VR_1。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40输出6指示第一话语数据VD_1的第一话语表示VR_1。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40输出18指示第一话语数据VD_1的第一话语表示VR_1。
通信***2被配置为例如使用电子装置10和/或服务器装置20,基于第一话语表示VR_1从第一验证者VAL_1获得第一话语验证数据VVD_1。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40,基于第一话语表示VR_1从第一验证者VAL_1获得4、14第一话语验证数据VVD_1。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40基于第一话语表示VR_1从第一验证者VAL_1获得16第一话语验证数据VVD_1。
通信***2被配置为例如使用电子装置10和/或服务器装置20基于第一话语表示VR_1从第二验证者VAL_2获得第二话语验证数据VVD_2。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40,基于第一话语表示VR_1从第二验证者VAL_2获得4、14第二话语验证数据VVD_2。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40,基于第一话语表示VR_1从第二验证者VAL_2获得16第二话语验证数据VVD_2。
通信***2被配置为例如使用电子装置10和/或服务器装置20基于第一话语验证数据VVD_1和第二话语验证数据VVD_2来确定一致性度量AM。例如,电子装置10可以被配置为例如使用处理器10C基于第一话语验证数据VVD_1和第二话语验证数据VVD_2来确定一致性度量AM。例如,服务器装置20可以被配置为例如使用处理器20C基于第一话语验证数据VVD_1和第二话语验证数据VVD_2来确定一致性度量AM。
通信***2被配置为例如使用电子装置10和/或服务器装置20基于一致性度量AM来确定第一验证分数VS_1。例如,电子装置10可以被配置为例如使用处理器10C基于一致性度量AM来确定第一验证分数VS_1。例如,服务器装置20可以被配置为例如使用处理器20C基于一致性度量AM来确定第一验证分数VS_1。
通信***2被配置为例如使用电子装置10和/或服务器装置20输出第一验证分数VS_1。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40输出6第一验证分数VS_1。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40输出18第一验证分数VS_1。
在一个或多个示例性通信***中,确定一致性度量AM是基于与第一验证者VAL_1相关联的第一偏差B_1的。
在一个或多个示例性通信***中,确定一致性度量AM是基于与第二验证者VAL_2相关联的第二偏差B_2的。
在一个或多个示例性通信***中,确定一致性度量是基于与话语模型VM相关联的话语模型偏差VMB的。
在一个或多个示例性通信***中,基于第一音频数据AD_1获得第一话语数据VD_1包括例如使用电子装置10和/或服务器装置20基于第一音频数据AD_1来确定第一说话者SP_1的第一说话者度量数据SPMD_1,该第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。例如,电子装置10可以被配置为例如使用处理器10C基于第一音频数据AD_1来确定第一说话者SP_1的第一说话者度量数据SPMD_1,该第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。例如,服务器装置20可以被配置为例如使用处理器20C基于第一音频数据AD_1来确定第一说话者SP_1的第一说话者度量数据SPMD_1,该第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。
在一个或多个示例性通信***中,基于第一话语表示VR_1从第一验证者VAL_1获得第一话语验证数据VVD_1包括例如使用电子装置10和/或服务器装置20经由电子装置上的用户界面从第一验证者VAL_1获得第一输入I_1。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40从第一验证者VAL_1经由电子装置上的用户界面获得4、14第一输入I_1。
在一个或多个示例性通信***中,基于第一话语表示VR_1从第二验证者VAL_2获得第二话语验证数据VVD_2包括例如使用电子装置10和/或服务器装置20经由电子装置上的用户界面从第二验证者VAL_2获得第二输入I_2。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40从第二验证者VAL_1经由电子装置上的用户界面获得4、14第二输入I_1。例如,说话者电子装置20可以被配置为经由说话者电子装置20的用户界面从第二验证者VAL_2获得32第二输入I_2。
在一个或多个示例性通信***中,获得第一话语数据VD_1包括例如使用电子装置10和/或服务器装置20来确定指示第一话语V_1的一个或多个缺陷的第一说话者度量数据SPMD_1。例如,电子装置10可以被配置为例如使用处理器10C来确定指示第一话语V_1的一个或多个缺陷的第一说话者度量数据SPMD_1。例如,服务器装置20可以被配置为例如使用处理器20C来确定指示第一话语V_1的一个或多个缺陷的第一说话者度量数据SPMD_1。
在一个或多个示例性通信***中,获得第一话语验证数据VVD_1和/或获得第二话语验证数据VVD_2包括例如使用电子装置10和/或服务器装置20接收表征第一音频数据AD_1的一个或多个标签参数。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40接收4、14表征第一音频数据AD_1的一个或多个标签参数。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40接收16表征第一音频数据AD_1的一个或多个标签参数。
在一个或多个示例性通信***中,获得第一话语验证数据VVD_1和/或获得第二话语验证数据VVD_2包括例如使用电子装置10和/或服务器装置20接收指示第一话语数据VD_1的有效性或无效性的确认数据CD。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40接收4、14指示第一话语数据VD_1的有效性或无效性的确认数据CD。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40接收16指示第一话语数据VD_1的有效性或无效性的确认数据CD。
在一个或多个示例性通信***中,第一话语验证数据VVD_1包括关于第一话语数据VD_1是否满足第一验证标准VC_1的信息。
在一个或多个示例性通信***中,第二话语验证数据VVD_2包括关于第一话语数据VD_1是否满足第二验证标准VC_2的信息。
在一个或多个示例性通信***中,根据满足训练标准TC,通信***2被配置为例如使用电子装置10和/或服务器装置20基于第一音频数据AD_1和第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2和一致性度量AM中的一个或多个来训练话语模型VM,以提供更新的话语模型UVM。例如,电子装置10可以被配置为例如使用处理器10C基于第一音频数据AD_1和第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2和一致性度量AM中的一个或多个来训练话语模型VM,以提供更新的话语模型UVM。例如,服务器装置20可以被配置为例如使用处理器20C基于第一音频数据AD_1以及第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2和一致性度量AM中的一个或多个来训练话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性通信***中,通信***2被配置为例如使用电子装置10和/或服务器装置20基于根据第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个的训练数据TD来训练话语模型VM。例如,电子装置10可以被配置为例如使用处理器10C基于根据第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个的训练数据TD来训练话语模型VM。例如,服务器装置20可以被配置为例如使用处理器20C基于根据第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个的训练数据TD来训练话语模型VM。
在一个或多个示例性通信***中,通信***2被配置为例如使用电子装置10和/或服务器装置20来存储训练数据TD。例如,电子装置10可以被配置为例如在存储器10A上和/或经由网络40在服务器装置20上存储训练数据TD。例如,服务器装置20可以被配置为例如在存储器20A上存储训练数据TD。
在一个或多个示例性通信***中,训练话语模型VM包括例如使用电子装置10和/或服务器装置20基于训练数据TD更新话语模型VM,以提供更新的话语模型UVM。例如,电子装置10可以被配置为例如使用处理器10C基于训练数据TD更新话语模型VM,以提供更新的话语模型UVM。例如,服务器装置20可以被配置为例如使用处理器20C基于训练数据TD更新话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性通信***中,训练话语模型VM包括例如使用电子装置10和/或服务器装置20基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2、一致性度量AM和第一验证分数VS_1中的一个或多个来确定候选话语模型CVM。例如,电子装置10可以被配置为例如使用处理器10C基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2、一致性度量AM和第一验证分数VS_1中的一个或多个来确定候选话语模型CVM。例如,服务器装置20可以被配置为例如使用处理器20C基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2、一致性度量AM和第一验证分数VS_1中的一个或多个来确定候选话语模型CVM。
在一个或多个示例性通信***中,训练话语模型VM包括例如使用电子装置10和/或服务器装置20来根据确定满足更新标准UC确定候选话语模型CVM是否满足更新标准UC。例如,电子装置10可以被配置为例如使用处理器10C来根据确定满足更新标准UC确定候选话语模型CVM是否满足更新标准UC。例如,服务器装置20可以被配置为例如使用处理器20C来根据确定满足更新标准UC确定候选话语模型CVM是否满足更新标准UC。
在一个或多个示例性通信***中,训练话语模型VM包括例如使用电子装置10和/或服务器装置20用候选话语模型CVM更新话语模型VM,以提供更新的话语模型UVM。例如,电子装置10可以被配置为例如使用处理器10C用候选话语模型CVM来更新话语模型VM,以提供更新的话语模型UVM。例如,服务器装置20可以被配置为例如使用处理器20C用候选话语模型CVM来更新话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性通信***中,通信***2被配置为基于更新的话语模型UVM来更新服务器装置上的服务器话语模型SVM。例如,服务器装置20可以被配置为例如使用处理器20C基于更新的话语模型UVM来更新服务器装置20上的服务器话语模型SVM。
在一个或多个示例性通信***中,通信***2被配置为例如使用电子装置10和/或服务器装置20向被配置为使用话语模型VM的一个或多个客户端应用程序传输更新的话语模型UVM。例如,电子装置10可以被配置为例如使用界面10B和/或经由网络40向被配置为使用话语模型VM的一个或多个客户端应用程序传输6更新的话语模型UVM。例如,服务器装置20可以被配置为例如使用界面20B和/或经由网络40向被配置为使用话语模型VM的一个或多个客户端应用程序传输18更新的话语模型UVM。
在一个或多个示例性通信***中,第一说话者度量数据SPMD_1包括一个或多个副语言属性,包括说话音调属性和说话情感属性中的一个或多个。
电子装置10和/或服务器装置20可以被配置为执行图2A、图2B和图2C中公开的任何方法。
电子装置10(例如,处理器10C)可选地被配置为执行图2A至图2C中公开的任何操作(例如,S103、S105A、S105B、S106、S106A、S108、S108A、S108B、S110A、S110B、S116、S118、S120A、S120B、S120C、S120D、S120E、S120F、S122、S124、S126中的任何一个或多个)。电子装置的操作可以以存储在非暂时性计算机可读介质(例如,存储器10A)上的可执行逻辑例程(例如,代码行、软件程序等)的形式来实现并由处理器10C执行。
此外,电子装置10的操作可以被认为是电子装置10被配置为执行的方法。此外,虽然所描述的功能和操作可以在软件中实现,但是这种功能也可以经由专用硬件或固件或者硬件、固件和/或软件的某种组合来实现。
服务器装置(例如,处理器20C)可选地被配置为执行图2A至图2C中公开的任何操作(例如,S103、S105A、S105B、S106、S106A、S108、S108A、S108B、S110A、S110B、S116、S118、S120A、S120B、S120C、S120D、S120E、S120F、S122、S124、S126中的任何一个或多个)。服务器装置的操作可以以存储在非暂时性计算机可读介质(例如,存储器20A)上的可执行逻辑例程(例如,代码行、软件程序等)的形式实现并由一个或多个处理器20C执行。此外,服务器装置20的操作可以被认为是服务器装置20被配置为执行的方法。此外,虽然所描述的功能和操作可以在软件中实现,但是这种功能也可以经由专用硬件或固件,或者硬件、固件和/或软件的某种组合来实现。
图2A、图2B和图2C示出了示例性方法的流程图。公开了操作通信***的方法100。
方法100包括获得S102表示一个或多个话语的音频数据AD,音频数据AD包括第一话语V_1的第一音频数据AD_1。
方法100包括基于第一音频数据AD_1获得S104A第一话语数据VD_1。
在一个或多个示例性方法中,获得S104A第一话语数据VD_1包括对第一音频数据AD_1应用S103话语模型VM,第一话语数据VD_1包括第一说话者度量数据SPMD_1。
在一个或多个示例性方法中,方法100包括输出S106A指示第一话语数据VD_1的第一话语表示VR_1。
方法100包括基于第一话语表示VR_1从第一验证者VAL_1获得S108第一话语验证数据VVD_1。
方法100包括基于第一话语表示VR_1从第二验证者VAL_2获得S110第二话语验证数据VVD_2。
方法100包括基于第一话语验证数据VVD_1和第二话语验证数据VVD_2确定S112一致性度量AM。
方法100包括基于一致性度量AM确定S114第一验证分数VS_1。
方法100包括输出S128第一验证分数VS_1。
在一个或多个示例性方法中,确定S112一致性度量AM是基于与第一验证者VAL_1相关联的第一偏差B_1的。
在一个或多个示例性方法中,确定S112一致性度量AM是基于与第二验证者VAL_2相关联的第二偏差B_2的。
在一个或多个示例性方法中,确定S112一致性度量AM是基于与话语模型VM相关联的话语模型偏差VMB的。
在一个或多个示例性方法中,基于第一音频数据AD_1获得S104A第一话语数据VD_1包括基于第一音频数据AD_1确定S105A第一说话者SP_1的第一说话者度量数据SPMD_1,第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。
在一个或多个示例性方法中,基于第一话语表示VR_1从第一验证者VAL_1获得S108第一话语验证数据VVD_1包括经由电子装置上的用户界面从第一验证者VAL_1获得S108A第一输入I_1。
在一个或多个示例性方法中,基于第一话语表示VR_1从第二验证者VAL_2获得S110第二话语验证数据VVD_2包括经由电子装置上的用户界面从第二验证者VAL_2获得S110第二输入I_2。
在一个或多个示例性方法中,获得S104A第一话语数据VD_1包括确定S105B指示第一话语V_1的一个或多个缺陷的第一说话者度量数据SPMD_1。
在一个或多个示例性方法中,获得S108第一话语验证数据VVD_1和/或获得S110第二话语验证数据VVD_2包括接收S116表征第一音频数据AD_1的一个或多个标签参数。
在一个或多个示例性方法中,获得S108第一话语验证数据VVD_1和/或获得S110第二话语验证数据VVD_2包括接收S118指示第一话语数据VD_1的有效性或无效性的确认数据CD。
在一个或多个示例性方法中,第一话语验证数据VVD_1包括关于第一话语数据VD_1是否满足第一验证标准VC_1的信息。当确定第一话语数据满足S108C第一验证标准时,这可以是第一验证者验证(有效性)第一话语数据的指示。可选地,当确定第一话语数据不满足S108D第一验证标准时,这可以是第一验证者不验证(无效)第一话语数据的指示。
在一个或多个示例性方法中,第二话语验证数据VVD_2包括关于第一话语数据VD_1是否满足第二验证标准VC_2的信息。当确定第一话语数据满足S110C第二验证标准时,这可以是第二验证者验证(有效性)第一话语数据的指示。可选地,当确定第一话语数据不满足S110D第二验证标准时,这可以是第二验证者不验证(无效)第一话语数据的指示。
在一个或多个示例性方法中,根据满足训练标准TC,方法100包括基于第一音频数据AD_1以及第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2和一致性度量AM中的一个或多个来训练S120A话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性方法中,方法100包括基于根据第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、一致性度量AM和第二话语验证数据VVD_2中的一个或多个的训练数据TD来训练S120B话语模型VM。
在一个或多个示例性方法中,方法100包括存储S122训练数据TD。
在一个或多个示例性方法中,训练S120话语模型VM包括基于训练数据TD更新S120C话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性方法中,训练S120话语模型VM包括基于第一音频数据AD_1、第一话语数据VD_1、第一话语验证数据VVD_1、第二话语验证数据VVD_2、一致性度量AM和第一验证分数VS_1中的一个或多个来确定S120D候选话语模型CVM。
在一个或多个示例性方法中,训练S120话语模型VM包括根据确定满足更新标准UC来确定S120E候选话语模型CVM是否满足更新标准UC。
在一个或多个示例性方法中,训练S120话语模型VM包括用候选话语模型CVM更新S120F话语模型VM,以提供更新的话语模型UVM。
在一个或多个示例性方法中,方法100包括基于更新的话语模型UVM来更新S126服务器装置上的服务器话语模型SVM。
在一个或多个示例性方法中,方法100包括向被配置为使用话语模型VM的一个或多个客户端应用程序传输S124更新的话语模型UVM。
在一个或多个示例性方法中,第一说话者度量数据SPMD_1包括一个或多个副语言属性,包括说话音调属性和说话情感属性中的一个或多个。
音频数据AD包括第一话语的第一音频数据AD_1。音频数据AD包括话语数据VD。可选地,音频数据AD包括第一话语的第二音频数据AD_2。第一音频数据AD_1包括话语数据VD,包括第一话语数据VD_1。可选地,第二音频数据AD_2包括话语数据VD,包括第二话语数据VD_2。第一话语数据VD_1可选地包括第一说话者度量数据SPMD_1,第一说话者度量数据SPMD_1可选地包括第一主要说话者度量数据SPMD_1_1。第一话语数据VD_1可选地包括第一缺陷数据DD_1。第二话语数据VD_2可选地包括第二说话者度量数据SPMD_2,第二说话者度量数据SPMD_2可选地包括第二主要说话者度量数据SPMD_2_1。第二话语数据VD_2可选地包括第二缺陷数据DD_2。
术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三元”等的使用并不意味着任何特定的顺序,而是用来标识各个元素。此外,术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三元”等的使用不表示任何顺序或重要性,而术语“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三元”等用于区分一个元素和另一元素。注意“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三元”等词在此处和其他地方仅用于标记目的,并不旨在表示任何特定的空间或时间顺序。
存储器可以是缓冲器、闪存、硬盘驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其他合适的装置中的一个或多个。在典型的设置中,存储器可以包括用于长期数据存储的非易失性存储器和用作处理器的***存储器的易失性存储器。存储器可以通过数据总线与处理器交换数据。存储器可以被认为是非暂时性计算机可读介质。
存储器可以被配置为在存储器的一部分中存储信息(例如,指示一个或多个音频信号、一个或多个情感度量、一个或多个外观度量、说话者表示、情感度量数据和/或外观度量数据的信息)。
此外,标记第一元素并不意味着存在第二元素,反之亦然。
可以理解,图1至图2包括用实线示出的一些模块或操作以及用虚线示出的一些模块或操作。包含在实线中的模块或操作是包含在最广泛的示例实施例中的模块或操作。虚线中包含的模块或操作是示例性实施例,其可以包含在实线示例性实施例的模块或操作中或者是其一部分,或者是除了实线示例性实施例的模块或操作之外可以采用的其他模块或操作。应当理解,这些操作不需要按照所呈现的顺序来执行。此外,应当理解,不是所有的操作都需要执行。示例性操作可以以任何顺序和任何组合来执行。
应当注意,词语“包括”不一定排除存在除了列出的那些之外的其他元件或步骤。
应当注意,元件前面的词语“a”或“an”不排除存在多个这样的元件。
还应当注意,任何附图标记都不限制权利要求的范围,示例性实施例可以至少部分地通过硬件和软件来实现,并且几个“装置”、“单元”或“设备”可以由同一硬件项目来表示。
在方法步骤过程的一般上下文中描述本文描述的各种示例性方法、装置和***,其在一个方面可以通过计算机程序产品来实现,该计算机程序产品包含在计算机可读介质中,包括由联网环境中的计算机执行的计算机可执行指令,例如,程序代码。计算机可读介质可以包括可移动和不可移动存储装置,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字多功能盘(DVD)等。通常,程序模块可以包括执行指定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开的方法的步骤的程序代码的示例。这种可执行指令或相关数据结构的特定序列表示用于实现在这种步骤或过程中描述的功能的相应动作的示例。
在以下项目中阐述根据本公开的方法、电子装置和通信***的示例:
项目1.一种操作通信***的方法,所述方法包括:
获得(S102)表示一个或多个话语的音频数据(AD),所述音频数据(AD)包括第一话语(V_1)的第一音频数据(AD_1);
基于第一音频数据(AD_1)获得(S104A)第一话语数据(VD_1),其中,获得第一话语数据(VD_1)包括对第一音频数据(AD_1)应用(S103)话语模型(VM),所述第一话语数据(VD_1)包括第一说话者度量数据(SPMD_1);
输出(S106A)指示所述第一话语数据(VD_1)的第一话语表示(VR_1);
基于所述第一话语表示(VR_1),从第一验证者(VAL_1)获得(S108)第一话语验证数据(VVD_1);
基于所述第一话语表示(VR_1),从第二验证者(VAL_2)获得(S110)第二话语验证数据(VVD_2);
基于所述第一话语验证数据(VVD_1)和所述第二话语验证数据(VVD_2),确定(S112)一致性度量(AM);
基于所述一致性度量(AM),确定(S114)第一验证分数(VS_1);以及
输出(S126)所述第一验证分数(VS_1)。
项目2.根据项目1所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述第一验证者(VAL_1)相关联的第一偏差(B_1)的。
项目3.根据项目1至2中任一项所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述第二验证者(VAL_2)相关联的第二偏差(B_2)的。
项目4.根据项目1至3中任一项所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述话语模型(VM)相关联的话语模型偏差(VMB)的。
项目5.根据项目1至4中任一项所述的方法,其中,基于所述第一音频数据(AD_1)获得(S104A)第一话语数据(VD_1)包括基于所述第一音频数据(AD_1)确定(S105A)第一说话者(SP_1)的第一说话者度量数据(SPMD_1),所述第一说话者度量数据(SPMD_1)包括第一主要说话者度量数据(SPMD_1_1)。
项目6.根据项目1至5中任一项所述的方法,其中,基于所述第一话语表示(VR_1)从所述第一验证者(VAL_1)获得(S108)第一话语验证数据(VVD_1)包括经由电子装置上的用户界面从所述第一验证者(VAL_1)获得(S108A)第一输入(I_1)。
项目7.根据项目1至6中任一项所述的方法,其中,基于所述第一话语表示(VR_1)从所述第二验证者(VAL_2)获得(S110)第二话语验证数据(VVD_2)包括经由电子装置上的用户界面从所述第二验证者(VAL_2)获得(S110A)第二输入(I_2)。
项目8.根据项目1至7中任一项所述的方法,其中,获得(S104A)所述第一话语数据(VD_1)包括确定(S105B)指示所述第一话语(V_1)的一个或多个缺陷的第一说话者度量数据(SPMD_1)。
项目9.根据项目1至8中任一项中任一项所述的方法,其中,获得(S108)第一话语验证数据(VVD_1)和/或获得(S110)第二话语验证数据(VVD_2)包括接收(S116)表征所述第一音频数据(AD_1)的一个或多个标签参数。
项目10.根据项目1至9中任一项所述的方法,其中,获得(S108)第一话语验证数据(VVD_1)和/或获得(S110)第二话语验证数据(VVD_2)包括接收(S118)指示所述第一话语数据(VD_1)的有效性或无效性的确认数据(CD)。
项目11.根据项目1至10中任一项所述的方法,其中,所述第一话语验证数据(VVD_1)包括关于所述第一话语数据(VD_1)是否满足第一验证标准(VC_1)的信息。
项目12.根据项目1至11中任一项所述的方法,其中,所述第二话语验证数据(VVD_2)包括关于所述第一话语数据(VD_1)是否满足第二验证标准(VC_2)的信息。
项目13.根据项目1至12中任一项所述的方法,其中,根据满足的训练标准(TC),所述方法包括基于所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述第二话语验证数据(VVD_2)和所述一致性度量(AM)中的一个或多个以及所述第一音频数据(AD_1)来训练(S120A)所述话语模型(VM),以提供更新的话语模型(UVM)。
项目14.根据项目1至13中任一项所述的方法,所述方法包括基于根据所述第一音频数据(AD_1)、所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述一致性度量(AM)和所述第二话语验证数据(VVD_2)中的一个或多个的训练数据(TD)来训练(S120B)所述话语模型(VM),并且存储(S122)所述训练数据(TD)。
项目15.根据项目14所述的方法,其中,训练(S120)所述话语模型(VM)包括基于所述训练数据(TD)更新(S120C)所述话语模型(VM),用于提供更新的话语模型(UVM)。
项目16.根据项目15所述的方法,其中,训练(S120)所述话语模型(VM)包括基于所述第一音频数据(AD_1)、所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述第二话语验证数据(VVD_2)、所述一致性度量(AM)和所述第一验证分数(VS_1)中的一个或多个来确定(S120D)候选话语模型(CVM);确定(S120E)所述候选话语模型(CVM)是否满足更新标准(UC);以及根据确定满足所述更新标准(UC),用所述候选话语模型(CVM)更新(S120F)所述话语模型(VM),以提供所述更新的话语模型(UVM)。
项目17.根据项目15至16中任一项所述的方法,其中,所述方法包括基于所述更新的话语模型(UVM)更新(S126)服务器装置上的服务器话语模型(SVM)。
项目18.根据项目13和/或15所述的方法,其中,所述方法包括将所述更新的话语模型(UVM)传输(S124)到被配置为使用所述话语模型(VM)的一个或多个客户端应用程序。
项目19.根据项目1至18中任一项所述的方法,其中,所述第一说话者度量数据(SPMD_1)包括一个或多个副语言度量,所述副语言度量包括音调度量和情感度量中的一个或多个。
项目20.根据项目1至19中任一项所述的方法,其中,所述第一话语是所述第一验证者的话语。
项目21.根据项目1至20中任一项所述的方法,其中,所述第二验证者是所述通信***的管理者。
项目22.一种通信***(CS),包括被配置为执行根据项目1至21中任一项所述的方法的电子装置,所述电子装置包括界面、处理器和存储器。
项目23.根据项目22所述的通信***,其中,所述电子装置被配置为:
获得表示一个或多个话语的音频数据(AD),所述音频数据(AD)包括第一话语(V_1)的第一音频数据(AD_1);
基于所述第一音频数据(AD_1)获得第一话语数据(VD_1),其中,获得第一话语数据(VD_1)包括对所述第一音频数据(AD_1)应用话语模型(VM),所述第一话语数据(VD_1)包括第一说话者度量数据(SPMD_1);
输出指示所述第一话语数据(VD_1)的第一话语表示(VR_1);
基于所述第一话语表示(VR_1),从第一验证者(VAL_1)获得第一话语验证数据(VVD_1);
基于所述第一话语表示(VR_1),从第二验证者(VAL_2)获得第二话语验证数据(VVD_2);
基于所述第一话语验证数据(VVD_1)和所述第二话语验证数据(VVD_2),确定一致性度量(AM);
基于所述一致性度量(AM),确定第一验证分数(VS_1);以及
输出所述第一验证分数(VS_1)。
项目24.根据项目22至23中任一项所述的通信***,其中,确定所述一致性度量(AM)是基于与所述第一验证者(VAL_1)相关联的第一偏差(B_1)的。
项目25.根据项目22至24中任一项所述的通信***,其中,确定所述一致性度量(AM)是基于与所述第二验证者(VAL_2)相关联的第二偏差(B_2)的。
项目26.根据项目22至25中任一项所述的通信***,其中,确定所述一致性度量(AM)是基于与所述话语模型(VM)相关联的话语模型偏差(VMB)的。
项目27.根据项目22至26中任一项所述的通信***,其中,基于所述第一音频数据(AD_1)获得第一话语数据(VD_1)包括基于第一音频数据(AD_1)确定第一说话者(SP_1)的第一说话者度量数据(SPMD_1),所述第一说话者度量数据(SPMD_1)包括第一主要说话者度量数据(SPMD_1_1)。
项目28.根据项目22至27中任一项所述的通信***,其中,基于所述第一话语表示(VR_1)从所述第一验证者(VAL_1)获得第一话语验证数据(VVD_1)包括经由电子装置上的用户界面从所述第一验证者(VAL_1)获得第一输入(I_1)。
项目29.根据项目22至28中任一项所述的通信***,其中,基于所述第一话语表示(VR_1)从所述第二验证者(VAL_2)获得第二话语验证数据(VVD_2)包括经由电子装置上的用户界面从所述第二验证者(VAL_2)获得第二输入(I_2)。
项目30.根据项目22至29中任一项所述的通信***,其中,获得所述第一话语数据(VD_1)包括确定指示所述第一话语(V_1)的一个或多个缺陷的第一说话者度量数据(SPMD_1)。
项目31.根据项目22至30中任一项所述的通信***,其中,获得第一话语验证数据(VVD_1)和/或获得第二话语验证数据(VVD_2)包括接收表征所述第一音频数据(AD_1)的一个或多个标签参数。
项目32.根据项目22至31中任一项所述的通信***,其中,获得第一话语验证数据(VVD_1)和/或获得第二话语验证数据(VVD_2)包括接收指示所述第一话语数据(VD_1)的有效性或无效性的确认数据(CD)。
项目33.根据项目22至32中任一项所述的通信***,其中,所述第一话语验证数据(VVD_1)包括关于所述第一话语数据(VD_1)是否满足第一验证标准(VC_1)的信息。
项目34.根据项目22至33中任一项所述的通信***,其中,所述第二话语验证数据(VVD_2)包括关于所述第一话语数据(VD_1)是否满足第二验证标准(VC_2)的信息。
项目35.根据项目22至34中任一项所述的通信***,其中,根据满足的训练标准(TC),所述通信***被配置为基于所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述第二话语验证数据(VVD_2)和所述一致性度量(AM)中的一个或多个以及所述第一音频数据(AD_1)来训练所述话语模型(VM),以提供更新的话语模型(UVM)。
项目36.根据项目22至35中任一项所述的通信***,其中,所述通信***被配置为基于根据所述第一音频数据(AD_1)、所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述一致性度量(AM)和所述第二话语验证数据(VVD_2)中的一个或多个的训练数据(TD)来训练所述话语模型(VM),并且存储所述训练数据(TD)。
项目37.根据项目36所述的通信***,其中,训练所述话语模型(VM)包括基于所述训练数据(TD)更新所述话语模型(VM),以提供更新的话语模型(UVM)。
项目38.根据项目37所述的通信***,其中,训练所述话语模型(VM)包括基于所述第一音频数据(AD_1)、所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述第二话语验证数据(VVD_2)、所述一致性度量(AM)和所述第一验证分数(VS_1)中的一个或多个来确定候选话语模型(CVM);确定所述候选话语模型(CVM)是否满足更新标准(UC);以及根据确定满足所述更新标准(UC),用所述候选话语模型(CVM)更新所述话语模型(VM),以提供所述更新的话语模型(UVM)。
项目39.根据项目37至38中任一项所述的通信***,其中,所述通信***被配置为基于所述更新的话语模型(UVM)来更新服务器装置上的服务器话语模型(SVM)。
项目40.根据项目38至39中任一项所述的通信***,其中,所述通信***被配置为将所述更新的话语模型(UVM)传输至被配置为使用所述话语模型(VM)的一个或多个客户端应用程序。
项目41.根据项目22至40中任一项所述的通信***,其中,所述第一说话者度量数据(SPMD_1)包括一个或多个副语言度量,所述副语言度量包括音调度量和情感度量中的一个或多个。
项目42.根据项目22至41中任一项所述的通信***(CS),其中,所述电子装置至少部分地在服务器装置中实现。
项目43.根据项目22至42中任一项所述的通信***(CS),其中,所述电子装置至少部分地在用户装置中实现。
尽管已经示出和描述了特征,但是应当理解,它们并不旨在限制所要求保护的发明,并且对于本领域技术人员来说显而易见的是,在不脱离所要求保护的发明的精神和范围的情况下,可以进行各种改变和修改。因此,说明书和附图被认为是说明性的,而不是限制性的。要求保护的发明旨在覆盖所有替代、修改和等同物。
附图标记列表
1A用户、第一说话者、第一验证者
1B说话者、第二说话者、呼叫者、第二验证者、管理者
2通信***
4输入、接收
6输出
10电子装置
10A存储器
10B一个或多个界面
10C处理器
12传输
14获得、接收
16获得、接收
18传输、输出
20服务器装置
20A存储器
20B界面
20C一个或多个处理器
22传输
24获得
30说话者电子装置
32说话者输入、音频输入
40网络
AD音频数据
AD_1第一音频数据
AD_2第二音频数据
AM一致性度量
AS音频信号
AS_1第一音频信号
AS_2第二音频信号
B_1第一偏差
B_2第二偏差
CD确认数据
CVM候选话语模型
DD缺陷数据
DD_1第一缺陷数据
DD_2第二缺陷数据
I_1第一输入
I_2第二输入
SCS置信度分数
SCS_1第一置信度分数
SCS_1_1第一主要置信度分数
SCS_1_2第一次要置信度分数
SCS_2_1第二主要置信度分数
SL情感等级
SL_1_1第一主要情感等级
SL_1_2第一次要情感等级
SL_2_1第二主要情感等级
SM情感度量
SM_1第一情感度量
SM_1_1第一主要情感度量
SM_1_2第一次要情感度量
SM_2第二情感度量
SM_2_1第二主要情感度量
SM_2_2第二次要情感度量
ST_ID_1_1第一主要情感类型标识符
ST_ID_1_2第一次要情感类型标识符
ST_ID_2_1第二主要情感类型标识符
ST_ID_2_2第二次要情感类型标识符
ST_ID_SET_1主要的情感类型标识符集合
ST_ID_SET_2次要的情感类型标识符集合
SMD情感度量数据
SPMD说话者度量数据
SPMD_1第一说话者度量数据
SPMD_1_1第一主要说话者度量数据
SPMD_1_2第一次要说话者度量数据
SPMD_1_3第一三元说话者度量数据
SPMD_2第二说话者度量数据
SPMD_2_1第二主要说话者度量数据
ST_ID情感类型标识符
ST_ID_1第一情感类型标识符
ST_ID_1_1第一主要情感类型标识符
ST_ID_1_2第一次要情感类型标识符
ST_ID_SET情感类型标识符集
ST_ID_SET_1主要的情感类型标识符集合
ST_ID_SET_2次要的情感类型标识符集合
SP_1第一说话者
SP_2第二说话者
SVM服务器话语模型
TD训练数据
UVM更新的话语模型
VAL_1第一验证者
VAL_2第二验证者
VC_1第一验证标准
VC_2第二验证标准
VD话语数据
VD_1第一话语数据
VD_2第二话语数据
VM话语模型
VMD话语模型偏差
VR话语表示
VR_1第一话语表示
VS_1第一验证分数
VS_2第二验证分数
VVD_1第一话语验证数据
VVD_2第二话语验证数据
100操作通信***的方法
S102获得音频数据
S103应用话语模型
S104获得话语数据
S104A获得第一话语数据
S105A确定第一说话者度量数据
S105B确定指示第一话语的一个或多个缺陷的第一说话者度量数据
S106输出话语表示
S106A输出第一话语表示
S108获得第一话语验证数据
S108A获得第一输入
S108B检查第一验证标准
S110获得第二话语验证数据
S110A获得第二输入
S110B检查第二验证标准
S112确定一致性度量
S114确定第一验证分数
S116接收标签参数
S118接收确认数据
S120训练话语模型
S122存储训练数据
S124传输更新的话语模型
S126更新服务器话语模型
S128输出第一验证分数。
Claims (15)
1.一种操作通信***的方法,所述方法包括:
获得(S102)表示一个或多个话语的音频数据(AD),所述音频数据(AD)包括第一话语(V_1)的第一音频数据(AD_1);
基于所述第一音频数据(AD_1)获得(S104A)第一话语数据(VD_1),其中,获得第一话语数据(VD_1)包括对所述第一音频数据(AD_1)应用(S103)话语模型(VM),所述第一话语数据(VD_1)包括第一说话者度量数据(SPMD_1);
输出(S106A)指示所述第一话语数据(VD_1)的第一话语表示(VR_1);
基于所述第一话语表示(VR_1),从第一验证者(VAL_1)获得(S108)第一话语验证数据(VVD_1);
基于所述第一话语表示(VR_1),从第二验证者(VAL_2)获得(S110)第二话语验证数据(VVD_2);
基于所述第一话语验证数据(VVD_1)和所述第二话语验证数据(VVD_2),确定(S112)一致性度量(AM);
基于所述一致性度量(AM),确定(S114)第一验证分数(VS_1);以及
输出(S126)所述第一验证分数(VS_1)。
2.根据权利要求1所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述第一验证者(VAL_1)相关联的第一偏差(B_1)的。
3.根据权利要求1至2中任一项所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述第二验证者(VAL_2)相关联的第二偏差(B_2)的。
4.根据权利要求1至3中任一项所述的方法,其中,确定(S112)所述一致性度量(AM)是基于与所述话语模型(VM)相关联的话语模型偏差(VMB)的。
5.根据权利要求1至4中任一项所述的方法,其中,基于所述第一音频数据(AD_1)获得(S104A)第一话语数据(VD_1)包括基于所述第一音频数据(AD_1)确定(S105A)第一说话者(SP_1)的第一说话者度量数据(SPMD_1),所述第一说话者度量数据(SPMD_1)包括第一主要说话者度量数据(SPMD_1_1)。
6.根据权利要求1至5中任一项所述的方法,其中,基于所述第一话语表示(VR_1)从所述第一验证者(VAL_1)获得(S108)第一话语验证数据(VVD_1)包括经由电子装置上的用户界面从所述第一验证者(VAL_1)获得(S108A)第一输入(I_1)。
7.根据权利要求1至6中任一项所述的方法,其中,获得(S104A)所述第一话语数据(VD_1)包括确定(S105B)指示所述第一话语(V_1)的一个或多个缺陷的第一说话者度量数据(SPMD_1)。
8.根据权利要求1至7中任一项所述的方法,其中,获得(S108)第一话语验证数据(VVD_1)和/或获得(S110)第二话语验证数据(VVD_2)包括接收(S116)表征所述第一音频数据(AD_1)的一个或多个标签参数。
9.根据权利要求1至8中任一项所述的方法,其中,获得(S108)第一话语验证数据(VVD_1)和/或获得(S110)第二话语验证数据(VVD_2)包括接收(S118)指示所述第一话语数据(VD_1)的有效性或无效性的确认数据(CD)。
10.根据权利要求1至9中任一项所述的方法,其中,所述第一话语验证数据(VVD_1)包括关于所述第一话语数据(VD_1)是否满足第一验证标准(VC_1)的信息。
11.根据权利要求1至10中任一项所述的方法,其中,根据满足的训练标准(TC),所述方法包括基于所述第一话语数据(VD_1)、所述第一话语验证数据(VVD_1)、所述第二话语验证数据(VVD_2)和所述一致性度量(AM)中的一个或多个以及所述第一音频数据(AD_1)训练(S120A)所述话语模型(VM),用于提供所更新的话语模型(UVM)。
12.根据权利要求1至11中任一项所述的方法,其中,所述第一说话者度量数据(SPMD_1)包括一个或多个副语言度量,所述副语言度量包括音调度量和情感度量中的一个或多个。
13.根据权利要求1至12中任一项所述的方法,其中,所述第一话语是所述第一验证者的话语。
14.根据权利要求1至13中任一项所述的方法,其中,所述第二验证者是所述通信***的管理者。
15.一种通信***(CS),包括被配置为执行根据权利要求1至14中任一项所述的方法的电子装置,所述电子装置包括界面、处理器和存储器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21207958.6A EP4181124A1 (en) | 2021-11-12 | 2021-11-12 | Communication system and related methods |
EP21207958.6 | 2021-11-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129874A true CN116129874A (zh) | 2023-05-16 |
Family
ID=78617286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211412303.5A Pending CN116129874A (zh) | 2021-11-12 | 2022-11-11 | 通信***和操作通信***的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230154457A1 (zh) |
EP (1) | EP4181124A1 (zh) |
CN (1) | CN116129874A (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230325604A1 (en) * | 2022-04-12 | 2023-10-12 | Conduent Business Services, Llc | Method and system for automated sentiment classification |
CN116825123B (zh) * | 2023-06-19 | 2024-06-07 | 广东保伦电子股份有限公司 | 一种基于音频推送的音质优化方法及*** |
CN116795728B (zh) * | 2023-08-25 | 2023-10-27 | 中电科申泰信息科技有限公司 | 一种基于uvm的多核缓存一致性验证模组及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US20190253558A1 (en) * | 2018-02-13 | 2019-08-15 | Risto Haukioja | System and method to automatically monitor service level agreement compliance in call centers |
-
2021
- 2021-11-12 EP EP21207958.6A patent/EP4181124A1/en active Pending
-
2022
- 2022-11-09 US US18/053,930 patent/US20230154457A1/en active Pending
- 2022-11-11 CN CN202211412303.5A patent/CN116129874A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4181124A1 (en) | 2023-05-17 |
US20230154457A1 (en) | 2023-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10127928B2 (en) | Multi-party conversation analyzer and logger | |
CN105874530B (zh) | 预测自动语音识别***中的短语识别质量 | |
US8826210B2 (en) | Visualization interface of continuous waveform multi-speaker identification | |
CN116129874A (zh) | 通信***和操作通信***的方法 | |
US8756065B2 (en) | Correlated call analysis for identified patterns in call transcriptions | |
US10229676B2 (en) | Phrase spotting systems and methods | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US20240127798A1 (en) | Training speech recognition systems using word sequences | |
US9711167B2 (en) | System and method for real-time speaker segmentation of audio interactions | |
US11562731B2 (en) | Word replacement in transcriptions | |
US20200279574A1 (en) | Dialogue analysis | |
EP4020467A1 (en) | Voice coaching system and related methods | |
US20240153483A1 (en) | Systems and methods for generating synthesized speech responses to voice inputs | |
WO2003013113A2 (en) | Automatic interaction analysis between agent and customer | |
CN115314595A (zh) | 具有会话后评估的***、电子装置和相关方法 | |
CN114566187B (zh) | 操作包括电子装置的***的方法、电子装置及其*** | |
US11488604B2 (en) | Transcription of audio | |
JP2014123813A (ja) | オペレータ対顧客会話自動採点装置およびその動作方法 | |
US20110197206A1 (en) | System, Method And Program Product For Analyses Based On Agent-Customer Interactions And Concurrent System Activity By Agents | |
US20240202640A1 (en) | Employee experience score | |
EP4006900A1 (en) | System with speaker representation, electronic device and related methods | |
Walther | An AI-Based Framework for Speech and Voice Analytics to Automatically Assess the Quality of Service Conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |