CN115063155B - 一种数据标注方法、装置、计算机设备及存储介质 - Google Patents

一种数据标注方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115063155B
CN115063155B CN202210731923.9A CN202210731923A CN115063155B CN 115063155 B CN115063155 B CN 115063155B CN 202210731923 A CN202210731923 A CN 202210731923A CN 115063155 B CN115063155 B CN 115063155B
Authority
CN
China
Prior art keywords
emotion
audio
data
text
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210731923.9A
Other languages
English (en)
Other versions
CN115063155A (zh
Inventor
陈杭
陈子意
朱益兴
于欣璐
李骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202210731923.9A priority Critical patent/CN115063155B/zh
Publication of CN115063155A publication Critical patent/CN115063155A/zh
Application granted granted Critical
Publication of CN115063155B publication Critical patent/CN115063155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Acoustics & Sound (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据标注方法、装置、计算机设备及存储介质,其中,该方法包括从银行客服坐席与客户的历史通话数据中选取第一待标注数据和第二待标注数据,对第一待标注数据进行人工标注,得到带有情绪标签的第一标注音频和第一标注音频文本,基于情绪标签在音频和文本中的位置,获取第一声音特征和第一文本特征,通过情绪分析模型对第一声音特征和第一文本特征进行情绪识别,基于识别结果和情绪标识对模型进行训练,将第二待标注数据进行切分,基于切分结果获取第二声音特征和第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别以及情绪标签的自动标注。通过上述方式,实现半监督式的数据标注,节省人力成本。

Description

一种数据标注方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、计算机设备及存储介质。
背景技术
随着社会经济以及金融科技的发展,人们对于银行客服坐席的服务质量的要求越来越高,因此,银行会设置相应的监控模型,在通话过程中,除了客服坐席和客户之间的通话,监控模型会采集客户侧输入的信息,以分析判断客户的情绪,同时,根据分析判断的结果对客服坐席进行相应的提示,避免由于客服坐席的经验不足或者个人情绪等问题对客户的情绪造成影响,从而影响通话质量。
而监控模型在使用时,需要对其进行模型训练,才能提高模型的分析判断的能力,模型训练需要获取训练集,训练集通常是从历史通话数据中获得。
目前,是从数据库中选取出部分的历史通话数据,选出的历史通话数据都由人工进行标注,以获取训练集,这种方式需要耗费较多的人工成本。
发明内容
本申请实施例提供一种数据标注方法、装置、计算机设备及存储介质,用以解决上述背景技术中提出的问题。
第一方面,本申请实施例提供一种数据标注方法,所述方法包括:
从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将所述第一待标注数据发送给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同;
基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征;
基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征;
通过情绪分析模型基于所述第一声音特征和所述第一文本特征进行情绪识别,得到情绪识别结果,基于所述情绪识别结果和所述情绪标签,对所述情绪分析模型进行训练;
对所述第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
获取所述音频数据的第二声音特征及所述文本数据的第二文本特征,通过所述情绪分析模型基于所述第二声音特征和所述第二文本特征进行情绪识别,基于识别结果对所述音频数据和所述文本数据进行情绪标签的自动标注。
在一些实施例中,所述基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征,包括:
基于所述情绪标识,对所述情绪标注音频段进行分类;
利用预设音频算法,获取相同类别的所述情绪标注音频段的声音频谱图,基于所述声音频谱图获取用于表征情绪的第一声音特征。
在一些实施例中,所述基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征,包括:
基于所述情绪标识,对所述情绪标注句段进行分类;
利用预设文本算法,获取相同类别的所述情绪标注句段的情绪特征词,基于所述情绪特征词获取用于表征情绪的第一文本特征。
在一些实施例中,所述获取所述音频数据的第二声音特征及所述文本数据的第二文本特征,通过所述情绪分析模型基于所述第二声音特征和所述第二文本特征进行情绪识别,基于识别结果对所述音频数据和所述文本数据进行情绪标签的标注,包括:
在所述情绪分析模型中设置音频权重和文本权重;
在识别出所述第二声音特征及其对应的所述第二文本特征的情绪标识不同时,基于所述音频权重和所述文本权重的权重比值,确定所述第二声音特征及其对应的所述第二文本特征的情绪标识。
在一些实施例中,所述从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将所述第一待标注数据发送给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同,包括:
从银行客服坐席与客户的历史通话数据中选取出第一待标注数据,所述第一待标注数据包括第一待标注音频;
将所述第一待标注音频输入语音分离模型,所述语音分离模型根据不同说话人的声纹特征,对所述第一待标注音频做分离和标记处理;
将处理后的所述第一待标注音频输入文本识别模型,得到对应的第一待标注音频文本;
从剩下的所述历史通话数据中选取第二待标注数据,并发送处理后的所述第一待标注音频和所述第一待标注音频文本给人工端进行人工标注。
在一些实施例中,所述将处理后的所述第一待标注音频输入文本识别模型,得到与所述第一待标注音频对应的第一待标注文本,包括:
将所述第一待标注音频输入文本识别模型,所述文本识别模型对所述第一待标注音频中的有声音频段的语义进行识别,并确定所述第一待标注音频中的空白频段在所述第一待标注音频中的空白位置,所述空白频段为所述第一待标注音频中的无声频段;
基于语义识别结果及所述空白位置,得到初始文本;
将所述初始文本输入深度神经网络模型中,确定所述空白位置中的标点符号位置,并自动标记标点符号,将剩下的所述空白位置的前后相邻的语句进行连接,得到第一待标注文本。
在一些实施例中,所述从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将所述第一待标注数据发送给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,包括:
对所述第一待标注数据和所述第二待标注数据进行预处理,所述预处理包括降噪处理。
第二方面,本申请实施例提供了一种数据标注装置,所述装置包括:
人工标注单元,用于从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将所述第一待标注数据发送给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同;
声音特征获取单元,用于基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征;
文本特征获取单元,用于基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征;
模型训练单元,用于通过情绪分析模型基于所述第一声音特征和所述第一文本特征进行情绪识别,得到情绪识别结果,基于所述情绪识别结果和所述情绪标签,对所述情绪分析模型进行训练;
切分处理单元,用于对所述第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
自动标注单元,用于获取所述音频数据的第二声音特征及所述文本数据的第二文本特征,通过所述情绪分析模型基于所述第二声音特征和所述第二文本特征进行情绪识别,基于识别结果对所述音频数据和所述文本数据进行情绪标签的自动标注。
第三方面,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器用于存储指令和数据,所述处理器用于执行上述所述的数据标注方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述所述的数据标注方法。
在本申请实施例中的数据标注方法,从银行客服坐席和客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,通过人工标注的结果获取特征并基于特征对模型进行训练,得到训练后的模型,通过训练后的模型对第二待标注数据进行自动识别和标注,实现半监督的数据标注方式,节省人力成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据标注方法的流程图。
图2是本申请实施例提供的一种数据标注装置的结构示意图。
图3是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据标注方法、装置、计算机设备及存储介质,通过人工标注的数据对模型进行训练,训练之后的模型再自动对数据进行识别和标注,实现半监督的数据标注方式,以下将对所述数据标注方法、装置、计算机设备及存储介质分别进行详细说明。
请参阅图1,图1为本申请实施例提供的一种数据标注方法的流程图,该方法包括以下内容:
101、从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将所述第一待标注数据发送给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同。
银行客服坐席和客户进行通话时,***通常都会记录和保存相应的数据,这些数据可以作为银行客服坐席和客户的历史通话数据,这些历史通话数据通常保存在数据库中,需要时可以从数据库中调取出来。
在选取第一待标注数据和第二待标注数据时,可以先从历史通话数据中选取出第一待标注数据,将第一待标注数据发送给人工端,再从剩下的历史通话数据中选取第二待标注数据。也可以直接从历史通话数据中选取出第一带标注数据和第二待标注数据。
在选取出第一待标注数据和第二待标注数据之后,对第一待标注数据和第二待标注数据做预处理,预处理可以包括降噪处理,还可以包括静音滤除处理,在此不作限制。
可以理解的是,每一个第一待标注数据为一个银行客服坐席和一个客户在一通电话中的数据,每一个第二待标注数据也为一个银行客服坐席和一个客户在一通电话中的数据。
在将第一待标注数据发送给人工端之后,由人工端的工作人员对第一待标注数据进行人工标注,在人工标注时,工作人员可以对第一待标注数据的所有句段进行标注,也可以选取其中的部分句段进行标注。
人工标注之后的第一待标注数据为第一标注数据,第一标注数据中包括有第一标注音频和第一标注音频文本,第一标注音频和第一标注音频文本中均带有被标注的情绪标签,所说的情绪标签用于表征与第一待标注数据对应的用户的情绪。
可选的,第一待标注数据中包括有第一待标注音频,将第一待标注音频发送给人工端的工作人员进行人工标注,得到第一标注音频,再通过对第一标注音频进行文本翻译,得到第一标注音频文本。
可选的,第一待标注数据中包括有第一待标注音频及其对应的第一待标注音频文本,将第一待标注音频和第一待标注音频文本均发生给人工端的工作人员进行人工标注,得到第一标注音频和第一标注音频文本。
在一些实施例中,从银行客服坐席与客户的历史通话数据中选取出第一待标注数据,第一待标注数据包括第一待标注音频,将第一待标注音频输入语音分离模型,语音分离模型根据不同说话人的声纹特征,对第一待标注音频做分离和标记处理,将处理后的第一待标注音频输入文本识别模型,得到对应的第一待标注音频文本,从剩下的历史通话数据中选取第二待标注数据,并发送处理后的第一待标注音频和第一待标注音频文本给人工端进行人工标注。
由于在进行通话的过程中,***保存的数据中至少包括有银行客服坐席的音频数据,还包括有客户的音频数据,因此,为了提高标注的正确性,较优的是对数据进行音频分离。在进行音频分离时,可以通过模型生成声音频谱图,通过对声音频谱图的切分,将切分后的声音频谱图的分段输入识别模型获取不同说话人的声纹特征,根据声纹特征对音频中的说话人进行识别,根据识别结果将音频进行分离得到对应不同说话人的音频,并将分离后的音频进行标记,以便于对音频进行分辨。
进一步的,将第一待标注音频输入文本识别模型,文本识别模型对第一待标注音频中的有声音频段的语义进行识别,并确定第一待标注音频中的空白频段在第一待标注音频中的空白位置,空白频段为第一待标注音频中的无声频段,基于语义识别结果及空白位置,得到初始文本,将初始文本输入深度神经网络模型中,确定空白位置中的标点符号位置,并自动标记标点符号,将剩下的空白位置的前后相邻的语句进行连接,得到第一待标注文本。
在情绪标签的设置中,情绪标签可以包括在第一标注音频以及第一标注音频文本中的位置信息以及情绪标识,情绪标识可以设置为激动情绪、中性情绪以及低沉情绪等等。由于第一标注音频和第一标注音频文本对应,那么,第一标注音频和第一标注音频文本在语义对应以及位置对应的部分的句段的情绪标识相同。
在第一标注音频和第一标注音频文本的情绪标签中,一个句段中可以标注有一个情绪标签,一个句段中也可以标注有多个情绪标签,在此不作限制。
102、基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征。
在本申请的实施例中,一个情绪标签中记录有该情绪标签在音频中的位置信息及情绪标识,所说的位置信息可以通过时间来表示,即该情绪标识在音频中的某个时间范围对应的音频段,所说的情绪标识用于表征该时间范围内人物的情绪,情绪标识可以设置为激动情绪、中性情绪以及低沉情绪等等。
通过情绪标签的位置信息,对第一标注音频进行音频段提取,提取的音频段为每一个情绪标签对应的音频段,这些音频段为情绪标注音频段。
除了提取的方式,也可以选择滤除第一标注音频中未标注情绪标签的音频段,那么,剩下的音频段即为情绪标注音频段。
在一些实施例中,基于情绪标识,对情绪标注音频段进行分类,利用预设音频算法,获取相同类别的情绪标注音频段的声音频谱图,基于声音频谱图获取用于表征情绪的第一声音特征。
例如,情绪标识设置有激动情绪、中性情绪以及低沉情绪等类别,则根据标识类别对情绪标注音频段进行分类,得到激动情绪标识类、中性情绪标识类以及低沉情绪标识类,分别获取这三种类别的情绪标注音频段的声音频谱图,通过对每个类别的声音频谱图的特征提取,得到与每个类别对应的第一声音特征,以利于模型训练的准确性。
可以理解的是,一段音频段中可能会标注有多个情绪标签,当一段话中标注有多个情绪标签时,确定每个情绪标签对应的情绪标识,通过对情绪标识的优先级的设置,确定该段音频段的最终情绪标识。
例如,一段话中标注有第一情绪标签、第二情绪标签和第三情绪标签,第一情绪标签对应的第一情绪标识为中性情绪,第二情绪标签对应的第二情绪标识为激动情绪,第三情绪标签对应的第三情绪标识为中性情绪,并且,***设置的情绪标识的优先级从高到低为激动情绪、低沉情绪以及中性情绪,那么,这段话最终的情绪标识为激动情绪。
103、基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征。
在本申请的实施例中,一个情绪标签中记录有该情绪标签在音频文本中的位置信息及情绪标识,所说的位置信息可以通过时间来表示,即该情绪标识在音频文本中的某个时间范围对应的音频文本段,所说的情绪标识用于表征该时间范围内人物的情绪,情绪标识可以设置为激动情绪、中性情绪以及低沉情绪等等。
通过情绪标签的位置信息,对第一标注音频文本进行音频文本段提取,提取的音频文本段为每一个情绪标签对应的音频文本段,这些音频文本段为情绪标注句段。
除了提取的方式,也可以选择滤除第一标注音频文本中未标注情绪标签的音频文本段,那么,剩下的音频段即为情绪标注句段。
在一些实施例中,基于情绪标识,对情绪标注句段进行分类,利用预设文本算法,获取相同类别的情绪标注句段的情绪特征词,基于情绪特征词获取用于表征情绪的第一文本特征。
例如,情绪标识设置有激动情绪、中性情绪以及低沉情绪等类别,则根据标识类别对情绪标注句段进行分类,得到激动情绪标识类、中性情绪标识类以及低沉情绪标识类,分别获取这三种类别的情绪标注句段的情绪特征词,通过对每个类别的情绪特征词的特征提取,得到与每个类别对应的第一文本特征,以利于模型训练的准确性。
可以理解的是,一段文本中可能会标注有多个情绪标签,当一段文本中标注有多个情绪标签时,确定每个情绪标签对应的情绪标识,通过对情绪标识的优先级的设置,确定该段文本段的最终情绪标识。
例如,一段文本中标注有第一情绪标签、第二情绪标签和第三情绪标签,第一情绪标签对应的第一情绪标识为中性情绪,第二情绪标签对应的第二情绪标识为激动情绪,第三情绪标签对应的第三情绪标识为中性情绪,并且,***设置的情绪标识的优先级从高到低为激动情绪、低沉情绪以及中性情绪,那么,这段文本最终的情绪标识为激动情绪。
104、通过情绪分析模型基于所述第一声音特征和所述第一文本特征进行情绪识别,得到情绪识别结果,基于所述情绪识别结果和所述情绪标签,对所述情绪分析模型进行训练。
实际上是基于对通过情绪分析模型的预先设置,将第一声音特征和第一文本特征作为训练数据,输入情绪分析模型中进行训练,使得训练之后的情绪分析模型具备相应的功能。
在一些实施例中,在情绪分析模型中设置音频权重和文本权重,在识别出第二声音特征及其对应的第二文本特征的情绪标识不同时,基于音频权重和文本权重的权重比值,确定第二声音特征及其对应的第二文本特征的情绪标识。
例如,情绪分析模型中设置音频权重大于文本权重,并且,第二声音特征识别出的情绪标识为激动情绪,其对应的第二文本特征识别出的情绪标识为中性情绪,那么,以激动情绪对应的情绪标识作为该第二声音特征及其对应的第二文本特征的情绪标识。
设置权重是为了在对相对应的声音特征和文本特征进行识别时,产生识别结果的不一致性的情况下,对情绪标识进行的选择,因为人在说话时,语气和音调等声音特征可能相对于词语特征更能表现出人物的情绪。
105、对所述第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本。
由于人在说话时,尤其是在通话有交流的情况下,通常是一句话表述的,因此,在对第二待标注数据进行音频切分时,可以以预设时间内连续的音频段作为切分依据对音频进行切分。
在得到多段音频数据之后,可以通过语音识别及语音翻译等技术得到对应的音频文本。
106、获取所述音频数据的第二声音特征及所述文本数据的第二文本特征,通过所述情绪分析模型基于所述第二声音特征和所述第二文本特征进行情绪识别,基于识别结果对所述音频数据和所述文本数据进行情绪标签的自动标注。
第二声音特征的获取方式可以参照第一声音特征的获取方式获得,相应的,第二文本特征的获取方式可以参照第一文本特征的获取方式获得。
在得到第二声音特征和第二文本特征之后,将第二声音特征和第二文本特征输入情绪分析模型中,通过训练之后的情绪分析模型对这些特征进行识别及自动标注。
可选的,情绪分析模型中若出现未识别和标注的第二声音特征和第二文本特征,则这些特征可以由人工端进行处理。
通过在情绪分析模型中设置定时器任务,定期检测存证的未识别和标注的第二声音特征和第二文本特征,并将这些特征发送给人工端进行处理。
本申请实施例的数据标注方法,包括从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同;基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征;基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征;通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练;对第二待标注数据进行音频段切分,得到多段音频数据,基于多段音频数据得到对应的音频文本;获取音频数据的第二声音特征及文本数据的第二文本特征,通过所情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。通过上述方式,实现半监督式的数据标注,以实现节省人力成本。
请参阅图2,图2为本申请实施例提供的一种数据标注装置的结构示意图,该数据标注装置200包括以下单元:
201、人工标注单元,用于从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同。
202、声音特征获取单元,用于基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征。
203、文本特征获取单元,用于基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征。
204、模型训练单元,用于通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练。
205、切分处理单元,用于对第二待标注数据进行音频段切分,得到多段音频数据,基于多段音频数据得到对应的音频文本。
206、自动标注单元,用于获取音频数据的第二声音特征及文本数据的第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。
本申请实施例的数据标注装置200,包括人工标注单元201,用于从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同;声音特征获取单元202,用于基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征;文本特征获取单元203,用于基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征;模型训练单元204,用于通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练;切分处理单元205,用于对第二待标注数据进行音频段切分,得到多段音频数据,基于多段音频数据得到对应的音频文本;自动标注单元206,用于获取音频数据的第二声音特征及文本数据的第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。通过上述装置,实现半监督式的数据标注,以实现节省人力成本。
请参阅图3,图3为本申请实施例提供的一种计算机设备的结构示意图,该计算机设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器301上运行的计算机程序。其中,处理器301与存储器302电性连接。
本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器301是计算机设备300的控制中心,利用各种接口和线路连接整个计算机设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行计算机设备300的各种功能和处理数据,从而对计算机设备300进行整体监控。
在本申请实施例中,计算机设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同;
基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征;
基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征;
通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练;
对第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
获取音频数据的第二声音特征及文本数据的第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,计算机设备300还包括音频模块303和文本模块304,音频模块303、文本模块304均和处理器301电性连接,音频模块303用于接收输入的音频数据,文本模块304用于显示与输入的音频数据对应的文本数据。本领域技术人员可以理解,图3中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
尽管图3中未示出,计算机设备300还可以包括显示模块以及其它电子结构,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的计算机设备,通过从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同,基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征,基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征,通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练,对第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本,获取音频数据的第二声音特征及文本数据的第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种数据标注方法中的步骤。例如,该计算机程序可以执行如下步骤:
从银行客服坐席与客户的历史通话数据中选取出第一待标注数据和第二待标注数据,将第一待标注数据发送给人工端进行人工标注,得到第一标注数据,第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,情绪标签包括情绪标识以及被情绪标识标注的音频或音频文本的位置信息,第一标注音频和第一标注音频文本的情绪标签中记录的情绪标识相同;
基于第一标注音频的情绪标签中的位置信息,获取第一标注音频中的情绪标注音频段,获取情绪标注音频段的第一声音特征;
基于第一标注音频文本的情绪标签中的位置信息,获取第一标注数据的情绪标注句段,获取情绪标注句段的第一文本特征;
通过情绪分析模型基于第一声音特征和第一文本特征进行情绪识别,得到情绪识别结果,基于情绪识别结果和情绪标签,对情绪分析模型进行训练;
对第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
获取音频数据的第二声音特征及文本数据的第二文本特征,通过情绪分析模型基于第二声音特征和第二文本特征进行情绪识别,基于识别结果对音频数据和文本数据进行情绪标签的自动标注。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Re客户端账户d Only Memory)、随机存取记忆体(R客户端账户M,R客户端账户ndom客户端账户ccess Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据标注方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据标注方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据标注方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种数据标注方法,其特征在于,所述方法包括:
从银行客服坐席与客户的历史通话数据中选取出第一待标注数据,所述第一待标注数据包括第一待标注音频;
将所述第一待标注音频输入语音分离模型,所述语音分离模型根据不同说话人的声纹特征,对所述第一待标注音频做分离和标记处理;
将所述第一待标注音频输入文本识别模型,所述文本识别模型对所述第一待标注音频中的有声音频段的语义进行识别,并确定所述第一待标注音频中的空白频段在所述第一待标注音频中的空白位置,所述空白频段为所述第一待标注音频中的无声频段;
基于语义识别结果及所述空白位置,得到初始文本;
将所述初始文本输入深度神经网络模型中,确定所述空白位置中的标点符号位置,并自动标记标点符号,将剩下的所述空白位置的前后相邻的语句进行连接,得到第一待标注音频文本;
从剩下的所述历史通话数据中选取第二待标注数据,并发送处理后的所述第一待标注音频和所述第一待标注音频文本给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同;
基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征;
基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征;
通过情绪分析模型基于所述第一声音特征和所述第一文本特征进行情绪识别,得到情绪识别结果,基于所述情绪识别结果和所述情绪标签,对所述情绪分析模型进行训练;
对所述第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
在所述情绪分析模型中设置音频权重和文本权重;
在识别出所述音频数据的第二声音特征及其对应的音频文本的第二文本特征的情绪标识不同时,基于所述音频权重和所述文本权重的权重比值,确定所述第二声音特征及其对应的所述第二文本特征的情绪标识。
2.根据权利要求1所述的数据标注方法,其特征在于,所述基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征,包括:
基于所述情绪标识,对所述情绪标注音频段进行分类;
利用预设音频算法,获取相同类别的所述情绪标注音频段的声音频谱图,基于所述声音频谱图获取用于表征情绪的第一声音特征。
3.根据权利要求1所述的数据标注方法,其特征在于,所述基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征,包括:
基于所述情绪标识,对所述情绪标注句段进行分类;
利用预设文本算法,获取相同类别的所述情绪标注句段的情绪特征词,基于所述情绪特征词获取用于表征情绪的第一文本特征。
4.根据权利要求1所述的数据标注方法,其特征在于,所述方法还包括:
对所述第一待标注数据和所述第二待标注数据进行预处理,所述预处理包括降噪处理。
5.一种数据标注装置,其特征在于,所述装置包括:
人工标注单元,用于从银行客服坐席与客户的历史通话数据中选取出第一待标注数据,所述第一待标注数据包括第一待标注音频;将所述第一待标注音频输入语音分离模型,所述语音分离模型根据不同说话人的声纹特征,对所述第一待标注音频做分离和标记处理;将所述第一待标注音频输入文本识别模型,所述文本识别模型对所述第一待标注音频中的有声音频段的语义进行识别,并确定所述第一待标注音频中的空白频段在所述第一待标注音频中的空白位置,所述空白频段为所述第一待标注音频中的无声频段;基于语义识别结果及所述空白位置,得到初始文本;将所述初始文本输入深度神经网络模型中,确定所述空白位置中的标点符号位置,并自动标记标点符号,将剩下的所述空白位置的前后相邻的语句进行连接,得到第一待标注音频文本;从剩下的所述历史通话数据中选取第二待标注数据,并发送处理后的所述第一待标注音频和所述第一待标注音频文本给人工端进行人工标注,得到第一标注数据,所述第一标注数据包括带有情绪标签的第一标注音频和第一标注音频文本,其中,所述情绪标签包括情绪标识以及被所述情绪标识标注的音频或音频文本的位置信息,所述第一标注音频和所述第一标注音频文本的情绪标签中记录的情绪标识相同;
声音特征获取单元,用于基于所述第一标注音频的情绪标签中的位置信息,获取所述第一标注音频中的情绪标注音频段,获取所述情绪标注音频段的第一声音特征;
文本特征获取单元,用于基于所述第一标注音频文本的情绪标签中的位置信息,获取所述第一标注数据的情绪标注句段,获取所述情绪标注句段的第一文本特征;
模型训练单元,用于通过情绪分析模型基于所述第一声音特征和所述第一文本特征进行情绪识别,得到情绪识别结果,基于所述情绪识别结果和所述情绪标签,对所述情绪分析模型进行训练;
切分处理单元,用于对所述第二待标注数据进行音频段切分,得到多段音频数据,基于多段所述音频数据得到对应的音频文本;
自动标注单元,用于在所述情绪分析模型中设置音频权重和文本权重;在识别出所述音频数据的第二声音特征及其对应的音频文本的第二文本特征的情绪标识不同时,基于所述音频权重和所述文本权重的权重比值,确定所述第二声音特征及其对应的所述第二文本特征的情绪标识。
6.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器用于存储指令和数据,所述处理器用于执行权利要求1-4任一项所述的数据标注方法。
7.一种存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行权利要求1-4任一项所述的数据标注方法。
CN202210731923.9A 2022-06-25 2022-06-25 一种数据标注方法、装置、计算机设备及存储介质 Active CN115063155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210731923.9A CN115063155B (zh) 2022-06-25 2022-06-25 一种数据标注方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210731923.9A CN115063155B (zh) 2022-06-25 2022-06-25 一种数据标注方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN115063155A CN115063155A (zh) 2022-09-16
CN115063155B true CN115063155B (zh) 2024-05-24

Family

ID=83202414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210731923.9A Active CN115063155B (zh) 2022-06-25 2022-06-25 一种数据标注方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115063155B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620722B (zh) * 2022-12-15 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800720A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质
CN112527994A (zh) * 2020-12-18 2021-03-19 平安银行股份有限公司 情绪分析方法、装置、设备及可读存储介质
CN112966082A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 音频质检方法、装置、设备以及存储介质
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质
CN112990301A (zh) * 2021-03-10 2021-06-18 深圳市声扬科技有限公司 情绪数据标注方法、装置、计算机设备和存储介质
CN114218427A (zh) * 2021-12-13 2022-03-22 平安银行股份有限公司 语音质检分析方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800720A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质
CN112527994A (zh) * 2020-12-18 2021-03-19 平安银行股份有限公司 情绪分析方法、装置、设备及可读存储介质
CN112992147A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备和存储介质
CN112966082A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 音频质检方法、装置、设备以及存储介质
CN112990301A (zh) * 2021-03-10 2021-06-18 深圳市声扬科技有限公司 情绪数据标注方法、装置、计算机设备和存储介质
CN114218427A (zh) * 2021-12-13 2022-03-22 平安银行股份有限公司 语音质检分析方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115063155A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN105096941B (zh) 语音识别方法以及装置
EP3346463A1 (en) Identity verification method and apparatus based on voiceprint
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
CN107305541A (zh) 语音识别文本分段方法及装置
CN107657017A (zh) 用于提供语音服务的方法和装置
CN108074576A (zh) 审讯场景下的说话人角色分离方法及***
CN108447471A (zh) 语音识别方法及语音识别装置
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN112966082A (zh) 音频质检方法、装置、设备以及存储介质
Kopparapu Non-linguistic analysis of call center conversations
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN115063155B (zh) 一种数据标注方法、装置、计算机设备及存储介质
CN110797032A (zh) 一种声纹数据库建立方法及声纹识别方法
CN114420169B (zh) 情绪识别方法、装置及机器人
CN113505606B (zh) 一种培训信息获取方法、装置、电子设备及存储介质
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
CN113255362A (zh) 人声过滤与识别方法、装置、电子设别及存储介质
CN115527551A (zh) 语音标注质量评价方法、装置、电子设备和存储介质
CN115022471A (zh) 一种智能机器人语音交互***和方法
CN114925159A (zh) 用户情感分析模型训练方法、装置、电子设备及存储介质
CN114974255A (zh) 基于酒店场景的声纹识别方法、***、设备及存储介质
CN116206593A (zh) 一种语音质检方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant