CN108156317B - 通话语音控制方法、装置及存储介质和移动终端 - Google Patents

通话语音控制方法、装置及存储介质和移动终端 Download PDF

Info

Publication number
CN108156317B
CN108156317B CN201711393200.8A CN201711393200A CN108156317B CN 108156317 B CN108156317 B CN 108156317B CN 201711393200 A CN201711393200 A CN 201711393200A CN 108156317 B CN108156317 B CN 108156317B
Authority
CN
China
Prior art keywords
call
voice
feedback model
user
contact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711393200.8A
Other languages
English (en)
Other versions
CN108156317A (zh
Inventor
陈岩
刘耀勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201711393200.8A priority Critical patent/CN108156317B/zh
Publication of CN108156317A publication Critical patent/CN108156317A/zh
Application granted granted Critical
Publication of CN108156317B publication Critical patent/CN108156317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请实施例公开了一种通话语音控制方法、装置及存储介质和移动终端,所述方法包括:在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;获取基于机器学习方法生成的预设反馈模型;将联系人类型输入至预设反馈模型中,获取预设反馈模型输出的目标通话声音特征;根据目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。本申请实施例提供的技术方案,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。

Description

通话语音控制方法、装置及存储介质和移动终端
技术领域
本申请实施例涉及通话控制技术领域,尤其涉及一种通话语音控制方法、装置及存储介质和移动终端。
背景技术
手机等移动终端中的功能越来越多,为人们的生活和工作提供了便利,语音通话功能是手机中的一个基本功能,人们可以利用手机接打电话,收发语音消息。在用户使用手机语音通话的过程,相关技术中对通话语音控制方法存在缺陷,需要改进。
发明内容
本申请实施例提供一种通话语音控制方法、装置及存储介质和移动终端,可以优化通话语音的控制方案。
在第一方面,本申请实施例提供了一种通话语音控制方法,包括:
在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征;
将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
根据所述目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。
在第二方面,本申请实施例提供了一种通话语音控制装置,包括:
联系人类型获取模块,用于在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
预设反馈模型获取模块,用于获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征信息的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征;
目标通话声音特征获取模块,用于将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
通话语音调整模块,用于根据所述目标通话声音特征信息对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至当前通话联系人所在终端。
在第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所提供的通话语音控制方法。
在第四方面,本申请实施例提供了一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如第一方面所提供的通话语音控制方法。
本申请实施例通过在移动终端或者服务器上预先生成一个用于确定适合对话通话联系人的用户通话声音特征的预设反馈模型,在移动终端处于通话模式下时,获取当前通话联系人的联系人类型,将联系人类型输入至预设反馈模型中,得到适合当前通话联系人的当前移动终端用户的目标通话声音特征,根据目标通话声音特征对用户的通话语音进行调整,将调整后的通话语音发送至当前通话联系人所在终端,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。
附图说明
图1是本申请实施例提供的一种通话语音控制方法的流程图;
图2是本申请实施例提供的另一种通话语音控制方法的流程图;
图3是本申请实施例提供的一种通话语音控制装置的结构示意图;
图4是本申请实施例提供的一种移动终端的结构示意图;
图5是本申请实施例提供的另一种移动终端的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种通话语音控制方法的流程图,本实施例的方法可以由通话语音控制装置来执行,该装置可通过硬件和/或软件的方式实现,所述装置可作为移动终端一部分设置在所述移动终端的内部。本实施例中所述的移动终端包括但不限定于智能手机、平板电脑或者笔记本等具有通话功能的设备。
如图1所示,本实施例提供的通话语音控制方法包括以下步骤:
步骤101、在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型。
本实施例中所述的通话模式包括电话通话模式、第三方语音通话软件通话(例如,微信、QQ等视频/语音通话、微信语音消息发出)模式或者其他通话模式。
假设当前移动终端的用户为A,用户A正在与通话联系人B进行通话,该通话联系人B与用户A的关系包括很多种,该关系由联系人类型标识,其中,联系人类型可以包括同事、领导、父母、亲戚、朋友、客户、恋人或者推销人员。
步骤102、获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征。
该基于机器学习方法的预设反馈模型的训练生成以及更新过程可以在移动终端本地进行,也可以在预设服务器中进行,当预设反馈模型训练生成完毕或者更新完毕后,可以直接发送到移动终端进行存储,或在预设服务器进行存储,等待移动终端主动获取。相应的,该步骤102可以包括:从预设服务器中或者移动终端本地获取基于机器学习方法生成的预设反馈模型。其中,机器学习方法包括神经网络方法、支持向量机方法、决策树方法、逻辑回归方法、贝叶斯方法和随机森林方法。
在本实施例中,对所述已知用户通话声音特征的通话信息样本的来源和数量不做具体限定。例如,训练样本可以是该移动终端用户的历史通话信息,也可以是目标用户群组的历史通话信息,该目标用户群组可以为与移动终端用户具有相同用户属性的多个用户,用户属性包括年龄、性别、爱好、职业和平时说话声音特征。可以理解的是,对于基于机器学习的模型来说,一般样本的数量越大,模型的输出结果越准确。
通话信息中包括通话联系人的联系人类型和用户在与通话联系人对话时所体现出来的通话声音特征。一般,一个用户在与不同联系人类型的通话联系人进行通话时,发出的声音是不同的,例如,与领导或者客户通话时,一般声音都比较正式,与父母、亲戚或者朋友通话时,声音一般都比较正常,与推销人员通话时,声音一般都比较强硬。在另一种应用场景下,例如移动终端用户为客服话务员或者推销人员等对通话语音要求比较高的职业用户时,其通话联系人类型是客户时与是其他类型时,该移动终端用户的通话声音特征可能是有显著区别的。通话信息中包括多条用户与各个通话联系人的通话记录,对于每一条通话记录标注通话联系人类型和用户通话声音特征。其中,用户通话声音特征可以在通话过程中根据用户的通话语音数据波形提取该通话语音的声音特征信息。
将历史通话信息中的通话联系人类型作为预设反馈模型的输入,历史通话信息中的用户通话声音特征作为预设反馈模型的输出,对所述历史通话信息样本进行训练,生成预设反馈模型。对于该预设反馈模型,在后续移动终端处于通话模式下时,通过将当前通话联系人所属的联系人类型输入至预设反馈模型,即可反馈输出用户在与当前通话联系人通话时,所预测出的应该具备的通话声音特征。
其中,通话声音特征包括音色、音调、响度、语气、语速和说话方式中的至少一项。该通话声音特征可以根据通话语音数据波形中的波形形状、振动频率和振动幅度来确定。
其中,所述预设反馈模型可以有多个,有的用于反馈音色特征,有的用户反馈音调特征,有的用于反馈响度特征,有的用于反馈语气、语速特征,有的用于反馈说话方式特征,在基于各个预设反馈模型分别得到音色、音调、响度、语气、语速和说话方式后,将其进行融合,得到最终完整的通话声音特征,其中,各个预设反馈模型可基于不同的机器学习方法生成。也可以基于一个预设反馈模型同时得到音色、音调、响度、语气、语速和说话方式的通话声音特征。
步骤103、将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征。
将当前通话联系人的联系人类型输入至所述预设反馈模型中,得到预设反馈模型输出的目标通话声音特征,所述目标通话声音特征为移动终端用户与当前通话联系人对话时所应具备的声音特征。
步骤104、根据所述目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。
在通话过程中,移动终端麦克风实时获取用户发出的通话语音数据,在将该通话语音数据发送给通话联系人之前,基于目标通话声音特征对通话语音进行调整修饰,将调整后的通话语音发送至所述当前通话联系人所在终端。
示例性的,移动终端用户为客服话务员,当前通话联系人为客户,在有些时候客户话务员可能处于感冒生病状态,难免通话声音没有平时悦耳符合职业通话要求,那么若开启了移动终端的通话语音控制开关,移动终端会自动的根据获取得到的符合对话客户联系人的通话声音特征,对该客服话务员的通话语音进行调整修饰,可以消除或者掩盖客服话务员生病状态的语音信息,使得移动终端对通话语音的控制更加贴合用户需求,提升了语音通话的趣味性。
本实施例提供的通话语音控制方法,通过在移动终端或者服务器上预先生成一个用于确定适合对话通话联系人的用户通话声音特征的预设反馈模型,在移动终端处于通话模式下时,获取当前通话联系人的联系人类型,将联系人类型输入至预设反馈模型中,得到适合当前通话联系人的当前移动终端用户的目标通话声音特征,根据目标通话声音特征对用户的通话语音进行调整,将调整后的通话语音发送至当前通话联系人所在终端,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。
下面以机器学习方法为神经网络方法为例,对利用由神经网络方法生成的预设反馈模型,进行通话语音控制的方法进行简要描述。图2给出了本申请实施例提供的另一种通话语音控制方法的流程图。如图2所示,本实施例提供的方法包括以下步骤:
步骤201、从移动终端本地获取移动终端用户的历史通话信息或者从预设服务器中获取目标用户群组的历史通话信息,作为历史通话信息样本。
步骤202、利用神经网络方法对所述历史通话信息样本进行训练,生成预设反馈模型。
该步骤可以包括利用深度自动编码器对所述历史通话信息样本进行训练,生成预设反馈模型。
步骤203、在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型。
步骤204、将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征。
步骤205、根据所述目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。
在上述技术方案的基础上,所述神经网络方法包括输入层、隐藏层和输出层;步骤202可以包括:将所述历史通话信息中各个通话联系人的联系人类型输入至所述输入层,并经过与所述隐藏层各节点对应的激活函数的计算,输出中间用户通话声音特征;利用所述中间用户通话声音特征与所述历史通话信息中对话各个通话联系人的用户通话声音特征之间的差值,以及优化算法对所述激活函数中的权重进行反复修正,直至所述中间用户通话声音特征与所述用户通话声音特征之间的差值在预设范围之内,得到训练完成的各个节点的激活函数,生成预设反馈模型。
神经网络(Neural Networks,简写为NNs)***指的是人工神经网络,启发自人类大脑处理信息的生物神经网络,它包括输入层、隐藏层和输出层,相应的包括三种节点(神经网络的基本单元):输入节点、隐藏节点和输出节点,输入节点从外部世界获取信息;隐藏节点和外部世界没有直接联系,这些节点利用激活函数进行计算,并将信息从输入节点传递到输出节点;输出节点用于向外部世界传递信息。
其中,所述激活函数是指为神经网络***提供非线性建模能力,一般而言是非线性函数。激活函数可以包括relu函数、sigmoid函数、tanh函数或者maxout函数。
sigmoid是常用的非线性的激活函数,它的数学形式如下:
Figure BDA0001518023760000071
它的输出为0-1之间的值。tanh跟sigmoid还是很像的,实际上,tanh是sigmoid的变形:tanh(x)=2sigmoid(2x)-1,与sigmoid不同的是,tanh是0均值的。近年来,relu变的越来越受欢迎。它的数学表达式如下:f(x)=max(0,x),其中,输入信号<0时,输出都是0,输入信号>0的情况下,输出等于输入。maxout函数的表达式如下:fi(x)=maxj∈[1,k]Zij。假设输入节点包括x1和x2,对应的权重分别为w1和w2,还包括权重b,那么输出节点Y=f(w1*x1+w2*x2+b),其中f为激活函数。另外,输入层和输出层的个数通常均为一个,隐藏层可以由多层构成。
所述优化算法包括随机梯度下降(Stochastic Gradient Descent,SGD)算法、适应性矩估计(adaptive moment estimation,adam)算法或者Momentum算法。
在上述技术方案的基础上,所述根据所述目标通话声音特征对用户的通话语音进行调整,将调整后的通话语音发送至通话联系人所在终端可以包括:根据所述目标通话声音特征生成调整波形;将所述调整波形与实时获取的用户的通话语音波形进行合成,生成调整后的通话语音数据;将所述调整后的通话语音数据发送至通话联系人所在终端。
其中,将所述调整波形与实时获取的用户的通话语音波形进行合成可以包括:将所述调整波形与实时获取的用户的通话语音波形利用基音同步叠加(Pitch SynchronousOverlap and Add,PSOLA)方法进行合成。
在上述技术方案的基础上,还可以包括以下步骤:按照设定获取规则实时获取单位通话语音片段。相应的,所述将所述调整波形与实时获取的通话语音波形进行合成,生成调整后的通话语音数据可以包括:将所述调整波形与所述单位通话语音片段波形进行合成,生成调整后的通话语音子数据;将所述调整后的通话语音数据发送至通话联系人所在终端可以包括:将所述调整后的通话语音子数据发送至通话联系人所在终端。
可选的,设定获取规则可以为每隔设定时长获取一个单位通话语音片段或者每在检测到一句话的结尾时获取该句话为单位通话语音片段,具体可以将停顿时间达到设定时间时认为检测到一句话的结尾。
本实施例提供的通话语音控制方法,通过采用神经网络***生成预设反馈模型,在移动终端处于通话模式下时,获取当前通话联系人的联系人类型,将联系人类型输入至预设反馈模型中,得到适合当前通话联系人的当前移动终端用户的目标通话声音特征,根据目标通话声音特征对用户的通话语音进行调整,将调整后的通话语音发送至当前通话联系人所在终端,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。
图3为本申请实施例提供的一种通话语音控制装置的结构示意图,该装置可由软件和/或硬件实现,集成在移动终端中。如图3所示,该装置包括联系人类型获取模块31、预设反馈模型获取模块32、目标通话声音特征获取模块33和通话语音调整模块34。
所述联系人类型获取模块31,用于在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
所述预设反馈模型获取模块32,用于获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征信息的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征;
所述目标通话声音特征获取模块33,用于将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
所述通话语音调整模块34,用于根据所述目标通话声音特征信息对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至当前通话联系人所在终端。
本实施例提供的装置,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。
可选的,所述通话声音特征包括音色、音调、响度、语气、语速和说话方式中的至少一项。
可选的,所述联系人类型包括同事、领导、父母、亲戚、朋友、客户、恋人或者推销人员。
可选的,所述装置还包括:
样本获取模块,用于从移动终端本地获取移动终端用户的历史通话信息或者从预设服务器中获取目标用户群组的历史通话信息,作为历史通话信息样本;
预设反馈模型生成模块,用于利用神经网络方法对所述历史通话信息样本进行训练,生成预设反馈模型。
可选的,所述神经网络方法包括输入层、隐藏层和输出层;所述预设反馈模型生成模块具体用于:
将所述历史通话信息中各个通话联系人的联系人类型输入至所述输入层,并经过与所述隐藏层各节点对应的激活函数的计算,输出中间用户通话声音特征;
利用所述中间用户通话声音特征与所述历史通话信息中对话各个通话联系人的用户通话声音特征之间的差值,以及优化算法对所述激活函数中的权重进行反复修正,直至所述中间用户通话声音特征与所述用户通话声音特征之间的差值在预设范围之内,得到训练完成的各个节点的激活函数,生成预设反馈模型。
可选的,所述通话语音调整模块包括:
调整波形生成单元,用于根据所述目标通话声音特征生成调整波形;
通话语音数据生成单元,用于将所述调整波形与实时获取的用户的通话语音波形进行合成,生成调整后的通话语音数据;
通话语音数据发送单元,用于将所述调整后的通话语音数据发送至通话联系人所在终端。
可选的,所述装置还包括:
单位通话语音片段获取单元,用于按照设定获取规则实时获取单位通话语音片段;
所述通话语音数据生成单元具体用于:将所述调整波形与所述单位通话语音片段波形进行合成,生成调整后的通话语音子数据;
所述通话语音数据发送单元具体用于:将所述调整后的通话语音子数据发送至通话联系人所在终端。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种通话语音控制方法,该方法包括:
在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征;
将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
根据所述目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机***存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机***中,或者可以位于不同的第二计算机***中,第二计算机***通过网络(诸如因特网)连接到第一计算机***。第二计算机***可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机***中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的通话语音控制操作,还可以执行本申请任意实施例所提供的通话语音控制方法中的相关操作。
本申请实施例提供了一种移动终端,该移动终端中可集成本申请实施例提供的通话语音控制装置。图4为本申请实施例提供的一种移动终端的结构示意图。移动终端400可以包括:存储器401,处理器402及存储在存储器401上并可在处理器402运行的计算机程序,所述处理器402执行所述计算机程序时实现如本申请实施例所述的通话语音控制方法。
本申请实施例提供的移动终端,实现了对用户通话语音按照通话联系人类型进行适时的调整,无论用户发出的通话语音是什么样的,发送到通话联系人所在终端的用户通话语音都是通话声音特征语音与当前通话联系人相匹配的,也提升了语音通话的趣味性。
图5为本申请实施例提供的另一种移动终端的结构示意图,如图5所示,该移动终端可以包括:存储器501、中央处理器(Central Processing Unit,CPU)502(又称处理器,以下简称CPU)、所述存储器501,用于存储可执行程序代码;所述处理器502通过读取所述存储器501中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征;将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;根据所述目标通话声音特征对当前移动终端用户的通话语音进行调整,将调整后的通话语音发送至所述当前通话联系人所在终端。
所述移动终端还包括:外设接口503、RF(Radio Frequency,射频)电路505、音频电路506、扬声器511、电源管理芯片508、输入/输出(I/O)子***509、触摸屏512、其他输入/控制设备510以及外部端口504,这些部件通过一个或多个通信总线或信号线507来通信。
应该理解的是,图示移动终端500仅仅是移动终端的一个范例,并且移动终端500可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于控制通话语音的移动终端进行详细的描述,该移动终端以智能手机为例。
存储器501,所述存储器501可以被CPU502、外设接口503等访问,所述存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口503,所述外设接口503可以将设备的输入和输出外设连接到CPU502和存储器501。
I/O子***509,所述I/O子***509可以将设备上的输入输出外设,例如触摸屏512和其他输入/控制设备510,连接到外设接口503。I/O子***509可以包括显示控制器5091和用于控制其他输入/控制设备510的一个或多个输入控制器5092。其中,一个或多个输入控制器5092从其他输入/控制设备510接收电信号或者向其他输入/控制设备510发送电信号,其他输入/控制设备510可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器5092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
触摸屏512,所述触摸屏512是用户终端与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。
I/O子***509中的显示控制器5091从触摸屏512接收电信号或者向触摸屏512发送电信号。触摸屏512检测触摸屏上的接触,显示控制器5091将检测到的接触转换为与显示在触摸屏512上的用户界面对象的交互,即实现人机交互,显示在触摸屏512上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路505,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路505接收并发送RF信号,RF信号也称为电磁信号,RF电路505将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路505可以包括用于执行这些功能的已知电路,其包括但不限于天线***、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder,编译码器)芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。
音频电路506,主要用于从外设接口503接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器511。
扬声器511,用于将手机通过RF电路505从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片508,用于为CPU502、I/O子***及外设接口503所连接的硬件进行供电及电源管理。
上述实施例中提供的通话语音控制装置、存储介质及移动终端可执行本申请任意实施例所提供的通话语音控制方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的通话语音控制方法。
本申请实施例还提供一种通话语音控制装置,所述装置集成在预设服务器中,所述装置包括样本获取模块和预设反馈模型生成模块。
所述样本获取模块,用于从移动终端上获取移动终端用户的历史通话信息或者从预设服务器本地中获取目标用户群组的历史通话信息,作为历史通话信息样本;
所述预设反馈模型生成模块,用于利用神经网络方法对所述历史通话信息样本进行训练,生成预设反馈模型。
本申请实施例还提供一种服务器,所述服务器集成了上述包括样本获取模块和预设反馈模型生成模块的通话语音控制装置。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (8)

1.一种通话语音控制方法,其特征在于,包括:
在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征,所述通话声音特征包括音色、音调、响度、语气、语速和说话方式,所述预设反馈模型有多个,分别对应于音色特征、音调特征、响度特征、语气语速特征和说话方式特征;所述预设反馈模型在服务器中生成,并存储在当前所述移动终端中;
将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
根据所述目标通话声音特征生成调整波形;
将所述调整波形与实时获取的用户的通话语音波形进行合成,生成调整后的通话语音数据;
将所述调整后的通话语音数据发送至通话联系人所在终端。
2.根据权利要求1所述的方法,其特征在于,所述联系人类型包括同事、领导、父母、亲戚、朋友、客户、恋人或者推销人员。
3.根据权利要求1所述的通话语音控制方法,其特征在于,还包括:
从移动终端本地获取移动终端用户的历史通话信息或者从预设服务器中获取目标用户群组的历史通话信息,作为历史通话信息样本;
利用神经网络方法对所述历史通话信息样本进行训练,生成预设反馈模型。
4.根据权利要求3所述的通话语音控制方法,其特征在于,所述神经网络方法包括输入层、隐藏层和输出层;
所述利用神经网络方法对所述历史通话信息样本进行训练,生成预设反馈模型包括:
将所述历史通话信息中各个通话联系人的联系人类型输入至所述输入层,并经过与所述隐藏层各节点对应的激活函数的计算,输出中间用户通话声音特征;
利用所述中间用户通话声音特征与所述历史通话信息中对话各个通话联系人的用户通话声音特征之间的差值,以及优化算法对所述激活函数中的权重进行反复修正,直至所述中间用户通话声音特征与所述用户通话声音特征之间的差值在预设范围之内,得到训练完成的各个节点的激活函数,生成预设反馈模型。
5.根据权利要求1所述的通话语音控制方法,其特征在于,还包括:按照设定获取规则实时获取单位通话语音片段;
所述将所述调整波形与实时获取的通话语音波形进行合成,生成调整后的通话语音数据包括:将所述调整波形与所述单位通话语音片段波形进行合成,生成调整后的通话语音子数据;
将所述调整后的通话语音数据发送至通话联系人所在终端包括:将所述调整后的通话语音子数据发送至通话联系人所在终端。
6.一种通话语音控制装置,其特征在于,包括:
联系人类型获取模块,用于在检测到当前移动终端处于通话模式时,获取当前通话联系人的联系人类型;
预设反馈模型获取模块,用于获取基于机器学习方法生成的预设反馈模型,所述预设反馈模型由多个已知用户通话声音特征信息的通话信息样本训练得到,用于基于通话联系人类型反馈对话通话联系人的用户通话声音特征,所述通话声音特征包括音色、音调、响度、语气、语速和说话方式,所述预设反馈模型有多个,分别对应于音色特征、音调特征、响度特征、语气语速特征和说话方式特征;所述预设反馈模型在服务器中生成,并存储在当前所述移动终端中;
目标通话声音特征获取模块,用于将所述联系人类型输入至所述预设反馈模型中,获取所述预设反馈模型输出的目标通话声音特征;
通话语音调整模块,包括:
调整波形生成单元,用于根据所述目标通话声音特征生成调整波形;
通话语音数据生成单元,用于将所述调整波形与实时获取的用户的通话语音波形进行合成,生成调整后的通话语音数据;
通话语音数据发送单元,用于将所述调整后的通话语音数据发送至通话联系人所在终端。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的通话语音控制方法。
8.一种移动终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的通话语音控制方法。
CN201711393200.8A 2017-12-21 2017-12-21 通话语音控制方法、装置及存储介质和移动终端 Active CN108156317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711393200.8A CN108156317B (zh) 2017-12-21 2017-12-21 通话语音控制方法、装置及存储介质和移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711393200.8A CN108156317B (zh) 2017-12-21 2017-12-21 通话语音控制方法、装置及存储介质和移动终端

Publications (2)

Publication Number Publication Date
CN108156317A CN108156317A (zh) 2018-06-12
CN108156317B true CN108156317B (zh) 2020-03-10

Family

ID=62464120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393200.8A Active CN108156317B (zh) 2017-12-21 2017-12-21 通话语音控制方法、装置及存储介质和移动终端

Country Status (1)

Country Link
CN (1) CN108156317B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896689B2 (en) * 2018-07-27 2021-01-19 International Business Machines Corporation Voice tonal control system to change perceived cognitive state
CN109151366B (zh) * 2018-09-27 2020-09-22 惠州Tcl移动通信有限公司 一种视频通话的声音处理方法、存储介质和服务器
CN109215629B (zh) * 2018-11-22 2021-01-01 Oppo广东移动通信有限公司 语音处理方法、装置及终端
CN109979473A (zh) * 2019-03-29 2019-07-05 维沃移动通信有限公司 一种通话声音处理方法及装置、终端设备
CN110364177B (zh) * 2019-07-11 2024-07-23 努比亚技术有限公司 语音处理方法、移动终端及计算机可读存储介质
CN112445906A (zh) * 2019-08-28 2021-03-05 北京搜狗科技发展有限公司 一种生成回复消息的方法及装置
CN112750443A (zh) * 2019-10-30 2021-05-04 北京小米移动软件有限公司 通话语音输出方法、装置、存储介质和电子设备
CN113555011B (zh) * 2021-07-07 2022-05-27 广西电网有限责任公司 电力行业客服中心语音转译建模方法、***及介质
CN114666449B (zh) * 2022-03-29 2022-12-06 深圳市银服通企业管理咨询有限公司 一种呼叫***的语音数据处理方法及呼叫***
CN114710592B (zh) * 2022-04-11 2023-05-02 江西省信合客户服务有限公司 一种基于人工智能的呼叫***及方法
CN115665318B (zh) * 2022-11-30 2023-10-20 荣耀终端有限公司 一种通话音质调整方法和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093752A (zh) * 2013-01-16 2013-05-08 华南理工大学 一种基于手机语音的情感分析方法及其***
CN103905644A (zh) * 2014-03-27 2014-07-02 郑明� 移动终端通话界面的生成方法及设备
CN104702759A (zh) * 2013-12-06 2015-06-10 中兴通讯股份有限公司 通讯录的设置方法及装置
CN105208221A (zh) * 2015-10-30 2015-12-30 维沃移动通信有限公司 一种自动调节通话语音的方法及装置
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI579828B (zh) * 2015-06-01 2017-04-21 鴻海精密工業股份有限公司 語音辨識裝置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093752A (zh) * 2013-01-16 2013-05-08 华南理工大学 一种基于手机语音的情感分析方法及其***
CN104702759A (zh) * 2013-12-06 2015-06-10 中兴通讯股份有限公司 通讯录的设置方法及装置
CN103905644A (zh) * 2014-03-27 2014-07-02 郑明� 移动终端通话界面的生成方法及设备
CN105208221A (zh) * 2015-10-30 2015-12-30 维沃移动通信有限公司 一种自动调节通话语音的方法及装置
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置

Also Published As

Publication number Publication date
CN108156317A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN108156317B (zh) 通话语音控制方法、装置及存储介质和移动终端
CN108076224B (zh) 应用程序控制方法、装置及存储介质和移动终端
CN107995370B (zh) 通话控制方法、装置及存储介质和移动终端
CN107995428B (zh) 图像处理方法、装置及存储介质和移动终端
CN108153463B (zh) 应用界面显示控制方法、装置及存储介质和移动终端
CN108021572B (zh) 回复信息推荐方法和装置
CN107947951A (zh) 用户群组推荐方法、装置及存储介质和服务器
US11102354B2 (en) Haptic feedback during phone calls
CN107678823A (zh) 移动终端应用的控制方法、装置及存储介质和移动终端
US10541951B2 (en) Enhancing network messaging with a real-time, interactive representation of current messaging activity of a user&#39;s contacts and associated contacts
CN108537971A (zh) 一种按摩椅的控制方法、终端以及存储介质
US20180067991A1 (en) Using Structured Smart Digital Memory to Personalize Digital Agent and Bot Scenarios
US10015234B2 (en) Method and system for providing information via an intelligent user interface
CN111898018A (zh) 一种虚拟资源的发送方法、装置、电子设备及存储介质
CN110727775B (zh) 用于处理信息的方法和装置
CN113994359A (zh) 用于数据的有效使用以用于个性化的***
CN112445906A (zh) 一种生成回复消息的方法及装置
KR20220150198A (ko) Bi-LSTM 기반의 선호도 예측 모델을 이용한 결혼 정보 매칭 방법 및 장치
CN111918174A (zh) 音量增益平衡的方法、设备、电子设备及交通工具
CN107704919B (zh) 移动终端的控制方法、装置及存储介质和移动终端
CN111191143B (zh) 应用推荐方法及装置
CN112259122A (zh) 音频类型识别方法、装置及存储介质
CN113488066B (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN110874146A (zh) 一种输入方法、装置及电子设备
CN113539275B (zh) 确定话术的方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant after: OPPO Guangdong Mobile Communications Co., Ltd.

Address before: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant before: Guangdong OPPO Mobile Communications Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant