CN109637543A - 语音卡的语音数据处理方法和装置 - Google Patents

语音卡的语音数据处理方法和装置 Download PDF

Info

Publication number
CN109637543A
CN109637543A CN201811518652.9A CN201811518652A CN109637543A CN 109637543 A CN109637543 A CN 109637543A CN 201811518652 A CN201811518652 A CN 201811518652A CN 109637543 A CN109637543 A CN 109637543A
Authority
CN
China
Prior art keywords
voice data
user
reading
information
sound card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811518652.9A
Other languages
English (en)
Inventor
彭捷
汤成亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811518652.9A priority Critical patent/CN109637543A/zh
Publication of CN109637543A publication Critical patent/CN109637543A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及语音语义领域,尤其是语音交互中的相似度匹配的细分领域,公开一种语音卡的语音数据处理方法,包括:向用户发出提示信息,并获取用户依据提示信息复读的复读语音数据;对复读语音数据进行分析获取特征信息,根据特征信息从关联的用户数据库中查找用户对应关联的账户信息;根据账户信息查找出用户对应保存的个性化标准语音数据;将复读语音数据与个性化标准语音数据比对,输出比对结果。本发明还提供语音卡的语音数据处理装置和电子设备。本发明的技术方案能根据不同用户的复读语音数据分别识别,查找对应账户信息,且根据对应账户保存个性化标准语音数据进行分析,有针对性,分析效果好,用户数据存储在独立的账户信息中,不易混淆。

Description

语音卡的语音数据处理方法和装置
技术领域
本发明涉及语音语义领域,更具体地,涉及一种语音卡的语音数据处理方法和装置。
背景技术
语音卡是语音数据处理的终端的其中一种,在当前应用场景中,语音数据可以包括,例如用户在日常交流、朗读、演讲等不同场景下的语音数据。
目前用户的语音与标准的语音存在差距,现有技术中,目前已经可以通过录制并回放用户语音的方式,用于对比用户语音和标准语音之间的差异。
但是现有技术中往往只能针对单个用户或者不区分用户进行录制和回放,只能对单一的数据源进行同一处理,得到的处理结果例如比对值等用户的数据还很容易混淆,分析和回放的效果差,比对没有针对性。
发明内容
鉴于上述问题,本发明提出了一种语音卡的语音数据处理方法和装置,其本发明的技术方案能对多用户的复读语音数据分别识别,分别匹配对应的账户信息,并且根据对应账户保存的个性化标准语音数据进行分析,分析得到的对比结果更有针对性,用户数据不易混淆。
第一方面,本发明实施例中提供了一种语音卡的语音数据处理方法,包括:
向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。本发明的技术方案能根据不同用户的复读语音数据分别识别,匹配对应的账户信息,并且根据对应账户保存的个性化标准语音数据进行分析,更有针对性。
结合第一方面,本发明在第一方面的第一种实现方式中,对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息的步骤,所述的语音卡的语音数据处理方法包括:
对所述复读语音数据进行分析,得到用户的声纹信息;
根据所述声纹信息,在用户数据库中对应关联该用户的账户信息。
结合第一方面,本发明在第一方面的第一种实现方式中,当所述用户未设立账户时,根据所述声纹信息,在用户数据库中对应关联该用户的账户信息的步骤之前,所述的语音卡的语音数据处理方法还包括:创建并关联该用户的账户信息,在用户数据库录入所述账户信息对应的声纹信息。
结合第一方面,本发明在第一方面的第一种实现方式中,向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据的步骤,所述的语音卡的语音数据处理方法包括:
向用户发出提示信息,并获取用户依据所述提示信息复读的音频数据,所述音频数据包括用户的原始语音和当前的环境音频;
根据所述提示信息将原始语音和环境音频分离;
当所述原始语音与环境音频的分贝差值小于噪声阈值时,向用户推送更换语音数据处理场地的信息;
当所述原始语音与环境音频的分贝差值大于噪声阈值时,对音频数据根据环境音频进行底噪滤波,得到复读语音数据。
结合第一方面,本发明在第一方面的第一种实现方式中,对所述复读语音数据进行分析获取特征信息的步骤,所述的语音卡的语音数据处理方法包括:
获取语音卡当前的语音处理模式,对复读语音数据根据语音处理模式的基本划分单元和基本划分单元的间隔进行拆分;所述基本划分单元包括单字单元、单词单元或单句单元;
对拆分后的复读语音数据根据基本划分单元依次分析,得到特征信息。
结合第一方面,本发明在第一方面的第一种实现方式中,当所述比对结果是评分值时,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,所述的语音卡的语音数据处理方法还包括:
通过用户数据库中获取多个账户信息,获取多个不同用户公开展示的评分值;
根据所述评分值进行排序,得到各个用户的排名信息,进行输出。
结合第一方面,本发明在第一方面的第一种实现方式中,当所述比对结果是评分值时,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,所述的语音卡的语音数据处理方法包括:根据所述复读语音数据的特征信息和所述个性化标准语音数据,生成可视化图像和评分值,同步展示所述可视化图像和评分值。
结合第一方面,本发明在第一方面的第一种实现方式中,所述可视化图像以设定展示形式展示特征信息和标准特征信息;
所述展示形式包括:声波图、直方图或折线图的图形形式展示。
第二方面,本发明实施例中提供了一种语音卡的语音数据处理装置,包括:
获取单元,用于向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
分析单元,用于对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
查找单元,用于根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
对比单元,用于将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。
本发明实施例提供的一种语音卡的语音数据处理装置,该语音卡的语音数据处理装置具有实现上述第一方面中语音卡的语音数据处理方法行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,语音卡的语音数据处理装置的结构中包括处理器和存储器,所述存储器用于存储支持收发装置执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音卡的语音数据处理装置还可以包括通信接口,用于语音卡的语音数据处理装置与其他设备或通信网络通信。
第三方面,本发明实施例中提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任意一项所述的语音卡的语音数据处理方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存为上述语音卡的语音数据处理装置所用的计算机软件指令,其包含用于执行上述方面为语音卡的语音数据处理装置所设计的程序。
相对于现有技术,本发明提供的方案,通过向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。本发明的技术方案能根据不同用户的复读语音数据分别识别,匹配对应的账户信息,并且根据对应账户保存的个性化标准语音数据进行分析,更有针对性。本发明的技术方案分析效果好,用户数据存储在独立的账户信息中,不易混淆。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的语音卡的语音数据处理方法的方法流程图;
图2是本发明的语音卡的语音数据处理方法的场景示意图;
图3示出本发明的根据用户声纹信息匹配账户信息的方法流程图;
图4示出本发明的根据环境音频执行不同操作的方法流程图;
图5示出本发明根据不同语音处理模式以不同拆分方式分析的流程图;
图6示出本发明根据多个账户的评分值进行排序并输出的方法流程图;
图7示出本发明一个实施例的语音卡的语音数据处理方法的装置的框图;
图8示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1示出本发明的语音卡的语音数据处理方法的方法流程图。为了能够在多用户的场景能够更好地进行语音数据处理,本发明提供一种语音卡的语音数据处理方法,该方法可以在语音卡上运行。请参考图2,图2是本发明的语音卡的语音数据处理方法的场景示意图。本实施例中示例性的引入用户A、用户B、用户C和语音卡110,用户可以同时与语音卡110进行交互,也可以在不同时间段与语音卡110交互。在一些实施方式中,语音卡可以是多个,还可以是其他的用户终端,包括但不限于手机、平板电脑、个人电脑、学习机等。语音卡通过网络连接到相应的服务器上,服务器上承载相关的数据库。
所述语音卡的语音数据处理方法,包括:
步骤S11:向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据。
在本实施例中,以最经常出现的场景举例,用户需要通过前述语音卡纠正自身的语音。语音卡110可以在内置题库或者云端数据库中获取相应的提示信息,提示信息可以是单词、单字、单句或者是整段的文字材料。
为了适应不同用户的年龄、性别、学段等用户特征或用户选择的学习模式,语音卡还可以根据用户的复读语音数据分析得到的用户特征,选择是否提示信息的拼音。在本实施例中,例如针对用户A,幼儿园学生,普通话初学者,男性,语音卡110从云端获取适应用户特征的题库,从题库中获取并向用户A展示提示信息“太阳”、“拼音:taiyang”。语音卡110用户A复读的复读语音数据——“太阳”。提示信息根据用户的特征信息可以相应在云端进行匹配,用户的特征信息可以根据用户开机时的语音数据分析得到、也可以采集用户的视像信息分析得到,还可以根据环境使用场景分析得到。适应不同用户特征的提示信息,就还可以展示图像以帮助用户A复读提示信息,例如展示太阳的图像。
步骤S12:对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息。
对用户A复读的复读语音数据进行分析获取特征信息,特征信息在本实施例中可以包括语音的声调、音节、声韵、间隔时长或音变等反映用户发音准确性的语音特征。根据前述语音的特征信息,可以在已关联若干账户信息的用户数据库中匹配、查找用户A对应关联的账户信息,通过复读语音数据的特征信息关联得到的账户信息,语音卡110据此可以确定当前用户的相关信息,便于后续收集、记录、机器学习用户行为和持续分析用户语音特征等等。
步骤S13:根据所述账户信息查找出所述用户对应保存的个性化标准语音数据。
语音卡110根据匹配得到的账户信息,获取历史中用户对应保存在云端或数据库的个性化标准语音数据。其中,个性化标准语音数据是指根据用户特征的标准化语音。针对用户的不同年龄段、性别、学段、地区、民族等特点,匹配不同的标准化语音数据,并存储在用户A对应的账户信息中,以便于用户A后续与语音卡110交互时调用个性化标准语音数据。用户也可以自行选择需要保存的个性化标准语音数据。
步骤S14:将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。
将用户A的复读语音数据与用户A账户信息中保存的个性化标准语音数据进行比对,得到比对结果。在本实施例中,对比结果可以是评分值、对比图、改进分析信息等。其中,评分值可以根据用户A的复读语音数据的特征信息与个性化标准语音数据的特征信息之间的相似度或符合度,量化生成评分值。在一些实施方式中,可以采用语音相似度匹配的算法模型,以输出相似度数值等量化指标的形式,得到比对结果。
请参考图3,图3示出本发明的根据用户声纹信息匹配账户信息的方法流程图。为了简化在用户数据库中查找该用户对应关联的账户信息的步骤,提升关联查找的效率,所述语音卡的语音数据处理方法包括:
步骤S31:对所述复读语音数据进行分析,得到用户的声纹信息。
以语音卡110为例,语音卡110获取用户的复读语音数据后,对复读语音数据的语音特征进行分析,得到用户的声纹信息。其中,声纹信息是用户特定的语音特征,能够将用户区分开来。例如可以分析得到用户的音高、音色、频率以及其他特征点,得到用户特定声纹。
步骤S32:根据所述声纹信息,在用户数据库中对应关联该用户的账户信息。
用户历次使用时的复读语音数据的声纹信息,或者根据用户首次使用时提示用户录入声纹信息,用户数据库将这些声纹信息保存并与对应的用户的账户信息关联。因此,在后续使用的过程中根据所述声纹信息,在用户数据库中搜寻到该用户的账户信息。
除了声纹信息之外,还可以通过指纹、虹膜识别的方式关联用户的账户信息。但是结合本实施例的使用场景,根据声纹信息关联用户的账户信息的技术方案,简便快捷还可以节省硬件成本。
当所述用户未设立账户时,根据所述声纹信息,在用户数据库中对应关联该用户的账户信息的步骤之前,还包括:创建并关联该用户的账户信息,在用户数据库录入所述账户信息对应的声纹信息。声纹信息作为用户后续登录、关联相关记录、调用相关数据等操作的密钥。除此之外,用户可以在后续使用的过程中,通过采集复读语音数据等方式,将声纹信息关联到对应的账户信息中。上述方案可以适用于用户是首次使用或者账户信息已经被注销时的情况。
请参考图4,图4示出本发明的根据环境音频执行不同操作的方法流程图。为了更好地分析复读语音数据,本实施例提供一种提示用户更换环境或进行底波滤噪的方案。所述语音卡的语音数据处理方法,包括:
步骤S41:向用户发出提示信息,并获取用户依据所述提示信息复读的音频数据,所述音频数据包括用户的原始语音和当前的环境音频。
仍以用户A为例,向用户A展示提示信息,提示用户A复读词汇“太阳”。获取用户A的音频数据,其中包括用户A所在的环境音频和用户复读的“太阳”的原始语音。上述的环境音频中包括环境噪声、采集设备底噪等等噪声。
步骤S42:根据所述提示信息将原始语音和环境音频分离。
根据提示信息,可以将用户复读的原始语音,从音频数据中通过音轨分离的方式分离。通过提示信息,可以将突发的、非周期性、非恒常的环境音频分离。
步骤S43:判断原始语音与环境音频的分贝差值是否大于噪声阈值。
原始语音的分贝值与环境音频的分贝值之间的差值反映原始语音被环境音频干扰的程度。当原始语音的分贝值比较大,而环境音频的分贝值比较小时,说明原始语音被环境音频干扰的程度较小。其中的噪声阈值指示前述干扰程度的界限,因为如果原始语音被环境音频严重干扰时,很难通过底噪滤波或者音轨分离等方式获得可用的原始语音,后续也会严重影响识别。
步骤S44:若否,向用户推送更换语音数据处理场地的信息。
当所述原始语音与环境音频的分贝差值小于噪声阈值时,向用户推送更换语音数据处理场地的信息。在本实施例中,可以通过语音卡110或者其他用户终端,向用户推送或展示更换环境的信息。在更换语音数据处理场地后还可以重复再检测用户的原始语音与新环境的环境音频的分贝值与噪声阈值是否符合上述判断的要求。
步骤S45:若是,对音频数据根据环境音频进行底噪滤波,得到复读语音数据。
当所述原始语音与环境音频的分贝差值大于噪声阈值时,对音频数据根据环境音频进行底噪滤波,得到复读语音数据。由于原始语音可通过提示信息识别和分离,更进一步地可以直接对音频数据中的原始语音进行底噪滤波,得到滤波效果更好的复读语音数据,便于后续分析。
通过本实施例的该方案可以适用于净化突发的、非周期性、非恒常的环境噪声,获得清晰的复读语音数据。
请参考图5,图5示出本发明根据不同语音处理模式以不同拆分方式分析的流程图。用户可以个性化选择相应的语音处理模式,不同的语音处理模式关联不同的分析方式。所述语音卡的语音数据处理方法,包括:
步骤S51:获取语音卡当前的语音处理模式,对复读语音数据根据语音处理模式的基本划分单元和基本划分单元的间隔进行拆分;所述基本划分单元包括单字单元、单词单元或单句单元。
语音卡110可以根据用户的账户信息或者根据用户当前的切换选择、语言等因素,采用不同的语音处理模式。其中,语音处理模式可以包括单字处理模式、单词处理模式或者整句处理模式。
以用户的账户信息为例,用户A的年龄和学段符合单字处理模式、单词处理模式,此时可以切换至单字处理模式、单词处理模式,而不能切换至整句处理模式。
其中,基本划分单元是指以单字、单词、单句等为单位作为分析过程中的最小基本单元。前述基本划分单元在不同语速下的时间间隔作为基本划分单元的间隔。基本划分单元的间隔除了与现实语速相关,还与账户信息中的年龄、性别、学段、地区等因素相关。
步骤S52:对拆分后的复读语音数据根据基本划分单元依次分析,得到特征信息。
在复读语音数据的拆分过程中,根据基本划分单元及其间隔时间,能准确将复读语音数据隔断为最小的分析单元,精细化分析。
结合具体的应用场景为例,仍以用户A为例。用户A目前选择单词分析的语音处理模式,获取用户A复读语音数据为“太阳当空照,花儿对我笑”,根据以单词的语音处理模式,将其分解为“太阳”、“当空”、“照”、“花儿”、“对”、“我”、“笑”。针对整句话,除了字词的发音准确之外,还需要分析字词之间连接的变音、轻重读变化等特征信息。因此在前述的单词分析的语音处理模式中,得到的特征信息包括用户的字词发音特征、字词连读发音特征、音调变化特征、语气变化特征。
通过不同用户、不同场景等因素切换的语音处理模式,能够更准确、更有针对性地分析用户的复读语音数据,以便于提升后续输出的对比结果的准确性。
为了多用户横向对比语音处理得到的对比结果,本实施例还提供一种多用户横向对比的技术方案,请参考图6,图6示出本发明根据多个账户的评分值进行排序并输出的方法流程图。当所述比对结果量化为评分值时,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,所述的语音卡的语音数据处理方法还包括:
步骤S61:通过用户数据库中获取多个账户信息,获取多个不同用户公开展示的评分值。
在用户数据库中获取多个账户对应的评分值。在获取之前对应用户已经授权可以展示、比对、排行等处理。评分值可以是针对相同或者相似主题的提示信息,便于进行横向比较。除此之外,评分值还可以来自与当前用户同一地区的其他账户信息中记录的评分值。
步骤S62:根据所述评分值进行排序,得到各个用户的排名信息,进行输出。
得到上述排名信息后可以对当前用户进行推送,激励用户继续提升。
除此之外,当所述比对结果是评分值时,为了更直观展示用户的评分值,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,所述语音卡的语音数据处理方法包括:根据所述复读语音数据的特征信息和所述个性化标准语音数据,生成可视化图像和评分值,同步展示所述可视化图像和评分值。
在上述过程中,根据用户的复读语音数据的特征信息和用户的账户信息保存的个性化标准语音数据,生成对比图。对比图可以是便于用户直观观察的可视化的图像,其中的可视化图像可以设定展示形式展示上述的特征信息和个性化标准语音数据的标准特征信息。其中的展示形式包括:声波图、直方图或折线图的图形形式展示。除了可以采用可视化图像的形式,展示所述特征信息和标准特征信息,还可以采用面部三维结构光采集的用户的面部信息,模拟再现个性化标准语音数据的标准特征信息,用户根据模拟的面部图像,可以根据用户的面部特点和个性化标准语音的标准特征信息,更直观高效地模仿。
本发明提供的方案,通过向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。本发明的技术方案能根据不同用户的复读语音数据分别识别,匹配对应的账户信息,并且根据对应账户保存的个性化标准语音数据进行分析,更有针对性。本发明的技术方案分析效果好,用户数据存储在独立的账户信息中,不易混淆。
请参考图7,图7示出本发明一个实施例的语音卡的语音数据处理方法的装置的框图。本实施例提供一种语音数据处理装置,包括:
获取单元71,用于向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
分析单元72,用于对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
查找单元73,用于根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
对比单元74,用于将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。
本实施例还提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述的语音卡的语音数据处理方法。
本实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一实施例的语音卡的语音数据处理方法。
为了更好解释本发明,本发明实施例还提供了终端设备,如图8所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图8示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity,WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路810可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器880处理;另外,将设计上行的数据发送给基站。通常,RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器820可用于存储软件程序以及模块,处理器880通过运行存储在存储器820的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元830可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触控面板831以及其他输入设备832。触控面板831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器880,并能接收处理器880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831,输入单元830还可以包括其他输入设备832。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板841。进一步的,触控面板831可覆盖显示面板841,当触控面板831检测到在其上或附近的触摸操作后,传送给处理器880以确定触摸事件的类型,随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中,触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板841的亮度,接近传感器可在手机移动到耳边时,关闭显示面板841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路860、扬声器861,传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器880处理后,经RF电路810以发送给比如另一手机,或者将音频数据输出至存储器820以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器880是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器880可包括一个或多个处理单元;优选的,处理器880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器880中。
手机还包括给各个部件供电的电源890(比如电池),优选的,电源可以通过电源管理***与处理器880逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。在本发明实施例中,该终端所包括的处理器880还具有以下功能:
向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种用户的终端设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音卡的语音数据处理方法,其特征在于,包括:
向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。
2.根据权利要求1所述的语音卡的语音数据处理方法,其特征在于,对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息的步骤,包括:
对所述复读语音数据进行分析,得到用户的声纹信息;
根据所述声纹信息,在用户数据库中对应关联该用户的账户信息。
3.根据权利要求2所述的语音卡的语音数据处理方法,其特征在于,当所述用户未设立账户时,根据所述声纹信息,在用户数据库中对应关联该用户的账户信息的步骤之前,还包括:创建并关联该用户的账户信息,在用户数据库录入所述账户信息对应的声纹信息。
4.根据权利要求1所述的语音卡的语音数据处理方法,其特征在于,向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据的步骤,包括:
向用户发出提示信息,并获取用户依据所述提示信息复读的音频数据,所述音频数据包括用户的原始语音和当前的环境音频;
根据所述提示信息将原始语音和环境音频分离;
当所述原始语音与环境音频的分贝差值小于噪声阈值时,向用户推送更换语音数据处理场地的信息;
当所述原始语音与环境音频的分贝差值大于噪声阈值时,对音频数据根据环境音频进行底噪滤波,得到复读语音数据。
5.根据权利要求1所述的语音卡的语音数据处理方法,其特征在于,对所述复读语音数据进行分析获取特征信息的步骤,包括:
获取语音卡当前的语音处理模式,对复读语音数据根据语音处理模式的基本划分单元和基本划分单元的间隔进行拆分;所述基本划分单元包括单字单元、单词单元或单句单元;
对拆分后的复读语音数据根据基本划分单元依次分析,得到特征信息。
6.根据权利要求1所述的语音卡的语音数据处理方法,其特征在于,当所述比对结果是评分值时,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,还包括:
通过用户数据库中获取多个账户信息,获取多个不同用户公开展示的评分值;
根据所述评分值进行排序,得到各个用户的排名信息,进行输出。
7.根据权利要求1所述的语音卡的语音数据处理方法,其特征在于,当所述比对结果是评分值时,将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果的步骤之后,包括:根据所述复读语音数据的特征信息和所述个性化标准语音数据,生成可视化图像和评分值,同步展示所述可视化图像和评分值。
8.根据权利要求7所述的语音卡的语音数据处理方法,其特征在于,所述可视化图像以设定展示形式展示特征信息和标准特征信息;
所述展示形式包括:声波图、直方图或折线图的图形形式展示。
9.一种语音卡的语音数据处理装置,其特征在于,包括:
获取单元,用于向用户发出提示信息,并获取用户依据所述提示信息复读的复读语音数据;
分析单元,用于对所述复读语音数据进行分析获取特征信息,根据所述特征信息从已关联的用户数据库中查找该用户对应关联的账户信息;
查找单元,用于根据所述账户信息查找出所述用户对应保存的个性化标准语音数据;
对比单元,用于将所述复读语音数据与所述个性化标准语音数据进行比对,输出所述比对结果。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的语音卡的语音数据处理方法。
CN201811518652.9A 2018-12-12 2018-12-12 语音卡的语音数据处理方法和装置 Pending CN109637543A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811518652.9A CN109637543A (zh) 2018-12-12 2018-12-12 语音卡的语音数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811518652.9A CN109637543A (zh) 2018-12-12 2018-12-12 语音卡的语音数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN109637543A true CN109637543A (zh) 2019-04-16

Family

ID=66073111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811518652.9A Pending CN109637543A (zh) 2018-12-12 2018-12-12 语音卡的语音数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN109637543A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334260A (zh) * 2019-06-03 2019-10-15 平安科技(深圳)有限公司 数据分析方法、装置、计算机设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1101446A (zh) * 1993-01-21 1995-04-12 Dsp飒露神思国际公司 语音教学计算机化***
TW200905491A (en) * 2007-07-31 2009-02-01 Inventec Besta Co Ltd Real-time ranking system for network singing and method thereof
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102253976A (zh) * 2011-06-17 2011-11-23 苏州思必驰信息科技有限公司 一种用于口语学习的元数据处理方法和***
CN103247197A (zh) * 2013-03-29 2013-08-14 上海众实科技发展有限公司 一种基于声纹识别的用户在线学习监测方法
CN103413550A (zh) * 2013-08-30 2013-11-27 苏州跨界软件科技有限公司 一种人机交互式语言学习***和方法
US20150325240A1 (en) * 2014-05-06 2015-11-12 Alibaba Group Holding Limited Method and system for speech input
CN105551328A (zh) * 2016-01-28 2016-05-04 北京聚力互信教育科技有限公司 基于移动交互和大数据分析的语言教学辅研同步集成***
CN105609098A (zh) * 2015-12-18 2016-05-25 江苏易乐网络科技有限公司 一种基于互联网的在线学习***
CN106504755A (zh) * 2016-11-08 2017-03-15 广东小天才科技有限公司 一种错误发音的识别方法及装置、用户终端
CN107203539A (zh) * 2016-03-17 2017-09-26 曾雅梅 复数字词学习机的语音评测装置及其评测与连续语音图像化方法
CN107801038A (zh) * 2017-10-31 2018-03-13 灏瑰浆 一种英语远程教育及测试***及方法
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置
CN108376545A (zh) * 2018-03-15 2018-08-07 广东小天才科技有限公司 一种儿童发声练习的评分控制方法及装置
CN108766415A (zh) * 2018-05-22 2018-11-06 清华大学 一种语音测评方法
CN108961856A (zh) * 2018-07-19 2018-12-07 深圳乐几科技有限公司 口语学习方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1101446A (zh) * 1993-01-21 1995-04-12 Dsp飒露神思国际公司 语音教学计算机化***
TW200905491A (en) * 2007-07-31 2009-02-01 Inventec Besta Co Ltd Real-time ranking system for network singing and method thereof
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN102253976A (zh) * 2011-06-17 2011-11-23 苏州思必驰信息科技有限公司 一种用于口语学习的元数据处理方法和***
CN103247197A (zh) * 2013-03-29 2013-08-14 上海众实科技发展有限公司 一种基于声纹识别的用户在线学习监测方法
CN103413550A (zh) * 2013-08-30 2013-11-27 苏州跨界软件科技有限公司 一种人机交互式语言学习***和方法
US20150325240A1 (en) * 2014-05-06 2015-11-12 Alibaba Group Holding Limited Method and system for speech input
CN105609098A (zh) * 2015-12-18 2016-05-25 江苏易乐网络科技有限公司 一种基于互联网的在线学习***
CN105551328A (zh) * 2016-01-28 2016-05-04 北京聚力互信教育科技有限公司 基于移动交互和大数据分析的语言教学辅研同步集成***
CN107203539A (zh) * 2016-03-17 2017-09-26 曾雅梅 复数字词学习机的语音评测装置及其评测与连续语音图像化方法
CN106504755A (zh) * 2016-11-08 2017-03-15 广东小天才科技有限公司 一种错误发音的识别方法及装置、用户终端
CN107801038A (zh) * 2017-10-31 2018-03-13 灏瑰浆 一种英语远程教育及测试***及方法
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置
CN108376545A (zh) * 2018-03-15 2018-08-07 广东小天才科技有限公司 一种儿童发声练习的评分控制方法及装置
CN108766415A (zh) * 2018-05-22 2018-11-06 清华大学 一种语音测评方法
CN108961856A (zh) * 2018-07-19 2018-12-07 深圳乐几科技有限公司 口语学习方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334260A (zh) * 2019-06-03 2019-10-15 平安科技(深圳)有限公司 数据分析方法、装置、计算机设备及存储介质
CN110334260B (zh) * 2019-06-03 2024-05-07 平安科技(深圳)有限公司 数据分析方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN107943860B (zh) 模型的训练方法、文本意图的识别方法及装置
US11435980B2 (en) System for processing user utterance and controlling method thereof
CN109063583A (zh) 一种基于点读操作的学习方法及电子设备
CN109783798A (zh) 文本信息添加图片的方法、装置、终端及存储介质
CN107992587A (zh) 一种浏览器的语音交互方法、装置、终端和存储介质
CN109102802A (zh) 用于处理用户话语的***
US20140324426A1 (en) Reminder setting method and apparatus
US9557903B2 (en) Method for providing user interface on terminal
WO2016137797A1 (en) Empathetic user interface, systems, and methods for interfacing with empathetic computing device
CN106104528A (zh) 用于屏幕上项目选择和消歧的基于模型的方法
CN108735216A (zh) 一种基于语义识别的语音搜题方法及家教设备
CN108733800A (zh) 一种全局搜索方法、终端及计算机可读存储介质
KR20150090966A (ko) 전자 장치 및 전자 장치의 검색 결과 제공 방법
CN108492836A (zh) 一种基于语音的搜索方法、移动终端及存储介质
CN104464720A (zh) 以语音识别来选择控制客体的装置及方法
CN109903773A (zh) 音频处理方法、装置及存储介质
CN109189258A (zh) 记录笔记的方法及装置
KR20180113075A (ko) 프레임워크를 이용한 자연어 표현 생성 방법 및 장치
CN109756770A (zh) 视频播放过程实现单词或语句复读的方法及电子设备
CN110462647A (zh) 电子设备及执行电子设备的功能的方法
CN109815363A (zh) 歌词内容的生成方法、装置、终端及存储介质
CN108763552A (zh) 一种基于家教机的学习方法及家教机
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN109616135A (zh) 音频处理方法、装置及存储介质
CN108694947A (zh) 语音控制方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination