CN117313723A - 一种基于大数据的语义分析方法、***和存储介质 - Google Patents

一种基于大数据的语义分析方法、***和存储介质 Download PDF

Info

Publication number
CN117313723A
CN117313723A CN202311602310.6A CN202311602310A CN117313723A CN 117313723 A CN117313723 A CN 117313723A CN 202311602310 A CN202311602310 A CN 202311602310A CN 117313723 A CN117313723 A CN 117313723A
Authority
CN
China
Prior art keywords
scene
semantic
historical
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311602310.6A
Other languages
English (en)
Other versions
CN117313723B (zh
Inventor
陈茂强
赵汝强
朱栩
张志青
汤湛成
刘杰
唐庆宁
陈铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunqu Information Technology Co ltd
Original Assignee
Guangzhou Yunqu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunqu Information Technology Co ltd filed Critical Guangzhou Yunqu Information Technology Co ltd
Priority to CN202311602310.6A priority Critical patent/CN117313723B/zh
Publication of CN117313723A publication Critical patent/CN117313723A/zh
Application granted granted Critical
Publication of CN117313723B publication Critical patent/CN117313723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种基于大数据的语义分析方法、***和存储介质。该方法包括:对用户场景的语音片段解析获得词义集,并对语音数据信息处理获得补偿系数和辨识度指数,根据模型对词义集解析并与实际语义对比获得差异度指数,再将指数以及补偿系数和干扰因子处理获得语义辨识成效数据,再与历史样本均指数进行阈值对比,若不满足则获取优化样本对模型进行优化训练,并获得训练模型处理后的优化结果;从而基于大数据对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本进行模型优化训练,实现对语义的优化分析和辨识效果的检验,提高用户场景化下的语义分析的准确率。

Description

一种基于大数据的语义分析方法、***和存储介质
技术领域
本申请涉及大数据及语音技术领域,具体而言,涉及一种基于大数据的语义分析方法、***和存储介质。
背景技术
语音语义的识别目前应用广泛,应用人工智能技术对语音进行识别的技术已应用于各领域,而语义识别的难题在于识别用户个性化的语言表述习惯和语言用语,特别对于语义中专业、方言、发音的差异性的识别,以及对不同类别用户在不同场景下的语音语义的辨识,是影响语音识别的关键要素,而由于上述用户和场景要素条件的差异性导致对语音语义的分析识别的精准度和效果造成技术难点,目前缺少可对类别用户在差异场景下的语音信息进行词义分析和语义辨识的有效处理以保证对用户语义辨析的准确性的技术。
针对上述问题,目前亟待有效的技术解决方案。
发明内容
本申请实施例的目的在于提供一种基于大数据的语义分析方法、***和存储介质,可以基于大数据对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本的信息数据对语义解析模型进行再优化训练,实现对语义的优化分析和辨识效果的检验,提高用户场景化下的语义分析的准确率。
本申请实施例还提供了一种基于大数据的语义分析方法,包括以下步骤:
获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息,包括:
获取目标用户的属性特征信息,包括属地标识信息、身份职业标识信息和征信历史记录信息;
采集所述目标用户在各个场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息;
所述语音特征信息包括音色音调信息和语态情绪表述信息;
获取语音记录场景的场景特征信息,包括场景类别信息、场景嘈杂度信息和场景音效信息。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息,包括:
根据所述属性特征信息获取对应类型的预设语音词义识别模型;
根据预设语音词义解析模型对各场景中的所述语音记录片段集进行解析处理,获取场景的语音词义集;
根据所述语音词义集提取语音词义特性信息,包括关键词词义信息、个性方言词词义信息以及情态连贯词词义信息。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数,包括:
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得所述目标用户在所述场景的场景语义解析度补偿系数;
根据所述场景的所述语音词义特性信息提取语音词义特征数据,包括关键词频次分布数据、个性方言词分布数据以及情态连贯词分布数据;
根据所述语音词义特征数据结合所述场景语义解析度补偿系数进行处理获得场景词义辨识度指数。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数,包括:
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理,获得场景辨音干扰因子;
根据所述场景的个性方言词词义信息和场景类别信息获取对应类别的预设语义表述解析模型;
根据预设语义表述解析模型对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息;
根据所述场景语义表述信息与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,包括:
根据所述场景的场景语义解析度补偿系数和场景辨音干扰因子对所述目标用户的所述场景词义辨识度指数与场景语义识别差异度指数进行加权处理,获得所述场景的场景语义辨识成效数据;
所述场景语义辨识成效数据的计算公式为:
其中,为场景语义辨识成效数据,/>为场景语义识别差异度指数,/>为场景词义辨识度指数,/>为场景辨音干扰因子,/>为场景语义解析度补偿系数,/>、/>为预设特征系数。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数,包括:
获取各类别属性特征用户在各历史场景中的历史语音词义集、历史场景语义表述信息以及对应历史词义辨识度指数、历史语义识别差异度指数和历史语义辨识成效数据,并集合成历史场景语义辨识样本;
将所述各类别属性特征用户的各历史场景的历史场景语义辨识样本进行集合为场景语义辨识数据库;
根据场景语义辨识数据库查询获取与所述目标用户的同类别属性历史用户在相同单个历史场景中的多个同属历史场景语义辨识样本;
对所述多个同属历史场景语义辨识样本进行均值处理获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
可选地,在本申请实施例所述的基于大数据的语义分析方法中,所述根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估,包括:
根据所述目标用户的场景语义辨识成效数据与所述历史语义辨识成效平均数据通过预设阈值对比方法进行阈值对比处理,获得成效阈值对比结果;
若成效阈值对比结果不满足预设阈值对比要求,则提取所述多个同属历史场景语义辨识样本中所述历史词义辨识度指数和历史语义识别差异度指数均对应大于所述历史词义辨识度均指数和历史语义识别差异度均指数的多个目标同属历史语义辨识样本,并标记为同属历史语义辨识优化样本;
根据各同属历史语义辨识优化样本的对应多个历史语音词义集和多个历史场景语义表述信息对所述目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型;
根据所述语义表述解析优化模型对所述目标用户的所述语音词义集进行更新处理,并获得更新后场景语义表述信息以及优化后场景语义辨识成效数据,并对优化后的语义辨识效果进行评估。
第二方面,本申请实施例提供了一种基于大数据的语义分析***,该***包括:存储器及处理器,所述存储器中包括基于大数据的语义分析方法的程序,所述基于大数据的语义分析方法的程序被所述处理器执行时实现以下步骤:
获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括基于大数据的语义分析方法程序,所述基于大数据的语义分析方法程序被处理器执行时,实现如上述任一项所述的基于大数据的语义分析方法的步骤。
由上可知,本申请实施例提供的一种基于大数据的语义分析方法、***和存储介质,根据用户的属性特征信息获取词义识别模型对语音片段进行解析获得词义集,并提取词义特征信息,并结合语音特征信息获得补偿系数,同时对语音词义特征数据处理获得辨识度指数,再根据语音场景的场景特征信息处理获得干扰因子,根据模型对词义集解析获得语义表述信息,再通过与实际语义信息进行对比获得语义识别差异度指数,再将差异度指数集合辨识度指数以及补偿系数和干扰因子处理获得对语音片段处理成效评估的语义辨识成效数据,再与数据库中获取的同类用户同场景的历史样本均指数进行阈值对比,若不满足则获取超出均值的优化样本的词义集和信息对模型进行优化训练,并获得训练模型处理后的优化结果再评估;从而基于大数据对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本的信息数据对语义解析模型进行再优化训练,实现对语义的优化分析和辨识效果的检验,提高用户场景化下的语义分析的准确率。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的基于大数据的语义分析方法的流程图;
图2为本申请实施例提供的基于大数据的语义分析方法的获取属性特征信息、语音特征信息以及场景特征信息的流程图;
图3为本申请实施例提供的基于大数据的语义分析方法的获取语音词义特性信息的流程图;
图4为本申请实施例提供的基于大数据的语义分析方法的获得场景词义辨识度指数的流程图;
图5为本申请实施例提供的基于大数据的语义分析方法的获得场景语义识别差异度指数的流程图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的基于大数据的语义分析方法的流程图。该基于大数据的语义分析方法用于终端设备中,例如电脑、手机终端等。该基于大数据的语义分析方法,包括以下步骤:
S11、获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
S12、根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
S13、根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
S14、根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
S15、根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
S16、获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
S17、根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
其中,对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本的信息数据对语义解析模型进行再优化训练,实现对语义的优化分析和辨识效果的检验,通过获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,其中包括多个片段,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,并获取场景的场景特征信息,根据属性特征信息获取与用户属性类别对应类型的预设语音词义识别模型再对场景中的语音记录片段集进行解析处理获取语音词义集,即通过模型对语音片段进行解析获取提取词的信息,根据语音词义集提取语音词义特性信息,同时由于不同用户语音表述和词义表达的差异性会造成语义词义解析的误差,为更精准的校正补偿对语音词义识别的效果,通过预设语义解析度检验模型处理获得场景语义解析度补偿系数,并根据提取词义的语音词义特性信息提取语音词义特征数据再处理获得场景词义辨识度指数,即反映对场景下语音词义辨识度情况的成效指数,再根据场景特征信息通过预设场景语音干扰测评模型对用户语音辨识受到场景的干扰情况进行处理获得因子,再根据语音词义特性信息和场景特征信息获取的预设语义表述解析模型并对语音词义集进行解析处理,获得场景语义表述信息,即通过对应模型对语音词义集进行解析,实现词义到语义的辨析解读,再将获得的语义结果与用户在场景中的实际语义表达信息进行信息差异度处理获得场景语义识别差异度指数,即通过解析识别的语义与最后实际表述的用户语义进行差异度对比,以反映语义辨析与实际表达之间的差别,再对语义辨识的成效根据场景词义辨识度指数与场景语义识别差异度指数结合场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,即对用户场景下的语义解析识别的成效结果,为检验语义分析成效,通过语义数据库提取与用户场景同类同属的历史样本的历史成效平均指数,再通过历史成效平均指数对该用户场景下的场景语义辨识成效数据进行阈值对比处理获得结果,若结果不满足预设要求则表明对用户场景下的语义分析识别未到达预设效果,则提取多个历史样本中的优化样本,根据优化样本的多个历史语音词义集和历史场景语义表述信息对该用户的语义表述解析模型进行优化训练,并根据优化训练后的模型再对语音词义集进行更新处理获得优化后的语义辨识结果,即通过历史样本的优质样本数据对语义解析模型进行训练提升,以进一步提升语义分析辨识的效果,提高用户场景化下的语义分析成效。
请参照图2,图2是本申请一些实施例中的基于大数据的语义分析方法的获取属性特征信息、语音特征信息以及场景特征信息的流程图。根据本发明实施例,所述获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息,具体为:
S21、获取目标用户的属性特征信息,包括属地标识信息、身份职业标识信息和征信历史记录信息;
S22、采集所述目标用户在各个场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息;
S23、所述语音特征信息包括音色音调信息和语态情绪表述信息;
S24、获取语音记录场景的场景特征信息,包括场景类别信息、场景嘈杂度信息和场景音效信息。
其中,为精确的辨识分析用户在不同场景下的语义,需对用户情况类别以及场景类型进行明确,以选择适配的语义处理模型,目标用户的属性特征信息包括反映用户户籍方言的属地标识、身份和职业标识和征信历史记录的信息,根据用户方言、身份、职业和信誉可反映出用户语音表述的情况,再采集目标用户在各个不同场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,即对语音片段进行特征识别处理,以获得用户语音的特点情况,包括音色音调和语态、情绪表述,并获取语音记录所在场景的场景特征信息包括场景类别如空旷度、开放式情况,场景嘈杂度以及场景音效的信息,由于不同场景如安静的密闭空间、半开放式的讲堂或者露天开放的市场等对语音识别的干扰不同,因此需对场景情况进行获取。
请参照图3,图3是本申请一些实施例中的基于大数据的语义分析方法的获取语音词义特性信息的流程图。根据本发明实施例,所述根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息,具体为:
S31、根据所述属性特征信息获取对应类型的预设语音词义识别模型;
S32、根据预设语音词义解析模型对各场景中的所述语音记录片段集进行解析处理,获取场景的语音词义集;
S33、根据所述语音词义集提取语音词义特性信息,包括关键词词义信息、个性方言词词义信息以及情态连贯词词义信息。
其中,为获得与用户语音表述特点相适配的语音片段解析模型,根据属性特征信息获取对应类型的预设语音词义识别模型,该词义识别模型是通过第三方语义解析数据库平台进行获取的类别语音词义识别模型,通过对应适配的模型对语音记录片段进行解析获得辨识到的语音片段中的词义集,并提取词义特性信息,包括关键词词义、个性化表述词义、方言词义以及情态用语的连贯词词义,通过得到的语音片段的各类词义信息,可接下来进一步进行语义的辨析,通过各类词义信息获取语义含义。
请参照图4,图4是本申请一些实施例中的基于大数据的语义分析方法的获得场景词义辨识度指数的流程图。根据本发明实施例,所述根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数,具体为:
S41、根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得所述目标用户在所述场景的场景语义解析度补偿系数;
S42、根据所述场景的所述语音词义特性信息提取语音词义特征数据,包括关键词频次分布数据、个性方言词分布数据以及情态连贯词分布数据;
S43、根据所述语音词义特征数据结合所述场景语义解析度补偿系数进行处理获得场景词义辨识度指数。
其中,由于不同用户的语音、口语、发音以及表述时的情态情绪的差异,导致对语义的解析准确度、辨识难以度造成影响,因而需对用户个性化语言的语义解析度的有效性进行补偿,根据用户的语音特征信息和语音词义特性信息通过预设的语义解析度检验模型进行计算处理获得补偿系数,该系数对评估语义解析效果具有补偿作用,同时由于解析出的词义的排列分布差异也导致影响词义辨识度效果,因此需根据提取的语音词义特征数据包括关键词出现频次和分布、个性词方言词的分布以及情态词连贯词的分布的数据结合补偿系数进行计算获得场景词义辨识度指数,即对词义辨识成效的评估指数,其中,场景语义解析度补偿系数的计算公式为:
所述场景词义辨识度指数的计算公式为:
其中,为场景词义辨识度指数,/>为场景语义解析度补偿系数,/>、/>分别为音色音调信息、语态情绪表述信息,/>、/>、/>分别为关键词词义信息、个性方言词词义信息、情态连贯词词义信息,/>、/>、/>分别为关键词频次分布数据、个性方言词分布数据、情态连贯词分布数据,/>为属性用户语义识别因子,/>、/>、/>为预设特征系数(属性用户语义识别因子和特征系数通过预设语义解析数据库平台查询获得)。
请参照图5,图5是本申请一些实施例中的基于大数据的语义分析方法的获得场景语义识别差异度指数的流程图。根据本发明实施例,所述根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数,具体为:
S51、根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理,获得场景辨音干扰因子;
S52、根据所述场景的个性方言词词义信息和场景类别信息获取对应类别的预设语义表述解析模型;
S53、根据预设语义表述解析模型对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息;
S54、根据所述场景语义表述信息与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数。
其中,由于用户语音表述的场景对语音的辨音识别分析存在干扰作用,因此需对场景特征对语音辨识度的干扰因素进行评估,根据场景特征信息通过第三方平台获取的预设干扰测评模型进行计算评估获得干扰因子,再根据获得的用户个性方言词义信息和场景类别信息选择对应类别的语义表述解析模型对语音词义集进行语义解析,获得语义表述信息,即用户语音的表达语义的分析辨识结果,为检验获得辨析的语义表述的准确性,根据用户实际语义表达含义的信息与得到的语义表述信息进行差异度计算,获得语义识别的差异度数据结果,即获得对语义分析辨识结果的真实偏差度的判断结果,其中,场景辨音干扰因子的计算公式为:
其中,为场景辨音干扰因子,/>、/>、/>分别为场景类别信息、场景嘈杂度信息、场景音效信息,/>为场景辩音补偿系数,/>为预设特征系数;
所述场景语义识别差异度指数的计算公式为:
其中,为场景语义识别差异度指数,/>为场景语义表述信息,/>为实际语义表达信息,/>为场景辨音干扰因子,/>、/>为预设特征系数(场景辩音补偿系数和特征系数通过预设语义解析数据库平台查询获得)。
根据本发明实施例,所述根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,具体为:
根据所述场景的场景语义解析度补偿系数和场景辨音干扰因子对所述目标用户的所述场景词义辨识度指数与场景语义识别差异度指数进行加权处理,获得所述场景的场景语义辨识成效数据;
所述场景语义辨识成效数据的计算公式为:
其中,为场景语义辨识成效数据,/>为场景语义识别差异度指数,/>为场景词义辨识度指数,/>为场景辨音干扰因子,/>为场景语义解析度补偿系数,/>、/>为预设特征系数(特征系数通过预设语义解析数据库平台查询获得)。
其中,由于用户个性化语言的语义解析度有效性和语音表述所在场景情况对词义辨识和语义分析的效果准确度具有补偿和干扰作用,因此,为提高语义识别差异度的精准度,需根据场景语义解析度补偿系数和场景辨音干扰因子对场景词义辨识度指数与场景语义识别差异度指数进行加权计算,获得修正后的场景语义辨识成效数据。
根据本发明实施例,所述获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数,具体为:
获取各类别属性特征用户在各历史场景中的历史语音词义集、历史场景语义表述信息以及对应历史词义辨识度指数、历史语义识别差异度指数和历史语义辨识成效数据,并集合成历史场景语义辨识样本;
将所述各类别属性特征用户的各历史场景的历史场景语义辨识样本进行集合为场景语义辨识数据库;
根据场景语义辨识数据库查询获取与所述目标用户的同类别属性历史用户在相同单个历史场景中的多个同属历史场景语义辨识样本;
对所述多个同属历史场景语义辨识样本进行均值处理获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
其中,为检验用户语义辨识成效结果的准确性和有效性,通过各类历史样本集合成的场景语义辨识数据库中的同类用户同属场景的历史样本,对获得的目标用户的语义辨识成效数据进行检验判定,对多个同属历史样本的指数数据进行均值化处理,获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
根据本发明实施例,所述根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估,具体为:
根据所述目标用户的场景语义辨识成效数据与所述历史语义辨识成效平均数据通过预设阈值对比方法进行阈值对比处理,获得成效阈值对比结果;
若成效阈值对比结果不满足预设阈值对比要求,则提取所述多个同属历史场景语义辨识样本中所述历史词义辨识度指数和历史语义识别差异度指数均对应大于所述历史词义辨识度均指数和历史语义识别差异度均指数的多个目标同属历史语义辨识样本,并标记为同属历史语义辨识优化样本;
根据各同属历史语义辨识优化样本的对应多个历史语音词义集和多个历史场景语义表述信息对所述目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型;
根据所述语义表述解析优化模型对所述目标用户的所述语音词义集进行更新处理,并获得更新后场景语义表述信息以及优化后场景语义辨识成效数据,并对优化后的语义辨识效果进行评估。
其中,再通过数据库得到的历史样本的均值化数据与目标用户的成效数据通过阈值对比方法进行阈值对比,并根据阈值对比结果判断得到的成效数据是否通过检验,若阈值对比未通过,则表明对目标用户的语音语义辨识结果不符合要求,需重新获取精准的目标用户语义分析结果,则根据同属历史样本中的超出均值的筛选过的多个优化样本,提取各优化样本的历史语音词义集和历史场景语义表述信息对目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型,即通过历史优化样本的海量样本数据对语义解析模型进行训练优化,使模型处理精度提升,并重新获取更新后模型训练得到的语义辨识成效数据,再进一步评估其优化训练处理后的语义分析识别效果,其中,成效阈值对比结果的预设阈值对比方法为:
;/>
其中,为成效阈值对比结果,/>为场景语义辨识成效数据,/>为历史语义辨识成效平均数据,/>为预设特征系数(特征系数通过应用***用户授权平台数据库查询获得)。
本发明还公开了一种基于大数据的语义分析***,包括存储器和处理器,所述存储器中包括基于大数据的语义分析方法程序,所述基于大数据的语义分析方法程序被所述处理器执行体征异样修正数据时实现如下步骤:
获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
其中,对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本的信息数据对语义解析模型进行再优化训练,实现对语义的优化分析和辨识效果的检验,通过获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,其中包括多个片段,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,并获取场景的场景特征信息,根据属性特征信息获取与用户属性类别对应类型的预设语音词义识别模型再对场景中的语音记录片段集进行解析处理获取语音词义集,即通过模型对语音片段进行解析获取提取词的信息,根据语音词义集提取语音词义特性信息,同时由于不同用户语音表述和词义表达的差异性会造成语义词义解析的误差,为更精准的校正补偿对语音词义识别的效果,通过预设语义解析度检验模型处理获得场景语义解析度补偿系数,并根据提取词义的语音词义特性信息提取语音词义特征数据再处理获得场景词义辨识度指数,即反映对场景下语音词义辨识度情况的成效指数,再根据场景特征信息通过预设场景语音干扰测评模型对用户语音辨识受到场景的干扰情况进行处理获得因子,再根据语音词义特性信息和场景特征信息获取的预设语义表述解析模型并对语音词义集进行解析处理,获得场景语义表述信息,即通过对应模型对语音词义集进行解析,实现词义到语义的辨析解读,再将获得的语义结果与用户在场景中的实际语义表达信息进行信息差异度处理获得场景语义识别差异度指数,即通过解析识别的语义与最后实际表述的用户语义进行差异度对比,以反映语义辨析与实际表达之间的差别,再对语义辨识的成效根据场景词义辨识度指数与场景语义识别差异度指数结合场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,即对用户场景下的语义解析识别的成效结果,为检验语义分析成效,通过语义数据库提取与用户场景同类同属的历史样本的历史成效平均指数,再通过历史成效平均指数对该用户场景下的场景语义辨识成效数据进行阈值对比处理获得结果,若结果不满足预设要求则表明对用户场景下的语义分析识别未到达预设效果,则提取多个历史样本中的优化样本,根据优化样本的多个历史语音词义集和历史场景语义表述信息对该用户的语义表述解析模型进行优化训练,并根据优化训练后的模型再对语音词义集进行更新处理获得优化后的语义辨识结果,即通过历史样本的优质样本数据对语义解析模型进行训练提升,以进一步提升语义分析辨识的效果,提高用户场景化下的语义分析成效。
根据本发明实施例,所述获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息,具体为:
获取目标用户的属性特征信息,包括属地标识信息、身份职业标识信息和征信历史记录信息;
采集所述目标用户在各个场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息;
所述语音特征信息包括音色音调信息和语态情绪表述信息;
获取语音记录场景的场景特征信息,包括场景类别信息、场景嘈杂度信息和场景音效信息。
其中,为精确的辨识分析用户在不同场景下的语义,需对用户情况类别以及场景类型进行明确,以选择适配的语义处理模型,目标用户的属性特征信息包括反映用户户籍方言的属地标识、身份和职业标识和征信历史记录的信息,根据用户方言、身份、职业和信誉可反映出用户语音表述的情况,再采集目标用户在各个不同场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,即对语音片段进行特征识别处理,以获得用户语音的特点情况,包括音色音调和语态、情绪表述,并获取语音记录所在场景的场景特征信息包括场景类别如空旷度、开放式情况,场景嘈杂度以及场景音效的信息,由于不同场景如安静的密闭空间、半开放式的讲堂或者露天开放的市场等对语音识别的干扰不同,因此需对场景情况进行获取。
根据本发明实施例,所述根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息,具体为:
根据所述属性特征信息获取对应类型的预设语音词义识别模型;
根据预设语音词义解析模型对各场景中的所述语音记录片段集进行解析处理,获取场景的语音词义集;
根据所述语音词义集提取语音词义特性信息,包括关键词词义信息、个性方言词词义信息以及情态连贯词词义信息。
其中,为获得与用户语音表述特点相适配的语音片段解析模型,根据属性特征信息获取对应类型的预设语音词义识别模型,该词义识别模型是通过第三方语义解析数据库平台进行获取的类别语音词义识别模型,通过对应适配的模型对语音记录片段进行解析获得辨识到的语音片段中的词义集,并提取词义特性信息,包括关键词词义、个性化表述词义、方言词义以及情态用语的连贯词词义,通过得到的语音片段的各类词义信息,可接下来进一步进行语义的辨析,通过各类词义信息获取语义含义。
根据本发明实施例,所述根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数,具体为:
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得所述目标用户在所述场景的场景语义解析度补偿系数;
根据所述场景的所述语音词义特性信息提取语音词义特征数据,包括关键词频次分布数据、个性方言词分布数据以及情态连贯词分布数据;
根据所述语音词义特征数据结合所述场景语义解析度补偿系数进行处理获得场景词义辨识度指数。
其中,由于不同用户的语音、口语、发音以及表述时的情态情绪的差异,导致对语义的解析准确度、辨识难以度造成影响,因而需对用户个性化语言的语义解析度的有效性进行补偿,根据用户的语音特征信息和语音词义特性信息通过预设的语义解析度检验模型进行计算处理获得补偿系数,该系数对评估语义解析效果具有补偿作用,同时由于解析出的词义的排列分布差异也导致影响词义辨识度效果,因此需根据提取的语音词义特征数据包括关键词出现频次和分布、个性词方言词的分布以及情态词连贯词的分布的数据结合补偿系数进行计算获得场景词义辨识度指数,即对词义辨识成效的评估指数,其中,场景语义解析度补偿系数的计算公式为:
所述场景词义辨识度指数的计算公式为:
其中,为场景词义辨识度指数,/>为场景语义解析度补偿系数,/>、/>分别为音色音调信息、语态情绪表述信息,/>、/>、/>分别为关键词词义信息、个性方言词词义信息、情态连贯词词义信息,/>、/>、/>分别为关键词频次分布数据、个性方言词分布数据、情态连贯词分布数据,/>为属性用户语义识别因子,/>、/>、/>为预设特征系数(属性用户语义识别因子和特征系数通过预设语义解析数据库平台查询获得)。
根据本发明实施例,所述根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数,具体为:
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理,获得场景辨音干扰因子;
根据所述场景的个性方言词词义信息和场景类别信息获取对应类别的预设语义表述解析模型;
根据预设语义表述解析模型对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息;
根据所述场景语义表述信息与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数。
其中,由于用户语音表述的场景对语音的辨音识别分析存在干扰作用,因此需对场景特征对语音辨识度的干扰因素进行评估,根据场景特征信息通过第三方平台获取的预设干扰测评模型进行计算评估获得干扰因子,再根据获得的用户个性方言词义信息和场景类别信息选择对应类别的语义表述解析模型对语音词义集进行语义解析,获得语义表述信息,即用户语音的表达语义的分析辨识结果,为检验获得辨析的语义表述的准确性,根据用户实际语义表达含义的信息与得到的语义表述信息进行差异度计算,获得语义识别的差异度数据结果,即获得对语义分析辨识结果的真实偏差度的判断结果,其中,场景辨音干扰因子的计算公式为:
其中,为场景辨音干扰因子,/>、/>、/>分别为场景类别信息、场景嘈杂度信息、场景音效信息,/>为场景辩音补偿系数,/>为预设特征系数;
所述场景语义识别差异度指数的计算公式为:
其中,为场景语义识别差异度指数,/>为场景语义表述信息,/>为实际语义表达信息,/>为场景辨音干扰因子,/>、/>为预设特征系数(场景辩音补偿系数和特征系数通过预设语义解析数据库平台查询获得)。
根据本发明实施例,所述根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,具体为:
根据所述场景的场景语义解析度补偿系数和场景辨音干扰因子对所述目标用户的所述场景词义辨识度指数与场景语义识别差异度指数进行加权处理,获得所述场景的场景语义辨识成效数据;
所述场景语义辨识成效数据的计算公式为:
其中,为场景语义辨识成效数据,/>为场景语义识别差异度指数,/>为场景词义辨识度指数,/>为场景辨音干扰因子,/>为场景语义解析度补偿系数,/>、/>为预设特征系数(特征系数通过预设语义解析数据库平台查询获得)。
其中,由于用户个性化语言的语义解析度有效性和语音表述所在场景情况对词义辨识和语义分析的效果准确度具有补偿和干扰作用,因此,为提高语义识别差异度的精准度,需根据场景语义解析度补偿系数和场景辨音干扰因子对场景词义辨识度指数与场景语义识别差异度指数进行加权计算,获得修正后的场景语义辨识成效数据。
根据本发明实施例,所述获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数,具体为:
获取各类别属性特征用户在各历史场景中的历史语音词义集、历史场景语义表述信息以及对应历史词义辨识度指数、历史语义识别差异度指数和历史语义辨识成效数据,并集合成历史场景语义辨识样本;
将所述各类别属性特征用户的各历史场景的历史场景语义辨识样本进行集合为场景语义辨识数据库;
根据场景语义辨识数据库查询获取与所述目标用户的同类别属性历史用户在相同单个历史场景中的多个同属历史场景语义辨识样本;
对所述多个同属历史场景语义辨识样本进行均值处理获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
其中,为检验用户语义辨识成效结果的准确性和有效性,通过各类历史样本集合成的场景语义辨识数据库中的同类用户同属场景的历史样本,对获得的目标用户的语义辨识成效数据进行检验判定,对多个同属历史样本的指数数据进行均值化处理,获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
根据本发明实施例,所述根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估,具体为:
根据所述目标用户的场景语义辨识成效数据与所述历史语义辨识成效平均数据通过预设阈值对比方法进行阈值对比处理,获得成效阈值对比结果;
若成效阈值对比结果不满足预设阈值对比要求,则提取所述多个同属历史场景语义辨识样本中所述历史词义辨识度指数和历史语义识别差异度指数均对应大于所述历史词义辨识度均指数和历史语义识别差异度均指数的多个目标同属历史语义辨识样本,并标记为同属历史语义辨识优化样本;
根据各同属历史语义辨识优化样本的对应多个历史语音词义集和多个历史场景语义表述信息对所述目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型;
根据所述语义表述解析优化模型对所述目标用户的所述语音词义集进行更新处理,并获得更新后场景语义表述信息以及优化后场景语义辨识成效数据,并对优化后的语义辨识效果进行评估。
其中,再通过数据库得到的历史样本的均值化数据与目标用户的成效数据通过阈值对比方法进行阈值对比,并根据阈值对比结果判断得到的成效数据是否通过检验,若阈值对比未通过,则表明对目标用户的语音语义辨识结果不符合要求,需重新获取精准的目标用户语义分析结果,则根据同属历史样本中的超出均值的筛选过的多个优化样本,提取各优化样本的历史语音词义集和历史场景语义表述信息对目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型,即通过历史优化样本的海量样本数据对语义解析模型进行训练优化,使模型处理精度提升,并重新获取更新后模型训练得到的语义辨识成效数据,再进一步评估其优化训练处理后的语义分析识别效果,其中,成效阈值对比结果的预设阈值对比方法为:
其中,为成效阈值对比结果,/>为场景语义辨识成效数据,/>为历史语义辨识成效平均数据,/>为预设特征系数(特征系数通过应用***用户授权平台数据库查询获得)。
本发明第三方面提供了一种可读存储介质,所述可读存储介质中包括基于大数据的语义分析方法程序,所述基于大数据的语义分析方法程序被处理器执行时,实现如上述任一项所述的基于大数据的语义分析方法的步骤。
本发明公开的一种基于大数据的语义分析方法、***和存储介质,根据用户的属性特征信息获取词义识别模型对语音片段进行解析获得词义集,并提取词义特征信息,并结合语音特征信息获得补偿系数,同时对语音词义特征数据处理获得辨识度指数,再根据语音场景的场景特征信息处理获得干扰因子,根据模型对词义集解析获得语义表述信息,再通过与实际语义信息进行对比获得语义识别差异度指数,再将差异度指数集合辨识度指数以及补偿系数和干扰因子处理获得对语音片段处理成效评估的语义辨识成效数据,再与数据库中获取的同类用户同场景的历史样本均指数进行阈值对比,若不满足则获取超出均值的优化样本的词义集和信息对模型进行优化训练,并获得训练模型处理后的优化结果再评估;从而基于大数据对用户场景化语音进行词义解析以及语义解析并获取语义辨识成效数据,并与历史样本的优化数据进行效果检验,并根据历史优化样本的信息数据对语义解析模型进行再优化训练,实现对语义的优化分析和辨识效果的检验,提高用户场景化下的语义分析的准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于大数据的语义分析方法,其特征在于,包括以下步骤:
获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
2.根据权利要求1所述的基于大数据的语义分析方法,其特征在于,所述获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息,包括:
获取目标用户的属性特征信息,包括属地标识信息、身份职业标识信息和征信历史记录信息;
采集所述目标用户在各个场景中的语音记录片段集,并根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息;
所述语音特征信息包括音色音调信息和语态情绪表述信息;
获取语音记录场景的场景特征信息,包括场景类别信息、场景嘈杂度信息和场景音效信息。
3.根据权利要求2所述的基于大数据的语义分析方法,其特征在于,所述根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息,包括:
根据所述属性特征信息获取对应类型的预设语音词义识别模型;
根据预设语音词义解析模型对各场景中的所述语音记录片段集进行解析处理,获取场景的语音词义集;
根据所述语音词义集提取语音词义特性信息,包括关键词词义信息、个性方言词词义信息以及情态连贯词词义信息。
4.根据权利要求3所述的基于大数据的语义分析方法,其特征在于,所述根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数,包括:
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得所述目标用户在所述场景的场景语义解析度补偿系数;
根据所述场景的所述语音词义特性信息提取语音词义特征数据,包括关键词频次分布数据、个性方言词分布数据以及情态连贯词分布数据;
根据所述语音词义特征数据结合所述场景语义解析度补偿系数进行处理获得场景词义辨识度指数。
5.根据权利要求4所述的基于大数据的语义分析方法,其特征在于,所述根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数,包括:
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理,获得场景辨音干扰因子;
根据所述场景的个性方言词词义信息和场景类别信息获取对应类别的预设语义表述解析模型;
根据预设语义表述解析模型对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息;
根据所述场景语义表述信息与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数。
6.根据权利要求5所述的基于大数据的语义分析方法,其特征在于,所述根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据,包括:
根据所述场景的场景语义解析度补偿系数和场景辨音干扰因子对所述目标用户的所述场景词义辨识度指数与场景语义识别差异度指数进行加权处理,获得所述场景的场景语义辨识成效数据;
所述场景语义辨识成效数据的计算公式为:
其中,为场景语义辨识成效数据,/>为场景语义识别差异度指数,/>为场景词义辨识度指数,/>为场景辨音干扰因子,/>为场景语义解析度补偿系数,/>、/>为预设特征系数。
7.根据权利要求6所述的基于大数据的语义分析方法,其特征在于,所述获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数,包括:
获取各类别属性特征用户在各历史场景中的历史语音词义集、历史场景语义表述信息以及对应历史词义辨识度指数、历史语义识别差异度指数和历史语义辨识成效数据,并集合成历史场景语义辨识样本;
将所述各类别属性特征用户的各历史场景的历史场景语义辨识样本进行集合为场景语义辨识数据库;
根据场景语义辨识数据库查询获取与所述目标用户的同类别属性历史用户在相同单个历史场景中的多个同属历史场景语义辨识样本;
对所述多个同属历史场景语义辨识样本进行均值处理获得历史词义辨识度均指数、历史语义识别差异度均指数和历史语义辨识成效平均数据。
8.根据权利要求7所述的基于大数据的语义分析方法,其特征在于,所述根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估,包括:
根据所述目标用户的场景语义辨识成效数据与所述历史语义辨识成效平均数据通过预设阈值对比方法进行阈值对比处理,获得成效阈值对比结果;
若成效阈值对比结果不满足预设阈值对比要求,则提取所述多个同属历史场景语义辨识样本中所述历史词义辨识度指数和历史语义识别差异度指数均对应大于所述历史词义辨识度均指数和历史语义识别差异度均指数的多个目标同属历史语义辨识样本,并标记为同属历史语义辨识优化样本;
根据各同属历史语义辨识优化样本的对应多个历史语音词义集和多个历史场景语义表述信息对所述目标用户对应的语义表述解析模型进行训练,获得语义表述解析优化模型;
根据所述语义表述解析优化模型对所述目标用户的所述语音词义集进行更新处理,并获得更新后场景语义表述信息以及优化后场景语义辨识成效数据,并对优化后的语义辨识效果进行评估。
9.一种基于大数据的语义分析***,其特征在于,该***包括:存储器及处理器,所述存储器中包括基于大数据的语义分析方法的程序,所述基于大数据的语义分析方法的程序被所述处理器执行时实现以下步骤:
获取目标用户的属性特征信息,并采集目标用户在各个场景中的语音记录片段集,根据预设语音特征识别模型对语音记录片段集进行处理获得语音特征信息,获取场景的场景特征信息;
根据所述属性特征信息获取对应类型的预设语音词义识别模型,并对各场景中的所述语音记录片段集进行解析处理,获取语音词义集,根据语音词义集提取语音词义特性信息;
根据所述语音特征信息以及所述语音词义特性信息通过预设语义解析度检验模型进行处理,获得场景语义解析度补偿系数,并根据所述场景的所述语音词义特性信息提取语音词义特征数据,并处理获得场景词义辨识度指数;
根据所述场景的场景特征信息通过预设场景语音干扰测评模型进行处理获得场景辨音干扰因子,根据语音词义特性信息和场景特征信息获取对应类别的预设语义表述解析模型并对对应场景的所述语音词义集进行解析处理,获得场景语义表述信息,再与所述目标用户在所述场景中的实际语义表达信息进行信息差异度处理,获得场景语义识别差异度指数;
根据所述目标用户在所述场景的所述场景词义辨识度指数与场景语义识别差异度指数结合对应所述场景语义解析度补偿系数和场景辨音干扰因子进行加权处理,获得场景语义辨识成效数据;
获取各类别属性特征用户在各历史场景中的相关历史信息和历史指数数据,并集合成历史场景语义辨识样本,对各类历史场景语义辨识样本进行集合为场景语义辨识数据库,并提取与所述目标用户的同类别属性历史用户的多个同属历史场景语义辨识样本,并对多个历史样本指数进行均值处理获得对应多个历史均指数;
根据所述目标用户的场景语义辨识成效数据与对应历史均指数进行阈值对比处理获得阈值对比结果,若结果不满足预设要求则提取多个同属历史语义辨识优化样本,并根据优化样本的多个历史语音词义集和历史场景语义表述信息对所述目标用户的语义表述解析模型进行优化训练,并根据优化训练后的模型对所述语音词义集进行更新处理获得优化后的语义辨识结果再进行评估。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于大数据的语义分析方法程序,所述基于大数据的语义分析方法程序被处理器执行时,实现如权利要求1至8中任一项所述的基于大数据的语义分析方法的步骤。
CN202311602310.6A 2023-11-28 2023-11-28 一种基于大数据的语义分析方法、***和存储介质 Active CN117313723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311602310.6A CN117313723B (zh) 2023-11-28 2023-11-28 一种基于大数据的语义分析方法、***和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311602310.6A CN117313723B (zh) 2023-11-28 2023-11-28 一种基于大数据的语义分析方法、***和存储介质

Publications (2)

Publication Number Publication Date
CN117313723A true CN117313723A (zh) 2023-12-29
CN117313723B CN117313723B (zh) 2024-02-20

Family

ID=89288774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311602310.6A Active CN117313723B (zh) 2023-11-28 2023-11-28 一种基于大数据的语义分析方法、***和存储介质

Country Status (1)

Country Link
CN (1) CN117313723B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077895A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN112699785A (zh) * 2020-12-29 2021-04-23 中国民用航空飞行学院 基于维度情感模型的群体情感识别与异常情感检测方法
CN115422944A (zh) * 2022-09-01 2022-12-02 深圳市人马互动科技有限公司 语义识别方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077895A1 (zh) * 2018-10-16 2020-04-23 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN112699785A (zh) * 2020-12-29 2021-04-23 中国民用航空飞行学院 基于维度情感模型的群体情感识别与异常情感检测方法
CN115422944A (zh) * 2022-09-01 2022-12-02 深圳市人马互动科技有限公司 语义识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117313723B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN111243602B (zh) 基于性别、国籍和情感信息的声纹识别方法
CN107665705B (zh) 语音关键词识别方法、装置、设备及计算机可读存储介质
US20070233484A1 (en) Method for Automatic Speaker Recognition
CN110990685A (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
CN106991312B (zh) 基于声纹识别的互联网反欺诈认证方法
CN111079186B (zh) 数据分析的方法、装置、设备和存储介质
CN108269575A (zh) 更新声纹数据的语音识别方法、终端装置及存储介质
CN110164417B (zh) 一种语种向量获得、语种识别的方法和相关装置
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和***
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN115102789A (zh) 一种反通信网络诈骗研判预警拦截综合平台
CN112562736B (zh) 一种语音数据集质量评估方法和装置
CN114610840A (zh) 基于敏感词的账务监控方法、装置、设备及存储介质
US20040193894A1 (en) Methods and apparatus for modeling based on conversational meta-data
Al-Karawi et al. Using combined features to improve speaker verification in the face of limited reverberant data
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
CN117313723B (zh) 一种基于大数据的语义分析方法、***和存储介质
CN111382265A (zh) 搜索方法、装置、设备和介质
US12014141B2 (en) Systems and methods for improved transaction categorization using natural language processing
CN112416754B (zh) 一种模型评测方法、终端、***及存储介质
CN114898757A (zh) 声纹确认模型训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant