CN111708861B - 基于双重匹配的匹配集获取方法、装置和计算机设备 - Google Patents
基于双重匹配的匹配集获取方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111708861B CN111708861B CN202010357579.2A CN202010357579A CN111708861B CN 111708861 B CN111708861 B CN 111708861B CN 202010357579 A CN202010357579 A CN 202010357579A CN 111708861 B CN111708861 B CN 111708861B
- Authority
- CN
- China
- Prior art keywords
- matching
- data
- preset
- word segmentation
- matching set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 128
- 238000000605 extraction Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims description 130
- 239000013598 vector Substances 0.000 claims description 81
- 238000012795 verification Methods 0.000 claims description 36
- 238000012216 screening Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000252794 Sphinx Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005281 excited state Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了一种基于双重匹配的匹配集获取方法、装置、计算机设备和存储介质,所述方法包括:获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集;利用预设的特征提取工具,对语音信息进行特征提取处理,从而得到声音特征;利用第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。本申请还涉及区块链技术,所述数据池可存储于区块链节点中。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于双重匹配的匹配集获取方法、装置、计算机设备和存储介质。
背景技术
用户意图在数据池中获取想要的数据,一般可采用数据匹配方法来实现。传统的数据匹配方法,是基于关键词匹配的方式实现,例如用户通过语音输入装置输入具有准确关键词的语音,并且数据池中的数据预先标注有该关键词,从而用户能够获取与所述关键词匹配的数据。这种传统的匹配方法,需要用户对数据池中的数据较为熟悉,能够给出准确的关键词,导致适用面不广,并且这种匹配方式只利用了语音中的关键词,缺失了语音中的声音特征信息,导致匹配结果的准确性不足。
发明内容
本申请的主要目的为提供一种基于双重匹配的匹配集获取方法、装置、计算机设备和存储介质,旨在提高了匹配集获取的准确性。
为了实现上述发明目的,本申请提出一种基于双重匹配的匹配集获取方法,包括以下步骤:
获取输入的语音信息;
根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。
进一步地,所述利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集的步骤,包括:
对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
对所述初始词语序列进行同义词转换,从而得到中间词语序列;
从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
将所述指定数据构成的集合作为所述第一匹配集。
进一步地,所述对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列的步骤,包括:
进行第一次分词处理,所述第一次分词处理指将所述文字文本依次输入至所述p个分词工具,从而得到对应的p个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
进行第一次筛选处理,所述第一次筛选处理指,从所述p个第一分词结果中筛选出一个指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次进行第二次分词处理和第二次筛选处理、第三次分词处理和第三次筛选处理、...、第t次分词处理和第t次筛选处理,其中所述第t次分词处理指将指定第t-1剩余文本分别输入至所述p个分词工具,以得到对应的p个第t分词结果,所述第t分词结果由第t分词和除所述第t分词之外的第t剩余文本构成,t为大于1的整数;所述第t次筛选处理指从所述p个第t分词结果中筛选出一个指定第t分词结果,其中所述指定第t分词结果由指定第t分词和指定第t剩余文本构成;
判断所述指定第t剩余文本的字或字母的数量是否小于预设的数量阈值;
若所述指定第t剩余文本的字或字母的数量小于预设的数量阈值,则将指定第一分词、...、指定第t分词和所述指定第t剩余文本顺序连接,从而得到初始词语序列。
进一步地,所述数据池中的所有数据均为预先构建设的数据网络中的节点,所述将所述指定数据构成的集合作为所述第一匹配集的步骤S304,包括:
根据预设的词语与倾向程度值的对应关系,获取所述初始词语序列中的多个词语的倾向程度值;
对所述初始词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;
判断所述倾向程度和值是否小于预设的程度阈值;
若所述倾向程度和值小于预设的程度阈值,则获取所述数据网络中与所述指定数据直接连接的关联数据;
将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。
进一步地,所述利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征的步骤之前,包括:
调用预设的神经网络模型和预设数量的样本数据,并将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括预先收集的语音数据和与对所述语音数据进行人工标注的声音特征数值;
将所述训练数据输入所述神经网络模型中进行训练,以得到声音特征提取模型;
将所述验证数据输入所述声音特征提取模型中进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述声音特征提取模型作为所述特征提取工具。
进一步地,所述数据池中的所有数据均预先标注有对照向量,所述利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成的步骤,包括:
将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度;
根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;
获取第二匹配数据,其中所述第二匹配数据对应的相似度值大于预设的相似度阈值;
生成第二匹配集,其中所述第二匹配集由所有的第二匹配数据构成。
本申请提供一种基于双重匹配的匹配集获取装置,包括:
语音信息获取单元,用于获取输入的语音信息;
文字文本获取单元,用于根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
第一匹配集获取单元,用于利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
声音特征获取单元,用于利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
第二匹配集获取单元,用于利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
最终匹配集获取单元,用于根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。
进一步地,所述第一匹配集获取单元,包括:
分词处理子单元,用于对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
同义词转换子单元,用于对所述初始词语序列进行同义词转换,从而得到中间词语序列;
关键词提取子单元,用于从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
第一匹配集获取子单元,用于将所述指定数据构成的集合作为所述第一匹配集。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于双重匹配的匹配集获取方法、装置、计算机设备和存储介质,获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。从而提高了匹配的准确性。
附图说明
图1为本申请一实施例的基于双重匹配的匹配集获取方法的流程示意图;
图2为本申请一实施例的基于双重匹配的匹配集获取装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于双重匹配的匹配集获取方法,包括以下步骤:
S1、获取输入的语音信息;
S2、根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
S3、利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
S4、利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
S5、利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
S6、根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。
本申请通过双重匹配的方式来获取匹配集,其中双重匹配指文字文本匹配和声音特征匹配,从而使匹配方法的适用面更广,并且提高了匹配的准确性。本申请中所指多个,是指两个以上。
如上述步骤S1所述,获取输入的语音信息。其中,本申请的执行主体可为任意可行主体,例如为服务器,则对应语音信息例如为来自于客户端发送的语音信息;执行主体例如为客户端,则对应的语音信息例如为来自于客户端预设的麦克风采集用户输入的语音集息。
如上述步骤S2所述,根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本。其中所述语音识别方法可为任意可行方法,例如用现有的语音识别工具进行语音识别,以将语音信息识别为文字文本。其中语音识别工具例如为开源的CMUSphinx等。
如上述步骤S3所述,利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成。所述第一匹配算法可为任意可行算法,例如为关键词匹配,即将标注有对应关键词的数据记为匹配数据。所述数据池是指由多个数据构成的主体。所述数据池可为任意领域的数据池,例如为医疗领域中的数据池。根据所述第一匹配算法得到的所有第一匹配数据,将构成第一匹配集。当第一匹配数据仅有一个的时候,所述第一匹配集将只由单一数据构成;当第一匹配数据有多个时,所述第一匹配集由多个数据构成。
如上述步骤S4所述,利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征。其中所述特征提取工具可为任意可行工具,例如为基于梅尔频率倒谱系数MFCC构建的提取工具,或者为基于神经网络模型构建的声音特征提取工具。所述声音特征例如为音量大小、语速、音色、重音位置和/或重音数量等等。由于人类是感情动物,其感情与意图性会部分反应在声音上,例如在激动状态下,人类的声音颤音更多,在意图性强烈的状态下,其重音数量会更多。据此,本申请对声音特征进行拾取,相对于传统方案忽视声音特征,本申请利用声音特征进行第二重匹配,以充分利用语音信息,提高匹配的准确度。
如上述步骤S5所述,利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成。所述第二匹配算法,例如为将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度(所述数据池中的所有数据均预先标注有对照向量);根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;把相似度值大于预设的相似度阈值的数据记为第二匹配数据,从而得到第二匹配集。
如上述步骤S6所述,根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。第一匹配集是利用文字文本进行匹配得到的结果,第二匹配集是利用声音特征进行匹配得到的结果,因此第一匹配集和第二匹配集都可能包括用户意图获取的准确数据。根据具体情况,可采用不同的方式进行合并处理,例如将所述第一匹配集和所述第二匹配集的交集作为最终匹配集,或者将所述第一匹配集和所述第二匹配集的合集作为最终匹配集。进一步地,所述文字文本经过分词处理为包括多个词语的词语序列,并且根据预设的词语与倾向程度值的对应关系,获取所述词语序列中的多个词语的倾向程度值,对所述词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;若所述倾向程度和值大于预设的程度阈值,则将所述第一匹配集和所述第一匹配集的交集作为最终匹配集(因为用户的倾向性很强,因此其输入的语音信息包括准确关键词的可能性很高,故以交集作为最终匹配集即可);反之,则将所述第一匹配集和所述第一匹配集的合集作为最终匹配集。
在一个实施方式中,所述利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集的步骤S3,包括:
S301、对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
S302、对所述初始词语序列进行同义词转换,从而得到中间词语序列;
S303、从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
S304、将所述指定数据构成的集合作为所述第一匹配集。
如上所述,实现了使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集。本申请获取指定数据并构成第一匹配集的过程包括,分词、同义词转换、关键词提取、再找出标注有关键词的指定数据、构成第一匹配集。其中,相比于普通的匹配方法从直接从文字文本中直接截取出部分文本作为匹配的依据(即作为关键词),本申请先进行分词、同义词转换的方式,使得后续进行关键词提取的步骤中得到的关键词更加准确并且更加精练,有助于更快更准地获取指定数据。其中同义词转换可采用任意可行的方式,例如预先设置有同义词组,所述同义词组中存在指定同义词,当初始词语序列中的词语是所述同义词组中的一个词语时,将该词语替换为所述指定同义词,从而实现同义词转换。
在一个实施方式中,所述对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列的步骤S301,包括:
S3011、进行第一次分词处理,所述第一次分词处理指将所述文字文本依次输入至所述p个分词工具,从而得到对应的p个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
S3012、进行第一次筛选处理,所述第一次筛选处理指,从所述p个第一分词结果中筛选出一个指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
S3013、依次进行第二次分词处理和第二次筛选处理、第三次分词处理和第三次筛选处理、...、第t次分词处理和第t次筛选处理,其中所述第t次分词处理指将指定第t-1剩余文本分别输入至所述p个分词工具,以得到对应的p个第t分词结果,所述第t分词结果由第t分词和除所述第t分词之外的第t剩余文本构成,t为大于1的整数;所述第t次筛选处理指从所述p个第t分词结果中筛选出一个指定第t分词结果,其中所述指定第t分词结果由指定第t分词和指定第t剩余文本构成;
S3014、判断所述指定第t剩余文本的字或字母的数量是否小于预设的数量阈值;
S3015、若所述指定第t剩余文本的字或字母的数量小于预设的数量阈值,则将指定第一分词、...、指定第t分词和所述指定第t剩余文本顺序连接,从而得到初始词语序列。
如上所述,实现了对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列。分词的准确性,是第一匹配算法进行匹配处理的直接影响因素。本申请综合多个分词工具进行分词,以得到最佳分词结果。其中,由于利用p个分词工具依次进行了t次分词处理,而每次分词处理得到的阶段性分词结果均是最佳的(即是从对应的p个分词结果中筛选出来的),因此保证最终得到的分词结果最佳。其中,进行分词结果筛选的方式可为任意可行方式,例如将大多数分词工具得到的相同分词结果作为指定分词结果(即筛选出的分词结果)。其中,所述数量阈值例如为1-5中的一者,例如为2或3。因此,将每个阶段的最佳结果顺序连接,即将指定第一分词、...、指定第t分词和所述指定第t剩余文本顺序连接,即可得到初始词语序列,从而提高分词的准确性。
一个实施方式中,所述数据池中的所有数据均为预先构建设的数据网络中的节点,所述将所述指定数据构成的集合作为所述第一匹配集的步骤S304,包括:
S3041、根据预设的词语与倾向程度值的对应关系,获取所述初始词语序列中的多个词语的倾向程度值;
S3042、对所述初始词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;
S3043、判断所述倾向程度和值是否小于预设的程度阈值;
S3044、若所述倾向程度和值小于预设的程度阈值,则获取所述数据网络中与所述指定数据直接连接的关联数据;
S3045、将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。
如上所述,实现了将所述指定数据构成的集合作为所述第一匹配集。本申请进一步采用倾向程度值的设置,以提高第一匹配集的准确性。人类采用语言表述意愿时,采用的字词不同,其包含的含义也不同。例如句子:我要那杯水!和我可以要那杯水么?第一个句子的语气性更强,倾向性更高。而第二个句子采用了可以的方式来描述,其倾向性更弱。上述举例只是表示语言的字词存在倾向程度,因此语音信息(或者初始词语序列)中的这部分信息是有助于进一步进行利用以进行更确切地匹配。因此,本申请预先设置有词语与倾向程度值的对应关系,从而能够计算出初始词语序列的倾向性(即用户的倾向性),并采用所述数据池中的所有数据均为预先构建设的数据网络中的节点的设置。从而倾向程度和值就代表了用户的倾向性。其中,所述倾向程度值可正可负也可以为0。若所述倾向程度和值不小于预设的程度阈值,则直接将指定数据构成第一匹配集即可;若所述倾向程度和值小于预设的程度阈值,则表明用户倾向性较弱,或者称为并未最终打定主意,因此获取所述数据网络中与所述指定数据直接连接的关联数据,将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。从而能够给予用户更多关联性的选择,以提高整体的匹配准确性。
在一个实施方式中,所述利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征的步骤S4之前,包括:
S31、调用预设的神经网络模型和预设数量的样本数据,并将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括预先收集的语音数据和与对所述语音数据进行人工标注的声音特征数值;
S32、将所述训练数据输入所述神经网络模型中进行训练,以得到声音特征提取模型;
S33、将所述验证数据输入所述声音特征提取模型中进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
S34、若所述验证结果为验证通过,则将所述声音特征提取模型作为所述特征提取工具。
如上所述,实现了将所述声音特征提取模型作为所述特征提取工具。神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络***模型,用于模拟人类进行智能处理活动。本申请中的神经网络模型可以采用任意可行模型,例如采用VGG模型,LSTM模型,RNN模型等。再利用包括预先收集的语音数据和与对所述语音数据进行人工标注的声音特征数值的训练数据,对神经网络模型进行训练,以使神经网络模型能够胜任本申请中的声音特征提取任务。进一步地,采用与训练数据同源的验证数据对声音特征提取模型进行验证,以保证声音特征提取模型的可行性。若所述验证结果为验证通过,则将所述声音特征提取模型作为所述特征提取工具,从而本申请的特征提取处理的步骤,即可由所述声音特征提取模型完成,从而提高声音特征提取的准确性。
在一个实施方式中,所述数据池中的所有数据均预先标注有对照向量,所述利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成的步骤S5,包括:
S501、将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度;
S502、根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;
S503、获取第二匹配数据,其中所述第二匹配数据对应的相似度值大于预设的相似度阈值;
S504、生成第二匹配集,其中所述第二匹配集由所有的第二匹配数据构成。
如上所述,实现了使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集。其中将所述声音特征映射为高维空间的声音向量可采用任意可行方式,例如声音特征包括语速为A,重音数量为B,音量波动值为C等,那么将数值A作为高维空间的一个坐标轴的数值,数值B作为高维空间的另一个坐标轴的数值,数值C作为高维空间的另一个坐标轴的数值,从而将声音特征映射为声量向量。再根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim;再将相似度值大于预设的相似度阈值的数据作为第二匹配数据,即可得到第二匹配集。其中本申请通过上述公式,综合考虑向量角度偏差与向量距离的方式,以衡量向量间的相似程度,得到的相似度值更加准确。
本申请的基于双重匹配的匹配集获取方法,获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。从而提高了匹配的准确性。
参照图2,本申请实施例提供一种基于双重匹配的匹配集获取装置,包括:
语音信息获取单元10,用于获取输入的语音信息;
文字文本获取单元20,用于根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
第一匹配集获取单元30,用于利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
声音特征获取单元40,用于利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
第二匹配集获取单元50,用于利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
最终匹配集获取单元60,用于根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。
其中上述单元分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一匹配集获取单元30,包括:
分词处理子单元,用于对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
同义词转换子单元,用于对所述初始词语序列进行同义词转换,从而得到中间词语序列;
关键词提取子单元,用于从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
第一匹配集获取子单元,用于将所述指定数据构成的集合作为所述第一匹配集。
其中上述子单元分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述分词处理子单元,包括:
第一次分词处理模块,用于进行第一次分词处理,所述第一次分词处理指将所述文字文本依次输入至所述p个分词工具,从而得到对应的p个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
第一次筛选处理模块,用于进行第一次筛选处理,所述第一次筛选处理指,从所述p个第一分词结果中筛选出一个指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
多次分词和筛选处理模块,用于依次进行第二次分词处理和第二次筛选处理、第三次分词处理和第三次筛选处理、...、第t次分词处理和第t次筛选处理,其中所述第t次分词处理指将指定第t-1剩余文本分别输入至所述p个分词工具,以得到对应的p个第t分词结果,所述第t分词结果由第t分词和除所述第t分词之外的第t剩余文本构成,t为大于1的整数;所述第t次筛选处理指从所述p个第t分词结果中筛选出一个指定第t分词结果,其中所述指定第t分词结果由指定第t分词和指定第t剩余文本构成;
数量阈值判断模块,用于判断所述指定第t剩余文本的字或字母的数量是否小于预设的数量阈值;
初始词语序列获取模块,用于若所述指定第t剩余文本的字或字母的数量小于预设的数量阈值,则将指定第一分词、...、指定第t分词和所述指定第t剩余文本顺序连接,从而得到初始词语序列。
其中上述模块分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
一个实施方式中,所述数据池中的所有数据均为预先构建设的数据网络中的节点,所述第一匹配集获取子单元,包括:
倾向程度值获取模块,用于根据预设的词语与倾向程度值的对应关系,获取所述初始词语序列中的多个词语的倾向程度值;
倾向程度和值获取模块,用于对所述初始词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;
倾向程度和值判断模块,用于判断所述倾向程度和值是否小于预设的程度阈值;
关联数据获取模块,用于若所述倾向程度和值小于预设的程度阈值,则获取所述数据网络中与所述指定数据直接连接的关联数据;
第一匹配集获取模块,用于将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。
其中上述模块分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
样本数据划分单元,用于调用预设的神经网络模型和预设数量的样本数据,并将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括预先收集的语音数据和与对所述语音数据进行人工标注的声音特征数值;
模型训练单元,用于将所述训练数据输入所述神经网络模型中进行训练,以得到声音特征提取模型;
模型验证单元,用于将所述验证数据输入所述声音特征提取模型中进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
特征提取工具获取单元,用于若所述验证结果为验证通过,则将所述声音特征提取模型作为所述特征提取工具。
其中上述单元分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述数据池中的所有数据均预先标注有对照向量,所述第二匹配集获取单元50,包括:
声音向量映射子单元,用于将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度;
相似度值Sim计算子单元,用于根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;
第二匹配数据获取子单元,用于获取第二匹配数据,其中所述第二匹配数据对应的相似度值大于预设的相似度阈值;
第二匹配集获取子单元,用于生成第二匹配集,其中所述第二匹配集由所有的第二匹配数据构成。
其中上述子单元分别用于执行的操作与前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
本申请的基于双重匹配的匹配集获取装置,获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。从而提高了匹配的准确性。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于双重匹配的匹配集获取方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于双重匹配的匹配集获取方法。
上述处理器执行上述基于双重匹配的匹配集获取方法,其中所述方法包括的步骤分别与执行前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。从而提高了匹配的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于双重匹配的匹配集获取方法,其中所述方法包括的步骤分别与执行前述实施方式的基于双重匹配的匹配集获取方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取输入的语音信息;根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集。从而提高了匹配的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (6)
1.一种基于双重匹配的匹配集获取方法,其特征在于,包括:
获取输入的语音信息;
根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集;
所述数据池中的所有数据均预先标注有对照向量,所述利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成的步骤,包括:
将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度;
根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;
获取第二匹配数据,其中所述第二匹配数据对应的相似度值大于预设的相似度阈值;
生成第二匹配集,其中所述第二匹配集由所有的第二匹配数据构成;
所述利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集的步骤,包括:
对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
对所述初始词语序列进行同义词转换,从而得到中间词语序列;
从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
将所述指定数据构成的集合作为所述第一匹配集;
所述数据池中的所有数据均为预先构建设的数据网络中的节点,所述将所述指定数据构成的集合作为所述第一匹配集的步骤,包括:
根据预设的词语与倾向程度值的对应关系,获取所述初始词语序列中的多个词语的倾向程度值;
对所述初始词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;
判断所述倾向程度和值是否小于预设的程度阈值;
若所述倾向程度和值小于预设的程度阈值,则获取所述数据网络中与所述指定数据直接连接的关联数据;
将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。
2.根据权利要求1所述的基于双重匹配的匹配集获取方法,其特征在于,所述对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列的步骤,包括:
进行第一次分词处理,所述第一次分词处理指将所述文字文本依次输入至p个分词工具,从而得到对应的p个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
进行第一次筛选处理,所述第一次筛选处理指,从所述p个第一分词结果中筛选出一个指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次进行第二次分词处理和第二次筛选处理、第三次分词处理和第三次筛选处理、...、第t次分词处理和第t次筛选处理,其中所述第t次分词处理指将指定第t-1剩余文本分别输入至所述p个分词工具,以得到对应的p个第t分词结果,所述第t分词结果由第t分词和除所述第t分词之外的第t剩余文本构成,t为大于1的整数;所述第t次筛选处理指从所述p个第t分词结果中筛选出一个指定第t分词结果,其中所述指定第t分词结果由指定第t分词和指定第t剩余文本构成;
判断所述指定第t剩余文本的字或字母的数量是否小于预设的数量阈值;
若所述指定第t剩余文本的字或字母的数量小于预设的数量阈值,则将指定第一分词、...、指定第t分词和所述指定第t剩余文本顺序连接,从而得到初始词语序列。
3.根据权利要求1所述的基于双重匹配的匹配集获取方法,其特征在于,所述利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征的步骤之前,包括:
调用预设的神经网络模型和预设数量的样本数据,并将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括预先收集的语音数据和与对所述语音数据进行人工标注的声音特征数值;
将所述训练数据输入所述神经网络模型中进行训练,以得到声音特征提取模型;
将所述验证数据输入所述声音特征提取模型中进行验证,以得到验证结果,并判断所述验证结果是否为验证通过;
若所述验证结果为验证通过,则将所述声音特征提取模型作为所述特征提取工具。
4.一种基于双重匹配的匹配集获取装置,其特征在于,包括:
语音信息获取单元,用于获取输入的语音信息;
文字文本获取单元,用于根据预设的语音识别方法,对所述语音信息进行语音识别处理,从而得到文字文本;
第一匹配集获取单元,用于利用预设的第一匹配算法,使用所述文字文本在预设的数据池中进行匹配处理,从而得到第一匹配集,其中所述第一匹配集由一个或多个第一匹配数据构成;
声音特征获取单元,用于利用预设的特征提取工具,对所述语音信息进行特征提取处理,从而得到声音特征;
第二匹配集获取单元,用于利用预设的第二匹配算法,使用所述声音特征在所述数据池中进行匹配处理,从而得到第二匹配集,其中所述第二匹配集由一个或多个第二匹配数据构成;
最终匹配集获取单元,用于根据预设的数据集合并方法,对所述第一匹配集和所述第二匹配集进行合并处理,从而得到与所述输入的语音信息对应的最终匹配集;
所述数据池中的所有数据均预先标注有对照向量,所述第二匹配集获取单元,包括:
声音向量映射子单元,用于将所述声音特征映射为高维空间的声音向量,其中所述声音向量与所述对照向量具有相同的维度;
相似度值Sim计算子单元,用于根据公式:
计算出所述声音向量与所述对照向量的相似度值Sim,其中Vi为所述声音向量的第i个分向量,Ri为所述对照向量的第i个分向量,所述声音向量与所述对照向量均包括n个分向量,从而得到与所述数据池中的所有数据分别对应的多个相似度值;
第二匹配数据获取子单元,用于获取第二匹配数据,其中所述第二匹配数据对应的相似度值大于预设的相似度阈值;
第二匹配集获取子单元,用于生成第二匹配集,其中所述第二匹配集由所有的第二匹配数据构成;
所述第一匹配集获取单元,包括:
分词处理子单元,用于对所述文字文本进行分词处理,从而得到由多个词语构成的初始词语序列;
同义词转换子单元,用于对所述初始词语序列进行同义词转换,从而得到中间词语序列;
关键词提取子单元,用于从所述中间词语序列中提取出关键词,并利用所述关键词获取所述数据池中的指定数据,其中所述指定数据被标注有所述关键词;
第一匹配集获取子单元,用于将所述指定数据构成的集合作为所述第一匹配集;
所述数据池中的所有数据均为预先构建设的数据网络中的节点,所述第一匹配集获取子单元,包括:
倾向程度值获取模块,用于根据预设的词语与倾向程度值的对应关系,获取所述初始词语序列中的多个词语的倾向程度值;
倾向程度和值获取模块,用于对所述初始词语序列中的多个词语进行倾向程度值加和处理,从而得到倾向程度和值;
倾向程度和值判断模块,用于判断所述倾向程度和值是否小于预设的程度阈值;
关联数据获取模块,用于若所述倾向程度和值小于预设的程度阈值,则获取所述数据网络中与所述指定数据直接连接的关联数据;
第一匹配集获取模块,用于将所述指定数据和所述关联数据构成的集合作为所述第一匹配集。
5.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357579.2A CN111708861B (zh) | 2020-04-29 | 2020-04-29 | 基于双重匹配的匹配集获取方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357579.2A CN111708861B (zh) | 2020-04-29 | 2020-04-29 | 基于双重匹配的匹配集获取方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111708861A CN111708861A (zh) | 2020-09-25 |
CN111708861B true CN111708861B (zh) | 2024-01-23 |
Family
ID=72536854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010357579.2A Active CN111708861B (zh) | 2020-04-29 | 2020-04-29 | 基于双重匹配的匹配集获取方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708861B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668664B (zh) * | 2021-01-06 | 2022-11-15 | 安徽迪科数金科技有限公司 | 一种基于智能语音的话术训练方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104202486A (zh) * | 2014-09-26 | 2014-12-10 | 上海华勤通讯技术有限公司 | 移动终端及其屏幕解锁方法 |
CN107221331A (zh) * | 2017-06-05 | 2017-09-29 | 深圳市讯联智付网络有限公司 | 一种基于声纹的身份识别方法和设备 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108989349A (zh) * | 2018-08-31 | 2018-12-11 | 平安科技(深圳)有限公司 | 用户帐号解锁方法、装置、计算机设备及存储介质 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
-
2020
- 2020-04-29 CN CN202010357579.2A patent/CN111708861B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104202486A (zh) * | 2014-09-26 | 2014-12-10 | 上海华勤通讯技术有限公司 | 移动终端及其屏幕解锁方法 |
CN107221331A (zh) * | 2017-06-05 | 2017-09-29 | 深圳市讯联智付网络有限公司 | 一种基于声纹的身份识别方法和设备 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108989349A (zh) * | 2018-08-31 | 2018-12-11 | 平安科技(深圳)有限公司 | 用户帐号解锁方法、装置、计算机设备及存储介质 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111708861A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287285B (zh) | 一种问题意图识别方法、装置、计算机设备及存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
TWI423249B (zh) | 用於文字相關之說話者認證之電腦實施方法、電腦可讀取儲存媒體及系統 | |
JP2021532499A (ja) | 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体 | |
CN111767400A (zh) | 文本分类模型的训练方法、装置、计算机设备和存储介质 | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
WO2020107834A1 (zh) | 唇语识别的验证内容生成方法及相关装置 | |
CN110472136B (zh) | 查询结果的推送方法、装置、存储介质和计算机设备 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
US20180307745A1 (en) | Determining if an action can be performed based on a dialogue | |
CN112017694A (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
JP2019101391A (ja) | 系列データ変換装置、学習装置、及びプログラム | |
CN111708861B (zh) | 基于双重匹配的匹配集获取方法、装置和计算机设备 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN111552810B (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN113345464B (zh) | 语音提取方法、***、设备及存储介质 | |
Brown et al. | A segmentally informed solution to automatic accent classification and its advantages to forensic applications | |
CN116127981A (zh) | 语义向量表示方法、装置、计算机设备和存储介质 | |
WO2022015404A1 (en) | Sample assessment | |
Ramos et al. | Bayesian strategies for likelihood ratio computation in forensic voice comparison with automatic systems | |
CN111081252A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
Cumani et al. | Scoring heterogeneous speaker vectors using nonlinear transformations and tied PLDA models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |