CN113192507B - 一种基于语音识别的资讯检索方法及*** - Google Patents
一种基于语音识别的资讯检索方法及*** Download PDFInfo
- Publication number
- CN113192507B CN113192507B CN202110519526.0A CN202110519526A CN113192507B CN 113192507 B CN113192507 B CN 113192507B CN 202110519526 A CN202110519526 A CN 202110519526A CN 113192507 B CN113192507 B CN 113192507B
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- signal
- retrieval
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 108700041286 delta Proteins 0.000 claims 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 210000004556 brain Anatomy 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于语音识别的资讯检索方法及***,包括以下部分:原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;通过精进语音识别技术,建立更迅捷的语音资讯检索方法来模拟大脑原始的信息搜索方式,以更快捷、更精确、更轻量的方法进行资讯检索。
Description
技术领域
本发明属于语音识别、资讯检索技术领域,特别涉及一种基于语音识别的资讯检索方法及***。
背景技术
文字信息检索技术在当今工作与生活中已经非常普及,涉及众多领域,能够方便快捷的帮助用户解决问题。但是随着视频资讯和语音资讯等包含语音信息的数据日益增加,打破常规文字检索技术方法去设计一种适合对语音资讯进行快速检索的检索方法具有时代意义。
现有技术中刘晋元、朱悦、潘永春等人所著的“语音转换的信息处理方法、装置、设备和存储介质”通过获取语音数据,并识别用户的第一语音信息和从客服人员获取的第二语音信息;将所述第一语音信息和所述第二语音信息转换为文字信息;根据所述文字信息提取关键词;再依据所述关键词在预设知识图谱中检索以 获取相关资讯。解决了现有技术由于科技语音客服涉及领域的专业性较强,客服人员往往无法快速并且准确的回答用户提出的问题,导致客户体验度不高的技术问题。达到了对客户的语音进行高精度识别和理解,从而准确提取科技关键词,从而对关键词进行相关资讯检索,最终达到为用户提供快速准确专业的相关资讯的技术效果。但是此方法需要将获取到的语音信号转换成文字的形式进行相关信息的检索,且检索到的内容为进行了文字标记的信息源,并非通过语音信号的形式进行直接的检索,因此大大的增加了***负载,检索速度较为缓慢,不够轻量,用户体验感仍需加强。
发明内容
本申请所要解决的技术问题是:打破信息检索领域采用文字或将语音信号转为文字信息进行检索的常用技术方法,通过精进语音识别技术,建立更迅捷的语音资讯检索方法来模拟大脑原始的信息搜索方式,以更快捷、更精确、更轻量的方法进行资讯检索。因此,提供一种基于语音识别的资讯检索方法及***。
本发明技术方案为:
基于语音识别的资讯检索***,包括以下部分:
原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;
所述原始语音资讯信号获取模块,获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块,通过切片化处理模块包括通信单元接收原始语音信号并将原始语音信号传输给信息剥离单元对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元,在语音信号切片单元中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元中,在评价单元基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元进行再次的切片化处理并送入评价单元进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元,通信单元将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块中;
通过检索目标语音信号获取模块获取检索目标语音信号,并将检索目标语音信号传输给语音信号过滤模块;通过语音信号过滤模块对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块和数据关联模块;
通过切片化语音资讯存储模块用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块;
通过数据关联模块对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块和语音转文字模块;
通过语音信号输出模块以语言的形式输出检索到的语音资讯信息;通过语音转文字模块将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块,通过文字输出模块以文字的形式输出文字资讯信息。
基于语音识别的资讯检索方法,包括以下步骤:
A 基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到优化后的切片化语音信号;
B 获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出。
优选的,所述步骤A1的能量参数求取方法为:
优选的,所述步骤A1的信息剥离方法的具体方法为:
结合能量参数通过下列公式对原始语音信号进行信息剥离:
优选的,所述步骤A2的能量值的求取方法如下:
优选的,所述步骤A2所述的能量饱和阈值的评价方法如下:
为了防止在进行切片化处理过程中因为忽视语音停顿等产生连贯语音有一定几率被拆分的情况,设置评价函数,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数如下所示:
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数;
优选的,所述步骤B中信号关联度的求取方法如下:
通过检索目标语音信号获取模块获取检索目标语音信号,在语音信号过滤模块中对检索目标语音信号进行信号剥离,具体剥离方法同步骤A1;
在数据关联模块中进行资讯检索,具体方法如下:
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索;
当数据关联模块50接收到的资讯检索指令为一级检索指令后,输出信号关联度的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块50接收到的资讯检索指令为二级检索指令后,输出信号关联度的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块接收到的资讯检索指令为三级检索指令后,输出信号关联度的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块将所检索到的语音资讯信息转换为文字资讯信息,通过文字输出模块输出文字资讯信息,或者通过语音信号输出模块以语音的形式输出所检索到的语音资讯信息。
本发明至少具有以下有益效果:
(1)本发明所述的能量参数对求取方法引入了正割函数进行数据运算,能够将不同位置间信号的细微变化进行放大,使信号间的对比性更为强烈,在语音识别技术领域具有明显效果。
(2)本发明所述的信息剥离方法,以当前语音信号与相邻位置语音信号所产生的能量参数为依据,对当前语音信号进行转换。与现有技术相比,能够在对信号进行标准化的同时滤除冗杂信号,兼具标准化处理和降噪两种效果。
(3)本发明所述的能量值的求取方法以具有最大能量参数对的语音信号作为基础,并对其进行能量的累积,形象的将语音信号进行了聚焦,迅速的凸显出该语音片段的语音特征。
(4)本发明所述的对能量饱和值进行评价的方法充分利用了函数的线性变化关系,将趋近零且不等于零的值进行大幅度放大,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,于细微之处选择更完美的能量饱和阈值。
(5)本发明所述的信号关联度的计算方法以能量值的变化为依据,与现有技术相比更为精细,对比性更强,有利于检索到更为精准的语音资讯,让语音资讯的检索脱离了转文字再检索的资讯检索方法,同时达到使资讯检索方法更迅速更轻量的检索目标。
附图说明
图1 本发明所述的基于语音识别的资讯检索***结构框图;
图2 本发明所述的切片化处理模块结构框图。
具体实施方式
以下将结合本实施例中的附图来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
参考图1,本发明所述的一种基于语音识别的资讯检索***包括以下部分:
原始语音资讯信号获取模块10、检索目标语音信号获取模块20、语音信号过滤模块30、切片化处理模块40、切片化语音资讯存储模块50、数据关联模块60、语音转文字模块70、文字输出模块80、语音信号输出模块90。
所述原始语音资讯信号获取模块10,用于获取语音资讯中一整段语音资讯将其称为原始语音信号,并通过数据传输方式将原始语音信号传输给切片化处理模块40;
所述检索目标语音信号获取模块20,用于获取检索目标语音信号,并通过数据传输方式将检索目标语音信号传输给语音信号过滤模块30;
语音信号过滤模块30,用于对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并通过数据传输的方法将纯净检索目标语音信号分别传输给语音资讯存储模块50和数据关联模块60;
参考图2,切片化处理模块40包括通信单元401、信息剥离单元402、语音信号切片单元403、评价单元404。所述通信单元401,用于接收原始语音信号并将原始语音信号传输给信息剥离单元402;所述信息剥离单元402用于对原始语音信号进行剥离处理,得到纯净语音信号;所述语音信号切片单元403,通过设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号;所述评价单元404,基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元403进行再次的切片化处理并送入评价单元404进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元401,通信单元401通过数据传输的方式将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块50;
所述切片化语音资讯存储模块50用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并通过数据传输的方式将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块60。
所述数据关联模块60,用于对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,并通过数据传输方式,将检索到的语音资讯信息分别传输给语音信号输出模块90和语音转文字模块70;
所述语音转文字模块70,用于将检索到的语音资讯信息转换成文字资讯信息,并通过数据传输的方式将文字资讯信息传输给文字输出模块80;
所述文字输出模块80,用于以文字的形式输出文字资讯信息。
所述语音信号输出模块90,用于以语言的形式输出检索到的语音资讯信息;
本发明所述的一种基于语音识别的资讯检索***,通过原始语音资讯信号获取模块10获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块40,通过切片化处理模块40包括通信单元401接收原始语音信号并将原始语音信号传输给信息剥离单元402对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元403,在语音信号切片单元403中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元404中,在评价单元404基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元403进行再次的切片化处理并送入评价单元404进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元401,通信单元401将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块50中;
通过检索目标语音信号获取模块20获取检索目标语音信号,并将将检索目标语音信号传输给语音信号过滤模块30;通过语音信号过滤模块30对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块50和数据关联模块60;
通过切片化语音资讯存储模块50用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块60。
通过数据关联模块60对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块90和语音转文字模块70;
通过语音信号输出模块90以语言的形式输出检索到的语音资讯信息;
通过语音转文字模块70将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块80,通过文字输出模块80以文字的形式输出文字资讯信息。
本发明所述的一种基于语音识别的资讯检索方法包括:
A 基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到更为完美的切片化语音信号;
A1 通过原始语音资讯信号获取模块10获取一整段语音资讯并将其称为原始语音信号,本发明所述的语音资讯是基于大数据网络抓取到的以语音的方式进行存储的资讯,包括视频中的语音、新闻中的语音、专业人士录音等。且本发明所述的原始语音资讯信号获取方法为现有技术,在此不做过多阐述。并将获取到的原始语音信号的时域波形记为,其中t表示时间参数,通过下列方法对进行信息剥离操作:
本发明所述的能量参数对求取方法引入了正割函数进行数据运算,能够将不同位置间信号的细微变化进行放大,使信号间的对比性更为强烈,在语音识别技术领域具有明显效果。
结合能量参数通过下列公式对原始语音信号进行信息剥离:
本发明所述的信息剥离方法,以当前语音信号与相邻位置语音信号所产生的能量参数为依据,对当前语音信号进行转换。与现有技术相比,能够在对信号进行标准化的同时滤除冗杂信号,兼具标准化处理和降噪两种效果。
A2在切片化处理模块40中的语音信号切片单元403中对纯净语音信号进行切片化处理,具体处理方法如下所示:
本发明所述的能量值的求取方法以具有最大能量参数对的语音信号作为基础,并对其进行能量的累积,形象的将语音信号进行了聚焦,迅速的凸显出该语音片段的语音特征。
为了防止在进行切片化处理过程中因为忽视语音停顿等产生连贯语音有一定几率被拆分的情况,设置评价函数,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数如下所示:
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数。
本发明所述的对能量饱和值进行评价的方法充分利用了函数的线性变化关系,将趋近零且不等于零的值进行大幅度放大,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,于细微之处选择更完美的能量饱和阈值。
B 获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出。
通过检索目标语音信号获取模块20获取检索目标语音信号,本发明所述的检索目标语音信号获取方法为现有技术,在此不做过多阐述。在语音信号过滤模块30中对检索目标语音信号进行信号剥离,产生对检索目标语音信号进行标准化处理和过滤的作用,具体剥离方法同本发明所述步骤A1,在此不做过多阐述。
在数据关联模块60中进行资讯检索,具体方法如下:
本发明所述的信号关联度的计算方法以能量值的变化为依据,与现有技术相比更为精细,对比性更强,有利于检索到更为精准的语音资讯,让语音资讯的检索脱离了转文字再检索的资讯检索方法,同时达到使资讯检索方法更迅速更轻量的检索目标。
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索。
当数据关联模块50接收到的资讯检索指令为一级检索指令后,输出信号关联度的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块50接收到的资讯检索指令为二级检索指令后,输出信号关联度的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块50接收到的资讯检索指令为三级检索指令后,输出信号关联度的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块70将所检索到的语音资讯信息转换为文字资讯信息,且本发明所述语音转文字方法为现有技术,在此不做过多阐述,通过文字输出模块80输出文字资讯信息,或者通过语音信号输出模块90以语音的形式输出所检索到的语音资讯信息。
本发明所述的资讯检索方法以每一个语音资讯所对应的能量饱和阈值作为能量标签对存储的语音资讯进行初步的调取,方法简单快捷,大大减少了资讯检索工作中的***负载,且通过能量参数找寻语音***位置的方法简单有效,结合能量关联度的计算让语音资讯的检索脱离了转文字再检索的常规检索操作,具有较高的可实施性。
综上所述,实现了本发明所述的一种基于语音识别的资讯检索方法及***。
可以理解的是,以上仅是本发明的较佳实施例,任何基于本发明的精神所做的改动均应在本发明的保护范围之内。
Claims (7)
1.一种基于语音识别的资讯检索***,其特征在于,包括以下部分:
原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;
所述原始语音资讯信号获取模块,获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块,通过切片化处理模块包括通信单元接收原始语音信号并将原始语音信号传输给信息剥离单元对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元,在语音信号切片单元中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元中,在评价单元基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元进行再次的切片化处理并送入评价单元进行评价,直至得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元,通信单元将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块中;
通过检索目标语音信号获取模块获取检索目标语音信号,并将检索目标语音信号传输给语音信号过滤模块;通过语音信号过滤模块对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块和数据关联模块;
通过切片化语音资讯存储模块用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块;
通过数据关联模块对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块和语音转文字模块;
通过语音信号输出模块以语言的形式输出检索到的语音资讯信息;通过语音转文字模块将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块,通过文字输出模块以文字的形式输出文字资讯信息。
2.一种基于语音识别的资讯检索方法,其特征在于,包括以下步骤:
A基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到优化后的切片化语音信号;
设置初始能量饱和阈值θ0,基于纯净语音信号x*(t)及其所对应的信息能量参数α*(t)、β*(t),按照下述方法对语音信号x*(t)进行切片化处理:
设t=0作为起点,t=t1作为第一个切点位置,EG(0~t1)表示0~t1纯净语音信号片段的能量值,计算方法如下:
其中,MAX[x*(0~t1)|α*(0~t1),β*(0~t1)]表示在语音信号片段x*(0~t1)中具有最大能量参数对的语音信号,t、t1表示时间,n1表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致;
B获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出;
将纯净语音片段x*(tk-1~tk)中同时具有最大能量参数α*和β*的语音信号记为x*(ik),ik∈(tk-1~tk),k为切点位置的序号;
将纯净检索目标语音信号RV(t*)***到纯净语音片段x*(tk-1~tk)中的x*(ik)位置,生成重构语音信号,将重构语音信号代入到公式①中,计算得到重构语音信号的能量值,并将其记为EG(0~T*,tk-1~tk),T*表示纯净检索目标语音信号的时长;
根据实际需求设置等级化阈值τ∈{τ1,τ2,τ3},τ1表示一级检索阈值、τ2表示二级检索阈值、τ3表示三级检索阈值,且τ3>τ2>τ1;
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索。
5.如权利要求4所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A的能量值的求取方法如下:
将剥离后的语音信号x*(t)代入公式②中,求取纯净语音信号x*(t)所对应的信息能量参数α*(t)、β*(t);
基于纯净语音信号x*(t)及其所对应的信息能量参数α*(t)、β*(t),对纯净语音信号进行切片化处理,具体处理方法如下所示:
设置初始能量饱和阈值θ0,按照以下方法对x*(t)进行切片化处理:
设t=0作为起点,t=t1作为第一个切点位置,EG(0~t1)表示0~t1纯净语音信号片段的能量值,计算方法如下:
其中MAX[x*(0~t1)|α*(0~t1),β*(0~t1)]表示在语音信号片段x*(0~t1)中具有最大能量参数对的语音信号;n1表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号在t∈(0~t1)内出现的次数。
6.如权利要求5所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A所述的能量饱和阈值的评价方法如下:
采用同上所述的方法,分别找到第二切点位置t=t2、第三切点位置t=t3、...、第k切点位置t=tk、...、第K切点位置t=tK;
计算第k-1切点位置到k切点位置之间的能量值,将其记为EG(tk-1~tk);
计算第K切点位置到纯净语音信号终点T之间的能量值EG(tK~T),并称之为剩余能量EG(tK~T);
由上述切片方法可知0<EG(tK~T)<θ0,在切片化处理模块中的评价单元中基于双评价函数δ1、δ2能量饱和阈值进行调整,δ1评价函数公式如下所示:
设置评价函数δ2,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数δ2如下所示:
δ2=n1+n2+...+nk...+nK+nK+1
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数;
能够使δ1和δ2都具有最大值的θ*即为整段纯净语音信号进行切片化处理的能量饱和阈值,不同的纯净语音信号最终会具有不同的θ*,即可以将该纯净语音信号所对应的θ*作为该纯净语音信号的能量标签。
7.如权利要求6所述的基于语音识别的资讯检索方法,其特征在于,所述步骤B中信号关联度的求取方法如下:
通过检索目标语音信号获取模块获取检索目标语音信号,在语音信号过滤模块中对检索目标语音信号进行信号剥离,具体剥离方法同步骤A;
将进行剥离处理后的检索目标语音信号称为纯净检索目标语音信号,记为RV(t*),其中t*表示纯净检索目标语音信号中的时间参数,且t*∈[0,T*],T*表示纯净检索目标语音信号的时长;
在切片化语音资讯存储模块中通过步骤A计算RV(t*)的能量值,并将其记为EG(0~T*);
已知在切片化语音资讯存储模块存储的切片化语音信号{x*(tk-1~tk)}对应的能量标签为θ*,将具有能够使θ*≥EG(0~T*)成立的能量标签的切片化语音信号{x*(tk-1~tk)}送入数据关联模块中;
在数据关联模块中进行资讯检索,具体方法如下:
将纯净语音片段x*(tk-1~tk)中同时具有最大能量参数α*和β*的语音信号记为x*(ik),ik∈(tk-1~tk);
将纯净检索目标语音信号RV(t*)***到纯净语音片段x*(tk-1~tk)中的x*(ik)位置,生成重构语音信号,并通过步骤A计算重构语音信号的能量值,并将其记为EG(0~T*,tk-1~tk);
根据实际需求设置等级化阈值τ∈{τ1,τ2,τ3},τ1表示一级检索阈值、τ2表示二级检索阈值、τ3表示三级检索阈值,且τ3>τ2>τ1;
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索;
当数据关联模块接收到的资讯检索指令为一级检索指令后,输出信号关联度的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块接收到的资讯检索指令为二级检索指令后,输出信号关联度的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块接收到的资讯检索指令为三级检索指令后,输出信号关联度的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块将所检索到的语音资讯信息转换为文字资讯信息,通过文字输出模块输出文字资讯信息,或者通过语音信号输出模块以语音的形式输出所检索到的语音资讯信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519526.0A CN113192507B (zh) | 2021-05-13 | 2021-05-13 | 一种基于语音识别的资讯检索方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519526.0A CN113192507B (zh) | 2021-05-13 | 2021-05-13 | 一种基于语音识别的资讯检索方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113192507A CN113192507A (zh) | 2021-07-30 |
CN113192507B true CN113192507B (zh) | 2022-04-29 |
Family
ID=76981356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110519526.0A Active CN113192507B (zh) | 2021-05-13 | 2021-05-13 | 一种基于语音识别的资讯检索方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192507B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001016936A1 (en) * | 1999-08-31 | 2001-03-08 | Accenture Llp | Voice recognition for internet navigation |
EP2063420A1 (en) * | 2007-11-26 | 2009-05-27 | EyeP Media S.A. | Method and assembly to enhance the intelligibility of speech |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109635151A (zh) * | 2018-12-18 | 2019-04-16 | 深圳市沃特沃德股份有限公司 | 建立音频检索索引的方法、装置及计算机设备 |
TW202019133A (zh) * | 2018-11-12 | 2020-05-16 | 中華電信股份有限公司 | 軟體定義驅動的ict服務端對端協作系統 |
-
2021
- 2021-05-13 CN CN202110519526.0A patent/CN113192507B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001016936A1 (en) * | 1999-08-31 | 2001-03-08 | Accenture Llp | Voice recognition for internet navigation |
EP2063420A1 (en) * | 2007-11-26 | 2009-05-27 | EyeP Media S.A. | Method and assembly to enhance the intelligibility of speech |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
TW202019133A (zh) * | 2018-11-12 | 2020-05-16 | 中華電信股份有限公司 | 軟體定義驅動的ict服務端對端協作系統 |
CN109635151A (zh) * | 2018-12-18 | 2019-04-16 | 深圳市沃特沃德股份有限公司 | 建立音频检索索引的方法、装置及计算机设备 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113192507A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6462651B2 (ja) | 音声翻訳装置、音声翻訳方法及びプログラム | |
CN110880316A (zh) | 一种音频的输出方法和*** | |
US20140161263A1 (en) | Facilitating recognition of real-time content | |
US20070038450A1 (en) | Lattice matching | |
CN115880120B (zh) | 一种在线政务服务***及服务方法 | |
CN108132952A (zh) | 一种基于语音识别的主动型搜索方法和装置 | |
KR20170139650A (ko) | 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 | |
CN111897930A (zh) | 一种自动问答方法与***、智能设备及存储介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
GB2499021A (en) | Reporting the impact of broadcasts | |
CN104142936A (zh) | 匹配音视频的方法和装置 | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
CN114328817A (zh) | 一种文本处理方法和装置 | |
CN113192507B (zh) | 一种基于语音识别的资讯检索方法及*** | |
CN1987852A (zh) | 依据消息内容确定通信对象属性的方法及装置 | |
CN104866604B (zh) | 一种信息处理方法及服务器 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
CN110858234A (zh) | 一种根据人物情感进行信息推送的方法及装置 | |
CN113254617B (zh) | 基于预训练语言模型和编码器的消息意图识别方法及*** | |
CN114822506A (zh) | 一种消息播报方法、装置、移动终端及存储介质 | |
JP6344849B2 (ja) | 映像識別器学習装置、及びプログラム | |
CN110322883B (zh) | 一种语音转文字效果评价优化方法 | |
CN110400578A (zh) | 哈希码的生成及其匹配方法、装置、电子设备和存储介质 | |
Sun et al. | Dual transformer decoder based features fusion network for automated audio captioning | |
KR20200036188A (ko) | 버추얼 상담 시스템 및 이를 이용한 상담방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, economic and Technological Development Zone, Daxing District, Beijing Patentee after: Beijing Zeqiao Medical Technology Co.,Ltd. Address before: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, economic and Technological Development Zone, Daxing District, Beijing Patentee before: Beijing Zeqiao Media Technology Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |