CN1924996B

CN1924996B - 利用语音辨识以选取声音内容的***及其方法

Info

Publication number: CN1924996B
Application number: CN2005100991147A
Authority: CN
Inventors: 沈家麟; 洪健洲
Original assignee: Delta Optoelectronics Inc
Current assignee: Delta Optoelectronics Inc
Priority date: 2005-08-31
Filing date: 2005-08-31
Publication date: 2011-06-29
Anticipated expiration: 2025-08-31
Also published as: CN1924996A

Abstract

本发明为一种利用语音辨识以选取声音内容的***及其方法，用以在依序播放的一声音内容中取得一声音语句，进而于一处理***中进行处理，该***包含：一播放模组，用以播放该声音内容；一接收模组，用以即时接收一使用者所发出的一语音输入语句；一缓冲模组，用以暂存该播放模组所播放的一指定区间内的该声音内容与该使用者所发出的该语音输入语句；一辨识模组，用以撷取该缓冲模组中该指定区间中的该声音内容与该语音输入语句而进行语音辨识；以及一转换模组，用以依照该辨识模组所比对出的最符合该语音输入语句的该声音语句而转换出对应该声音语句的一文字语句，藉以传送至该处理***进行处理。

Description

利用语音辨识以选取声音内容的***及其方法

技术领域

本发明涉及一种选取声音内容的***及其方法，本发明尤其涉及一种利用语音辨识技术以在声音内容中选取出特定声音片段而可进一步进行其后续处理的***及其方法。

背景技术

现行的资讯表达形式多以书面文字的内容(content)为主，而在此书面的文字内容之中常常有一些重要或是关键性的文字语句，对于这些关键语句(key phrases)可以透过***主动加上标记来便于让使用者识别，这些标记像是反白、底线、引号、不同的颜色或是字体变更，或是由使用者主动以键盘、鼠标或输入笔等各式选取工具加以移动标记而选取出，被选取的关键语句可以用来作为进阶搜寻(advanced search)或是关键词索引(keyword index)等等用途。譬如***可以在互联网的网站中对于其网页内容中的关键语句加上超链接，点选后可链接至其他的网页，而一般使用者则是可在电脑屏幕上观看一篇书面文章时，也可将一段关键语句以鼠标选取后，转贴到互联网上的各式搜寻引擎中以寻找出相关的对应文章。

由于，现行的资讯内容多是以文字呈现为主，对于纯粹只有声音表现的资讯内容仍是属于少数，但是在各式移动装置愈来愈普及的情况下，由于屏幕大小的限制，有些讯息由“看”改成“听”更为方便，再加上蓝牙耳机与无限上网等技术的逐渐普及，愈来愈多的资讯表达形式是采用“听”的声音内容，而对于在这些声音内容中如何去选取关键语句(key phrase)成了需要解决的问题。

此外，因为前述的采用“看”的书面文字内容是以并行的方式(parallel)来表达其讯息，而“听”的声音内容却是以顺序的方式(sequential)来表示其资讯内容，因此显然无法像对书面的文字内容一样使用既有选取工具，如超链接或是由鼠标选取其关键语句等等方式，来选取声音内容，因此使用者如何与声音内容有效进行互动成了逐渐增加的需求。

综上所述，由于现今声音内容在选取其关键语句的技术仍有不足之处，因此发明人有鉴于上述现有技术的缺点而发明出本发明“利用语音辨识以选取声音内容的***及其方法”。

发明内容

本发明的主要目的在于提供一种利用语音辨识以选取声音内容的***及其方法，其可以利用现有的语音辨识方法并经过适当搭配运用以达到声音内容与使用者的有效互动。

本发明的另一目的在于提供一种利用语音辨识以选取声音内容的***及其方法，其在播放一段声音内容后，对使用者所发出的语音输入语句与该使用者发出语音输入语句前的指定区间内所播出的声音内容来进行语音辨识，而选取出此段声音内容中的特定声音语句，进而进行后续的处理。

本发明的又一目的为提供选取声音内容的***，用以在依序播放的一声音内容中取得一声音语句，进而于一处理***中进行处理，其包含：一播放模组，用以播放该声音内容；一接收模组，用以即时接收一使用者所发出的一语音输入语句；一缓冲模组，用以暂存该播放模组所播放的一指定区间内的该声音内容与该使用者所发出的该语音输入语句，且该指定区间为当该接收模组接收到该语音输入语句时，该播放模组在一最后指定时间内所播放的该声音内容；一辨识模组，用以撷取该缓冲模组中该指定区间中的该声音内容与该语音输入语句而进行语音辨识，进而比对辨识出该指定区间的该声音内容中最符合该使用者所发出的该语音输入语句的该声音语句；以及一转换模组，与该辨识模组连接，用以依照该辨识模组所比对出的最符合该语音输入语句的该声音语句而转换出对应该声音语句的一文字语句，进而提供给该处理***进行处理。

根据上述构想，该***还包含一来源数据库，而该来源数据库可以包含有多个文字内容，因此该转换模组还可与该来源数据库和该播放模组连接，用以撷取该来源数据库的一文字内容并转换成该声音内容而透过该播放模组播放。

根据上述构想，该来源数据库也可以是包含有多个文字内容与语音资讯，因此该播放模组则是该播放模组撷取该来源数据库的语音数据以播出该声音内容。

根据上述构想，其最后指定时间为20秒。

根据上述构想，该处理***为一语音对话***、一索引分类***、一操控***或是一进阶搜寻***，倘若该处理***为该进阶搜寻***，则可以透过一检索模组以检索出对应该文字语句的相关文字或是语音资讯以供该使用者使用。

本案的又一目的为提供一种选取声音内容的***，用以在依序播放的一声音内容中取得一声音语句，其中该声音内容更具有多个声音标记，用以标记出该声音内容中的多个关键用语，其包含：一播放模组，用以播放带有该声音标记的该声音内容；一接收模组，用以即时接收一使用者所发出的一语音输入语句；一辨识模组，对该声音内容的多个关键用语与该语音输入语句进行语音辨识，进而比对辨识出该等关键用语中最符合该使用者所发出的该语音输入语句的该声音语句；一缓冲模组，用以暂存所述播放模组所播放的一指定区间内的所述声音内容与所述使用者所发出的所述语音输入语句，其中所述辨识模组撷取所述缓冲模组中的该指定区间内的所述声音内容与所述使用者所发出的所述语音输入语句进行辨识；以及一转换模组，用以依照该辨识模组所比对出的最符合该语音输入语句的该声音语句而转换出对应该声音语句的一文字语句。

根据上述构想，该辨识模组透过一直接声波比对出最相近的可能的直接比对双方的声音波形方式或是。

该根据上述构想，该辨识模组透过选自一隐藏式马可夫模型方式(Hidden Markov Model，HMM)、一神经网络方式(Neural Networks)、一动态时间校准方式(Dynamic Time Warping，DTW)或一语音模版比对方式(Template Matching)来进行语音辨识。

根据上述构想，该声音标记为以不同快慢、不同声调或不同音量来表示该关键用语，或是该声音标记为对该关键用语的前后加上提示音的方法标记。

根据上述构想，该转换模组所转换出的该文字语句，进而提供一处理***中进行后续处理。

本案的又一目的为提供一种选取声音内容的方法，用以在依序播放的一声音内容中取得一声音语句，进而进行一后续处理程序，其包含下列步骤：(a)播放该声音内容；(b)接收一使用者所发出的一语音输入语句；(c)将该语音输入语句与在一指定区间内所播放的该声音内容进行语音辨识；以及(d)从指定区间内的该声音内容中比对出最符合该使用者所发出的该语音输入语句的该声音内容，进而进行该后续处理程序。

根据上述构想，该声音内容还具有多个声音标记，用以标记出该声音内容中的多个关键用语，因此

根据上述构想，该步骤(c)还包含将该语音输入语句与该指定区间内的该声音内容中带有该多个其中之一的关键用语进行语音辨识。

根据上述构想，该步骤(d)还包含由该多个关键用语中比对出最符合该使用者所发出的该语音输入语句的该声音语句。

根据上述构想，该步骤(c)透过一比对出最相近的可能的直接比对双方的声音波形方式或是透过选自一隐藏式马可夫模型方式、一神经网络方式、一动态时间校准方式或一语音模版比对方式来进行语音辨识。

根据上述构想，该步骤(d)还包含一步骤(d1)转换该声音内容为一文字语句。

根据上述构想，该后续处理步骤为一进阶搜寻步骤、一关键字索引步骤、一语音对话***或是一操控程序。

本案的功效与目的，可藉由下列实施方式说明，对其有更深入的了解。

附图说明

图1(A)为本发明第一较佳实施例的一种利用语音辨识以选取声音内容的***的简要配置架构示意图。

图1(B)为本发明第二较佳实施例的一种利用语音辨识以选取声音内容的***的简要配置架构示意图。

图2为本发明较佳实施例的一种利用语音辨识以选取声音内容的方法的流程示意图。

具体实施方式

对于下文中说明本发明，本领域普通技术人员须了解下文中的说明仅作为例证用，而不用于限制本发明。

以下针对本案较佳实施例的利用语音辨识以选取声音内容的***及其方法进行描述，但实际架构与所采行的方法并不必须完全符合描述的架构与方法，本领域普通技术人员当能在不脱离本发明的实际精神及范围的情况下，做出种种变化及修改。

请参阅图1(A)和(B)，其分别为本发明所揭示的一种利用语音辨识以选取声音内容的***及其方法的简要***架构示意图。本发明的选取***10包含有一播放模组11、一接收模组12、一缓冲模组13、一辨识模组14、一转换模组15和一来源数据库16，其借着从该播放模组11所播放出的声音内容中选取出一声音语句，进而可提供给一处理***17进行一后续处理。

其中，由该播放模组11是用来播放出该声音内容以让一使用者依照时间顺序听到该声音内容，而该接收模组12则是用以即时接收该使用者所发出的一语音输入语句，此外，该缓冲模组13则是暂存着该播放模组11所播放的一指定区间内的该声音内容与由该接收模组12所接收的该使用者所发出的该语音输入语句，因此，该辨识模组14是撷取该缓冲模组13中该指定区间中的该声音内容与该语音输入语句而进行语音辨识，进而比对辨识出该指定区间的该声音内容中最符合该使用者所发出的该语音输入语句的该声音语句，于是，该转换模组15是用以依照该辨识模组14所比对出的最符合该语音输入语句的该声音语句而转换出对应该声音语句的一文字语句，而该来源数据库16则是提供该播放模组11所播放的声音内容来源。

此外，根据该来源数据库16的所储存资讯的种类不同，该选取***10的组成架构亦略有不同。

于是，请参阅图1(A)，其为本案第一实施例的选取***10，其中该来源数据库16包含有多个文字内容，因此该转换模组15还可与该来源数据库16和该播放模组11相互连接，而该转换模组15可撷取该来源数据库16中多个文字内容其中的一文字内容并转换成该声音内容而透过该播放模组11来播出，同时，透过该转换模组15，同时也可将欲播放的声音内容储存在该缓冲模组13中。

此外，若是该来源数据库16是包含有多个文字内容与语音资讯时，在此情况下，请参阅图1(B)，该来源数据库16则是无须与该转换模组15连接，而是直接可以由该播放模组11撷取该来源数据库16中的语音数据而播放的该声音内容，且该来源数据库16也可将欲播放的声音内容储存在该缓冲模组13中。

且由于使用者是以时间顺序听到该声音内容，因此该使用者所发出的语音输入语句通常是属于刚听过的声音内容，因此本发明设定出该指定区间为当该接收模组12接收到该语音输入语句时，该播放模组11在一最后指定时间内所播放的该声音内容，并且将该指定区间的声音内容暂存在该缓冲模组13中，其中该最后指定时间可以设定为20秒或是其他的任意时间。此外，当该接收模组12接收到该使用者所发出的该语音输入语句时，该语音输入语句也会储存在该缓冲模组13，于是该辨识模组14只要撷取该缓冲模组13所储存的该声音内容与该语音输入语句并利用语音辨识技术加以比对选取出在该指定区间的该声音内容中最符合该使用者所发出的该语音输入语句的该声音语句，同时也可透过该转换模组15将所比对选取出的该声音语句转换为一文字语句，进而提供给该处理***17进行处理。

其中该处理***17可以是一语音对话***、一索引分类***、一操控***或是一进阶搜寻***等等，可以根据不同需求而进行不同的后续处理程序，譬如：该语音对话***可以依据该文字语句的涵义而进行一语音对话、该索引分类***可以将其声音内容进行关键字索引程序、该操控***则是可以透过了解其文字语句意义而进而去操控其他程序、或是该进阶搜寻***可将其文字语句透过一检索模组(图中未揭示)以检索出对应该文字语句的相关文字或是语音资讯以供该使用者使用。

且因该处理***17是因应不同需求而进行不同的后续处理程序，譬如：若该处理***17是该索引分类***，则可以仅需要该选取***10提供该声音内容以来进行索引分类，而若该处理***17是该语音对话***、该操控***或是该进阶搜寻***，则可能需要该选取***10提供该文字语句以供该处理***17进一步判断分析。于是，该选取***10即可因应该处理***17的不同类型而传送该声音语句或是该文字语句至该处理***17中来进行后续处理，而在其实际资讯流传送流程上，倘若该选取***10欲传送该声音语句至该处理***17中，则是可以由该辨识模组14传送该声音语句至该处理***17，反之，若是该选取***10欲传送该文字语句至该处理***17中，则可以透过该转换模组15传送转换后的文字语句至该处理***17中。

再则，该辨识模组14是透过一直接声波比对方式或是以一声学模型比对方式来进行语音辨识，其中该直接声波比对方式即是直接比对双方的声音波形，而比对出最相近的可能，而该声学模型比对方式则是透过一隐藏式马可夫模型(Hidden Markov Model，HMM)、一神经网络(Neural Networks)、一动态时间校准(Dynamic Time Warping，DTW)或是一语音模版比对(Template Matching)等各式声学模型来进行语音辨识。

请再参阅图2，其为本发明利用语音辨识以选取声音内容的***及其方法的实施方法流程图。本发明方法先由***播放一段声音内容21，随后再接收使用者所发出的语音输入语句22，且将该语音输入语句与该段播放声音内容中的一指定区间内的声音内容进行语音辨识23，并从该指定区间内的该声音内容中比对选取出最符合该使用者所发出的该语音输入语句的该声音内容24，进而进行一后续处理程序25，其中该后续处理程序可以是一进阶搜寻步骤、一关键字索引步骤、一语音对话***或是一操控程序，且如上面内容所述，当该后续处理程序需要利用文字资讯来进行时，则本发明方法还可以将该声音内容转换成一文字语句以供该后续处理程序进行处理。

此外，为了让语音辨识的效率更高，本发明还可以对该声音内容主动加上标记，以使该声音内容拥有多个声音标记来标记出该声音内容中的多个关键用语，如此可以让使用者在听的时候知道这是属于关键用语，其中该声音标记为以不同快慢、不同声调或不同音量来表示该关键用语或是对该关键用语的前后加上提示音的方法标记。

其中该声音标示可以储存在如图1(A)和(B)所示的来源数据库16中，无论该来源数据库16所储存是纯为文字内容或是同时拥有文字内容和语音资讯，只要透过***的简单设定(譬如：在语音资讯中可以直接储存带有特定声音标记的语音关键语句，而在文字内容中则是可以直接对文字内容中的特定文字片段直接标注出欲标记的声音形式，以便于以后文字转语音时可以播出该特定声音标记)，即可播放出带有声音标记的声音内容。

于是，其语音辨识方式即可以只对该指定区间内的带有声音标记的该声音内容进行语音辨识，因此不但有效节省辨识时间，且辨识率也会相对提高。然而，若单纯以技术讨论，本发明的选取 ***也可以无须特别指定声音内容的区间，而可以直接将全部的声音内容与其语音输入语句进行比对，或是将这些全部的声音内容中带有声音标记的关键用语与该语音输入语句进行比对。

因此，根据本发明所提供的声音内容选取技术来即时选取适当的声音语句，其提供了一种便利的互动机制以让使用者与以顺序方式呈现的(sequential)声音内容有效互动，大幅改善了过去使用者只能一直处在被动的立场倾听该声音内容来撷取资讯，且改进了过去的声音内容不能像以并行方式呈现(parallel)的书面文字内容一样同样拥有很多的工具帮助人与其内容的互动。

于是在实际应用上，本发明可适用在各种以声音内容传达资讯的各式互动设备(如移动装置、蓝牙设备或上网装置)中，只要透过本发明所提供的声音内容选取机制，就可以让使用者在声音内容中轻易的选取出所欲指定的声音语句，进而可提供作为后续的相关处理或服务项目中，而此使用者并不需要特别的训练或是记忆特殊的操作指令。

综上所述，本案确实可提供一种利用语音辨识以选取声音内容的***及其方法，其突破了在固有播放声音内容无法与使用者进行互动的问题，而是利用既有语音识别的技术并搭配适当的资讯存取技术以及特殊的语音标记模式，以让使用者所发出的语音输入语句和所播放的声音内容进行语音辨识，进而选取出此段声音内容中的特定声音语句，进而进行后续的各式处理程序，此技术无须增加许多繁复的软硬体设备，而实施成本极为低廉。因此，本发明声音内容选取***及其选取声音内容的方法的技术相对简单但却可提供极高的便利性，使用者无须特别训练或学习并可运用到各种以声音表达资讯的领域，且可以有效增进产业的进步，本发明技术简单，可运用领域广泛，实具产业的价值，遂依法提出发明专利申请。

以上所述利用较佳实施例详细说明本发明，而非限制本发明的范围，因此本领域普通技术人员应能明了，适当而作些微小的改变与调整，仍将不失本发明的要义所在，也不脱离本发明的精神和范围，故都应视为本发明的进一步实施状况。

本发明所主张的范围应以权利要求书中的权利要求所述的为准。

Claims

1.一种选取声音内容的***，用以在依序播放的一声音内容中取得一声音语句，进而于一处理***中进行处理，包含：

一播放模组，用以播放所述声音内容；

一接收模组，用以即时接收一使用者所发出的一语音输入语句；

一缓冲模组，用以暂存所述播放模组所播放的一指定区间内的所述声音内容与所述使用者所发出的所述语音输入语句，且该指定区间为当该接收模组接收到该语音输入语句时，该播放模组在一最后指定时间内所播放的一已听过的声音内容；

一辨识模组，用以撷取所述缓冲模组中所述指定区间中的所述已听过的声音内容与所述语音输入语句而进行语音辨识，进而比对辨识出所述指定区间的所述声音内容中的所述声音语句，其中该声音语句最符合所述使用者所发出的所述语音输入语句；以及

一转换模组，与所述辨识模组连接，用以依照所述辨识模组所比对出的所述声音语句而转换出对应所述声音语句的一文字语句，进而提供给该处理***进行处理。

2.如权利要求1所述的***，其特征在于还包含：一来源数据库，该来源数据库具有多个文字内容，其中所述转换模组还与所述来源数据库和所述播放模组连接，用以撷取所述来源数据库的一文字内容并转换成所述声音内容而透过所述播放模组播放；及/或一来源数据库，该来源数据库具有多个文字内容与语音资讯，其中所述播放模组撷取所述来源数据库的语音数据以播出所述声音内容。

3.如权利要求1所述的***，其特征在于所述最后指定时间为20秒；所述处理***为一进阶搜寻***，其中所述处理***透过一检索模组以检索出对应所述文字语句的相关文字或是语音资讯

以供该使用者使用；及/或所述处理***为选自一语音对话***、一索引分类***和一操控***其中之一。

4.一种选取声音内容的***，用以在依序播放的一声音内容中取得一声音语句，其中所述声音内容还具有多个声音标记，用以标记出所述声音内容中的多个关键用语，该***包含：

一播放模组，用以播放带有所述声音标记的所述声音内容；

一辨识模组，对所述声音内容的多个关键用语与所述语音输入语句进行语音辨识，进而比对辨识出所述这些关键用语中的所述声音语句，其中该声音语句最符合所述使用者所发出的所述语音输入语句；

一缓冲模组，用以暂存所述播放模组所播放的一指定区间内的所述声音内容与所述使用者所发出的所述语音输入语句，其中所述辨识模组撷取所述缓冲模组中的该指定区间内的所述声音内容与所述使用者所发出的所述语音输入语句进行辨识；以及

一转换模组，用以依照所述辨识模组所比对出的所述声音语句而转换出对应所述声音语句的一文字语句。

5.如权利要求4所述的***，其特征在于所述辨识模组透过一直接比对双方的声音波形方式以比对出最相近的声音波形或是透过选自一隐藏式马可夫模型方式、一神经网络方式、一动态时间校准方式或一语音模版比对方式来进行语音辨识；表示该关键用语的该声音标记被表示为不同快慢、不同声调或不同音量，或该声音标记被表示为对所述关键用语的前后加上提示音，且所述文字语句提供给一处理***以进行后续处理。

6.一种选取声音内容的方法，用以在依序播放的一声音内容中取得一声音语句，进而进行一后续处理步骤，该方法包含下列步骤：

(a)播放所述声音内容；

(b)接收一使用者所发出的一语音输入语句；

(c)将所述语音输入语句与在一指定区间内所播放的所述声音内容进行语音辨识；以及

(d)从指定区间内的所述声音内容中比对出最符合所述使用者所发出的所述语音输入语句的所述声音内容，进而进行所述后续处理步骤；转换所述声音内容为一文字语句；及/或所述后续处理步骤为一进阶搜寻步骤、一关键字索引步骤、一语音对话***或是一操控步骤。

7.如权利要求6所述的方法，其特征在于所述声音内容还具有多个声音标记，用以标记出所述声音内容中的多个关键用语；所述步骤(c)的所述声音内容包含所述多个关键用语；所述步骤(d)还包含由所述多个关键用语中比对出所述声音语句，其中该声音语句最符合所述使用者所发出的所述语音输入语句；及/或表示所述关键用语的所述声音标记被表示为不同快慢、不同声调或不同音量，或该声音标记被表示为对所述关键用语的前后加上提示音。

8.如权利要求6所述的方法，其特征在于所述步骤(c)透过一直接比对双方的声音波形方式以比对出最相近的声音波形或是透过选自一隐藏式马可夫模型方式、一神经网络方式、一动态时间校准方式或一语音模版比对方式来进行语音辨识。