CN104796584A

CN104796584A - 具有语音识别功能的提词装置

Info

Publication number: CN104796584A
Application number: CN201510196636.2A
Authority: CN
Inventors: 吴大中; 彭昀昊; 吴琴; 陈颖曼; 曹念文
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2015-07-22

Abstract

具有语音识别功能的提词装置，包含主控制器、显示器、无线话筒、无线语音接收识别模块、用户设置按钮电路、预置文本存取电路和USB接口电路，无线话筒接收来自演讲者或播音员的语音信号，将接收到的语音信号无线发送给与之对应的语音信号接收识别模块；该模块经过非特定人、连续语音、大量词汇的语音识别技术的处理，将语音信号转化为文字传给主控制器；通过主控制器将这段文字与预置文本中的语句进行对比并找到该语句；最后在显示器中采用双下划线、有色、加粗的文字显示该句，并以放大、有色、加粗的文字显示该句下文部分内容。该装置能使播音员集中精力去播音，有利于播音质量的提高。

Description

具有语音识别功能的提词装置

技术领域：

本发明属于信号处理领域，特别涉及一种具有语音识别功能的提词装置。

背景技术:

20世纪80年代，随着HMM模型和人工神经元网络（ANN）等技术在语音识别中的成功应用，人们终于在实验室突破了非特定人、大量词汇和连续语音这三大语音识别障碍。2013年9月12日，科大讯飞推出了支持普通话的离线语音输入软件——讯飞输入法。离线语音会直接嵌入在讯飞输入法中，用户通过下载一个15.39M的离线语音包，即可在不联网的状态下使用语音输入。讯飞输入法是第一款支持离线语音的输入法。离线语音的识别率比基于云的讯飞输入法95%的识别率略低，大概在90%以上。

根据国际会议的调查发现，由于报告的内容过多，大部分演讲者会采取有稿件的宣读演讲。经统计发现，其中低头看稿件的时间约占总演讲时间的70%。这会因缺少与听众的眼神交流而使演讲效果不佳。对于演讲者而言，当视线从听众再次回到演讲稿时，会出现在密密麻麻的演讲稿中难以迅速找到下文的问题。倘若不能迅速找到，势必会使演讲效果大打折扣。

据了解，电视台播音员前方有提词器的显示屏，上面显示有稿子的内容。对于电视播音员，由于距离比较远，所以显示屏上所容纳的字数有限，这就需要频繁的字幕滚动或者频繁的切换屏幕内容。据悉，中央电视台新闻播音员语速虽然没有精确规定每分钟多少字，但大致播音速度在每分钟300字左右。由此可知，对于不同的播音员（例如，张宏民的语速是350字/min，李瑞英265字/min），由于存在语速的差别，在字幕滚动速度或者屏幕内容切换频率上就会需要人工设置。在使用过程中不仅繁琐，更会影响播音质量。而采用其他人工方法（用脚踩踏板）去切换字幕，会使播音员精力分散，同样不利于播音。

专利CN101505397A的专利名称为“一种语音和视频字幕同步呈现的方法及***”，在该方法中采用的是模式匹配的方式去实现特定人的语音识别。对这种语音信号的处理只适用于特定人，而且识别效果容易受到情绪、身体状况等因素的影响，***的鲁棒性差。这个语音识别***在给某个人使用前必须进行大量的语音采集工作，然后制成语音模型。这样就极大地限制了该***的使用范围，而且按照文意是大量词汇、连续语音的语音识别***，所以从语音采集到制成模型库需要大量时间。

发明内容

发明目的：本发明提出了一种提词装置，首先它是基于非特定人、大量词汇、连续语音的语音识别，这使该装置的使用具有广泛性，克服了特定人语音识别***需要针对每个用户建模的缺点。其次它能使演讲者有更多的时间去面对听众，当视线返回演讲稿时也能迅速、准确地看见所要读的下文内容。最后在电视播音领域，它也能消除，因不同语速的播音员而需要人工设置字幕滚动速度或者屏幕切换频率给播音带来的不便。由于显示器上的内容总是会与演讲或播音的内容自动同步，所以无需预先设定字幕滚动速度、屏幕切换频率或采取其他方式进行字幕切换。

技术方案如下：

具有语音识别功能的提词装置，包含主控制器5、显示器6、无线话筒1、无线语音接收识别模块2、用户设置按钮电路7、预置文本存取电路4和USB接口电路3。

主控制器5作为中央处理单元分别与无线语音接受识别模块2、预置文本存取电路4、显示器6、用户设置按钮电路7及USB接口电路3以硬件相连。无线话筒与无线语音接受模块以自由空间为传输媒介相连，无线话筒1接受语音信号并调制该信号，调制完成后以特定频率的无线电波发送到空间中。无线语音接受模块从空间中接受这个特定频率的无线电波，然后经过解调，提取出语音信号。无线语音接受模块与语音识别模块以硬件相连，在主控制器5的作用下，使解调出的语音信号与语音模板库进行匹配，最后将匹配的结果转化为文字并与预置文本存取电路4中的文本内容进行匹配。达到设定的匹配条件后，在主控制器5的控制下，显示器6按设置要求显示预置文本中的该句，并按设置的要求显示该句下文部分内容。当有外部存储设备通过USB接口与USB接口电路3相连时，可以在文件目录中选择文本复制到预置文本存取电路3中，作为语音识别结果的匹配依据。用户设置按钮电路7与主控制器5的某些I/O口相连，通过改变对应I/O口的电平使程序运行参数（字体、大小、颜色等）得到改变，从而改变显示效果。

以下就每一个模块作详细的介绍：

无线话筒用于接收语音信号，语音信号经处理后会以无线电波的方式发送到空间环境中。

无线语音接收、识别模块2，包含两个方面，一个是语音接收模块，另一个是语音识别模块。语音接收模块的作用是接收无线话筒产生的复合信号，通过解调电路从载波中提取出语音信号。语音识别模块的作用是将解调出的语音信号进行语音的识别，将语音信号转化为文字传递给主控制器5处理。

USB接口电路3，用于在主控制器的控制下向预置文本存取电路导入预置文本文件。所谓预置文本文件就是我们的演讲稿或新闻稿的电子文档，它需要事先导入到提词装置***中，为显示提供模板，同时也为语音识别的结果提供对比的依据。此电路还可以用于语音包的更新，具体做法是在主控制器的控制下将移动存储设备里的新语音包去覆盖掉原有无线语音接收、识别模块的语音包，达到更新语音包以提高识别率的目的。

预置文本存取电路，用于保存预置文本信息。

主控制器，用于处理各个模块的信息。具体包括将无线语音接收、识别模块所识别出的文字信息与预置文本相比较，找到符合相似度的文字。并且还控制显示器按照用户设置的参数来显示。

显示器，用于显示演讲稿或新闻稿的部分内容，让演讲人和播音员在醒目放大字体的突出下直观、清晰地看到他们要读的下文。

用户设置按钮电路，用于用户的输入。考虑到不同的用户有不同的喜好或习惯，不同用户可以自己设定一些参数。这些参数有字体、文字大小、文字颜色、背景、显示下文的句子数目等。

有益效果

在这种提词装置的帮助下，演讲者能够有更多的时间去面对听众。当视线返回演讲稿时也能迅速、准确的看见所要读的下文内容，这些都有利于增强演讲效果。对于电视播音员，在该提词装置的帮助下，能消除因不同语速的播音员而需要人工设置字幕滚动速度或者屏幕切换频率给播音带来的不便，同时也能避免采用其他人工方法去切换字幕。这都能使播音员集中精力去播音，有利于播音质量的提高。

附图说明

图1是该提词装置***的示意图。1是无线话筒；2是无线语音接受、识别模块；3是USB接口电路；4是预置文本存取电路；5是主控制器；6是显示器；7是USB母口。

图2是该提词装置显示器的结构示意图；按钮21是电源开关；按钮22是开始/暂停键；按钮23是设置键；按钮24是上移键；按钮25是下移键；按钮26是确认键；插口27是USB母口；28是显示屏主窗口，用于显示文本内容。

具体实施方式

下面将结合实例和附图对该发明的技术方案进行具体描述。

图1是该提词装置***的示意图。如图1所示，此***包含主控制器、显示器、无线话筒、无线语音接收识别模块、用户设置按钮电路、预置文本存取电路和USB接口电路。下面对各部分的功能以及各部分之间的关系做详细说明。

无线话筒1，也叫无线麦克风，能用于接收语音信号，语音信号经处理后会以无线的方式发送到空间环境中。具体过程为，无线麦克风的麦头使用电容柱集体，接受到声压时将使麦头的电容量发生改变。麦头接在震荡器回路中，由于麦头电容量的变化，其震荡器频率将发生相应的改变，这个频率就包含了语音信号。电路中还包含一个固定频率的载波，用来承载这个语音信号。经过调制电路后，载波会与语音信号复合形成一个复合信号，然后复合信号通过无线发射电路发送到空间环境中。这里采用无线话筒是因为其移动性强、与音源近，可以接收到比较原始的语音信号，有利于后续的语音识别的准确性。

无线语音接收、识别模块2，包含两个方面，一个是语音接收模块，另一个是语音识别模块。语音接收模块的作用是接收1产生的复合信号，通过解调电路从载波中提取出1中的语音信号。语音识别模块的作用是将解调出的语音信号进行语音的识别，将语音信号转化为文字传递给主控制器5处理。

以下介绍均是以汉语这种语言为背景的，根据不同国家或地区可以开发适用于当地的装置。

本发明的语音识别***采用了模式匹配的原理。根据这个原理，未知语音的模式要与已知语音的参考模式逐一进行比较，最佳匹配的参考模型被作为识别结果。具体过程包括模板库的训练、语音信号的预处理、语音信号的特征提取、模式匹配和判别结果的输出。

模板库的训练在识别之前进行，是通过收集大量具有代表性的声音，从原始语音样本中去除冗余信息，保留关键数据。再将数据按一定规则对数据加以类聚，形成模板库。据了解，国内语音行业的龙头——科大讯飞，其产品“讯飞语音输入法”在下载一个大约15.39M的语音包（语音模板库）后，能将非特定人、大量词汇、连续的语音信号转化为文字，识别率达到90%以上。若采取云技术，识别率能达到95%。语音信号的预处理包括语音信号采样、抗混叠带滤波器、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题，有时还包括模数转化。语音信号的特征提取用于提取反应本质特征的声学参数。常用的特征有短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、清音浊音或声母韵母标志、基音频率、倒谱等。模式匹配是整个语音识别***的核心，是根据一定的准则以及专家知识（例如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度。最后向主控制器5输出相似度最高的匹配结果。

USB接口电路3，用于在主控制器5的控制下向预置文本存取电路4导入预置文本文件。所谓预置文本文件就是我们的演讲稿或新闻稿的电子文档，它需要事先导入到提词装置***中，为显示提供模板，同时也为语音识别的结果提供对比的依据。而USB接口电路3提供了向提词装置***输入预置文本文件及语音包的途径。我们可以通过移动存储设备与USB接口电路3相连，将移动存储设备中的演讲稿文件，按用户的选择复制到预置文本存取电路4中。此电路还可以用于语音包的更新，具体做法是将移动存储设备里的新语音包去覆盖掉原有无线语音接收、识别模块的语音包，达到更新语音包以提高识别率的目的。USB接口电路3与移动存储设备的接口是一个USB母口，位于显示器右下方，如图2所示。当USB设备***USB接口后，USB外设的控制芯片会通过两只10K的电阻来检查USB设备是否接入了主机的USB端口。如果这两个引脚一个为高电平，一个为低电平时就表示USB外设已经正常确连入USB接口，这时外设的控制芯片开始工作，并通过DATA＋，DATA－向外送出数据。这时主机接收数据后，就会提示发现新硬件，并开始安装新硬件驱动。驱动安装成功后，我们就可以对移动存储设备的文件进行操作。

预置文本存取电路4，用于保存预置文本信息。当模块2将识别结果输出给主控制器5时，主控制器5会让识别结果与预置文本中的语句进行比对。我们可以设定一个相似度，当相似度大于多少（例如80%）时，就表示演讲者或播音员刚才读的是该语句。然后我们将该句后面的一句或几句（可以根据用户设定来改变突出显示的句子数目）文字采用醒目放大字体显示在显示器6上，这就完成了提词的功能。

主控制器5，用于处理各个模块的信息。具体包括将模块2所识别出的文字信息与预置文本相比较，找到符合相似度的文字。并且还控制显示器按照用户设置的参数来显示。

显示器6，用于显示演讲稿或新闻稿的部分内容，让演讲人和播音员在醒目放大字体的突出下直观、清晰地看到他们要读的下文。

显示器的外部结构图如图2所示。

用户设置按钮电路7，用于用户的输入。考虑到不同的用户有不同的喜好或习惯，不同用户可以自己设定一些参数。这些参数有字体、文字大小、文字颜色、背景、显示下文的句子数目等。这些设置按钮分布在显示器上，具***置如图2所示。具体按钮有电源开关21、开始/暂停键22、设置键23、上移键24、下移键25和确认键26。

电源开关21，用于控制整个提词装置***是否通电，是整个***的总开关。

开始/暂停键22，用于控制语音识别是否进行，选择“开始”时表示进行语音识别，选择“暂停”表示不进行语音识别。

设置键23，用于对字体、文字大小、文字颜色、背景、显示下文的句子（以任意两个标点符号之间的文字为一个句子）数目的设置以及进入U盘文件目录。以中文为例，字体有宋体、华文行楷、楷体、隶书和新宋体等常用字体，默认为宋体。文字大小有24pt、30pt、36pt、48pt和60pt，默认为30pt。文字和背景颜色有黑色、白色、红色、橙色等常用颜色，默认为白色背景，黑色字体，突出显示的字体部分为红色。对于显示下文的句子数目有1、2、3、4，默认为突出显示下文2句。

上移键24，在***参数设置界面，用于控制光标的向上移动。下移键25，在***参数设置界面，用于控制光标的向下移动。具体实施可以通过改变指向光标的指针来实现光标的移动。

确认键26，在***参数设置界面，用于选定光标所在位置的内容。具体实施可以通过按键去改变变量的值，进而改变程序的运行方式。

插口27,在显示屏侧面,用于与U盘等USB设备相连,以便导入预置文本。

28是显示屏主窗口。用于显示文本内容。

以下对实际过程中的显示效果做文字描述：在使用过程中双下划线的语句表示是刚刚识别出的语句，放大的字体部分表示将要念的下文。这样的显示方式便于人们朗读，提词效果好。有两点需要说明：其一，如何判断一个句子？在这里我们以任意两个标点符号之间的文字为一个句子，此***会将选中的预置文本提前分成一个一个的句子，并进行编号。然而，在文章中往往会出现两个标点符号之间字数过少的情况，字数太少无疑会影响识别的结果和定位的准确性。所以当两个标点符号之间的字数不足一定时（例如为7），我们会将它并到下一句话中。其二，为了解决屏幕切换给演讲或者播音带来的不便，我们让突出显示的部分始终处于屏幕的中间偏上位置，当字幕刷新时也不会给阅读者带来不适感。具体过程是在显示内容变化时将已经念过的部分从屏幕上方快速移除，未念过的部分从屏幕下方快速加载。

Claims

1.具有语音识别功能的提词装置，其特征在于，包括无线话筒（1）、无线语音接收识别模块（2）、USB接口电路（3）、预置文本存取电路（4）、主控制器（5）、显示器（6）、用户设置按钮电路（7），主控制器（5）作为中央处理单元分别与无线语音接受识别模块（2）、预置文本存取电路（4）、显示器（6）、用户设置按钮电路（7）及USB接口电路（3）以硬件相连，无线话筒（1）与无线语音模块（2）以自由空间为传输媒介，通过无线话筒（1）接收来自演讲者或播音员的语音信号，将接收到的语音信号无线发送给与之对应的语音信号接收识别模块（2），该模块经过语音识别技术的处理，将语音信号转化为文字传给主控制器（5），通过主控制器（5）将这段文字与预置文本存取电路（4）中的语句进行对比，并找到该语句；最后在显示器（6）中显示。

2.如权利要求1所述的提词装置，其特征在于，所述无线语音接收识别模块（2）包括一个是语音接收模块和一个语音识别模块，语音接收模块接收无线话筒产生的复合信号，通过解调电路从载波中提取出语音信号；语音识别模块的作用是将解调出的语音信号进行语音的识别，将语音信号转化为文字传递给主控制器（5）处理。