CN105677919A

CN105677919A - 一种语言资源有声数据的存储和检索方法

Info

Publication number: CN105677919A
Application number: CN201610120131.2A
Authority: CN
Inventors: 何建勇
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2016-06-15

Abstract

本发明提供了一种语言资源有声数据的存储和检索方法，本存储方法是将多个单词的语音、说明文本、图像、动画合成为一个有声视频进行整体保存，并对该有声视频建立一个具有检索播放功能的播放工具，使其可在多种媒体上进行对单词的快速检索和播放。本发明对语言资源有声数据的处理采用语音数据加上对应的说明文本、图像、动画，对语音的说明更加准确；将语音数据加上对应的说明文本、图像、动画合成为视频进行存储，可以在电脑、手机、网络、电视等不同媒体上传播，同时数据不容易被人修改；合成为视频存储后,可以针对电脑、手机等制作简单的检索播放工具，在电脑、手机上对单词进行检索播放，检索速度快，学习者使用起来会非常方便。

Description

一种语言资源有声数据的存储和检索方法

技术领域

本发明涉及一种语言资源有声数据的存储和检索方法，属于数据处理技术领域。

背景技术

中国是世界上语言资源最丰富的国家之一，中国拥有55个少数民族，除满族和回族已使用通用汉语外，其他民族都有自己的语言，有些民族内部的不同支系还使用着不同的语言。因此，传承和发展少数民族语言文字和文化，成为中国保护语言多样性的关键工作。国家语言文字工作委员会于2008年启动了“中国语言资源有声数据库”项目，要求各地以县为单位按照科学、统一的规划，调查收集当代汉语方言、少数民族语言和带有地方特色的普通话的实态、有声语料，并进行科学整理、加工和有效保存，以便将来深入研究和有效地开发利用，保护民族语言文化遗产。这是一项具有深远意义的国家重大语言文字工程。

语言资源有声数据一般包括语音和对该语音的说明材料两部分，在目前的数据库中，这两部分多数是分开存储的，即将每种语言对每个单词的发音做成独立的音频文件存储在一处，而每个音频文件相对应的说明材料存储在另一处，需要学习某种语言的某个单词时，通过软件从音频文件库和说明材料文件库中分别检索并调取相应的文件进行组合播放，这种存储方法可以在多台电脑上保存，容量大，但当数据库容量较大时，软件对单词的检索耗时较长，播放发音会比较慢，用户体验不佳，而且此类软件一般只能在电脑上使用，无法在手机、电视等客户端进行使用，使用终端过于局限。另外，由于目前所选用的说明材料一般仅采用文本，没有结合对应的说明图像、动画等进行合成处理，对于一些单词的表达可能会不够确切，比如有些方言同一个词，不同的动作有不同的方言表达，如果配有动画动作加以说明就比较清楚些，更利用学习者的领会。

发明内容

本发明的目的是提供一种与常规方法完全不同的语言资源有声数据的存储和检索方法，本存储方法是将多个单词的语音、说明文本、图像、动画合成为一个有声视频进行整体保存，并对该有声视频建立一个具有检索播放功能的播放工具，使其可在多种媒体上进行对单词的快速检索和播放，学习者使用起来会非常方便。

本发明的语言资源有声数据的存储和检索方法包括以下步骤：

（1）、将需要存储的所有单词的语音、说明文本、图像、动画文件采集完整，把所有单词排列成若干页，排列方法为：先设定每页最多排入的单词数，然后由前至后排满前页后再排入下一页，最后一页剩余多少则排入多少。

（2）、按单词在页面上排列顺序依次对该页单词的语音文件进行播放，播放单词语音的同时还调用该单词对应的说明文本、图像和动画在页面一旁进行同步显示，一页单词播放完后跳转到下一页继续播放，直至所有单词全部播放完成；播放时为单词设定一个统一的播放时长，使每个单词的播放时间均相等，并且要保证在设定的播放时长内所有单词的语音文件均能完全发音；播放时还要为翻页时的页面跳转设定一个页面跳转时间。

在本步骤中，对于单词的播放可以只选择一种语言的发音，也可以选择多种语言的发音。只选择一种语言的发音时，每个单词的语音文件均按设定的播放时长播放一遍；当选择多种语言的发音时，每个单词的每种被选择语言的语音文件均按设定的播放时长依次播放一遍。

（3）、将步骤（2）中所有单词的语音、说明文本、图像、动画的播放和显示过程用录屏软件录成一段视频，由此实现将单词的语音、说明文本、图像、动画合为一个有声视频进行整体存储。

在本步骤中，可将录制好的视频转换为不同的视频格式以便在不同的设备上存储和播放。

（4）、将所录制视频的所有单词从第一页第一个到最后一页最后一个按顺序排入一个数组中，用编程语言编制一个具有检索播放功能的播放工具，使用该播放工具，根据所录制视频的单词播放时长、页面跳转时间和各单词在数组中的排列位置，即可算出任一单词在视频中的播放位置，进而实现对任一单词的语言资源有声数据的精确检索和播放。

在本步骤中，可使用不同的编程语言编写成不同的播放工具，以适应电脑、手机、网络、电视等不同媒体的播放需求。

由于各单词的语音长短有时相差很大，设定一个统一的播放时长时要按照语音最长的单词定，这样在播放语音较短的单词时会有很长的空白时间，不利于简洁播放，因此可以先将单词按照单词语音的长短分好组，分别对每组单词设定一个合适的播放时长，再按照上述步骤（1）、（2）、（3）的方法将各组单词分别录成一段视频，然后将各段视频合并成一个整体视频，由此实现对语言资源有声数据的整体存储；检索播放时，将每组单词从第一页第一个到最后一页最后一个按顺序排入一个数组中，再根据各段视频在整体视频中的顺序将各数组合并成一个总数组，用编程语言编制一个具有检索播放功能的播放工具，使用该播放工具，根据每段视频在整体视频中的位置、每段视频的单词数量、每段视频的单词播放时长、页面跳转时间和各单词在总数组中的排列位置，即可算出任一单词在整体视频中的播放位置，进而实现对任一单词的语言资源有声数据的精确检索和播放。

本发明的语言资源有声数据的存储及检索方法具有以下优点：

（1）、本发明对语言资源有声数据的处理采用语音数据加上对应的说明文本、图像、动画，对语音的说明更加准确。因为对于某些特殊的方言，仅仅是用语音说明只能保证读音的准确，但缺乏图像或动画说明，有时会造成学习者意思上的误解。

比如：老鹰在广西都安瑶族自治县的一个地方瑶语中有两种讲法，一种是个子比较大的，常在高山岩洞上，能抓鸡抓羊，目前已基本绝迹，当地汉语名叫“大老鹰”，另一种是个子相对较小的，只能抓鸡，目前还偶有见到，当地汉语名叫“小老鹰”，“大老鹰”和“小老鹰”瑶语的录音如果只是用语音和文本记录下来，后人在学习瑶语时可能就会将“大老鹰”理解为成年会飞的老鹰，“小老鹰”理解为在窝里毛没长完的雏鹰，如能加上图像说明，学习者一看就懂得这是两个品种的老鹰，这就保证了保存下来的瑶语语音表达意思的准确性。

（2）、本发明将语音数据加上对应的说明文本、图像、动画合成为视频进行存储，可以在电脑、手机、网络、电视等不同媒体上传播，同时数据不容易被人修改，时代不同，只要转换格式，又可以在新的设备上使用。

（3）、本发明将语音数据加上对应的说明文本、图像、动画合成为视频后,可以针对电脑、手机等制作简单的检索播放工具，在电脑、手机上对单词进行检索播放，检索速度快，非常方便。

附图说明

图1为单词播放软件的一个页界面。

图2为录成视频的一个播放页。

图3为视频检索播放工具的一个检索页界面。

具体实施方式

下面结合具体实施例和附图对本发明做进一步说明。

本发明的语言资源有声数据的存储及检索方法包括以下步骤：

如本实施例单词总量有3000个，设定每页排入58个单词，则排成52页，前51页全部排满，第52页排入42个单词。

图1为按上述条件制作的单词播放软件的一个页界面，播放单词语音文件的同时在页界面左边显示单词对应的说明文本、图像、动画，如图1所示，本页第28个单词“公鸡”发出普通话语音时左边显示的对应的说明文本（包括文字和拼音）和图像。右边的是本页的单词排列。在页界面的左下方可以选择一种语言的发音或选择多种语言的发音，在页界面的右下方设有单发音按钮、播放时长设定按钮和多发音按钮，单发音按钮用于连续播放一种语言的发音，而多发音按钮用于连续播放多种语言的发音，播放时长设定按钮用于设定每个单词发音的播放时长。如图中设定的播放时长是2秒，当按下单发音按钮时，会从“公鸡”单词开始发出普通话单词语音，0到2秒发出第28个“公鸡”语音，2到4秒发第29个“母鸡”语音，4到6秒发第30个“土鸡”语音，6到8秒发第31个“小鸡”语音，依此类推，一个接一个，一页接一页连续往后发音，再按一次则停止。当按下多发音按钮时，会从“公鸡”单词开始依次发出普通话、瑶语、苗语、壮话、英语等被选择语言的语音，每个语言的语音播放时间均为2秒，播完一个单词后，再到下一个单词，依此类推，一个接一个，一页接一页连续往后发音，再按一次则停止。播放时长设定成2秒，则要保证所有单词都能在2秒内完全发音，当单词的语音较长时，需适当增加播放时长。翻页时的页面跳转时间可在做软件时进行设定。

由于各单词是在相同的播放时长内完全发音，每页单词个数一样，每页发音的时间相等，所以可以算出某页某个词在视频中的播放时段。图2为按步骤（3）录成的视频的一个播放页，假设在步骤（2）中选中的是普通话单发音，图2所示的是第9页，单词播放时长是2秒，视频中的第9页第32个单词“石路”可以按如下方法算出其播放时间段：

每页58个词所用时间：58×2＝116秒

上页到下页跳转所用时间：假定为2秒（可在做软件时设定）

从第1页到第9页有8次页面跳转，页面跳转总用时间：8×2＝16秒

视频从第1页播放到第9页开头所用总时间：116×8＋16＝944秒

第9页从第1个词到第31个词所用时间：31×2＝62秒

从第1页到第9页第31个词播放所用总时间：944＋62＝1006秒

那么第9页第32个词“石路”播放时间段为：1006秒到1008秒。

因此，如果选择播放时间段为1006秒到1008秒,视频就会播放单词“石路”的语音并显示对应的文本图像。

在制作视频播放工具时，只要找到单词对应的播放时间段，就能找到单词语音播放视频，图3所示为用编程语言编制的一个简单的视频检索播放工具的一个检索页界面，在制作播放工具时，只要找到输入单词是第几页第几个，就可算出单词视频的时间段。具体方法如下：

先将所录制视频中的所有单词从第一页第一个到最后一页最后一个按顺序排入一个数组中，找出输入查找的单词在数组的第几个，那么：

数组中第几个÷每页的单词数＝商数＋余数

当余数不为0时，得到的商数＋1就是第几页，余数就是第几个；

当余数为0时，得到的商数就是第几页，且是该页的最后一个。

比如单词有3000个，将这3000个单词按顺序排列好存放到一个数组里，假如单词“花”在数组中是第256个，每页单词有58个，那么：

256÷58＝商4＋余数24

因此，单词“花”在视频中是在第5页第24个，图3所示的录制视频为一个普通话、瑶语、苗语、壮话、英语共五种语言发音的多方言语音视频，每个单词的每种语言的语音文件均按2秒的播放时长依次播放一遍，每个单词共播放10秒，因此按之前的计算方法：

每页58个词所用时间：58×2×5＝580秒

上页到下页跳转所用时间：2秒

从第1页到第5页有4次页面跳转，页面跳转总用时间：4×2＝8秒

视频从第1页播放到第5页开头所用总时间：580×4＋8＝2328秒

第5页从第1个词到第23个词所用时间：23×2×5＝230秒

从第1页到第5页第23个词播放所用总时间：2328＋230＝2558秒

那么第5页第24个词“花”播放时间段为：2558秒到2568秒

这样，播放视频的2558秒到2568秒，即可找到单词“花”的五种语言发音的视频，其中2558秒到2560秒播放“花”的普通话发音，2560秒到2562秒播放“花”的瑶语发音，2562秒到2564秒播放“花”的苗语发音，2564秒到2566秒播放“花”的壮话发音，2566秒到2568秒播放“花”的英语发音，播放工具的检索播放功能就是这样根据单词与播放时间段（或者帧数段）来对应实现的。

Claims

1.一种语言资源有声数据的存储和检索方法，其特征在于，包括以下步骤：

（1）、将需要存储的所有单词的语音、说明文本、图像、动画文件采集完整，把所有单词排列成若干页，排列方法为：先设定每页最多排入的单词数，然后由前至后排满前页后再排入下一页，最后一页剩余多少则排入多少；

（2）、按单词在页面上排列顺序依次对该页单词的语音文件进行播放，播放单词语音的同时还调用该单词对应的说明文本、图像和动画在页面一旁进行同步显示，一页单词播放完后跳转到下一页继续播放，直至所有单词全部播放完成；播放时为单词设定一个统一的播放时长，使每个单词的播放时间均相等，并且要保证在设定的播放时长内所有单词的语音文件均能完全发音；播放时还要为翻页时的页面跳转设定一个页面跳转时间；

（3）、将步骤（2）中所有单词的语音、说明文本、图像、动画的播放和显示过程用录屏软件录成一段视频，由此实现将单词的语音、说明文本、图像、动画合为一个有声视频进行整体存储；

2.根据权利要求1所述的存储和检索方法，其特征在于，所述步骤（2）中对于单词的播放只选择一种语言的发音时，每个单词的语音文件均按设定的播放时长播放一遍；当选择多种语言的发音时，每个单词的每种被选择语言的语音文件均按设定的播放时长依次播放一遍。

3.根据权利要求1所述的存储和检索方法，其特征在于，所述步骤（3）中，将录制好的视频转换为不同的视频格式以便在不同的设备上存储和播放。

4.根据权利要求1所述的存储和检索方法，其特征在于，所述步骤（4）中，使用不同的编程语言编写成不同的播放工具，以适应电脑、手机、网络、电视不同媒体的播放需求。

5.一种语言资源有声数据的存储和检索方法，其特征在于，先将单词按照单词语音的长短分好组，分别对每组单词设定一个合适的播放时长，再按照如权利要求1所述的步骤（1）、（2）、（3）的方法将各组单词分别录成一段视频，然后将各段视频合并成一个整体视频，由此实现对语言资源有声数据的整体存储；检索播放时，将每组单词从第一页第一个到最后一页最后一个按顺序排入一个数组中，再根据各段视频在整体视频中的顺序将各数组合并成一个总数组，用编程语言编制一个具有检索播放功能的播放工具，使用该播放工具，根据每段视频在整体视频中的位置、每段视频的单词数量、每段视频的单词播放时长、页面跳转时间和各单词在总数组中的排列位置，即可算出任一单词在整体视频中的播放位置，进而实现对任一单词的语言资源有声数据的精确检索和播放。