CN103546623A

CN103546623A - 用于发送语音信息及其文本描述信息的方法、装置与设备

Info

Publication number: CN103546623A
Application number: CN201210242430.5A
Authority: CN
Inventors: 陈莹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-01-29
Anticipated expiration: 2032-07-12
Also published as: CN103546623B

Abstract

本发明的目的是提供一种用于将语音信息与其文本描述信息相关联地进行发送的方法、装置与设备。其中，首先获取对待识别语音信息进行语音识别处理所得的文本识别结果信息；接着，本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息；随后，文本描述信息与所述语音信息相关联地进行发送。与现有技术相比，本发明中移动终端能够将语音信息及其文本描述信息相结合的进行发送，使得作为接受一方的用户能够将语音信息与包括其主要内容的文本描述信息相结合的进行信息的获取，使得用户在无需收听语音信息的情况下也能够了解语音信息的内容，并实现了用户通过听觉与视觉相结合的方式直观地获取语音信息中的语音内容，提高用户使用体验。

Description

用于发送语音信息及其文本描述信息的方法、装置与设备

技术领域

本发明涉及移动终端信息发送领域，尤其涉及一种用于将语音信息与其文本描述信息相关联地进行发送的方法、装置与设备。

背景技术

随着移动互联网在人们的生活中扮演越来越重要的角色，人们可随时随地通过移动终端在互联网中进行信息的传递与交互。但现有技术中，移动终端接收用户输入的语音信息并直接进行发送，因此，作为接收一方的用户需要将该语音信息下载至本地并执行收听操作才能够知道语音信息的内容，其无法在没有收听语音消息的情况下直观地获取该语音信息中的语音内容，亦不可以通过听觉与视觉相结合的方式获取语音信息中的语音内容，从而导致用户体验度不高。

发明内容

本发明的目的是提供一种用于将语音信息与其文本描述信息相关联地进行发送的方法、装置与设备。

根据本发明的一个方面，提供了一种在移动终端中用于将语音信息与其文本描述信息相关联地进行发送的方法，该方法包括以下步骤：

a获取对待识别语音信息进行语音识别处理所得的文本识别结果信息；

b根据所述文本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息；

c将所述文本描述信息与所述语音信息相关联地进行发送。

根据本发明的另一方面，还提供了一种用于将语音信息与其文本描述信息相关联地进行发送的发送装置，该发送装置包括：

识别结果获取装置，用于获取对待识别语音信息进行语音识别处理所得的文本识别结果信息；

描述信息生成装置，用于根据所述文本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息；

关联发送装置，用于将所述文本描述信息与所述语音信息相关联地进行发送。

与现有技术相比，本发明具有以下优点：1)移动终端能够将语音信息及其文本描述信息相结合的进行发送，使得作为接受一方的用户能够将语音信息与包括其主要内容的文本描述信息相结合的进行信息的获取，使得用户在无需收听语音信息的情况下也能够了解语音信息的内容，并实现了用户通过听觉与视觉相结合的方式直观地获取语音信息中的语音内容，提高用户信息获取体验；2)由于作为接受一方的用户仅通过浏览该文本描述信息即可直观的获取语音信息中的主要内容，当在语音信息的语音内容较多，需要花费较多时间收听语音的情况下，提高了接收到该文本描述信息的用户的信息获取效率；3)通过将文本描述信息以多种形式与语音信息相关联地进行发送，实现了多元化的语音信息与文本信息相结合的发送方式，提高用户使用体验；4)进一步，作为接收一方的用户也可首先对文本描述信息进行浏览，以判断其是否希望收听语音信息，从而实现用户对垃圾语音信息的预判，避免收听语音垃圾信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出本发明一个方面的用于将语音信息与其文本描述信息相关联地进行发送的发送装置的结构示意图；

图2示出根据本发明一个优选实施例的用于将语音信息与其文本描述信息相关联地进行发送的发送装置的设备示意图；

图3示出根据本发明另一个优选实施例的用于生成用于描述所述语音信息的语音内容的文本描述信息的描述信息生成装置；

图4示出根据本发明另一个方面用于将语音信息与其文本描述信息相关联地进行发送的方法流程图；

图5示出根据本发明一个优选实施例的用于将语音信息与其文本描述信息相关联地进行发送的方法流程图；

图6示出根据本发明另一个优选实施例的用于生成用于描述所述语音信息的语音内容的文本描述信息的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出本发明一个方面的用于将语音信息与其文本描述信息相关联地进行发送的发送装置的结构示意图。本实施例的发送装置包含于移动终端中；该发送装置包括识别结果获取装置1、描述信息生成装置2和关联发送装置3。

其中，所述移动终端包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件可包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述移动终端包括但不限于任何可适用于本发明的能够通过键盘、触摸屏等与用户进行交互的电子产品，诸如平板电脑、手机、PDA、掌上电脑(PPC)、游戏机(PSP)等。

本领域技术人员应能理解上述移动终端仅为举例，其他现有的或今后可能出现的移动终端如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

首先，识别结果获取装置1获取对待识别语音信息进行语音识别处理所得的文本识别结果信息。

其中，所述待识别语音信息的来源包括但不限于：

1)来自使用移动终端的用户通过该移动终端输入的语音信息；

2)来自存储于移动终端的本地语音库中的待发送语音信息；

3)来自第三方设备的转发至移动终端的待发送语音信息。

其中，本领域技术人员应能够根据实际情况和需求来确定所述语音识别的方式。优选地，所述语音识别的方式包括但不限于：

1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别方式；其中，DTW和模板匹配技术直接利用提取的语音特征作为模板，能用于实现孤立词语音识别中。

2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别语音识别方式；其中，该语音识别方式通过对大量语音数据进行数据统计，建立识别统计模型，然后从待识别语音中提取特征，与该等模型匹配，通过比较匹配分析以获得识别结果。

3)人工神经网络ANN(Artificial Neural Networks)的语音识别方式；该语音识别方式是在模仿动物神经网络行为特征，以形成分布式并行信息处理的算法数学模型的基础上的语音识别方式。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何语音识别的实现方式，均能够包含在本发明的范围内。

具体地，识别结果获取装置1获取对待识别语音信息进行语音识别处理所得的文本识别结果信息的方式包括但不限于：

1)识别结果获取装置1获取移动终端对待识别语音信息进行语音识别处理所得的文本识别结果信息；

在一示例中，首先，使用移动终端的用户借助该移动终端的语音交互装置，如麦克风，向该移动终端输入待识别语音信息；移动终端接收该待识别语音信息，接着，该移动终端的识别结果获取装置1对该待识别语音信息进行语音识别处理，例如，从该待识别语音中提取语音特征，与基于HMM识别算法生成的语音模型进行匹配，通过比较匹配分析以获得文本识别结果信息。

2)识别结果获取装置1获取网络设备对移动终端提供给其的待识别语音信息进行语音识别处理所得的文本识别结果信息；

其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

其中，所述移动终端与所述网络设备之间可通过任何通信方式实现通信，包括但不限于，基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。所述移动终端与所述网络设备之间连接的网络包括但不限于：互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。

在一示例中，识别结果获取装置1将存储于移动终端的本地语音库中的一条待发送语音信息发送至网络设备；网络设备对该语音信息进行语音识别处理，以获得文本识别结果信息；随后网络设备将该网络文本识别结果信息发送至该移动终端，该移动终端接收该网络设备返回的该文本识别结果信息。

3)优选地，识别结果获取装置1将从移动终端本地获取的文本识别结果信息与从网络设备获得文本识别结果相结合，以获得结合后的文本识别结果；其中，识别结果获取装置包括第一结果获取装置(图未示)及第二结果获取装置(图未示)；第一结果获取装置获取所述移动终端对所述待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对所述移动终端提供给其的所述待识别语音信息进行语音识别处理所得的网络文本识别结果信息；接着，第二结果获取装置根据所述本地文本识别结果信息与所述网络文本识别结果信息，获得所述文本识别结果信息。

具体地，第一结果获取装置获取移动终端对待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对该移动终端提供给其的该待识别语音信息进行语音识别处理所得的网络文本识别结果信息；接着，第二结果获取装置对该本地文本识别结果信息及该网络文本识别结果信息，通过自然语言分析规则分别进行分析识别，例如通过句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，对本地及网络文本识别结果信息分别进行解析，以确定本地及网络文本识别结果信息中语义正确的文本信息，以作为文本识别结果信息。其中，所述自然语言分析规则意指通过该自然语言分析规则实现人机之间自然语言的通信，即实现计算机对自然语言的理解，其可通过OpenNLP、FudanNLP、Standford NLP、语言技术平台(LTP)等自然语言处理工具来实现。

例如，第一结果获取装置获取移动终端对待识别语音信息进行语音识别处理所得的本地文本识别结果信息，该本地文本识别结果信息为“今天晚上6点蛋，咱们东单地铁站口见，别忘了拿上文件”，以及，网络设备对该移动终端提供给其的该待识别语音信息进行语音识别处理所得的网络文本识别结果信息，该网络文本识别结果为“今天晚上6点半，咱们东单地铁站B口见，别忘了拿”；接着，第二结果获取装置首先确定本地文本识别结果信息及网络文本识别结果信息中的交集为“今天晚上6点X，咱们东单地铁站X口见，别忘了拿XXX”，并通过句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，分别对该本地文本识别结果信息及该网络文本识别结果信息进行分析识别，以确定该两个文本识别结果不相交部分的语音正确的文本内容为“点”、“B”和“上文件”，随后获取合并后的文本识别结果为“今天晚上6点半，咱们东单地铁站B口见，别忘了拿上文件”。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何获取对待识别语音信息进行语音识别处理所得的文本识别结果信息的实现方式，均应包含在本发明的范围内。

通过从移动终端本地和网络分别获取文本识别结果，实现了在本地语音识别能力较弱的情况下，网络设备可向该移动终端提供较高语音识别能力的技术支持，以确保获得的文本识别结果的准确性和可靠性，进一步为能够获得较为精确的描述语音信息中语音内容的文本描述信息提供有力保证。

接着，描述信息生成装置2根据识别结果获取装置1获取的文本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息。

其中，描述信息生成装置2根据文本识别结果信息生成用于描述语音信息的语音内容的文本描述信息的方式包括但不限于：

1)描述信息生成装置2根据文本识别结果信息中的前第一预定字符数或前第二预定完整语句数，生成文本描述信息；

例如，语音信息识别出的文本识别结果信息为“我很想去看碟中谍4，不知道哪里还在上映，咱们找找吧”，描述信息生成装置2提取该文本识别结果信息中第1个完整语句“我很想去看碟中谍4”，以作为用于描述该语音信息的语音内容的文本描述信息。

可选地，当文本识别结果信息中包括的字符数小于或等于第三预定字符数，或文本识别结果信息中包括的完整语句数小于或等于第四预定语句数时，则描述信息生成装置2将该文本识别结果信息整体作为用于描述语音信息的语音内容的文本描述信息；

例如，语音信息识别出的文本识别结果信息为“你几点下班”，即其中仅包括1个完整语句数，即小于第四预定语句数2，则描述信息生成装置2将该文本识别结果信息整体“你几点下班”作为用于描述语音信息的语音内容的文本描述信息。

2)该发送装置还包括关键词提取装置(图未示)，关键词提取装置从识别结果获取装置1获取的文本识别结果信息中提取至少一个主体关键词；描述信息生成装置2包括子生成装置(图未示)，其根据所述至少一个主体关键词中的部分或全部关键词，生成文本描述信息。

具体地，关键词提取装置从识别结果获取装置1获取的文本识别结果信息中提取每一语句的主语、谓语和宾语，优选地，还可包括诸如定语、状语等，或者，关键词提取装置从识别结果获取装置1中获取实词，以作为该文本识别结果信息的主体关键词；接着，子生成装置根据该至少一个主体关键词中的部分或全部关键词，生成文本描述信息。优选地，当文本识别结果信息仅包括一个词语时，关键词提取装置将该词语作为主体关键词。

优选地，子生成装置根据至少一个主体关键词中的部分或全部关键词，生成文本描述信息的方式包括但不限于：

a将至少一个主体关键词中的前第六预定字符数的主体关键词相结合，以生成文本描述信息；

b将至少一个主体关键词中的全部关键词相结合，以生成文本描述信息。

在一示例中，语音信息已识别出的文本识别结果信息为“今天可能下雨，出门时你拿上门后面的雨伞”，关键词提取装置通过句子切分、部分词性标注、名称抽取、解析等自然语言分析规则，从该文本识别结果中提取第一句的主语“今天”及谓语“下雨”，提取第二句的主语“你”、谓语“拿上”及宾语“雨伞”；子生成装置根据该等全部主体关键词，将第一句的主语和谓语进行合并，以生成“今天下雨”，将第二句的主语、谓语和宾语进行合并，以生成“你拿上雨伞”，即生成文本描述信息“今天下雨，你拿上雨伞”。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据文本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息的实现方式，例如，将能够文本识别结果信息与预定关键词库中的关键词进行匹配查询，并将文本识别结果信息中能够匹配出的关键词作为从其中提取出的关键词等，均应包含在本发明的范围内。

以文本描述信息作为描述语音信息的语音内容，能够保证作为接受一方的用户仅通过浏览该文本描述信息，即可直观且准确的获取语音信息中的主要内容，当在语音信息的语音内容较多，需要花费较多时间收听语音的情况下，还能提高该用户的信息获取效率。

随后，关联发送装置3将描述信息生成装置2获取的文本描述信息与所述语音信息相关联地进行发送。

优选地，所述文本描述信息与所述语音信息相关联地方式包括但不限于以下至少一种：

1)将文本描述信息作为语音信息的标题信息；

2)将文本描述信息作为语音信息的摘要信息；

3)将文本描述信息作为语音信息的属性信息，例如，将文本描述信息加入语音文件的属性描述中。

其中，关联发送装置3将文本描述信息与语音信息相关联地进行发送的方式包括但不限于以下情形：

1)将文本描述信息作为语音信息的标题信息，与语音信息相关联地进行发送；

例如，关联发送装置3将该标题信息作为语音信息的文件名，将具有该文件名的语音信息进行发送；当作为接受一方的用户接收到该语音信息时，可直接通过浏览该语音信息的文件名获得该语音信息的语音内容。

2)将文本描述信息作为语音信息的摘要信息，与语音信息相关联地进行发送；

例如，关联发送装置3将语音信息作为摘要信息中的语音信息附件，将具有该语音信息附件的摘要信息进行发送；当作为接受一方的用户接收到该摘要信息时，可直接通过该摘要信息的文本内容获得该语音信息的语音内容。

又例如，关联发送装置3将摘要信息以隐藏方式，如将摘要信息隐藏为一个能够被点击的图形对象，与语音信息相关联的进行发送，当作为接受一方的用户接收到该语音信息，并对该图形对象进行点击、悬浮等操作时，所隐藏的摘要信息被呈现。

3)将文本描述信息作为语音信息的属性信息，与语音信息相关联地进行发送；

例如，关联发送装置3将文本描述信息作为语音信息的属性信息中的属性标题、属性主题内容等，与语音信息相关联的进行发送，当作为接受一方的用户接收到该语音信息时，点击查看该语音信息的属性信息，可获得该文本描述信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何将所述文本描述信息与所述语音信息相关联地进行发送的实现方式，均应包含在本发明的范围内。

由于移动终端能够将语音信息及其文本描述信息相结合的进行发送，使得作为接受一方的用户能够将语音信息与包括其主要内容的文本描述信息相结合的进行信息的获取，使得用户在无需收听语音信息的情况下也能够了解语音信息的内容，并实现了用户通过听觉与视觉相结合的方式直观地获取语音信息中的语音内容，提高用户信息获取体验；同时，通过将文本描述信息以多种形式与语音信息相关联地进行发送，实现了多元化的语音信息与文本信息相结合的发送方式，提高用户使用体验；进一步，作为接收一方的用户也可首先对文本描述信息进行浏览，以判断其是否希望收听语音信息，可实现用户对垃圾语音信息的预判，避免收听语音垃圾信息。

作为本实施例的优选方案之一(参照图1)，发送装置还包括设置信息获取装置(图未示)，设置信息获取装置获取所述移动终端的发送设置信息；关联发送装置3将所述文本描述信息与所述语音信息相关联地进行发送的操作包括：根据所述发送设置信息，将所述文本描述信息与所述语音信息相关联地进行发送。

具体地，设置信息获取装置获取移动终端的发送设置信息的方式包括但不限于：

1)从移动终端中用于信息发送的应用的配置信息库中读取预置的发送设置信息，例如，发送设置信息包括将文本识别结果信息作为标题信息进行发送；

2)通过与使用移动终端的用户进行交互，实时地获取用户设置的移动终端的发送设置信息。

接着，当关联发送装置3需要将文本描述信息与语音信息相关联地进行发送时，其根据设置信息获取装置获取的发送设置信息，将文本描述信息与语音信息以发送设置信息中示出的相关联发送方式，进行发送。

在一示例中，首先，设置信息获取装置读取移动终端中信息发送应用的配置信息库，获得发送设置信息为将文本描述信息作为语音信息的摘要信息，与语音信息相关联的进行发送；随后，关联发送装置3根据该发送设置信息，将语音信息作为摘要信息中的语音信息附件，将具有该语音信息附件的摘要信息进行发送。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根获取所述移动终端的发送设置信息，将所述文本描述信息与所述语音信息相关联地进行发送的实现方式，均应包含在本发明的范围内。

通过根据发送设置信息将文本描述信息与语音信息相关联地进行发送，实现了可配置的关联发送方式，用户可预置或实时地选择其所期望的发送方式，提高信息发送方式的可控性，进而提高用户使用体验。

图2示出根据本发明一个优选实施例的用于将语音信息与其文本描述信息相关联地进行发送的发送装置的设备示意图。本实施例中的发送装置包括识别结果获取装置1、描述信息生成装置2、关联发送装置3、位置信息提取装置4和地图信息获取装置5；其中，关联发送装置3包括子关联发送装置31。

其中，识别结果获取装置1和描述信息生成装置2已在参照图1所示实施例中予以详述，在此不再赘述。

位置信息提取装置4提取所述文本识别结果信息中的地理位置信息。具体地，位置信息提取装置4可采用多种方式提取文本识别结果信息中的地理位置信息，例如，其可采用的方式包括但不限于：

1)位置信息提取装置4通过预定的用于识别地理位置信息的正则表达式，在文本识别结果信息中进行匹配识别，以确定该文本识别结果信息中与该正则表达式相匹配的地理位置信息；

例如，以C Sharp语言为例，通过预定的表示地理位置信息“XX市XX区”的正则表达式：

″(？<c>.*？)市(？<d>.*？)区.*″，

在文本识别结果信息中进行匹配，以确定与该正则表达式相匹配的地理位置信息为“北京市海淀区”；其中，所述C Sharp语音为一种对象导向(object-oriented)程序语言。

2)位置信息提取装置4根据预定的地理信息字符串，在文本识别结果信息中进行匹配识别，以确定该文本识别结果信息中与该预定地理信息字符串相匹配的地理位置信息；

例如，预定的地理信息字符串分别为“北京市海淀区”、“北京市朝阳区”、“北京市东城区”，将该三个地理信息字符串分别在文本识别结果信息进行匹配识别，确定“北京市东城区”与该文本识别结果中包括的文本序列相匹配，则提取该地理信息字符串对应的该文本序列，以作为地理位置信息。

接着，地图信息获取装置5根据所述地理位置信息，获得所述地理位置信息所属地理区域的地图信息。具体地，地图信息获取装置5可采用多种方式获得地理位置信息所属地理区域的地图信息，例如，其可采用的方式包括但不限于：

1)地图信息获取装置5通过调用移动终端本地的地图应用接口(API)，将地理位置信息作为输入参数，在地图应用中进行位置查询，以生成该地理位置信息所属地理区域的地图信息，如生成地图图片；

2)地图信息获取装置5根据地理位置信息，在移动终端本地或网络设备的地图信息库中进行匹配查询，以获取预存的与该地理位置相对应的地图信息。

随后，子关联发送装置31将地图信息和文本描述信息，与语音信息相关联地进行发送；如将地图信息和文本描述信息作为语音信息的图文摘要信息、又如将文本描述信息作为语音信息与地图信息的标题信息、又如将地图信息和文本描述信息作为语音信息的属性信息，与语音信息相关联地进行发送。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何提取所述文本识别结果信息中的地理位置信息，根据所述地理位置信息，获得所述地理位置信息所属地理区域的地图信息，接着将所述地图信息和所述文本识别结果信息，与所述语音信息相关联地进行发送的实现方式，均应包含在本发明的范围内。

当语音信息中包括地理位置信息时，通过将该地理位置信息所属地理区域的对应的地图信息与文本识别结果信息相关联的发送，使得接收一方的用户无需自行查找，即能直接可视化地获取地理位置信息所属地理区域的准确位置，提高用户浏览体验。

图3示出根据本发明另一个优选实施例的用于生成用于描述所述语音信息的语音内容的文本描述信息的描述信息生成装置2。描述信息生成装置2包括初始文本生成装置21、呈现装置22和描述信息获取装置23。

其中，初始文本生成装置21根据文本识别结果信息，生成用于描述语音信息的语音内容的初始文本描述信息。其方式与参照图1所示描述信息生成装置2根据文本识别结果信息，生成用于描述语音信息的语音内容的文本描述信息的方式相同或相似，在此不再赘述。

呈现装置22将所述初始文本描述信息呈现给使用所述移动终端的用户。

例如，呈现装置22将初始文本生成装置21生成的初始文本描述信息，通过页面技术，如JSP、ASP、PHP，按一定顺序和格式在移动终端显示屏幕中呈现给用户，供使用该移动终端的用户进行浏览。

接着，描述信息获取装置23根据所述用户对所述文本描述信息的调整操作，获取调整后的文本描述信息。

例如，描述信息获取装置23通过与该用户的交互操作，获取该用户对该文本描述信息的调整操作，如删除、添加、语序调整等；随后根据该(等)调整操作，对该文本描述信息进行相应调整，以获取调整后的文本描述信息。

需要说明的是，上述举例仅为更好地说明本发明的技术方案，而非对本发明的限制，本领域技术人员应该理解，任何根据所述文本识别结果信息，生成用于描述所述语音信息的语音内容的初始文本描述信息，接着将所述初始文本描述信息呈现给使用所述移动终端的用户，随后根据所述用户对所述文本描述信息的调整操作，获取调整后的文本描述信息的实现方式，均应包含在本发明的范围内。

通过获取用户对初始文本描述信息进行调整操作以获取调整后的文本描述信息，从而使得在初始文本描述信息不准确的情况下，用户对初始文本描述信息执行调整编辑操作成为可能，提高文本描述信息的内容准确性，从而保证将更为准确的调整后的文本描述信息与语音信息相关联地进行发送。

图4示出本发明一个方面的用于将语音信息与其文本描述信息相关联地进行发送的方法流程图。根据本优选实施例的方法包括步骤S1、步骤S2和步骤S3。其中，本发明的方法主要通过移动终端来实现。

首先，在步骤S1中，移动终端获取对待识别语音信息进行语音识别处理所得的文本识别结果信息。

其中，所述待识别语音信息的来源包括但不限于：

2)来自存储于移动终端的本地语音库中的待发送语音信息；

3)来自第三方设备的转发至移动终端的待发送语音信息。

具体地，在步骤S1中，移动终端获取对待识别语音信息进行语音识别处理所得的文本识别结果信息的方式包括但不限于：

1)在步骤S1中，移动终端获取移动终端对待识别语音信息进行语音识别处理所得的文本识别结果信息；

在一示例中，首先，使用移动终端的用户通过与该移动终端的语音交互方式，如通过麦克风，向该移动终端输入待识别语音信息；移动终端接收该待识别语音信息，接着，在步骤S1中，移动终端对该待识别语音信息进行语音识别处理，例如，从该待识别语音中提取语音特征，与基于HMM识别算法生成的语音模型进行匹配，通过比较匹配分析以获得文本识别结果信息。

2)在步骤S1中，移动终端获取网络设备对移动终端提供给其的待识别语音信息进行语音识别处理所得的文本识别结果信息；

在一示例中，在步骤S1中，移动终端将存储于移动终端的本地语音库中的一条待发送语音信息发送至网络设备；网络设备对该语音信息进行语音识别处理，以获得文本识别结果信息；随后网络设备将该网络文本识别结果信息发送至该移动终端，该移动终端接收该网络设备返回的该文本识别结果信息。

3)优选地，在步骤S1中，移动终端将从移动终端本地获取的文本识别结果信息与从网络设备获得文本识别结果相结合，以获得结合后的文本识别结果；其中，步骤S1包括步骤S11(图未示)和步骤S12(图未示)；在步骤S11中，移动终端获取所述移动终端对所述待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对所述移动终端提供给其的所述待识别语音信息进行语音识别处理所得的网络文本识别结果信息；接着，在步骤S12中，移动终端根据所述本地文本识别结果信息与所述网络文本识别结果信息，获得所述文本识别结果信息。

具体地，在步骤S11中，移动终端获取移动终端对待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对该移动终端提供给其的该待识别语音信息进行语音识别处理所得的网络文本识别结果信息；接着，在步骤S12中，移动终端对该本地文本识别结果信息及该网络文本识别结果信息，通过自然语言分析规则分别进行分析识别，例如通过句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，对本地及网络文本识别结果信息分别进行解析，以确定本地及网络文本识别结果信息中语义正确的文本信息，以作为文本识别结果信息。其中，所述自然语言分析规则意指通过该自然语言分析规则实现人机之间自然语言的通信，即实现计算机对自然语言的理解，其可通过OpenNLP、FudanNLP、Standford NLP、语言技术平台(LTP)等自然语言处理工具来实现。

例如，在步骤S11中，移动终端获取移动终端对待识别语音信息进行语音识别处理所得的本地文本识别结果信息，该本地文本识别结果信息为“今天晚上6点蛋，咱们东单地铁站口见，别忘了拿上文件”，以及，网络设备对该移动终端提供给其的该待识别语音信息进行语音识别处理所得的网络文本识别结果信息，该网络文本识别结果为“今天晚上6点半，咱们东单地铁站B口见，别忘了拿”；接着，在步骤S12中，移动终端首先确定本地文本识别结果信息及网络文本识别结果信息中的交集为“今天晚上6点X，咱们东单地铁站X口见，别忘了拿XXX”，并通过句子切分、部分词性标注、名称抽取、组块、解析等自然语言分析规则，分别对该本地文本识别结果信息及该网络文本识别结果信息进行分析识别，以确定该两个文本识别结果不相交部分的语音正确的文本内容为“点”、“B”和“上文件”，随后获取合并后的文本识别结果为“今天晚上6点半，咱们东单地铁站B口见，别忘了拿上文件”。

接着，在步骤S2中，移动终端根据其在步骤S1中获取的文本识别结果信息，生成用于描述所述语音信息的语音内容的文本描述信息。

其中，在步骤S2中，移动终端根据文本识别结果信息生成用于描述语音信息的语音内容的文本描述信息的方式包括但不限于：

1)在步骤S2中，移动终端根据文本识别结果信息中的前第一预定字符数或前第二预定完整语句数，生成文本描述信息；

例如，语音信息识别出的文本识别结果信息为“我很想去看碟中谍4，不知道哪里还在上映，咱们找找吧”，在步骤S2中，移动终端提取该文本识别结果信息中第1个完整语句“我很想去看碟中谍4”，以作为用于描述该语音信息的语音内容的文本描述信息。

可选地，当文本识别结果信息中包括的字符数小于或等于第三预定字符数，或文本识别结果信息中包括的完整语句数小于或等于第四预定语句数时，则在步骤S2中，移动终端将该文本识别结果信息整体作为用于描述语音信息的语音内容的文本描述信息；

例如，语音信息识别出的文本识别结果信息为“你几点下班”，即其中仅包括1个完整语句数，即小于第四预定语句数2，则在步骤S2中，移动终端将该文本识别结果信息整体“你几点下班”作为用于描述语音信息的语音内容的文本描述信息。

2)该方法还包括步骤S6(图未示)，在步骤S6中，移动终端从其在步骤S1中获取的文本识别结果信息中提取至少一个主体关键词；步骤S2包括步骤S24(图未示)，在步骤S24中，移动终端其根据所述至少一个主体关键词中的部分或全部关键词，生成文本描述信息。

具体地，在步骤S6中，移动终端从其在步骤S1中获取的文本识别结果信息中提取每一语句的主语、谓语和宾语，优选地，还可包括诸如定语、状语等，或者，在步骤S6中，移动终端从其在步骤S1中获取的文本识别结果信息中获取实词，以作为该文本识别结果信息的主体关键词；接着，在步骤S24中，移动终端根据该至少一个主体关键词中的部分或全部关键词，生成文本描述信息。优选地，当文本识别结果信息仅包括一个词语时，在步骤S6中，移动终端将该词语作为主体关键词。

优选地，在步骤S24中，移动终端根据至少一个主体关键词中的部分或全部关键词，生成文本描述信息的方式包括但不限于：

在一示例中，语音信息已识别出的文本识别结果信息为“今天可能下雨，出门时你拿上门后面的雨伞”，在步骤S6中，移动终端通过句子切分、部分词性标注、名称抽取、解析等自然语言分析规则，从该文本识别结果中提取第一句的主语“今天”及谓语“下雨”，提取第二句的主语“你”、谓语“拿上”及宾语“雨伞”；在步骤S24中，移动终端根据该等全部主体关键词，将第一句的主语和谓语进行合并，以生成“今天下雨”，将第二句的主语、谓语和宾语进行合并，以生成“你拿上雨伞”，即生成文本描述信息“今天下雨，你拿上雨伞”。

随后，在步骤S3中，移动终端将其在步骤S2中获取的文本描述信息与所述语音信息相关联地进行发送。

1)将文本描述信息作为语音信息的标题信息；

2)将文本描述信息作为语音信息的摘要信息；

其中，在步骤S3中，移动终端将文本描述信息与语音信息相关联地进行发送的方式包括但不限于以下情形：

例如，在步骤S3中，移动终端将该标题信息作为语音信息的文件名，将具有该文件名的语音信息进行发送；当作为接受一方的用户接收到该语音信息时，可直接通过浏览该语音信息的文件名获得该语音信息的语音内容。

例如，在步骤S3中，移动终端将语音信息作为摘要信息中的语音信息附件，将具有该语音信息附件的摘要信息进行发送；当作为接受一方的用户接收到该摘要信息时，可直接通过该摘要信息的文本内容获得该语音信息的语音内容。

又例如，在步骤S3中，移动终端将摘要信息以隐藏方式，如将摘要信息隐藏为一个能够被点击的图形对象，与语音信息相关联的进行发送，当作为接受一方的用户接收到该语音信息，并对该图形对象进行点击、悬浮等操作时，所隐藏的摘要信息被呈现。

例如，在步骤S3中，移动终端将文本描述信息作为语音信息的属性信息中的属性标题、属性主题内容等，与语音信息相关联的进行发送，当作为接受一方的用户接收到该语音信息时，点击查看该语音信息的属性信息，可获得该文本描述信息。

作为本实施例的优选方案之一(参照图4)，该方法还包括步骤S7(图未示)，在步骤S7中，移动终端获取所述移动终端的发送设置信息；在步骤S3中，移动终端将所述文本描述信息与所述语音信息相关联地进行发送的步骤包括：根据所述发送设置信息，将所述文本描述信息与所述语音信息相关联地进行发送。

具体地，在步骤S7中，移动终端获取移动终端的发送设置信息的方式包括但不限于：

接着，当在步骤S3中，移动终端需要将文本描述信息与语音信息相关联地进行发送时，其根据其在步骤S7中获取的发送设置信息，将文本描述信息与语音信息以发送设置信息中示出的相关联发送方式，进行发送。

在一示例中，首先，在步骤S7中，移动终端读取移动终端中信息发送应用的配置信息库，获得发送设置信息为将文本描述信息作为语音信息的摘要信息，与语音信息相关联的进行发送；随后，在步骤S3中，移动终端根据该发送设置信息，将语音信息作为摘要信息中的语音信息附件，将具有该语音信息附件的摘要信息进行发送。

图5示出根据本发明一个优选实施例的用于将语音信息与其文本描述信息相关联地进行发送的方法流程图。本实施例中的方法包括步骤S1、步骤S2、步骤S31、步骤S4和步骤S5。

其中，步骤S1和步骤S2已在参照图3所示实施例中予以详述，在此不再赘述。

在步骤S4中，移动终端提取所述文本识别结果信息中的地理位置信息。具体地，在步骤S4中，移动终端可采用多种方式提取文本识别结果信息中的地理位置信息，例如，其可采用的方式包括但不限于：

1)在步骤S4中，移动终端通过预定的用于识别地理位置信息的正则表达式，在文本识别结果信息中进行匹配识别，以确定该文本识别结果信息中与该正则表达式相匹配的地理位置信息；

″(？<c>.*？)市(？<d>.*？)区.*″，

2)在步骤S4中，移动终端根据预定的地理信息字符串，在文本识别结果信息中进行匹配识别，以确定该文本识别结果信息中与该预定地理信息字符串相匹配的地理位置信息；

接着，在步骤S5中，移动终端根据所述地理位置信息，获得所述地理位置信息所属地理区域的地图信息。具体地，在步骤S5中，移动终端可采用多种方式获得地理位置信息所属地理区域的地图信息，例如，其可采用的方式包括但不限于：

1)在步骤S5中，移动终端通过调用移动终端本地的地图应用接口(API)，将地理位置信息作为输入参数，在地图应用中进行位置查询，以生成该地理位置信息所属地理区域的地图信息，如生成地图图片；

2)在步骤S5中，移动终端根据地理位置信息，在移动终端本地或网络设备的地图信息库中进行匹配查询，以获取预存的与该地理位置相对应的地图信息。

随后，在步骤S31中，移动终端将地图信息和文本描述信息，与语音信息相关联地进行发送；如将地图信息和文本描述信息作为语音信息的图文摘要信息、又如将文本描述信息作为语音信息与地图信息的标题信息、又如将地图信息和文本描述信息作为语音信息的属性信息，与语音信息相关联地进行发送。

图6示出根据本发明另一个优选实施例的用于生成用于描述所述语音信息的语音内容的方法流程图。本实施例的方法中步骤S2包括步骤S21、步骤S22和步骤S23。

其中，在步骤S21中，移动终端根据文本识别结果信息，生成用于描述语音信息的语音内容的初始文本描述信息。其方式与参照图4所示移动终端在步骤S2中根据文本识别结果信息，生成用于描述语音信息的语音内容的文本描述信息的方式相同或相似，在此不再赘述。

在步骤S22中，移动终端将所述初始文本描述信息呈现给使用所述移动终端的用户。

例如，在步骤S22中，移动终端将其在步骤S21中生成的初始文本描述信息，通过页面技术，如JSP、ASP、PHP，按一定顺序和格式在移动终端显示屏幕中呈现给用户，供使用该移动终端的用户进行浏览。

接着，在步骤S23中，移动终端根据所述用户对所述文本描述信息的调整操作，获取调整后的文本描述信息。

例如，在步骤S23中，移动终端通过与该用户的交互操作，获取该用户对该文本描述信息的调整操作，如删除、添加、语序调整等；随后根据该(等)调整操作，对该文本描述信息进行相应调整，以获取调整后的文本描述信息。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，其中的硬件可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他步骤，单数不排除复数。装置权利要求中陈述的多个装置也可以由一个装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在移动终端中用于将语音信息与其文本描述信息相关联地进行发送的方法，该方法包括以下步骤：

c将所述文本描述信息与所述语音信息相关联地进行发送。

2.根据权利要求1所述的方法，其中，该方法还包括：

-从所述文本识别结果信息中提取至少一个主体关键词；

其中，所述步骤b包括：

-根据所述至少一个主体关键词中的部分或全部关键词，生成所述文本描述信息。

3.根据权利要求1或2所述的方法，其中，所述文本描述信息与所述语音信息相关联地方式包括但不限于以下至少一种：

-将所述文本描述信息作为所述语音信息的标题信息；

-将所述文本描述信息作为所述语音信息的摘要信息；

-将所述文本描述信息作为所述语音信息的属性信息。

4.根据权利要求1至3中任一项所述的方法，其中，该方法还包括：

-提取所述文本识别结果信息中的地理位置信息；

-根据所述地理位置信息，获得所述地理位置信息所属地理区域的地图信息；

其中，所述步骤c包括：

-将所述地图信息和所述文本描述信息，与所述语音信息相关联地进行发送。

5.根据权利要求1至4中任一项所述的方法，其中，该方法还包括：

-获取所述移动终端的发送设置信息；

其中，所述将所述文本描述信息与所述语音信息相关联地进行发送的步骤包括：

-根据所述发送设置信息，将所述文本描述信息与所述语音信息相关联地进行发送。

6.根据权利要求1至5中任一项所述的方法，其中，所述步骤b包括：

-根据所述文本识别结果信息，生成用于描述所述语音信息的语音内容的初始文本描述信息；

-将所述初始文本描述信息呈现给使用所述移动终端的用户；

-根据所述用户对所述文本描述信息的调整操作，获取调整后的文本描述信息。

7.根据权利要求1至6中任一项所述的方法，其中，所述步骤a包括以下步骤：

-获取所述移动终端对所述待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对所述移动终端提供给其的所述待识别语音信息进行语音识别处理所得的网络文本识别结果信息；

-根据所述本地文本识别结果信息与所述网络文本识别结果信息，获得所述文本识别结果信息。

8.一种用于将语音信息与其文本描述信息相关联地进行发送的发送装置，该发送装置包括：

9.根据权利要求8所述的发送装置，其中，该发送装置还包括：

关键词提取装置，用于从所述文本识别结果信息中提取至少一个主体关键词；

其中，所述描述信息生成装置包括：

子生成装置，用于根据所述至少一个主体关键词中的部分或全部关键词，生成所述文本描述信息。

10.根据权利要求8或9所述的发送装置，其中，所述文本描述信息与所述语音信息相关联地方式包括但不限于以下至少一种：

-将所述文本描述信息作为所述语音信息的标题信息；

-将所述文本描述信息作为所述语音信息的摘要信息；

-将所述文本描述信息作为所述语音信息的属性信息。

11.根据权利要求8至10中任一项所述的发送装置，其中，该发送装置还包括：

位置信息提取装置，用于提取所述文本识别结果信息中的地理位置信息；

地图信息获取装置，用于根据所述地理位置信息，获得所述地理位置信息所属地理区域的地图信息；

其中，所述关联发送装置包括：

子关联发送装置，用于将所述地图信息和所述文本描述信息，与所述语音信息相关联地进行发送。

12.根据权利要求8至11中任一项所述的发送装置，其中，该发送装置还包括：

设置信息获取装置，用于获取所述移动终端的发送设置信息；

其中，所述关联发送装置将所述文本描述信息与所述语音信息相关联地进行发送的操作包括：

根据所述发送设置信息，将所述文本描述信息与所述语音信息相关联地进行发送。

13.根据权利要求8至12中任一项所述的发送装置，其中，所述描述信息生成装置包括：

初始文本生成装置，用于根据所述文本识别结果信息，生成用于描述所述语音信息的语音内容的初始文本描述信息；

呈现装置，用于将所述初始文本描述信息呈现给使用所述移动终端的用户；

描述信息获取装置，用于根据所述用户对所述文本描述信息的调整操作，获取调整后的文本描述信息。

14.根据权利要求8至13中任一项所述的发送装置，其中，所述识别结果获取装置包括：

第一结果获取装置，用于获取所述移动终端对所述待识别语音信息进行语音识别处理所得的本地文本识别结果信息，以及，网络设备对所述移动终端提供给其的所述待识别语音信息进行语音识别处理所得的网络文本识别结果信息；

第二结果获取装置，用于根据所述本地文本识别结果信息与所述网络文本识别结果信息，获得所述文本识别结果信息。

15.一种移动终端，包括如权利要求8至14中至少一项所述的发送装置。