CN103176591A

CN103176591A - 一种基于语音识别的文本定位和选择方法

Info

Publication number: CN103176591A
Application number: CN 201110432826
Authority: CN
Inventors: 顾健
Original assignee: Shanghai Bolu Information Technology Co Ltd
Current assignee: Shanghai Bolu Information Technology Co Ltd
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2013-06-26

Abstract

本发明揭示了一种基于语音识别的文本定位和选择方法，包含语音识别模块，文本选择模块、业务逻辑模块等。本发明通过用户口述部分内容，终端或***进行语音的识别，将用户口述的语音片段转换为文本内容，并以该部分文字内容为关键词搜索当前的终端上的活动窗口上显示的文本，并基于搜索结果识别文本进行定位，定位成功后选取对应的内容，从而帮助用户快速选取对应的内容以进行进一步的操作。本发明通过用户口述内容进行识别并搜索当前活动窗口的文本内容并进行定位和选取，为用户提供了一种文本选择的方法。

Description

一种基于语音识别的文本定位和选择方法

技术领域

本发明涉及***软件，语音识别技术领域，更具体地说，涉及一种基于语音识别的文本定位和选择方法。

背景技术

传统的文本选择方式在各个终端上都需要用户进行手工的各种操作，包含电脑上的鼠标拖拉选择，键盘操作，智能终端上通过触摸屏触摸进行选择，在某些特定的场景下存在困难，如触摸屏的灵敏度，用户手指的灵活度，都会影响在屏幕上的选择操作，尤其是在屏幕较小的智能终端上，用户精确定位文本并选择经常存在各种问题，需要反复进行定位和选择。

而语音识别已经成为各种智能终端和***的普遍的能力的情况下，通过语音识别获取用户的意图，可以精确选取对应的用户需要选择和定位的文本，方便了用户的操作，为用户在不同环境下的操作提供一个选择。

发明内容

通过用户口述部分内容，终端或***进行语音的识别，将用户口述的语音片段转换为文本内容，并以该部分文字内容为关键词搜索当前的终端上的活动窗口上显示的文本，并基于搜索结果识别文本进行定位，定位成功后选取对应的内容，从而帮助用户快速选取对应的内容以进行进一步的操作，为用户提供了使用简单快捷的一种基于语音识别的文本定位和选择方法。

进一步的，通过所提供的一种基于语音识别的文本定位和选择方法为用户使用各种终端的应用的发展提供有力保障，满足各方要求，提升用户友好体验。

为实现上述目的，本发明的一个方面提供了一种基于语音识别的文本定位和选择方法，该方法包括：

在终端上通过用户口述需要选取的内容，在终端或***进行语音识别，转换为文字并以识别结果为关键词发起当前活动窗口的文本内容的搜索，获取识别文本的定位并基于位置选择对应的文本内容。

终端包含了传统电脑，手机，平板电脑等支持语音获取和网络功能的各种终端设备。

本发明提供的一种基于语音识别的文本定位和选择方法的一个实施例中，该方法还包括：

用户口述的内容片段，终端通过麦克风获取和记录用户语音数据，转换为语音识别要求的语音格式，根据终端设备软硬件识别能力选择在终端进行语音识别，或通过以服务方式开放的***端语音识别接口请求***进行语音识别，获取语音对应的文本。

根据终端软硬件环境和能力，终端可以加载语音识别模块，也可以通过发送获取的音频内容到***在线语音识别服务进行内容的识别，并在识别后发起当前活动窗口的文本的搜索和定位。

终端在获取对应语音的文本内容后，在当前的活动窗口搜索对应的文本，搜索到文本后定位文本的位置，并按照当前终端***的选择方式对文本进行加亮等操作，用户随后可以呼出对应菜单进行进一步的操作。

定位到对应的文本内容后，用户可以通过按键等方式呼出对应的选择菜单，菜单包含各种操作选择项，包含常见的复制，剪切，分享等各种操作。

具体来说具有以下优点：

使用方式简单：

用户简单地口述部分语句即可获取对应内容文本后进行定位和选择以及进一步的各种操作，***自动进行语句的识别，解析和识别，实现方式简单便捷。

云模式识别：

满足不同能力的终端，可以在终端进行语音的识别，也可以通过***端的语音识别服务进行语音识别，满足了不同硬件层次能力的终端。

定位准确：

通过***自动进行文本的选择和定位，无需用户手动进行选择，避免了各种终端的硬件缺陷以及用户操作灵活度的问题，提高了定位和选择的精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明***模块结构的示意图。

图2为本发明业务流程示意图。

图3为本发明语音识别流程示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

为实现上述目的，提出了一种基于语音识别的文本定位和选择方法。

以下通过结合附图，对本发明的实施方式进行描述

实现一种基于语音识别的文本定位和选择方法的关键点如下：

语音获取：

用户通过终端麦克风录下用户选取和口述的部分内容片段内容并编码压缩成语音识别接受的语音格式。

语音识别：

用户口述文字启动语音识别，识别模块在终端或***端，根据终端能力在终端安装语音识别库进行语音识别，或***端提供语音识别能力并以服务形式进行开放，终端请求***端的语音识别服务，提交记录的语音数据，***进行语音识别。

内容搜索和定位：

在终端获取对应的语音文本后，终端侧基于文本进行内容的搜索和定

位，自动将搜索到的内容进行选择，以反色等常规选取表现方式将文本进行选择，用户随即可以基于这些选择的文本呼出操作菜单，包含复制，剪切，分享等各种操作。

主要功能模块如图1所示：

移动终端侧：

终端是指具备移动互联网网功能和相机的各种智能终端设备，包含智能手机，带移动数据功能的平板电脑等设备；

用户终端100：

用户终端是指各种具备操作***的设备，包含电脑，平板，智能手机等各种智能设备并具备网络功能。

业务逻辑101：

终端业务逻辑，控制和调用各个业务的逻辑功能以及业务流程，并与周边的各个功能模块进行数据的传递和功能的调用。

语音获取模块102：

调用终端音频功能和麦克风记录用户语音，并转换为识别服务模块要求的语音格式，提供给识别模块进行内容的识别。

内容操作模块103：

在对文本进行定位后，提供对应文本的操作选项，用户基于内容操作可以对内容进行进一步的各种操作，如复制，剪切等。

配置管理模块104：

终端侧用户进行各种用户参数和业务参数的配置，包含用户数据配置，业务参数配置等。

内容搜索定位模块105：

在获取到语音识别的结果文本后，终端应用将结果文本作为关键词进行搜索当前窗口的内容，并基于搜索的结果进行光标的定位和内容的选择。

语音识别模块106：

终端侧可选模块，在终端具备语音识别能力的情况下识别用户口述的语音内容，并将其转换为文字提供给搜索等其他功能模块。

服务请求模块107:

请求***远程语音识别等远程服务的功能模块，终端通过服务请求模块生成各种服务请求，请求远程***提供各种服务功能，包含识别服务等。

接口模块108：

终端与***之间的数据接口，通过接口发送和接收***端的服务响应消息的各种数据。

传输通道109：

包含移动网和互联网，承载数据传输通道和各种业务，传输终端和***之间的各种数据。

***侧：***端为不具备本地语音识别的终端提供服务，是可选的部分。

服务接口模块110：

定义***端提供的服务访问的方式和参数，负责与终端通过数据网进行通信，获取移动终端提交的请求和消息交互的各种数据。

业务逻辑模块111：

根据用户提交的各种请求以及请求数据执行各个对应的业务逻辑并负责控制和调用周边的功能模块进行通信并交换各种数据已完成各种业务逻辑功能。

安全模块112：

负责***对用户及业务请求的安全管理，对用户和终端进行鉴权认证，以及保障数据传输的安全，包含数据的加密解密等涉及业务安全的各种功能。

语音识别模块113：

***负责识别终端侧发送的原始数据内容，通过接口服务，终端远程调用***识别模块的识别服务，并将识别结果提交给其他功能模块以继续下一步流程。

***管理模块114：

对整个***进行管理和配置，包含用户管理，日志记录和管理，业务逻辑的管理等等。

图3示出本发明语音识别流程示意图，步骤如下。

1) 用户打开应用；

2) 用户口述需要定位和选择的文本；

3) 终端获取用户的语音数据；

4) 根据识别方式，选择在终端本地或***进行识别；

5) 获取识别结果后，应用以识别结果发起文本的搜索和定位；

6) 对定位的文本，应用选取对应的文本并进行加亮；

7) 用户随即可以采取呼出菜单进行进一步操作。

下面举一个例子来说明本发明***的移动终端通过语音方式触发业务的流程，如图2所示，该实施例中，业务包括以下步骤：

步骤1：用户打开终端应用，口述物部分内容；

步骤2：终端通过麦克风记录用户语音，转换成音频格式数据，根据识别方式提交终端或***进行语音的识别；

步骤3：终端或***进行语音识别，获取语音对应的文本内容；

步骤4. 终端应用将获取的句子作为搜索参数发起搜索和定位；

步骤5. 终端应用检索到包含语音识别结果的内容后，定位该内容并选择对应的文本并加亮显示；

步骤6. 用户可以采取呼出菜单方式进行进一步操作，包含复制，剪切等。

本发明的描述是为了示例和说明起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于语音识别的文本定位和选择方法，其特征在于，在终端上通过用户口述需要选取的内容，在终端或***进行语音识别，转换为文字并以识别结果为关键词发起当前活动窗口的文本内容的搜索，获取识别文本的定位并基于位置选择对应的文本内容。

2.如权利要求1所述，终端是包含各种固定或便携的终端设备，其特征在于，终端包含了传统电脑，手机，平板电脑等支持语音获取和网络功能的各种终端设备。

3.如权利要求1所述，用户口述部分内容片段，终端记录该语音并进行识别，其特征在于，用户口述的内容片段，终端通过麦克风获取和记录用户语音数据，转换为语音识别要求的语音格式，根据终端设备软硬件识别能力选择在终端进行语音识别，或通过以服务方式开放的***端语音识别接口请求***进行语音识别，获取语音对应的文本。

4.如权利要求3所述，终端获取语音内容后在终端本地或***进行识别，其特征在于，根据终端软硬件环境和能力，终端可以加载语音识别模块，也可以通过发送获取的音频内容到***在线语音识别服务进行内容的识别，并在识别后发起当前活动窗口的文本的搜索和定位。

5.如权利要求4所述，终端获取语音对应的文本内容后发起内容文本的搜索和定位，其特征在于，终端在获取对应语音的文本内容后，在当前的活动窗口搜索对应的文本，搜索到文本后定位文本的位置，并按照当前终端***的选择方式对文本进行加亮等操作，用户随后可以呼出对应菜单进行进一步的操作。

6.如权利要求5所述，终端按照当前终端***的选择方式对文本进行加亮等操作，用户随后可以呼出对应菜单进行进一步的操作，其特征在于，定位到对应的文本内容后，用户可以通过按键等方式呼出对应的选择菜单，菜单包含各种操作选择项，包含常见的复制，剪切，分享等各种操作。