CN107995101B

CN107995101B - 一种用于将语音消息转为文本信息的方法与设备

Info

Publication number: CN107995101B
Application number: CN201711243816.7A
Authority: CN
Inventors: 顾正相; 陈晓磊
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2021-03-23
Anticipated expiration: 2037-11-30
Also published as: CN107995101A

Abstract

本申请的目的是提供一种用于将语言消息转为文本信息的方法与设备，用户设备接收其他用户所发送的语音消息；并将所述语音消息转换为对应的文本信息；最终在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。与现有技术相比，本申请更加高效、智能地方便用户获取信息，同时改善了用户的使用体验。

Description

一种用于将语音消息转为文本信息的方法与设备

技术领域

本申请涉及通信领域，尤其涉及一种用于将语音消息转为文本信息的技术。

背景技术

随着时代的发展，人们通过网络进行聊天交互越来越频繁，各种各样的聊天应用程序应运而生，如微信、QQ、易信等。人们通过聊天应用程序上传语音消息、图片、文字、动画视频等进行聊天交互，其中语音消息给发送者带来很大的方便，对于接收者却有诸多的不便。虽然在一些聊天应用程序中语音消息支持用户手动操作转换为文本信息，但有时在一些场合或环境里接收者不方便接听语音消息，或者有时多条语音消息同时接收用户不得不逐条手动转换，都不能满足接收语音消息用户的需要，也带来不便，所以亟需一种更智能、高效的语音消息转换文本信息的方法。

发明内容

本申请的一个目的是提供一种用于将语音消息转为文本信息的方法与设备。

根据本申请的一个方面，提供了一种在用户设备端用于将语音消息转为文本信息的方法，该方法包括：通过用户设备接收其他用户所发送的语音消息；将所述语音消息转换为对应的文本信息；在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。

根据本申请的另一个方面，提供了一种在网络设备端用于将语音消息转为文本信息的方法，该方法包括：接收其他用户发给目标用户的语音消息；将所述语音消息转换为对应的文本信息；将所述文本信息发送至所述目标用户的用户设备，以供所述用户设备在所述目标用户与所述其他用户的聊天窗口中呈现所述文本信息。

根据本申请的一个方面，提供了一种用于将语音消息转为文本信息的设备，该设备包括：处理器；以及被安排长存储计算机可执行指令的存储器，所述可执行令在被执行时使所述处理器执行：通过用户设备接收其他用户所发送的语音消息；将所述语音消息转换为对应的文本信息；在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。

根据本申请的另一个方面，提供了一种用于将语音消息转为文本信息的设备，该设备包括：处理器；以及被安排长存储计算机可执行指令的存储器，所述可执行令在被执行时使所述处理器执行：接收其他用户发给目标用户的语音消息；将所述语音消息转换为对应的文本信息；将所述文本信息发送至所述目标用户的用户设备，以供所述用户设备在所述目标用户与所述其他用户的聊天窗口中呈现所述文本信息。

根据本申请的一个方面，提供一种包括指令的计算机可读介质，所述指令在被执行时使得***进行：通过用户设备接收其他用户所发送的语音消息；将所述语音消息转换为对应的文本信息；在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。

根据本申请的另一个方面，提供一种包括指令的计算机可读介质，所述指令在被执行时使得***进行：接收其他用户发给目标用户的语音消息；将所述语音消息转换为对应的文本信息；将所述文本信息发送至所述目标用户的用户设备，以供所述用户设备在所述目标用户与所述其他用户的聊天窗口中呈现所述文本信息。

与现有技术相比，本申请通过对用户接收的语音消息，自动进行检测识别并将语音消息转换为文本信息，减少用户繁琐的操作，更加高效、智能地方便用户获取信息，而且，对转换的文本信息进行关键词识别，更加人性化地方便用户操作，改善了用户的使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种在用户设备端用于将语音消息转为文本信息的方法流程图；

图2示出根据本申请另一个实施例的一种在用户设备端用于将语音消息转为文本信息的方法流程图；

图3、4示出了根据本申请一些实施例中的应用场景示意图；

图5示出根据本申请一个实施例的一种在网络设备端用于将语音消息转为文本信息的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作***，如android操作***、iOS操作***等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出了根据本申请一个实施例的一种在用户设备端用于将语音消息转为文本信息的方法流程图。该方法包括步骤S11、步骤S12和步骤S13。其中，在步骤S11中，用户设备接收其他用户所发送的语音消息；在步骤S12中，用户设备将所述语音消息转换为对应的文本信息；在步骤S13中，用户设备在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。

在此，用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等；语音消息包括由发音器官发出声音，负载语言意义的一种信息形式；文本信息包括通过文字语言传达消息的信息形式；聊天窗口包括聊天应用程序在用户界面上显示聊天信息的区域。

例如，用户甲通过他的用户设备1(如手机)在聊天应用程序上与其他用户聊天交互，包括一对一的聊天形式或者一对多的群聊天形式；用户设备1通过聊天窗口接收其他用户设备发送的聊天信息，包括但不限于其他用户发送的语音、文字、动画或图片；用户甲有时在开会、其他公共场合不方便打开语音消息或者听不清楚语音消息，为了方便用户甲快速获得接收到语音消息的具体内容，用户设备1将接收到的语音消息通过语音识别等方式转换为对应的文本信息；并在用户设备1与发送该语音消息的用户的聊天窗口直接呈现该文本信息。

图2示出了根据本申请另一些实施例中的一种在用户设备端用于将语音消息转为文本信息的方法流程图。该方法包括步骤S11、步骤S14、步骤S12和步骤S13。其中，在步骤S11中，用户设备接收其他用户所发送的语音消息；在步骤S14中，用户设备检测所述语音消息是否满足预定的转换触发条件；在步骤S12中，若所述语音消息满足所述转换触发条件，用户设备将所述语音消息转换为对应的文本信息；在步骤S13中，用户设备在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。在此，步骤S11、步骤S12和步骤S13和前述实施例相同或基本相同，故不再赘述，仅以引用方式包含于此。

其中，所述转换触发条件包括但不限于以下各项或它们的组合：

所述用户设备的当前情景模式为会议模式或勿扰模式；

所述用户设备的环境噪声强度超过噪声强度阈值；

所述用户设备处于公共场所；

所述语音消息所属聊天事件中至少一条其它语音消息已被用户选择进行文本转换；

所述语音消息与所述用户设备已接收并进行文本转换的在先语音消息的最小时间间隔小于或等于预定的第一消息间隔阈值。

在此，聊天事件包括在某时间段内用户在各自的聊天应用程序中进行的由全部或部分聊天信息组成，其中，聊天信息包括但不限于语音、文本、图片或动画等；在先语音消息包括接收时间早于某时刻接收到的语音消息，包括但不限于一条语音消息或者多条语音消息；最小时间间隔包括相邻两条语音消息的接收时间间隔最短。

例如，用户设备1接收到其他用户设备发送的语音消息后检测该语音消息是否满足预定的转换触发条件，若满足转换触发条件，用户设备1将所述语音消息转换为对应的文本信息。若该语音消息不满足预定的转换触发条件，用户设备1在与该用户的聊天窗口中呈现该语音信息。在一些实施例中，例如，用户甲正在忙碌，不方便接听语音消息，将其用户设备1的当前情景模式设定为会议模式或勿扰模式；当用户设备1接收到其他用户设备发送的语音消息后，用户设备1检测到该语音消息满足所述用户设备的当前情景模式为会议模式或勿扰模式的转换触发条件，进一步地自动将接收到的语音消息转换为对应的文本信息。

例如，用户甲周围的人或事物很多，环境嘈杂，即使接听也听不清楚语音消息的内容；用户设备1会自动利用安装的噪声监测软件，监测当前环境噪声强度为80dB，当用户设备1接收到其他用户设备发送的语音消息后，用户设备1检测到接收到的语音消息满足用户设备1的环境噪声强度80dB超过噪声强度阈值60dB，则进一步地自动将接收到的语音消息转换为对应的文本信息。其中，在一些实施例中，噪声强度阈值包括通过技术测量验证获得的人耳正常听觉可承受的最大噪声强度60dB。

例如，用户甲现在在公交车上，其用户设备1实时获得用户甲的位置信息(包括用户甲所处经、纬度信息)；用户设备1检测其他用户发给用户甲的语音消息满足所述用户设备处于公共场所的转换触发条件，进一步自动将所述语音消息转换为对应的文本信息。在一些实施例中，公共场所包括但不限于宾馆、餐饮场所、商店、音乐厅、图书馆或公共交通工具。

例如，用户乙持有用户设备2，用户甲与用户乙进行一对一的聊天交互，用户设备1接收到用户设备2发送的多条语音消息，由于聊天时间较长，用户甲接听语音消息有所疲劳，用户设备1接收到语音消息3，并基于用户甲的手动选择操作将语音消息3转换为对应的文本信息；当又接收到语音消息时，用户设备1会自动检测，满足语音消息为所属聊天事件中至少一条其它语音消息已被用户进行文本转换，则进一步地自动将语音消息3之后接收到的语音消息转换为文本信息。其中，用户手动选择包括但不限于全部选中、右击、长按或滑动等。

在一些实施例中，当用户设备检测到所述语音消息在所属聊天事件中至少一条其它语音消息已被用户设备进行文本转换时，用户设备对后续接收到的语音消息检测满足转换触发条件，并自动将后续接收的语音消息转换为相应的文本信息。当用户设备当前情景模式变为会议模式或勿扰模式、某时刻用户设备的环境噪音强度超过噪声强度阈值、基于用户手动选择转换语音消息为文本信息时，该时刻接收到的语音消息被用户设备转为文本信息；后续接收到的语音消息因满足语音消息为所属聊天事件中至少一条其它语音消息已被用户设备进行文本转换的转换触发条件，用户设备则进一步自动地将这些后续接收到的语音消息转换为对应的文本信息。本领域技术人员应能理解，其中上述至少一条其它语音消息已被用户设备进行文本转换的方式仅为举例，现有的或者今后可能出现的其它，例如以上至少一条其它语音消息已被用户设备进行文本转换方式的组合，如可适用于本申请都应包含在本申请的保护范围内，并在此以引用的方式包含于此。

又例如，用户甲与用户乙进行聊天，某时刻用户设备1基于用户甲的操作将接收的用户设备2发送的语音消息3转换为对应的文本信息，停歇了1分钟之后，用户设备2又向用户设备1发送语音消息4；这时用户设备1接收到语音消息4，并检测满足该语音消息与用户设备已接收并进行文本转换的在先语音消息3的最小时间间隔小于预定的第一消息间隔阈值2分钟，则用户设备1进一步将语音消息4自动转换为对应的文本信息。其中，在一些实施例中，第一消息间隔阈值包括通过计算机统计分析获得的第一消息间隔阈值2分钟。

在一些实施例中，用户丙持有用户设备3，用户甲与用户乙、用户丙在同一款聊天应用程序同时进行聊天或者与用户乙、用户丙在不同的聊天应用程序同时进行聊天；当用户设备1检测接收到的语音消息，满足所述语音消息与所述用户设备已接收并进行文本转换的在先语音消息的最小时间间隔小于或等于预定的第一消息间隔阈值2分钟的转换触发条件时，用户设备1进一步将接收到的语音消息转换为对应的文本信息。如表1所示，用户设备1在t3时刻接收到语音消息3，检测到与该用户设备已接收并进行文本转换的在先语音消息1的最小时间间隔为t3－t1＝2(分钟)等于预定的第一消息时间间隔阈值2分钟，满足所述转换触发条件，进而用户设备1将语音消息3转换为对应的文本信息；用户设备1在t4时刻接收到语音消息4，检测到与该用户设备1已接收并进行文本转换的在先语音消息3的最小时间间隔为t4－t3＝1(分钟)小于预定的第一消息时间间隔阈值2分钟，满足所述转换触发条件，进而用户设备1将语音消息4转换为对应的文本信息。

表1

本领域技术人员应能理解，上述转换触发条件的内容仅为举例，现有的或者今后可能出现的转换触发条件的其它内容，如可适用于本申请都应包含在本申请的保护范围内，并在此引用的方式包含于此。

在一些实施例中，所述聊天事件包括但不限于以下各项或它们的组合：

所述聊天窗口内的多条信息；

所述聊天窗口内的多条信息，其中，所述多条信息中任意两个时序相邻消息的时间间隔小于或等于预定的第二消息间隔阈值；

所述聊天窗口内的主题相关的多条信息。

在此，聊天事件包括在某时间段内用户在各自的聊天应用程序中进行的由全部或部分聊天信息组成，其中，聊天信息包括但不限于语音、文本、图片或动画。

例如，用户甲与用户乙进行聊天交互，用户设备1的聊天窗口已显示多条两用户的聊天信息，其中包括语音，若这些聊天信息中至少一条其它语音消息已被所述用户设备1进行文本转换，则满足所述转换触发条件，用户设备1将后续接收到的语音消息自动转换为对应的文本信息。

例如，用户甲与用户乙进行聊天交互，在聊天窗口已显示5条该两用户的聊天信息11至15，其中，语音11与语音12的时间间隔为3分钟，语音12与文本13的时间间隔为2分钟，文本13与动画14的时间间隔为1分钟，动画14与语音15的时间间隔为5分钟，其中任意两个时序相邻的聊天信息的时间间隔小于或等于预定的第二消息间隔阈值5分钟；若这些聊天信息中至少一条其它语音消息已被所述用户设备1进行文本转换，则满足所述转换触发条件，用户设备1将后续接收到的语音消息自动转换为对应的文本信息。其中，第二消息间隔阈值包括但不限于在一些实施例中通过计算机统计分析获得的第二消息间隔阈值5分钟。

又例如，用户甲与用户乙进行聊天交互，用户设备1通过分析聊天信息获得该两用户聊天的主题为“今天天气很冷”，以此聊天主题的聊天交互还在继续中，若其中“早晨很冷，温度只有零下1度”、“今天太冷，我都已经穿上秋裤了”、“我穿羽绒服了还觉得不是很暖和”3条聊天信息中至少一条其它语音消息已被所述用户设备进行文本转换；则满足所述转换触发条件，用户设备1将后续接收到的语音消息自动转换为对应的文本信息。

本领域技术人员应能理解，上述聊天事件的内容仅为举例，现有的或者今后可能出现的聊天事件的其它内容，如可适用于本申请都应包含在本申请的保护范围内，并在此引用的方式包含于此。

在一些实施例中，步骤S12包括结合所述语音消息对应的参考信息，将所述语音消息转换为对应的文本信息。

其中，所述参考信息包括但不限于以下任一项：

所述语音消息所属聊天事件的其它聊天信息；

所述语音消息所属的用户群的群特征信息；

生成所述语音消息的其他用户的用户特征信息。

在此，聊天事件包括在某时间段内用户在各自的聊天应用程序中进行的由全部或部分聊天信息组成，其中，聊天信息包括但不限于语音、文本、图片或动画；群特征信息用来表示该群突出显著的特性，包括但不限于群名称、群类型或群聊天背景；用户特征信息用来表示该用户突出显著的特性，包括但不限于用户从事的专业领域、用户所在区域、用户籍贯地或用户发音的口音。

例如，用户甲与用户乙正在进行聊天交互，用户设备1接收到用户设备2发送的一条语音消息，结合该聊天事件的其它聊天信息即用户设备1聊天窗口呈现的多条上下文聊天信息，将该语音消息转换为准确率更高的对应文本信息。

又例如，用户甲与用户群2进行聊天交互，用户设备1接收到一条语音消息，结合用户群2的群名称“滴滴打车群”，用户设备1将该语音消息转换为准确率更高的对应文本信息。

再例如，用户甲与用户乙进行聊天交互，用户设备1接收到一条语音消息；结合预先统计获得的用户乙的用户特征信息，如用户所在区域：长三角；将该条语音消息转换为准确率更高的对应文本信息。

本领域技术人员应能理解，上述参考信息的内容仅为举例，现有的或者今后可能出现的参考信息的其它内容，如可适用于本申请都应包含在本申请的保护范围内，并在此引用的方式包含于此。

在一些实施例中，该方法还包括步骤S15(未示出)，在步骤S15中，用户设备识别所述文本信息中与操作指令对应的关键词；并在所述关键词处添加访问所述操作指令的触发信息；其中，所述步骤13包括：在所述用户设备的与所述其他用户的聊天窗口中呈现所述文本信息，其中，所述关键词在所述文本信息中被区分显示。

在此，操作指令包括用户设备运行某一运算程序的起始命令；关键词用于显示文本信息中的重要信息的词组或短语，包括但不限于时间词语或地点词语；触发信息包括提示用户执行操作的重要信息。

例如，用户甲与用户乙进行聊天交互，在用户设备1的聊天窗口呈现语音消息转换后的对应文本信息；用户设备1识别该文本信息中与时间或地址相关操作指令对应的关键词，如“下午5点”、“XX银行”等；用户设备1在关键词“下午5点”处添加访问时间相关操作指令的触发信息，其中触发信息包括显示闹钟信息或显示备忘录信息，在关键词“XX银行”处添加访问地址相关操作指令的触发信息，其中触发信息包括显示地图应用信息、显示地图链接信息或显示备忘录信息。在一些实施例中，文本信息中的关键词被用不同的颜色标识，如“下午5点”用绿色标识，又如“XX银行”用红色标识。如图3所示，在一些实施例中，关键词在所述文本信息中被区分显示包括但不限于通过不同的颜色区分显示、通过嵌入超链接区分显示或通过在关键词上添加透明按钮区分显示。

在一些实施例中，该方法还包括步骤S16(未示出)，在步骤S16中，用户设备获取用户对所述关键词的触发操作，利用所述触发信息调用执行所述操作指令。其中，触发操作包括执行操作之前的一系列操作，如单击、双击、长按或滑动等。

如上例，在用户设备1聊天窗口通过不同颜色区分显示关键词，其中，关键词“下午5点”用绿色显示，“XX银行”用红色显示；用户设备1获取用户对关键词“下午5点”的双击触发操作，利用显示闹钟的触发信息调用执行设置闹钟的操作指令；用户设备1获取用户对关键词“XX银行”的单击触发操作，利用显示备忘录的触发信息调用执行设置备忘录的操作指令。

在一些实施例中，该方法还包括步骤S17(未示出)，在步骤S17中，用户设备根据用户对所述文本信息的选择操作，识别所述文本信息中与操作指令对应的关键词，并在所述聊天窗口中显示所述操作指令。

在此，操作指令包括用户设备运行某一运算程序的起始命令；关键词用来显示文本信息中的重要信息的词组或短语，包括但不限于时间词语或地点词语；选择操作包括用户通过全部选中或部分选中的方式进行的操作。

例如，在用户设备1聊天窗口显示文本信息“我下午5点到达XX银行”，用户全部选中关键词“XX银行”，根据用户的选择操作，用户设备1识别该文本信息中与搜索地图应用的操作指令对应的该关键词“XX银行”，并在所述聊天窗口中显示搜索地图应用的操作指令。

在一些实施例中，该方法还包括步骤S18(未示出)，在步骤S18中，用户设备获取用户对操作指令的触发操作，调用执行所述操作指令。其中，触发操作包括执行操作之前的一系列操作，如单击、双击、长按或滑动等。

如图4所示，在用户设备1聊天窗口显示文本信息“我下午5点到达XX银行”，用户全部选中关键词“XX银行”；用户设备1获取用户长按该关键词的触发操作，并调用执行搜索地图应用的操作指令。

在一些实施例中，该方法还包括步骤S19(未示出)，在步骤S19中，若所述语音消息未满足所述转换触发条件，在所述聊天窗口中呈现所述语音消息。

例如，用户甲在聊天应用程序上与用户乙进行聊天交互，用户设备1接收用户设备2发送的语音消息，用户设备1检测到该条述语音消息不满足所述转换触发条件，进一步在所述聊天窗口中呈现该语音消息。在一些实施例中，转换触发条件如上述举例。

在一些实施例中，该方法还包括步骤S20(未示出)，在步骤S20中，根据用户对所述语音消息的文本转换操作，将所述语音消息转换为对应的文本信息并呈现所述文本信息；或者，根据用户对所述语音消息的转发操作，将所述语音消息转换为对应的文本信息并转发所述文本信息至对应接收者。

例如，用户甲正在聊天应用程序与用户乙进行聊天交互，某时刻用户设备1基于用户甲的操作对接收到用户设备2发送的的语音消息执行文本转换操作；用户设备1将所述语音消息转换为对应的文本信息，并在聊天窗口中呈现所述文本信息。在一些实施例中，文本转换操作包括但不限于长按需转换的语音消息执行转换操作、右击需转换的语音消息执行转换操作、双击需转换的语音消息执行转换操作或对需转换的语音消息点击『转换』按钮执行转换操作。

又例如，用户甲正在聊天应用程序与用户丙进行聊天交互，某时刻用户设备1将对接收到的用户设备3发送的1条语音消息进行转发，用户甲执行转发操作，用户设备1将该条语音消息转换为对应的文本信息并向用户设备3发送所述文本信息。其中，对应接收者包括与某用户进行聊天交互的一个或多个用户。在一些实施例中，转发操作包括但不限于长按需转发的语音消息执行转发操作、右击需转发的语音消息执行转发操作、双击需转发的语音消息执行转发操作或对需转发的语音消息点击『转发』按钮执行转发操作。

在一些实施例中，步骤S12包括将所述语音消息发送至对应的网络设备；接收所述网络设备返回的所述语音消息被转换后对应的文本信息。

在此，网络设备通过网络相集成的构成的设备，包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或由多个服务器构成。

例如，在一些实施例中，将语音消息转换为文本信息的过程在网络设备端完成。用户设备1将接收到的语音消息发送至对应的网络设备2，网络设备2接收并通过语音识别等方式将该语音消息转换为对应的文本信息，用户设备1接收网络设备2返回的该语音消息被转换后对应的文本信息。

图5示出了根据本申请另一个实施例的一种在网络设备端用于将语音消息转为文本信息的方法流程图。其中，该方法包括步骤S21、步骤S22和步骤S23。在步骤S21中，网络设备接收其他用户发给目标用户的语音消息；在步骤S22中，网络设备将所述语音消息转换为对应的文本信息；在步骤S23中，网络设备将所述文本信息发送至所述目标用户的用户设备，以供所述用户设备在所述目标用户与所述其他用户的聊天窗口中呈现所述文本信息。

例如，用户甲与用户乙进行聊天交互，用户甲的用户设备1用来接收聊天信息，当网络设备接收用户设备2发给用户设备1的语音消息“你什么时间到”时，网络设备将该条语音消息通过语音识别等方式转换为对应的文本信息，再将所述文本信息发送至用户甲的用户设备1，以供用户设备1在用户甲与用户乙的聊天窗口中呈现所述文本信息。

在一些实施例中，该方法还包括步骤S24(未示出)，在步骤S24中，网络设备检测所述语音消息是否满足预定的转换触发条件；其中，若所述语音消息满足所述转换触发条件，将所述语音消息转换为对应的文本信息。

在此，所述转换触发条件包括但不限于以下各项或它们的组合：

所述用户设备的当前情景模式为会议模式或勿扰模式；

所述用户设备的环境噪声强度超过噪声强度阈值；

所述用户设备处于公共场所；

所述语音消息所属聊天事件中发给所述目标用户的至少一条其它语音消息已被执行文本转换；

所述语音消息与发给所述目标用户的、已被文本转换的在先语音消息的最小时间间隔小于或等于预定的第三消息间隔阈值。

在此，聊天事件包括在某时间段内用户在各自的聊天应用程序中进行的由全部或部分聊天信息组成，其中，聊天信息包括但不限于语音、文本、图片或动画；在先语音消息包括接收时间早于某时刻接收到的语音消息，包括但不限于一条语音消息或者多条语音消息。

例如，网络设备接收到其他用户发给用户甲的语音消息后，检测该语音消息是否满足预定的转换触发条件，若满足转换触发条件，将所述语音消息转换为对应的文本信息。

在一些实施例中，例如，用户甲正在忙碌，不能及时接听语音消息，将其用户设备的当前情景模式设定为会议模式或勿扰模式；网络设备同步获得该用户甲的用户设备当前情景模式，当接收到其他用户发给用户甲的语音消息后，网络设备检测该语音消息满足所述用户设备的当前情景模式为会议模式或勿扰模式的转换触发条件，进一步自动将该条语音消息转换为对应的文本信息。

例如，用户甲目前周围的人或事物很多，用户甲的用户设备1利用安装的噪声监测软件监测当前的环境噪声强度为80dB，并实时上传到网络设备；网络设备分析判断该噪声强度80dB超过人耳正常的听觉噪声强度60dB，并检测语音消息满足用户设备的环境噪声强度超过噪声强度阈值60dB，则进一步自动将接收到的语音消息转换为对应的文本信息，并将该文本信息发送至用户设备1。其中，在一些实施例中，噪声强度阈值包括通过技术测量验证获得的人耳正常听觉可承受的最大噪声强度60dB。

例如，用户甲现在在公交车上，其用户设备1实时上传用户甲的位置信息(包括用户甲所处经、纬度信息)到网络设备；网络设备获得用户甲处于公共场合的信息后，检测其他用户发给用户甲的语音消息满足所述用户设备处于公共场所的转换触发条件，进一步自动将所述语音消息转换为对应的文本信息，并将该文本信息发送至用户设备1。在一些实施例中，公共场所包括但不限于宾馆、餐饮场所、商店、音乐厅、图书馆或公共交通工具。

例如，用户甲正在进行一对一的聊天交互，其他用户向用户甲发送语音消息，用户设备1基于用户操作将已接收到的其中一条语音消息转换为对应的文本信息；当其他用户设备通过网络设备向用户设备1发送语音消息时，网络设备接收该语音消息，并检测该语音消息是否满足转换触发条件；此处，网络设备检测到所属聊天事件中发给用户甲的至少一条其它语音消息已被执行文本转换的，网络设备将该语音消息转换为对应的文本信息并发送至用户设备1。其中，在一些实施例中，用户甲接收到语音消息后在用户设备上离线手动操作，将该语音消息转换为对应的文本信息；在另一些实施例中，用户甲接收到语音消息后，将该语音消息转换文本信息的请求上传到网络设备，网络设备接收到该转换请求后，通过语音识别等方式将该条语音消息转换为对应的文本信息，并将该文本信息发送至用户设备1。

又例如，用户甲同时与2位其他用户进行聊天交互，某时刻用户甲基于手动操作将接收到的语音消息11转换为文本信息，停歇了1分钟之后；其中一位其他用户又发送语音消息12给用户甲，网络设备对这时接收的语音消息12进行检测，判断满足所述语音消息与发给所述用户甲的、已被文本转换的在先语音消息11的最小时间间隔小于预定的第三消息间隔阈值2分钟，进一步将语音消息12自动转换为对应的文本信息，并传送给用户设备1。其中，第三消息间隔阈值包括在一些实施例中通过计算机统计分析获得的第三消息间隔阈值2分钟。在一些实施例中，用户甲与其他用户乙、其他用户丙在同一款聊天应用程序同时进行聊天或者与其他用户乙、其他用户丙在不同的聊天应用程序同时进行聊天；当网络设备接收到语音消息，并检测满足所述语音消息与发给所述用户甲的、已被文本转换的在先语音消息的最小时间间隔小于或等于预定的第三消息间隔阈值2分钟的转换触发条件，进一步网络设备将所述语音消息转换为对应的文本信息。如表1所示，网络设备在t3时刻接收到语音消息3，检测到与该条已发送给所述用户甲的、已被文本转换的在先语音消息1的最小时间间隔为t3-t1＝2(分钟)等于预定的第三消息时间间隔阈值2分钟，满足所述转换触发条件，进而网络设备将语音消息3转换为对应的文本信息；网络设备在t4时刻接收到语音消息4，检测到与该条已发送给所述用户甲的、已被文本转换的在先语音消息3的最小时间间隔为t4-t3＝1(分钟)小于预定的第三消息时间间隔阈值2分钟，满足所述转换触发条件，进而网络设备将语音消息4转换为对应的文本信息，并将该文本信息发送至用户设备1。

在一些实施例中，本方案步骤S22包括：网络设备结合所述语音消息对应的参考信息，将所述语音消息转换为对应的文本信息。其中，所述参考信息包括但不限于：

所述语音消息所属聊天事件的其它聊天信息；

所述语音消息所属的用户群的群特征信息；

生成所述语音消息的其他用户的用户特征信息。

例如，用户甲与用户乙正在进行聊天交互，网络设备接收到用户乙发给用户甲的一条语音消息，并结合该聊天事件的其它聊天信息即用户甲、乙先前交互的多条上下文聊天信息，网络设备将该语音消息转换为准确率更高的对应文本信息。

又例如，用户甲与用户群2进行聊天交互，用户群2发送一条语音消息给用户甲，当网络设备接收到该条语音消息时，网络设备结合获得的用户群2的群名称“滴滴打车群”，将该语音消息转换为准确率更高的对应文本信息。

再例如，用户甲与用户乙进行聊天交互，用户甲发送一条语音消息给用户乙；网络设备结合预先统计获得的用户甲的用户特征信息，如用户所在区域：长三角；将该条语音消息转换为准确率更高的对应文本信息。

在一些实施例中，所述方法还包括步骤S25(未示出)，在步骤S25中若所述语音消息未满足所述转换触发条件，网络设备将所述语音消息发送至所述目标用户的用户设备。

例如，用户甲在聊天应用程序上与用户乙进行聊天交互，用户甲发送语音消息给用户乙，网络设备检测该条述语音消息不满足所述转换触发条件，并将该条语音消息发送至用户乙的用户设备。在一些实施例中，转换触发条件如上述举例。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质

存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个***传送到另一***的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机***使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在用户设备端用于将语音消息转为文本信息的方法，其中，该方法包括：

通过用户设备接收其他用户所发送的语音消息；

通过获得所述用户设备的位置信息检测所述语音消息是否满足预定的转换触发条件，其中，所述转换触发条件包括所述用户设备处于公共场所；若所述语音消息满足所述转换触发条件，结合所述语音消息对应的参考信息，将所述语音消息转换为对应的文本信息，其中，所述参考信息包括所述语音消息所属的用户群的群特征信息，所述群特征信息包括群名称、群类型或群聊天背景；

在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息。

2.根据权利要求1所述的方法，其中，所述转换触发条件还包括以下至少任一项：

所述用户设备的当前情景模式为会议模式或勿扰模式；

所述用户设备的环境噪声强度超过噪声强度阈值；

3.根据权利要求2所述的方法，其中，所述聊天事件包括以下至少任一项：

所述聊天窗口内的多条信息；

所述聊天窗口内的主题相关的多条信息。

4.根据权利要求1所述的方法，其中，所述参考信息还包括以下至少任一项：

所述语音消息所属聊天事件的其它聊天信息；

生成所述语音消息的其他用户的用户特征信息。

5.根据权利要求1中所述的方法，其中，所述方法还包括：

识别所述文本信息中与操作指令对应的关键词；

在所述关键词处添加访问所述操作指令的触发信息；

其中，在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息包括：

在所述用户设备与所述其他用户的聊天窗口中呈现所述文本信息，其中，所述关键词在所述文本信息中被区分显示。

6.根据权利要求5所述的方法，其中，所述方法还包括：

若获取用户对所述关键词的触发操作，利用所述触发信息调用执行所述操作指令。

7.根据权利要求1中所述的方法，其中，所述方法还包括：

根据用户对所述文本信息的选择操作，识别所述文本信息中与操作指令对应的关键词，并在所述聊天窗口中显示所述操作指令。

8.根据权利要求7所述的方法，其中，所述方法还包括：

若获取用户对操作指令的触发操作，调用执行所述操作指令。

9.根据权利要求1所述的方法，其中，所述方法还包括：

若所述语音消息未满足所述转换触发条件，在所述聊天窗口中呈现所述语音消息。

10.根据权利要求9所述的方法，其中，所述方法还包括：

根据用户对所述语音消息的文本转换操作，将所述语音消息转换为对应的文本信息并呈现所述文本信息；或者，

根据用户对所述语音消息的转发操作，将所述语音消息转换为对应的文本信息并转发所述文本信息至对应接收者。

11.根据权利要求1-10任一项所述的方法，其中，将所述语音消息转换为对应的文本信息包括：

将所述语音消息发送至网络设备；

接收所述网络设备返回的所述语音消息被转换后对应的文本信息。

12.一种在网络设备端用于将语音消息转为文本信息的方法，其中，该方法包括：

接收其他用户发给目标用户的语音消息；

将所述文本信息发送至所述目标用户的用户设备，以供所述用户设备在所述目标用户与所述其他用户的聊天窗口中呈现所述文本信息。

13.根据权利要求12所述的方法，其中，所述转换触发条件还包括以下至少任一项：

所述用户设备的当前情景模式为会议模式或勿扰模式；

所述用户设备的环境噪声强度超过噪声强度阈值；

14.根据权利要求12所述的方法，其中，所述方法还包括：

若所述语音消息未满足所述转换触发条件，将所述语音消息发送至所述目标用户的用户设备。

15.一种用于将语音消息转为文本信息的设备，其中，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至14中任一项所述的方法。

16.一种包括指令的计算机可读介质，所述指令在被处理器执行时使得***进行如权利要求1至14中任一项所述的方法。