CN116631400A

CN116631400A - 语音转文本方法和装置、计算机设备及存储介质

Info

Publication number: CN116631400A
Application number: CN202310834751.2A
Authority: CN
Inventors: 黄杨
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-08-22

Abstract

本申请实施例提供了一种语音转文本方法和装置、计算机设备及存储介质，属于金融科技技术领域。该方法包括：获取语音数据；对所述语音数据进行内容识别，得到原始文本；根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息；其中，所述选定关键信息包括：待标记词语信息和标记效果信息；根据所述待标记词语信息从所述原始文本中筛选出待标记词语；根据所述标记效果信息从预设的候选标记操作筛选出目标标记操作；根据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本。本申请实施例能够生成标注关键语句的文本，节省人工手动标注的人力。

Description

语音转文本方法和装置、计算机设备及存储介质

技术领域

本申请涉及金融科技技术领域，尤其涉及一种语音转文本方法和装置、计算机设备及存储介质。

背景技术

随着金融科技的发展，为了提高金融行业的服务质量，通过对客户服务和销售通话录音得到语音数据，再对语音数据进行文本转换以提取出关键内容给客户查阅。，例如在保险行业，保险业务人员通过口述方式给客户讲解服务方案，为了方便客户后续查阅，基于保险业务人员的语音数据转换为文本的服务方案。

相关技术，语音转文本是直接识别语音数据的内容生成文本。若需要在所生成的文本中对语音数据中的关键语句添加标注效果以突出关键语句。例如在保险行业，将语音数据转换为服务方案后，需要由保险业务人员对服务方案内的重点内容添加标注效果让客户重点查看。但是需要人工手动对所生成文本中的关键语句添加标注效果，所以耗费人工编辑时间。因此，如何自动将语音数据生成标注有关键语句的文本，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种语音转文本方法和装置、计算机设备及存储介质，旨在将语音数据自动生成标注有关键语句的文本，节省人力。

为实现上述目的，本申请实施例的第一方面提出了一种语音转文本方法，所述方法包括：

获取语音数据；

对所述语音数据进行内容识别，得到原始文本；

根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息；其中，所述选定关键信息包括：待标记词语信息和标记效果信息；

根据所述待标记词语信息从所述原始文本中筛选出待标记词语；

根据所述标记效果信息从预设的候选标记操作筛选出目标标记操作；

根据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本。

在一些实施例，所述根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息，包括：

对所述原始文本进行词语特征划分，得到原始词语特征；

根据所述关键词特征从所述原始词语特征中筛选出目标词语特征；

根据所述目标词语特征对所述原始文本中进行文本内容提取，得到所述选定关键信息。

在一些实施例，所述根据所述目标词语特征对所述原始文本中进行文本内容提取，得到所述选定关键信息，包括：

在所述原始文本中提取所述目标词语特征的语句，得到候选关键语句；其中，所述候选关键语句包括：关键词语和标记效果词语；

根据所述关键词语和所述标记效果词语构建所述选定关键信息。

在一些实施例，所述根据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本，包括：

从所述原始文本中提取出含有所述待标记词语的语句，得到待标记语句；

根据所述目标标记操作对所述待标记语句的所述待标记词语进行标记处理，得到目标语句；

将所述原始文本中的所述待标记语句替换为所述目标语句，得到所述目标文本。

在一些实施例，所述从所述原始文本中提取出含有所述待标记词语的语句，得到待标记语句，包括：

根据所述待标记词语在所述原始文本进行语句范围选取，得到语句选取范围；其中，所述语句选取范围为所述原始文本中所述候选关键语句前一语句的范围；

根据所述语句选取范围从所述原始文本中选出所述待标记语句。

在一些实施例，在据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本之后，所述方法还包括：

获取所述目标文本中所述候选关键语句前的标点符号的位置信息，得到符号位置信息；

根据所述符号位置信息将所述目标文本的标点符号剔除，并将所述目标文本中的所述候选关键语句剔除，以更新所述目标文本。

在一些实施例，在所述根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息之前，所述方法还包括：

构建所述关键词特征，具体包括：

获取预设的标记规则；其中，所述标记规则包括：指代词特征、标记词特征和效果词特征；

根据所述指代词特征、所述标记词特征和所述效果词特征进行组合，得到所述关键词特征。

为实现上述目的，本申请实施例的第二方面提出了一种语音转文本装置，所述装置包括：

数据获取模块，用于获取语音数据；

内容识别模块，用于对所述语音数据进行内容识别，得到原始文本；

信息提取模块，用于根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息；其中，所述选定关键信息包括：待标记词语信息和标记效果信息；

词语筛选模块，用于根据所述待标记词语信息从所述原始文本中筛选出待标记词语；

操作筛选模块，用于根据所述标记效果信息从预设的候选标记操作筛选出目标标记操作；

词语处理模块，用于根据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本。

为实现上述目的，本申请实施例的第三方面提出了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的语音转文本方法和装置、计算机设备及存储介质，其通过将语音数据转换为原始文本，再提取原始文本中的待标记词语信息和标记效果信息，以从原始文本中筛选出待标记词语，再从候选标记操作中筛选出目标标记操作，根据目标标记操作对原始文本中的待标记词语自动进行效果标记，以生成标注有关键语句的文本，节省手动对文本进行效果标注的人力。因此，在保险行业，可以直接生成带有标注效果的服务方案，既方便客户查阅重点内容，又能够降低保险业务人员生成服务方案的工作量。

附图说明

图1是本申请实施例提供的语音转文本方法的流程图；

图2是本申请另一实施例提供的语音转文本方法的流程图；

图3是图1中的步骤S103的流程图；

图4是图3中的步骤S303的流程图；

图5是本申请实施例提供的语音转文本方法中代码映射关系的示意图；

图6是图1中的步骤S106的流程图；

图7是图6中的步骤S601的流程图；

图8是本申请另一实施例提供的语音转文本方法的流程图；

图9是本申请实施例提供的语音转文本装置的结构示意图；

图10是本申请实施例提供的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，NLP涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

自动语音识别技术(Automatic Speech Recognition，ASR)：自动语音识别技术是一种将人的语音转换为文本的技术。自动语音识别技术是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，语音识别技术与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

渲染(Render)：渲染是指用软件将模型生成图像的过程，用于描述计算视频编辑软件中的效果，以及生成最终视频的输出。渲染的应用领域包含计算机与视频游戏、电影等特效以及可视化设计，每一种应用都是特性与技术的综合考虑。

语音转文本技术是通过口译者说话后由录音设备录取得到语音数据，语音数据传输到服务端，由服务端将语音数据转换为文本。例如，在保险行业，保险业务人员和客户之间的服务沟通、销售通话进行录音得到语音数据，再将语音数据转换为文本，以便于业务人员提取出关键内容构建服务方案。除此之外，在其他金融领域，也可以通过语音输入方式生成金融服务方案，无需人工手动制作金融服务方案。为了方便客户重点查阅，保证客户能够重点查阅关键内容，需要将文本中关键内容进行效果标注，以强调口译者本身说话的意图。相关技术中，通过将语音数据转换为文本后，由人工根据口译者的意图手动对文本中的关键词语进行效果标注，以突出文本的关键内容。但是通过人工手动标注会耗费人工的时间和精力。

基于此，本申请实施例提供了一种语音转文本方法和装置、计算机设备及存储介质，通过将语音数据转换为文本后，再提取文本中的待标记词语信息和标记效果信息，以选出原始文本中的待标记词语和目标标记操作，根据目标标记操作对原始文本中的待标记词语自动进行效果标记，以生成标注有关键语句的文本，节省手动对文本进行效果标注的人力。因此，对于保险行业的保险业务人员来说，可以直接通过口译方式生成带有标注效果的服务方案，不仅能够方便客户查看服务方案，还能够降低保险业务人员的工作量。

本申请实施例提供的语音转文本方法和装置、计算机设备及存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的语音转文本方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的语音转文本方法，涉及人工智能和金融科技技术领域。本申请实施例提供的语音转文本方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现语音转文本方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

图1是本申请实施例提供的语音转文本方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S106。

步骤S101，获取语音数据；

步骤S102，对语音数据进行内容识别，得到原始文本；

步骤S103，根据预设的关键词特征对原始文本进行关键信息提取，得到选定关键信息；其中，选定关键信息包括：待标记词语信息和标记效果信息；

步骤S104，根据待标记词语信息从原始文本中筛选出待标记词语；

步骤S105，根据标记效果信息从预设的候选标记操作筛选出目标标记操作；

步骤S106，根据目标标记操作对原始文本中的待标记词语进行标记处理，得到目标文本。

本申请实施例所示意的步骤S101至步骤S106，通过将获取的语音数据进行内容识别得到原始文本，并根据关键词特征从原始文本中提取出待标记词语信息和标记效果信息，根据待标记词语信息从原始文本中筛选出待标记词语，再根据标记效果信息从候选标记操作中筛选出目标标记操作，以根据目标标记操作对原始文本中的待标记词语进行效果标记得到目标文本。因此，自动将语音数据转换为文本后，自动对文本中关键语句进行标记，以生成带有标记关键语句的目标文本，不仅节省了人工手动编辑文本的精力和时间，还加速了目标文本中差异化内容的生成。

在一些实施例的步骤S101中，可以从预设的语音数据库提取语音数据。也可以通过其他方式实时获取语音数据，不限于此。若实时获取语音数据，则需要通过录音设备将说话对象的话语进行录制以采集语音数据。其中，录音设备可以预先配置在终端上，也可以通过录音设备采集语音数据后直接传输至终端或者服务端。录音设备包括以下任意一种：手机、笔记本电脑、录音笔。通过在录音设备的界面显示出录音图标，且录音图标带有音量标识，以通过音量标识提示说话对象实时的说话音量，以便于说话对象根据音量标识知晓是否录制语音数据。

需要说明的是，录音设备采集的语音数据可以在终端进行下一步操作，也可以将语音数据发送至服务端，由服务端对语音数据进行下一步操作。其中，录音设备将语音数据发送至终端或者服务器的通信方式可以为无线或者有限，无线方式可以为蓝牙、GPRS、WIFI中的任意一种。

例如，若在保险行业的应用场景，当保险业务人员和客户现场讲解保险服务方案时，采用录音设备录制保险人员在讲解保险服务方案时的语音得到语音数据。若保险业务人员通过电话方式讲解，通过将电话沟通过程的电话录音作为语音数据。若保险业务人员采用远程会议方式讲解，可以提取会议视频数据中的音频数据作为语音数据。

在一些实施例的步骤S102中，获取语音数据后，需要对语音数据转换为文本。通过自动语音识别技术将语音数据转换为原始文本，以识别出语音数据中的文本内容。

需要说明的是，语音数据转换为原始文本，通过语音识别程序识别语音数据中的内容得到原始文本。

在一些实施例中，在步骤S103之前，语音转文本方法还包括：构建关键词特征。

需要说明的是，在从原始文本中提取选定关键信息之前，需要先构建关键词特征，也即预先定义需要获取原始文本中那些词语特征的词语作为选定关键信息，以提高关键词特征自定义的灵活性。

请参阅图2，在一些实施例中，构建关键词特征可以包括但不限于包括步骤S201至步骤S202：

步骤S201，获取预设的标记规则；其中，标记规则包括：指代词特征、标记词特征和效果词特征；

步骤S202，根据指代词特征、标记词特征和效果词特征进行组合，得到关键词特征。

在一些实施例的步骤S201中，获取预设的标记规则，且标记规则包括：指代词特征、标记词特征和效果词特征，指代词特征为指代词语的特征，标记词特征作为待标记词语的特征，通过效果词特征可以确定对待标记词语做什么标记效。

例如，若指代词特征为“以上”，标记词特征为“关键词语”，效果词特征为“标记效果词语”。因此，通过指代词特征、关键词语和效果词特征即可确定原始文本中哪部分语句作为选定关键信息。其中，指代词特征可以根据需求自定义，且指代词特征可以为“前述”、“前文”等词语，且根据指代词特征可以确定待标记词语的选取范围。

在一些实施例的步骤S202中，将指代词特征、标记词特征和效果词特征组合得到关键词特征，以便于从原始文本中查找出满足关键词特征的词语作为选定关键信息。

例如，将指代词特征、标记词特征和效果词特征组合，得到“以上+关键词语+标记效果词语”作为关键词特征，或者得到“前文+关键词语+标记效果词语”作为关键词特征。

在本申请实施例所示意的步骤S201至步骤S202，通过获取指代词特征、标记词特征和效果词特征，并将指代词特征、标记词特征和效果词特征组合成关键词特征，以便于在原始文本中提取出满足关键词特征的词语作为选定关键信息。

请参阅图3，在一些实施例中，步骤S103可以包括但不限于包括步骤S301至步骤S303：

步骤S301，对原始文本进行词语特征划分，得到原始词语特征；

步骤S302，根据关键词特征从原始词语特征中筛选出目标词语特征；

步骤S303，根据目标词语特征对原始文本中进行文本内容提取，得到选定关键信息。

在一些实施例的步骤S301中，将原始文本中词语进行词语特征划分，得到原始文本中每一词语的原始词语特征，以根据原始词语特征确定原始文本中的词语是否匹配关键词特征。

需要说明的是，在进行词语特征划分前，预先构建词语特征数据库，以确定每一词语对应的词语特征。当生成原始文本后，将原始文本中每一词语先划分，再根据每一词语从词语特征数据库中提取出匹配的词语特征作为原始词语特征，使得原始文本每一词语的原始词语特征确定简易。

例如，原始文本中一段语句为“好的说话方式一定是讲究口齿清晰的，以上口齿清晰标红”，对原始文本进行词语特征划分，确定“说话方式”、“口齿清晰”为标记词特征，“一定是”、“以上”为指代词特征，“标红”为效果词特征。若应用场景为保险行业，原始文本中一段为“A险种所服务的人群年龄段是50-60岁，以上50-60岁标红”，所以确定“50-60岁”作为标记词特征，“以上”作为指代词特征。

在一些实施例的步骤S302和步骤S303中，根据关键词特征对原始词语特征进行匹配，以获取与关键词特征匹配的关键词特征作为目标词语特征。然后根据目标词语特征从原始文本中提取出对应的文本内容作为选定关键信息，使得选定关键信息筛选出简易。

例如，关键词特征为“以上+关键词语+标记效果词语”，根据关键词特征从原始词语特征筛选出的目标词语特征为“指代词特征+标记词特征+效果词特征”，根据目标词语特征从原始文本中提取对应的词语为“以上口吃清晰标红”作为选定关键信息。若应用场景为保险行业，原始文本中提取对应的词语为“以上50-60岁标红”作为选定关键信息。

在本申请实施例所示意的步骤S301至步骤S303中，通过对原始文本中每一词语进行词语特征划分后得到原始词语特征，再从原始词语特征筛选出与关键词语特征匹配的原始词语特征作为目标词语特征。根据目标词语特征从原始文本中筛选出对应内容作为选定关键信息，使得选定关键信息筛选简易，以根据选定关键信息知晓待标记词语信息和标记效果信息。

请参阅图4，在一些实施例中，步骤S303可以包括但不限于包括步骤S401至步骤S402：

步骤S401，在原始文本中提取目标词语特征的语句，得到候选关键语句；其中，候选关键语句包括：关键词语和标记效果词语；

步骤S402，根据关键词语和标记效果词语构建选定关键信息。

在一些实施例的步骤S401中，先从原始文本中提取与目标词语特征对应的语句得到候选关键语句。由于目标词语特征为“指代词特征+标记词特征+效果词特征”，所以先从原始文本中找到与目标词语特征中特征排序相同的语句作为候选关键语句，再从候选关键语句中选出与标记词特征匹配的关键词语，从候选关键语句中选出与效果词特征匹配的标记效果词语。

例如，若原始文本中一语句为“今天，我要说一个重点，好的说话方式一定是讲究口齿清晰，以上口齿清晰标红”，根据目标词语特征为“指代词特征+标记词特征+效果词特征”，从原始文本中选出与目标词语特征匹配的候选关键语句为“以上口齿清晰标红”。若是保险行业的应用场景，所确定候选关键语句为“以上50-60岁标红”。因此，通过先从原始文本中选出与目标词语特征匹配的候选关键语句，使得候选关键语句的筛选简易。

需要说明的是，选出候选关键语句后，在原始文本中对候选关键语句进行结构化处理，也即在原始文本中标出候选关键语句。例如，在原始文本中标出候选关键语句后的语句为“好的说话方式一定是讲究口齿清晰的，[以上口齿清晰标红]”。

在一些实施例的步骤S402中，由于候选关键语句包括：关键词语和标记效果词语，将关键词语作为待标记词语信息，将标记效果词语作为标记效果信息。例如，候选关键语句中的关键词语为“口齿清晰”，标记效果词语为“标红”。其中，标记效果词语可以为“标红”、“加粗”“加下划线”和“斜体”中的任意一个。因此，根据关键词语和标记效果词语作为选定关键信息，使得选定关键信息的确定简易。

在本申请实施例所示意的步骤S401至步骤S402，先从原始文本中选出与目标词语特征匹配的语句作为候选关键语句。将候选关键语句中的关键词语和标记效果词语作为选定关键信息，使得选定关键信息获取简易，以根据选定关键信息进一步确定需要标记的词语和标记效果。

在一些实施例的步骤S104中，确定待标记词语信息后，根据待标记词语信息在原始文本中进行词语查找。其中，为了节省词语查找时间，根据候选关键语句在原始文本中确定查找范围，也即将候选关键语句的前一语句作为词语查找范围。根据待标记词语信息在词语查找范围对应的语句内查找匹配的词语作为待标记词语，使得待标记词语查找更加快速。

例如，若待标记词语信息为“口齿清晰”，先确定候选关键语句的前一句作为词语查找范围，且词语查找范围为“好的说话方式一定是讲究口齿清晰的”，并在语句查找范围内确定该语句中的“口齿清晰”作为待标记词语。其中，词语查找范围还根据指代词语确定，若指代词语为“前文”，那么确定候选关键语句前面所有内容的范围作为词语查找范围。若指代词语为“前两句”，将候选关键语句前两句内容的范围作为词语查找范围。

在一些实施例的步骤S105中，查找出待标记词语后，为了对待标记词语进行标记处理。根据标记效果信息从预设的候选标记操作中筛选出目标标记操作。具体地，先根据标记效果信息从候选标记代码中筛选出目标标记代码，将目标标记代码与待标记词语进行组合，再通过预设的显示器将组合后的目标标记代码和待标记词语显示即可实现待标记词语标记上与标记效果信息对应的标记效果。

例如，若标记效果信息为“标红”，根据标记效果信息从预设的代码映射关系中查找出对应的候选标记代码。“标红”对应的候选标记代码为“待标记词语”。若标记效果信息为“加粗”，对应的候选标记代码为“待标记词语”。若标记效果信息为“加下划线”，对应的候选标记代码为“待标记词语”。若标记效果信息为“斜体”，对应的候选标记代码为“待标记词语”。其中，标记效果信息可以为“标红”、“加粗”、“下划线”和“斜体”中的任意一种。其中，预设的代码映射关系如图5所示，以根据标记效果信息即可从代码映射关系中查找出对应的候选标记代码作为目标标记代码，以对待标记词语进行标记处理。因此，通过根据标记效果信息从代码映射关系中确定对应的候选标记代码，以便于对待标记词语进行标记处理。

请参阅图6，在一些实施例中，步骤S106可以包括但不限于包括步骤S601至步骤S603：

步骤S601，从原始文本中提取出含有待标记词语的语句，得到待标记语句；

步骤S602，根据目标标记操作对待标记语句的待标记词语进行标记处理，得到目标语句；

步骤S603，将原始文本中的待标记语句替换为目标语句，得到目标文本。

在一些实施例的步骤S601中，确定待标记词语后，先从原始文本中提取出携带待标记词语的语句作为待标记语句，以便于直接在待标记语句中对待标记词语进行标记处理，无需在原始文本中的整个文本中逐个进行标记。其中，待标记语句则是位于候选关键语句前的一个语句。

例如，若待标记词语为“口齿清晰”，从原始文本中选出含有“口齿清晰”的语句有第2段第4句、第3段第2句、第4端第5句的语句，确定候选关键语句前的一个语句为第2段第4句的语句作为待标记语句。

在一些实施例的步骤S602中，确定待标记语句后，也即限定了原始文本中需要标记的范围后，无需对整个原始文本内所有的待标记词语进行标记处理，而是先选定待标记语句，再根据目标标记操作对待标记语句中的待标记词语进行标记处理。

例如，原始文本中某一语句为“好的说话方式一定是讲究口齿清晰的，以上口齿清晰标红。”，确定待标记语句为“好的说话方式一定是讲究口齿清晰的”。因此，对“好的说话方式一定是讲究口齿清晰的”中的“口齿清晰”进行标记处理得到带有标记效果的目标语句。若目标标记操作为增加下划线，那么目标语句为“好的说话方式一定是讲究口齿清晰的”。若应用场景为保险行业，原始文本中某一语句为“A险种所服务的人群年龄段是50-60岁，以上50-60岁标红”，那么生成文本为“A险种所服务的人群年龄段是50-60岁”，其中，“50-60岁”为红色字体。所以对于保险业务人员来说，生成保险服务方案时能够着重显示关键内容，以便于客户查阅，从而提高保险服务的质量。

在一些实施例的步骤S603中，完成待标记词语的标记处理后得到目标语句，将原始文本中的待标记语句替换为目标语句，以得到带有标记关键词的目标文本，实现语音转文本后自动对文本中关键词进行效果标记。

例如，原始文本中某一语句为“今天，我要说一个重点，好的说话方式一定是讲究口齿清晰的。”，将目标语句替换到原始文本后得到目标文本，且目标文本中相同语句为“今天，我要说一个重点，好的说话方式一定是讲究口齿清晰的。”。

在本申请实施例所示意的步骤S601至步骤S603，通过先确定待标记语句，再根据目标标记操作对待标记语句中的待标记词语进行标记处理，以限定需要标记语句，无需对整个原始文本中每一待标记词语都进行标记处理，使得原始文本中的关键词标记更加准确。

请参阅图7，在一些实施例，步骤S601包括但不限于包括步骤S701至步骤S702：

步骤S701，根据待标记词语在原始文本进行语句范围选取，得到语句选取范围；其中，语句选取范围为原始文本中候选关键语句前一语句的范围；

步骤S702，根据语句选取范围从原始文本中选出待标记语句。

在一些实施例的步骤S701中，为了待标记词语的标记处理更加准确，根据待标记词语在原始文本确定语句选取范围，且语句选取范围为原始文本中候选关键语句前一语句的范围。使得语句选取范围确定简易，无需全文搜索含有待标记词语的语句作为待标记语句。

需要说明的，语句选取范围还根据指代词语确定，若指代词语为“前述所有”，那么位于候选关键语句前所有的内容作为语句选取范围。若指代词语为“前一句”，那么位于候选关键语句前一句的语句作为语句选取范围。若指代词语为“前一段”，那么位于候选关键语句前一段的内容作为语句选取范围。

在一些实施例的步骤S702中，确定了语句选取范围后，根据语句选取范围从原始文本中选出待标记语句，且待标记语句包含待标记词语。因此，将需要限定的范围为上一句文本内容时，直接选择上一句语句作为待标记语句，而不是对整个原始文本的待标记词语进行标记处理，使得待标记词语的标记更加准确和更加高效。

在本申请实施例所示意的步骤S701至步骤S702，通过确定原始文本中候选关键语句前一语句的范围作为语句选取范围，再根据语句选取范围从原始文本中选出待标记语句，使得待标记语句选出更加简易。同时，确定了待标记语句后，以限定标记处理的范围，使得标记更加准确且更加高效。

请参阅图8，在一些实施例中，在步骤S106之后，语音转文本方法还可以包括但不限于包括步骤S801至步骤S802：

步骤S801，获取目标文本中候选关键语句前的标点符号的位置信息，得到符号位置信息；

步骤S802，根据符号位置信息将目标文本的标点符号剔除，并将目标文本中的候选关键语句剔除，以更新目标文本。

在一些实施例的步骤S801中，通过将目标语句替换原始文本中的待标记语句得到目标文本后，由于目标文本中还包含候选关键语句和额外的标点符号。需要先获取目标文本中候选关键语句前的标点符合的位置信息得到符号位置信息，以根据符号位置信息确定额外标点符合的位置。

例如，若候选关键语句位于第2段第4句，那么第2段第4句前一个位置作为符号位置信息，并选出第2段第4句前一个标点符合为“，”。

在一些实施例的步骤S802中，根据符号位置信息选中目标文本中的标点符号，再将符号位置信息对应的标点符合剔除，且将目标文本中的候选关键语句体除，以更新目标文本，得到最终文本。

例如，若目标文本为“今天，我要说一个重点，好的说话方式一定是讲究口齿清晰的，以上口齿清晰标下划线。”。将目标文本中符号位置信息对应的标点符号“，”和候选关键语句“以上口齿清晰标下划线”剔除，得到更新的文本为“今天，我要说一个重点，好的说话方式一定是讲究口齿清晰的。”。

在本申请实施例所示意的步骤S801至步骤S802，构建目标文本后，将目标文本中与符号位置信息对应的标点符合剔除，再将目标文本中的候选关键语句剔除，以更新目标文本，得到最终文本。因此，剔除多余的语句和标点符号，以构建符合说话对象意图的最终文本，使得阅览对象将最终文本阅览后能够更加直观的知晓说话对象的意图。

需要说明的是，所显示最终文本，是通过将目标标记代码和待标记词语组合形成目标代码，再通过预设显示器或者浏览器加载目标代码，以显示最终目标文本。其中，预设的浏览器为APP端、web端。例如，若目标代码为“好的说话方式一定是讲究口齿清晰的”。因此通过，预设浏览器显示出来“好的说话方式一定是讲究口齿清晰的”，且“口齿清晰”为红色字体。例如，若目标代码为“A险种所服务的人群年龄段是标红50-60岁的”。因此通过，预设浏览器显示出来“A险种所服务的人群年龄段是50-60岁”，且“50-60岁”为红色字体。

具体地，预设的浏览器内设有文本编辑器，文本编辑器将目标代码解析成对应的样式内容，以根据样式内容将待标记词语进行标记得到最终文本，并通过渲染的方式将最终文本显示出来。

本申请实施例先通过录音设备录取说话对象的说话内容得到语音数据，再将语音数据通过无线方式发送至服务端。然后服务端通过自动语音内容识别技术对语音数据进行内容识别得到原始文本。完成语音数据转换为原始文本后，将原始文本中每一词语进行划分，再根据词语从词语特征数据库中确定每一词语的词语特征以得到原始词语特征，再根据指代词特征、标记词特征和效果词特征从原始词语特征中选出目标词语特征。从原始文本中提取与目标词语特征匹配的关键词语和标记效果词语，将关键词语作为待标记词语信息，并将标记效果词语作为标记效果信息。然后根据标记词语信息确定原始文本前一句作为词语查找范围。根据待标记词语信息在词语查找范围对应的语句内查找匹配的词语作为待标记词语。然后根据待标记词语进一步确定原始文本中的语句选取范围，也即确定标记处理的语句范围。根据语句选取范围从原始文本中选出待标记语句，也即作为标记处理的语句。然后，根据标记效果信息从代表映射关系中确定对应的候选标记代码作为目标标记代码，将目标标记代码和待标记语句中的待标记词语组合成目标代码，再通过预设的浏览器对组合的目标代码进行显示，以实现在待标记语句中对待标记词语进行标记得到目标语句。将原始文本中待标记语句替换为目标语句得到目标文本，并获取目标文本中候选关键语句前的标点符合位置得到符号位置信息，以根据符号位置信息将目标文本中对应的标点符合剔除，再剔除候选关键语句，以更新目标文本得到最终文本。因此，通过自动将语音数据转换为文本后，再根据预设的关键词特征剔除出原始文本中的选定关键信息。因此，根据选定关键信息自动对原始文本中的待标记词语进行标记处理，以生成带有标记关键词的目标文本，节省人工对文本编辑的人力。因此，通过构建一种能够将语音数据转换为带有标注效果的文本，可以适用于通用的语音转文本领域。特别针对保险服务行业，因为保险服务方案内存在很多关键内容需要客户重点查阅，所以仅需要保险业务人员口述即可生成带有标注效果的保险服务方案，降低保险业务人员制作保险服务方案的工作量，还便于客户重点查阅提升客户服务体验感。

请参阅图9，本申请实施例还提供一种语音转文本装置，可以实现上述语音转文本方法，该装置包括：

数据获取模块901，用于获取语音数据；

内容识别模块902，用于对语音数据进行内容识别，得到原始文本；

信息提取模块903，用于根据预设的关键词特征对原始文本进行关键信息提取，得到选定关键信息；其中，选定关键信息包括：待标记词语信息和标记效果信息；

词语筛选模块904，用于根据待标记词语信息从原始文本中筛选出待标记词语；

操作筛选模块905，用于根据标记效果信息从预设的候选标记操作筛选出目标标记操作；

词语处理模块906，用于根据目标标记操作对原始文本中的待标记词语进行标记处理，得到目标文本。

该语音转文本装置的具体实施方式与上述语音转文本方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述语音转文本方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图10，图10示意了另一实施例的计算机设备的硬件结构，计算机设备包括：

处理器1001，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器1002，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器1002可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1002中，并由处理器1001来调用执行本申请实施例的语音转文本方法；

输入/输出接口1003，用于实现信息输入及输出；

通信接口1004，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1005，在设备的各个组件(例如处理器1001、存储器1002、输入/输出接口1003和通信接口1004)之间传输信息；

其中处理器1001、存储器1002、输入/输出接口1003和通信接口1004通过总线1005实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述语音转文本方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的语音转文本方法和装置、计算机设备及存储介质，其通过先将语音数据转换为原始文本，再根据原始文本中符合关键词特征的内容作为选定关键信息。根据选定关键信息对原始文本中的词语进行自动标记处理，以生成标注有关键语句的文本，无需人工手动对文本进行编辑，节省人工对文本关键内容标注的人力。因此，基于语音数据生成带有标注效果的文本，对于保险服务行业而言，仅需要通过口述方案即可生成带有标注效果的保险服务方案，方便客户查阅重点内容，还降低了保险业务人员的工作量。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种语音转文本方法，其特征在于，所述方法包括：

获取语音数据；

对所述语音数据进行内容识别，得到原始文本；

2.根据权利要求1所述的方法，其特征在于，所述根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息，包括：

对所述原始文本进行词语特征划分，得到原始词语特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标词语特征对所述原始文本中进行文本内容提取，得到所述选定关键信息，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述原始文本中提取出含有所述待标记词语的语句，得到待标记语句，包括：

6.根据权利要求3所述的方法，其特征在于，在据所述目标标记操作对所述原始文本中的所述待标记词语进行标记处理，得到目标文本之后，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，在所述根据预设的关键词特征对所述原始文本进行关键信息提取，得到选定关键信息之前，所述方法还包括：

构建所述关键词特征，具体包括：

8.一种语音转文本装置，其特征在于，所述装置包括：

数据获取模块，用于获取语音数据；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音转文本方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音转文本方法。