WO2022037600A1

WO2022037600A1 - 摘要记录方法、装置、计算机设备和存储介质

Info

Publication number: WO2022037600A1
Application number: PCT/CN2021/113206
Authority: WO
Inventors: 辛格希曼舒
Original assignee: 深圳市万普拉斯科技有限公司
Priority date: 2020-08-18
Filing date: 2021-08-18
Publication date: 2022-02-24
Also published as: CN114155860A

Abstract

本申请涉及一种摘要记录方法、装置、计算机设备和存储介质。该方法包括：接收显示界面上目标内容对应的音频数据；对音频数据进行语音识别，得到音频数据对应的文本信息；通过预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要；将各候选文本摘要以预设格式在终端上进行显示；获取从候选文本摘要中确定的目标文本摘要，将文本摘要与目标内容关联。采用本方法能够提高摘要记录的准确性。

Description

摘要记录方法、装置、计算机设备和存储介质

本申请要求于2020年8月18日提交中国专利局，申请号为2020108307795，申请名称为“摘要记录方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种摘要记录方法、装置、计算机设备和存储介质。

背景技术

随着电子技术的发展，移动终端的功能日益完善，但是人们对移动终端的功能要求也越来越高。用户在参加各类学习培训、社会活动会议等活动时，需要对学习内容或者会议内容进行记录。

目前，用户一般在移动终端上通过手动编辑文字来记录内容或者语音识别装置识别和存储要要记录的内容；然而，目前的记录方式存在记录准确性低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高记录准确性的摘要记录方法、装置、计算机设备和存储介质。

一种摘要记录方法，所述方法包括：

接收显示界面上目标内容对应的音频数据；

对所述音频数据进行语音识别，得到所述音频数据对应的文本信息；

通过预设数量个训练好的机器学习模型对所述文本信息进行处理，分别得到对应的候选文本摘要；

将各所述候选文本摘要以预设格式进行显示；

获取从所述候选文本摘要中确定的文本摘要，将所述文本摘要与所述目标内容关联。

在其中一个实施例中，所述接收显示界面上目标内容对应的音频数据，包括：

接收显示界面上触发的内容确认指令；

根据所述内容确认指令从所述显示界面上确定目标内容；

响应对所述目标内容的录音指令，得到所述目标内容对应的音频数据。

在其中一个实施例中，所述录音指令携带录音时长，在所述对所述音频数据进行语音识别，得到所述音频数据对应的文本信息之前，所述方法还包括：

判断所述录音时长是否大于预设录音时长；

当所述录音时长小于或等于所述预设录音时长时，执行对所述音频数据进行语音识别，得到所述音频数据对应的文本信息步骤。

在其中一个实施例中，所述将各所述候选文本摘要以预设格式在终端上进行显示包括以下任意一种形式：

将各所述候选文本摘要集以显示框的形式在终端的显示区域进行展开显示；或

生成各所述候选文本摘要对应的显示标签，通过所述显示标签将各所述候选文本摘要在终端的显示区域进行折叠显示。

在其中一个实施例中，所述获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联包括：

获取从所述候选文本摘要中确定的待编辑文本摘要；

接收对所述待编辑文本摘要触发的摘要编辑指令；

根据所述摘要编辑指令对所述待编辑文本摘要进行编辑，得到目标文本摘要，将所述目标文本摘要与所述目标内容关联。

在其中一个实施例中，所述方法还包括：

当所述录音时长小于或等于所述预设录音时长时，获取所述音频数据中的句子数量；

当所述句子数量小于或等于数量阈值时，对所述音频数据进行语音识别，得到所述音频数据对应的文本信息。

在其中一个实施例中，所述方法包括：

将与所述目标内容关联的目标文本摘要输入到所述机器学习模型中，对所述机器学习模型进行更新，得到更新后的机器学习模型。

一种摘要记录装置，所述装置包括：

接收模块，用于接收显示界面上目标内容对应的音频数据；

语音识别模块，用于对所述音频数据进行语音识别，得到所述音频数据对应的文本信息；

处理模块，用于通过预设数量个训练好的机器学习模型对所述文本信息进行处理，分别得到对应的候选文本摘要；

显示模块，用于将各所述候选文本摘要以预设格式在终端上进行显示；

关联模块，用于获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

接收显示界面上目标内容对应的音频数据；

将各所述候选文本摘要以预设格式在终端上进行显示；

获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

接收显示界面上目标内容对应的音频数据；

将各所述候选文本摘要以预设格式在终端上进行显示；

上述文本摘要生成方法、装置、计算机设备和存储介质，通过对目标内容的音频数据进行识别，得到音频数据对应的文本信息；通过预设数量个训练好的机器学习模型对文本信息进行处理，得到每个机器学习模型对文本信息处理后的文本摘要；通过向用户提供音频数据的多个文本摘要，使其能够从多个文本摘要中选出准确度比较高的文本摘要，提高了记录的准确性。

附图说明

图1为一个实施例中摘要记录方法的应用环境图；

图2为一个实施例中摘要记录方法的流程示意图；

图3(a)为一个实施例中候选文本摘要显示的示意图，图3(b)为一个实施例中目标内容与目标文本摘要关联后显示的示意图；

图4为一个实施例中摘要记录中机器学习模型更新步骤的流程示意图；

图5为另一个实施例中摘要记录方法的流程示意图；

图6为一个实施例中摘要记录方法应用场景示意图；

图7为另一个实施例中摘要记录方法的应用场景；

图8为一个实施例中摘要记录装置的结构框图；

图9为另一个实施例中摘要记录装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的摘要记录方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器接收终端显示界面上目标内容对应的音频数据；对音频数据进行语音识别，得到音频数据对应的文本信息；通过预设数量个训练好的机器学***板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种摘要记录方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，接收显示界面上目标内容对应的音频数据。

其中，目标内容是终端显示界面上显示的内容。例如，在进行线上授课时，终端的显示界面上的目标内容是课程内容数据；又如，企业中多人进行视频会议时，终端的显示界面上显示的目标内容是会议数据。音频数据是发言人对目标内容进行描述的语音数据。例如，线上授课中，音频数据是发言人对课程内容数据进行讲解的语音数据等。音频数据可以从服务器中获取，也可以通过终端的麦克风收录得到，这里对音频数据的获取方式不做限定。

具体地，终端监测到麦克风处于监听模式时，响应终端显示界面触发的与目标内容对应的录音指令，得到显示界面上目标内容的音频数据。其中，录音指令的触发方式可以通过用户触发显示界面上的录音按钮得到的；也可以通过触控或按压目标内容所在的显示区域方式来实现，触控可包括单点触控、多点触控，按压可包括长按和点击等。

步骤204，对音频数据进行语音识别，得到音频数据对应的文本信息。

具体地，终端获取目标内容的音频数据，将音频数据输入预先训练好的语音识别模型，通过语音识别模型的语音分类算法对音频数据进行分类，确定音频数据中的语音类型，从语音识别模型匹配与每种语音类型相关联的语音识别算法，通过语音识别算法对对应的音频数据进行识别，得到音频数据对应的文本信息。例如，获取的音频数据中包括中文、英文、德文等不同语言类型的音频数据，通过语音识别模型中的语音分类算法对音频数据进行分类，得到不同类型的音频数据，通过中文、英文、德文的语音识别算法分别对对应的音频数据进行识别，得到对应的文本信息。

可选地，在对音频数据进行语音识别之前，采用降噪算法对目标内容对应的音频数据进行降噪处理，例如，可以先通过采用与噪音频率相同、振幅相同、相位相反的声音进行相互抵消，然后采用去混响的音频插件或者传声器阵列消除混响。降噪算法可包括自适应滤波器、谱减法、维纳滤波法等。在对音频数据进行语音识别之前，对音频数据进行降噪处理，消除音频数据中的无效音频数据，提高了音频数据识别结果的准确性。

步骤206，通过预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要。

其中，预设数量是预先设置用来处理文本信息的机器学习模型的数量。预设数量可以是5、6、8等。预设数量个训练好的机器学习模型中每个机器学习模型的初始权值、模型训练迭代次数、超参数以及学习率不同。文本摘要是以单词或/和短语的形式对文本信息进行概括。

具体地，终端将文本信息分别输入到预设数量个训练好的机器学习模型中，通过机器学习模型对文本信息进行处理，输出与文本信息匹配的候选文本摘要。例如，通过预设数量K个训练好的机器学习模型对文本信息进行处理，得到K个候选文本摘要。

步骤208，将各候选文本摘要以预设格式进行显示。

其中，预设格式是指预先设置的显示格式。预设格式可以是将各候选文本摘要以列表的形式在终端显示界面上，各候选文本摘要在显示框中以文本列表的形式展开，显示框具有最大化和最小化的显示功能；还可以将各候选文本摘要在显示界面折叠显示，通过生成与各候选文本摘要对应的显示标签，接收显示界面触发的显示标签的查看指令，响应查看指令，将显示标签对应的文本摘要以显示框的形式显示在终端的显示界面上。

具体地，终端获取机器学习模型处理后的候选文本摘要后，响应用户在显示界面上触发的显示指令，该显示指令携带预设格式类型；将候选文本摘要以显示指令携带的预设格式类型在终端的显示界面上进行显示。图3为候选文本摘要以列表形式显示的效果示意图，显示界面的左显示区域为目标内容，右显示区域为目标内容的候选文本摘要。

步骤210，获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。

具体地，终端响应用户输入的选择指令，根据选择指令从候选文本摘要中确定目标文本摘要，通过建立目标文本摘要与目标内容之间的映射关系，通过映射关系将目标文本摘要与目标内容进行关联。可选地，终端接收显示界面触发的摘要编辑指令；根据摘要编辑指令对候选文本摘要中对应的候选文本摘要进行编辑，得到目标文本摘要，将目标文本摘要与目标内容关联。

上述摘要记录方法中，终端通过接收终端显示界面上目标内容对应的音频数据；对音频数据进行语音识别，得到音频数据对应的文本信息；再根据预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要；将各候选文本摘要以预设格式在终端上进行显示；获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。通过对音频数据进行语音识别和处理，从多个候选文本摘要中得到目标内容对应的目标文本摘要，避免了因用户手写导致记录不完整以及不准确，提高了摘要记录的准确性。

在一个实施例中，如图4所示，提供了一种摘要记录中机器学习模型更新步骤，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤402，获取从候选文本摘要中确定的待编辑文本摘要。

步骤404，接收显示界面触发的摘要编辑指令。

其中，编辑指令可用于对候选文本摘要进行修改、删除等。编辑指令包括删除指令、修改指令等。摘要编辑指令可通过用户点击显示界面的编辑按钮触发生成。

步骤406，根据摘要编辑指令对待编辑文本摘要进行编辑，得到目标文本摘要，将目标文本摘要与目标内容关联。

具体地，摘要编辑指令携带文本摘要标识，终端根据摘要编辑指令对文本摘要标识对应的候选文本摘要进行编辑，将编辑后的候选文本摘要作为目标文本摘要，将目标文本摘要与目标内容关联。

步骤408，将与目标内容关联的目标文本摘要输入到机器学习模型中，对机器学习模型进行更新，得到更新后的机器学习模型。

其中，机器学习模型是基于注意力机制的编码器和解码器组成的模型。通过编码器对与目标内容关联的目标文本摘要进行编码，将编码后目标文本摘要作为输入，训练机器学习模型。可选地，更新机器学习模型还可采用梯度下降法。

上述机器学习模型更新步骤中，终端通过接收显示界面触发的摘要编辑指令；根据摘要编辑指令对对应的候选文本摘要进行编辑，从候选文本摘要中确定目标文本摘要，将目标文本摘要与目标内容关联；将与目标内容关联的目标文本摘要输入到机器学习模型中，对机器学习模型进行更新，得到更新后的机器学习模型。根据目标文本摘要不断对机器学习模型进行优化，提高机器学习模型对文本信息处理结果的准确性。

在另一个实施例中，如图5所示，提供了一种摘要记录方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤502，接收显示界面上触发的内容确认指令。

其中，内容确认指令用于确定显示界面上的目标内容；内容确认指令可以通过用户在显示界面上的滑动操作或点击操作触发生成的。例如，用户可通过手指或者手写笔在显示界面上点击或滑动确定目标区域。

步骤504，根据内容确认指令从显示界面上确定目标内容。

具体地，终端响应内容确认指令，根据内容确认指令确定显示界面上的目标区域，从目标区域中获取对应的目标内容。

步骤506，响应对目标内容的录音指令，得到目标内容对应的音频数据。

在一实施例中，录音指令携带录音时长。可选地，录音指令还携带发言人标识；发言人标识用于区分不同的发言人。发言人标识可以是数字或字母组合的字符串。在多人参与的视频会议的应用场景中，用户可在显示界面上选择要录音的发言人，如图6所示，终端显示界面显示目标内容和发言人，发言人数量可以是1、2、3等，如显示界面上显示的发言人1、发言人n。

步骤508，判断录音时长是否大于预设录音时长；当录音时长小于或等于预设录音时长，执行步骤510，否则，执行步骤518。

在一个实施例中，当录音时长小于或等于预设录音时长时，获取音频数据中的句子数量；当句子数量小于或等于数量阈值时，对音频数据进行语音识别，得到音频数据对应的文本信息。

其中，数量阈值是预设语音识别模型识别音频数据的最大容量。

具体地，在进行语音识别之前，对音频数据的录音时长和音频数据中的句子数量进行判断，当录音时长小于或等于预设录音时长且句子数量小于或等于数量阈值时，终端中的预设语音识别模型对音频数据进行语音识别，得到文本信息；确保了识别得到的文本信息的准确性和完整性。

步骤510，对音频数据进行语音识别，得到音频数据对应的文本信息。

步骤512，将各候选文本摘要以预设格式在终端上进行显示。

在一个实施例中，将各候选文本摘要以预设格式在终端上进行显示包括以下任意一种形式：将各候选文本摘要集以显示框的形式在终端的显示区域进行展开显示；或生成各候选文本摘要对应的显示标签，通过显示标签将各候选文本摘要在终端的显示区域进行折叠显示。

步骤514，获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。

在一个实施例中，获取从候选文本摘要中确定的文本摘要，将文本摘要与目标内容关联包括：获取从候选文本摘要中确定的待编辑文本摘要；接收对待编辑文本摘要触发的摘要编辑指令；根据摘要编辑指令对待编辑文本摘要进行编辑，得到目标文本摘要，将目标文本摘要与目标内容关联。通过关联目标文本摘要与目标内容关联，使得用户查看记录的效率提高，查看便捷。

步骤516，将与目标内容关联的文本摘要输入到机器学习模型中，对机器学习模型进行更新，得到更新后的预设机器学习模型。

步骤518，显示异常信息。

其中，异常信息用于提示音频数据异常，即预设语音识别模型无法对音频数据进行语音识别。

以下为摘要记录方法的一个应用场景，如图7所示。

终端接收显示界面上触发的内容确认指令，根据内容确认指令从显示界面上确定目标内容，响应用户触发点击录音按钮生成的录音指令，其中，录音指令携带录音时长，录音时长为T-N到T+N秒，得到T-N到T+N秒的音频数据。将音频数据发送给服务器，通过服务器中的预设语音识别模型对音频数据进行语音识别，得到音频数据对应的文本信息，将得到的文本信息输入到K个训练好的机器学习模型中，通过K个训练好的机器学习模型对文本进行处理，得到K个候选文本摘要，并将K个候选文本摘要发送给终端，在终端的显示界面上进行显示。

终端接收用户输入的摘要编辑指令，根据摘要编辑指令对候选文本摘要进行编辑，得到目标文本摘要，并将目标文本摘要与目标内容进行关联；把关联的目标内容和目标文本摘要作为训练样本去训练机器学习模型，得到更新后的机器学习模型，其中，关联的方式可以是建立目标内容与目标文本摘要之间的映射关系。通过终端获取目标内容的音频数据，通过机器学习模型对音频数据进行处理，得到目标内容对应的目标文本摘要，不要用户手动记录，减少了用户记录所花费的时间，以及提高了记录的效率和记录的准确性。

上述摘要记录方法中，通过接收显示界面上触发的内容确认指令，据内容确认指令从显示界面上确定目标内容；响应目标内容的录音指令，得到目标内容对应的音频数据，录音指令携带录音时长；判断录音时长是否大于预设录音时长，若录音时长是否大于预设录音时长，若否，显示异常信息；若是，对音频数据进行语音识别，得到音频数据对应的文本信息；将各候选文本摘要以预设格式在终端上进行显示，获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联；将与目标内容关联的文本摘要输入到预设机器学习模型中，对预设机器学习模型进行更新，得到更新后的预设机器学习模型。通过向用户提供音频数据的多个文本摘要，使其能够从多个文本摘要中选出准确度比较高的文本摘要，以及根据目标文本摘要不断对机器学习模型进行优化，提高机器学习模型对文本信息处理结果和摘要记录的准确性。

应该理解的是，虽然图2、图4-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种摘要记录装置，包括：接收模块802、语音识别模块804、处理模块806、显示模块808和关联模块810，其中：

接收模块802，用于接收显示界面上目标内容对应的音频数据；

语音识别模块804，用于对音频数据进行语音识别，得到音频数据对应的文本信息；

处理模块806，用于通过预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要；

显示模块808，用于将各候选文本摘要以预设格式在终端上进行显示；

关联模块810，用于获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。

上述摘要记录装置中，通过终端中接收模块802接收显示界面上目标内容对应的音频数据；语音识别模块804对接收的音频数据进行语音识别，得到所述音频数据对应的文本信息；根据处理模块806中预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要；显示模块808将各候选文本摘要以预设格式在终端上进行显示；并通过关联模块810获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。通过对音频数据进行语音识别和处理，向用户提供音频数据的多个文本摘要，使其从多个候选文本摘要中得到目标内容对应的目标文本摘要，避免了因用户手写导致记录不完整以及不准确，提高了摘要记录的准确性。

在另一个实施例中，如图8所示，提供了一种摘要记录装置，除包括接收模块802、语音识别模块804、处理模块806、显示模块808和关联模块810之外，还包括：响应模块812、判断模块814和更新模块816，其中：

在一个实施例中，接收模块802还用于接收显示界面上触发的内容确认指令；根据内容确认指令从显示界面上确定目标内容。

在一个实施例中，接收模块802还用于接收显示界面触发的摘要编辑指令。

响应模块812，用于响应目标内容的录音指令，得到目标内容对应的音频数据。

在一个实施例中，显示模块808还用于将各候选文本摘要集以显示框的形式在终端的显示区域进行展开显示；

还用于生成各候选文本摘要对应的显示标签，通过显示标签将各候选文本摘要在终端的显示区域进行折叠显示。

判断模块814，用于判断录音时长是否大于预设录音时长；当录音时长小于或等于预设录音时长时，执行对音频数据进行语音识别，得到音频数据对应的文本信息步骤。

在一个实施例中，判断模块814还用于当录音时长小于或等于预设录音时长时，获取音频数据中的句子数量；当句子数量小于或等于数量阈值时，对音频数据进行语音识别，得到音频数据对应的文本信息。

在一个实施例中，关联模块810还用于根据摘要编辑指令对候选文本摘要中对应的候选文本摘要进行编辑，得到目标文本摘要，将目标文本摘要与目标内容关联。

更新模块816，用于将与目标内容关联的目标文本摘要输入到机器学习模型中，对机器学习模型进行更新，得到更新后的机器学习模型。

在一个实施例中，上述摘要记录装置，通过接收显示界面上触发的内容确认指令，据内容确认指令从显示界面上确定目标内容；响应目标内容的录音指令，得到目标内容对应的音频数据，录音指令携带录音时长；判断录音时长是否大于预设录音时长，若录音时长是否大于预设录音时长，若否，显示异常信息；若是，对音频数据进行语音识别，得到音频数据对应的文本信息；将各候选文本摘要以预设格式在终端上进行显示，获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联；将与目标内容关联的文本摘要输入到预设机器学习模型中，对预设机器学习模型进行更新，得到更新后的预设机器学习模型。通过向用户提供音频数据的多个文本摘要，使其能够从多个文本摘要中选出准确度比较高的文本摘要，以及根据目标文本摘要不断对机器学习模型进行优化，提高机器学习模型对文本信息处理结果和摘要记录的准确性。

关于摘要记录装置的具体限定可以参见上文中对于摘要记录方法的限定，在此不再赘述。上述摘要记录装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种摘要记录方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

接收显示界面上目标内容对应的音频数据；

对音频数据进行语音识别，得到音频数据对应的文本信息；

通过预设数量个训练好的机器学习模型对文本信息进行处理，分别得到对应的候选文本摘要；

将各候选文本摘要以预设格式在终端上进行显示；

获取从候选文本摘要中确定的目标文本摘要，将目标文本摘要与目标内容关联。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

接收显示界面上触发的内容确认指令；

根据内容确认指令从显示界面上确定目标内容；

响应对目标内容的录音指令，得到目标内容对应的音频数据。

判断录音时长是否大于预设录音时长；

当录音时长小于或等于预设录音时长时，执行对音频数据进行语音识别，得到音频数据对应的文本信息步骤。

将各候选文本摘要以预设格式在终端上进行显示包括以下任意一种形式：

将各候选文本摘要集以显示框的形式在终端的显示区域进行展开显示；或

生成各候选文本摘要对应的显示标签，通过显示标签将各候选文本摘要在终端的显示区域进行折叠显示。

获取从候选文本摘要中确定的待编辑文本摘要；

接收对待编辑文本摘要触发的摘要编辑指令；

根据摘要编辑指令对待编辑文本摘要进行编辑，得到目标文本摘要，将目标文本摘要与目标内容关联。

当录音时长小于或等于预设录音时长时，获取音频数据中的句子数量；

当句子数量小于或等于数量阈值时，对音频数据进行语音识别，得到音频数据对应的文本信息。

将与目标内容关联的目标文本摘要输入到机器学习模型中，对机器学习模型进行更新，得到更新后的机器学习模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收显示界面上目标内容对应的音频数据；

对音频数据进行语音识别，得到音频数据对应的文本信息；

将各候选文本摘要以预设格式在终端上进行显示；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

接收显示界面上触发的内容确认指令；

根据内容确认指令从显示界面上确定目标内容；

判断录音时长是否大于预设录音时长；

获取从候选文本摘要中确定的待编辑文本摘要；

接收对待编辑文本摘要触发的摘要编辑指令；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种摘要记录方法，包括：

接收显示界面上目标内容对应的音频数据；

对所述音频数据进行语音识别，得到所述音频数据对应的文本信息；

通过预设数量个训练好的机器学习模型对所述文本信息进行处理，分别得到对应的候选文本摘要；

将各所述候选文本摘要以预设格式在终端上进行显示；

获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联。
根据权利要求1所述的方法，其中，所述接收显示界面上目标内容对应的音频数据，包括：

接收显示界面上触发的内容确认指令；

根据所述内容确认指令从所述显示界面上确定目标内容；

响应对所述目标内容的录音指令，得到所述目标内容对应的音频数据。
根据权利要求2所述的方法，其中，所述录音指令携带录音时长，在所述对所述音频数据进行语音识别，得到所述音频数据对应的文本信息之前，所述方法还包括：

判断所述录音时长是否大于预设录音时长；

当所述录音时长小于或等于所述预设录音时长时，执行对所述音频数据进行语音识别，得到所述音频数据对应的文本信息步骤。
根据权利要求1所述的方法，其中，所述将各所述候选文本摘要以预设格式在终端上进行显示包括以下任意一种形式：

将各所述候选文本摘要集以显示框的形式在终端的显示区域进行展开显示；或

生成各所述候选文本摘要对应的显示标签，通过所述显示标签将各所述候选文本摘要在终端的显示区域进行折叠显示。
根据权利要求1所述的方法，其中，所述获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联包括：

获取从所述候选文本摘要中确定的待编辑文本摘要；

接收对所述待编辑文本摘要触发的摘要编辑指令；

根据所述摘要编辑指令对所述待编辑文本摘要进行编辑，得到目标文本摘要，将所述目标文本摘要与所述目标内容关联。
根据权利要求2所述的方法，还包括：

当所述录音时长小于或等于所述预设录音时长时，获取所述音频数据中的句子数量；

当所述句子数量小于或等于数量阈值时，对所述音频数据进行语音识别，得到所述音频数据对应的文本信息。
根据权利要求1所述的方法，还包括：

将与所述目标内容关联的目标文本摘要输入到所述机器学习模型中，对所述机器学习模型进行更新，得到更新后的机器学习模型。
根据权利要求1所述的方法，还包括：在未能识别所述音频数据时，显示异常信息。
根据权利要求1所述的方法，还包括：在对所述音频数据进行语音识别，得到所述音频数据对应的文本信息之前，采用降噪算法对所述目标内容对应的音频数据进行降噪处理。
根据权利要求1所述的方法，其中，所述对所述音频数据进行语音识别，得到所述音频数据对应的文本信息，包括：

将所述音频数据输入预先训练好的语音识别模型；

通过所述语音识别模型的语音分类算法对所述音频数据进行分类，以确定所述音频数据中的语音类型；

从所述语音识别模型匹配与每种语音类型相关联的语音识别算法；

通过所述语音识别算法对对应的音频数据进行识别，以得到所述音频数据对应的文本信息。
根据权利要求1所述的方法，还包括：在所述接收显示界面上目标内容对应的音频数据之前，从服务器中获取或通过麦克风获得所述音频数据。
一种文本摘要生成装置，包括：

接收模块，用于接收显示界面上目标内容对应的音频数据；

语音识别模块，用于对所述音频数据进行语音识别，得到所述音频数据对应的文本信息；

处理模块，用于通过预设数量个训练好的机器学习模型对所述文本信息进行处理，分别得到对应的候选文本摘要；

显示模块，用于将各所述候选文本摘要以预设格式在终端上进行显示；

关联模块，用于获取从所述候选文本摘要中确定的目标文本摘要，将所述目标文本摘要与所述目标内容关联。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。