CN112732216B

CN112732216B - 一种平行朗读语音的交互方法及其交互***

Info

Publication number: CN112732216B
Application number: CN202011636935.0A
Authority: CN
Inventors: 张向东; 张毅; 于航; 王剑龙
Original assignee: Nanji Agricultural Machinery Research Institute Co ltd
Current assignee: Nanji Agricultural Machinery Research Institute Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-05-10
Anticipated expiration: 2040-12-31
Also published as: CN112732216A

Abstract

本发明的一种平行朗读语音的交互方法及其交互***，属于文本朗读技术领域，通过分析用户的试听习惯和时长等因素，判断用户的喜好，便于生产符合用户习惯的语音信息，其中交互***通过时间标记，改善切换语音的不方便，提高用户体验。

Description

一种平行朗读语音的交互方法及其交互***

技术领域

本发明属于文本朗读技术领域，更具体来说，涉及一种平行朗读语音的交互方法及其交互***。

背景技术

从认知心理学来说，作者的创作意图，尤其是情绪、情感，反映到文本里会有很多歧义，使得读者难以准确把握作者的原意。越来越多的互联网信息内容交互采取了朗读语音配合文本的方式来提升用户的方便程度和帮助用户对文章内容的理解，但现有的朗读语音大多是单一版本的，用户无法在几个版本中做选择，中间的错误和效果不佳，用户只能被动接受；更近一步，朗读语音要么是真人发音的，要么是人工智能文本到语音转换(TTS：Text to Speech)技术的文本朗读，两者各有一些优缺点，如真人理解得更准确更有情感，但会因为疲劳走神等因素出现随机错误；TTS更稳定，但其理解比较浅，尤其是对情感因素的把握。用户只能选择一种而忍受其缺点。TTS技术包括的自然语言处理技术(NLP)来做情感和韵律分析，也因为缺乏针对当前文本的真人指导信息，而使得出现情感和韵律信息错误，导致用户对TTS的满意度下降。

发明内容

1.发明要解决的技术问题

本发明的目的在于解决上述的现有缺陷。

2.技术方案

为达到上述目的，本发明提供的技术方案为：

本发明的一种平行朗读语音的交互方法，交互方法包括如下步骤：

S1，交互***提供多个语音信息；

S2，根据映射原则，将多个语音信息进行内容化时间标记；

S3，交互***分别对多个语音信息进行编号，记为n；

S4，用户选择多个语音信息中的其中一个语音信息进行试听；

S5，交互***记录步骤S4中试听的时长记为n-k，其中k为时长，单位为秒；

S6，交互***检测用户是否停止当前语音信息的试听，若是则停止记录试听时长，若否则继续播放；

S7，结束试听；

S8，交互***计算多个语音信息对应的试听时长率并进行评分。

优选的，多个语音信息的内容一致，仅存在音色、语调和语速的区别。

优选的，映射原则的单位为单句，多个语音信息中包含相同信息的句子一一对应。

优选的，步骤S3之后，步骤S3之前，还包括：对每个语音信息中的所有句子进行句首和句中分割标，多个语音信息中的分割标一一对应。

优选的，步骤S3中编号的方法为自然编号，即依次自然数编号。

优选的，步骤S6具体包括如下内容：

S6.1，若用户完整听完单个语音信息，则将该条语音信息标星着重；

S6.2，若用户听语音过程中切换至另一条语音，交互***分析切换时所播放的字词之前的分割标，切换时，被切换的语音从对应的分割标进行播放。

优选的，步骤S6.2中，若用户切换语音时，多次试听同一个语音，所记录的试听的时长累计叠加。

优选的，交互***提供语音试听进度条，语音进度条可被用户调整。

优选的，当用户调整语音进度条选择试听内容时，若试听的内容重复则重复的部分不计入试听的时长内，若试听的内容不重复，则正常记录试听的时长。

优选的，若多个语音信息中的存在未试听的语音信息，则该语音信息不参与评分。

优选的，步骤S7中结束试听的判断方法为：若用户手动操作结束，则直接结束，若其中某一条语音信息的进度条移动至语音信息的结束点则***判定结束。

优选的，步骤S8中机器学习算法计算试听时长率的方法为：试听时长k所占该语音总时长的百分比。

优选的，步骤S8中评分标准包括单个语音信息的试听时长率和完播率。

优选的，单个语音信息完播率为用户点击该语音信息的次数占总点击语音信息次数的百分比。

一种平行朗读语音的交互***，交互***包括：

显示模块，用于显示语音信息和交互界面；

发声模块，用于对语音信息的发声；

对齐模块，用于对多个语音信息进行内容化时间标记；

编号模块，用于对多个语音信息进行编号；

记录模块，用于记录试听时长；

控制模块，用于控制进度条；

评分模块，用于对语音信息进行评分；

分割模块，用于对语音信息中的每一句进行句中分割，并在句首和句中标上分割标。

优选的，评分模块包括：

时长率计算模块，用于计算语音信息的试听时长率；

完播率计算模块，用于计算语音信息的完播率。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

(1)本发明的一种平行朗读语音的交互方法及其交互***，通过交互***记录用户的试听习惯和对应的试听语音信息的时长等信息，计算用户的喜好，用于改善语音的播放，提高用户体验。

(2)本发明的一种平行朗读语音的交互方法及其交互***，实时互动交替试听，通过时间标记和瞬时接力播放，提高用户体验，节约了选择的时间。

(3)本发明的一种平行朗读语音的交互方法及其交互***，互采取了朗读语音配合文本的方式来提升用户的方便程度和帮助用户对文章内容的理解。

附图说明

图1为本发明的一种平行朗读语音的交互方法的流程图；

图2为本发明的一种平行朗读语音的交互***的界面结构图；

图3为本发明的一种平行朗读语音的交互***的内部结构图。

示意图中的标号说明：

100、显示模块；200、发声模块；300、对齐模块；400、编号模块；500、记录模块；600、控制模块；700、评分模块；710、时长率计算模块；720、完播率计算模块；800、分割模块。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述，附图中给出了本发明的若干实施例，但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例，相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件；当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件；本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同；本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明；本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

参照附图1-图3所示，本实施例的一种平行朗读语音的交互方法，交互方法包括如下步骤：

S1，交互***提供多个语音信息；

S2，根据映射原则，将多个语音信息进行内容化时间标记；

S3，交互***分别对多个语音信息进行编号，记为n；

S7，结束试听；

本实施例的多个语音信息的内容一致，仅存在音色、语调和语速的区别。

本实施例的映射原则的单位为单句，多个语音信息中包含相同信息的句子一一对应。

本实施例的步骤S3之后，步骤S3之前，还包括：对每个语音信息中的所有句子进行句首和句中分割标，多个语音信息中的分割标一一对应。

本实施例的步骤S3中编号的方法为自然编号，即依次自然数编号。

本实施例的步骤S6具体包括如下内容：

本实施例的步骤S6.2中，若用户切换语音时，多次试听同一个语音，所记录的试听的时长累计叠加。

本实施例的交互***提供语音试听进度条，语音进度条可被用户调整。

本实施例的当用户调整语音进度条选择试听内容时，若试听的内容重复则重复的部分不计入试听的时长内，若试听的内容不重复，则正常记录试听的时长。

本实施例的若多个语音信息中的存在未试听的语音信息，则该语音信息不参与评分。

本实施例的步骤S7中结束试听的判断方法为：若用户手动操作结束，则直接结束，若其中某一条语音信息的进度条移动至语音信息的结束点则***判定结束。

本实施例的步骤S8中机器学习算法计算试听时长率的方法为：试听时长k所占该语音总时长的百分比。

本实施例的步骤S8中评分标准包括单个语音信息的试听时长率和完播率。

本实施例的单个语音信息完播率为用户点击该语音信息的次数占总点击语音信息次数的百分比。

一种平行朗读语音的交互***，交互***包括：

显示模块100，用于显示语音信息和交互界面；

发声模块200，用于对语音信息的发声；

对齐模块300，用于对多个语音信息进行内容化时间标记；

编号模块400，用于对多个语音信息进行编号；

记录模块500，用于记录试听时长；

控制模块600，用于控制进度条；

评分模块700，用于对语音信息进行评分；

分割模块800，用于对语音信息中的每一句进行句中分割，并在句首和句中标上分割标。

本实施例的评分模块700包括：

时长率计算模块710，用于计算语音信息的试听时长率；

完播率计算模块720，用于计算语音信息的完播率。

在本发明的实施例中，交互***可以提供一个或者多个语音信息。本发明的实施例对此不做限定，编号模块400对多个语音信息进行编号，记为n，其中n为自然整数，1，2，……M。分割模块800对语音信息的句子进行句中分割，对句中的判断为该句子的总字符数的一半。

下面根据实际情况进行说明：

交互***提供3个语音信息，每条语音包含7句，对应进行标号依次为1，2，3，对应的时长依次为310s，315s，308s，用户的试听过程为试听1号语音信息100s，即第三句刚过开头时切换到2号语音信息试听150s，至2号语音信息的第五句过半后切换到3号语音信息继续进行试听52s至结束。

对应的上述3个语音的试听时长分别为1-100，2-150，3-52，对应的试听时长率分别为1-32％，2-48％，3-20％，3个语音信息的完播率均为33.3％，因此最后评分从大至小依次为2，1，3。

在上述试听过程中，从1号语音信息切换到2号语音信息时，由于进度条处于第三句的句首分割标之后，句中分割标之前，则切换到2号语音信息后，从2号语音信息的第三句句首开始播放；从2号语音信息切换到3号语音信息时，进度条处于第五句的句中分割标之后，第六句的句首分割标之前，因此，切换至3号语音后，交互***从第五句的句中开始播放。

内容化时间标记，不仅仅是句子之间的对齐，也可以是词与词之间的对齐，如下：

对于一段文本“A WINDOW DISAPPEARED”，该文本的三个语音版本分别为0.6s、1s和1.1s。

对应的实际个单词所存在的时间刻度分别为：

第一版本：A 0.021-0.073，WINDOW 0.073-0.283，DISAPPEARED 0.283-0.551；

第二版本：A 0.011-0.173，WINDOW 0.013-0.484，DISAPPEARED 0.484-0.951；

第三版本：A 0.121-0.265，WINDOW 0.265-0.575，DISAPPEARED 0.575-1.051。

当用户从第一版本，正在听第二个词“WINDOW”，如果切换成第二版本，本发明会根据第二版本的信息，从0.173秒开始播放完整的第二个词开始的朗读内容；如果切换成第三版本，本发明会根据第三版本的信息，从0.265秒开始播放完整的第二个词开始的朗读内容。

又当用户从听第二版本，正在听第三个词“DISAPPEARED”，切换成第三版本，本发明会根据第三版本的信息，从0.575秒开始播放完整的第三个词开始的朗读内容；如果切换成第一版本，本发明会根据第一版本的信息，从0.283秒开始播放完整的第二个词开始的朗读内容。

以上所述实施例仅表达了本发明的某种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种平行朗读语音的交互方法，其特征在于，所述交互方法包括如下步骤：

S1，交互***提供多个语音信息；

S2，根据映射原则，将多个语音信息进行内容化时间标记，该内容化时间标记为句子与句子之间的对齐或词与词之间的对齐；

S3，交互***分别对多个语音信息进行编号； S4，用户选择多个语音信息中的其中一个语音信息i进行试听，i是语音信息编号；

S5，交互***记录步骤 S4 中试听的语音信息的时长记为 i---k，其中 k 为时长，单位为秒；

S7，结束试听；

S8，交互***计算多个语音信息对应的试听时长率并进行评分；

所述多个语音信息的内容一致，仅存在音色、语调和语速的区别；

所述步骤S6具体包括如下内容：

S6.1，若用户完整听完单个语音信息，则将该单个语音信息标星着重；

S6.2，若用户听语音信息过程中切换至另一条语音信息，交互***分析切换时所播放的字词之前的分割标，切换时，切换到的语音信息从对应的分割标进行播放；若用户切换语音信息时，多次试听同一个语音信息，所记录的试听的时长累计叠加。

2.根据权利要求1所述的一种平行朗读语音的交互方法，其特征在于：所述映射原则的单位为单句，多个语音信息中包含相同信息的句子一一对应。

3.根据权利要求1所述的一种平行朗读语音的交互方法，其特征在于：所述步骤 S3 之前，还包括：对每个语音信息中的所有句子进行句首和句中分割标，多个语音信息中的分割标一一对应。

4.根据权利要求1所述的一种平行朗读语音的交互方法，其特征在于：所述步骤S3中编号的方法为自然编号，即依次自然数编号。

5.根据权利要求1所述的一种平行朗读语音的交互方法，其特征在于：所述交互***提供语音试听进度条，所述语音试听进度条可被用户调整。

6.根据权利要求5所述的一种平行朗读语音的交互方法，其特征在于：当用户调整所述语音试听进度条选择试听内容时，若试听的内容重复则重复的部分不计入试听的时长内，若试听的内容不重复，则正常记录试听的时长。

7.根据权利要求 1 所述的一种平行朗读语音的交互方法，其特征在于：若多个语音信息中的存在未试听语音信息，则未试听的语音信息不参与评分。

8.根据权利要求 1 所述的一种平行朗读语音的交互方法，其特征在于，所述步骤S7中结束试听的判断方法为：若用户手动操作结束，则直接结束，若其中某一条语音试听进度条移动至语音信息的结束点则***判定结束。

9.根据权利要求 1 所述的一种平行朗读语音的交互方法，其特征在于，所述步骤S8中机器学习算法计算试听时长率的方法为：试听时长k所占该语音信息i总时长的百分比。

10.根据权利要求 1 所述的一种平行朗读语音的交互方法，其特征在于：所述步骤S8中评分标准包括单个语音信息的试听时长率和完播率。

11.根据权利要求 10 所述的一种平行朗读语音的交互方法，其特征在于：所述单个语音信息完播率为用户点击该单个语音信息的次数占总点击语音信息次数的百分比。

12.一种根据权利要求1-11任一一项所述的平行朗读语音的交互方法的交互***，其特征在于，所述交互***包括：

显示模块（100），用于显示语音信息和交互界面；

发声模块（200），用于对语音信息的发声；

对齐模块（300），用于对多个语音信息进行内容化时间标记；

编号模块（400），用于对多个语音信息进行编号；

记录模块（500），用于记录试听时长；

控制模块（600），用于控制语音试听进度条；

评分模块（700），用于对语音信息进行评分；

分割模块（800），用于对语音信息中的每一句进行句中分割，并在句首和句中标上分割标。

13.根据权利要求 12 所述的一种平行朗读语音的交互***，其特征在于，所述评分模块（700）包括：

时长率计算模块（710），用于计算语音信息的试听时长率；

完播率计算模块（720），用于计算语音信息的完播率。