CN115499401A - 一种播放语音数据的方法、***、计算机设备及介质 - Google Patents

一种播放语音数据的方法、***、计算机设备及介质 Download PDF

Info

Publication number
CN115499401A
CN115499401A CN202211275163.1A CN202211275163A CN115499401A CN 115499401 A CN115499401 A CN 115499401A CN 202211275163 A CN202211275163 A CN 202211275163A CN 115499401 A CN115499401 A CN 115499401A
Authority
CN
China
Prior art keywords
playing
voice
voice data
played
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211275163.1A
Other languages
English (en)
Inventor
孙万浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202211275163.1A priority Critical patent/CN115499401A/zh
Publication of CN115499401A publication Critical patent/CN115499401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及语音识别技术领域及数字医疗领域,公开了一种播放语音数据的方法、***、计算机设备及介质,方法包括:根据待播放语音数据生成多句完整语音信息,统计每句完整语音信息的播放子时长;计算待播放语音数据的播放总时长,创建播放总时长的播放进度条;根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;基于展示的目标播放组件播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。

Description

一种播放语音数据的方法、***、计算机设备及介质
技术领域
本发明涉及语音识别技术领域及数字医疗领域,特别涉及一种播放语音数据的方法、***、计算机设备及介质。
背景技术
随着科技的发展和不断进步,越来越多的人使用上了手机、平板等电子设备,这些电子设备具有很多的功能,例如看电影、听音频信息、互发语音进行聊天等娱乐功能,对于音频信息以及互发语音进行聊天中,需要用到电子设备的语音播放功能。
在现有技术中,在用户选择了某个语音聊天数据后,终端自动进行播放。当用户在需要重新收听该语音聊天数据中的某句话时,用户通过试错的方式不断滑动播放进度条,直到播放进度条定位到该句话后进行播放;或者用户将该语音聊天数据重新播放。由于通过试错的方式或重新播放的方式来播放整个语音数据的某一句话时需要花费大量的时间,从而降低了语音数据播放效率。
发明内容
基于此,有必要针对语音数据播放效率低的问题,提供一种播放语音数据的方法、***、计算机设备及介质。
一种播放语音数据的方法,方法包括:根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;基于展示的目标播放组件播放待播放语音数据。
在其中一个实施例中,根据待播放语音数据生成多句完整语音信息,包括:确定待播放语音数据,并分析待播放语音数据的语义信息;根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息。
在其中一个实施例中,确定待播放语音数据,并分析待播放语音数据的语义信息,包括:获取并展示语音数据列表;当接收到针对展示的语音数据列表的选择指令时,基于选择指令在展示的语音数据列表中确定待播放语音数据;调用与待播放语音数据匹配的语音转换服务,并利用语音转换服务对待播放语音数据进行处理,得到多段语言描述文本;将多段语言描述文本输入预先训练的文本语义识别模型中,得到多段语言描述文本的语义信息,并将多段语言描述文本的语义信息确定为待播放语音数据的语义信息。
在其中一个实施例中,根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息,包括:在待播放语音数据中匹配出每段语言描述文本的语义信息所对应的语音片段;在待播放语音数据中逐一分割并提取每段语言描述文本的语义信息所对应的语音片段,生成多个语音片段;将多个语音片段确定为多句完整语音信息。
在其中一个实施例中,基于展示的目标播放组件播放待播放语音数据,包括:接收针对目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于拖拽指令确定拖拽位置;根据拖拽位置计算拖拽距离;计算拖拽距离所占目标播放组件的播放进度条的百分比;根据百分比确定滑动按钮所处的播放标记;确定播放标记对应的目标完整语音信息,并将目标完整语音信息进行播放。
在其中一个实施例中,方法还包括:在接收到针对目标播放组件上速率调节按键的触发指令时,获取预先创建的多个播放速率参数;将多个播放速率参数进行升序排列,生成排序后的多个播放速率参数;根据排序后的多个播放速率参数构建语音播放速率调节菜单;接收针对语音播放速率调节菜单的触发指令,并基于触发指令在多个播放速率参数中确定出目标播放速率参数;根据目标播放速率参数播放待播放语音数据。
在其中一个实施例中,根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,包括:获取每句完整语音信息的播放优先级先后顺序;计算每句完整语音信息的播放子时长在播放总时长中的所占百分比,得到每句完整语音信息的百分比;根据播放优先级先后顺序,并按照每句完整语音信息的百分比计算每句完整语音信息的起始时刻与结束时刻;根据每句完整语音信息的起始时刻与结束时刻在播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示。
一种播放语音数据的***,***包括:播放子时长统计模块,用于根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;播放进度条构建模块,用于计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;目标播放组件展示模块,用于根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;语音数据播放模块,用于基于展示的目标播放组件播放待播放语音数据。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述播放语音数据的方法的步骤。
一种存储有计算机可读指令的介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述播放语音数据的方法的步骤。
上述播放语音数据的方法、***、设备和介质,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,其次根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,例如图7所示,每句话之间都用不同长短的白色线条进行标记,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请一个实施例中提供的播放语音数据的方法的实施环境图;
图2为本申请一个实施例中计算机设备的内部结构示意图;
图3为本申请一个实施例中提供的播放语音数据的方法的方法示意图;
图4为本申请一个实施例中提供的目标播放组件示意图;
图5为本申请一个实施例中提供的另一种播放语音数据的方法的方法示意图;
图6是本申请实施例提供的一种播放语音数据的***的***结构示意图;
图7是本申请一个实施例中提供的另一个目标播放组件示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为一个实施例中提供的播放语音数据的方法的实施环境图,如图1所示,在该实施环境中,包括服务端110以及客户端120。
服务端110可以为服务器,该服务器具体可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,例如为保存预设播放组件的服务器设备。客户端120连接服务端110,并在服务端110上下载预设播放组件,客户端120根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,客户端120计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,客户端120根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,客户端120基于展示的目标播放组件播放待播放语音数据。
需要说明的是,客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务端110以及客户端120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过***总线连接的处理器、介质、存储器和网络接口。其中,该计算机设备的介质存储有操作***、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种播放语音数据的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种播放语音数据的方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,介质为一种可读的存储介质。
下面将结合附图3-5,对本申请实施例提供的播放语音数据的方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的播放语音数据的***上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大播放语音数据的技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参见图3,为本申请实施例提供了一种播放语音数据的方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤:
S101,根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
其中,待播放语音数据可以是医疗平台中问诊聊天框中的某个语音聊天数据,该语音聊天数据可以是来自医生发出的语音数据,也可以是用户自己发出的语音数据。待播放语音数据由至少一句完整语音信息组成,每句完整语音信息可以转换为一句完整的语言描述文本。播放子时长为每句完整语音信息播放所需时长。
通常,在统计每句完整语音信息的播放子时长时,可通过定时器服务进行计时统计。
在本申请实施例中,首先确定待播放语音数据,并分析待播放语音数据的语义信息,然后根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息,最后统计每句完整语音信息的播放子时长。
具体的,在确定待播放语音数据,并分析待播放语音数据的语义信息时,首先获取并展示语音数据列表,并当接收到针对展示的语音数据列表的选择指令时,基于选择指令在展示的语音数据列表中确定待播放语音数据,然后调用与待播放语音数据匹配的语音转换服务,并利用语音转换服务对待播放语音数据进行处理,得到多段语言描述文本,最后将多段语言描述文本输入预先训练的文本语义识别模型中,得到多段语言描述文本的语义信息,并将多段语言描述文本的语义信息确定为待播放语音数据的语义信息。
具体的,在根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息时,首先在待播放语音数据中匹配出每段语言描述文本的语义信息所对应的语音片段,然后在待播放语音数据中逐一分割并提取每段语言描述文本的语义信息所对应的语音片段,生成多个语音片段,最后将多个语音片段确定为多句完整语音信息。
具体的,在统计每句完整语音信息的播放子时长时,首先确定出第一句完整语音信息,并调用定时器服务,然后根据定时器服务对第一句完整语音信息的播放时长进行测定,得到每句完整语音信息的播放子时长。其中,第一句完整语音信息为多句完整语音信息中任意一句语音信息。
S102,计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;
其中,播放总时长是将待播放语音数据全部播放完成后所需的时长。例如图4所示,在用户点击待播放语音数据后,待播放语音数据附件预设范围内会弹出预设播放组件,预设播放组件是提供给用户进行语音数据播放操作的用户界面,该用户界面可提供播放按键、暂停按键、播放进度条按键以及播放速率设置按键。播放进度条是提供给用户快速定位到待播放语音数据中某一段语音数据的控制器。
在一种可能的实现方式中,首先调用定时器服务,采用定时器服务计算待播放语音数据的播放总时长,然后将播放总时长与预设播放组件上播放进度条的控制服务所关联,使得播放总时长成为控制服务的时间参数,控制服务可基于该播放总时长灵活定位到某一播放时刻,最后将播放进度条上拖拽按钮的起始位置与播放总时长的起始时刻保持一致,并在播放进度条的最右端标记播放总时长的具体数值,得到播放总时长的播放进度条,例如图4所示。
S103,根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;
在本申请实施例中,首先获取每句完整语音信息的播放优先级先后顺序,然后计算每句完整语音信息的播放子时长在播放总时长中的所占百分比,得到每句完整语音信息的百分比,其次根据播放优先级先后顺序,并按照每句完整语音信息的百分比计算每句完整语音信息的起始时刻与结束时刻,最后根据每句完整语音信息的起始时刻与结束时刻在播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示。
具体的,在根据每句完整语音信息的起始时刻与结束时刻在播放总时长的播放进度条上设置播放标记点时,播放标记点可以是采用不同颜色设置的标记点,也可以是采用不同的图形设置的标记点,还可以是采用同一图形按照预设不同范围变大的标记点。
S104,基于展示的目标播放组件播放待播放语音数据。
在本申请实施例中,在基于展示的目标播放组件播放待播放语音数据时,首先接收针对目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于拖拽指令确定拖拽位置,然后根据拖拽位置计算拖拽距离,并计算拖拽距离所占目标播放组件的播放进度条的百分比,其次根据百分比确定滑动按钮所处的播放标记,最后确定播放标记对应的目标完整语音信息,并将目标完整语音信息进行播放。
进一步地,还可以包括播放速率的调整,首先在接收到针对目标播放组件上速率调节按键的触发指令时,获取预先创建的多个播放速率参数,并将多个播放速率参数进行升序排列,生成排序后的多个播放速率参数,然后根据排序后的多个播放速率参数构建语音播放速率调节菜单,其次接收针对语音播放速率调节菜单的触发指令,并基于触发指令在多个播放速率参数中确定出目标播放速率参数,最后根据目标播放速率参数播放待播放语音数据。
具体的,多个播放速率参数例如图4中的0.5X、1.0X、1.25X、1.5X、2.0X,该参数按照从小到大的顺序依次排列在目标播放组件的正上方。用户选择不同参数的播放速率,可以根据选择的播放速率对待播放语音数据的播放总时长进行重新计算,得到计算后的时长,并根据计算后的时长对待播放语音数据进行重新压缩处理后播放。
在一种可能的实现方式中,本申请可以采用编程语言react框架实现,通过audio.play(),audio.pause(),onTimeUpate()等函数监听了音频的播放,暂停,播放过程的回调,使用audio标签上的playbackRate属性来实现调节语音播放速率的功能,在点击时将用户选中的倍速设置为audio的playbackRate属性上。进度条支持拖拽,拖拽效果流畅。拖拽也是通过react ref获取元素后监听touch事件,获取用户的拖拽位置,将整个进度条和位置进行百分比转换,从而达到拖拽到相对应的播放进度的效果。
在本申请实施例中,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,其次根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
请参见图5,为本申请实施例提供了一种传染病空间预警模型训练方法的方法流程示意图。如图5所示,本申请实施例的方法可以包括以下步骤:
S201,确定待播放语音数据,并分析待播放语音数据的语义信息;
S202,根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
S203,计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;
S204,获取每句完整语音信息的播放优先级先后顺序,计算每句完整语音信息的播放子时长在播放总时长中的所占百分比,得到每句完整语音信息的百分比;
S205,根据播放优先级先后顺序,并按照每句完整语音信息的百分比计算每句完整语音信息的起始时刻与结束时刻;
S206,根据每句完整语音信息的起始时刻与结束时刻在播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示;
S207,接收针对目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于拖拽指令确定拖拽位置;
S208,根据拖拽位置计算拖拽距离,计算拖拽距离所占目标播放组件的播放进度条的百分比,根据百分比确定滑动按钮所处的播放标记;
S209,确定播放标记对应的目标完整语音信息,并将目标完整语音信息进行播放。
在本申请实施例中,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,其次根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
下述为本发明***实施例,可以用于执行本发明方法实施例。对于本发明***实施例中未披露的细节,请参照本发明方法实施例。
请参见图6,其示出了本发明一个示例性实施例提供的播放语音数据的***的结构示意图。该播放语音数据的***可以通过软件、硬件或者两者的结合实现成为设备的全部或一部分。该***1包括播放子时长统计模块10、播放进度条构建模块20、目标播放组件展示模块30、语音数据播放模块40。
播放子时长统计模块10,用于根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
播放进度条构建模块20,用于计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;
目标播放组件展示模块30,用于根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;
语音数据播放模块40,用于基于展示的目标播放组件播放待播放语音数据。
需要说明的是,上述实施例提供的播放语音数据的***在执行播放语音数据的方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的播放语音数据的***与播放语音数据的方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,其次根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
在一个实施例中,提出了一种计算机设备,设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条;
根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示;
基于展示的目标播放组件播放待播放语音数据。
在一个实施例中,处理器执行根据待播放语音数据生成多句完整语音信息时,具体执行以下操作:
确定待播放语音数据,并分析待播放语音数据的语义信息;
根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息。
在一个实施例中,处理器执行确定待播放语音数据,并分析待播放语音数据的语义信息时,具体执行以下操作:
获取并展示语音数据列表;
当接收到针对展示的语音数据列表的选择指令时,基于选择指令在展示的语音数据列表中确定待播放语音数据;
调用与待播放语音数据匹配的语音转换服务,并利用语音转换服务对待播放语音数据进行处理,得到多段语言描述文本;
将多段语言描述文本输入预先训练的文本语义识别模型中,得到多段语言描述文本的语义信息,并将多段语言描述文本的语义信息确定为待播放语音数据的语义信息。
在一个实施例中,处理器执行根据语义信息将待播放语音数据进行断句处理,生成多句完整语音信息时,具体执行以下操作:
在待播放语音数据中匹配出每段语言描述文本的语义信息所对应的语音片段;
在待播放语音数据中逐一分割并提取每段语言描述文本的语义信息所对应的语音片段,生成多个语音片段;
将多个语音片段确定为多句完整语音信息。
在一个实施例中,处理器在执行基于展示的目标播放组件播放待播放语音数据时,具体执行以下操作:
接收针对目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于拖拽指令确定拖拽位置;
根据拖拽位置计算拖拽距离;
计算拖拽距离所占目标播放组件的播放进度条的百分比;
根据百分比确定滑动按钮所处的播放标记;
确定播放标记对应的目标完整语音信息,并将目标完整语音信息进行播放。
在一个实施例中,处理器还执行以下操作:
在接收到针对目标播放组件上速率调节按键的触发指令时,获取预先创建的多个播放速率参数;
将多个播放速率参数进行升序排列,生成排序后的多个播放速率参数;
根据排序后的多个播放速率参数构建语音播放速率调节菜单;
接收针对语音播放速率调节菜单的触发指令,并基于触发指令在多个播放速率参数中确定出目标播放速率参数;
根据目标播放速率参数播放待播放语音数据。
在一个实施例中,处理器执行根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示时,具体执行以下操作:
获取每句完整语音信息的播放优先级先后顺序;
计算每句完整语音信息的播放子时长在播放总时长中的所占百分比,得到每句完整语音信息的百分比;
根据播放优先级先后顺序,并按照每句完整语音信息的百分比计算每句完整语音信息的起始时刻与结束时刻;
根据每句完整语音信息的起始时刻与结束时刻在播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示。
在本申请实施例中,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算待播放语音数据的播放总时长,并在预设播放组件上创建播放总时长的播放进度条,其次根据每句完整语音信息的播放子时长在播放进度条上设置每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
在一个实施例中,提出了一种存储有计算机可读指令的介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
计算所述待播放语音数据的播放总时长,并在预设播放组件上创建所述播放总时长的播放进度条;
根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示;
基于展示的目标播放组件播放所述待播放语音数据。
在一个实施例中,处理器执行根据待播放语音数据生成多句完整语音信息时,具体执行以下操作:
确定待播放语音数据,并分析所述待播放语音数据的语义信息;
根据所述语义信息将所述待播放语音数据进行断句处理,生成多句完整语音信息。
在一个实施例中,处理器执行确定待播放语音数据,并分析所述待播放语音数据的语义信息时,具体执行以下操作:
获取并展示语音数据列表;
当接收到针对展示的语音数据列表的选择指令时,基于所述选择指令在展示的语音数据列表中确定待播放语音数据;
调用与所述待播放语音数据匹配的语音转换服务,并利用所述语音转换服务对所述待播放语音数据进行处理,得到多段语言描述文本;
将所述多段语言描述文本输入预先训练的文本语义识别模型中,得到多段语言描述文本的语义信息,并将所述多段语言描述文本的语义信息确定为所述待播放语音数据的语义信息。
在一个实施例中,处理器执行根据所述语义信息将所述待播放语音数据进行断句处理,生成多句完整语音信息时,具体执行以下操作:
在所述待播放语音数据中匹配出每段语言描述文本的语义信息所对应的语音片段;
在所述待播放语音数据中逐一分割并提取所述每段语言描述文本的语义信息所对应的语音片段,生成多个语音片段;
将所述多个语音片段确定为多句完整语音信息。
在一个实施例中,处理器在执行基于展示的目标播放组件播放所述待播放语音数据时,具体执行以下操作:
接收针对所述目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于所述拖拽指令确定拖拽位置;
根据所述拖拽位置计算拖拽距离;
计算所述拖拽距离所占所述目标播放组件的播放进度条的百分比;
根据所述百分比确定所述滑动按钮所处的播放标记;
确定所述播放标记对应的目标完整语音信息,并将所述目标完整语音信息进行播放。
在一个实施例中,处理器还执行以下操作:
在接收到针对所述目标播放组件上速率调节按键的触发指令时,获取预先创建的多个播放速率参数;
将所述多个播放速率参数进行升序排列,生成排序后的多个播放速率参数;
根据排序后的多个播放速率参数构建语音播放速率调节菜单;
接收针对所述语音播放速率调节菜单的触发指令,并基于所述触发指令在所述多个播放速率参数中确定出目标播放速率参数;
根据所述目标播放速率参数播放所述待播放语音数据。
在一个实施例中,处理器执行根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示时,具体执行以下操作:
获取所述每句完整语音信息的播放优先级先后顺序;
计算所述每句完整语音信息的播放子时长在所述播放总时长中的所占百分比,得到每句完整语音信息的百分比;
根据所述播放优先级先后顺序,并按照所述每句完整语音信息的百分比计算所述每句完整语音信息的起始时刻与结束时刻;
根据所述每句完整语音信息的起始时刻与结束时刻在所述播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示。
在本申请实施例中,播放语音数据的***首先根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长,然后计算所述待播放语音数据的播放总时长,并在预设播放组件上创建所述播放总时长的播放进度条,其次根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示,最后基于展示的目标播放组件播放所述待播放语音数据。由于本申请通过每句完整语音信息的播放子时长在播放总时长的播放进度条上设置不同的标记点,不同的标记点可以让用户清楚的看到每句完整语音信息的始末位置,进而可快速定位所需播放的完整语音信息重新播放,从而提升了语音数据播放效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性介质,或随机存储记忆体(RandomAccess Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种播放语音数据的方法,其特征在于,所述方法包括:
根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
计算所述待播放语音数据的播放总时长,并在预设播放组件上创建所述播放总时长的播放进度条;
根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示;
基于展示的目标播放组件播放所述待播放语音数据。
2.根据权利要求1所述的方法,其特征在于,所述根据待播放语音数据生成多句完整语音信息,包括:
确定待播放语音数据,并分析所述待播放语音数据的语义信息;
根据所述语义信息将所述待播放语音数据进行断句处理,生成多句完整语音信息。
3.根据权利要求1所述的方法,其特征在于,所述确定待播放语音数据,并分析所述待播放语音数据的语义信息,包括:
获取并展示语音数据列表;
当接收到针对展示的语音数据列表的选择指令时,基于所述选择指令在展示的语音数据列表中确定待播放语音数据;
调用与所述待播放语音数据匹配的语音转换服务,并利用所述语音转换服务对所述待播放语音数据进行处理,得到多段语言描述文本;
将所述多段语言描述文本输入预先训练的文本语义识别模型中,得到多段语言描述文本的语义信息,并将所述多段语言描述文本的语义信息确定为所述待播放语音数据的语义信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语义信息将所述待播放语音数据进行断句处理,生成多句完整语音信息,包括:
在所述待播放语音数据中匹配出每段语言描述文本的语义信息所对应的语音片段;
在所述待播放语音数据中逐一分割并提取所述每段语言描述文本的语义信息所对应的语音片段,生成多个语音片段;
将所述多个语音片段确定为多句完整语音信息。
5.根据权利要求1所述的方法,其特征在于,所述基于展示的目标播放组件播放所述待播放语音数据,包括:
接收针对所述目标播放组件的播放进度条上拖拽按钮的拖拽指令,并基于所述拖拽指令确定拖拽位置;
根据所述拖拽位置计算拖拽距离;
计算所述拖拽距离所占所述目标播放组件的播放进度条的百分比;
根据所述百分比确定所述滑动按钮所处的播放标记;
确定所述播放标记对应的目标完整语音信息,并将所述目标完整语音信息进行播放。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收到针对所述目标播放组件上速率调节按键的触发指令时,获取预先创建的多个播放速率参数;
将所述多个播放速率参数进行升序排列,生成排序后的多个播放速率参数;
根据排序后的多个播放速率参数构建语音播放速率调节菜单;
接收针对所述语音播放速率调节菜单的触发指令,并基于所述触发指令在所述多个播放速率参数中确定出目标播放速率参数;
根据所述目标播放速率参数播放所述待播放语音数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示,包括:
获取所述每句完整语音信息的播放优先级先后顺序;
计算所述每句完整语音信息的播放子时长在所述播放总时长中的所占百分比,得到每句完整语音信息的百分比;
根据所述播放优先级先后顺序,并按照所述每句完整语音信息的百分比计算所述每句完整语音信息的起始时刻与结束时刻;
根据所述每句完整语音信息的起始时刻与结束时刻在所述播放总时长的播放进度条上设置播放标记点,生成目标播放组件进行展示。
8.一种播放语音数据的***,其特征在于,所述***包括:
播放子时长统计模块,用于根据待播放语音数据生成多句完整语音信息,并统计每句完整语音信息的播放子时长;
播放进度条构建模块,用于计算所述待播放语音数据的播放总时长,并在预设播放组件上创建所述播放总时长的播放进度条;
目标播放组件展示模块,用于根据所述每句完整语音信息的播放子时长在所述播放进度条上设置所述每句完整语音信息的播放标记,生成目标播放组件进行展示;
语音数据播放模块,用于基于展示的目标播放组件播放所述待播放语音数据。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述播放语音数据的方法的步骤。
10.一种存储有计算机可读指令的介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述播放语音数据的的步骤。
CN202211275163.1A 2022-10-18 2022-10-18 一种播放语音数据的方法、***、计算机设备及介质 Pending CN115499401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211275163.1A CN115499401A (zh) 2022-10-18 2022-10-18 一种播放语音数据的方法、***、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211275163.1A CN115499401A (zh) 2022-10-18 2022-10-18 一种播放语音数据的方法、***、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN115499401A true CN115499401A (zh) 2022-12-20

Family

ID=84475059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211275163.1A Pending CN115499401A (zh) 2022-10-18 2022-10-18 一种播放语音数据的方法、***、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN115499401A (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180885A1 (en) * 2014-12-22 2016-06-23 Orange User interface for syncronizing audio with video data
WO2016192254A1 (zh) * 2015-06-02 2016-12-08 深圳Tcl数字技术有限公司 网络视频在线播放的方法和装置
JP2017069836A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 音声配信サーバ、その制御方法、および制御プログラム
CN109379497A (zh) * 2018-12-28 2019-02-22 努比亚技术有限公司 语音信息播放方法、移动终端及计算机可读存储介质
CN110365574A (zh) * 2019-05-24 2019-10-22 珠海格力电器股份有限公司 一种语音信息的播放方法、装置及存储介质
CN110598012A (zh) * 2019-09-23 2019-12-20 听典(上海)教育科技有限公司 一种音视频播放的方法及多媒体播放装置
CN111026358A (zh) * 2019-12-24 2020-04-17 北京明略软件***有限公司 一种语音消息的播放方法、播放装置及可读存储介质
CN111367490A (zh) * 2020-02-28 2020-07-03 广州华多网络科技有限公司 语音播放方法、装置及电子设备
CN112311658A (zh) * 2020-10-29 2021-02-02 维沃移动通信有限公司 语音信息处理方法、装置及电子设备
CN112765397A (zh) * 2021-01-29 2021-05-07 北京字节跳动网络技术有限公司 一种音频转换方法、音频播放方法及装置
CN113778370A (zh) * 2021-09-13 2021-12-10 周鹏程 一种语音消息播放方法、装置、电子设备及存储介质
CN114115668A (zh) * 2020-08-11 2022-03-01 深圳市万普拉斯科技有限公司 音频文件的展示方法、装置、计算机设备和存储介质
CN114582348A (zh) * 2020-11-18 2022-06-03 阿里巴巴集团控股有限公司 语音播放***、方法、装置及设备
WO2022184055A1 (zh) * 2021-03-04 2022-09-09 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备、存储介质及程序产品
WO2022188475A1 (zh) * 2021-03-10 2022-09-15 聚好看科技股份有限公司 一种视频文件的双屏同步播放方法及显示设备
US20220301547A1 (en) * 2021-06-09 2022-09-22 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method for processing audio signal, method for training model, device and medium

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180885A1 (en) * 2014-12-22 2016-06-23 Orange User interface for syncronizing audio with video data
WO2016192254A1 (zh) * 2015-06-02 2016-12-08 深圳Tcl数字技术有限公司 网络视频在线播放的方法和装置
JP2017069836A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 音声配信サーバ、その制御方法、および制御プログラム
CN109379497A (zh) * 2018-12-28 2019-02-22 努比亚技术有限公司 语音信息播放方法、移动终端及计算机可读存储介质
CN110365574A (zh) * 2019-05-24 2019-10-22 珠海格力电器股份有限公司 一种语音信息的播放方法、装置及存储介质
CN110598012A (zh) * 2019-09-23 2019-12-20 听典(上海)教育科技有限公司 一种音视频播放的方法及多媒体播放装置
CN111026358A (zh) * 2019-12-24 2020-04-17 北京明略软件***有限公司 一种语音消息的播放方法、播放装置及可读存储介质
CN111367490A (zh) * 2020-02-28 2020-07-03 广州华多网络科技有限公司 语音播放方法、装置及电子设备
CN114115668A (zh) * 2020-08-11 2022-03-01 深圳市万普拉斯科技有限公司 音频文件的展示方法、装置、计算机设备和存储介质
CN112311658A (zh) * 2020-10-29 2021-02-02 维沃移动通信有限公司 语音信息处理方法、装置及电子设备
CN114582348A (zh) * 2020-11-18 2022-06-03 阿里巴巴集团控股有限公司 语音播放***、方法、装置及设备
CN112765397A (zh) * 2021-01-29 2021-05-07 北京字节跳动网络技术有限公司 一种音频转换方法、音频播放方法及装置
WO2022160990A1 (zh) * 2021-01-29 2022-08-04 北京字节跳动网络技术有限公司 一种音频转换方法、音频播放方法及装置
WO2022184055A1 (zh) * 2021-03-04 2022-09-09 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备、存储介质及程序产品
WO2022188475A1 (zh) * 2021-03-10 2022-09-15 聚好看科技股份有限公司 一种视频文件的双屏同步播放方法及显示设备
US20220301547A1 (en) * 2021-06-09 2022-09-22 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method for processing audio signal, method for training model, device and medium
CN113778370A (zh) * 2021-09-13 2021-12-10 周鹏程 一种语音消息播放方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110418208B (zh) 一种基于人工智能的字幕确定方法和装置
CN108108821B (zh) 模型训练方法及装置
CN107430502B (zh) 由帮助信息动态推断用于软件应用的语音命令
US10984226B2 (en) Method and apparatus for inputting emoticon
US20200125920A1 (en) Interaction method and apparatus of virtual robot, storage medium and electronic device
CN107977928B (zh) 表情生成方法、装置、终端及存储介质
CN107408010A (zh) 由电子设备的用户操纵动态推断软件操作的语音命令
CN109981787B (zh) 用于展示信息的方法和装置
CN104866275B (zh) 一种用于获取图像信息的方法和装置
US20120221656A1 (en) Tracking message topics in an interactive messaging environment
CN109829164B (zh) 用于生成文本的方法和装置
CN107592255B (zh) 信息展示方法和设备
US11511200B2 (en) Game playing method and system based on a multimedia file
CN109688428A (zh) 视频评论生成方法和装置
CN113822967A (zh) 人机交互方法、装置、***、电子设备以及计算机介质
CN111742311A (zh) 智能助理方法
CN109917985A (zh) 信息交互方法及装置、介质和计算设备
CN111415683A (zh) 语音识别异常告警方法、装置、计算机设备和存储介质
CN105808231A (zh) 录制与播放脚本的***及方法
CN114187405A (zh) 确定虚拟形象的方法及装置、设备、介质和产品
CN111312243B (zh) 设备交互方法和装置
CN112306450A (zh) 信息处理方法、装置
CN112309449A (zh) 音频录制方法及装置
CN110288683B (zh) 用于生成信息的方法和装置
US20090210476A1 (en) System and method for providing tangible feedback according to a context and personality state

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination