CN113852835A

CN113852835A - 直播音频处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113852835A
Application number: CN202111111150.6A
Authority: CN
Inventors: 杜康
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-28

Abstract

本公开提供了直播音频处理方法、装置、电子设备以及存储介质，涉及计算机技术领域，尤其涉及语音技术领域。具体实现方案为：响应于直播音频信息的生成完成，实时获取与直播音频信息相对应的传输流文件；将传输流文件转换为音频文件和文本文件；确定音频文件和文本文件是否包括预定异常信息；在确定音频文件和文本文件其中至少之一中包括预定异常信息的情况下，向与直播音频信息相关的直播对象发送处置指令。

Description

直播音频处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术领域，具体地，涉及一种直播音频处理方法、装置、电子设备以及存储介质。

背景技术

随着互联网络技术的发展，越来越多的人开始关注网络直播，网络直播可以表现为视频直播和音频直播两种形式。音频直播是一种实时的音频播放技术，其与视频直播类似，强调实时性，不同之处在于少了图像元素只有音频。

发明内容

本公开提供了一种直播音频处理方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种直播音频处理方法，包括：响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件；将所述传输流文件转换为音频文件和文本文件；确定所述音频文件和所述文本文件是否包括预定异常信息；在确定所述音频文件和所述文本文件其中至少之一中包括预定异常信息的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

根据本公开的另一方面，提供了一种直播音频处理装置，包括：获取模块，用于响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件；转换模块，用于将所述传输流文件转换为音频文件和文本文件；确定模块，用于确定所述音频文件和所述文本文件是否包括预定异常信息；第一发送模块，用于在确定所述音频文件和所述文本文件其中至少之一中包括预定异常信息的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的直播音频处理方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的直播音频处理方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的直播音频处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用直播音频处理方法及装置的示例性***架构；

图2示意性示出了根据本公开实施例的直播音频处理方法的流程图；

图3示意性示出了根据本公开实施例的响应于直播音频信息的生成完成，获取与直播音频信息相对应的传输流文件的示意图；

图4示意性示出了根据本公开实施例的对传输流文件进行转换识别的示意图；

图5示意性示出了根据本公开实施例的直播音频审核流程的示意图；

图6示意性示出了根据本公开实施例的直播音频处理装置的框图；以及

图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

音频直播是一种靠语音进行相关社交的直播，没有直观的画面场景。在该场景下，如何能够快速实时有效的对直播间内主播或者观众的话语进行审核，识别出黄反、涉政的语音，从而进行相关的实时处罚是十分重要的。

为实现对直播间内主播或者观众的话语的审核，可以通过审核员实时听取无数个直播间的音频流，靠耳朵听取文字，来进行审核。也可以在直播结束后，通过通用的语音识别工具识别出文字，从而来进行审核。

发明人在实现本公开构思的过程中发现，审核员实时听取音频流进行审核的方式，只能应用在少量直播间的场景中，应用范围比较有限。当同时开启的语音很多的情况下，消耗的审核人力会很多，成本也会比较大。因此。当语音直播流很多的时候，就会消耗大量的人力资源，而且审核员听取太多的东西后会比较疲乏，会导致误判。在直播结束后进行语音识别，然后送审核平台进行审核，时效性较低，可能会导致异常信息暴露出去。

有鉴于此，本公开实施例提供了一种可以实时准确的识别语音直播间的音频数据质量等的方案，以便缓解上述缺陷。

图1示意性示出了根据本公开实施例的可以应用直播音频处理方法及装置的示例性***架构。

需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，可以应用直播音频处理方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的直播音频处理方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual PrivateServer″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的直播音频处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的直播音频处理装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的直播音频处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的直播音频处理装置一般可以设置于服务器105中。本公开实施例所提供的直播音频处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的直播音频处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，在生成直播音频时，终端设备101、102、103可以获取用户视线指向的电子书中的目标内容，然后将获取的目标内容发送给服务器105，由服务器105对目标内容进行分析，确定目标内容的特征信息；根据目标内容的特征信息预测用户感兴趣的内容；以及摘抄用户感兴趣的内容。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对目标内容进行分析，并最终实现摘抄用户感兴趣的内容。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的直播音频处理方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，响应于直播音频信息的生成完成，实时获取与直播音频信息相对应的传输流文件。

在操作S220，将传输流文件转换为音频文件和文本文件。

在操作S230，确定音频文件和文本文件是否包括预定异常信息。

在操作S240，在确定音频文件和文本文件其中至少之一中包括预定异常信息的情况下，向与直播音频信息相关的直播对象发送处置指令。

根据本公开的实施例，直播音频信息可以包括视频直播间和音频直播间等其中至少之一中的直播用户发出的语音信息。在直播用户发出任意一段具有任意长度的语音信息的情况下，均可表征直播音频信息生成完成。传输流文件可以表示以传输流格式表征的直播音频信息文件。传输流格式可以包括TS(TransportStream，传输流)格式，基于TS格式的存储方式可以将直播音频信息分片段存储为TS文件，实现根据直播音频信息的任一片段均可独立解码，得到直播音频的目的。

根据本公开的实施例，预定异常信息可以包括不符合公序良俗的各类异常信息等。直播对象可变包括直播间和直播用户其中至少之一。处置指令可以包括向生成异常信息的直播间和直播用户其中至少之一发起扣款、警告、禁言、封号等其中至少之一的指令。

根据本公开的实施例，在直播间内的直播用户发出语音信息的情况下，可以实时的对该语音信息进行审核，以确定该语音信息中是否包括不符合公序良俗的异常信息。在直播用户发出的语音信息中包括不符合公序良俗的异常信息的情况下，可以实时的向相应的直播用户和该直播用户所处的直播间其中至少之一发起处置指令，实现对相应的直播用户和该直播用户所处的直播间其中至少之一进行如扣款、警告、禁言、封号等的处置操作。

通过本公开的上述实施例，可以在直播音频的同时对直播音频进行实时审核，并可以在确定直播音频中包括预定异常信息的情况下，及时的向生成该直播音频的直播对象发送处置指令，进行处置，从而可以及时控制直播音频的音频数据质量，减少异常信息的流出与扩散。

下面结合具体实施例，对图2所示的方法做进一步说明。

根据本公开的实施例，预定异常信息可以包括与用户联系方式相关的信息。与用户联系方式相关的信息例如可以包括手机号、地址、姓名等信息。预定异常信息还可以包括与广告相关的信息。与广告相关的信息例如可以通过预先定义相应的广告词，然后将音频信息与该预先定义相应的广告词进行匹配来确定。预定异常信息还可以包括其他信息，在此不做限定。

通过本公开的上述实施例，可以增加预定义异常信息的信息涵盖范围，从而可以在更多方向上对音频数据进行处理，提高输出音频的质量。

根据本公开的实施例，处置指令可以包括警告指令、禁言指令和封号指令其中至少之一。处置指令还可以包括其他具有惩罚意义的指令，在此不做限定。

通过本公开的上述实施例，设置处置指令，对生成包括预定异常信息的直播音频的直播对象进行处置，可有效控制直播对象输出的音频数据，提高输出音频的质量。

根据本公开的实施例，直播音频信息可以包括多个直播音频信息。响应于直播音频信息的生成完成，实时获取与直播音频信息相对应的传输流文件可以包括：响应于多个直播音频信息的生成完成，实时并发的获取与多个直播音频信息相对应的传输流文件。

根据本公开的实施例，在同一时刻，可以存在多个直播用户的直播。对于同一时刻的多个直播用户发出的多个语音信息，可以并行获取并实时审核，并在确定一个或多个语音信息中包括不符合公序良俗的异常信息的情况下，实时的向生成该语音信息的直播用户和该直播用户所处的直播间其中至少之一发起处置指令，实现对相应的直播用户和该直播用户所处的直播间其中至少之一进行如扣款、警告、禁言、封号等的处置操作。

通过本公开的上述实施例，可以同时对多个直播音频信息进行审核，通过基于传输流文件的方式进行后续审核的过程，可有效缓解人工审核多个直播音频时因疲乏导致审核失误的问题。此外，也可及时控制每个直播音频的音频数据质量，减少任意一条异常信息的流出与扩散。

根据本公开的实施例，响应于直播音频信息的生成完成，实时获取与直播音频相对应的传输流文件可以包括：响应于所述直播音频信息的生成完成，获取用于请求与直播音频信息相关的传输流片段信息的传输流地址。根据传输流地址，获取传输流片段信息。根据传输流片段信息，生成传输流文件。

根据本公开的实施例，传输流片段信息可以表征上述将直播音频信息分片段存储得到的TS文件的信息，传输流地址可以表征TS文件的TS文件地址，传输流文件可以为对多个时序排序的传输流片段信息进行合并后得到的具有预设时长的TS文件。

图3示意性示出了根据本公开实施例的响应于直播音频信息的生成完成，获取与直播音频信息相对应的传输流文件的示意图。

如图3所示，线上可以同时开放多个直播间310，如图3中直播间A、直播间B等。每个直播间可以支持多个用户直播，如直播间A中可以有用户A1和用户A2的直播，直播间B中可以有用户B1和用户B2的直播等。在直播间开播后，直播基础服务模块320可以为开播的直播间生成相应的直播间标识信息room_id。在开播的直播间中存在直播用户上麦后，直播基础服务模块320可以为上麦的直播用户生成相应的直播用户标识信息u_id。此外，直播基础服务模块320还可以根据room_id和u_id，针对开播的直播间和直播用户生成m3u8(一种文件格式)流地址，即m3u8 url，存储到m3u8地址池330中。m3u8 url例如可以表现为XXXX.stream_{room_id}_{u_id}.m3u8。拉流解析下载服务340可以实时访问m3u8 url，并得到用于请求TS文件的的TS文件地址。得到的TS文件地址可以存储与TS文件池350中。

如图3所示，拉流解析下载服务340可以包括拉流解析主服务341、m3u8解析服务342和TS下载服务343。在启动拉流解析主服务341的情况下，可以同时启动m3u8解析服务342和TS下载服务343，并可通过心跳检测的方式检测m3u8解析服务342和TS下载服务343是否活跃，以便于在检测到m3u8解析服务342和TS下载服务343其中至少之一出现故障的情况下及时处理，保持各个服务的正常运行状态，从而有效保持直播音频处理的整个过程的实时性。

根据本公开的实施例，拉流解析主服务341可以实时且并发的获取m3u8地址池330中的m3u8 url，得到相应的m3u8流地址文件。m3u8流地址文件中可以包括相应TS文件的TS文件地址。在确定当前用户在麦上或者在线的情况下，可以将m3u8流地址文件推送到m3u8解析服务342。m3u8解析服务342可以对m3u8流地址文件进行解析，得到用于请求相应TS文件的TS文件地址。解析出的TS文件地址可以推送到TS文件下载服务343中。TS文件下载服务343可以调起多个协程，并行下载TS文件，并存储到TS文件池350中。

通过本公开的上述实施例，提供了一种实时获取传输流文件的实现方法，通过根据响应于直播音频信息的生成完成获取得到的传输流地址，获取传输流片段信息并生成传输流文件，可以有效提高传输流文件的获取的实时性，从而增强直播音频处理的实时性，及时控制直播音频的音频数据质量，减少异常信息的流出与扩散。

根据本公开的实施例，将传输流文件转换为音频文件和文本文件包括：将传输流文件转换为脉冲编码调制格式的语音文件。对语音文件进行语音识别，得到文本文件。

根据本公开的实施例，将传输流文件转换为的音频文件可以包括将TS文件转换为mp3(一种音视频格式)文件，以及将TS文件转换为pcm(脉冲编码调制)文件其中至少之一。将TS文件转换为pcm文件可以包括：先将TS文件转换为mp3文件，再将mp3文件转换为pcm文件。将传输流文件转换为的文本文件可以包括将pcm文件转换为文本文件。

图4示意性示出了根据本公开实施例的对传输流文件进行转换识别的示意图。

如图4所示，在启动语音识别主服务410的情况下，可以同时启动ffmpeg(具有音频转换功能的开源程序)处理服务420和ASR(自动语音识别技术)识别服务430，并可通过心跳检测的方式检测ffmpeg处理服务420和ASR识别服务430是否活跃，以便于在检测到ffmpeg处理服务420和ASR识别服务430其中至少之一出现故障的情况下及时处理，保持各个服务的正常运行状态，从而有效保持直播音频处理的整个过程的实时性。

根据本公开的实施例，语音识别主服务410可以从TS文件池350中获取合并后的具有预设时长的TS文件，然后将该合并后的TS文件发送至ffmpeg处理服务420。ffmpeg处理服务420可以将TS文件转换为mp3文件421，并对mp3文件421进行存储。ffmpeg处理服务420还可以将mp3文件转化为pcm格式的语音文件422，然后将pcm格式的语音文件422发送至ASR识别服务430。ASR识别服务430可以对pcm格式的语音文件422进行识别，得到文本文件431，并对文本文件431进行存储。

通过本公开的上述实施例，可以将传输流文件转换为可进行审核处理的音频文件和文本文件，提高结合相应的审核方式，可以对直播音频信息进行高效处理，提高处理过程的实时性。

根据本公开的实施例，直播音频处理方法还可以包括：在确定音频文件和文本文件其中至少之一中包括预定敏感词的情况下，将音频文件和文本文件其中至少之一发送至人工处置平台。响应于人工处置平台的处置结果为不通过的情况下，向与直播音频信息相关的直播对象发送处置指令。

图5示意性示出了根据本公开实施例的直播音频审核流程的示意图。

如图5所示，对于针对与直播音频信息相对应的传输流文件转换得到的mp3文件421和文本文件431，可以发送至机器审核模块510进行审核。机器审核模块510中可以包括基于文字策略的机器审核方法和基于语音策略的机器审核方法。在根据机器审核方法确定文本文件中包括预定异常信息的情况下，可以向与直播音频信息相关的直播间和直播用户其中至少之一发送处置指令。在根据机器审核方法确定mp3文件421和文本文件431其中至少之一中包括预定敏感词的情况下，可以将该mp3文件421和文本文件431发送至人工审核模块520进行审核，人工审核模块520可以批量获取该mp3文件421和文本文件431，进行快速审核，并在确定需要向与直播音频信息相关的直播间和直播用户其中至少之一发送处置指令的情况下，发送处置指令，对直播间和直播间内直播用户进行处罚。

根据本公开的实施例，文字策略可以包括词表策略和联系方式识别策略。词表策略可以基于一个预先设置的词库，通过比对文本文件中的文字信息和词库中的词信息是否匹配，来确定直播音频信息中是否包括预定异常信息。例如，在文本文件中的文字信息命中了词库中的词信息的情况下，可以确定直播音频信息中包括预定异常信息。联系方式识别策略可以匹配文本文件中的文字信息是否包括与用户联系方式、广告等相关的信息。

通过本公开的上述实施例，引入人工处置平台，增加人工审核的方案，可进一步提高直播音频处理结果的准确性。

图6示意性示出了根据本公开实施例的直播音频处理装置的框图。

如图6所示，直播音频处理装置600包括获取模块610、转换模块620、确定模块630和第一发送模块640。

获取模块610，用于响应于直播音频信息的生成完成，实时获取与直播音频信息相对应的传输流文件。

转换模块620，用于将传输流文件转换为音频文件和文本文件。

确定模块630，用于确定音频文件和文本文件是否包括预定异常信息。

第一发送模块640，用于在确定音频文件和文本文件其中至少之一中包括预定异常信息的情况下，向与直播音频信息相关的直播对象发送处置指令。

根据本公开的实施例，获取模块包括第一获取单元、第二获取单元和生成单元。

第一获取单元，用于响应于直播音频信息的生成完成，获取用于请求与直播音频信息相关的传输流片段信息的传输流地址。

第二获取单元，用于根据传输流地址，获取传输流片段信息。

生成单元，用于根据传输流片段信息，生成传输流文件。

根据本公开的实施例，转换模块包括转换单元和语音识别单元。

转换单元，用于将传输流文件转换为脉冲编码调制格式的语音文件。

语音识别单元，用于对语音文件进行语音识别，得到文本文件。

根据本公开的实施例，直播音频处理装置还包括第二发送模块和第三发送模块。

第二发送模块，用于在确定音频文件和文本文件其中至少之一中包括预定敏感词的情况下，将音频文件和文本文件其中至少之一发送至人工处置平台。

第三发送模块，用于响应于人工处置平台的处置结果为不通过的情况下，向与直播音频信息相关的直播对象发送处置指令。

根据本公开的实施例，直播音频信息包括多个直播音频信息。获取模块用于响应于多个直播音频信息的生成完成，实时并发的获取与多个直播音频信息相对应的传输流文件。

根据本公开的实施例，预定异常信息包括与用户联系方式相关的信息。

根据本公开的实施例，处置指令包括警告指令、禁言指令和封号指令其中至少之一。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的直播音频处理方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的直播音频处理方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的直播音频处理方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如直播音频处理方法。例如，在一些实施例中，直播音频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的直播音频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行直播音频处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种直播音频处理方法，包括：

响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件；

将所述传输流文件转换为音频文件和文本文件；

确定所述音频文件和所述文本文件是否包括预定异常信息；

在确定所述音频文件和所述文本文件其中至少之一中包括预定异常信息的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

2.根据权利要求1所述的方法，其中，所述响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件包括：

响应于所述直播音频信息的生成完成，获取用于请求与所述直播音频信息相关的传输流片段信息的传输流地址；

根据所述传输流地址，获取所述传输流片段信息；以及

根据所述传输流片段信息，生成所述传输流文件。

3.根据权利要求1所述的方法，其中，所述将所述传输流文件转换为音频文件和文本文件包括：

将所述传输流文件转换为脉冲编码调制格式的语音文件；以及

对所述语音文件进行语音识别，得到所述文本文件。

4.根据权利要求1所述的方法，还包括：

在确定所述音频文件和所述文本文件其中至少之一中包括预定敏感词的情况下，将所述音频文件和所述文本文件其中至少之一发送至人工处置平台；以及

响应于所述人工处置平台的处置结果为不通过的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

5.根据权利要求1所述的方法，其中，所述直播音频信息包括多个直播音频信息；

所述响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件包括：

响应于所述多个直播音频信息的生成完成，实时并发的获取与所述多个直播音频信息相对应的传输流文件。

6.根据权利要求1至5中任一所述的方法，其中，所述预定异常信息包括与用户联系方式相关的信息。

7.根据权利要求1至6中任一所述的方法，其中，所述处置指令包括警告指令、禁言指令和封号指令其中至少之一。

8.一种直播音频处理装置，包括：

获取模块，用于响应于直播音频信息的生成完成，实时获取与所述直播音频信息相对应的传输流文件；

转换模块，用于将所述传输流文件转换为音频文件和文本文件；

确定模块，用于确定所述音频文件和所述文本文件是否包括预定异常信息；

第一发送模块，用于在确定所述音频文件和所述文本文件其中至少之一中包括预定异常信息的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

9.根据权利要求8所述的装置，其中，所述获取模块包括：

第一获取单元，用于响应于所述直播音频信息的生成完成，获取用于请求与所述直播音频信息相关的传输流片段信息的传输流地址；

第二获取单元，用于根据所述传输流地址，获取所述传输流片段信息；以及

生成单元，用于根据所述传输流片段信息，生成所述传输流文件。

10.根据权利要求8所述的装置，其中，所述转换模块包括：

转换单元，用于将所述传输流文件转换为脉冲编码调制格式的语音文件；以及

语音识别单元，用于对所述语音文件进行语音识别，得到所述文本文件。

11.根据权利要求8所述的装置，还包括：

第二发送模块，用于在确定所述音频文件和所述文本文件其中至少之一中包括预定敏感词的情况下，将所述音频文件和所述文本文件其中至少之一发送至人工处置平台；以及

第三发送模块，用于响应于所述人工处置平台的处置结果为不通过的情况下，向与所述直播音频信息相关的直播对象发送处置指令。

12.根据权利要求8所述的装置，其中，所述直播音频信息包括多个直播音频信息；

所述获取模块用于响应于所述多个直播音频信息的生成完成，实时并发的获取与所述多个直播音频信息相对应的传输流文件。

13.根据权利要求8至12中任一所述的装置，其中，所述预定异常信息包括与用户联系方式相关的信息。

14.根据权利要求8至13中任一所述的装置，其中，所述处置指令包括警告指令、禁言指令和封号指令其中至少之一。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。