CN107863113A - 一种语音上传方法及装置 - Google Patents

一种语音上传方法及装置 Download PDF

Info

Publication number
CN107863113A
CN107863113A CN201711092928.7A CN201711092928A CN107863113A CN 107863113 A CN107863113 A CN 107863113A CN 201711092928 A CN201711092928 A CN 201711092928A CN 107863113 A CN107863113 A CN 107863113A
Authority
CN
China
Prior art keywords
voice
received
end event
receive
during
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711092928.7A
Other languages
English (en)
Inventor
郭建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201711092928.7A priority Critical patent/CN107863113A/zh
Publication of CN107863113A publication Critical patent/CN107863113A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音上传方法及装置。所述方法包括:接收输入的语音;在接收语音的过程中,判断是否接收到语音结束事件;当接收到所述语音结束事件时,上传当前段的语音。通过本发明的技术方案,在接收语音的过程中,判断是否接收到语音结束事件,当接收到所述语音结束事件时,才上传当前段的语音,从而确保每次上传的语音是一个完整的语句,从而有利于之后进行语音识别。

Description

一种语音上传方法及装置
技术领域
本发明涉及语音技术领域,特别涉及一种语音上传方法及装置。
背景技术
目前,在很多场景下都会使用到语音输入,而语音输入后就会将语音上传至第三方语音识别应用或者服务器进行语音识别,但相关技术中在进行语音上传时,无法确保每次上传的语音是一个完整的语句,这不利于后期进行语音识别。
发明内容
本发明提供一种语音上传方法及装置,用以在接收语音的过程中,判断是否接收到语音结束事件,当接收到所述语音结束事件时,才上传当前段的语音,从而确保每次上传的语音是一个完整的语句,从而有利于之后进行语音识别。
本发明提供一种语音上传方法,包括:
接收输入的语音;
在接收语音的过程中,判断是否接收到语音结束事件;
当接收到所述语音结束事件时,上传当前段的语音。
在一个实施例中,所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
如果达到,则判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
在一个实施例中,各静音单位的静音持续时长为预设持续时长。
在一个实施例中,所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,判断是否接收到语音停止指令;
当接收到所述语音停止指令时,判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
在一个实施例中,所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到所述语音结束事件,否则,判定没有接收到所述语音结束事件。
本发明还提供一种语音上传装置,包括:
接收模块,用于接收输入的语音;
判断模块,用于在接收语音的过程中,判断是否接收到语音结束事件;
上传模块,用于当接收到所述语音结束事件时,上传当前段的语音。
在一个实施例中,所述判断模块包括:
第一判断子模块,用于在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
第一判定子模块,用于如果达到,则判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
在一个实施例中,各静音单位的静音持续时长为预设持续时长。
在一个实施例中,所述判断模块包括:
第二判断子模块,用于在接收语音的过程中,判断是否接收到语音停止指令;
第二判定子模块,用于当接收到所述语音停止指令时,判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
在一个实施例中,所述判断模块包括:
第三判定子模块,用于在接收语音的过程中,若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到所述语音结束事件,否则,判定没有接收到所述语音结束事件。
本公开的实施例提供的技术方案可以包括以下有益效果:
在接收语音的过程中,判断是否接收到语音结束事件,当接收到语音结束事件时,才上传当前段的语音,从而可确保每次上传的语音是一个完整的语句,如此,也有利于之后进行语音识别。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例示出的一种语音上传方法的流程图。
图2是根据一示例性实施例示出的另一种语音上传方法的流程图。
图3是根据一示例性实施例示出的一种语音上传装置的框图。
图4是根据一示例性实施例示出的另一种语音上传装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
相关技术中,在很多场景下都会使用到语音输入,而语音输入后就会将语音上传至第三方语音识别应用或者服务器进行语音识别,但相关技术中在进行语音上传时,无法确保每次上传的语音是一个完整的语句,这不利于后期进行语音识别。
为了解决上述技术问题,本公开实施例提供了一种语音上传方法,该方法适用于音频数据识别结果的调整的程序、***或装置中,其执行主体可以是手机、计算机等终端,如图1所示,步骤S101至步骤S103,其中:
在步骤S101中,接收输入的语音;
在步骤S102中,在接收语音的过程中,判断是否接收到语音结束事件;
在步骤S103中,当接收到语音结束事件时,上传当前段的语音。
在接收语音的过程中,判断是否接收到语音结束事件,当接收到语音结束事件时,才上传当前段的语音,从而可确保每次上传的语音是一个完整的语句,如此,也有利于之后进行语音识别。
另外,该当前段的语音可能不足50秒。
如图2所示,在一个实施例中,上述图1所示的步骤S102,即在接收语音的过程中,判断是否接收到语音结束事件,包括:
在步骤A1中,在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
在步骤A2中,如果达到,则判定接收到语音结束事件;否则,判定没有接收到语音结束事件。
在判断是否接收到语音结束事件时,可在接收语音的过程中,判断该当前的静音单位个数是否达到预设静音单位个数,如果达到,说明用户停止输入语音的时间较长,因而可判定接收到该语音结束事件;否则,说明用户停止输入语音的时间不太长,因而可判定没有接收到语音结束事件。
在一个实施例中,各静音单位的静音持续时长为预设持续时长。
各静音单位的静音持续时长可以自由设定,如预设持续时长可以是10秒等。
而上述预设静音单位个数也可以自由设定,如可以是3、5等。
在一个实施例中,在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,判断是否接收到语音停止指令;
当接收到语音停止指令时,判定接收到语音结束事件;否则,判定没有接收到语音结束事件。
在判断是否接收到语音结束事件时,可判断是否接收到语音停止指令,如是否接收到stop指令、“tingzhi”语音等,当接收到语音停止指令时,说明用户期望停止输入当前语音段,即期望结束当前语音段,因而,可判定接收到语音结束事件;否则,判定没有接收到语音结束事件。
在一个实施例中,在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到语音结束事件,否则,判定没有接收到语音结束事件。该预设时间差可个性化设定,如可以使3秒。
在接收语音的过程中,若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,说明距离下一段语音的停顿时间较长,因而,则判定接收到语音结束事件,即需要结束上一段语音(即上述实施例中的当前段的语音),否则,判定没有接收到语音结束事件,以确保之后上传的每一段语音都是用户期望的一个完整的语句。
如图3所示,本发明还提供一种语音上传装置,包括:
接收模块301,被配置为接收输入的语音;
判断模块302,被配置为在接收语音的过程中,判断是否接收到语音结束事件;
上传模块303,被配置为当接收到语音结束事件时,上传当前段的语音。
如图4所示,在一个实施例中,判断模块302可以包括:
第一判断子模块3021,被配置为在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
第一判定子模块3022,被配置为如果达到,则判定接收到语音结束事件;否则,判定没有接收到语音结束事件。
在一个实施例中,各静音单位的静音持续时长为预设持续时长。
在一个实施例中,判断模块包括:
第二判断子模块,被配置为在接收语音的过程中,判断是否接收到语音停止指令;
第二判定子模块,被配置为当接收到语音停止指令时,判定接收到语音结束事件;否则,判定没有接收到语音结束事件。
在一个实施例中,判断模块包括:
第三判定子模块,被配置为在接收语音的过程中,若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到语音结束事件,否则,判定没有接收到语音结束事件。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
最后,本发明中的语音上传装置适用于终端设备。例如,可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音上传方法,其特征在于,包括:
接收输入的语音;
在接收语音的过程中,判断是否接收到语音结束事件;
当接收到所述语音结束事件时,上传当前段的语音。
2.根据权利要求1所述的方法,其特征在于,
所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
如果达到,则判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
3.根据权利要求2所述的方法,其特征在于,
各静音单位的静音持续时长为预设持续时长。
4.根据权利要求1所述的方法,其特征在于,
所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,判断是否接收到语音停止指令;
当接收到所述语音停止指令时,判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
5.根据权利要求1所述的方法,其特征在于,
所述在接收语音的过程中,判断是否接收到语音结束事件,包括:
在接收语音的过程中,若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到所述语音结束事件,否则,判定没有接收到所述语音结束事件。
6.一种语音上传装置,其特征在于,包括:
接收模块,用于接收输入的语音;
判断模块,用于在接收语音的过程中,判断是否接收到语音结束事件;
上传模块,用于当接收到所述语音结束事件时,上传当前段的语音。
7.根据权利要求6所述的装置,其特征在于,
所述判断模块包括:
第一判断子模块,用于在接收语音的过程中,判断当前的静音单位个数是否达到预设静音单位个数;
第一判定子模块,用于如果达到,则判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
8.根据权利要求7所述的装置,其特征在于,
各静音单位的静音持续时长为预设持续时长。
9.根据权利要求6所述的装置,其特征在于,
所述判断模块包括:
第二判断子模块,用于在接收语音的过程中,判断是否接收到语音停止指令;
第二判定子模块,用于当接收到所述语音停止指令时,判定接收到所述语音结束事件;否则,判定没有接收到所述语音结束事件。
10.根据权利要求6所述的装置,其特征在于,
所述判断模块包括:
第三判定子模块,用于在接收语音的过程中,若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差,则判定接收到所述语音结束事件,否则,判定没有接收到所述语音结束事件。
CN201711092928.7A 2017-11-08 2017-11-08 一种语音上传方法及装置 Pending CN107863113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711092928.7A CN107863113A (zh) 2017-11-08 2017-11-08 一种语音上传方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711092928.7A CN107863113A (zh) 2017-11-08 2017-11-08 一种语音上传方法及装置

Publications (1)

Publication Number Publication Date
CN107863113A true CN107863113A (zh) 2018-03-30

Family

ID=61701274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711092928.7A Pending CN107863113A (zh) 2017-11-08 2017-11-08 一种语音上传方法及装置

Country Status (1)

Country Link
CN (1) CN107863113A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502631A (zh) * 2019-07-17 2019-11-26 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
CN111464644A (zh) * 2020-04-01 2020-07-28 北京声智科技有限公司 一种数据传输方法及电子设备
WO2021031308A1 (zh) * 2019-08-16 2021-02-25 北京小米移动软件有限公司 音频处理方法、装置及存储介质
WO2021042584A1 (zh) * 2019-09-04 2021-03-11 苏州思必驰信息科技有限公司 全双工语音对话方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502631A (zh) * 2019-07-17 2019-11-26 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
WO2021031308A1 (zh) * 2019-08-16 2021-02-25 北京小米移动软件有限公司 音频处理方法、装置及存储介质
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
WO2021042584A1 (zh) * 2019-09-04 2021-03-11 苏州思必驰信息科技有限公司 全双工语音对话方法
CN111464644A (zh) * 2020-04-01 2020-07-28 北京声智科技有限公司 一种数据传输方法及电子设备

Similar Documents

Publication Publication Date Title
CN107863113A (zh) 一种语音上传方法及装置
CN107871506A (zh) 语音识别功能的唤醒方法及装置
EP3084633B1 (en) Attribute-based audio channel arbitration
CN109829432B (zh) 用于生成信息的方法和装置
CN111599343B (zh) 用于生成音频的方法、装置、设备和介质
CN107591156A (zh) 语音识别方法及装置
KR20150103264A (ko) 음성 및/또는 안면 인식 기반 서비스 제공
US9674351B1 (en) Remote voice recognition
CN107818790B (zh) 一种多路音频混音方法及装置
CN109977905B (zh) 用于处理眼底图像的方法和装置
CN111667810B (zh) 多音字语料的获取方法、装置、可读介质和电子设备
CN108039181A (zh) 一种声音信号的情感信息分析方法和装置
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
CN106302437A (zh) 语音处理方法及装置
CN107863112A (zh) 一种音频获取方法及装置
CN107634840A (zh) 一种基于虚拟房间的处理方法及装置
CN103067303B (zh) 宽带多媒体集群***中组呼视权调度的方法、装置和***
CN106653003A (zh) 语音识别方法及装置
CN110335237B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
KR102049838B1 (ko) 진동촉각기반의 감성 전달 장치 및 방법
CN109508166B (zh) 音频播放方法、装置、设备及存储介质
CN107978314A (zh) 一种语句上传方法及装置
CN107872686A (zh) 一种直播盒子状态监测方法及装置
CN107424620B (zh) 一种音频解码方法和装置
CN107886945A (zh) 一种语音上传方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180330

WD01 Invention patent application deemed withdrawn after publication