CN106653002A - 一种文字直播方法及平台 - Google Patents

一种文字直播方法及平台 Download PDF

Info

Publication number
CN106653002A
CN106653002A CN201611162369.8A CN201611162369A CN106653002A CN 106653002 A CN106653002 A CN 106653002A CN 201611162369 A CN201611162369 A CN 201611162369A CN 106653002 A CN106653002 A CN 106653002A
Authority
CN
China
Prior art keywords
word
live
speech audio
ownership
orderly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611162369.8A
Other languages
English (en)
Inventor
方磊
张燕鹏
陈学
田原
王璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MIGU Digital Media Co Ltd
Original Assignee
MIGU Digital Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MIGU Digital Media Co Ltd filed Critical MIGU Digital Media Co Ltd
Priority to CN201611162369.8A priority Critical patent/CN106653002A/zh
Publication of CN106653002A publication Critical patent/CN106653002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文字直播方法,包括:将直播的语音音频进行语音识别,生成有序文字;根据预先设置的声纹特征确定所生成的有序文字的归属;生成有序的包含归属者的文字作为直播文字。本发明还公开了一种文字直播平台。

Description

一种文字直播方法及平台
技术领域
本发明涉及语音识别和声纹识别技术领域,尤其涉及一种文字直播方法及平台。
背景技术
目前,对直播过程一般以人工的方式将语音转换为文字,即相关工作人员将听到的发言人的语音转换为文字,例如:有主持人、嘉宾、采访者和被访者,将各自说话的语音转为文字,并直播每句话是某个人说的。这种方式需要耗费大量的人力成本,并且受限于速度,很大可能出现转换前一句话时,没有办法集中精力听下一句话,造成漏播、错播,使文字直播效率低下。
发明内容
有鉴于此,本发明实施例期望提供一种文字直播方法及平台,能将直播过程中发言者的语音转换为有序的文字,并识别出文字的归属者,提高文字直播效率,节省人力物力。
为达到上述目的,本发明实施例提供了一种文字直播方法:
将直播的语音音频进行语音识别,生成有序文字;
根据预先设置的声纹特征确定所生成的有序文字的归属;
生成有序的包含归属者的文字作为直播文字。
其中,所述将直播的语音音频进行语音识别,生成有序文字包括:将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排序的文字作为有序文字。
其中,所述根据预先设置的声纹特征确定所生成的有序文字的归属之前,所述方法还包括:
对直播的语音音频中的各个发言者进行声纹特征提取,所述声纹特征包括:声学特征、词法特征、韵律特征、语种、方言和口音特征。
其中,所述根据预先设置的声纹特征确定所生成有序文字的归属,包括:
将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中当前语音音频的归属,确定所述有序文字的归属。
本发明实施例还提供了一种文字直播平台,包括:
语音识别模块,用于将直播的语音音频进行语音识别,生成有序文字;
声纹识别模块,用于根据预先设置的声纹特征确定所生成的有序文字的归属;
处理模块,用于生成有序的包含归属者的文字作为直播文字。
其中,所述语音识别模块具体用于:将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排序的文字作为有序文字。
其中,所述声纹识别模块,还用于对直播的语音音频中的各个发言者进行声纹特征提取。
其中,所述声纹识别模块具体用于:将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中语音音频的归属,确定所述有序文字的归属。
本发明实施例提供的文字直播方法及平台,将直播的语音音频进行语音识别,生成有序文字;根据预先设置的声纹特征确定所生成的有序文字的归属,生成有序的包含归属者的文字作为直播文字。如此,能够实时将直播中发言者的语音音频转换为文字,并确定所述文字的归属者,再将生成的直播文字进行展示,能提高文字直播效率,节省人力物力。
附图说明
图1为本发明实施例文字直播方法实现流程示意图;
图2为本发明实施例文字直播平台的组成结构示意图;
图3为本发明实施例文字直播方法完整流程示意图。
具体实施方式
图1为本发明实施例文字直播方法实现流程示意图,如图1所示,本发明实施例文字直播方法包括以下步骤:
步骤101:将直播的语音音频进行语音识别,生成有序文字;
本步骤可采用现有的语音识别(Speech Recognize)技术识别语音音频,所谓语音识别技术,是让机器通过识别和理解过程,使其能听懂人类语言的技术;语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化***中有着广泛的应用。
随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。目前,语音识别技术已经可以进行针对长时间音频进行语音转换文字,再通过文字的信息服务特定的应用。
具体语音识别工具,可以采用隐性马尔科夫(HMM,Hidden Markov Model)模型,HMM模型是语音识别领域广泛采用的统计学模型,能表示出语音信号的时变特征和随机特征,能适应各种变化的发音,进而适合非特定人的大词汇量连续语音的识别工作。
本步骤中,具体的,所述将直播的语音音频进行语音识别,生成有序文字包括:通过语音识别模块将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排好序的文字作为有序文字。
步骤102:根据预先设置的声纹特征确定所生成的有序文字的归属;
本步骤之前,所述方法还包括:对直播的语音音频中的各个发言者进行声纹特征提取,所述声纹特征包括:声学特征、词法特征、韵律特征、语种、方言和口音特征;
特征提取的目的是:提取并选择对发言者的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是个性化特征,而发言者语音识别的特征,对发言者来讲必须是共性特征。
虽然,目前大部分声纹识别***用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。
从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征;(2)词法特征;(3)韵律特征;(4)语种、方言和口音信息。因此,采集声纹特征,应该能够有效地区分不同的发言者。
所述根据预先设置的声纹特征确定所生成的有序文字的归属,包括:将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中当前语音音频的归属,进一步确定所述有序文字的归属。
在实际应用中,声纹识别可以有以下几类方法:
模板匹配方法:利用动态时间弯折以对准训练和测试特征序列,主要用于固定词组的应用;
最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
神经网络方法:有很多种形式,如多层感知、径向基函数等,可以显式训练以区分发言者和其背景发言者,其训练量很大,且模型的可推广性不好;
HMM方法:通常使用单状态的HMM,或高斯混合模型,是比较流行的方法,效果比较好;
VQ聚类方法:效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
多项式分类器方法:有较高的精度,但模型存储和计算量都比较大。
步骤103:生成有序的包含归属者的文字作为直播文字;
根据步骤101和步骤102分别确定出了有序文字、以及文字的归属者,本步骤通过将上述内容进行编辑并进行展示,如:主持人(这里显示的是发言人的姓名):XXXXX(这里显示的是发言内容),将步骤103中语音识别出的有序文字之前加入步骤102中识别出的发言人的姓名,使用户尽量真实的感受到直播过程。
图2为本发明实施例文字直播平台的组成结构示意图,如图2所示,本发明实施例文字直播平台包括:语音识别模块201、声纹识别模块、处理模块203;其中,
语音识别模块201,用于将直播的语音音频进行语音识别,生成有序文字;
声纹识别模块202,用于根据预先设置的声纹特征确定所生成的有序文字的归属;
处理模块203,用于生成有序的包含归属者的文字作为直播文字;
其中,语音识别模块201具体用于:将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排好序的文字称为有序文字;
所述声纹识别模块202,还用于对直播的语音音频中的各个发言者进行声纹特征提取。
声纹识别模块202具体用于:将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中语音音频的归属,进一步确定所述有序文字的归属。
图3为本发明实施例文字直播方法完整流程示意图,如图3所示,本发明实施例文字直播方法完整流程包括以下步骤:
步骤301:输入直播语音音频;
这里,可将直播语音音频输入到本发明实施例文字所述的直播平台中;
步骤302:进行语音识别;
其中,语音识别过程包括:将直播的语音音频进行语音识别,生成有序文字;
在实际应用中,对语音音频进行语音识别过程可以使用了数据准备、模型训练、识别测试等方法进行识别;其中,
数据准备是用来将采集的语音文件转换成可以被***处理的用于训练的数据文件,包含:语音特征参数提取过程,主要提取语音的梅尔倒谱系数(MFCC,Mel-scaleFrequency Cepstral Coefficients),其中,MFCC充分考虑的人耳的听觉特性,不仅能提高抗噪性能,而且能突出包含语音大部分信息的低频部分,有利于提高语音识别性能,对于动态性比较强的辅音,MFCC也可以能够进行很好的识别;
训练模型主要是基于Baum-Welch算法,在模型训练之前先确定隐马尔科夫模型(HMM,Hidden Markov Model)的拓扑结构,并以文本的形式进行保存,然后对语音识别模块建立HMM模型;
识别测试主要应用Viterbi算法在语音识别单元中队语音进行识别;
整个语音识别过程就是在语音数据转化之后,使用模型训练根据这些数据和相关的文本文件估计出HMM模型的参数,根据这些训练产生的模型利用语音识别模块将直播语音转换成相应的文字;
步骤303:进行声纹识别;
其中,声纹识别过程包括:先对直播的语音音频中的发言者进行声纹特征提取,将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中语音音频的归属,进一步确定所述有序文字的归属。
步骤304:生成直播文字;
将步骤302和303确定出的有序文字以及文字的归属,生成直播文字进行展示。
通过上述步骤,将直播的语音音频进行语音识别,生成有序文字;根据预先设置的声纹特征确定所生成的有序文字的归属;生成有序的包含归属者的直播文字。如此,可以提高语音转换文字直播的效率,同时还可以使收看者感受真实的直播过程。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种文字直播方法,其特征在于,所述方法包括:
将直播的语音音频进行语音识别,生成有序文字;
根据预先设置的声纹特征确定所生成的有序文字的归属;
生成有序的包含归属者的文字作为直播文字。
2.根据权利要求1所述的方法,其特征在于,所述将直播的语音音频进行语音识别,生成有序文字包括:将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排序的文字作为有序文字。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预先设置的声纹特征确定所生成的有序文字的归属之前,所述方法还包括:
对直播的语音音频中的各个发言者进行声纹特征提取,所述声纹特征包括:声学特征、词法特征、韵律特征、语种、方言和口音特征。
4.根据权利要求3所述的方法,其特征在于,所述根据预先设置的声纹特征确定所生成有序文字的归属,包括:
将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中当前语音音频的归属,确定所述有序文字的归属。
5.一种文字直播平台,其特征在于,所述平台包括:语音识别模块,声纹识别模块,处理模块;其中,
语音识别模块,用于将直播的语音音频进行语音识别,生成有序文字;
声纹识别模块,用于根据预先设置的声纹特征确定所生成的有序文字的归属;
处理模块,用于生成有序的包含归属者的文字作为直播文字。
6.根据权利要求5所述的文字直播平台,其特征在于,所述语音识别模块具体用于:将语音音频转换为文字,并根据直播的语音音频中发言者的对话顺序确定转换后的文字顺序,将按对话顺序排序的文字作为有序文字。
7.根据权利要求5或6所述的文字直播平台,其特征在于,所述声纹识别模块,还用于对直播的语音音频中的各个发言者进行声纹特征提取。
8.根据权利要求7所述的文字直播平台,其特征在于,所述声纹识别模块具体用于:将所述提取的声纹特征与语音音频中的发言者形成对应关系,确定直播的语音音频中语音音频的归属,确定所述有序文字的归属。
CN201611162369.8A 2016-12-15 2016-12-15 一种文字直播方法及平台 Pending CN106653002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611162369.8A CN106653002A (zh) 2016-12-15 2016-12-15 一种文字直播方法及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611162369.8A CN106653002A (zh) 2016-12-15 2016-12-15 一种文字直播方法及平台

Publications (1)

Publication Number Publication Date
CN106653002A true CN106653002A (zh) 2017-05-10

Family

ID=58822401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611162369.8A Pending CN106653002A (zh) 2016-12-15 2016-12-15 一种文字直播方法及平台

Country Status (1)

Country Link
CN (1) CN106653002A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及***
CN109147796A (zh) * 2018-09-06 2019-01-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN109166583A (zh) * 2018-08-30 2019-01-08 安徽声讯信息技术有限公司 一种语音双平台文字同步直播***及方法
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
CN111383656A (zh) * 2020-03-17 2020-07-07 广州虎牙科技有限公司 声波纹直播方法、装置、服务器、客户端设备及存储介质
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997093A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd 合成音のアクセント変更方法および旅客案内用自動放送装置
CN103458090A (zh) * 2012-05-28 2013-12-18 百度在线网络技术(北京)有限公司 移动终端控制方法及装置
CN103915096A (zh) * 2014-04-15 2014-07-09 胡上杰 警务声纹识别方法
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁***及实现方法
CN104732969A (zh) * 2013-12-23 2015-06-24 鸿富锦精密工业(深圳)有限公司 语音处理***及语音处理方法
CN105427857A (zh) * 2015-10-30 2016-03-23 华勤通讯技术有限公司 生成文字记录的方法及***
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议***
CN106156575A (zh) * 2015-04-16 2016-11-23 中兴通讯股份有限公司 一种用户界面控制方法及终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0997093A (ja) * 1995-09-29 1997-04-08 Matsushita Electric Ind Co Ltd 合成音のアクセント変更方法および旅客案内用自動放送装置
CN103458090A (zh) * 2012-05-28 2013-12-18 百度在线网络技术(北京)有限公司 移动终端控制方法及装置
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104732969A (zh) * 2013-12-23 2015-06-24 鸿富锦精密工业(深圳)有限公司 语音处理***及语音处理方法
CN103915096A (zh) * 2014-04-15 2014-07-09 胡上杰 警务声纹识别方法
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁***及实现方法
CN106156575A (zh) * 2015-04-16 2016-11-23 中兴通讯股份有限公司 一种用户界面控制方法及终端
CN105427857A (zh) * 2015-10-30 2016-03-23 华勤通讯技术有限公司 生成文字记录的方法及***
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈泽茂等 编著: "《信息***安全》", 30 April 2014, 武汉大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及***
CN108074576B (zh) * 2017-12-14 2022-04-08 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及***
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
CN109166583A (zh) * 2018-08-30 2019-01-08 安徽声讯信息技术有限公司 一种语音双平台文字同步直播***及方法
CN109147796A (zh) * 2018-09-06 2019-01-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN109147796B (zh) * 2018-09-06 2024-02-09 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
US11263852B2 (en) 2019-05-24 2022-03-01 Beijing Dajia Internet Information Technology Co., Ltd. Method, electronic device, and computer readable storage medium for creating a vote
CN111383656A (zh) * 2020-03-17 2020-07-07 广州虎牙科技有限公司 声波纹直播方法、装置、服务器、客户端设备及存储介质
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***
CN111508501B (zh) * 2020-07-02 2020-09-29 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及***

Similar Documents

Publication Publication Date Title
CN107369440B (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN103928023B (zh) 一种语音评分方法及***
CN106653002A (zh) 一种文字直播方法及平台
Wu et al. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis
Koolagudi et al. Speech emotion recognition using segmental level prosodic analysis
Koolagudi et al. Two stage emotion recognition based on speaking rate
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
Li et al. Combining five acoustic level modeling methods for automatic speaker age and gender recognition.
CN111862954A (zh) 一种语音识别模型的获取方法及装置
CN109300339A (zh) 一种英语口语的练习方法及***
CN109493846B (zh) 一种英语口音识别***
Xie et al. A KL divergence and DNN approach to cross-lingual TTS
Kumar et al. Continuous hindi speech recognition using monophone based acoustic modeling
Le et al. First steps in fast acoustic modeling for a new target language: application to Vietnamese
Lee et al. A whispered Mandarin corpus for speech technology applications.
Xiao et al. Paired phone-posteriors approach to ESL pronunciation quality assessment
KR20180057970A (ko) 음성감성 인식 장치 및 방법
Kurian et al. Continuous speech recognition system for Malayalam language using PLP cepstral coefficient
TWI467566B (zh) 多語言語音合成方法
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Tsvetkov et al. Identification and modeling of word fragments in spontaneous speech
Hanani et al. Speech-based identification of social groups in a single accent of British English by humans and computers
Dalva Automatic speech recognition system for Turkish spoken language
Huang et al. Speech-Based Interface for Visually Impaired Users

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication