CN109326281A - 韵律标注方法、装置和设备 - Google Patents

韵律标注方法、装置和设备 Download PDF

Info

Publication number
CN109326281A
CN109326281A CN201810988973.9A CN201810988973A CN109326281A CN 109326281 A CN109326281 A CN 109326281A CN 201810988973 A CN201810988973 A CN 201810988973A CN 109326281 A CN109326281 A CN 109326281A
Authority
CN
China
Prior art keywords
prosodic
text
marked
voice data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810988973.9A
Other languages
English (en)
Other versions
CN109326281B (zh
Inventor
孟君
曹琼
廖晓玲
郝玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitian Rui Sheng Polytron Technologies Inc
Original Assignee
Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=65263729&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN109326281(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Beijing Haitian Rui Sheng Polytron Technologies Inc filed Critical Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority to CN201810988973.9A priority Critical patent/CN109326281B/zh
Publication of CN109326281A publication Critical patent/CN109326281A/zh
Application granted granted Critical
Publication of CN109326281B publication Critical patent/CN109326281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种韵律标注方法、装置和设备。其中,韵律标注方法包括:获取待标注文本的语音数据;根据语音数据,确定语音数据中的韵律信息,韵律信息用于指示语音数据中的停顿时长;根据语音数据中的韵律信息,对待标注文本进行韵律符号标注。本发明提供的韵律标注方法,提升了韵律标注的效率和准确性。

Description

韵律标注方法、装置和设备
技术领域
本发明涉及韵律标注技术领域,尤其涉及一种韵律标注方法、装置和设备。
背景技术
韵律,又称为超音段特征、节律或者音律,通常包括节奏、强调、语调等。韵律信息是人们表达思想情感的一种必要手段。相同的文字采用不同的语气和节奏能表达出完全不同的意思。因此,韵律信息在语音合成***中起到了十分重要的作用。
目前,语音合成***中的韵律标注一般采用基于文本信息预测韵律的方式。以中文标注为例,基于文本信息进行韵律预测,通常根据声母、韵母、词、短语、段落等信息确定韵律预测结果。专业的标注人员根据韵律预测结果完成韵律标注。
但是,语言表述具有丰富性。仅仅根据文本信息通过人工的方式进行韵律标注,对于文本中需要有明显停顿或者需要有明显静音的部分不能正确预测韵律信息。标注人员需要改动的地方很多。导致韵律标注的效率和准确度较低。
发明内容
本发明提供一种韵律标注方法、装置和设备,提升了韵律标注的效率和准确度。
第一方面,本发明提供一种韵律标注方法,包括:
获取待标注文本的语音数据;
根据所述语音数据,确定所述语音数据中的韵律信息,所述韵律信息用于指示所述语音数据中的停顿时长;
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注。
可选的,在一种可能的实施方式中,还包括:
获取所述待标注文本的文本数据中的韵律信息;
可选的,在一种可能的实施方式中,所述根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注,包括:
根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注。
可选的,在一种可能的实施方式中,所述根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注,包括:
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注;
根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新。
可选的,在一种可能的实施方式中,所述根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新,包括:
若所述文本数据中的韵律信息指示所述待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号,则删除已标注的所述至少一个韵律符号。
可选的,在一种可能的实施方式中,所述根据所述语音数据,确定所述语音数据中的韵律信息,包括:
根据所述语音数据,获取所述语音数据中的至少一个静音段;
针对每个静音段,根据该静音段,确定所述语音数据中该静音段对应的韵律信息。
可选的,在一种可能的实施方式中,所述根据所述语音数据,获取所述语音数据中的至少一个静音段,包括:
对所述待标注文本的文本数据进行音素分割,获得语音标注序列;
根据所述语音标注序列、所述语音数据以及预设声学模型,对所述语音数据进行音素分割,获取所述语音数据中的所述至少一个静音段;其中,所述预设声学模型用于表示不同音素对应的语音特征。
第二方面,本发明提供一种韵律标注装置,包括:
第一获取模块,用于获取待标注文本的语音数据;
韵律信息确定模块,用于根据所述语音数据,确定所述语音数据中的韵律信息,所述韵律信息用于指示所述语音数据中的停顿时长;
标注模块,用于根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注。
可选的,在一种可能的实施方式中,还包括第二获取模块;
所述第二获取模块,用于获取所述待标注文本的文本数据中的韵律信息;
所述标注模块具体用于:
根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注。
可选的,在一种可能的实施方式中,所述标注模块具体用于:
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注;
根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新。
第三方面,本发明提供一种韵律标注设备,该韵律标注设备包括处理器和存储器。存储器用于存储指令。处理器用于执行存储器中存储的指令,以使韵律标注设备执行本发明第一方面任一实施方式提供的韵律标注方法。
第四方面,本发明提供一种存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于实现本发明第一方面任一实施方式提供的韵律标注方法。
本发明提供一种韵律标注方法、装置和设备,根据待标注文本的语音数据对待标注文本进行韵律符号的标注,考虑了语言表述的丰富性,尤其考虑了语音中的明显停顿或者明显静音段,提升了韵律标注的效率和准确性,降低了韵律标注的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的韵律标注方法的流程图;
图2为本发明实施例提供的韵律标注装置的结构示意图;
图3为本发明实施例提供的韵律标注设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的韵律标注方法的流程图。本实施例提供的韵律标注方法,执行主体可以为韵律标注装置,或者为韵律标注设备。如图1所示,本实施例提供的韵律标注方法,可以包括:
S101、获取待标注文本的语音数据。
S102、根据语音数据,确定语音数据中的韵律信息。
其中,韵律信息用于指示语音数据中的停顿时长。
S103、根据语音数据中的韵律信息,对待标注文本进行韵律符号标注。
具体的,在本实施例中,需要进行韵律标注的文本可以称为待标注文本。待标注文本的语音数据为朗读者对待标注文本进行朗读后生成的语音数据。本实施例对于朗读者不做限定。根据待标注文本的语音数据可以确定语音数据中的韵律信息。其中,韵律信息用于指示语音数据中的停顿时长。进而,可以根据语音数据中的停顿时长对待标注文本进行韵律符号的标注。
本实施例提供的韵律标注方法,根据待标注文本的语音数据对待标注文本进行韵律符号的标注,考虑了语言表述的丰富性。基于朗读者对待标注文本进行朗读生成的语音数据,充分考虑了语音中的明显停顿或者明显静音段。相比于基于待标注文本通过人工方式进行韵律标注,提升了韵律标注的准确性。由于减少了需要改动的地方,因此提升了韵律标注的效率,降低了韵律标注成本。
需要说明的是,本实施例对于韵律符号的实现方式不做限定,根据需要进行设置。其中,不同的韵律符号对应的停顿时长范围可以预先设置。本实施例对于停顿时长范围的具体数值不做限定。
例如,韵律符号可以包括#1、#2、#3和#4。此时,语音数据中的停顿时长可以有4种。
下面通过示例进行说明。
表1示出了韵律符号、韵律符号表示的含义以及停顿时长范围之间的对应关系。其中,#1和#2场景一对应的停顿由于在听感上不易觉察,主观性较强,因此,在本实施例中可以不定义停顿时长范围。当然,也可以定义停顿时长范围。本实施例对此不做限定。其中,t3<t4≤t5<t6。本实施例对于t3~t6的具体取值不做限定。例如,t4=t5=90ms。假设,待标注文本的一个示例为xxxxxxx,xxxxxxxx。待标注文本在进行韵律符号标注后可以为xxxx#2xxx#3,xxx#2xxxxx#4。
表1
可选的,本实施例提供的韵律标注方法,还可以包括:
获取待标注文本的文本数据中的韵律信息。
S103,根据语音数据中的韵律信息,对待标注文本进行韵律符号标注,可以包括:
根据语音数据中的韵律信息和文本数据中的韵律信息,对待标注文本进行韵律符号标注。
具体的,待标注文本的文本数据中的韵律信息,用于指示待标注文本的文本数据中的停顿时长。需要说明的是,本实施例对于获取待标注文本的文本数据中的韵律信息的实现方式不做限定,可以采用现有的基于文本信息进行韵律预测的方法。
根据语音数据中的韵律信息和文本数据中的韵律信息对待标注文本进行韵律符号标注,综合考虑了文本韵律预测结果和语音韵律分析结果,进一步提升了韵律标注的效率和准确性。
可选的,根据语音数据中的韵律信息和文本数据中的韵律信息,对待标注文本进行韵律符号标注,可以包括:
根据语音数据中的韵律信息,对待标注文本进行韵律符号标注。
根据文本数据中的韵律信息,对待标注文本中标注的韵律符号进行更新。
通过以语音数据中的韵律信息为基础对待标注文本进行韵律符号标注,根据文本数据中的韵律信息更新韵律符号的标注,在语音韵律分析结果的基础上考虑了文本韵律预测结果,进一步提升了韵律标注的效率和准确性。
可选的,根据文本数据中的韵律信息,对待标注文本中标注的韵律符号进行更新,可以包括:
若文本数据中的韵律信息指示待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号,则删除已标注的至少一个韵律符号。
具体的,文本数据中的韵律信息是根据待标注文本的文本数据确定的文本韵律预测结果。文本数据中的韵律信息通常反映了语法上可以进行停顿的停顿时长,也包括不能停顿的位置。在一些场景中,文本数据中的韵律信息指示待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号。例如,在语法词的中间通常不会有停顿,语法词可以包括短语、成语、俗语等。此时,可以根据文本数据中的韵律信息删除待标注文本中已标注的至少一个韵律符号,进一步提升了韵律标注的准确性。
可选的,S102,根据语音数据,确定语音数据中的韵律信息,可以包括:
根据语音数据,获取语音数据中的至少一个静音段。
针对每个静音段,根据该静音段,确定语音数据中该静音段对应的韵律信息。
具体的,根据语音数据获取语音数据中的至少一个静音段。所述静音段的时长为语音数据中的停顿时长。
可选的,针对每个静音段,根据该静音段,确定语音数据中该静音段对应的韵律信息,可以包括:
根据静音段在语音数据中的起始时间和结束时间,获取静音段的时长。
下面通过示例进行说明。
假设,一个静音段的起始时间为00:22:07:300,结束时间为00:22:07:360。静音段的时长为60ms。参见表1。假设,t3=30ms,t4=90ms。那么,可以根据该静音段的时长在待标注文本中标注韵律符号为#2。
可选的,根据语音数据,获取语音数据中的至少一个静音段,可以包括:
对待标注文本的文本数据进行音素分割,获得语音标注序列。
根据语音标注序列、语音数据以及预设声学模型,对语音数据进行音素分割,获取语音数据中的至少一个静音段。其中,预设声学模型用于表示不同音素对应的语音特征。
具体的,音素是从音质的角度划分出来的最小语音单位。对待标注文本的文本数据进行音素分割,可以将文本数据分割成时序相邻的一系列与音素对应的音段。该音段可以称为语音标注序列。预设声学模型表示了不同音素对应的语音特征。根据语音标注序列、语音数据以及预设声学模型,可以对语音数据进行音素分割,获取语音数据中的至少一个静音段。
需要说明的是,本实施例对于音素分割方法不做限定,可以采用现有的音素分割方法。例如,基于马尔可夫模型(Hidden Markov Model,HMM)的语音自动切分算法。在该算法中,可以基于HMM的语言模型为给定的标注序列,使用Viterbi算法将语音信号与语音学标注单元(音素)相应的HMM序列强制对齐。
需要说明的是,本实施例对于预设声学模型的类型和获取方式不做限定。例如,可以基于开源工具Kaldi,使用待预测韵律的语音数据和对应的文本训练预设声学模型。又例如,可以基于深度神经网络(Deep Neural Networks,DNN)算法获得预设声学模型。可选的,当语音数据量较小时,预设声学模型可以为GMM-HMM声学模型。当语音数据量较大时,预设声学模型可以为DNN-HMM模型。
可选的,对待标注文本的文本数据进行音素分割,获得语音标注序列,可以包括:
对待标注文本的文本数据进行音素分割,并在待标注文本中相邻的两个字之间***停顿符,获得语音标注序列。
下面通过示例进行说明。
假设,音素包括声母和韵母。待标注文本为“你好,亲爱的祖国。”。待标注文本的文本数据为“ni hao,qin ai de zu guo”。那么,语音标注序列可以为“n i sp h ao sp q insp ai sp d e sp z u sp g uo”。其中,sp表示停顿符。
本实施例提供一种韵律标注方法,包括:获取待标注文本的语音数据,根据语音数据确定语音数据中的韵律信息,根据语音数据中的韵律信息对待标注文本进行韵律符号标注。本实施例提供的韵律标注方法,根据待标注文本的语音数据对待标注文本进行韵律符号的标注,提升了韵律标注的效率和准确性。
图2为本发明实施例提供的韵律标注装置的结构示意图。本实施例提供的韵律标注装置,用于执行图1所示实施例提供的韵律标注方法。如图2所示,本实施例提供的韵律标注装置,可以包括:
第一获取模块11,用于获取待标注文本的语音数据。
韵律信息确定模块12,用于根据语音数据,确定语音数据中的韵律信息,韵律信息用于指示语音数据中的停顿时长。
标注模块13,用于根据语音数据中的韵律信息,对待标注文本进行韵律符号标注。
可选的,还包括第二获取模块14。
第二获取模块14,用于获取待标注文本的文本数据中的韵律信息。
标注模块13具体用于:
根据语音数据中的韵律信息和文本数据中的韵律信息,对待标注文本进行韵律符号标注。
可选的,标注模块13具体用于:
根据语音数据中的韵律信息,对待标注文本进行韵律符号标注。
根据文本数据中的韵律信息,对待标注文本中标注的韵律符号进行更新。
可选的,标注模块13具体用于:
若文本数据中的韵律信息指示待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号,则删除已标注的至少一个韵律符号。
可选的,韵律信息确定模块12具体用于:
根据语音数据,获取语音数据中的至少一个静音段。
针对每个静音段,根据该静音段,确定语音数据中该静音段对应的韵律信息。
可选的,韵律信息确定模块12具体用于:
对待标注文本的文本数据进行音素分割,获得语音标注序列。
根据语音标注序列、语音数据以及预设声学模型,对语音数据进行音素分割,获取语音数据中的至少一个静音段。其中,预设声学模型用于表示不同音素对应的语音特征。
本实施例提供的韵律标注装置,用于执行图1所示实施例提供的韵律标注方法,原理和技术效果类似,此处不再赘述。
图3为本发明实施例提供的韵律标注设备的结构示意图。本实施例提供的韵律标注设备,用于执行图1所示实施例提供的韵律标注方法。
如图3所示,韵律标注设备可以包括处理器21和存储器22。所述存储器22用于存储指令,所述处理器21用于执行所述存储器22中存储的指令,以使所述韵律标注设备执行图1所示实施例提供的韵律标注方法,具体实现方式和技术效果类似,这里不再赘述。
本发明实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述图1所示实施例的韵律标注方法。
本发明实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述图1所示实施例的韵律标注方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读内存(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种韵律标注方法,其特征在于,包括:
获取待标注文本的语音数据;
根据所述语音数据,确定所述语音数据中的韵律信息,所述韵律信息用于指示所述语音数据中的停顿时长;
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述待标注文本的文本数据中的韵律信息;
所述根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注,包括:
根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注,包括:
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注;
根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新,包括:
若所述文本数据中的韵律信息指示所述待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号,则删除已标注的所述至少一个韵律符号。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述语音数据,确定所述语音数据中的韵律信息,包括:
根据所述语音数据,获取所述语音数据中的至少一个静音段;
针对每个静音段,根据该静音段,确定所述语音数据中该静音段对应的韵律信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述语音数据,获取所述语音数据中的至少一个静音段,包括:
对所述待标注文本的文本数据进行音素分割,获得语音标注序列;
根据所述语音标注序列、所述语音数据以及预设声学模型,对所述语音数据进行音素分割,获取所述语音数据中的所述至少一个静音段;其中,所述预设声学模型用于表示不同音素对应的语音特征。
7.一种韵律标注装置,其特征在于,包括:
第一获取模块,用于获取待标注文本的语音数据;
韵律信息确定模块,用于根据所述语音数据,确定所述语音数据中的韵律信息,所述韵律信息用于指示所述语音数据中的停顿时长;
标注模块,用于根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注。
8.根据权利要求7所述的装置,其特征在于,还包括第二获取模块;
所述第二获取模块,用于获取所述待标注文本的文本数据中的韵律信息;
所述标注模块具体用于:
根据所述语音数据中的韵律信息和所述文本数据中的韵律信息,对所述待标注文本进行韵律符号标注。
9.根据权利要求8所述的装置,其特征在于,所述标注模块具体用于:
根据所述语音数据中的韵律信息,对所述待标注文本进行韵律符号标注;
根据所述文本数据中的韵律信息,对所述待标注文本中标注的韵律符号进行更新。
10.一种韵律标注设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1-6中任一项所述的韵律标注方法。
CN201810988973.9A 2018-08-28 2018-08-28 韵律标注方法、装置和设备 Active CN109326281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810988973.9A CN109326281B (zh) 2018-08-28 2018-08-28 韵律标注方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810988973.9A CN109326281B (zh) 2018-08-28 2018-08-28 韵律标注方法、装置和设备

Publications (2)

Publication Number Publication Date
CN109326281A true CN109326281A (zh) 2019-02-12
CN109326281B CN109326281B (zh) 2020-01-07

Family

ID=65263729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810988973.9A Active CN109326281B (zh) 2018-08-28 2018-08-28 韵律标注方法、装置和设备

Country Status (1)

Country Link
CN (1) CN109326281B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105785A (zh) * 2019-12-17 2020-05-05 广州多益网络股份有限公司 一种文本韵律边界识别的方法及装置
CN111161725A (zh) * 2019-12-17 2020-05-15 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111754978A (zh) * 2020-06-15 2020-10-09 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
CN115116427A (zh) * 2022-06-22 2022-09-27 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置
WO2023045433A1 (zh) * 2021-09-24 2023-03-30 华为云计算技术有限公司 一种韵律信息标注方法以及相关设备
CN116030789A (zh) * 2022-12-28 2023-04-28 南京硅基智能科技有限公司 一种生成语音合成训练数据的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267758A1 (en) * 2004-05-31 2005-12-01 International Business Machines Corporation Converting text-to-speech and adjusting corpus
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成***的韵律与声学联合建模的方法及装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267758A1 (en) * 2004-05-31 2005-12-01 International Business Machines Corporation Converting text-to-speech and adjusting corpus
CN104916284A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 用于语音合成***的韵律与声学联合建模的方法及装置
CN105244020A (zh) * 2015-09-24 2016-01-13 百度在线网络技术(北京)有限公司 韵律层级模型训练方法、语音合成方法及装置
CN105355193A (zh) * 2015-10-30 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105785A (zh) * 2019-12-17 2020-05-05 广州多益网络股份有限公司 一种文本韵律边界识别的方法及装置
CN111161725A (zh) * 2019-12-17 2020-05-15 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111161725B (zh) * 2019-12-17 2022-09-27 珠海格力电器股份有限公司 一种语音交互方法、装置、计算设备及存储介质
CN111754978A (zh) * 2020-06-15 2020-10-09 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
CN111754978B (zh) * 2020-06-15 2023-04-18 北京百度网讯科技有限公司 韵律层级标注方法、装置、设备和存储介质
WO2023045433A1 (zh) * 2021-09-24 2023-03-30 华为云计算技术有限公司 一种韵律信息标注方法以及相关设备
CN115116427A (zh) * 2022-06-22 2022-09-27 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置
CN116030789A (zh) * 2022-12-28 2023-04-28 南京硅基智能科技有限公司 一种生成语音合成训练数据的方法和装置
CN116030789B (zh) * 2022-12-28 2024-01-26 南京硅基智能科技有限公司 一种生成语音合成训练数据的方法和装置

Also Published As

Publication number Publication date
CN109326281B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN109326281A (zh) 韵律标注方法、装置和设备
Rao et al. Speech recognition using articulatory and excitation source features
KR900009170B1 (ko) 규칙합성형 음성합성시스템
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
EP2958105B1 (en) Method and apparatus for speech synthesis based on large corpus
CN103985391A (zh) 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法
EP2337006A1 (en) Speech processing and learning
Rebai et al. Text-to-speech synthesis system with Arabic diacritic recognition system
Ghai et al. Phone based acoustic modeling for automatic speech recognition for punjabi language
Klabbers Segmental and prosodic improvements to speech generation
Matoušek et al. Recording and annotation of speech corpus for Czech unit selection speech synthesis
Evdokimova et al. Automatic phonetic transcription for Russian: Speech variability modeling
Yu et al. Overview of SHRC-Ginkgo speech synthesis system for Blizzard Challenge 2013
Wu et al. Mandarin lexical tones: a corpus-based study of word length, syllable position and prosodic position on duration
CN107924677B (zh) 用于异常值识别以移除语音合成中的不良对准的***和方法
Matoušek et al. On comparison of phonetic representations for Czech neural speech synthesis
Hertz et al. Language-universal and language-specific components in the multi-language ETI-Eloquence text-to-speech system
Van Niekerk Tone realisation for speech synthesis of Yorubá
Ng Survey of data-driven approaches to Speech Synthesis
Al-Saiyd et al. Unit selection model in Arabic speech synthesis
Liu Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Ekpenyong et al. A Template-Based Approach to Intelligent Multilingual Corpora Transcription
Boháč et al. Automatic syllabification and syllable timing of automatically recognized speech–for czech
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant