CN111143528A - 多音字词汇的标注方法及装置 - Google Patents

多音字词汇的标注方法及装置 Download PDF

Info

Publication number
CN111143528A
CN111143528A CN201911325565.6A CN201911325565A CN111143528A CN 111143528 A CN111143528 A CN 111143528A CN 201911325565 A CN201911325565 A CN 201911325565A CN 111143528 A CN111143528 A CN 111143528A
Authority
CN
China
Prior art keywords
polyphone
vocabulary
voice
dialogue
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911325565.6A
Other languages
English (en)
Other versions
CN111143528B (zh
Inventor
范久慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911325565.6A priority Critical patent/CN111143528B/zh
Publication of CN111143528A publication Critical patent/CN111143528A/zh
Application granted granted Critical
Publication of CN111143528B publication Critical patent/CN111143528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明是关于多音字词汇的标注方法及装置。该方法包括:接收对话语音;根据所述对话语音查询目标多音字词汇库;根据所述目标多音字词汇库对所述对话语音进行拼音标注。通过本发明的技术方案,可对对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。

Description

多音字词汇的标注方法及装置
技术领域
本发明涉及语音处理技术领域,尤其涉及多音字词汇的标注方法及装置。
背景技术
目前,在对多音字词汇进行标注时,通常都是在庞大的多音字词汇库中找到多音字然后进行人为标注,即人为标注多音字的拼音或声调,而这种语音标注方式显然准确率低、效率差。
发明内容
本发明实施例提供了多音字词汇的标注方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种多音字词汇的标注方法,包括:
接收对话语音;
根据所述对话语音查询目标多音字词汇库;
根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
根据本发明实施例的第二方面,提供一种多音字词汇的标注装置,包括:
接收模块,用于接收对话语音;
查询模块,用于根据所述对话语音查询目标多音字词汇库;
标注模块,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
本发明的实施例提供的技术方案可以包括以下有益效果:
在接收到对话语音时,可查询该目标多音字词汇库,然后根据目标多音字词汇库对所述对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种多音字词汇的标注方法的流程图。
图2是根据一示例性实施例示出的另一种多音字词汇的标注方法的流程图。
图3是根据一示例性实施例示出的一种多音字词汇的标注装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种多音字词汇的标注方法,该方法可用于多音字词汇的标注程序、***或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S103:
在步骤S101中,接收对话语音;
在步骤S102中,根据所述对话语音查询目标多音字词汇库;
目标多音字词汇库中预存储有大量的多音字词汇,例如多音字词汇可以是朝阳(zhāo yáng)区、朝阳(cháo yáng)区,剥bāo、剥bō。
在步骤S103中,根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在接收到对话语音时,可查询该目标多音字词汇库,然后根据目标多音字词汇库对所述对话语音自动地进行拼音标注,从而提高多音字词汇的语音标注准确率和效率,避免人为标注多音字的拼音或声调。
在一个实施例中,所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库。
对该对话语音进行语音识别,可查询该对话意图,然后根据该对话意图自动查询相应的目标多音字词汇库,从而利用准确的目标多音字词汇库对对话语音进行自动标注,以提高语音标注效率,并进一步提高语音标注的准确率。
目标多音字词汇库可以是地区多音字词汇库、姓名多音字词汇库、景点多音字词汇库。
在一个实施例中,所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术(NLP,Natural Language Processing),识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在创建多个多音字词汇库之后,可利用对话意图从该多个多音字词汇库中查询出相匹配的词汇库作为目标多音字词汇库,从而提高词汇库的筛选准确率,进而利用目标多音字词汇库提高对该对话语音的标注准确率和效率。
在一个实施例中,所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
在确定目标多音字词汇库之后,可查询与该对话语音相关的多音字词汇,然后利用该多音字词汇对该对话语音自动地进行拼音标注,从而避免人为标注多音字词汇,进而有利于提高多音字词汇的语音标注准确率和效率。
下面将结合图2进一步详细说明本发明的技术方案:
把一个大的多音字词汇库,按照语音对话的意图建立多个小的多音字词汇库;
一次人机交互的对话中通过NLU(自然语言理解)技术识别出这次对话的意图,然后查询结果,把意图和结果发送给标音处理服务;
标音处理服务通过该次对话的意图找到相关的多音字词汇库;
在多音字词汇库中找对应的多音字词汇,用标音处理技术给多音字词汇标注拼音以及声调。
比如:根据“天气怎么样”的意图可以建立一个地区名称的多音字词汇库,
“朝阳”在词库中存储的是“朝阳(chá o y á ng)”,在标注的时候就会有目的的在地区名称的多音字词汇库中查找。最终的结果是:问:“今天天气怎么样?”答:“朝阳(ch á oy á ng)今天天气情况是晴”。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述多音字词汇的标注方法,本发明实施例还提供一种多音字词汇的标注装置,如图3所示,该装置包括:
接收模块301,用于接收对话语音;
查询模块302,用于根据所述对话语音查询目标多音字词汇库;
标注模块303,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注。
在一个实施例中,所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库。
在一个实施例中,所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
在一个实施例中,所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种多音字词汇的标注方法,其特征在于,包括:
接收对话语音;
根据所述对话语音查询目标多音字词汇库;
根据所述目标多音字词汇库对所述对话语音进行拼音标注。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对话语音查询目标多音字词汇库,包括:
根据所述对话语音查询对话意图;
根据所述对话意图查询所述目标多音字词汇库。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于多个预设对话的意图,创建多个多音字词汇库;
所述根据所述对话语音查询对话意图,包括:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述根据所述对话意图查询所述目标多音字词汇库,包括:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述根据所述目标多音字词汇库对所述对话语音进行拼音标注,包括:
从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
利用所述多音字词汇,对所述对话语音进行拼音标注。
5.一种多音字词汇的标注装置,其特征在于,包括:
接收模块,用于接收对话语音;
查询模块,用于根据所述对话语音查询目标多音字词汇库;
标注模块,用于根据所述目标多音字词汇库对所述对话语音进行拼音标注。
6.根据权利要求5所述的装置,其特征在于,所述查询模块包括:
第一查询子模块,用于根据所述对话语音查询对话意图;
第二查询子模块,用于根据所述对话意图查询所述目标多音字词汇库。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
创建模块,用于基于多个预设对话的意图,创建多个多音字词汇库;
所述第一查询子模块具体用于:
根据自然语言理解技术,识别所述对话语音的所述对话意图;
所述第二查询子模块具体用于:
从所述多个多音字词汇库中查询出与所述对话意图相匹配的词汇库作为所述目标多音字词汇库。
8.根据权利要求5至7中任一项所述的装置,其特征在于,
所述标注模块包括:
第三查询子模块,用于从所述目标多音字词汇库中查询与所述对话语音对应的多音字词汇;
标注子模块,用于利用所述多音字词汇,对所述对话语音进行拼音标注。
CN201911325565.6A 2019-12-20 2019-12-20 多音字词汇的标注方法及装置 Active CN111143528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911325565.6A CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911325565.6A CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Publications (2)

Publication Number Publication Date
CN111143528A true CN111143528A (zh) 2020-05-12
CN111143528B CN111143528B (zh) 2023-05-26

Family

ID=70519090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325565.6A Active CN111143528B (zh) 2019-12-20 2019-12-20 多音字词汇的标注方法及装置

Country Status (1)

Country Link
CN (1) CN111143528B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN109918619A (zh) * 2019-01-07 2019-06-21 平安科技(深圳)有限公司 一种基于基础字典标注的发音标注方法和装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110570847A (zh) * 2019-07-15 2019-12-13 云知声智能科技股份有限公司 一种多人场景的人机交互***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN109918619A (zh) * 2019-01-07 2019-06-21 平安科技(深圳)有限公司 一种基于基础字典标注的发音标注方法和装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110570847A (zh) * 2019-07-15 2019-12-13 云知声智能科技股份有限公司 一种多人场景的人机交互***及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONGCHUAN HUANG 等: "An approach on Chinese microblog entity linking combining *** encyclopaedia and word2vec", 《PROCEDIA COMPUTER SCIENCE》 *
严勤等, 北京:国防工业出版社 *
刘景勇,柴佩琪,姚秋明: "汉语TTS***中多音字问题的一种有效解决方案", 微型电脑应用 *
张力等: "中文TTS***中多音字的一种解决方案", 计算机应用与软件 *
李振宇: "面向教育机器人的语音交互***的设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN111143528B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
US7957969B2 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
USRE42868E1 (en) Voice-operated services
US7974842B2 (en) Algorithm for n-best ASR result processing to improve accuracy
US20040210438A1 (en) Multilingual speech recognition
US20040153322A1 (en) Menu-based, speech actuated system with speak-ahead capability
US20020184035A1 (en) Voice spelling in an audio-only interface
US9495955B1 (en) Acoustic model training
CN1783213A (zh) 用于自动语音识别的方法和装置
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN112925945A (zh) 会议纪要生成方法、装置、设备及存储介质
CN108735200A (zh) 一种说话人自动标注方法
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
US7406408B1 (en) Method of recognizing phones in speech of any language
US20210104235A1 (en) Arbitration of Natural Language Understanding Applications
US7689414B2 (en) Speech recognition device and method
KR20060014369A (ko) 화자 종속 음성 인식 방법 및 음성 인식 시스템
CN113593522B (zh) 一种语音数据标注方法和装置
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN111143528A (zh) 多音字词汇的标注方法及装置
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
Reichl et al. Language modeling for content extraction in human-computer dialogues
JP2004101727A (ja) 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant