CN101223571B - 音质变化部位确定装置及音质变化部位确定方法 - Google Patents

音质变化部位确定装置及音质变化部位确定方法 Download PDF

Info

Publication number
CN101223571B
CN101223571B CN2006800263392A CN200680026339A CN101223571B CN 101223571 B CN101223571 B CN 101223571B CN 2006800263392 A CN2006800263392 A CN 2006800263392A CN 200680026339 A CN200680026339 A CN 200680026339A CN 101223571 B CN101223571 B CN 101223571B
Authority
CN
China
Prior art keywords
tonequality
text
changes
mentioned
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800263392A
Other languages
English (en)
Other versions
CN101223571A (zh
Inventor
山上胜义
加藤弓子
足立信夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101223571A publication Critical patent/CN101223571A/zh
Application granted granted Critical
Publication of CN101223571B publication Critical patent/CN101223571B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

提供能够预测音质变化的发生容易度或者确定是否发生音质变化的文本编辑装置,根据对应于文本的语言解析信息,提示在朗读时音质有可能发生变化的上述文本中的部位。该文本编辑装置具备:音质变化推定部(103),基于作为包含对应于文本的音韵列的语言解析结果的符号列的语言解析信息,按至少包含1个音韵列的输入符号列的规定单位,推定用户朗读上述文本时的音质变化的发生容易度;音质变化部分判断部(105),基于上述语言解析信息和上述音质变化推定部(103)的推定结果,确定容易发生音质变化的文本中的部位;显示部(108),将由上述音质变化部分判断部(105)确定的容易发生音质变化的文本中的部位提示给用户。

Description

音质变化部位确定装置及音质变化部位确定方法 
技术领域
本发明涉及确定朗读用文本中有可能引起音质变化的部位的音质变化部位确定装置等。 
背景技术
作为以往提出的文本编辑装置或文本编辑方法,已知有对包含在文本中的表现(内容)评价朗读者能否接受的印象,将不符合写者希望的印象的部分改写为与写者希望的印象一致的表现的技术(参照例如专利文献1)。 
此外,作为具有文本编辑功能的文本朗读装置或者文本朗读方法,有着眼于朗读对象的文本的诵读的发音列的组合,将作为难以听清的发音组合的文本中的表现部位改写为容易听取的表现的技术(参照例如特许文献2)。 
同样,作为进行朗读声音的评价方法,有通过“纷乱度”的观点评价声音的发音组合的方法,即评价连续被朗读的两个字符串的假名诵读字符串的类似度,在满足某种条件的情况下如果连续朗读两个字符串,则发音类似,所以认为是纷乱的技术(参照例如专利文献3)。 
但是,基于对朗读文本时的声音评价的结果,以编辑文本的观点看,还存在与“听清容易度”及“纷乱度”不同的如下的课题。 
在人朗读文本时,朗读者无意识的发声器官紧张或松弛的结果,有时使朗读声音的音质局部变化。发声器官的紧张或松弛带来的声音的音质变化,分别作为朗读者的声音的“紧张”及“松弛”被听者感觉。另一方面,声音中的“紧张”及“松弛”等音质变化是在伴随着 感情及表情的声音中特征性地观测到的现象,已知它们的局部的音质变化对声音的感情及表情赋予了特征,形成了声音的印象(参照例如非专利文献1)。因而,在朗读者朗读某个文本时,听者有时会在朗读的文本的表现形式(文体、措词)或内容之外,从其朗读声音中出现的“紧张”及“松弛”等的局部的音质变化本身感受对声音的印象、感情、表情等。在这些听者感受到的印象是朗读者不希望的情况下、或者与想要使听者感受的印象不同的情况下,成为问题。例如,在朗读演讲用的原稿文本的情况下,或者在朗读者朗读原稿的中途,尽管朗读者冷静且沉着地朗读,但与朗读者的意愿无关地发生声音翻转的音质变化,则听者有可能抱有朗读者心理上处于紧张状态、失去冷静的印象。 
专利文献1:特开2000-250907号公报(第11页,图1) 
专利文献2:特开2000-172289号公报(第9页,图1) 
特许文献3:特许第3587976号公报(第10页,图5) 
非特许文献:粕谷英樹、楊長盛,“音源から見た声質”,日本音響学会誌51卷11号(1995),pp869-875 
但是,在以往提出的装置或方法中,具有不能预测在朗读文本时的声音的哪个部分容易发生上述音质变化、或者不能确定是否发生上述音质变化的问题。因而,具有不能预测上述听者对朗读的声音可能感受的起因于音质的局部变化的印象的问题。再者,具有不能指出容易发生能够带来朗读者不想要的印象的上述音质的局部变化的文本中的部位、并且提示表示同样内容的其他表现、或者改写为其他表现的问题。 
发明内容
本发明是为了解决上述问题而做出的,目的是提供一种能够预测音质变化的发生容易度、或者能够确定是否发生音质变化的音质变化部位确定装置等。 
此外,其目的还在于,提供一种能够预测听者对于朗读声音可能感受的起因于音质的局部变化的印象的音质变化部位确定装置等。 
再者,其目的还在于,提供一种能够指出容易发生带来朗读者不想要的印象的上述音质的局部变化的文本中的部位,并且提示表示同样内容的其他表现、或者能够改写为其他表现的音质变化部位确定装置等。 
本发明的一技术方案的音质变化部位确定装置,根据与文本对应的语言解析信息,确定在朗读时音质有可能变化的上述文本中的部位,其具备:音质变化推定单元,使用用于判断音质变化的发生容易度的推定式,根据作为包含与文本对应的音韵列的语言解析结果的符号列的语言解析信息的音韵信息和重音句中的位置,按至少包含1个音韵列的输入符号列的各规定单位,推定朗读上述文本时的音质变化的发生容易度;音质变化部位确定单元,根据上述语言解析信息和上述音质变化推定单元的推定结果,确定容易发生音质变化的文本中的部位。根据该结构,能够确定文本中的容易发生音质变化的部位。因而,能够提供可预测音质变化的发生容易度或者确定是否发生音质变化的音质变化部位确定装置。 
优选的是,上述推定式是通过对用户的声音进行分析及统计性学习而得到的音质变化的推定模型。 
优选的是,上述音质变化推定单元利用通过对同一用户的多个的至少3种以上的讲话状态,分别进行对多个声音的分析及统计性学习而得到的音质变化的、按音质变化的种类设置的多个推定模型,对于各音质变化的种类,按上述语言解析信息的上述规定单位推定基于上述各讲话状态的音质变化的发生容易度。 
根据本结构,通过进行在例如“紧张”、“嘶哑”、“无感情”的3种讲话状态下讲话的声音的分析等,得到“紧张”及“嘶哑”的推定模型,根据两个推定模型,能够确定那个种类的音质变化会在什么部位发生。此外,还能够向不发生音质变化的部位的替代表现进行替换。 
更优选的是,上述音质变化推定单元利用通过对多个用户的多个声音进行分析及统计性学习而分别得到的音质变化的推定模型,选择对应于用户的推定模型,按上述语言解析信息的上述规定单位推定音质变化的发生容易度。 
这样,通过每个使用者具有音质变化的推定模型,能够更正确地确定容易发生音质变化的部位。 
更优选的是,上述音质变化部位确定装置还具备:替代表现存储单元,存储语言表现的替代表现;音质变化部位替换单元,从上述替代表现存储单元中检索由上述音质变化部位确定单元确定的容易发生音质变化的文本中的部位,用检索到的替代表现替换该部位。 
根据该结构,能够确定文本中的容易发生音质变化的部位、将该部位变换为替代表现。因而,通过预先准备不易发生音质变化的替代表现,用户在朗读被变换为替代表现的文本时不易发生音质变化。 
更优选的是,上述音质变化部位确定装置还具备声音合成单元,生成朗读在上述音质变化部位替换单元中被替换为替代表现的文本的声音。 
根据该结构,在声音合成单元合成的声音的音质根据音韵而具有发生了“紧张”或“嘶哑”等的音质变化的音质平衡上的偏差(失真)的情况下,能够生成一边尽量避免该偏差带来的音质的不稳定、一边朗读的声音。 
优选的是,上述音质变化部位确定装置还具备音质变化部位提示单元,将由上述音质变化部位确定单元确定的容易发生音质变化的文本中的部位提示给用户。 
根据该结构,由于提示了容易发生音质变化的部分,所以用户能够基于被提示的信息来预测听者对于朗读声音可能感受到的由音质引起的局部变化的印象。 
更优选的是,上述音质变化部位确定装置还具备基于表示用户的文本的朗读速度的语速信息、计测上述文本的规定位置的从上述文本 的开头开始的朗读的经过时间的经过时间计算单元;上述音质变化推定单元还通过考虑上述经过时间,按照上述规定的单位推定音质变化的发生容易度。 
根据该结构,在文本的朗读中,能够考虑到朗读的时间经过对朗读者的发声器官带来的影响、即喉咙的疲劳等来评价音质的发生容易读、进行发生部位的预测。因此,能够更正确地进行容易发生音质变化的部位的确定。 
更优选的是,上述音质变化部位确定装置还具备判断在上述音质变化部位确定单元中确定的容易发生音质变化的上述文本的部位相对于上述文本的全部或一部分的比例的音质变化比例判断单元。 
根据该结构,用户能够知道相对于文本的全部或一部分、有可能以何种程度的比例发生音质变化。因此,用户能够预测文本朗读时的、听者对于朗读声音可能感受到的起因于音质的部分变化的印象。 
更优选的是,上述音质变化部位确定装置还具备:声音识别单元,识别用户朗读上述文本的声音;声音分析单元,基于上述声音识别单元的声音识别结果,按照包括使用者的声音的各音韵单位的规定的单位分析音质变化的程度;文本评价单元,基于由上述音质变化部位确定单元确定的容易发生音质变化的上述文本中的部位与上述声音分析单元中的分析结果,进行容易发生音质变化的上述文本中的部位与在用户的声音中发生了音质变化的部位的比较。 
根据该结构,能够将根据朗读的对象的文本预测的音质变化的部位和实际上用户朗读文本的声音中发生了音质变化的部位比较。因此,使用者通过反复进行重复朗读的练习,能够确认使得在预测了音质变化的部位处不发生音质变化时的熟悉的程度。或者,使用者通过反复进行重复朗读的练习,关于预测到可能给听着带来使用者想要的印象的音质变化的发生部位、能够确认使得在与使用者的实际的朗读声音中的相同的部位发生音质变化时的熟练的程度。 
更优选的是,上述音质变化推定单元参照按照音韵通过数值表示音质变化的发生容易度的程度的分音韵音质变化表,按照上述语言解析信息的上述规定的单位,基于按照包含在该规定的单位的音韵分配的树脂来推定音质变化的发生容易度。 
根据该结构,即使不使用推定模型,使用预先准备的分音韵音质变化表,也能够提供能够进行音质变化的发生容易度的预测或是否发生音质变化的确定的音质变化部位确定装置。 
另外,本发明不仅可以作为具备这样的特征性单元的音质变化部分提示装置来实现,也可以作为以包含在音质变化部分提示装置中的特征性单元为步骤的音质变化部分提示方法来实现,或者作为使计算机作为包含在音质变化部分提示装置中的特征性单元发挥功能的程序来实现。并且,这样的程序当然可以经由CD-ROM(CompactDisc-Read Only Memory)等的记录媒体或因特网等的通信网络流通。 
根据本发明,解决了以往不能解决的、可能在文本的朗读声音中发生的部分的音质变化的部位及种类的预测及确定的课题,作为用户的朗读者能够掌握可能在文本的朗读声音中发生的音质变化的部位及种类,预测在朗读时预想会给听者带来的朗读声音的印象,还具有能够在实际朗读时意识到应留意的部位而朗读的效果。 
此外,还同时具有对于有关可能发生不希望带来的印象的音质变化的文本中的部位的语言表现、能够进行表示同样的内容的替代表现的提示或向表示同样的内容的替代表现的自动变换的效果。 
进而,作为用户的朗读者能够进行自己的朗读声音中的音质变化部位的确认、以及该音质变化部位与根据文本预测的音质变化的部位的比较,所以在朗读者想要朗读以使得不发生不希望的音质变化的情况下,或者在想要朗读以使得在适当的部位伴随着希望的音质变化的情况下,具有通过反复进行朗读的联系能够容易理解地掌握音质变化的运用熟练度的效果。 
此外,由于能够根据输入文本确定容易发生音质变化的部位、将有关该部位的语言表现替换为替代表现来朗读,所以特别在音质变化部位确定装置生成的声音的音质根据音韵而具有发生了“紧张”或“嘶哑”等音质变化的音质平衡上的偏差(失真)的情况下,具有能够一边尽量避免该偏差带来的音质的不稳定一边进行朗读的效果。此外,音韵水平下的音质的变化由于损害音韵性,所以有清晰度降低的倾向。由此,在想要使朗读声音的清晰度优先的情况下,具有通过避免形成包括容易发生音质变化的音韵的语言表现、能够缓和音质变化带来的清晰度降低的问题的效果。 
附图说明
图1是本发明的第一实施方式的文本编辑装置的功能框图。 
图2是表示构建了本发明的第一实施方式的文本编辑装置的计算机***的图。 
图3A是对说话者1表示以伴随着“较强的愤怒”的感情表现的声音中的“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图3B是对说话者2表示以伴随着“较强的愤怒”的感情表现的声音中的“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图3C是对说话者1表示以伴随着“较弱的愤怒”的感情表现的声音中的“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图3D是对说话者2表示以伴随着“较弱的愤怒”的感情表现的声音中的“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图4是表示在实际的声音中观察到的音质变化的发生位置与推定 的音质变化的发生位置的时间位置的比较的图。 
图5是表示本发明的第一实施方式的文本编辑装置的工作的流程图。 
图6是用来对制作推定式及判断阈值的方法进行说明的流程图。 
图7是在横轴上表示“紧张容易度”、在纵轴上表示“声音数据中的音拍数”的曲线图。 
图8是表示本发明的第一实施方式的文本编辑装置的替代表现数据库的例子的图。 
图9是表示本发明的第一实施方式的文本编辑装置的画面显示例的图。 
图10A是对说话者1表示以伴随着“快活”的感情表现的声音中的“嘶哑”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图10B是对说话者2表示以伴随着“快活”的感情表现的声音中的“嘶哑”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。 
图11是本发明的第一实施方式的文本编辑装置的功能框图。 
图12是本发明的第一实施方式的文本编辑装置的替代表现排序部的内部功能框图。 
图13是表示本发明的第一实施方式的文本编辑装置的替代表现排序部的内部动作的流程图。 
图14是表示本发明的第一实施方式的文本编辑装置的工作的流程图。 
图15是本发明的第二实施方式的文本编辑装置的功能框图。 
图16是表示本发明的第二实施方式的文本编辑装置的工作的流程图。 
图17是表示本发明的第二实施方式的文本编辑装置的画面显示 例的图。 
图18是本发明的第三实施方式的文本编辑装置的功能框图。 
图19是表示本发明的第三实施方式的文本编辑装置的工作的流程图。 
图20是本发明的第四实施方式的文本编辑装置的功能框图。 
图21是表示本发明的第四实施方式的文本编辑装置的工作的流程图。 
图22是表示本发明的第四实施方式的文本编辑装置的画面显示例的图。 
图23是本发明的第五实施方式的文本评价装置的功能框图。 
图24是表示构建了本发明的第五实施方式的文本评价装置的计算机***的图。 
图25是表示本发明的第五实施方式的文本评价装置的工作的流程图。 
图26是表示本发明的第五实施方式的文本评价装置的画面显示例的图。 
图27是仅表示本第六实施方式的文本编辑装置中的、与音质变化推定方法的处理相关的主要结构部分的功能框图。 
图28是表示按音韵表示音质变化信息表的一例的图。 
图29是表示本发明的第六实施方式的音质变化推定方法的处理工作的流程图。 
图30是本发明的第七实施方式的文本朗读装置的功能框图。 
图31是表示构建了本发明的第七实施方式的文本评价装置的计算机***的图。 
图32是表示本发明的第七实施方式的文本朗读装置的工作的流程图。 
图33是表示用来说明本发明的第七实施方式的文本朗读装置的 工作的中间数据例的图。 
图34是表示计算机的结构的一例的图。 
标记说明 
101、1010文本输入部 
102、1020语言解析部 
103、103A、1030音质变化推定部 
104、A104A、B104B音质变化推定模型 
105、105A、105B、1050音质变化部分判断部 
106、106A替代表现检索部 
107替代表现数据库 
108、108A、108B显示部 
109替代表现排序部 
110使用者确定信息输入部 
111开关 
112语速输入部 
113经过时间测量部 
114、114A综合判断部 
115声音输入部 
116声音识别部 
117声音分析部 
118表现变换部 
119声音合成用语言解析部 
120声音合成部 
121声音输出部 
1040按音韵表示音质变化信息表 
1091排序部 
具体实施方式
以下,参照附图对本发明的实施方式进行说明。 
(第一实施方式) 
在本发明的第一实施方式中,说明基于文本推定音质的变化,将音质变化的部分的替代表现的候补提示给使用者的文本编辑装置。 
图1是本发明的第一实施方式的文本编辑装置的功能框图。 
在图1中,文本编辑装置是编辑输入的文本以使得在朗读者朗读该文本时不会给其他人带来不想要的印象的装置,具备文本输入部101、语言解析部102、音质变化推定部103、音质变化推定模型104、音质变化部分判断部105、替代表现检索部106、替代表现数据库107、和显示部108。 
文本输入部101是用来输入处理对象的文本的处理部。语言解析部102是对从文本输入部101输入的文本进行语言解析处理,输出包括作为诵读信息的音韵列、重音句分隔信息、重音位置信息、词类信息及构文信息的语言解析结果的处理部。音质变化推定部103是利用预先通过统计性学习而得到的音质变化推定模型104,按上述语言解析结果的重音句单位来推定音质变化的发生容易度的处理部。音质变化推定模型104是由以包含在语言解析结果中的各种信息的一部分为输入变量、对出现在语言处理结果中的各音韵的部位以音质变化的容易发生度的推定值为目的变量的推定式、和与该推定式建立了对应的阈值的组合构成的。 
音质变化部分判断部105是基于音质变化推定部103推定的音质变化的推定值和建立了对应的阈值,按重音句单位判断是否是有可能发生音质变化的部位的处理部。替代表现检索部106从保存在替代表现数据库107中的替代表现集合中检索与由音质变化部分判断部105判断为有可能发生音质变化的文本中的部位有关的语言表现的替代表现,并输出找到的替代表现的集合的处理部。显示部108是进行输 入的整个文本的显示、以及音质变化部分判断部105判断为有可能发生音质变化的文本中部位的强调显示、以及替代表现检索部106输出的替代表现的集合的显示的显示装置。 
这样的文本编辑装置例如构建在图2所示那样的计算机***上。图2是表示构建了本发明的第一实施方式的文本编辑装置的计算机***的例子的图。 
该计算机***是包括主体部201、键盘202、显示器203、和输入装置(鼠标)204的***。图1的音质变化推定模型104、以及替代表现数据库107被保存在设置于主体部201中的CD-ROM207内、主体部201内置的硬盘(存储器)206内、或者由线路208连接的其他***固定硬盘205内。另外,图1的文本编辑装置的显示部108对应于图2的***中的显示器203,图1的文本输入部101对应于图2的***中的显示器203、键盘202、以及输入装置204。 
在说明第一实施方式的结构的文本编辑装置的动作之前,说明音质变化推定部103基于音质变化推定模型104推定音质变化的发生容易度的背景。到目前为止,关于伴随着感情及表情的声音的表现、特别是音质的变化,着眼于整个讲话中的一样的变化,已经进行了实现它的技术开发。但是,另一方面,在伴随着感情及表情的声音中,即使在固定的讲话风格中,也混杂有各种音质的声音,已知有附加声音的感情及表情的特征来形成声音的印象的技术(参照例如非专利文献1)。在本申请中,将说话者的状况、意图等在语言意义之外或者在语言意义基础上另外传递给听取者的声音表现称作“讲话状况”。讲话状况由包括发声器官的紧张或松弛的解剖学、生理状况、感情或感动的心理状态、表情那样的反映心理状态的现象、讲话风格或讲话方式这样的说话者的态度、以及行动方式这样的的概念的信息决定。作为决定讲话状况的信息,例如可以举出“怒”、“喜”、“悲”这样的感情种类等。 
在本发明申请之前,对基于相同文本讲话的50句进行了不伴随着表情的声音与伴随着表情的声音的调查。图3A是对说话者1表示以伴随着“较强的愤怒”的感情表现的声音中的“紧张的”音质变化(或者包含在“紧张的”音质变化中的“刺耳的声音(harsh voice)”的音质变化)发声的音拍的子音的分种类的频率分布的曲线图。图3B是对说话者2表示以伴随着“较强的愤怒”的感情表现的声音中的“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的子音的分种类的频率分布的曲线图。图3C及图3D分别是对与图3A及图3B相同的说话者表示伴随着“较弱的愤怒”的感情表现、以声音中的“紧张的”音质变化、或者“刺耳的声音(harshvoice)”的音质变化发声的音拍的子音的按种类的频率分布的曲线图。这些音质变化的发生频率根据子音的种类而有偏差,例如在“t”、“k”、“d”、“m”、“n”或无子音的情况下发生频率较高,在“p”、“ch”、“ts”、“f”等中发生频率较低。如果比较关于图3A及图3B所示的两名说话者的曲线,则可知上述子音的种类带来的音质变化的发生频率的偏差倾向是相同的。在说话者中有共通的偏差,表示对于人想要朗读的文本的诵读的音韵列、能够根据音韵的种类等的信息推定音质变化能够发声的部位的可能性。 
图4是表示根据与图3A~图3D相同的数据并通过利用作为统计性学习方法之一的数量化II类制作的推定式,对于例1“じゆつぷんほどかかります”和例2“あたたまりました”推定以“紧张的”音质变化、或者“刺耳的声音(harsh voice)”的音质变化发声的音拍的结果的图。对于在自然讲话声音中伴随着音质变化而发声的音拍、以及通过推定式预测了音质变化的发声的各音拍,分别在假名的下方划上线段表示。图4是对于学习用数据的各音拍,将包含在音拍中的子音的种类及母音的种类、或音韵类型这样的表示音韵种类的信息和重音句内的音拍位置的信息作为独立变量,将表示是否发生“紧张的” 音质、或者“刺耳的声音(harsh voice)”的音质的二进制值作为从属变量,通过数量化II类制作推定式、决定阈值以使对于学习用数据的音质变化的发生部位的正解率为75%的情况下的推定结果,表示音质变化的能够根据音韵的种类及有关重音的信息高精度地推定。 
接着,按照图5说明如上述那样构成的文本编辑装置的动作。图5是表示本发明的第一实施方式的文本编辑装置的动作的流程图。 
首先,语言解析部102对从文本输入部101获取的输入文本进行形态要素解析、构文解析、诵读生成、重音句处理的一系列的语言解析处理,输出包含作为诵读信息的音韵列、重音句分隔信息、重音位置信息、词类信息、构文信息的语言解析结果(S101)。 
接着,音质变化推定部103以重音句单位,作为音质变化推定模型104所具有的各音韵的音质变化的推定式的说明变量而采用上述语言解析结果,对于重音句内的各音韵求出音质变化的推定值,将重音句内的音韵的推定值中的具有最大的值的推定值作为该重音句的音质变化的发生容易度的推定值输出(S102)。在本实施方式中,假设对“紧张”的音质变化进行判断。推定式是对想要判断音质变化的音韵、将是否发生“紧张”的音质变化的二进制值作为从属变量,将该音韵的子音、母音、重音句内的音拍位置作为独立变量,通过数量化II类制作的。是否发生“紧张”的音质变化的判断阈值,假设是对上述推定值的值设定的,使得对于学习用数据的特殊声音的发生位置的正解率为约75%。 
图6是用来对制作推定式及判断阈值的方法进行说明的流程图。这里,对选择“紧张”作为音质变化的情况进行说明。 
首先,对于学习用的声音数据中的各音拍,设定子音的种类、母音的种类、和重音句中的正顺序位置,作为推定式的独立变量(S2)。此外,对于上述各音拍,设定用二进制值表示是否发生了“紧张”的音质变化的变量作为推定式的从属变量(S4)。接着,作为各独立变 量的类型权重,按照数量化II类,计算子音的每个种类的权重、母音的每个种类的权重以及重音句中的每个正顺序位置的权重(S6)。此外,通过将各独立变量的类型权重填充到声音数据中的各数据的属性条件,计算作为“紧张”的音质变化的发生的容易度的“紧张容易度”(S8)。 
图7是在横轴上表示“紧张容易度”、在纵轴上表示“声音数据中的音拍数”的曲线图,“紧张容易度”用“-5”到“5”的数值表示,数值越小,推定为在发声时容易紧张。实施了阴影的棒图表表示实际发声时发生了“紧张”的音质变化的音拍的频率,没有实施阴影的棒图表表示实际发声时没有发生“紧张”的音质变化的音拍的频率。 
在该图表中,将实际发生了“紧张”的音质变化的音拍组与没有发生“紧张”的音质变化的音拍组的“紧张容易度”的值进行比较,根据“紧张容易度”设定用于判断发生了“紧张”的音质变化的阈值,以使发生了“紧张”的音质变化的音拍组与没有发生“紧张”的音质变化的音拍组的两组的正解率都超过75%(S10)。 
以上,求出与在“怒”中特征性地出现的“紧张”的音色相对应的推定式和判断阈值。 
另外,关于与“喜”或“悲”的其他感情相对应的特殊声音,也按照各特殊声音同样地设定推定式与阈值。 
接着,音质变化部分判断部105将音质变化推定部103输出的各重音句单位的音质变化的发生容易度的推定值、和与音质变化推定部103使用的推定式相对应的音质变化推定模型104的阈值进行比较,对于超过了阈值的重音句赋予容易发生音质变化的标志(S103)。 
接着,音质变化部分判断部105将由覆盖了在步骤S103被赋予容易发生音质变化的标志的重音句的最短范围的形态要素列构成的文本中的字符串部分,确定为音质变化可能性较高的文本中的表现部位(S104)。 
接着,替代表现检索部106对在步骤104确定的表现部位,从替代表现数据库107中检索能够作为替代表现的替代表现集合(S105)。 
图8是表示保存在替代表现数据库中的替代表现的集合的例子的图。图8所示的集合301~303分别是相互作为替代表现而具有同样含义的语言表现字符串的集合。替代表现检索部106将在步骤104中确定的表现部位的替代表现字符串作为检索关键字,与包含在各替代表现的集合中的替代表现的字符串进行字符串对照,输出包含有找到的字符串的替代表现集合。 
接着,显示部108将在步骤S104中确定的文本中的容易发生音质变化的部位进行强调显示而提示给使用者,同时,将在步骤S105中检索到的替代表现的集合提示给使用者(S106)。 
图9是表示显示部108在步骤S106中显示在图2的显示器203上的画面内容的例子的图。显示区域401是显示输入文本、以及在步骤S104由显示部108作为容易发生音质变化的部位的提示而进行强调显示的部位4011及4012的区域。显示区域402是显示在步骤S105中由替代表现检索部106检索到的容易发生音质变化的文本中部位的替代表现的集合的区域。如果使用者将鼠标指针403移到在区域401内强调显示的部位4011或4012,并点击鼠标204的按钮,则在替代表现的集合的显示区域402显示点击的强调部位的语言表现的替代表现的集合。在图9的例子中,表示了“掛かります”的文本中的部位4011被强调显示,当点击部位4011时在替代表现的集合的显示区域402中显示“掛かります、必要です、要します”的替代表现的集合的状况。该替代表现的集合是,将“掛かります”这样的文本中的部位的语言表现字符串作为关键字、由替代表现检索部106检索了替代表现集合的结果,图8的替代表现数据库的替代表现的集合302被对照、并作为替代表现结果向显示部108输出的结果。 
根据这样的结构,对于输入文本的语言解析结果的重音句单位, 音质变化推定部103利用音质变化推定模型104的推定式求出音质变化的发生容易度的推定值,音质变化部分判断部105将具有超过一定阈值的推定值的重音句单位的文本中部位确定为容易发生音质变化的部位,所以能够提供具有仅根据想要朗读的文本就能够预测或确定文本的朗读声音中可能发生音质变化的部位、以使用者能够确认的形式提示的特别效果的文本编辑装置。 
进而,根据这样的结构,音质变化部分判断部105判断为具有超过一定阈值的推定值的替代表现检索部106基于可能发生音质变化的部位的判断结果,检索具有与有关该相应部位的文本中的表现同样内容的替代表现,所以能够提供具有能够提示在文本的朗读声音中容易发生音质变化的部位的替代表现的特别效果的文本编辑装置。 
另外,在本实施方式中,音质变化推定模型104构成为判别“紧张”的音质变化的模型,但对于“嘶哑”、“假声”等其他种类的音质变化也同样能够构成音质变化推定模型104。 
例如,图10A是对说话者1按以伴随着“快活”的感情表现的声音中的“嘶哑”的音质变化发声的音拍的子音种类进行表示的频率分布的曲线图,图10B是对说话者2按以伴随着“快活”的感情表现的声音中的“嘶哑”的音质变化发声的音拍的子音种类进行表示的频率分布的曲线图。在这样的“嘶哑”的音质变化中,如果比较两名说话者的图表,则可知音质变化的发生频率的偏差的趋向是相同的。即,例如在“t”、“k”、“h”等的情况下,“嘶哑”的音质变化的发生频率较高,在“ts”、“f”、“z”、“v”、“n”、“w”等的情况下,“嘶哑”的音质变化的发生频率较低。因此,对于“嘶哑”的音质变化,也能够构成用来判别该音质变化的音质变化推定模型。 
另外,在本实施方式中,音质变化推定部103以重音句单位进行音质变化的发生容易度的推定,但它们也可以按照音拍单位、形态要素单位、文节单位、句单位等的对文本进行分割的其他单位进行推定。 
另外,在本实施方式中,音质变化推定模型104的推定式是将表示是否发生音质变化的二进制值作为从属变量,将该音韵的子音、母音、重音句内的音拍位置作为独立变量,并且通过数量化II类制作的,音质变化推定模型104的判断阈值是相对于上述推定式的值而设定的,以便对于学习用数据的音质变化的发生位置的正解率成为约75%,但音质变化推定模型104也可以是基于其他统计性学习模型的推定式及判别阈值。例如,利用Support Vector Machine的二进制值判别学习模型,也能够进行具有与本实施方式同等效果的音质变化的判别。Support Vector Machine是公知技术。因此,其详细的说明在这里不进行重复。 
另外,在本实施方式中,显示部108作为容易发生音质变化的部位的提示具有文本中的对应部位的强调显示,但它也可以是其他能够视觉上判别的手段。例如,也可以进行使对应部位的文字字体的颜色或尺寸与其他部位不同的显示。 
另外,在本实施方式中,替代表现检索部106检索到的替代表现的集合,在显示部108以保存在替代表现数据库107中的顺序、或者以随机的顺序提示,但也可以将替代表现检索部106的输出按照某种基准重新排列,由显示部108进行显示。 
图11是进行上述重新排列而构成的文本编辑装置的功能框图。如图11所示,文本编辑装置是在图1所示的文本编辑装置的结构中在替代表现检索部106与显示部108之间***了将替代表现检索部106的输出进行排序的替代表现排序部109的结构。在图11中,关于替代表现排序部109以外的处理部,是具有与利用图1说明的文本编辑装置的处理部同样的功能及动作的结构。因此赋予相同的标记。图12是表示替代表现排序部109的内部结构的功能框图。替代表现排序部109包括语言解析部102、音质变化推定部103、音质变化推定模型104和排序部1091。在图12中,对于功能及动作具有与已经 说明的处理部相同的功能及动作的处理部,也赋予相同的标记及名称。 
在图12中,排序部1091通过音质变化推定部103输出的推定值大小的比较,按照推定值较大的顺序将包含在替代表现的集合中的替代表现排序。 
图13是表示替代表现排序部109的工作的流程图。语言解析部102将替代表现集合的各替代表现的字符串语言解析(S201)。接着,音质变化推定部103利用音质变化推定模型104的推定式,按照在步骤S201中求出的各替代表现的各个语言解析结果,计算音质变化的发生容易度的推定值(S202)。接着,排序部1091通过在步骤S202中按照替代表现求出的推定值的大小比较进行替代表现的排序(S203)。 
图14是表示图11所示的文本编辑装置的整体工作的流程图。图14所示的流程图是在图5所示的流程图中在步骤S105与步骤S106之间***了将替代表现的集合排序的处理(S107)的流程图。步骤S107的处理是参照图13说明的处理。此外,步骤S107以外的处理,由于与参照图5说明的处理相同,所以赋予相同的标记。 
根据这样的结构,除了图1所示的文本编辑装置的效果以外,对于与容易发生音质变化的部位有关的语言表现,存在多个替代表现的情况下,可以通过替代表现排序部109以音质变化的发生容易度的观点将替代表现序列化而提示。因此,能够提供具有使用者能够根据音质变化的观点容易地修正原稿的进一步的特别效果的文本编辑装置。 
(第二实施方式) 
在本发明的第二实施方式中,基于第一实施方式所示的文本编辑装置的结构,对能够同时推定多个音质的变化的文本编辑装置进行说明。 
图15是本发明的第二实施方式的文本编辑装置的功能框图。 
在图15中,文本编辑装置是编辑输入的文本以使得在朗读者朗读文本时不会给其他人带来不想要的印象的装置,具备文本输入部101、语言解析部102、音质变化推定部103A、音质变化推定模型A104A、音质变化推定模型B104B、音质变化部分判断部105A、替代表现检索部106A、替代表现数据库107、和显示部108A。 
在图15中,对于与参照图1说明的第一实施方式的文本编辑装置相同的功能的模块赋予与图1相同的标记。对于具有相同功能的模块省略说明。在图15中,音质变化推定模型A104A和音质变化推定模型B104B分别是以与音质变化推定模型104相同顺序构成推定式和阈值的模型,但分别是对不同种类的音质变化进行统计性学习而制作的模型。音质变化推定部103A利用音质变化推定模型A104A及音质变化推定模型B104B,按照语言解析部102输出的语言解析结果的重音句单位,按音质变化的种类来推定音质变化的发生容易度。 
音质变化部分判断部105A根据音质变化推定部103按音质变化的种类推定的音质变化的推定值、和与在该推定中使用的推定式建立了对应的阈值,按音质变化的种类进行是否有音质变化的可能性的判断。替代表现检索部106A检索与音质变化部分判断部105A按音质变化的种类判断为有音质变化可能性的文本中部位有关的语言表现的替代表现,将找到的替代表现的集合输出。显示部108A进行输入的整个文本的显示,并且将音质变化部分判断部105A判断为有音质变化的文本中部位按音质变化的种类显示,还显示替代表现检索部106A输出的替代表现的集合。 
这样的文本编辑装置是构建在图2所示那样的计算机***上的装置。该计算机***是包括主体部201、键盘202、显示器203、和输入装置(鼠标)204的***。图1的音质变化推定模型A104A、音质变化推定模型B104B以及替代表现数据库107被保存在设置于主体部201中的CD-ROM207内、主体部201内置的硬盘(存储器)206 内、或者由线路208连接的另一个***的硬盘205内。另外,图15的文本编辑装置中的显示部108A对应于图2的***中的显示器203,图15的文本输入部101对应于图2的***中的显示器203、键盘202以及输入装置204。 
接着,按照图16说明如上述那样构成的文本编辑装置的工作。图16是表示本发明的第二实施方式的文本编辑装置的工作的流程图。在图16中,对于与第一实施方式的文本编辑装置相同的工作步骤赋予与图5相同的标记。对于作为相同工作的步骤,省略详细说明。 
在进行了语言解析处理(S101)后,音质变化推定部103A以重音句单位,采用上述语言解析结果作为音质变化推定模型A104A及音质变化推定模型B104B所具有的按各音韵的音质变化的推定式的说明变量,对重音句内的各音韵求出音质变化的推定值,将重音句内的音韵的推定值中的具有最大值的推定值,作为该重音句的音质变化的发生容易度的推定值输出(S102A)。在本实施方式中,在音质变化推定模型A104A中对“紧张”的音质变化进行判断,在音质变化推定模型B104B中对“嘶哑”的音质变化进行判断。推定式是按想要判断的音质变化的各音韵,以表示是否发生“紧张”或“嘶哑”的音质变化的二进制值为从属变量、以该音韵的子音、母音、重音句内的音拍位置为独立变量,通过数量化II类制作的。是否发生“紧张”或“嘶哑”的音质变化的判断阈值是相对于上述推定式的值设定的,以使对于学习用数据的特殊声音的发生位置的正解率为75%。 
接着,音质变化部分判断部105A将音质变化推定部103A输出的各重音句单位的音质变化的每个种类的音质变化的发生容易度的推定值、和与音质变化推定部103A使用的推定式相对应的音质变化推定模型A104A的阈值或质变化推定模型B104B的阈值进行比较,对于超过阈值的重音句,按音质变化的种类赋予容易发生音质变化的标志(S103A)。 
接着,音质变化部分判断部105A确定由覆盖在步骤S103A中按音质变化的种类被赋予了容易发生音质变化的标志的重音句的、最短范围的形态要素列构成的文本中的字符串部分,作为音质变化的可能性较高的文本中的表现部位(S104A)。 
接着,替代表现检索部106A对在步骤S104A确定的各表现部位,从替代表现数据库107中检索替代表现集合(S105)。 
接着,显示部108A在文本显示的各行的下部,按音质变化的各种类显示具有与文本的1行相同长度的长方形的矩形区域,将与在步骤S104确定的文本中的容易发生音质变化的部位的字符串的范围所占的水平方向的位置及长度相同的矩形区域,变更为能够与表示不易发生音质变化的部位的矩形区域区别的颜色,按音质的种类将容易发生音质变化的文本中的部位提示给使用者。与此同时,显示部108A将在步骤S105检索到的替代表现的集合提示给使用者(S106A)。 
图17是表示显示部108A在步骤S106A显示在图2的显示器203上的画面内容的例子的图。显示区域401A是显示输入文本、以及在步骤S104A显示部108A作为容易发生音质变化的部位的提示而按音质变化的种类使与容易发生音质变化的文本中的部位相对应的部分的颜色变化进行显示的矩形区域4011A及4012A的区域。显示区域402是显示在步骤S105由替代表现检索部106A检索到的容易发生音质变化的文本中部位的替代表现的集合的区域。如果使用者使鼠标指针403移动到在区域401A内矩形区域4011A及4012A的改变颜色显示的部分,并点击鼠标204的按钮,则在替代表现的集合的显示区域402中显示与点击的矩形区域部分对应的文本中的部位的语言表现的替代表现的集合。在图17的例子中,作为容易发生“紧张”的音质变化的部位,提示了“掛かります”和“温まりました”,作为容易发生“嘶哑”的音质变化的部位,提示了“ほど”。此外,在图17的例子中,表示了当点击了矩形区域4011A的颜色变化的部分时、 在替代表现的集合的显示区域402中显示“掛かります、必要です、要します”的替代表现的集合的状况。 
根据这样的结构,音质变化推定部103A利用音质变化推定模型A104A及音质变化推定模型B104B,对于不同的音质变化的种类,同时求出音质变化的发生容易度的推定值,音质变化部分判断部105A确定具有超过按音质变化的各种类设定的阈值的推定值的强调句单位的文本中部位,作为容易发生音质变化的部位。因此,能够提供除了本发明的第一实施方式的文本编辑装置具有的对于单一的音质变化种类、能够仅根据想要朗读的文本来预测或确定文本的朗读声音中可能发生音质变化的部位、以使用者能够确认的形式提示的效果以外,还对于多个不同的音质变化,在文本的朗读声音中预测或确定可能发生音质变化的部位,以使用者能够确认的形式提示的具有另外效果的文本编辑装置。 
进而,根据这样的结构,根据音质变化部分判断部105A按照音质变化的种类判断为有可能发生音质变化的部位的结果,替代表现检索部106A检索具有与有关该部位的文本中的表现同样内容的替代表现。因此,能够提供具有能够将在文本的朗读声音中容易发生音质变化的部位的替代表现按音质变化的种类区别并提示的特别效果的文本编辑装置。 
另外,在本实施方式中,做成了能够利用音质变化推定模型A104A及音质变化推定模型B104B这两个模型对“有力”及“嘶哑”的两种不同的音质变化进行判断的结构,但即使音质变化推定模型的数量、以及对应的音质变化的种类是两个以上,也能够提供具有同样效果的文本编辑装置。 
(第三实施方式) 
在本发明的第三实施方式中,在第一实施方式及第二实施方式中所示的文本编辑装置的结构为基本,说明能够对多个使用者同时推定 多个音质的变化的文本编辑装置。 
图18是本发明的第三实施方式的文本编辑装置的功能框图。 
在图18中,文本编辑装置是编辑输入的文本、使得在朗读者朗读文本时不会给其他人带来不想要的印象的装置,具备文本输入部101、语言解析部102、音质变化推定部103A、音质变化推定模型集合1(1041)、音质变化推定模型集合2(1042)、音质变化部分判断部105A、替代表现检索部106A、替代表现数据库107、显示部108A、使用者确定信息输入部110、和开关111。 
在图18中,对于与第一实施方式的文本编辑装置、以及第二实施方式的文本编辑装置相同功能的模块赋予与图1及图15相同的标记。对于具有相同功能的模块省略说明。在图18中,音质变化推定模型集合1(1041)和音质变化推定模型集合2(1042)分别在内部具有两种音质变化推定模型。 
音质变化推定模型集合1(1041)由音质变化推定模型集合1A(1041A)和音质变化推定模型集合1B(1041B)构成,但该两个音质变化推定模型是通过与构成本发明的第二实施方式的文本编辑装置中的音质变化推定模型104A、以及音质变化推定模型104B的同样的顺序、作为对于相同人物的声音、各个音质变化推定模型能够判别不同种类的音质变化的模型而构成的。同样,关于音质变化推定模型集合2(1042)也是作为将内部的音质变化推定模型(音质变化推定模型集合2A(1042A)及音质变化推定模型集合2B(1042B)分别对相同人物的声音能够判别不同种类的音质变化的模型而构成的。在本实施方式中,假设音质变化推定模型集合1对应于使用者1、音质变化推定模型集合2对应于使用者2而构成。 
进而,在图18中,使用者确定信息输入部110通过来自使用者的输入获取确定使用者的识别信息,根据输入的使用者的识别信息而切换开关111,音质变化推定部103A及音质变化部分判断部105A 使用与根据识别信息确定的使用者相对应的音质变化推定模型集合。 
按照图19说明如上述构成的文本编辑装置的工作。图19是表示本发明的第三实施方式的文本编辑装置的工作的流程图。在图19中,对于与第一实施方式的文本编辑装置、或者第二实施方式的文本编辑装置相同的工作步骤赋予与图5及图16相同的标记。作为相同工作的步骤,省略详细说明。 
首先,按照从使用者确定信息输入部110输入的使用者的识别信息操作开关111,选择与根据识别信息确定的使用者相对应的音质变化推定模型集合(S100)。在本实施方式中,假设输入了使用者1的使用者识别信息,并通过开关111选择了音质变化推定模型集合1(1041)。 
接着,语言解析部102进行语言解析处理(S101)。音质变化推定部103A应用作为语言解析部102的输出的语言解析结果,作为处于音质变化推定模型集合1(1041)中的音质变化推定模型集合1A(1041A)及音质变化推定模型集合1B(1041B)的推定式的说明变量,对重音句内的各音韵求出音质变化的推定值,将重音句内的音韵的推定值中具有最大值的推定值作为该重音句的音质变化的发生容易度的推定值输出(S102A)。在本第三实施方式中,也与第二实施方式中的音质变化推定模型的设定同样,在音质变化推定模型集合1A(1041A)及音质变化推定模型集合1B(1041B)中分别设定推定式及判断阈值,以便能够分别对“紧张”和“嘶哑”的音质变化的发生进行判断。 
这以后的步骤S103A、步骤S104A、步骤S105、步骤S106A的工作与第一实施方式的文本编辑装置或第二实施方式的文本编辑装置的工作步骤相同,所以省略说明。 
根据这样的结构,由于根据使用者的识别信息、通过开关111选择关于对使用者的朗读声音的推定最适合的音质变化的推定模型集 合,所以能够提供除了第一实施方式及第二实施方式的文本编辑装置具有的效果以外,还具有能够最高精度地预测或确定多个使用者输入的文本的朗读声音的容易发生音质变化的部位的特别效果的文本编辑装置。 
另外,在本实施方式中,做成了音质变化推定模型是两个、从其中由开关111选择1个的结构,但如果音质变化推定模型集合为3个以上,也具有与上述同样的效果。 
另外,在本实施方式中,包含在音质变化推定模型集合中的音质变化推定模型是两个,但也可以使每个音质变化推定模型集合具有1个以上的任意个数的音质变化推定模型。 
(第四实施方式) 
在本发明的第四实施方式中,对基于使用者朗读文本时经过时间越长就越容易因喉咙的疲劳等发生音质变化的认识而构成的文本编辑装置进行说明。即,对随着使用者继续朗读而音质变化变得容易发生的文本编辑装置进行说明。 
图20是本发明的第四实施方式的文本编辑装置的功能框图。 
在图20中,文本编辑装置是编辑输入的文本、使得在朗读者朗读文本时不会给其他人带来不想要的印象的装置,具备文本输入部101、语言解析部102、音质变化推定部103、音质变化推定模型104、音质变化部分判断部105B、替代表现检索部106、替代表现数据库107、显示部108B、语速输入部112、经过时间测量部113、和综合判断部114。 
在图20中,对于与第一实施方式的文本编辑装置相同功能的模块赋予与图1相同的标记。对于具有相同功能的模块省略说明。在图20中,语速输入部112将使用者输入的有关语速的指定变换为平均音拍时间长度的单位的值(例如每1秒的音拍数)并输出。经过时间测量部113设定语速输入部112输出的语速的值,作为计算经过时间 时的语速的参数。音质变化部分判断部105B基于音质变化推定部103推定的音质变化的推定值和建立了对应的阈值,按各重音单位进行是否是有可能发生音质变化的部位的判断。 
综合判断部114获取音质变化部分判断部105B对各重音句单位判断的是否容易发生音质变化的判断结果并储存,综合所有的判断结果,并且根据整个文本中的容易发生音质变化的部位的比例,计算表示朗读文本整体时的声音的音质变化的发生容易度的评价值。显示部108B进行输入的整个文本的显示,并且将音质变化部分判断部105B判断为有音质变化的文本中的部位强调显示。进而,显示部108B显示替代表现检索部106输出的替代表现的集合,并且显示综合判断部114计算的有关音质变化的评价值。 
这样的文本编辑装置例如构建在图2所示那样的计算机***上。该计算机***是包括主体部201、键盘202、显示器203、和输入装置(鼠标)204的***。图1的音质变化推定模型104以及替代表现数据库107保存在设置于主体部201中的CD-ROM207内、主体部201内置的硬盘(存储器)206内、或者由线路208连接的另一个***的硬盘205内。另外,图1的文本编辑装置中的显示部108对应于图2的***中的显示器203,图1的文本输入部101及语速输入部112对应于图2的***中的显示器203、键盘202以及输入装置204。 
接着,按照图21说明如上述那样构成的文本编辑装置的动作。图21是表示本发明的第四实施方式的文本编辑装置的工作的流程图。在图21中,对于与第一实施方式的文本编辑装置相同的工作步骤赋予与图5相同的标记。对于作为相同工作的步骤,省略详细说明。 
首先,语速输入部112将通过使用者的指定进行的语速输入变换为平均音拍时间长度的单位的值并输出,经过时间测量部113设置语速输入部112的输出结果,作为计算经过时间时的语速参数(S108)。 
在进行了语言解析处理(S101)后,经过时间测量部113对从包 含在语言解析结果中的诵读的音拍列的开头开始的音拍数进行计数,通过与语速参数相除,计算文本中的各音拍位置的自开头算起的朗读时的经过时间(S109)。 
在音质变化推定部103中,求出重音句单位的音质变化的发生容易度的推定值(S102)。在本实施方式中,使音质变化推定模型104通过统计性学习构成为能够判断“嘶哑”的音质变化的模型。在音质变化部分判断部105B中,基于在步骤109由经过时间测量部113计算出的该重音句的开头音拍位置的朗读时的经过时间的值,按各重音句修正与音质变化的发生容易度的推定值比较的阈值后,进行与该重音句的音质变化的发生容易度的推定值的比较,对被赋予了超过阈值的推定值的重音句,赋予容易发生音质变化的标志(S103B)。这里,利用朗读的经过时间的值进行的阈值的修正,是通过下式进行的,其中,设原来的阈值为S、修正后的阈值为S′、经过时间为T(分钟)。 
S′=S(1+T)/(1+2T) 
即,进行阈值的修正,使得随着时间的经过而阈值变小。这是因为,如上所述,由于随着使用者继续诵读文本,会因喉咙的疲劳等而变得容易发生音质的变化,所以随着时间的经过而减小阈值,使赋予容易发生音质变化的标志变得容易。 
经过步骤S104、步骤S105,综合判断部114对整个文本的重音句,储存音质变化部分判断部105B输出的重音句单位的音质变化的发生容易度的标志的状态,计算被赋予了容易发生音质变化的标志的重音句数在文本中的重音句数中所占的比例(S110)。 
最后,显示部108B按文本的每个一定范围显示由经过时间测量部113计测的朗读时的经过时间,将在步骤S104确定的容易发生文本中的音质变化的部位强调显示,显示在步骤S105检索到的替代表现的集合,同时,显示由综合判断部114算出的、容易发生音质变化的重音句的比例(S106C)。 
图22是表示显示部108B在步骤S106C中显示在图2的显示器203上的画面内容的例子的图。显示区域401B是显示输入文本、在步骤S109计算出的以指定的语速朗读输入文本时的经过时间4041~4043、以及在步骤S104显示部108作为容易发生音质变化的部位的提示而强调显示的部位4011的区域,显示区域402是显示在步骤S105由替代表现检索部106检索到的容易发生音质变化的文本中部位的替代表现的集合的区域。如果使用者将鼠标指针403移动到在区域401B内强调显示的部位4011,并点击鼠标204的按钮,则在替代表现的集合的显示区域402显示点击的强调部位的语言表现的替代表现的集合。显示区域405是显示综合判断部114算出的容易发生“嘶哑”的音质变化的重音句的比例的区域。在图22的例子中,表示了“6分ほど”的文本中的部位被强调显示,在点击了该部位4011时在替代表现的集合的显示区域402显示“6分ぐら い、6分程度”的替代表现的集合的状况。 
“6分ほど”的朗读声音被判断为“嘶哑”的原因是,ハ行的声音容易发生“嘶哑”的变化。与包含在“ロツプンホド”中的“ホ”音有关的“嘶哑”的音质变化的发生容易度的推定值,比包含在“ロツプンホド”中的其他音拍大,有关“ホ”音的音质变化的推定值成为代表该重音句的音质变化的发生容易度的推定值。但是,虽然“10分ほど”的朗读声音也包含“ホ”的音,但对于该部位,不会成为容易发生音质变化的判断。 
根据前面所示的阈值的修正式 
S′=S(1+T)/(1+2T) 
随着时间的经过、即随着T的增大,修正后的阈值S′朝向S/2减少。现在,如果设“6分ほど”与“10分ほど”的音质变化的发生容易度的推定值是S*3/5,则从诵读开始经过2分钟之前,修正后的阈值S′比S*3/5大,所以不被判断为容易发生音质变化的部位,但如果超过 2分钟,则阈值S′变得比S*3/5小,所以判断为容易发生音质变化的部位。因而,在图22所示的例子中,表示了即使是具有相同的音质变化的发生容易度的推定值的重音句,但是只要经过时间比某个值大就被判断为容易发生音质变化的部位的例子。 
根据这样的结构,基于通过经过时间测量部113由使用者输入的语速,在音质变化部分判断部105B中修正判断基准的阈值,所以能够提供除了第一实施方式的文本编辑装置具有的效果以外,还具有在使用者设想的语速下的朗读中、能够考虑到时间经过对音质变化的发生容易度的影响,进行容易发生音质变化的部位的预测或确定的另外效果的文本编辑装置。 
另外,在本实施方式中,设定了使阈值相对于时间经过减少的阈值的修正式,但根据音质变化的种类,也可以使用基于分析了音质变化的发生容易度与时间经过之间关系的结果的阈值的修正式,在提高推定精度方面是优选的结构。例如,也可以是,虽然在开始说话时因喉咙的紧张等而容易发生音质变化,但如果继续说话到一定时间则喉咙放松而变得不容易发生音质变化,如果再继续说话则会因喉咙的疲劳等而再次变得容易发生音质变化,由此来决定阈值的修正式。 
(第五实施方式) 
在本发明的第五实施方式中,说明能够进行在输入的文本中推定为发生音质变化的部位、和实际上使用者朗读相同文本时的音质变化的发声部位的比较的文本编辑装置。 
图23是本发明的第五实施方式的文本评价装置的功能框图。 
在图23中,文本评价装置是进行在输入的文本中推定为发生音质变化的部位、和实际上使用者朗读相同文本时的音质变化的发声部位的比较的装置,具备文本输入部101、语言解析部102、音质变化推定部103、音质变化推定模型104、音质变化部分判断部105、显示部108C、综合判断部114A、声音输入部115、声音识别部116、 和声音分析部117。 
在图23中,对于与第一实施方式的文本编辑装置相同功能的模块赋予与图1相同的标记。对于具有相同功能的模块省略说明。在图23中,声音输入部115将使用者朗读输入到文本输入部101中的文本的声音作为声音信号取入到装置内部。声音识别部116利用语言解析部102输出的语言解析结果的诵读的音韵列的信息,对于从声音输入部115取入的声音信号,进行声音信号与音韵列的调整处理,识别取入的声音信号的声音。声音分析部117对于使用者朗读的声音信号,以重音句单位判断是否发生了预先指定了种类的音质变化。 
综合判断部114A对声音分析部117判断的是否发生了以各重音句单位朗读的声音的音质变化的判断结果、和音质变化部分判断部105判断的容易发生音质变化的部位的判断结果进行比较,计算判断为容易发生音质变化的部位中的、在使用者的朗读声音中出现的音质变化发生的比例。显示部108C显示输入的整个文本,并且将音质变化部分判断部105判断为有音质变化的文本中的部位强调显示。进而,显示部108C同时显示综合判断部114A计算出的、发生了使用者的朗读声音的音质变化的部位相对于所推定的容易发生音质变化的部位的比例。 
这样的评价装置例如是构建在图24所示那样的计算机***上的装置。图24是表示构建本第五实施方式的文本评价装置的计算机***的例子的图。 
该计算机***是包括主体部201、键盘202、显示器203、和输入装置(鼠标)204的***。图23的音质变化推定模型104以及替代表现数据库107保存在设置于主体部201中的CD-ROM207内、主体部201内置的硬盘(存储器)206内、或者由线路208连接的另一个***的硬盘205内。另外,图23的文本编辑装置中的显示部108C对应于图24的***中的显示器203,图23的文本输入部101对应于 图24的***中的显示器203、键盘202以及输入装置204。此外,图23的声音输入部115对应于麦克风209。扬声器210被作为用于确认声音输入部115是否以适当电平取入了声音信号的声音再现用而使用。 
接着,按照图25说明如上述那样构成的文本编辑装置的工作。图25是表示本发明的第五实施方式的文本评价装置的工作的流程图。在图25中,对于与第一实施方式的文本编辑装置相同的工作步骤赋予与图5相同的标记。对于作为相同工作的步骤,省略详细说明。 
经过步骤S101的语言解析处理,对于从声音输入部115取入的使用者的声音信号,声音识别部116进行与包含在语言解析部102输出的语言解析结果中的诵读的音韵列的调整处理(S110)。 
接着,声音分析部117对使用者的朗读的声音信号,通过确定预先判别的音质变化的种类的声音分析方法,以重音句单位判断是否发生了特定的音质变化,对于发生了音质变化的重音句赋予发生了音质变化的部位的标志(S111)。在本实施方式中,假设声音分析部117设定为能够对“紧张”的音质变化进行声音分析的状态。根据非专利文献1的记述,被分类为“紧张”的音质变化的“刺耳的声音(harshvoice)”所具有的显著特征是基本频率的不规则性,具体而言是振幅微扰(周期较快的变动成分)及频率微扰(振幅较快的变动成分)。因而,作为能够判断“紧张”的音质变化的具体方法,进行声音信号的间隔提取,提取基本频率的振幅微扰成分和频率微扰,根据两成分是否是一定以上的强度,能够构成判断是否发生了“紧张”的音质变化的方法。进而,这里,对于音质变化推定模型104,也设定推定式及阈值,以使其能够判断“紧张”的音质变化。 
接着,声音分析部117在步骤S111中,确定由覆盖被赋予了发生音质变化的标志的重音句的、最短范围的形态要素列构成的文本中的字符串部分,作为发生了音质变化的文本中的表现部位(S112)。 
接着,在步骤S102中,在进行了文本的语言解析结果的重音句单位的音质变化的发生容易度的推定后,音质变化部分判断部105B将音质变化推定部103输出的各重音句单位的音质变化的发生容易度的推定值、和与音质变化推定部103使用的推定式对应的音质变化推定模型104的阈值进行比较,对于超过阈值的重音句赋予容易发生音质变化的标志(S103B)。 
接着,音质变化部分判断部105在步骤S103B确定由覆盖被赋予了发生音质变化的标志的重音句的最短范围的形态要素列构成的文本中的字符串部分,作为容易发生音质变化的文本中的表现部位(S104)。 
接着,综合判断部114A计数在步骤S112确定的发生了音质变化的文本中的多个表现部位中的、与在步骤S104确定的容易发生音质变化的文本中的多个表现部位具有字符串范围相重叠的部分的表现部位的个数。此外,综合判断部114A计算上述重复部位的个数相对于在步骤S112确定的发生了音质变化的文本中的表现部位的个数的比例(S113)。 
接着,显示部108C显示文本,在文本显示的各行下部设有两个具有与文本的1行相同长度的长方形的矩形区域,对于一个矩形区域,将与在步骤S104确定的文本中的容易发生音质变化的部位的字符串范围所占的水平方向的位置及长度相同的矩形区域,变更为能够与表示不易发生音质变化的部位的矩形区域区别的颜色,同样,对于另一个矩形区域,将与在步骤S112确定的发生了朗读声音中的音质变化的部位的字符串的范围所占的水平方向的位置及长度相同的矩形区域,变更为能够与表示没有发生音质变化的部位的矩形区域区别的颜色,显示在步骤113中计算出的推定为容易发生音质变化的部位中的、在使用者的朗读声音中发生了音质变化的比例(S106D)。 
图26是表示显示部108C在步骤S106D中显示在图24的显示器 23上的画面内容的例子的图。显示区域401C是用于显示如下内容的区域:输入文本;在步骤S106D显示部108C作为容易发生音质变化的部位的提示而改变与文本中的部位相对应的部分的颜色进行显示的矩形区域部分4013;以及同样在步骤S106D显示部108C作为在使用者的朗读声音中发生了音质变化的部位的提示而改变与文本中部位相对应的部分的颜色变化进行显示的矩形区域部分4014。显示区域406是在步骤S106D中显示部108C用于显示在步骤S113计算出的推定为容易发生音质变化的部位中的、使用者的朗读声音中发生了音质变化的比例的区域。在图26的例子中,作为容易发生“紧张”的音质变化的部位,提示了“掛かります”和“温まりました”,作为实际上根据使用者的朗读声音的分析判断的发生了音质变化的部位,提示了“掛かります”。被预测了音质变化的部位为两个部位,但实际上发生了音质变化的部位中与预测的部位重合的是1个部位,所以,作为音质变化的发生比例而提示“1/2”。 
根据这样的结构,通过步骤S110、步骤S111、步骤S112的一系列的工作,判断使用者的朗读声音中的音质变化的发生部位,进一步在步骤S113中,综合判断部114A计算在步骤S104中判断为在文本的朗读声音中容易发生音质变化的部位中的、与在步骤S112实际上在使用者朗读的声音中实际地发生了音质变化的部位重合的部位的比例,所以,能够提供如下的文本评价装置:除了具有本发明的第一实施方式的文本编辑装置的效果,即,对于单一的音质变化的种类,能够仅根据想要朗读的文本来预测或确认在文本的朗读声音中可能发生音质变化的部位,并且以使用者能够确认的形式提示;此外,还具有能够进行使用者实际朗读的声音中的音质变化的发生部位的确认,并且在留意到根据文本预测的容易发生音质变化的部位后朗读文本的情况下,能够将关于在实际上留意的部位中抑制了多少音质变化的发生的评价作为发生部位相对于预测部位的比例进行提示的另外 效果。 
此外,使用者也可以使用本实施方式所示的文本评价装置作为用于训练不发生音质变化的发声的发声训练装置。即,在图26所示的显示区域401C中,能够对比可能发生音质变化的推定部位和实际上发生的发生部位来观察。因此,使用者能够在推定部位中进行发声训练以便不发生音质变化。此外,在显示区域406中显示的数值相当于使用者的得分。即,该数值越小,表示越能够不发生音质变化地发声。 
(第六实施方式) 
在本发明的第六实施方式中,说明具备与上述第一实施方式~第五实施方式不同的音质变化的推定方法的文本编辑装置。 
图27是只表示本第六实施方式的文本编辑装置中的、只有有关音质变化推定方法的处理的主要的结构部分的功能框图。 
在图27中,文本编辑装置包括文本输入部1010、语言解析部1020、音质变化推定部1030、按音韵表示音质变化信息表1040、和音质变化部分判断部1050。另外,文本编辑装置还具备执行判断发生了音质变化部分后的处理的处理部(未图示)。关于这些处理部,与第一实施方式~第五实施方式所示的结构是同样的,例如,文本编辑装置也可以包括第一实施方式的图1所示的替代表现检索部106、替代表现数据库107及显示部108。 
在图27中,文本输入部1010是进行用于输入处理对象的文本的处理的处理部。语言解析部1020是对由文本输入部1010输入的文本进行语言解析处理、输出作为诵读信息的音韵列、重音句分隔信息、重音位置信息、词类信息、构文信息的语言解析结果的处理部。音质变化推定部1030参照按声韵将音质变化的发生程度作为具有有限的值的数值表现的按音韵表示音质变化信息表1040,进行按上述语言解析结果的重音句单位求出音质变化的发生容易度的处理。音质变化部分判断部1050基于音质变化推定部1030推定的音质变化的推定值 和一定的阈值,按照重音单位进行是否是有可能发生音质变化的部位的判断处理。 
图28是表示按音韵表示音质变化信息表1040的一例的图。按音韵表示音质变化信息表1040是按音拍的子音部表示音质变化的程度是什么程度的表,例如表示子音“p”的音质变化程度是“0.1”。 
按照图29对如上述构成的文本编辑装置的音质变化的推定方法进行说明。图29是表示本第六实施方式的音质变化推定方法的处理工作的流程图。 
首先,对于从文本输入部1010获取的输入文本,语言解析部1020进行形态要素解析、构文解析、读法生成、重音句处理的一系列的语言解析处理,输出包括作为诵读信息的音韵列、重音句分隔信息、重音位置信息、词类信息、构文信息的语言解析结果(S1010)。 
接着,音质变化推定部1030对于在S1010中输出的语言处理结果的重音句单位,按照保存在按音韵表示音质变化信息表1040中的表现各音韵的音质变化的程度的数值,按包含在重音句中的各音韵求出音质变化程度的数值。进而,在重音句内的音韵中将最大的音质变化程度的数值作为代表该重音句的音质变化的发生容易度的推定值。 
接着,在音质变化部分判断部1050中,将音质变化推定部1030输出的各重音句单位的音质变化的发生容易度的推定值与设定为规定值的阈值进行比较,对超过阈值的重音句赋予容易发生音质变化的标志(S1030)。接着,音质变化部分判断部1050在步骤S1030中,确定由覆盖被赋予了容易发生音质变化的标志的重音句的最短范围的形态要素列构成的文本中的字符串部分,作为音质变化可能性较高的文本中的表现部位(S1040)。 
根据这样的结构,音质变化推定部1030根据记载在按音韵表示音质变化信息表1040中的各音韵的音质变化的发生容易度程度的数值,求出重音句单位的音质变化的发生容易度的推定值,音质变化部 分判断部1050通过将该推定值与规定的阈值比较,确定具有超过阈值的推定值的重音句作为容易发生音质变化的部位,所以能够提供能够仅根据要朗读的文本来预测或确定朗读该文本的声音中的容易发生音质变化的部位的具体的方法。 
(第七实施方式) 
在本发明的第七实施方式中,说明将输入的文本中的容易发生音质变化的表现变换为不易发生音质变化的表现、或相反将不易发生音质变化的表现变换为容易发生音质变化的表现之后,生成变换后的文本的合成声音的文本朗读装置。 
图30是本发明的第七实施方式的文本朗读装置的功能框图。 
在图30中,文本朗读装置具备文本输入部101、语言解析部102、音质变化推定部103、音质变化推定模型104、音质变化部分判断部105、替代表现检索部106、替代表现数据库107、替代表现排序部109、表现变换部118、声音合成用语言解析部119、声音合成部120、和声音输出部121。 
在图30中,对于具有与第一实施方式的文本编辑装置相同功能的模块,赋予与图1或图11相同的标记。对于具有相同功能的模块省略说明。 
在图30中,表现变换部118将音质变化部分判断部105判断为容易发生音质变化的文本中的部位,用在替代表现排序部109输出的已排序的替代表现集合之中最不易发生音质变化的替代表现替换。声音合成用语言解析部119将表现变换部118输出的已替换的文本进行语言解析。声音合成部120基于包含在作为声音合成用语言解析部119的输出的语言解析结果中的发音信息、重音句信息、停顿信息,将声音信号合成。声音输出部121将由声音合成部120合成的声音信号输出。 
这样的文本朗读装置例如是构建在图31所示那样的计算机*** 上的装置。图31是表示构建本第七实施方式的文本朗读装置的计算机***的例子的图。该计算机***是包括主体部201、键盘202、显示器203、和输入装置(鼠标)204的***。图30的音质变化推定模型104以及替代表现数据库107保存在设置于主体部201中的CD-ROM207内、主体部201内置的硬盘(存储器)206内、或者由线路208连接的另一个***的硬盘205内。另外,图30的文本输入部101对应于图31的***中的显示器203、键盘202以及输入装置204。扬声器210对应于图30的声音输出部121。 
接着,按照图32说明如上述构成的文本朗读装置的动作。图32是表示本第七实施方式的文本朗读装置的工作的流程图。在图32中,对于与第一实施方式的文本编辑装置相同的工作步骤,赋予与图5或图14相同的标记。对于作为相同工作的步骤,省略详细说明。 
步骤S101~步骤S107是与图14所示的第一实施方式的文本编辑装置相同的工作步骤。输入文本如图33所示,是“10分ほど掛かります”。图33是表示与由本第七实施方式的文本朗读装置替换输入文本的工作有关的中间数据的例子的图。 
作为接着的步骤S114,表现变换部118将音质变化部分判断部105在步骤S104确定的容易发生音质变化的部位,用从替代表现检索部106检索得到的该部位的替代表现集合中的、替代表现排序部109输出的已排序的替代表现的集合中选择1个最不易发生音质变化的替代表现来替换(S114)。如图33所示,已排序的替代表现集合根据音质变化的发生容易程度而排序,这里,“要します”是最不易发生音质变化的替代表现。接着,声音合成用语言解析部119对在步骤S114替换的文本进行语言解析,输出包括读法的信息、重音句分隔、重音位置、停顿位置、停顿长度的语言解析结果(S115)。如图33所示,将输入文本的“10分ほど掛かります”的“掛かります”替换为“要します”。最后,声音合成部120基于在步骤S115输出的语 言解析结果合成声音信号,从声音输出部121输出声音信号(S116)。 
根据这样的结构,通过音质变化推定部103与音质变化部分判断部105确定输入文本中的容易发生音质变化的部位,通过替代表现检索部106、替代表现排序部109与表现变换部118的一系列的工作,能够将容易发生音质变化的文本中的部位自动地向不易发生音质变化的替代表现替换而朗读输入文本,所以能够提供具有在文本朗读装置内的声音合成部120发声的音质因音韵而发生“紧张”或“嘶哑”等的音质变化等的音质变化的音质平衡上的偏差(失真)的情况下,能够一边尽量避免该偏差带来的音质不稳定、一边进行朗读的效果的文本朗读装置。 
另外,在本实施方式中,将有可能发生音质变化的表现替换为不易发生音质变化的表现后进行声音的朗读,但也可以相反地将发生音质变化的可能性较低的表现替换为容易发生音质变化的表现后进行声音的朗读。 
另外,在上述实施方式中,基于推定值进行声音变化的发生容易读推定及音质变化的部分的判断,但在推定式中预先知道容易超过阈值的音拍的情况下,也可以在该音拍中判断为总是发生音质变化。 
例如,在音质变化为“紧张”的情况下,在以下的(1)~(4)所示的音拍中,推定式容易超过阈值。 
(1)子音为/b/(双唇音且有声***子音)、且从重音句的前面算起的第3个音拍; 
(2)子音为/m/(双唇音且鼻音)、且从重音句的前面算起的第3个音拍; 
(3)子音为/n/(牙龈音且鼻音)、且重音句的开头音拍; 
(4)子音为/d/(牙龈音且有声***子音)、且重音句的开头音拍。 
此外,在音质变化为“嘶哑”的情况下,在以下的(5)~(8)所示的音拍中,推定式容易超过阈值。 
(5)子音为/h/(喉咙音且无声摩擦音)、且重音句的开头的音拍或从重音句的前面算起的第3个音拍; 
(6)子音为/t/(牙龈音且无声***音)、且从重音句的前面算起的第4个音拍; 
(7)子音为/k/(软腭音且无声***音)、且从重音句的前面算起第5个音拍; 
(8)子音为/s/(齿音且无声摩擦音)、且从重音句的前面算起第6个音拍。 
如上所述,能够利用子音与重音句的关系确定容易发生音质变化的文本中的位置,但在英语或汉语的情况下,能够利用子音与重音句之间关系以外的其它关系确定容易发生音质变化的位置。例如,在英语的情况下,能够利用子音与重读句的音节数或重读位置的关系确定容易发生音质变化的文本中的位置。此外,在汉语的情况下,能够利用子音与包含在四声声调的上升及下降式样或包含在呼气段落中的音节数的关系,来确定容易发生音质变化的文本中的位置。 
此外,也可以通过LSI(集成电路)实现上述实施方式的文本编辑装置。例如,如果通过LSI实现第一实施方式的文本编辑装置,则能够将语言解析部102、音质变化推定部103、音质变化部分判断部105和替代表现检索部106的全部通过1个LSI实现。或者可以将各个处理部用1个LSI实现。进而,也可以将各个处理部用多个LSI实现。 
音质变化推定模型104与替代表现数据库107既可以通过LSI外部的存储装置实现,也可以通过装备在LSI的内部中的存储器实现。在通过LSI外部的存储装置实现该数据库的情况下,也可以经由网络取得数据库的数据。 
这里,提到LSI,但根据集成度的差异,有时也称作IC、***LSI、超级LSI、超大规模LSI。 
此外,集成电路化的方法并不限于LSI,也可以通过专用电路或通用处理器实现。也可以利用在LSI制造后可编程的FPGA(FieldProgrammable Gate Array)、或者可再构建LSI内部的电路连接及设定的可重构处理器。 
进而,如果因半导体技术的进步或派生的技术出现替换LSI的集成电路化的技术,则当然也可以利用该技术进行构成声音合成装置的处理部的集成化。还可能应用生物技术等。 
进而,也可以通过计算机实现上述实施方式的文本编辑装置。图34是表示计算机的结构的一例的图。计算机1200具备输入部1202、存储器1204、CPU1206、存储部1208、和输出部1210。输入部1202是受理来自外部的输入数据的处理部,由键盘、鼠标、声音输入装置、通信I/F等构成。存储器1204是暂时保存程序及数据的存储装置。CPU1206是执行程序的处理部。存储部1208是存储程序及数据的装置,由硬盘等构成。输出部1210是将数据输出到外部的处理部,由监视器及扬声器等构成。 
例如,在通过计算机实现第一实施方式的文本编辑装置的情况下,语言解析部102、音质变化推定部103、音质变化部分判断部105和替代表现检索部106对应于在CPU1206上执行的程序,音质变化推定模型104和替代表现数据库107存储在存储部1208中。此外,由CPU1206计算出的结果被临时保存在存储器1204或存储部1208中。存储器1204及存储部1208也可以在与音质变化部分判断部105等的各处理部的数据的交换中使用。此外,用来使计算机执行有关本实施方式的声音合成装置的程序也可以存储在软磁盘、CD-ROM、DVD-ROM、非易失性存储器等中,也可以经由网络被计算机1200的CPU1206读入。 
这里公开的实施方式都是例示而不应看作是限制性的。本发明的范围不是由上述说明,而是由权利要求书表示,包括与权利要求书等 价的意义及范围内的所有的变更。 
本发明的文本编辑装置由于具有能够提供从音质的观点评价文本并修正的功能的结构,所以向文字处理器装置、以及文字处理器软件等的应用是有用的。此外,向具备编辑以人朗读为前提的文本的功能的装置或者软件等的应用是有用的。 
再者,本发明的文本评价装置由于具有使用者能够一边留意根据文本的语言表现预测的容易发生音质变化的部位一边朗读文本、并且使用者能够确认实际上朗读文本的声音的音质变化部位、评价怎样程度地发生了音质变化的功能,所以向演讲的训练装置、语言的学习装置等的应用是有用的。此外,能够进行向具有辅助朗读的练习的功能的装置等的应用。 
本发明的文本朗读装置由于能够将容易发生音质变化的语言表现替换为替代表现而朗读,所以具有能够在保持内容的状态下音质变化较少、以较高地保持明了度的音质进行文本朗读的结构,所以向新闻等的朗读装置等的应用是有用的。此外,能够进行向想要排除与文本的内容不直接相关、起因于朗读声音的音质变化而使听者受到的影响时的朗读装置等的应用。 

Claims (16)

1.一种音质变化部位确定装置,根据与文本对应的语言解析信息,确定在朗读时音质有可能变化的上述文本中的部位,其特征在于,具备:
音质变化推定单元,使用用于判断音质变化的发生容易度的推定式,根据作为包含与文本对应的音韵列的语言解析结果的符号列的语言解析信息的音韵信息和重音句中的位置,按至少包含1个音韵列的输入符号列的各规定单位,推定朗读上述文本时的音质变化的发生容易度;
音质变化部位确定单元,根据上述语言解析信息和上述音质变化推定单元的推定结果,确定容易发生音质变化的文本中的部位。
2.如权利要求1所述的音质变化部位确定装置,其特征在于,
上述推定式是通过对用户的声音进行分析及统计性学习而得到的音质变化的推定模型。
3.如权利要求1所述的音质变化部位确定装置,其特征在于,
上述音质变化推定单元利用通过对用户的多个讲话方式的各个声音进行分析及统计性学习而得到的、按音质变化的各个种类设置的多个推定模型,按上述语言解析信息的上述规定单位来推定基于上述各讲话方式的音质变化的发生容易度。
4.如权利要求1所述的音质变化部位确定装置,其特征在于,
上述音质变化推定单元利用通过对多个用户的多个声音进行分析及统计性学习而分别得到的多个音质变化的推定模型,选择对应于用户的推定模型,按上述语言解析信息的上述规定单位来推定音质变化的发生容易度。
5.如权利要求1所述的音质变化部位确定装置,其特征在于,还具备:
替代表现存储单元,存储语言表现的替代表现;以及
替代表现提示单元,从上述替代表现存储单元中检索上述容易发生音质变化的文本中的部位的替代表现,并且进行提示。
6.如权利要求1所述的音质变化部位确定装置,其特征在于,还具备:
替代表现存储单元,存储语言表现的替代表现;
音质变化部位替换单元,从上述替代表现存储单元中检索由上述音质变化部位确定单元确定的容易发生音质变化的文本中的部位的替代表现,用检索到的替代表现替换该部位。
7.如权利要求6所述的音质变化部位确定装置,其特征在于,
还具备声音合成单元,生成朗读在上述音质变化部位替换单元中被替换为替代表现的文本的声音。
8.如权利要求1所述的音质变化部位确定装置,其特征在于,
还具备音质变化部位提示单元,将由上述音质变化部位确定单元确定的容易发生音质变化的文本中的部位提示给用户。
9.如权利要求1所述的音质变化部位确定装置,其特征在于,
还具备语言解析单元,对文本进行语言解析,输出作为包含音韵列的语言解析结果的符号列的语言解析信息。
10.如权利要求1所述的音质变化部位确定装置,其特征在于,
上述音质变化推定单元将上述语言解析信息中的至少音韵的种类、重音句的音拍数及重音位置作为输入,按上述规定单位推定音质变化的发生容易度。
11.如权利要求1所述的音质变化部位确定装置,其特征在于,
还具备经过时间计算单元,根据表示用户的文本朗读速度的语速信息,计测上述文本的规定位置处的、从上述文本的开头开始的朗读的经过时间;
上述音质变化推定单元还通过考虑上述经过时间,按上述规定的单位推定音质变化的发生容易度。
12.如权利要求1所述的音质变化部位确定装置,其特征在于,
还具备音质变化比例判断单元,判断在上述音质变化部位确定单元确定的容易发生音质变化的上述文本的部位相对于上述文本的全部或一部分的比例。
13.如权利要求1所述的音质变化部位确定装置,其特征在于,还具备:
声音识别单元,识别用户朗读上述文本的声音;
声音分析单元,根据上述声音识别单元的声音识别结果,按包含使用者的声音的各音韵单位的规定单位,分析音质变化的程度;
文本评价单元,根据由上述音质变化部位确定单元确定的容易发生音质变化的上述文本中的部位和上述声音分析单元中的分析结果,进行容易发生音质变化的上述文本中的部位与用户的声音中发生了音质变化的部位的比较。
14.如权利要求1所述的音质变化部位确定装置,其特征在于,
上述推定式是按各个音韵并利用数值表示了音质变化的发生容易度的程度的按音韵表示音质变化表,
上述音质变化推定单元参照上述按音韵表示音质变化表,并且按上述语言解析信息的上述规定单位、且基于按包含在该规定单位中的各音韵分配的数值,来推定音质变化的发生容易度。
15.一种音质变化部位确定装置,根据与文本对应的语言解析信息,确定在朗读时音质有可能变化的上述文本中的部位,其特征在于,该音质变化部位确定装置具备:
音质变化部位确定单元,在上述文本中,将(1)子音为/b/即双唇音且有声***子音、并且从重音句的前面算起第3个音拍,(2)子音为/m/即双唇音且鼻音、并且从重音句的前面算起第3个音拍,(3)子音为/n/即牙龈音且鼻音、并且是重音句的开头音拍,(4)子音为/d/即牙龈音且有声***子音、并且是重音句的开头音拍,确定为容易发生紧张的音质变化的部位,将(5)子音为/h/即喉咙音且无声摩擦音、并且是重音句的开头的音拍或者从重音句的前面算起第3个音拍,(6)子音为/t/即牙龈音且无声***音、并且从重音句的前面算起第4个音拍,(7)子音为/k/即软腭音且无声***音、并且从重音句的前面算起第5个音拍,(8)子音为/s/即齿音且无声摩擦音、并且从重音句的前面算起第6个音拍,确定为容易发生嘶哑的音质变化的部位。
16.一种音质变化部位确定方法,根据与文本对应的语言解析信息,确定在朗读时音质有可能变化的上述文本中的部位,其特征在于,该音质变化部位确定方法包括:
使用用于判断音质变化的发生容易度的推定式,根据作为包含与文本对应的音韵列的语言解析结果的符号列的语言解析信息的音韵信息和重音句中的位置,按至少包含1个音韵列的输入符号列的规定单位,推定朗读上述文本时的音质变化的发生容易度的步骤;
根据上述语言解析信息和上述音质变化的发生容易度的推定结果,确定容易发生音质变化的文本中的部位的步骤。
CN2006800263392A 2005-07-20 2006-06-05 音质变化部位确定装置及音质变化部位确定方法 Expired - Fee Related CN101223571B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005209449 2005-07-20
JP209449/2005 2005-07-20
PCT/JP2006/311205 WO2007010680A1 (ja) 2005-07-20 2006-06-05 声質変化箇所特定装置

Publications (2)

Publication Number Publication Date
CN101223571A CN101223571A (zh) 2008-07-16
CN101223571B true CN101223571B (zh) 2011-05-18

Family

ID=37668567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800263392A Expired - Fee Related CN101223571B (zh) 2005-07-20 2006-06-05 音质变化部位确定装置及音质变化部位确定方法

Country Status (4)

Country Link
US (1) US7809572B2 (zh)
JP (1) JP4114888B2 (zh)
CN (1) CN101223571B (zh)
WO (1) WO2007010680A1 (zh)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JP4856560B2 (ja) * 2007-01-31 2012-01-18 株式会社アルカディア 音声合成装置
CN101606190B (zh) 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
JP4914295B2 (ja) * 2007-06-21 2012-04-11 パナソニック株式会社 力み音声検出装置
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8145490B2 (en) * 2007-10-24 2012-03-27 Nuance Communications, Inc. Predicting a resultant attribute of a text file before it has been converted into an audio file
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
WO2011001694A1 (ja) * 2009-07-03 2011-01-06 パナソニック株式会社 補聴器の調整装置、方法およびプログラム
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US20120016674A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9082414B2 (en) * 2011-09-27 2015-07-14 General Motors Llc Correcting unintelligible synthesized speech
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9251809B2 (en) * 2012-05-21 2016-02-02 Bruce Reiner Method and apparatus of speech analysis for real-time measurement of stress, fatigue, and uncertainty
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
JP5949607B2 (ja) 2013-03-15 2016-07-13 ヤマハ株式会社 音声合成装置
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP6413220B2 (ja) * 2013-10-15 2018-10-31 ヤマハ株式会社 合成情報管理装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9642087B2 (en) * 2014-12-18 2017-05-02 Mediatek Inc. Methods for reducing the power consumption in voice communications and communications apparatus utilizing the same
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9653096B1 (en) * 2016-04-19 2017-05-16 FirstAgenda A/S Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN106384599B (zh) * 2016-08-31 2018-09-04 广州酷狗计算机科技有限公司 一种破音识别的方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、***和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3485586B2 (ja) 1991-09-30 2004-01-13 三洋電機株式会社 音声合成方法
JPH0772900A (ja) 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JP3384646B2 (ja) * 1995-05-31 2003-03-10 三洋電機株式会社 音声合成装置及び読み上げ時間演算装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3287281B2 (ja) * 1997-07-31 2002-06-04 トヨタ自動車株式会社 メッセージ処理装置
JP3587976B2 (ja) 1998-04-09 2004-11-10 日本電信電話株式会社 情報出力装置および方法と情報出力プログラムを記録した記録媒体
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
JP3706758B2 (ja) 1998-12-02 2005-10-19 松下電器産業株式会社 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2000250907A (ja) 1999-02-26 2000-09-14 Fuji Xerox Co Ltd 文書処理装置および記録媒体
EP1256932B1 (en) 2001-05-11 2006-05-10 Sony France S.A. Method and apparatus for synthesising an emotion conveyed on a sound
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
JP3738011B2 (ja) * 2001-11-20 2006-01-25 株式会社ジャストシステム 情報処理装置、情報処理方法、及び情報処理プログラム
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法

Also Published As

Publication number Publication date
JPWO2007010680A1 (ja) 2009-01-29
US20090259475A1 (en) 2009-10-15
WO2007010680A1 (ja) 2007-01-25
JP4114888B2 (ja) 2008-07-09
CN101223571A (zh) 2008-07-16
US7809572B2 (en) 2010-10-05

Similar Documents

Publication Publication Date Title
CN101223571B (zh) 音质变化部位确定装置及音质变化部位确定方法
Johns-Lewis Intonation in discourse
US10229669B2 (en) Apparatus, process, and program for combining speech and audio data
Mayo et al. The influence of phonemic awareness development on acoustic cue weighting strategies in children's speech perception
Martin The structure of spoken language: intonation in Romance
Xie et al. The impact of musical training and tone language experience on talker identification
CN111739556B (zh) 一种语音分析的***和方法
TWI554984B (zh) 電子裝置
KR101859268B1 (ko) 영어 단어의 음절과 연동된 악보 제공 시스템
Strange et al. Cross-language categorization of French and German vowels by naïve American listeners
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
Gibbon Prosody: The rhythms and melodies of speech
Poss Hmong music and language cognition: An interdisciplinary investigation
Alfaifi Syllabification of coda consonant clusters in Najdi and Hijazi Arabic
Jarmulowicz et al. Lexical frequency and third-graders' stress accuracy in derived English word production
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
Jimenez et al. What helps jazz musicians name tunes from harmony? The relationship between work with harmony and the ability to identify well-known jazz standards from chord progressions
Plamondon Computer-assisted phonetic analysis of english poetry: a preliminary case study of browning and tennyson
JP5184234B2 (ja) データ生成装置及びデータ生成プログラム、並びに、再生装置
JP2004334164A (ja) 英語の音素「l」及び「r」の発音及び識別学習装置
JP7379968B2 (ja) 学習支援装置、学習支援方法及びプログラム
Kaland et al. How f0 and Phrase Position Affect Papuan Malay Word Identification.
Lui A Compact Spectrum-Assisted Human Beatboxing Reinforcement Learning Tool On Smartphone.
Cohen Using spectral analysis in the flute studio to develop tone quality

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140928

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140928

Address after: Seaman Avenue Torrance in the United States of California No. 2000 room 200

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110518

CF01 Termination of patent right due to non-payment of annual fee