CN107077863A - 用于在指定语言中辅助改善用户语音的方法和*** - Google Patents

用于在指定语言中辅助改善用户语音的方法和*** Download PDF

Info

Publication number
CN107077863A
CN107077863A CN201480081179.6A CN201480081179A CN107077863A CN 107077863 A CN107077863 A CN 107077863A CN 201480081179 A CN201480081179 A CN 201480081179A CN 107077863 A CN107077863 A CN 107077863A
Authority
CN
China
Prior art keywords
text
user
attributes
voice
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480081179.6A
Other languages
English (en)
Inventor
大卫·托波尔卢斯基
卡尔·绍尔茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Hub Pte Ltd
Original Assignee
Intelligent Hub Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Hub Pte Ltd filed Critical Intelligent Hub Pte Ltd
Publication of CN107077863A publication Critical patent/CN107077863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种以指定语言辅助改善用户语音的***和方法,所述方法包括:以指定语言或另一语言从用户接收用户将以指定语言说出的文本;处理文本以导出指定语言中的文本的语音的一个或多个预期属性;接收用户以指定语言说出文本的音频;处理音频以导出用户说出文本的一个或多个属性;比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性,以确定用户说出文本的准确性;以及向用户输出用于指出准确性的反馈。

Description

用于在指定语言中辅助改善用户语音的方法和***
技术领域
本发明涉及一种用于在指定语言中辅助改善用户语音的方法和***,特别地,涉及以所述指定语言或另一语言接收从用户将以指定语言说出的文本。
本发明在比较用户说出文本的属性与文本语音的相应预期属性以确定用户说出文本的准确性并向用户输出用户说出文本的准确性的反馈时,具有特定但非排他性的应用。
发明背景
传统上,希望学习所需语言的人将与老师和其他学生采取适当的课程。在课程中,老师例如向学生提供要说出语言的一些文本,然后向学生提供关于他们说出文本与文本预期语音相比的反馈。所述反馈还可以包括与文本语音的特定属性相关的评论,诸如流畅度和发音。此外,老师还可以为学生提供练习使得学生可在家里学习。然而,在这种情况下,学生在家中无法接收到任何反馈并且在某些情况下可能产生不良习惯,这将有损于学生学习和改善所需语言的语音的能力。
在现有示例中,可采用电子语音反馈***来消除学生学习语言的语音时对实体教师的需要。在现有示例中,可提供具有已知的语音属性(例如发音)的字词给用户以供用户口头练习。反馈***接收用户说出预定字词的音频,并应用语音识别算法来确定用户是否准确地说出那些字词。然而,在这个示例中,用户可能会对这些预定并且经常重复的字词觉得乏味且感觉和自己并不相关,因此,用户可能丧失对改进所需语言的语音的兴趣。
发明内容
根据本发明的第一方面,提供了一种在指定语言中辅助改善用户语音的方法,所述方法包括:以指定语言或另一语言从用户接收用户将以指定语言说出的文本;处理文本以导出指定语言中的文本的语音的一个或多个预期属性;接收用户以指定语言说出文本的音频;处理音频以导出用户说出文本的一个或多个属性;比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性,以确定用户说出文本的准确性;以及向用户输出用于指出准确性的反馈。
在一实施例中,文本语音的一个或多个预期属性和用户说出文本的属性包括发音、流畅度和韵律特征中的至少一个。语音的韵律特征包括字词的音节长度、响度和音调的变化。本领域技术人员可理解的是,预期的发音、流畅度和韵律特征可以通过说话者指定语言的语音的经验分析来确定。实际上,韵律特征可以用于指出指定语言的重音。在这种情况下,可由经验分析来确定例如美国中西部口音的韵律特征,并且所述方法可以确定并向用户输出用于指出用户以美国中西部口音说话的准确性的反馈。
本领域技术人员可理解的是,确定用户说出文本的准确性包括基于比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性所确定的准确性的总和来确定用户说出文本的质量的测量(例如,1/100至100/100)。因此,在所述实施例中,所述方法通过确定用户说出文本的每个指定属性(诸如步速、音调、能量、发音、流畅度等)的准确性来确定用户说出文本的准确性。
在一实施例中,所述方法还包括将文本解析为一个或多个句子或字词片段。例如,通过顺序地搜索包括那些字词的文本以找出出现诸如句点、问号和惊叹号的未加引号的句子终止标点符号,从而将字词集合解析成一个或多个句子。
或者,字词集合被解析为一组具有固定字词计数的字词片段,每个字词片段通常大小为2至8个字词。然后,输出这些片段,从而顺序地教导给用户,从最初教导一个片段,然后添加第二个片段,直到教导了整个字词集合。在一变化中,这些字词片段可以从字词集合的开始处从左到右构建,直到教导了整个集合。或者,这些字词片段可以从字词集合的结尾处从右到左构建。例如,如果字词片段计数是三,则首先教导集合的最后三个字词,然后教导最后六个字词,然后教导最后九个字词等,直到字词集合完成。
在另一实施例中,还产生文本的一个或多个句子的语法。本领域技术人员将理解的是,所述语法(例如多个语法)指的是语音识别语法,亦即可以由实现语音识别算法的语音识别器识别的形式语法结构。在一示例中,例如经由显示在用户设备的显示器上的第一个句子的文本以向用户提供用于说出多个句子中的第一个句子的提示。所述方法还包括接收用户说出文本的多个句子中的第一个句子的音频,然后向用户输出用于指出用户说出多个句子中的第一个句子的准确性的反馈。在输出反馈之后,然后提示用户说出多个句子中的第二个句子。
因此,在使用的示例中,用户首先以指定语言或者以另一语言输入他们希望学习语音的文本,并且将其翻译成指定语言以供向用户显示。然后将文本解析为句子。然后提示希望以指定语言改进他们语音的用户说出所显示文本的第一个句子。用户说出的语音由语音识别器接收和处理,使得用户可以接收关于他们的语音的发音、流畅度等的反馈。在接收到反馈之后,用户可以继续到下一句并相应地接收反馈,等等。
例如,所述方法使用语音识别语法规范(Speech Recognition GrammarSpecification,SRGS),其用于与实现语音识别算法的语音识别器一起控制所有识别操作。SRGS是用于语音识别语法的万维网联盟(World Wide Web Consortium,W3C)标准。还将理解的是,语音识别语法是用于指出语音识别器关于期望人们说出什么的一组字词模式。
在一实施例中,所述方法还包括处理文本以将文本呈现为指定语言的音频,然后经由用户设备的扬声器将音频输出到用户。也就是说,在本实施例中,可使用文本到语音生成器以帮助用户改善指定语言的语音。例如,在使用中,用户说出一个句子,接收关于用户说出句子方式的准确性的反馈,然后听到所述句子的预期语音以用于比较。实际上,所述方法的顺序可以是例如(a):输入文本,输入语音,然后提供预期的语音输出或(b):输入文本,提供预期的语音输出,然后是语音输入以用于比较。
本领域技术人员应当理解的是,处理音频以导出用户说出文本的一个或多个属性的步骤是使用语音识别算法来实现的,并且处理文本以导出一个或多个文本语音的预期属性的步骤是使用语音合成算法来实现。
优选地,所述准确性包括多于一个的置信度值,其与对应于文本语音的一个或多个预期属性的用户说出文本的一个或多个属性的准确性相关联。置信度值可以例如是通过/失败,其基于用户的语音属性与预期属性有多接近。例如,以语音流畅度和发音以及用户说出文本的预期流畅度和发音之间70%匹配作为基线,如果用户说出文本的语音流畅度和发音超过70%匹配,则确定为通过。在一示例中,与精确度相关联的置信度值包括:高度精确(例如80%以上匹配)、有限的精确(例如50%‐80%匹配),有限的不足(例如20%‐50%匹配)和非常不精确(例如0%‐20%匹配)。参考所述示例,所述反馈还包括颜色,其用于指出所述准确性的置信度值中的不同置信度值。例如,用户设备的显示器上的绿色显示为高度精确,橙色显示为有限的精确,棕色显示为有限的不足,红色显示为非常不精确。可以设想的是,也可以向用户提供音频反馈,例如经由用户设备的扬声器输出语音“非常不精确”。其他形式的反馈包括数字等级(例如1‐10),字母等级(例如A‐F),徽章或反馈的一些其他视觉指示器。
在另一实施例中,所述方法还包括处理文本以导出文本中的预定禁止词,以使禁止词可被删失。例如,预先确定表示仇恨言语等的谚语和词语,并将其存储在存储器中,并在实现将文本解析为句子的步骤之前访问预定禁止词。
在一实施例中,所述方法还包括在存储器中记录用户以指定语言说出文本的音频。以这种方式,所述方法可以处理记录在数据库中的音频以导出文本语音的一个或多个预期属性。也就是说,可以通过分析许多用户说出文本的记录来确定文本的预期发音。另外,特定用户的记录语音可以用于稍后分析,例如用于指出用户说出所指定语言的进步程度。在另一示例中,用户输入并接收的所有文本则被留用于脱机分析。也就是说,搜索文本串的集合以用于重复(例如,来自不同用户的相同输入)以及在多个用户中流行的特定词或主题。
根据本发明的另一方面,提供了一种用于在指定语言中辅助改善用户语音的***,所述***包括处理器,处理器具有:输入模块,被配置为:以指定语言或另一语言从用户接收用户将以指定语言说出的文本,以及接收用户以指定语言说出的文本的音频;处理模块,其被配置为:处理文本以导出指定语言中的文本语音的一个或多个预期属性,处理音频以导出用户说出文本的一个或多个属性,以及比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性,以确定用户说出文本的准确性;以及输出模块,其被配置为:向用户输出用于指出准确性的反馈。
根据本发明的另一方面,提供了一种用于在指定语言中辅助改善用户语音的***,所述***包括:显示器,被配置为以所指定的语言或以另一语言显示文本;文本输入设备,被配置为以指定语言或另一语言从用户输入用户将以指定语言说出的文本;麦克风,被配置为输入用户以指定语言说出文本的音频;以及处理器,所述处理器具有:输入模块,被配置为:以指定语言或另一语言从用户接收用户将以指定语言说出的文本,以及接收用户以指定语言说出文本的音频;处理模块,被配置为:处理文本以导出指定语言中文本语音的一个或多个预期属性,处理音频以导出用户说出文本的一个或多个属性,以及比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性,以确定用户说出文本的准确性;以及输出模块,被配置为:向用户输出用于指出准确性的反馈。
在一实施例中,所述***还包括服务器,服务器包括通过网络与包括显示器、文本输入设备和麦克风的用户设备进行数据通信的上述处理器。也就是说,在所述实施例中,用户具有用户设备(例如,平板计算机、个人计算器或智能手机),其通过网络(例如,因特网)与主控处理器的服务器进行数据通信且具有输入和输出功能。因此,用户通过例如键入文本或将来自文文件的文本电子粘贴到分配的文本框中来输入将以指定语言说出的文本。文本通过网络传送到服务器,服务器将文本解析成句子,并通过网络输出要由用户说出的第一个句子以显示在用户设备的显示器上。用户然后可以说出第一个句子,并且用户说出的音频由麦克风接收并且被传送到服务器而被处理,使得反馈可以经由例如如上所述的用户设备的显示器确定和输出。也就是说,用户设备的显示器还被配置为向用户显示反馈。
在另一实施例中,包括显示器、文本输入设备和麦克风的用户设备还包括处理器。因此,在本实施例中,所述处理可在用户设备上本地执行。
优选地,处理模块还被配置为将文本解析为一个或多个句子,并且输出模块还被配置为输出用于使得用户说出多个句子中的第一个句子的提示。此外,输入模块还被配置为接收用户说出文本的多个句子中的第一个句子的音频,并且输出模块还被配置为向用户输出用于指出用户的一个或多个属性的准确性的反馈,所述一个或多个属性对应于文本中第一个句子的音频的一个或多个预期属性。
如在上面的一些实施例中所描述的,***允许用户生成文本以帮助用户以指定语言改善他们的语音。文本被解析为句子,并且提示用户一次说一个句子,使得用户可以在每个句子的结尾处接收反馈。因此,在此情况下,输出模块还被配置成在向用户输出用以指出用户说出第一句话的一个或多个属性的准确性的反馈之后,输出用于使得用户说出第二个句子的进一步提示。
此外,处理模块还被配置为生成文本的一个或多个句子的语法,并且所述提示包括多个句子中的第一个句子的文本。
在一实施例中,处理模块还被配置为处理文本以导出指定语言文本的预期语音。在一实施例中,输出模块被配置为经由用户设备的扬声器输出将被输出到用户的文本的预期语音。例如,处理模块包括语音合成模块,用于处理文本以导出预期语音,所述预期语音例如在用户说话之后输出给用户,使得用户可以比较并进一步改善他们的语音。
在一实施例中,处理模块还被配置为处理文本以导出文本中的预定禁止词,以使禁止词可被删失。禁止词存储在可以位于配置在远程于处理器且可通过网络访问的服务器上或者可以位于本地的服务器。
根据本发明的另一方面,提供了当被执行时实现上述方法的计算器程序代码。
根据本发明的另一方面,提供了一种包括上述程序代码的有形计算器可读介质。
根据本发明的另一方面,提供了一种包括上述程序代码的数据文件。
图式的简要说明
为了能够更清楚地理解本发明,现将实施例的示例与附图一起描述,其中:
图1是根据本发明实施例的在指定语言中辅助改善用户语音的方法的流程图;
图2是根据本发明的实施例的用于在指定语言中辅助改善用户语音的***的示意图;以及
图3是图2所示***的另一示意图,其示出了通过网络与用户设备通信的***。
详细说明
根据本发明的实施例,提供了一种如图1所示的在指定语言中辅助改善用户语音的方法10。方法10包括以下步骤,以指定语言或另一语言从用户接收用户将以指定语言说出的文本12,处理文本以导出指定语言文本的语音的一个或多个预期属性14,接收用户以指定语言说出文本的音频16,处理音频以导出用户说出文本的一个或多个属性18,比较用户说出文本的一个或多个属性与文本语音的一个或多个预期属性中的对应属性,以确定用户说出文本的准确性20,并且向用户输出用于指出准确性的反馈22。
如上所述,文本语音的一个或多个预期属性和用户说出文本的属性包括发音、流畅度和韵律特征中的至少一个。语音的韵律特征包括字词的音节长度、响度和音调的变化。因此,在一使用的示例中,输入文本的预期语音的流畅度和发音是从文本导出,并且与从用户说出文本的音频导出的流畅度和发音进行比较,以确定用户说出文本的准确性。然后将用户语音的准确性(在其在发音和流畅度方面)反馈给用户,以帮助用户改善他们指定语言(例如英语)的语音。
本发明的另一实施例提供了一种如图2所示的***24,其用于实现在指定语言中辅助改善用户语音的方法10。***24包括处理器26,其具有多个用于实现方法10的模块。亦即,处理器26包括输入模块28、处理模块30和输出模块32。处理器26和/或***24的其它组件(例如存储器52,图3所示)被布置成通过例如网络经由通信通道34接收和发送信息。在本实施例中,处理器26由计算器来实现,所述计算器通过通信信道34与包含在用户设备38(图3所示)的输入设备和输出设备通信。然而,如所描述的,存储器52也可以配置在远程于处理器26且可通过网络访问的服务器上。在任何情况下,本领域技术人员应当理解的是,输入28和输出32模块具有适当接口,其用于与网络、***24中的模块接口以及建立通信通道34。此外,还应当理解的是,输入设备和输出设备不需要包含在相同的用户设备38中。例如,用户将要说出的文本可以显示在通过网络与***24通信的电视上,而音频则由用户使用通过网络与***24通信的智能电话来记录。
如所描述的,在任何情况下,输入模块28被配置为从用户接收以指定语言或另一种语言描述的文本,并接收用户以指定语言说出文本的音频。处理模块30被配置为以使用例如语音识别算法处理文本以导出从输入模块28接收到的文本的语音的预期属性(例如,流畅度),并处理从输入模块28接收的音频以导出用户说出文本的属性。处理模块30还用于将文本解析为一个或多个句子。也就是说,经由处理模块30顺序地搜索文本中出现未引用的句子终止标点符号,例如句点、问号和惊叹号,输入模块28所接收到包括单词集合的文本被解析为一个或多个句子。因此,在使用中,用户可被提示说出所解析出多个句子中的第一个句子,并且通过输入模块28接收用户说出文本中第一个句子的音频,等等。
在一例子中,某一句子例如「他说,“我没有做!”然后他继续说话」被解析成单一个句子「他说,“我没有做!”然后他继续说话」。
但是,下面这个句子「他说,我没有做!然后他继续说话」则被解析成两个句子。其一是「他说,我没有做!」,其二是「然后他继续说话」,以提示用户说出这些句子。此外,一旦来自输入文本的字词集合已经被解析为单个句子,则每个句子被转换为与其预期属性一致的语音识别语法。所述句子以视觉或听觉方式呈现给用户,然后提示用户说出他或她所阅读或听到的内容,并且用户的口头响应从输入模块28传递到由处理模块30实现的语音识别器与句子语法一同用于分析。
因此,处理模块30将用户说出文本的属性与例如由语音识别供货商提供的文本语音的预期属性进行比较,以确定与用户说出文本相关的属性的准确性。输出模块32从处理模块30接收所确定的精准确性,并且向用户输出用于指出用户说出文本的准确性的反馈。
图3示出了用于在指定语言中辅助改善用户语音的***36,其包括用于通过网络40(例如因特网)输入和输出信息到处理器26的用户设备38。如所描述的,在图中未示出的另一个实施例中,***24可以是独立的并且包括合适的组件以向处理器26输入和输出信息以实现方法10。尽管如此,处理器26在图中例如以可通过因特网40访问的服务器54实现来示出。处理器26和存储器52还可以以例如具有虚拟服务器或跨多个实体服务器的云服务来实现。在一示例中,服务器54可经由统一资源定位符(Uniform Resource Locator,URL)访问,URL可以嵌入在网站中供用户经由其用户设备38访问。在另一示例中,网络40是局域网(Local Area Network,LAN)且用户设备38经由例如WiFi与服务器通信。
图3所示的用户设备38包括显示器44,其被配置为向用户显示以指定语言或另一种语言描述的文本。在图3中示出的示例中可以看出,显示的文本是「喂Joe,你在做什么」,并且用户设备是具有触摸屏或手势读取能力的平板计算器。如所描述的,其他用户设备诸如智能电话和个人计算器亦可与***36一起使用。
在一参考所述实施例的示例中,用户经由输入设备46输入文本「喂Joe,你在做什么」作为学习英语时将要说出的文本的一部分,其中输入设备46采用触摸屏键盘的形式。一旦用户完成文本的键入或粘贴来自另一文文件的文本,用户就可以点击“提交”按钮(未示出),并通过因特网40将文本发送到服务器54。输入的文本经由因特网40通过通信通道42和34被发送到输入模块28,使得处理模块30可以处理文本以导出文本语音的预期属性。如上所述,处理模块30将文本解析为将要显示给用户的句子,每次显示一个要被用户说出的句子,以便用户在每个句子结束时接收用于指出用户说出文本准确性的反馈。此外,在一实施例中,处理模块30将每个句子转换为上下文无关的语法,其是由处理模块30所采用用于分析用户说出句子语音的目标语音识别器所需的句法。也就是说,在本实施例中,语法代表着要传达给语音识别器的文本所包装的结构。
在一参考相同实施例的示例中,文本「喂Joe,你在做什么」经由输出模块32被输出回用户设备38,并且作为提示用户要说出的第一个句子显示在显示器44上。也就是说,所述提示包括用户要说出的第一个句子的文本。麦克风48用于记录用户说出所述句子,并且用户说出所述句子的音频经由因特网40被发送到输入模块28,使得处理模块30可以处理音频以导出用户说出所述句子的属性。处理模块30然后将音频导出的属性与预期属性进行比较,经由目标语音识别器算法来确定用户说出文本的准确性。
输出模块32然后将由处理模块30确定的用于指出准确性的反馈经由因特网40输出到用户,所述反馈可以是要在显示器44上显示的颜色,以指出所确定准确性的置信度值的不同水平。如所描述的,绿色用于指出与精确度为高精确度(例如80%以上匹配)相关联的置信度值。在另一示例中,输出模块32以语音形式经由用户设备38的扬声器50向用户输出由处理模块30所确定且用于指出用户说出文本的准确性的反馈。例如,当处理模块30确定置信度值大于80%时,扬声器50输出的语音反馈“高度准确”状态。如所描述的,显示器44还可以被配置为显示用于指出所确定的准确性的置信度值的不同水平的其它协议,诸如数字和字母等级。此外,在一实施例中,处理模块30包括语音合成算法,并且此处输出模块32可以被配置为将要从扬声器50输出的文本的合成期望语音输出给用户,以进一步辅助用户改善他们的语音。
在输出反馈之后,输出模块32还被配置为输出由用户输入的文本且由处理模块30解析出的下一个句子(未示出),以作为使用户说出第二个句子的进一步提示。包括第二个句子文本的提示也显示在显示器44上,并且麦克风48用于记录用户说出所述句子。与第一个句子一样,用户说出第二个句子的音频被发送到输入模块28,使得处理模块30可以处理音频以导出用户说出文本的属性。处理模块30然后将音频所导出的属性与预期属性进行比较以确定用户说出文本的准确性,并且输出模块32向用户输出反馈,其可以是要在显示器44上显示的颜色,以指示处理模块30所确定的准确性。输出模块然后输出下一个句子并重复所述过程,直到从用户输入的文本中解析的所有句子被用户说出或者用户提早终止所述过程。
如所描述的,存储器52可以用于记录用户以指定语言说出文本的音频。因为可以通过对用户说话记录的分析来确定文本的预期发音文本,因此,处理模块30可以进一步处理记录在存储器52中的音频,以导出和细化文本语音的一个或多个预期属性。此外,所记录的语音与相关联用于指出特定用户的数据存储在存储器52中,以使得记录可被检索以供之后的分析,诸如用于指出特定用户他们在语言学习中的进展。本领域技术人员还将理解的是,所述方法和***可以用于希望改进其他语言(诸如法语、汉语、日语等)的用户。
根据对***的以上描述,所述方法的其它方面将是显而易见的。本领域技术人员还将理解的是,所述方法可以体现在程序代码中。程序代码可以以多种方式提供,例如在诸如磁盘或存储器的有形计算器可读介质上或者作为数据信号或数据文件。
本发明领域的技术人员应当理解的是,在不脱离本发明的精神和范围的情况下本发明可进行改变,添加和/或修改。
应当理解的是,如果本发明在此引用任何现有技术,则这样的引用不构成承认现有技术形成任何国家的本领域的公知常识的一部分。
本发明可以用作关于一个或多个未来应用的优先级的基础,并且这些未来应用的权利要求可以是本申请中描述的任何一个特征或特征的组合。因此,未来应用包括以下权利要求中的一个或多个,其通过示例给出并且关于任何未来的应用中可以要求保护的内容是非限制性的。
权利要求书(按照条约第19条的修改)
1.一种在指定语言中辅助改善用户语音的方法,所述方法包括:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
接收所述用户以所述指定语言说出的所述文本的音频;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
向所述用户输出用于指出所述准确性的反馈,其中所述方法还包括:
将所述文本解析成要将由所述用户说出的一个或多个句子或字词片段;
接收所述用户说出所述文本中第一个句子或片段的音频;以及
向所述用户输出用于指出所述用户说出所述句子或字词片段的准确性的所述反馈。
2.如权利要求2所述的方法,还包括输出用于使所述用户说出所述句子或所述片段中的第一个的提示,以及接收所述用户说出所述文本中第一个句子或片段的音频。
3.如权利要求2所述的方法,还包括向所述用户输出反馈,所述反馈用于指出所述用户说出所述文本中第一个句子或片段。
4.如权利要求3所述的方法,还包括在向所述用户输出所述用户说出所述文本中第一个句子或片段的准确性的反馈之后,输出用于使所述用户说出所述文本中第二个句子或片段的提示。
5.如权利要求2所述的方法,其中,所述提示包括要在用户设备的显示器上向所述用户显示的第一个句子或片段的文本。
6.如权利要求1所述的方法,还包括生成所述文本的所述一个或多个句子的语法。
7.如权利要求1至6中任一项所述的方法,还包括处理所述文本以导出所述指定语言的所述文本的合成预期语音。
8.如权利要求7所述的方法,还包括经由用户设备的扬声器输出所述文本的合成预期语音至所述用户。
9.如权利要求1至8中任一项所述的方法,其中,所述准确性包括多于一个的置信度值,其与对应于所述文本语音的一个或多个预期属性的所述用户说出所述文本的一个或多个属性的准确性相关联。
10.如权利要求9所述的方法,其中,所述反馈包括颜色,用于指出所述准确性的不同置信度值。
11.如权利要求1至10中任一项所述的方法,还包括处理所述文本以导出所述文本中的预定禁止词,以使所述禁止词可被删失。
12.如权利要求1至11中任一项所述的方法,其中,所述文本语音的一个或多个预期属性和所述用户说出文本的一个或多个属性包括发音、流畅度和韵律中的至少一个特征。
13.如权利要求1至12中任一项所述的方法,还包括处理所述音频以使用语音识别算法导出所述用户说出所述文本的所述一个或多个属性。
14.如权利要求1至13中任一项所述的方法,还包括处理所述文本以使用语音合成算法导出所述文本的所述一个或多个预期属性。
15.一种用于在指定语言中辅助改善用户语音的***,所述***包括处理器,所述处理器具有:
输入模块,被配置为:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;以及
接收所述用户以所述指定语言说出的所述文本的音频;
处理模块,被配置为:
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;以及
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
输出模块,被配置为向所述用户输出用于指出所述准确性的反馈,其中
所述处理模块还被配置为将所述文本解析成一个或多个句子或字词片段;
所述输入模块还被配置为接收所述用户说出所述文本的一个或多个句子或字词片段的音频;以及
所述输出模块还被配置为向所述用户输出用于指出所述用户说出所述句子或字词片段的准确性的所述反馈。
16.如权利要求15所述的***,其中,所述输出模块还被配置为输出用于使所述用户说出所述句子或所述片段中的第一个的提示。
17.如权利要求16所述的***,其中,所述输入模块还被配置为接收所述用户说出所述文本中第一个句子或片段的音频。
18.如权利要求17所述的***,其中,所述输出模块还被配置为向所述用户输出反馈,所述反馈用于指出所述用户说出所述文本中第一个句子或片段的准确性。
19.如权利要求18所述的***,其中,所述输出模块还被配置为在向所述用户输出所述用户说出所述文本中第一个句子或片段的准确性的反馈之后,输出用于使所述用户说出所述文本中第二个句子或片段的提示。
20.如权利要求16所述的***,其中,所述提示包括要在用户设备的显示器上向所述用户显示的第一个句子或片段的文本。
21.如权利要求15所述的***,其中所述处理模块还被配置为生成所述文本的语音识别语法。
22.如权利要求15至21中任一项所述的***,其中所述处理模块还被配置为处理所述文本以导出所述指定语言的文本的合成期望语音。
23.如权利要求22所述的***,其中所述输出模块还被配置为经由用户设备的扬声器输出所述文本的合成预期语音至所述用户。
24.如权利要求15至23中任一项所述的***,其中,所述准确性包括多于一个的置信度值,其与对应于所述文本语音的一个或多个预期属性的所述用户说出所述文本的一个或多个属性的准确性相关联。
25.如权利要求24所述的***,其中,所述反馈包括颜色,用于指出所述准确性的不同置信度值。
26.如权利要求15至25中任一项所述的***,其中所述处理模块还被配置为处理所述文本以导出所述文本中的预定禁止词,以使所述禁止词可被删失。
27.如权利要求15至26中任一项所述的***,其中,所述***还包括存储器,其用于记录所述用户说出所述文本的音频。
28.如权利要求27所述的***,其中,所述处理模块还被配置为处理记录于所述存储器中的音频,以导出所述文本的语音的一个或多个预期属性。
29.如权利要求15至28中任一项所述的***,其中,所述文本语音的一个或多个预期属性和所述用户说出文本的一个或多个属性包括发音、流畅度和韵律中的至少一个特征。
30.一种用于在指定语言中辅助改善用户语音的***,所述***包括:
显示器,被配置为以所指定的语言或以另一语言显示文本;
文本输入设备,被配置为以所述指定语言或另一语言从所述用户输入所述用户将以所述指定语言说出的文本;
麦克风,被配置为输入所述用户以所述指定语言说出的所述文本的音频;以及
处理器,所述处理器具有:
输入模块,被配置为:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;以及
接收所述用户以所述指定语言说出的所述文本的音频;
处理模块,被配置为:
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;以及
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
输出模块,被配置为向所述用户输出用于指出所述准确性的反馈,其中
所述处理模块还被配置为将所述文本解析成一个或多个句子或字词片段;
所述输入模块还被配置为接收所述用户说出所述文本的一个或多个句子或字词片段的音频;以及
所述输出模块还被配置为向所述用户输出用于指出所述用户说出所述句子或字词片段的准确性的所述反馈。
31.如权利要求30所述的***,其中,所述显示器还被配置为向所述用户显示所述反馈。
32.如权利要求31所述的***,还包括服务器,所述服务器包括所述处理器,所述处理器通过网络与包括所述显示器,所述文本输入设备和所述麦克风的用户设备进行数据通信。
33.一种计算器程序代码,当被执行时实现根据权利要求1至14中任一项所述的方法。
34.一种包括如权利要求33所述的程序代码的有形计算器可读介质。
35.一种包括权利要求33所述的程序代码的数据文件。

Claims (37)

1.一种在指定语言中辅助改善用户语音的方法,所述方法包括:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
接收所述用户以所述指定语言说出的所述文本的音频;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
向所述用户输出用于指出所述准确性的反馈。
2.如权利要求1所述的方法,还包括将所述文本解析成一个或多个句子或字词片段。
3.如权利要求2所述的方法,还包括输出用于使所述用户说出所述句子或所述片段中的第一个的提示,以及接收所述用户说出所述文本中第一个句子或片段的音频。
4.如权利要求3所述的方法,还包括向所述用户输出反馈,所述反馈用于指出所述用户说出所述文本中第一个句子或片段的准确性的一个或多个属性,所述一个或多个属性对应于所述文本中第一个句子或片段的音频的所述一个或多个预期属性。
5.如权利要求4所述的方法,还包括在向所述用户输出所述用户说出所述文本中第一个句子或片段的准确性的一个或多个属性的反馈之后,输出用于使所述用户说出所述文本中第二个句子或片段的提示。
6.如权利要求2至4中任一项所述的方法,其中,所述提示包括要在用户设备的显示器上向所述用户显示的第一个句子或片段的文本。
7.如权利要求6所述的方法,还包括生成所述文本的所述一个或多个句子的语法,并且所述提示包括所述句子中的第一个的文本。
8.如权利要求1至7中任一项所述的方法,还包括处理所述文本以导出所述指定语言的所述文本的预期语音。
9.如权利要求8所述的方法,还包括经由用户设备的扬声器输出将要输出到所述用户的所述文本的所述预期语音。
10.如权利要求1至9中任一项所述的方法,其中,所述准确性包括多于一个的置信度值,其与对应于所述文本语音的一个或多个预期属性的所述用户说出所述文本的一个或多个属性的准确性相关联。
11.如权利要求10所述的方法,其中,所述反馈包括颜色,用于指出所述准确性的置信度值中的不同置信度值。
12.如权利要求1至11中任一项所述的方法,还包括处理所述文本以导出所述文本中的预定禁止词,以使所述禁止词可被删失。
13.如权利要求1至11中任一项所述的方法,还包括将所述用户以所述指定语言说出所述文本的音频记录在存储器中。
14.如权利要求13所述的方法,还包括处理记录于所述存储器中的音频,以导出所述文本的语音的一个或多个预期属性。
15.如权利要求1至14中任一项所述的方法,其中,所述文本语音的一个或多个预期属性和所述用户说出文本的一个或多个属性包括发音、流畅度和韵律中的至少一个特征。
16.一种用于在指定语言中辅助改善用户语音的***,所述***包括处理器,所述处理器具有:
输入模块,被配置为:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;以及
接收所述用户以所述指定语言说出的所述文本的音频;
处理模块,被配置为:
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;以及
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
输出模块,被配置为向所述用户输出用于指出所述准确性的反馈。
17.如权利要求16所述的***,其中,所述处理模块还被配置为将所述文本解析成一个或多个句子或字词片段。
18.如权利要求17所述的***,其中,所述输出模块还被配置为输出用于使所述用户说出所述句子或所述片段中的第一个的提示。
19.如权利要求18所述的***,其中,所述输入模块还被配置为接收所述用户说出所述文本中第一个句子或片段的音频。
20.如权利要求19所述的***,其中,所述输出模块还被配置为向所述用户输出反馈,所述反馈用于指出所述用户说出所述文本中第一个句子或片段的准确性的一个或多个属性,所述一个或多个属性对应于所述文本中第一个句子或片段的音频的所述一个或多个预期属性。
21.如权利要求20所述的***,其中,所述输出模块还被配置为在向所述用户输出所述用户说出所述文本中第一个句子或片段的准确性的一个或多个属性的反馈之后,输出用于使所述用户说出所述文本中第二个句子或片段的提示。
22.如权利要求18至20中任一项所述的***,其中,所述提示包括要在用户设备的显示器上向所述用户显示的第一个句子或片段的文本。
23.如权利要求22所述的***,其中所述处理模块还被配置为生成所述文本的所述一个或多个句子的语法,并且所述提示包括所述句子中的第一个的文本。
24.如权利要求16至23中任一项所述的***,其中,所述处理模块还被配置为处理所述文本以导出所述指定语言的所述文本的预期语音。
25.如权利要求24所述的***,其中,所述输出模块还被配置为经由用户设备的扬声器输出将要输出到所述用户的所述文本的所述预期语音。
26.如权利要求16至25中任一项所述的***,其中,所述准确性包括多于一个的置信度值,其与对应于所述文本语音的一个或多个预期属性的所述用户说出所述文本的一个或多个属性的准确性相关联。
27.如权利要求26所述的***,其中,所述反馈包括颜色,用于指出所述准确性的置信度值中的不同置信度值。
28.如权利要求16至27中任一项所述的***,其中,所述处理模块还被配置为处理所述文本以导出所述文本中的预定禁止词,以使所述禁止词可被删失。
29.如权利要求16至28中任一项所述的***,其中,所述***还包括存储器,其用于记录所述用户以所述指定语言说出所述文本的音频。
30.如权利要求29所述的***,其中,所述处理模块还被配置为处理记录于所述存储器中的音频,以导出所述文本的语音的一个或多个预期属性。
31.如权利要求16至30中任一项所述的***,其中,所述文本语音的一个或多个预期属性和所述用户说出文本的一个或多个属性包括发音、流畅度和韵律中的至少一个特征。
32.一种用于在指定语言中辅助改善用户语音的***,所述***包括:
显示器,被配置为以所指定的语言或以另一语言显示文本;
文本输入设备,被配置为以所述指定语言或另一语言从所述用户输入所述用户将以所述指定语言说出的文本;
麦克风,被配置为输入所述用户以所述指定语言说出的所述文本的音频;以及
处理器,所述处理器具有:
输入模块,被配置为:
以所述指定语言或另一语言从所述用户接收所述用户将以所述指定语言说出的文本;以及
接收所述用户以所述指定语言说出的所述文本的音频;
处理模块,被配置为:
处理所述文本以导出所述指定语言中的所述文本的语音的一个或多个预期属性;
处理所述音频以导出所述用户说出所述文本的一个或多个属性;以及
比较所述用户说出所述文本的所述一个或多个属性与所述文本的语音的所述一个或多个预期属性中的对应属性,以确定所述用户说出所述文本的准确性;以及
输出模块,被配置为向所述用户输出用于指出所述准确性的反馈。
33.如权利要求32所述的***,其中,所述显示器还被配置为向所述用户显示所述反馈。
34.如权利要求32所述的***,还包括服务器,所述服务器包括所述处理器,所述处理器通过网络与包括所述显示器,所述文本输入设备和所述麦克风的用户设备进行数据通信。
35.一种计算器程序代码,当被执行时实现根据权利要求1至15中任一项所述的方法。
36.一种包括如权利要求35所述的程序代码的有形计算器可读介质。
37.一种包括权利要求35所述的程序代码的数据文件。
CN201480081179.6A 2014-08-15 2014-08-15 用于在指定语言中辅助改善用户语音的方法和*** Pending CN107077863A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SG2014/000385 WO2016024914A1 (en) 2014-08-15 2014-08-15 A method and system for assisting in improving speech of a user in a designated language

Publications (1)

Publication Number Publication Date
CN107077863A true CN107077863A (zh) 2017-08-18

Family

ID=55304425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480081179.6A Pending CN107077863A (zh) 2014-08-15 2014-08-15 用于在指定语言中辅助改善用户语音的方法和***

Country Status (4)

Country Link
JP (1) JP2017530425A (zh)
CN (1) CN107077863A (zh)
SG (1) SG11201701031UA (zh)
WO (1) WO2016024914A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024079605A1 (en) 2022-10-10 2024-04-18 Talk Sàrl Assisting a speaker during training or actual performance of a speech

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028378A1 (en) * 1999-09-09 2003-02-06 Katherine Grace August Method and apparatus for interactive language instruction
CN1510590A (zh) * 2002-12-24 2004-07-07 英业达股份有限公司 利用可视化对应发音提示的语言学习***及方法
CN1512300A (zh) * 2002-12-30 2004-07-14 艾尔科技股份有限公司 自动标示音标以矫正发音的使用者接口、***及方法
CN200990152Y (zh) * 2006-07-03 2007-12-12 北京华旗资讯数码科技有限公司 一种可以进行语音纠音的学习机
JP2008032788A (ja) * 2006-07-26 2008-02-14 Victor Co Of Japan Ltd 語学教材データ作成用プログラム
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
CN101739869A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断***
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的***和方法
CN203746261U (zh) * 2014-02-04 2014-07-30 齐齐哈尔大学 日语发音矫正装置
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0094502A1 (en) * 1982-05-13 1983-11-23 Texas Instruments Incorporated Electronic learning aid for assistance in speech pronunciation
JPS5926799A (ja) * 1982-05-13 1984-02-13 テキサス・インスツルメンツ・インコ−ポレイテツド 音声分析装置及びその操作方法
FR2546323B1 (fr) * 1983-05-20 1985-08-30 Tomatis Alfred Appareil d'entrainement a la pratique d'une langue maternelle ou etrangere, en vue de son assimilation integrale
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028378A1 (en) * 1999-09-09 2003-02-06 Katherine Grace August Method and apparatus for interactive language instruction
CN1510590A (zh) * 2002-12-24 2004-07-07 英业达股份有限公司 利用可视化对应发音提示的语言学习***及方法
CN1512300A (zh) * 2002-12-30 2004-07-14 艾尔科技股份有限公司 自动标示音标以矫正发音的使用者接口、***及方法
CN200990152Y (zh) * 2006-07-03 2007-12-12 北京华旗资讯数码科技有限公司 一种可以进行语音纠音的学习机
JP2008032788A (ja) * 2006-07-26 2008-02-14 Victor Co Of Japan Ltd 語学教材データ作成用プログラム
US20100004931A1 (en) * 2006-09-15 2010-01-07 Bin Ma Apparatus and method for speech utterance verification
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机***
CN101739869A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断***
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的***和方法
CN203746261U (zh) * 2014-02-04 2014-07-30 齐齐哈尔大学 日语发音矫正装置
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Also Published As

Publication number Publication date
JP2017530425A (ja) 2017-10-12
WO2016024914A1 (en) 2016-02-18
SG11201701031UA (en) 2017-03-30

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN110717031B (zh) 一种智能会议纪要生成方法和***
US9947317B2 (en) Pronunciation learning through correction logs
CN109360550B (zh) 语音交互***的测试方法、装置、设备和存储介质
WO2018157703A1 (zh) 自然语言的语义提取方法及装置和计算机存储介质
US8407039B2 (en) Method and apparatus of translating language using voice recognition
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和***
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN110600033B (zh) 学习情况的评估方法、装置、存储介质及电子设备
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN109545183A (zh) 文本处理方法、装置、电子设备及存储介质
CN105895103A (zh) 一种语音识别方法及装置
JP5857090B2 (ja) 情報検索装置、情報検索プログラム、及び情報検索システム
CN104166462A (zh) 一种文字的输入方法和***
CN105374356A (zh) 语音识别方法、语音评分方法、语音识别***及语音评分***
CN111651497B (zh) 用户标签挖掘方法、装置、存储介质及电子设备
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN106816151B (zh) 一种字幕对准方法及装置
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN110111778A (zh) 一种语音处理方法、装置、存储介质及电子设备
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
CN109326284A (zh) 语音搜索的方法、装置和存储介质
CN106601253A (zh) 重要领域智能机器人文字播音朗读审核校对方法和***
CN102970618A (zh) 基于音节识别的视频点播方法
CN113205729A (zh) 一种面向外国留学生的演讲评测方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170818