CN1425158A - 语音控制外语翻译设备用的方法和装置 - Google Patents

语音控制外语翻译设备用的方法和装置 Download PDF

Info

Publication number
CN1425158A
CN1425158A CN00818512A CN00818512A CN1425158A CN 1425158 A CN1425158 A CN 1425158A CN 00818512 A CN00818512 A CN 00818512A CN 00818512 A CN00818512 A CN 00818512A CN 1425158 A CN1425158 A CN 1425158A
Authority
CN
China
Prior art keywords
phrase
user
foreign language
phrases
language phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00818512A
Other languages
English (en)
Other versions
CN100380372C (zh
Inventor
G·C·史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN1425158A publication Critical patent/CN1425158A/zh
Application granted granted Critical
Publication of CN100380372C publication Critical patent/CN100380372C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

在设备中实现的一种语音控制外语翻译器(600),使用户可以用其本地语言说一个短语,而翻译器将用外语重复该短语。为用户提供预定的外国短语集(644)。这些短语存储在设备存储器(640)中。用户可以使用每个单独的短语。如果实现说话者有关语音识别,则用户必须在使用翻译特性之前培训设备,以便使本地语言的短语和外语短语相关。设备内的数字处理器(630)运行的语音识别软件对用户语音输入进行处理。一旦用户已培训设备,该设备就可以用于翻译模式中。在翻译模式中,用户说出多个预先培训过的本地语言的短语中的一个短语,设备则利用语音识别来输出对应的外国短语。通常在设备中的扬声器(658)上播放输出。

Description

语音控制外语翻译设备用的方法和装置
发明背景
I.发明领域
本发明涉及通信和电信设备。尤其是,本发明涉及能够将本地语言的短语翻译成一套预定的外语短语的语音控制设备的一种新颖改进方法和装置。
II.相关技术的描述
对于在外国旅行的个人而言,不能有效地用当地语言进行交流会带来各种严重的困难。当然,最好的解决方法是:这个人精通外语。但是,情况并不总是如此。利用假期旅行的人常常可能在外国呆很少的时间。期望假期旅行者因为有限的一次假期旅行而掌握一种或几种外语是不合理的。同样,急忙要求商业推销员到国外各地推销,时间也有限。。
帮助到外国旅行的人解决交流问题的方法很有限。旅行者可以尝试在旅行之前学习一些关键的短语。如果旅行者能够在需要时及时回想起这些短语,那么,这个方法会有极大的帮助。当旅行者不能回想起合适的短语时,交流的困难则会继续存在。当旅行者通过多个地区而每个地区都要求一种不同的外语时,有关回想的问题会进一步复杂化。
解决交流问题的另一种流行的方法是采用外语短语书籍。当要求外国短语时,旅行者在短语书籍中查找其翻译,然后说出该短语。这种方法存在的问题是:查找某个特殊的短语需要花费时间。但是,因查找短语而延迟些时间总比无法交流要好。短语书籍是学习少量预定外语短语的恰当配套解决手段。
数字处理能力方面的进步使高度复杂的任务综合到便携式设备成为可能。无线电话的发展就展示了先进的处理能力被有效地综合入用户方便的便携式设备。
现代的无线电话在小得足以放在衬衫口袋里的形状系数范围内综合大量复杂任务。为了使用户方便,无线电话中实现了许多特性。通过结合显示器使用电话数字按键键盘来进行一系列菜单选择,可以使用这些特性。不同的菜单为各种特性提供分门别类的、方便的分等级的方法。一些无线电话实现语音识别特性。语音识别允许用户使用一套预定的语音命令来操作电话。这使用户能够激活特性,而无需手工操纵菜单。但是,电话也被配置成可以使用语音命令来操纵菜单。使用语音命令可获得的特性包括被叫号码拨号、电子电话簿中的号码存储、根据姓名从电子电话簿中检索号码和来话应答。
存在两种形式的语音识别。这两种形式是说话者有关语音识别和说话者无关语音识别。说话者无关语音识别需要较长的处理时间和较大的语音数据库。通过将语音输入与说话者的语音样品进行比较,说话者有关语音识别使处理时间最短且语音数据库规模最小化。在说话者有关语音识别中,用户在使用语音识别功能之前必须输入培训菜单并运行培训例行程序。在培训例行程序中,要求用户说出预定的命令词汇,以便使语音识别特性能够学会识别用户语音命令。一旦培训完预定的词汇,用户就能够使用语音识别特性了。
无线电话的语音识别特性考虑电话菜单操纵以外的各种有用的可能性。但是,语音识别和信号处理的能力并不是无限的。
需要一种可携带的外国短语翻译器,该翻译器能够提供对本地语言的短语的即时访问并将其翻译成外语短语。这种设备用作学习一小套外语短语的支持解决手段,或者可以为不懂外语短语的旅行者提供一种基本的交流方法。
发明概述
本发明是用于将说出的本地语言的短语翻译成外语短语的一种新颖改进方法和装置。在被配置时,该设备响应于用户所说的本地语言的短语来播放外语短语。
为用户提供预定的外语短语集。该集可以是一套单种外语的短语,也可以包括几套外语短语。该集可以根据外语来分组,或者,也可以根据意思来分组。短语集可已在翻译设备中实施后提供给用户,也可以以某种形式的非易失性存储器提供给用户。如果外语短语集以非易失性存储器的形式(例如,磁盘或CDROM)提供给用户,则要指导用户如何将所需的外国短语载入翻译设备。
一旦所需的外语短语和对应的本地语言同义词被载入翻译设备,用户就能够通过滚动设备用户接口上的菜单来访问每个短语。在说话者有关语音识别中,用户在将设备的语音识别特性用作翻译器之前必须对其加以培训。用户必须启动培训例行程序,以便用户说出本地语言的短语并将所说的本地语言的短语分配给一个特定的外语短语。语音识别培训程序通常要求用户至少将本地语言的短语重复一次。
被保存在存储器中的那套外语短语是可扩展的。用户可以为那套外语短语添加从非易失性存储器装载的短语,或者,可以使用设备用户接口来输入新的外国短语及其对应的本地语言翻译。
在培训短语之后,用户能够使用翻译特性。语音识别特性必须首先起作用。然后,用户能够说出本地语言的短语并让设备重复外语短语。
在该较佳实施例中,无线电话被用作翻译设备。现代的无线电话小得足以始终方便携带。一些无线电话具有内置其中的语音识别能力。语音识别被用来允许用户拨号、检索电话簿条目、存储电话簿条目和使用语音命令来操纵电话菜单。翻译器特性可以被加到这些无线电话中,而电话内的硬件数量不会有很大的增加。一些无线电话可以要求额外的存储器来存储本地语言的短语和外语短语,而其他的无线电话已拥有充分的内存能力,只要求进行软件更新。其他的无线电话可能需要比当前电话中的扬声器更强有力的扬声器。电话机需要较强的扬声器,以提供较响的可闻输出。
附图简述
通过以下陈述的详细内容并结合附图,本发明的特点、目的和优点将更加明显。在所有附图中,类似的参考字符进行对应的识别,其中:
图1A-1E是实现翻译例行程序的用户界面的流程图;
图2是本发明实现的无线电话的方框图;
图3是实现设备中的语音识别执行的方框图;
图4A-4B是设备用户界面和翻译器功能的方框图。
较佳实施例的详细描述
在该较佳实施例中,包含语音识别能力的无线电话实现翻译特性。用户通过一个小套预定的词汇集来使用语音识别特性。必须在使用翻译特性之前激活语音识别特性。
参考图1A,通过首先为电话通电或通过结束有效的电话通话,用户启动101用户接口。在那些用户动作中的任何一个动作之后,电话进入备用状态102。在备用状态102中,电话能够接受打入的电话或播叫的留言,并能够打出电话。在备用状态102中,用户也能够操纵用户接口菜单。菜单通常被显示在电话显示器上,该电话显示器所具有的菜单选项经常提供对附加菜单的使用。在具有语音识别特性的电话中,用户也能够在备用状态102中启动语音识别例行程序。状态103中展示了语音识别例行程序的启动。通过按数字按键键盘上的一个预定的按钮或通过说出和重复一个预定的命令术语,用户能够开始语音识别特性。在状态103中,按数字按键键盘上的“结束”按钮或两次说出术语“唤醒”将启动语音识别例行程序。应该注意,当语音识别特性首次被初始化时,由于还没有培训语音识别软件来认出用户语音命令,用户必须利用数字按键键盘来使用语音识别特性。
在用户已经使用语音识别特性之后,例行程序进行到状态104,其中,语音识别例行程序进行检查,看看是否已进行初始培训。首先要证实培训,因为语音识别软件无法识别还没有被培训的用户命令。如果还没有完成初始培训,则语音识别软件将无法识别任何用户命令。所以,如果初始培训还没有完成,则例行程序进行到培训菜单900。
但是,如果已完成初始培训,则例行程序进行到状态108。在状态108中,语音识别例行程序通过说“通话、重拨、语音本或休眠”来提示用户。提示中所用的每个关键术语——“通话、重拨、语音本和休眠”是对应于语音控制功能的可用用户语音命令。但是,该提示只提及了通常所使用的各种命令。用户也可以使用其他的语音命令。一旦例行程序将听得见的提示提供给用户,例行程序就进行到点A111。点A111只用来将图1A中的流程图与图1B中的流程图链接。该点在实际的语音识别例行程序内没有功能。
继续参考图1B,从点A111出发,例行程序前进到状态112,其中,例行程序进行检查,看看在超时之前是否有任何用户语音。如果例行程序在用户语音输入之前超时,则例行程序将用户发送到状态110,状态110使用户返回到图1A中的点,例行程序在该点提示用户进行语音输入。但是,如果检测到语音输入,则对语音命令的内容进行分析。
语音识别例行程序依靠使用户语音命令与以前培训过的词汇集内的单词相关联的能力。如果相关性超过预定的门限,则语音输入符合以前培训过的词汇集。语音识别技术领域的普通技术人员能够确定使语音输入与以前培训过的词汇集匹配的具体细节。语音识别的领域不是本发明的基础,所以,没有详述语音识别的过程。
当要求用户语音输入时,语音识别例行程序利用证实有效的语音命令的一项功能。此外,如果不理解该命令,则该功能可能会提示用户重复语音输入。语音命令验证功能通常将处于要求用户语音输入的任何状态(例如,状态112)。但是,图1A-1E中没有描绘这项功能。语音命令验证功能的存在没有改变本发明的操作,所以没有被示出。
处于状态112时,用户可以输入几个语音命令中的一个语音命令。如果用户说“翻译”——状态122,则语音识别例行程序前进到翻译功能——状态200。图1C中详细示出翻译功能200。
如果在状态112中用户说“记录”——状态118,则语音识别例行程序前进到记录器功能500。记录器功能500允许用户手工输入新的外语短语,它们不在由设备制造商提供的外国短语集之内。图1F中详细示出记录器功能500。
图1B中所示的所有其他的命令展示了利用语音命令可获得的各种电话功能。如果在状态112中用户说出以前已培训并存储在存储器中的一个名称124,则语音识别功能进行到名称功能300。名称功能300允许用户通过说出以前保存的被呼叫方名称来对该方打出电话。
在状态112中,如果用户说“呼叫”126,则语音识别例行程序进行到呼叫功能400。呼叫功能400与名称功能300很类似:它允许用户使用语音命令进行启呼。但是,在呼叫功能400中,通过说出以前保存的被呼叫方名称或通过说出要拨打的各数字,用户可以进行启呼。
并非所有的用户语音命令都涉及启呼。如果用户在状态112中说“语音本”128,则语音识别例行程序进行到语音本功能500。语音本功能500使用户能够使用语音命令来将名称和有关的电话号码保存在语音电话簿中。然后,通过语音命令,可以获得语音电话簿中的名称。可以利用名称功能300或通话功能400来访问被存储的名称。
在状态112中,用户可以获得补充的语音命令。根据语音命令而被激活的这些补充的功能由状态130来表现。补充的命令包括退出语音识别模式的命令、启动培训功能的命令和启动末次被叫号码重拨的命令。
图1C表现了图1B中所示的翻译功能200的流程图。当用户发出语音命令来启动翻译功能200时,图1C中所展示的例行程序开始201。翻译功能200首先进行检查,看看是否有任何外语短语被保存在存储器中——状态202。在外语短语以CDROM或软盘的形式被提供给用户的设备中,要求用户输入所需的那套外语短语。这种方法很灵活,因为它允许将许多套的外语短语提供给用户。然后,用户只需要装载所需的那套外语短语。通过不要求对将被永远存储在设备中的外语短语进行全面的编辑,可以使设备的硬件要求最少。
如果在状态202中例行程序目前在存储器中没有发现任何外语短语,则例行程序进行到状态204,其中,指导用户装载外国短语。这时,还为用户提供了退出语音识别功能的机会(未示出)。
一旦用户已将外国短语载入存储器,或者,如果语音识别例行程序检测到已经被载入存储器的外国短语,则语音识别例行程序进行到状态210,来进行检查,看看外语短语是否已培训。如果外语短语还没有培训,则语音识别例行程序进行到培训菜单700。但是,如果外语短语已经培训,则语音识别例行程序进行到状态220,其中,等候用户说本地语言的短语。可能允许状态220无限期地继续下去,直到被用户取消,或该状态具有与其有关的超时。
一旦用户说出一个本地语言的短语,语音识别例行程序就进行到状态230,使用户短语与被存储在存储器中的以前培训过的短语相关。如果语音识别例行程序不能使用户短语与被存储在存储器中的以前培训过的短语相关,则例行程序进行到状态232,其中,电话播放出错消息。然后,语音识别例行程序返回到状态220,以等候用户语音输入。允许用户重复一个短语的次数可以由语音识别例行程序来控制。最好允许用户能够无限次地进行重试。如果重试的次数不受限制,那么,将允许用户输入,直到发现匹配或直到用户决定退出翻译功能。或者,语音识别例行程序可能只允许次数有限的失败的语音命令。如果重试的次数有限,则翻译功能将在达到界限时终止。
如果在状态230中用户输入与以前培训过的短语相关,则语音识别功能进行到状态240。在状态240中,语音识别功能播放对应于以前培训短语的外语短语。用户短语与以前培训短语取相关的成功,会使电话播放外语短语。或者,语音识别功能可以将外语短语显示在显示器上。电话有效地将用户输入的本地语言的短语翻译成外语短语。
图1D是培训菜单900的方框图。如果用户从未执行任何语音培训,那么,可以从高层次菜单110获得培训菜单900或自动使用培训菜单900。当启动培训菜单时901,电话进行到状态902,其中,电话显示各种词汇集选项。词汇集选项通常会包括对应于数字的词汇集、命令单词的词汇集和对应于翻译功能的词汇集。然后,电话等用户选择要培训的一个词汇集。一旦用户选择一个词汇集——状态910,例行程序进行到状态912,其中,电话显示对应于所选词汇集的各种可用的培训选项。
为用户提供培训词汇集或重新培训词汇集的选项。如果用户从未尝试培训特殊的词汇集,则使用培训选项。如果用户希望完全重新培训词汇集中的所有单词,则也使用培训选项。如果用户以前已培训过词汇集并希望只重新培训词汇的一部分,则使用重新培训选项。还为用户提供了退出培训菜单的选项。
如果用户选择培训选项914,则例行程序进行到所选词汇集700的初始培训功能。图1E提供了有关翻译功能的培训功能的详细的流程图。
如果用户选择重新培训选项916,则例行程序进行到所选词汇集800的重新培训功能。除了重新培训功能允许用户跳过不需要被重新培训的词汇集中的单词以外,重新功能十分类似于初始培训功能。
为用户提供的最后的选项是退出菜单924。如果用户选择退出菜单924,则例行程序可以使用户返回到高层次菜单110或退出语音识别功能。
图1E是流程图,详述了对应于翻译功能的初始培训功能。初始培训功能开始于状态710,其中,语音识别例行程序(被缩写为VR)通过说“遵循语音指令,开始培训”来提示用户。然后,例行程序进行到状态712,其中,提示用户“说术语(短语)”。提示中的术语(短语)代表用户目前正在培训的本地语言的短语。装载对应于外语短语的本地语言的短语,同时,外国短语设置被载入电话。或者,电话显示器会示出外语短语,并会清除提示陈述本地语言的短语的部分。但是,不推荐这个替换的实施例,因为用户随后必须知道外语短语的翻译,以便说出正确的本地语言的短语。这有可能导致本地语言的短语和外语短语发生错误配对。
一旦语音识别例行程序为用户提供提示,例行程序就进行到状态716,以等候用户语音输入。如果用户在超时之前没有作出响应,则例行程序返回到状态712,以重复用户提示。如要求用户输入的前面的各种状态中那样,状态716允许在终止功能之前发生数量有限的超时。如果用户在状态716中提供语音输入,则语音识别功能进行到状态720,并说“再来一次”,以提示用户重复短语。
然后,语音识别例行程序进行到状态724,以等候在超时之前来自用户的语音输入。如果超时发生在用户语音输入之前,则例行程序返回到状态720,重复进行提示。与前面一样,只为用户提供数量有限的机会,以便在例行程序终止之前提供输入。如果用户在超时之前提供语音输入,则例行程序进行到状态726并决定两个用户输入是否匹配。
如果第二个用户语音输入与第一个用户语音输入不匹配,则例行程序进行到状态740,其中,语音识别功能告诉用户“匹配失败”。匹配失败有各种各样的原因。如果用户没有用相同的方法来重复短语,则首先假设不匹配。此外,如果用户没有在允许的输入窗口内提供完全的短语,则不捕获输入的一个部分。这导致了两个用户输入的匹配失败。由于不能确定匹配失败的根本原因,因此,用户必须再次培训短语。例行程序返回到状态712,以重复当前短语的培训。
如果语音识别例行程序确定两个用户输入相匹配,则短语被保存在存储器中,例行程序进行到状态728。在状态728中,语音识别例行程序进行检查,看看所有短语是否已被培训。如果并非所有短语已被培训,则例行程序进行到状态732并从词汇集中检索下一个短语。然后,例行程序返回到状态712,以提示用户培训短语。
一旦已培训所有的短语,状态728将例行程发送回高层次菜单110。然后,用户能够使用翻译功能。
记录器功能500允许用户将外语短语输入由设备制造商提供的外语短语的设置。一旦记录器功能500被启动501,例行程序就进行到状态502,其中,例行程序提示用户一个本地语言的短语。该提示可以是向用户播放的声音提示、在设备显示器上示出的可见提示或两者的组合。将要求用户输入本地语言的短语。利用数字按键键盘来输入本地语言的短语。这使用户能够为本地语言的短语和由设备制造商提供的预定的本地语言的短语编目录。或者,提示用户说本地语言的短语,用户语音输入被保存在设备中。一旦用户已输入本地语言的短语,例行程序就进行到状态504,其中,例行程序通过说“说外语短语”来提示用户。然后,例行程序前进到状态510,以等候用户输入。如果在超时时期之前没有用户输入,则例行程序返回到状态504,以再次提示用户说外国短语。如果用户在超时之前提供外语短语,则例行程序前进到状态512,其中,例行程序通过说“再来一次”来提示用户重复外语短语。然后,例行程序进行到状态520,其中,例行程序等候用户输入。如果用户在超时之前没有提供任何输入,则例行程序返回到状态512,以提示用户重复外语短语。虽然在流程图中未示出,但是,在退出例行程序之前,例行程序通常将只允许输入超时发生两次。如果用户在超时之前重复外语短语,则例行程序进行到状态530,以进行检查,看看外语短语的两次发音是否匹配。虽然例行程序将不会通过使用语音识别来使用户输入与外语短语相匹配,但是,例行程序使两次发音相匹配,以确保输入一致。有关用户记录的外语短语的一个缺点是被存储的外语短语的发音。制造商提供的外语短语发音正确,明确地对应于本地语言的短语。对比而言,用户输入的外语短语可能会遇到用户口音方面的困难。最坏的情况是:由用户输入的外语短语可能不与用户认为要翻译的本地语言的短语相对应。
如果例行程序决定用户说出的两个外语短语不匹配,则例行程序返回到状态504,以再次提示用户说外语短语。一旦例行程序确定外语短语的两次发音相互匹配,例行程序就返回到“高层次菜单”——状态110。和任何制造商所提供的外语短语一样,在使用新的外语短语之前,用户必须培训设备。
图2中的方框图展示了实现该较佳实施例所需的硬件。实现该较佳实施例的所有要素已存在于有些无线电话内。图2展示了实现较佳实施例的无线电话600的方框图。
天线602用作无线电话600硬件与电磁辐射之间的过渡。天线602接收电磁辐射并将信号转移到RF收发机610。同样,RF收发机610将发送信号提供给天线602,以便向基站播送。
在接收信号路径中,RF收发机610过滤并放大所接收的信号。然后,将所接收的信号下变频为基带信号。将这个基带信号提供给基带处理器620。数字处理器630与基带处理器620协同工作,来提取并形成所接收信号中的信息。然后,数字处理器将提取并形成的信息提供给合适的硬件。通过从存储器640检索预定的振铃声并在振铃器上播放它,数字处理器630处理来话通知。电话显示器654上示出电话所接收的本文信息。语音信号被发送给扬声器658,以便向用户播放。其他信息被发送给合适的接口设备652。
在发送路径中,电话通过数字按键键盘656或接口设备(例如,话筒660)来接收用户输入。数字处理器630协同基带处理器620对输入信号进行调节和格式化。然后,基带信号被提供给RF收发机610,其中,基带信号被向上变频为发送频率,并通过天线602播送。
电话内的存储器640保存有电话操作软件。用户界面表示操作软件的一个部分。语音识别算法也作为软件被存储在电话内的存储器640中,这些电话所提供的语音识别作为最理想的用户界面。在本发明的一个实施例中,预定的一套外语短语被存储在存储器644的一个部分中。电话存储器640可以由几块存储器芯片构成。如果电话存储器640使用多块存储器芯片,则外语短语被存储在第一个存储器器件中。
在另一个实施例中,利用某种类型的非易失性存储器格式(例如,软盘或CDROM)为用户提供几套外语短语。这几套外语短语根据外语加以分离。然后,用户选择一套外语短语,并利用通过数据电缆连接到电话机的个人计算机来将信息下载到电话。然后,外语短语被保存在电话存储器644内。第二个实施例的优点是:使用户能够挑选将把哪个外语短语载入电话。缺点是:需要额外的劳力和硬件。
一旦外国短语已被载入电话存储器644,用户就必须培训语音识别例行程序,以识别本地语言的短语。用户无法使用翻译特性,直到已完成语音识别培训。上面的图1中提供了语音识别培训例行程序的细节。在语音识别培训期间,电话将用户的本地语言语音输入保存在存储器的另一个部分642中。当电话存储器640由多块存储器芯片构成时,本地语言的短语被保存在第二个存储器器件中。每个被保存的本地语言的短语对应于以前被保存的外语短语中的一个外语短语。
一旦已完成语音识别培训,用户就能够使用翻译特性。为了使用翻译特性,用户首先要使用电话内的语音识别能力。通过按预定顺序按数字按键键盘656上的键,或通过说一个以前培训过的语音命令,可以实现这一点。用户语音命令利用话筒660输入到电话并在数字处理器630中加以处理,该数字处理器运行保存在存储器640中的语音识别软件。一旦已启动语音识别例行程序,用户必须操纵翻译特性。用户可以通过一系列按键或语音命令来实现这一点。一旦用户使用翻译特性,就可以获得外语短语。用户将一个本地语言的短语语音输入提供给话筒660,数字处理器630利用保存在电话存储器640中的语音识别软件来处理话筒660。如果语音输入与保存在电话存储器642中的一个本地语言的短语相关,则数字处理器检索一个产生的短语,以输出给用户。通常,产生的短语是对应于本地语言的短语的、来自存储器644的外语短语。数字处理器检查该外语短语并在扬声器658上播放它。在一个替换实施例中,产生的短语是对应于本地语言的短语的外语短语的文本。在这种情况下,外语短语的文本被显示在电话显示器654上。用户说出本地语言的短语,电话利用语音识别答出外语短语。电话有效地将本地语言的短语翻译成外语短语。
图3示出语音识别功能的更加详细的方框图。用户界面/语音服务应用程序1302被用来使到语音服务1 310的用户界面方便。语音“应用程序编程界面(API)”用于将用户界面1302与语音识别应用程序的剩余部分连接起来。语音服务1310控制各种语音识别任务的分配。语音服务1310也监视与语音识别有关的重放、培训、识别与控制功能。当要保存或从存储器接收语音信息时,语音数据库(DB)1340执行所需的各种控制功能。存储器管理器1344执行有关将实际的存储器硬件连接到其余的软件例行程序的各种任务。声音1312功能被用来合成和播放语音服务所需的声音。这些声音包括信号音、提醒音,以及通过语音数据库1340从存储器检索到的语音声音。声码器驱动器1314和声码器DSP1320例行程序用于使语音输入信号格式化并对它们进行处理,以便它们可以被用于“语音识别引擎1330”中。它们也对语音输出数据进行格式化,并通过扬声器来重放语音数据。VR引擎1330的功能是执行实际的语音识别。VR引擎1330采用已在声码器DSP1320中被处理过的语音输入,并将它与通过语音数据库1340从存储器检索到的各种语音模板进行比较。向语音服务1310指出匹配或拒绝,语音服务1310监督VR引擎1330的操作。
图4A进一步详述用户界面1302。用户界面1302由许多处理程序构成,以选定所需各种用户输入和输出的地址。例如,有一种处理程序用于将键盘接到应用程序。一旦处理程序1402已将用户输入转换成合适的事件,该事件就被发送到合适的状态机1410。电话内的所有功能的特征能以状态机的形式表现。表现由软件执行的电话内的所有任务的总状态机1410由执行特殊应用程序的许多个性化的状态机S1 1412~Sn 1416构成。个性化的状态机之一是翻译器1414。翻译器1414状态机控制翻译用户界面应用程序的流程。
在状态机中得到处理的信息在发送给语音服务1310或语音数据库1340之前在外部接口管理器1420中进行调节。在类似于状态机1410的结构中,外部接口管理器1420由管理与应用程序的接口的许多单独的管理器E1 1422~En 1426构成。“语音服务(VS)”管理器1424被用来在翻译器1414状态机与语音服务1310或语音数据库1340应用程序之间进行连接。
用户界面1302中所有的例行程序可获得各种公用1430应用程序。公用程序1430对于任何一个例行程序而言并不是专用的,而是在用户界面1302的所有例行程序中共用的。
图4B是详述翻译器状态机1414的方框图。翻译器状态机1414由三个较小的状态机——培训器1510、翻译器1512和记录器1514构成。每个较小的状态机控制翻译器状态机1414的那个部分的功能。翻译器状态机1414与外部接口管理器1420、语音服务1310和语音数据库1340的关系与图4A所示的相同。
所提供的有关较佳实施例的前述内容使精通该技术领域的任何人都能够创作或使用本发明。精通该技术领域的人将容易了解这些实施例的各种修改,这里所定义的各种一般的原理可以应用于其他实施例,而无需使用发明人员。因此,本发明并非意在局限于这里所示的实施例,而是具有与这里所揭示的原理和新颖的特点相一致的最广泛的范围。

Claims (13)

1.将本地语言的短语翻译成外语短语的一种方法,其特征在于包括:
将多个外语短语保存在第一个存储器位置中;
将多个本地语言的短语保存在第二个存储器位置中,每个本地语言的短语对应于多个外语短语中的一个外语短语;
接收一个说出的短语;
使说出的短语与保存在第二个存储器位置中的本地语言的短语相关;
如果说出的短语与保存在第二个存储器位置中的本地语言的短语之一之间的相关性超出预定的门限,则输出产生的外语短语。
2.权利要求1的方法,其特征在于:其中,通过在扬声器上播放产生的短语,来输出产生的外语短语。
3.权利要求1的方法,其特征在于:其中,通过在显示器上显示产生的短语,来输出产生的外语短语。
4.权利要求1的方法,其特征在于:其中,第一个存储器位置和第二个存储器位置位于单个存储器器件的各不相同的部分内。
5.用于将本地语言的短语翻译成外语短语的一种装置,其特征在于包括:
存储预定的多个外语短语的第一个存储器器件;
存储多个本地语言的短语的第二个存储器器件,每个本地语言的短语对应于多个外语短语中的一个外语短语;
一个语音识别设备,它接收语音输入,将语音输入与保存在第二个存储器中的本地语言的短语进行比较,并且,如果本地语言的短语与语音输入的相关性超出预定的门限,则输出对应于本地语言的短语的外语短语。
6.权利要求5的装置,其特征在于:其中,通过在扬声器上播放外语短语,来输出外语短语。
7.权利要求5的装置,其特征在于:其中,通过在显示器上显示外语短语,来输出外语短语。
8.权利要求5的装置,其特征在于:其中,第一个存储器器件和第二个存储器器件是相同器件的不同部分。
9.权利要求5的装置,其特征在于:其中,保存在第二个存储器器件中的本地语言的短语是保存在第一个存储器器件中的外语短语的本地语言翻译。
10.权利要求5的装置,其特征在于:其中,本地语言的短语是对培训例行程序所呈现的各种提示的用户响应。
12.权利要求5的装置,其特征在于:其中,多个外语短语代表多种外语。
13.权利要求5的装置,其特征在于:其中,输出的外语短语对应于多种外语中的一种外语。
14.权利要求5的装置,其特征在于:其中,用户能够将补充的外语短语记录并且存储在第一个存储器器件内。
CNB008185123A 1999-11-23 2000-11-21 语音控制外语翻译设备用的方法和装置 Expired - Lifetime CN100380372C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/447,526 US6438524B1 (en) 1999-11-23 1999-11-23 Method and apparatus for a voice controlled foreign language translation device
US09/447,526 1999-11-23

Publications (2)

Publication Number Publication Date
CN1425158A true CN1425158A (zh) 2003-06-18
CN100380372C CN100380372C (zh) 2008-04-09

Family

ID=23776714

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008185123A Expired - Lifetime CN100380372C (zh) 1999-11-23 2000-11-21 语音控制外语翻译设备用的方法和装置

Country Status (8)

Country Link
US (1) US6438524B1 (zh)
EP (1) EP1242912A1 (zh)
JP (1) JP2003515816A (zh)
KR (1) KR100804855B1 (zh)
CN (1) CN100380372C (zh)
AU (1) AU1787401A (zh)
HK (1) HK1054801B (zh)
WO (1) WO2001039036A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101052964B (zh) * 2005-07-06 2010-05-19 松下电器产业株式会社 对话支援装置
CN104303177A (zh) * 2012-04-25 2015-01-21 寇平公司 即时翻译***
CN105210355A (zh) * 2013-05-02 2015-12-30 萨罗尼科斯贸易与服务一人有限公司 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
CN108459838A (zh) * 2018-03-30 2018-08-28 联想(北京)有限公司 信息处理方法及电子设备
CN111028826A (zh) * 2014-10-09 2020-04-17 谷歌有限责任公司 多个设备上的热词检测

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520022B2 (ja) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US6720980B1 (en) * 2000-03-01 2004-04-13 Microsoft Corporation Method and system for embedding voice notes
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
JP4089148B2 (ja) 2000-10-17 2008-05-28 株式会社日立製作所 通訳サービス方法および通訳サービス装置
US20020120635A1 (en) * 2001-02-27 2002-08-29 Joao Raymond Anthony Apparatus and method for providing an electronic book
GB2374759A (en) * 2001-04-17 2002-10-23 David J Brooks Voice activated mobile telephone etc having language translator
JP3795409B2 (ja) * 2001-09-14 2006-07-12 富士通株式会社 音声認識装置及び方法
US20030065504A1 (en) * 2001-10-02 2003-04-03 Jessica Kraemer Instant verbal translator
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
DE10156945A1 (de) * 2001-11-20 2003-05-28 Philips Corp Intellectual Pty Verfahren zum Betrieb eines Sprach-Dialogsystems
ES2190769B1 (es) * 2002-01-23 2004-05-01 Materializacion De Ideas, S.L. Traductor simultaneo individual.
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US8719041B2 (en) 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US7369998B2 (en) * 2003-08-14 2008-05-06 Voxtec International, Inc. Context based language translation devices and methods
CA2545142A1 (en) * 2003-11-14 2005-06-02 Speechgear, Inc. Phrase constructor for translator
CA2549769A1 (en) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated System, method, and program for identifying the corresponding translation
US20050144010A1 (en) * 2003-12-31 2005-06-30 Peng Wen F. Interactive language learning method capable of speech recognition
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US20050261890A1 (en) * 2004-05-21 2005-11-24 Sterling Robinson Method and apparatus for providing language translation
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
GB2416874B (en) * 2004-08-02 2006-07-26 Louis Augustus George Atteck A translation and transmission system
US20060116925A1 (en) * 2004-11-29 2006-06-01 Yoo Seung Kim System and method(s) for marketing by providing information of life in a foreign country and/or area, via CD-ROM, in the airplane and/or any vehicle in a language familiar to the passengers
US20060282269A1 (en) * 2005-06-08 2006-12-14 Galison Barry H Universal translator
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US20070138267A1 (en) * 2005-12-21 2007-06-21 Singer-Harter Debra L Public terminal-based translator
US20070255554A1 (en) * 2006-04-26 2007-11-01 Lucent Technologies Inc. Language translation service for text message communications
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US20080195375A1 (en) * 2007-02-09 2008-08-14 Gideon Farre Clifton Echo translator
JP5280642B2 (ja) 2007-04-23 2013-09-04 株式会社船井電機新応用技術研究所 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
US8019591B2 (en) * 2007-10-02 2011-09-13 International Business Machines Corporation Rapid automatic user training with simulated bilingual user actions and responses in speech-to-speech translation
US20120065957A1 (en) * 2009-05-08 2012-03-15 Werner Jungblut Interpersonal communications device and method
US8204752B1 (en) 2009-10-16 2012-06-19 Cranford Michael D Portable translation apparatus
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
US20190172240A1 (en) * 2017-12-06 2019-06-06 Sony Interactive Entertainment Inc. Facial animation for social virtual reality (vr)
CN108461081B (zh) * 2018-03-21 2020-07-31 北京金山安全软件有限公司 语音控制的方法、装置、设备和存储介质
KR102498172B1 (ko) * 2019-01-09 2023-02-09 이장호 단말기의 음성인식 기능과 tts 기능을 이용한 상호 음성전달에 의한 대화형 외국어 학습방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4525793A (en) 1982-01-07 1985-06-25 General Electric Company Voice-responsive mobile status unit
US5384701A (en) 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
JPS63167550A (ja) * 1986-12-29 1988-07-11 Kazuo Hashimoto 自動翻訳機能付き留守番電話装置
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5199543A (en) * 1990-08-22 1993-04-06 Oki Electric Industry Co., Ltd. Apparatus for and method of discriminating bill
EP0472193A3 (en) 1990-08-23 1993-10-20 Oki Electric Ind Co Ltd Translation device based on voice recognition and voice synthesis
JPH0916602A (ja) * 1995-06-27 1997-01-17 Sony Corp 翻訳装置および翻訳方法
TW347503B (en) 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
CN1222241A (zh) * 1996-01-16 1999-07-07 国有花旗银行 完成金融交易的多语种、自动交互***和方法
KR100232873B1 (ko) 1997-07-21 1999-12-01 윤종용 음성인식처리용 메모리를 가지는 휴대용 전화기
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
WO1999046762A1 (en) 1998-03-09 1999-09-16 Kelvin Lp Automatic speech translator
US6192332B1 (en) 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101052964B (zh) * 2005-07-06 2010-05-19 松下电器产业株式会社 对话支援装置
CN104303177A (zh) * 2012-04-25 2015-01-21 寇平公司 即时翻译***
CN105210355A (zh) * 2013-05-02 2015-12-30 萨罗尼科斯贸易与服务一人有限公司 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
CN105210355B (zh) * 2013-05-02 2019-03-22 萨罗尼科斯贸易与服务一人有限公司 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
CN111028826A (zh) * 2014-10-09 2020-04-17 谷歌有限责任公司 多个设备上的热词检测
CN111028826B (zh) * 2014-10-09 2024-02-06 谷歌有限责任公司 多个设备上的热词检测
CN108459838A (zh) * 2018-03-30 2018-08-28 联想(北京)有限公司 信息处理方法及电子设备
CN108459838B (zh) * 2018-03-30 2020-12-18 联想(北京)有限公司 信息处理方法及电子设备

Also Published As

Publication number Publication date
EP1242912A1 (en) 2002-09-25
HK1054801B (zh) 2008-12-24
KR20030044899A (ko) 2003-06-09
KR100804855B1 (ko) 2008-02-20
CN100380372C (zh) 2008-04-09
JP2003515816A (ja) 2003-05-07
US6438524B1 (en) 2002-08-20
AU1787401A (en) 2001-06-04
WO2001039036A1 (en) 2001-05-31
HK1054801A1 (en) 2003-12-12

Similar Documents

Publication Publication Date Title
CN100380372C (zh) 语音控制外语翻译设备用的方法和装置
US6449496B1 (en) Voice recognition user interface for telephone handsets
US8855722B2 (en) Integrated handheld computing and telephony device
JP2002118659A (ja) 電話装置及び翻訳電話装置
CN101686286A (zh) 一种具有全语音服务的自动业务流程实现方法及***
CN1820487A (zh) 具有声音用户接口的通信设备
EP1170932B1 (en) Audible identification of caller and callee for mobile communication device
CN102111483A (zh) 一种在通话过程中查询信息的方法、装置及移动终端
CN102025834A (zh) 一种移动终端语音操作方法及装置
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
CN106603792B (zh) 一种号码查找设备
CN101426047B (zh) 一种智能声控电话
EP1299990A2 (en) Automated recording of telephone numbers during ongoing telecommunication sessions
US20050154587A1 (en) Voice enabled phone book interface for speaker dependent name recognition and phone number categorization
CN1649368A (zh) 语音识别电话机
WO2005057832A2 (en) Method and apparatus for entering alphabetic characters
US20100248793A1 (en) Method and apparatus for low cost handset with voice control
CN200956606Y (zh) 视障者用移动通讯终端
CN111274828B (zh) 基于留言的语言翻译方法、***、计算机程序和手持终端
CN2817242Y (zh) 非特定人语音识别电话机
CN201142744Y (zh) 一种声控无线固定电话
CN2717130Y (zh) 蓝牙声控语音电话拨号装置
WO2001047225A2 (en) System and method for enhancing call waiting functionality via voice recognition
JP2002033820A (ja) 音声認識電話装置および携帯電話機
CN1649367A (zh) 非特定人语音识别拨号器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1054801

Country of ref document: HK

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20080409