CN102369568A - 使用语音通信交互式地访问托管服务的***和方法 - Google Patents

使用语音通信交互式地访问托管服务的***和方法 Download PDF

Info

Publication number
CN102369568A
CN102369568A CN2010800147504A CN201080014750A CN102369568A CN 102369568 A CN102369568 A CN 102369568A CN 2010800147504 A CN2010800147504 A CN 2010800147504A CN 201080014750 A CN201080014750 A CN 201080014750A CN 102369568 A CN102369568 A CN 102369568A
Authority
CN
China
Prior art keywords
language
service
notion
information
session manager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800147504A
Other languages
English (en)
Inventor
E·乌拉斯由克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftHUS Sp z oo
Original Assignee
SoftHUS Sp z oo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftHUS Sp z oo filed Critical SoftHUS Sp z oo
Publication of CN102369568A publication Critical patent/CN102369568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/39Electronic components, circuits, software, systems or apparatus used in telephone systems using speech synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种在包括语音识别模块、会话管理器和语音产生器模块的***中,用于向使用者提供服务的方法包括:通过所述语音识别模块接收话语;使用依附于本体论的词汇将所述话语转换为一个或更多个结构;使用所述结构辨识所述话语中的概念;如果所述话语包括足够的信息,则基于所述概念选择服务;基于被选服务产生文本消息;以及使用所述语音产生器来将所述文本消息转换为语音消息。

Description

使用语音通信交互式地访问托管服务的***和方法
技术领域
本申请中所公开的实施方案总地涉及交互式语音应答***(voice response system),并且更具体地,涉及能够通过电话实现对托管服务(比如购物、汽车租赁、汽车旅馆等)的语音通信访问的***和方法。
相关技术
由于成本或方便的原因,现今的公司惯常通过互联网和电话提供客户服务。目前,使用者可以从提供视觉呈现能力的接入设备获得这样的互联网服务,所述接入设备例如具有互联网web浏览器的个人电脑(PC),互联网web浏览器请求并接收由Web服务器产生的超文本标记语言(HTML)文档。对于电子商务应用,Web服务器具有处理使用者输入的服务逻辑和事务服务器接口或者提供对这些接口的访问。使用任意数量的流行的Web编程工具对服务逻辑进行编程。
使用者通过具有音频交互能力的接入设备获得电话服务,所述接入设备例如调用具有音频输入、输出和电话功能的交互式语音应答(IVR)平台及其自己的服务逻辑和事务服务器接口的电话或者网络电话(VOIP)设备。使IVR***自动地允许电话使用者通过口头命令访问***上所链接的服务。通常以使用平台的应用编程接口(API)的通用软件语言或者平台特定脚本语言来对服务逻辑进行编程。
传统的交互式IVR***包括菜单、定向对话和可由话语识别技术的改进产生的混合主动式对话。菜单式交互通常使用预先录制的语音提示,这些语音提示要求使用者按下电话键区上的数字或者讲简单的答复(比如,“是”、“不是”)或者简单的数字,以从一组选项中选择项目。在定向对话中,所述***通过询问要求分别(discrete)答复的分别的问题来引导使用者通过数据集。例如,为了找出操作者居住的地方,一分别对话***将首先要求操作者说出他所住的国家,其后要求说出他所住的城市。混合主动式对话***让使用者进入单个话语中的多个数据片段并且提供部分信息。
尽管有这些进展,但是常规的IVR往往仍是缓慢的、非个人的,并且提供用于帮助***与使用者之间的交互的笨重平台。通过电话上的纷繁复杂的菜单选项和选择进行操纵往往会非常耗时,并且定向和混合主动式对话***的语音命令识别/理解特征没有被设计来有效地处理不对脚本编写的问题进行应答的语音命令。简而言之,现存的IVR均不允许由使用者对服务进行真正的交互式处理。
发明内容
本文公开使用语音通信交互式地访问托管服务的方法和***。
在一个方面,在包括语音识别模块、会话管理器和语音产生器模块的***中,用于向使用者提供服务的方法包括:通过所述语音识别模块接收话语;使用依附于本体论的词汇将所述话语转换为一个或更多个结构;使用所述结构辨识所述话语中的概念;如果所述话语包括足够的信息,则基于所述概念选择服务;基于被选服务产生文本消息;以及使用所述语音产生器将所述文本消息转换为语音消息。
在另一方面,用于向使用者提供服务的***包括:语音识别模块,所述语音识别模块被配置来接收话语,并且使用依附于本体论的词汇将该话语转换为文本;使用依附于本体论的词汇转换为一种或更多种结构;会话管理器,所述会话管理器被配置来与所述语音识别模块耦合,并且被配置来使用依附于本体论的词汇产生与所述文本相关联的结构,使用所述结构辨识所述话语中的概念;如果所述话语包括足够的信息,则基于所述概念选择服务,并且基于被选服务产生回复文本消息;以及语音产生器模块,所述语音产生器模块与所述会话管理器耦合,并且被配置来将所述回复文本消息转换为语音消息。
以下在标题为“具体实施方式”的部分中对本发明的这些和其他特征、方面和实施方案进行描述。
附图说明
为了更完整地理解本文公开的原理及其优点,现在对结合附图进行的以下描述进行论述,在附图中:
图1是图示说明根据一个实施方案的使得使用者使用语音通信交互式地访问托管服务的交互式语音应答(IVR)***的功能元件的示图;
图2是根据一个实施方案的可以被包括在图1所描绘的***中的会话管理器的内部部件和这些部件如何与人类理解***(Human Understanding System)中的其余模块交互的详细图示;
图3是图示说明根据一个实施方案的图2和3中所图示说明的***的操作的流程图;
图4是更详细地图示说明根据一个实施方案的图2和3中所图示说明的***的操作的流程图;以及
图5是图示说明根据一个实施方案的结构的产生的示图,所述结构例如图1和2的会话管理器中可以发生的话语。
具体实施方式
以下对使用语音通信交互式地访问托管服务的方法和***进行描述。然而,将理解的是,可以在没有这些特定细节中的一些或全部的情况下实施本文所描述的***和方法。在其他实例中,为了简洁,不对公知的处理操作进行详细描述。
如本文所使用的,电话是提供远距离语音通信的通用设备,比如,陆线电话、移动电话、互联网通信设备等。电话包括通过模拟式信号(即,在时间和幅值上连续的信号)传输语音通信的传统模拟电话***和通过数字式信号(即,离散二进制码)传输语音通信的最近的数字电话***。网络电话(VOIP)是现代形式的基于数字的电话,其使用传输控制协议/互联网协议(TCP/IP)和用于通过互联网传输数字化的语音数据的其他网络传输格式。
互联网或万维网(WWW)是由许多服务器构成的广域网(WAN),这些服务器链接在一起,以使得可以使用诸如TCP/IP、可靠使用者数据报协议(RUDP)或者它们的等同形式的网络数据传输协议将数据从一个服务器传输到另一个服务器。通常,互联网将位于广阔的地理区域中的众多服务器链接在一起。相反,局域网(LAN)是小型服务器网络,诸如覆盖小的局部区域(诸如家庭、办公室或学院)的那些服务器网络。
鉴于前述,应该意识到IVR***可以从本文所描述的***和方法获益,本文所描述的***和方法交互式地使用语音通信来确定哪些服务被客户请求,并且将这些服务传递给他们,而不使用菜单驱动的或者预先用脚本编写的对话。
图1是图示说明根据一个实施方案的交互式语音应答(IVR)***的功能元件的示图,该交互式语音应答(IVR)***使得使用者可以使用语音通信交互式地访问托管服务。如本文所描绘的,所述***接待(handle)操作电话设备102的使用者101,电话设备102被配置来与人类理解***103通信,人类理解***103包含各种托管服务108。为了通过人类理解***103访问每个服务106,必须首先在该***中定义每个服务106。
因此,***100可以被配置来处理多个服务108,并且通过人类理解***103将它们提供给使用者101。在示例性注册处理期间,应该提供用于每个服务的以下元素:可使用该服务的地理区域;该服务用自然语言的详细描述;来自使用者101的以便该服务被提供给使用者101的所需数据的列表;以及通话脚本。
在一个实施方案中,每个注册的托管服务与一组或更多组服务提供商(比如,购物、汽车租赁、汽车旅馆)相关。应该理解,人类生活的许多方面可以由合适的托管服务来服务,只要这些服务可以由使用者101通过电话设备102订购即可。
在一个实施方案中,电话设备102可以通过被配置来使用模拟信号传输语音数据的模拟陆线(比如模拟物理有线连接)与人类理解***103以通信方式链接。在另一个实施方案中,电话设备102可以通过被配置来使用离散的数字二进制信号传输语音数据的数字陆线(比如数字光纤连接)与人类理解***103以通信方式链接。
在另一个实施方案中,比如移动电话、卫星电话的电话设备102可以通过无线通信链路与人类理解***103以通信方式链接,所述无线通信链路被配置来使用射频(RF)或微波信号将语音数据传输到人类理解***103。传输格式可以是模拟或数字的,并且无线通信链路可以是与人类理解***103直接链接的链路或者可以是通过下述基本单元(baseunit)与人类理解***103链接的链路,该基本单元通过陆线或另一无线连接与人类理解***103连接。在又另一实施方案中,电话设备102(即,互联网通信设备)可以以网络连接的方式通过陆线、无线连接或者这二者与人类理解***103以通信方式链接,所述网络连接被配置来使用网络电话(VOIP)或等效协议来传输语音数据。网络连接可以被分布为局域化网络(即,局域网)或者广域网(即,互联网)。
在一个实施方案中,所述***可以被配置来通过操作移动电话(即,电话设备102)的使用者101操作来呼入人类理解***103,以访问由人类理解***103提供的服务。移动电话102通过RF链路的方式与移动电话提供商(即,蜂窝网络提供商)通信,移动电话提供商自身与公共交换电话网(PSTN)(即,陆线)链接,公共交换电话网(PSTN)与人类理解***103通信。人类理解***103又可以通过互联网或LAN与多域***以通信方式链接。在另一种情况下,使用者101可以操作启用VOIP的计算机(即,电话设备102),来以VOIP呼入与互联网链接的人类理解***103。启用VOIP的计算机通过宽带互联网连接进行通信,所述宽带互联网连接通过网络连接(比如,互联网、LAN等)与人类理解***103以通信方式链接。
应该意识到,包括以上提供的情况只是为了说明的目的,而并非意图以任何方式限制***100可使用的通信配置。存在多种可想到的建立使用者101与人类理解***103之间的通信的方法;仅受所得***(resulting system)的这样的能力的限制,即以足够的清晰度和特异性(specificity)将语音数据传输到人类理解***103以允许人类理解***103处理和理解语音数据的能力。
继续图1,人类理解***103包括以下:语音识别模块104、语音产生器模块106和会话管理器模块105。语音识别模块104可以被配置来通过电话设备102接收来自使用者101的话语,电话设备102比如使用上述电话通信配置中的任何一种与人类理解***103以通信方式链接。在某些实施方案中,话语包括关于使用者101的信息,比如,辨识信息、认证信息以及关于使用者101正请求访问的被提供的服务的信息。语音识别模块104可以被配置来将从使用者101接收的语音数据转化为文本数据并且将该数据传送到会话管理器模块105。
将理解的是,人类理解***103可以包括执行本文所描述的功能所需的部件,包括硬件和软件这二者。还将理解的是,人类理解***103可以包括其他部件和功能,并且某些功能可以由相同或不同的部件来实现。因此,图1不应该被看作将本文所描述的***和方法限于某种架构或配置。相反,图1仅以实施例的方式呈现。
在一个实施方案中,语音识别模块104被配置来识别最常用世界语言。语音识别模块可以识别的语言的一些示例是:英语、汉语、印地语、西班牙语、孟加拉语、葡萄牙语、俄语、德语、日语和法语。在另一个实施方案中,语音识别模块104被配置来仅识别由人类理解***103所处理的服务所指定的语言。然而,应该理解,语音识别模块104可以被***管理员配置来识别任何语言,只要该语言的语言特性有益于将通过计算机处理被转换的语言即可。语音识别模块104还可以被配置来将通过设备102提供的使用者101的语音转换为文本。
会话管理器模块105可以被配置来以两个状态操作:1)“选择服务状态”,在该状态下,会话管理模块105被配置来选择服务106;以及2)“通话脚本状态”,在该状态下,会话管理模块105被配置来执行适合于被选服务106的通话脚本203。
会话管理器模块105配备有用于与本体论联系的特定自然语言的词汇集。这使得它能够将自然讲话的文本转换为包含语法和本体信息的特殊结构。该本体信息可以被用于确定哪个服务106是所需的,并且还可以被用在“通话脚本状态”中,比如,以查询某些概念是否事实上被使用者101传送。
当会话管理器105正在“选择服务状态”下工作时,它可以被配置来执行以下处理:选择已经定义了与客户话语中出现的本体概念最接近的本体概念的服务108,并且同时排除为该服务定义的本体条件与该客户话语冲突的服务108。当信息不足以让会话管理器105确定被请求的服务106的身份(identity)时,会话管理器105可以被配置来产生向使用者101询问进行该确定操作所需的必要信息的合适文本。会话管理器105然后将该文本转发给语音产生器模块106,语音产生器模块106被配置来将该文本转换为话语,语音产生器模块106将该话语传送给电话装置102以供使用者101收听。
在一个实施方案中,每当需要时,会话管理器105可以重复进行该处理,直到会话管理器105已接收到足够信息以确定由使用者101提供的语音数据中所请求的服务108的身份为止。在另一个实施方案中,***管理员可以利用合适的通话脚本203启用或实现特殊服务,比如,服务选择(service-to-choose)服务,该通话脚本203可以要求客户提供更多的信息和选择特定服务108。在某些实施方案中,通话脚本203可以调用其他服务。例如,在租车应用中,可以调用被配置来基于国家、城市、汽车类型等选择合适的租车公司的特殊服务,以便完成该服务。
应该意识到,上面讨论的各种实施方案被配置来高度有效地实现使用者101与人类理解***103之间的交互式对话。意图是尽可能接近地模仿使用者101与处理的服务108之间的通信环境,包括试图确定哪个服务108或其他信息正被使用者101请求。与一系列菜单选项必须被选择和/或一系列信息请求被应答的常规***相反,其中,选择和对应答的请求跟在通过预定决策树(decision tree)的相对固定的线性进程之后。这些常规交互完全不像两个人之间的自然通话。
如在上面所描述的语音识别模块104的情况下,在一个实施方案中,语音产生器模块106可以被配置来仅能够进行30种最常用世界语言的通话。在另一个实施方案中,语音产生器模块106可以被配置来仅识别人类理解***103所处理的服务所指定的语言。然而,应该意识到,语音产生器模块106可以被***管理员配置来识别任何语言,只要该语言的语言特性有益于将通过计算机处理被转换的语言即可。
一旦会话管理器105已成功地辨识使用者请求的服务108,会话管理器105就开始执行为该服务定义的通话脚本。
图2是根据一个实施方案的会话管理器105的内部部件和这些部件如何与人类理解***103中的其余模块交互的详细图示。如该实施方案所示,会话管理器105包括脚本引擎202、为所有服务108定义的通话脚本203、服务数据库204和服务数据管理部件205。
会话管理器还包括文本到结构模块212,文本到结构模块212可以使用合适的词汇210将人的话语的文本转换为特殊结构。这些词汇210与本体论211链接。这种关联允许文本到结构模块212将以任何限定的人类语言的文本转换为与人类语言无关的包含语法和本体信息的结构。
会话管理器105还可以包括特殊概念勘探器(prospector)230。为了理解特殊概念勘探器230,有必要说明这些特殊概念是什么。它们是不必被理解的概念,比如,名称、颜色、地址。相反,感兴趣的是可以与概念相关联的值或等级。这样的概念具有使用所有自然语言的一些模式,这些模式允许人们可以谈论它们。因此,特殊概念勘探器230分析从话语生成的文本和结构,以提取特殊概念值。另外,可以以合适的语言定义问题集,这些问题集被设计来生成来自使用者101的可以使与所述值相关联的概念更清晰的信息。
当脚本引擎202遇到对通话脚本203中的特殊概念的请求时,它调用特殊概念勘探器230来得到与该概念相关联的值。在缺乏该信息的情况下,特殊概念勘探器230将可以通过语音产生器模块106转发给客户101的合适问题返回给脚本引擎202。在接收到答复之后,如果有必要的话,则可以重复进行所述处理。如果客户拒绝提供答复,则脚本引擎202将记下该事实,以使得脚本可以做出反应。以下对特殊概念和它们的使用进行更详细的描述。
特殊指令可以被嵌入通话脚本203,以查询合适的数据库。其他指令可以被嵌入与服务108相关联的通话脚本203,来允许向客户呈现结果,以便使得他能够选择特定值。另外的指令可以被用于以合适的数据更新数据库204。
通话脚本203中的条件指令使得可以对预期的人类反应作出反应。这些条件指令可以包括指令,诸如可以使得***103(或者更具体地,通话脚本203)能够处理各种情况(诸如如果使用者101拒绝提供答复或特定信息,则该怎么做)的if、switch、while等指令。
通话脚本203可以被配置来对消息数字进行操作,这些消息数字可以根据客户所使用的语言被转换为自然语言的消息。
图3是更详细地图示说明根据一个实施方案的示例性处理的流程图,通过该处理,***100被用于选择服务108和将服务108提供给使用者101(“选择服务状态”)。在步骤302中,语音识别引擎104可以通过设备102和相关联的通信架构从使用者101接收语音话语。如所指出的,话语可以包括信息,诸如:辨识信息,即,名称、编号、地址等;认证信息,即,社保号、确认号等;关于期望服务的信息,即,销售、客户服务、预订等;仅仅列出了可以被包括在从使用者101接收的话语中的信息类型的几个示例。
在步骤304中,语音识别模块可以被配置来将话语转化或转换为可以在步骤306中被转发给会话管理器105的文本。
会话管理器105然后可以在步骤308中使用与本体论链接的词汇将文本转换为结构。在步骤310中,会话管理器105可以使用所述结构来辨识包括在话语中的概念,即,包括在话语中的本体概念。然后可以在步骤312中使用所述概念来辨识正被请求的服务108。以下对概念及其在***103内的辨识进行更详细的描述。
当在话语中不存在用于充分辨识服务108的足够信息时,会话管理器则可以被配置来在步骤314中产生文本消息,该文本消息被设计来引出另外的信息以允许服务108的辨识。所述文本消息可以使用通话脚本203来产生,并且可以在步骤316中被发送到语音产生器106,语音产生器106可以被配置来将文本消息转换为将通过设备102被传送给使用者101的讲话。
然后将重复进行所述处理,直到在步骤318中出现足够的信息来选择服务。一旦服务被选择,合适的通话脚本203就可以在步骤320中被激活,以便产生可以在步骤322中被转发给语音产生器106的文本消息,从而与使用者101通信。
图4是更详细地图示说明根据一个实施方案的选择由会话管理器105承担的服务的过程的流程图。在步骤402中,脚本引擎202从语音识别模块104接收文本信息,并且将文本发送到文本到结构引擎212,在步骤404中文本到结构引擎212可以被配置来使用合适的词汇210和相关联的本体论211将文本转换为结构。然后在步骤406中服务选择器220可以使用所述结构来从服务数据库204选择服务。
在步骤408中,被选服务然后可以使脚本引擎202使用通话脚本203产生提供合适信息所需的合适文本消息或者向使用者101索求信息。换句话讲,与通话脚本203配合的脚本引擎202允许***103以自然的方式如由被选服务决定的那样与使用者101进行通信。
服务数据管理器205可以被配置来将与各种服务相关联的数据储存在服务数据库204中。另外,服务数据库205可以被配置来储存从使用者101以及比如特殊概念处理器230接收的信息。因此,当在步骤408中产生消息时,在步骤410中响应于该消息来接收新的信息。在步骤412中,可以将与在步骤410中接收的信息相关联的信息或值储存在服务数据库412中。
图5是图示说明根据一个实施方案的用于形成结构并将它们与概念链接的实施例的示图。图5图示说明用于以下话语的处理:“I would like to make an appointment for my wifewith her doctor”和等同的波兰语“
Figure BPA00001444815200081
z jej lekarzem”。每个话语502(英语)和514(波兰语)包括如以用于该语言的相关联的词汇210定义的多个词素。一般而言,每种语言的词汇210中的每个词位直接与一个合适的概念或多个合适的概念508联系,或者通过具有变形的语言中的词根与一个合适的概念或多个合适的概念508联系。因为在自然语言交流中,表达相同概念有许多同义的不同方式,所以每个概念508与每个词汇210中的多个词素(lexeme)联系。
仍参照图5,话语502和514可以被转换为单元504或512。每个单元504和512可以对应于话语中的一个或更多个词素。例如,单元504可以对应于单个词素,或者可以具有多个子单元,以使得它可以对应于多个词素,诸如图5的实施例中的话语502中的“wouldlike to”的分组。每个单元504或子单元然后可以基于相关联的本体论211通过链接(links)506和510被链接到一个或更多个概念508。
单元504和512与链接506和510的组合分别形成与各个概念508相关联的结构505和515。应该指出,无论输入话语中所包括的指引或导致概念被辨识的词素如何,每个概念508都将具有唯一的结构。换句话讲,如果话语502被稍微不同地陈述,即,“I wouldlike to make a doctor appointment for my wife”或者“I would like to see if my wife’s doctor isavailable”,则应该产生非常类似的、将会导致辨识相同概念508的结构505和515。
因此,***103中所定义的每个服务108可以具有与它相关联的一组概念508。在许多实施方案中,仅包括重要的概念,以避免不必要的关联。此外,在其他实施方案中,省略仅表达语法的词素。可选地,每个服务还可以具有排除条件和必需条件。例如,如果某个服务108将被选择,则必须为将被选择的该某个服务108提供某些信息,而不能包括其他信息。
概念508然后可以与服务108相关联。换句话讲,每个服务将具有与它相关联的某些概念。会话管理器105然后可以确定与话语(比如,话语502)相关联的结构(比如,结构505),并且基于结构505确定什么服务108与结构505最紧密关联,即,具有与话语502相关联的大多数概念508。在某些实施方案中,在确定哪个服务108与话语502最紧密关联时,会话管理器105还可以被配置来确定任何必需条件和排除条件是否已经满足每个服务108。
一旦服务108被选择,则下一个步骤就可以是使用通话脚本203收集用于该服务的数据。这可以涉及如上所描述的特殊概念。再次,特殊概念是实际上不试图理解的概念***103,但是对于该***103,试图产生相关联的值或等级。在图5的实施例中,这样的概念可以是:人,即,谁要去看医生;时间,即,何时应该进行预约;以及医生,需要哪个医生。
首先,可以对话语(比如,话语502)进行评估,以确定它是否包括必要数据。值或等级是所提供的数据有多强烈地对应于该信息的指示。确定数据是否被包括并且提供值或等级的任务可以落到特殊概念处理器230。如果表现为话语502不包括所需数据,则脚本引擎202可以在被选服务108的控制下选择被设计来引出所述信息的通话脚本。在以上实施例中,客户将被询问预约的日期(在谈话脚本中),这是因为当预订该服务时,仅该信息尚未被指定。
一旦产生的值指示提供了所有的所需信息,则数据可以被储存,并且可以被用于进行预约。通话脚本204则可以被用于产生可以被传送给使用者的确认预约的消息。
再次,通话脚本203使用自然语言以自然的方式产生接收的话语并对接收的话语做出响应。因此,当使用者101被提示提供所需信息时,他们应该觉得他们好像是正在进行正常的通话似的。
本文所描述的***和方法的全部或部分还可以被实施为计算机可读介质上的计算机可读代码。计算机可读介质是可以储存其后可以被计算机***读取的数据的任意数据储存设备。计算机可读介质的示例包括硬盘驱动器、联网储存器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带和其他光学和非光学数据储存设备。计算机可读介质还可以被分布在联网的计算机***上,以使得计算机可读代码被以分布式方式储存和执行。
虽然本文已经对几个实施方案进行了详细描述,但是本领域技术人员应该理解,可以以许多其他特定形式实施本文所描述的***和方法。因此,认为提供的实施例和实施方案是示例性的,而不是限制性的,并且本文所描述的***和方法不限于本文提供的细节,而是可以在所附的权利要求的范围内被修改和实施。

Claims (21)

1.一种在包括语音识别模块、会话管理器和语音产生器模块的***中,用于向使用者提供服务的方法,所述方法包括:
通过所述语音识别模块接收话语;
使用依附于本体论的词汇将所述话语转换为一个或更多个结构;
使用所述结构辨识所述话语中的概念;
如果所述话语包括足够的信息,则基于所述概念选择服务;
基于被选服务产生文本消息;以及
使用所述语音产生器将所述文本消息转换为语音消息。
2.如权利要求1所述的方法,还包括:将所述话语转换为文本,并且然后将所述文本转换为所述一个或更多个结构。
3.如权利要求1所述的方法,还包括:当所述话语不包括足够的信息时,产生被设计来引出另外的信息的文本消息,使用语音产生器将所述文本消息转换为语音消息,并且将所述语音消息传送给所述使用者。
4.如权利要求1所述的方法,还包括:将所述语音消息传送给所述使用者。
5.如权利要求1所述的方法,还包括:
响应于传送给所述使用者的所述语音消息,通过所述语音识别模块接收另外的话语;
使用依附于本体论的词汇将所述话语转换为一个或更多个结构;
使用所述结构辨识所述话语中的概念;
基于所辨识的概念获得提供给所述使用者的信息;
基于所获得的信息或者所辨识的概念中的至少一个产生另一文本消息;
使用所述语音产生器将所述文本消息转换为语音消息;以及
将所述文本消息传送给所述使用者。
6.如权利要求1所述的方法,其中所述使用依附于本体论的词汇将所述话语转换为一个或更多个结构的步骤包括将所述话语与和多个概念链接的一个或更多个单元相关联,所述多个概念又与多个服务相关联。
7.如权利要求6所述的方法,其中所述使用所述结构辨识所述话语中的概念的步骤包括确定哪些概念与所述单元链接。
8.如权利要求7所述的方法,还包括:基于所述概念选择服务的步骤包括基于用于所述多个服务中的每个的通过所述单元与所述话语链接的相关联概念的数量来确定哪个服务与所述话语最紧密相关。
9.如权利要求1所述的方法,还包括:辨识与被选服务相关联的特殊概念,并且基于所述话语中所包括的信息将值分配给所辨识的特殊概念。
10.如权利要求9所述的方法,还包括:确定与被选服务相关联的所有特殊概念是否存在于所述话语中,并且如果不是,则产生被设计来引出与任何丢失的特殊概念相关的信息的文本消息,并且使用所述语音产生器将所述文本消息转换为语音消息。
11.如权利要求10所述的方法,还包括:当所有的特殊概念存在并且被分配值时,则执行或完成所述服务。
12.如权利要求11所述的方法,其中所述执行服务的步骤包括储存被包括在所述话语中并且与所述特殊概念相关联的信息。
13.一种用于向使用者提供服务的***,所述***包括:
语音识别模块,所述语音识别模块被配置来接收话语并且将所述话语转换为文本;使用依附于本体论的词汇转换为一个或更多个结构;
会话管理器,所述会话管理器被配置来与所述语音识别模块耦合,并且被配置来:
使用依附于本体论的词汇产生与所述文本相关联的结构;
使用所述结构辨识所述话语中的概念;
如果所述话语包括足够的信息,则基于所述概念选择服务;以及
基于被选服务产生回复文本消息;以及
语音产生器模块,所述语音产生器模块与所述会话管理器耦合,并且被配置来将所述回复文本消息转换为语音消息。
14.如权利要求13所述的***,其中所述会话管理器被进一步配置来当所述话语不包括足够的信息时,产生被设计来引出另外的信息的文本消息,并且其中所述语音产生器被进一步配置来将所述文本消息转换为语音消息,并且将所述语音消息传送给所述使用者。
15.如权利要求13所述的***,其中所述会话管理器被进一步配置来通过将所述话语与和多个概念链接的一个或更多个单元相关联以产生与所述文本相关联的结构,所述多个概念又与多个服务相关联。
16.如权利要求15所述的***,其中所述会话管理器被进一步配置来通过确定哪些概念与所述单元链接以使用所述结构辨识所述话语中的概念。
17.如权利要求16所述的***,其中所述会话管理器被进一步配置来通过下述方式基于所述概念选择服务,即,基于用于所述多个服务中的每个的通过所述单元与所述话语链接的相关联概念的数量来确定哪个服务与所述话语最紧密相关。
18.如权利要求13所述的***,其中所述会话管理器被进一步配置来辨识与被选服务相关联的特殊概念并且基于所述话语中所包括的信息将值分配给所辨识的特殊概念。
19.如权利要求18所述的***,其中所述会话管理器被进一步配置来确定与被选服务相关联的所有特殊概念是否存在于所述话语中,并且如果不是,则产生被设计来引出与任何丢失的特殊概念相关的信息的文本消息,并且其中所述语音产生器模块被进一步配置来使用所述语音产生器将所述文本消息转换为语音消息。
20.如权利要求19所述的***,其中所述会话管理器被进一步配置来当所有的特殊概念存在并被分配值时,执行或完成所述服务。
21.如权利要求20所述的***,其中所述会话管理器被进一步配置来通过储存被包括在所述话语中并且与所述特殊概念相关联的信息来执行所述服务。
CN2010800147504A 2009-02-03 2010-01-19 使用语音通信交互式地访问托管服务的***和方法 Pending CN102369568A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/364,927 2009-02-03
US12/364,927 US8417523B2 (en) 2009-02-03 2009-02-03 Systems and methods for interactively accessing hosted services using voice communications
PCT/IB2010/000186 WO2010089645A1 (en) 2009-02-03 2010-01-19 Systems and methods for interactively accessing hosted services using voice communications

Publications (1)

Publication Number Publication Date
CN102369568A true CN102369568A (zh) 2012-03-07

Family

ID=42244676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800147504A Pending CN102369568A (zh) 2009-02-03 2010-01-19 使用语音通信交互式地访问托管服务的***和方法

Country Status (10)

Country Link
US (3) US8417523B2 (zh)
EP (1) EP2394267A1 (zh)
JP (1) JP2012517174A (zh)
KR (1) KR20110127180A (zh)
CN (1) CN102369568A (zh)
IL (1) IL214424A0 (zh)
RU (1) RU2011136720A (zh)
SG (1) SG173511A1 (zh)
TW (1) TW201034004A (zh)
WO (1) WO2010089645A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836925A (zh) * 2014-02-11 2015-08-12 携程计算机技术(上海)有限公司 咨询***及方法
WO2015154447A1 (zh) * 2014-08-15 2015-10-15 中兴通讯股份有限公司 一种交互式语音应答方法及装置
CN105827877A (zh) * 2015-01-06 2016-08-03 ***通信集团上海有限公司 一种基于ivr平台的业务处理方法及ivr平台
CN109327629A (zh) * 2018-11-01 2019-02-12 深圳市号互联科技有限公司 一种人工智能语音导航数据处理方法
CN112399019A (zh) * 2020-09-16 2021-02-23 中国农业银行股份有限公司河北省分行 智能外呼方法、终端设备及可读存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9883034B2 (en) * 2006-05-15 2018-01-30 Nice Ltd. Call center analytical system having real time capabilities
US9021565B2 (en) 2011-10-13 2015-04-28 At&T Intellectual Property I, L.P. Authentication techniques utilizing a computing device
US20130130648A1 (en) * 2011-11-22 2013-05-23 Kamran J. Tadjeran Providing support to a user
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
US10514677B2 (en) * 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
DE102014213350A1 (de) 2014-07-09 2016-01-14 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Ermittlung von Informationen über Mobilitäts-situationen
JP6849964B2 (ja) * 2016-09-05 2021-03-31 株式会社Nextremer 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、対話方法、およびプログラム
CN108182943B (zh) * 2017-12-29 2021-03-26 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
WO2019193378A1 (en) * 2018-04-06 2019-10-10 Flex Ltd. Device and system for accessing multiple virtual assistant services
CN110459211B (zh) 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049253A2 (en) * 2000-12-14 2002-06-20 Poly Information Ltd. Method and interface for intelligent user-machine interaction
WO2002054333A2 (en) * 2001-01-01 2002-07-11 Poly Information Ltd. A method and system for improved speech recognition
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话***的方法
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
US20080095327A1 (en) * 2006-10-18 2008-04-24 Prokom Investments S.A. Systems, apparatuses, and methods for interactively accessing networked services using voice communications

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US20020035474A1 (en) * 2000-07-18 2002-03-21 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
JP4441782B2 (ja) * 2003-05-14 2010-03-31 日本電信電話株式会社 情報提示方法及び情報提示装置
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
JP2006317876A (ja) * 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> 音声読み上げ装置およびプログラム
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP4584166B2 (ja) * 2006-03-14 2010-11-17 Necパーソナルプロダクツ株式会社 Webページ文章自動検出装置
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002049253A2 (en) * 2000-12-14 2002-06-20 Poly Information Ltd. Method and interface for intelligent user-machine interaction
WO2002054333A2 (en) * 2001-01-01 2002-07-11 Poly Information Ltd. A method and system for improved speech recognition
US20040162724A1 (en) * 2003-02-11 2004-08-19 Jeffrey Hill Management of conversations
CN1455357A (zh) * 2003-05-23 2003-11-12 郑方 一种实现多路对话的人-机汉语口语对话***的方法
US20080095327A1 (en) * 2006-10-18 2008-04-24 Prokom Investments S.A. Systems, apparatuses, and methods for interactively accessing networked services using voice communications

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104836925A (zh) * 2014-02-11 2015-08-12 携程计算机技术(上海)有限公司 咨询***及方法
WO2015154447A1 (zh) * 2014-08-15 2015-10-15 中兴通讯股份有限公司 一种交互式语音应答方法及装置
CN105338204A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 一种交互式语音应答方法及装置
CN105827877A (zh) * 2015-01-06 2016-08-03 ***通信集团上海有限公司 一种基于ivr平台的业务处理方法及ivr平台
CN109327629A (zh) * 2018-11-01 2019-02-12 深圳市号互联科技有限公司 一种人工智能语音导航数据处理方法
CN112399019A (zh) * 2020-09-16 2021-02-23 中国农业银行股份有限公司河北省分行 智能外呼方法、终端设备及可读存储介质

Also Published As

Publication number Publication date
SG173511A1 (en) 2011-09-29
EP2394267A1 (en) 2011-12-14
JP2012517174A (ja) 2012-07-26
US20130226579A1 (en) 2013-08-29
KR20110127180A (ko) 2011-11-24
IL214424A0 (en) 2011-09-27
US20130226575A1 (en) 2013-08-29
TW201034004A (en) 2010-09-16
US8417523B2 (en) 2013-04-09
US20100198595A1 (en) 2010-08-05
RU2011136720A (ru) 2013-03-10
WO2010089645A1 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
CN102369568A (zh) 使用语音通信交互式地访问托管服务的***和方法
US8442563B2 (en) Automated text-based messaging interaction using natural language understanding technologies
US7167830B2 (en) Multimodal information services
CA2648617C (en) Hosted voice recognition system for wireless devices
US7983399B2 (en) Remote notification system and method and intelligent agent therefor
US7907705B1 (en) Speech to text for assisted form completion
US10382624B2 (en) Bridge for non-voice communications user interface to voice-enabled interactive voice response system
CN101207584B (zh) 自动提供文本交换服务的方法和***
WO2002051114A1 (en) Service request processing performed by artificial intelligence systems in conjunction with human intervention
US20050055310A1 (en) Method and system for accessing information within a database
US20030055649A1 (en) Methods for accessing information on personal computers using voice through landline or wireless phones
US20100042409A1 (en) Automated voice system and method
CN1620018A (zh) 通过个人计算***访问语音服务的方法和***
JP2012064073A (ja) 自動会話制御システム及び自動会話制御方法
US20200396334A1 (en) Method for establishing a communication with an interactive server

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120307