CN113312927B - 信息处理装置、信息处理方法以及记录介质 - Google Patents
信息处理装置、信息处理方法以及记录介质 Download PDFInfo
- Publication number
- CN113312927B CN113312927B CN202110177319.1A CN202110177319A CN113312927B CN 113312927 B CN113312927 B CN 113312927B CN 202110177319 A CN202110177319 A CN 202110177319A CN 113312927 B CN113312927 B CN 113312927B
- Authority
- CN
- China
- Prior art keywords
- language
- utterance
- content
- user
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 27
- 230000004044 response Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及信息处理装置、信息处理方法以及记录介质,提高发言内容的意图理解的精度。信息处理装置具备控制部,该控制部执行:根据与场所有关的第1信息,确定用于翻译输入的发言的内容的第1语言;根据利用第1语言翻译后的发言的内容推测发言的内容的意图;根据推测出的意图选择提供的服务;以及关于选择的服务,进行基于发言的语言的引导。第1语言与发言的语言不同。
Description
技术领域
本公开涉及信息处理装置、信息处理方法以及记录介质。
背景技术
公开有如下对应多语言的导航装置:具备多种语言的地图信息以及声音引导信息,使用在便携电话终端机中设定的使用语言的地图信息以及声音引导信息来进行导航控制(例如专利文献1)。
现有技术文献
专利文献
专利文献1:日本特开2008-096289号公报
发明内容
然而,例如,在用户的发言中混入有多种语言的情况下,仅凭便携终端机中设定的语言或者发言的语言的地图信息以及声音引导信息的话,存在发言意图的理解精度降低的可能性。
公开的一个方案的课题在于提供一种能够提高发言内容的意图的理解精度的信息处理装置、信息处理方法以及记录介质。
本公开的一个方案为信息处理装置,具备控制部,该控制部执行:
根据和与输入的发言有关的场所相关联的第1信息,确定用于翻译所述发言的内容的第1语言;
根据利用所述第1语言翻译后的所述发言的内容推测所述发言的内容的意图;
根据推测出的所述意图选择要提供的服务;以及
关于所述服务,基于所述发言的语言进行引导。
本公开的一个其他方案为信息处理方法,执行:
根据与场所有关的第1信息,确定用于翻译输入的发言的内容的第1语言;
根据利用所述第1语言翻译后的所述发言的内容推测所述发言的内容的意图;
根据推测出的所述意图选择要提供的服务;以及
关于所述服务,基于所述发言的语言进行引导。
本公开的一个其他方案为记录介质,记录程序,该程序用于使计算机执行:
将输入的发言的内容发送给服务器;以及
通过所述服务器,利用根据与场所有关的第1信息确定的第1语言翻译所述发言的内容,根据利用所述第1语言翻译后的所述发言的内容推测所述发言的内容的意图,根据推测出的所述意图选择所述服务,接收被发送的、与所述服务有关的基于所述发言的语言实现的引导。
根据本公开,能够提高发言的内容的意图理解的精度。
附图说明
图1是示出第1实施方式的对话控制***的***结构的一个例子的图。
图2是示出中心服务器的硬件结构的一个例子的图。
图3是示出中心服务器的功能结构的一个例子的图。
图4是中心服务器的对话控制处理的流程图的一个例子。
图5是示出对话控制处理的具体例的图。
(符号说明)
1:中心服务器;2:用户终端;3:翻译服务器;11:控制部;12:翻译控制部;13:服务判定部;14:意图理解引擎群;15:服务群;100:对话控制***;102:存储器;103:外部存储装置;104:通信部。
具体实施方式
在通过声音对装置发出命令时,例如,使用用于理解所输入的发言的意图的意图理解引擎的情形较多。多数情形下,1个意图理解引擎与1种语言对应。另一方面,有发言混入多种语言的情况。例如,在逗留外国的过程中,在母语中混入逗留国家的地名的当地俗称等。通常,意图理解引擎利用与发言的语言对应的语言的情形较多,但在发言中混入多种语言的情况下,多数情形下,难以高精度地理解其意图。
因此,在本公开的一个方案中,信息处理装置根据和与发言有关的场所相关联的第1信息,将发言的内容翻译成第1语言,根据翻译成第1语言的发言的内容推测发言的内容的意图。
具体而言,本公开的一个方案为具备控制部的信息处理装置,该控制部执行:根据和与输入的发言有关的场所相关联的第1信息,确定用于翻译发言的内容的第1语言;根据利用第1语言翻译后的发言的内容推测发言的内容的意图;根据推测出的意图选择要提供的服务;以及关于该服务,基于发言的语言进行引导。第1语言与发言的语言不同。
信息处理装置例如是服务器。但是,信息处理装置不限定于服务器,例如,也可以是智能手机、平板终端、PC(Personal Computer,个人电脑)、车辆导航***等用户终端。控制部例如是处理器。和与发言有关的场所相关联的第1信息例如是被输入发言的装置的位置信息以及表示被输入发言的装置的用户的与场所有关的爱好的信息。被输入发言的装置和信息处理装置也可以是相同的装置。表示被输入发言的装置的用户的与场所有关的爱好的信息例如是检索历史、日程安排信息、或者配送信息的历史的至少一个中的国家的出现次数的排名。
例如,在第1信息是被输入发言的装置的位置信息的情况下,第1语言是该位置信息表示的国家中的使用语言。例如,在第1信息是被输入发言的装置的用户的检索历史中的国家的出现次数排名的情况下,第1语言是该排名的第一位的国家的使用语言。
例如,也可以在推测发言的内容的意图时使用意图理解引擎。信息处理装置也可以在推测发言的内容的意图时使用与第1语言对应的意图理解引擎。
在本公开的一个方案中,基于利用第1语言翻译后的发言的内容,推测发言的内容的意图,该第1语言是根据与场所有关的第1信息确定的。由此,例如,在诸如发言的内容中混入有多种语言、且其中有第1语言特有的语句的情况下,能够更高精度地理解发言的意图。
以下,根据附图,说明本发明的实施方式。以下的实施方式的结构是例示,本发明不限定于实施方式的结构。
<第1实施方式>
图1是示出第1实施方式的对话控制***100的***结构的一个例子的图。对话控制***100是提供如下服务的***:辨识用户的声音、依照包含于该声音的处理的指示进行相应的处理。对话控制***100例如具备中心服务器1、用户终端2以及翻译服务器3。中心服务器1、用户终端2以及翻译服务器3分别与网络N1连接,能够经由网络N1通信。
用户终端2例如是智能手机、平板终端、PC或者车辆导航***等车载装置。用户终端2例如安装有对话控制应用,该对话控制应用依照包含处理的指示的声音来提供执行该处理的服务的接口。用户终端2例如将经由该对话控制应用从用户输入的发言声音变换成文本,将变换成文本的发言内容和对话控制请求发送给中心服务器1。另外,在第1实施方式中,与对话控制请求一起,将用户终端2的位置信息也发送给中心服务器1。
中心服务器1提供如下服务:根据从用户终端2接收的对话控制请求,根据发言内容辨识处理的指示,进行该处理。具体而言,中心服务器1利用意图理解引擎解析从用户终端2接收到的发言的内容,确定包含于该发言的内容的处理的指示并执行,将执行结果发送给用户终端2。将处理的执行结果发送给用户终端2是“关于服务”“进行引导”的一个例子。
在第1实施方式中,中心服务器1在将发言的内容输入给意图理解引擎之前,判定第1语言和发言的语言是否相同,该第1语言为用户终端2的位置信息所示出的国家的使用语言。在第1语言和发言的语言不同的情况下,中心服务器1将发言的内容翻译成第1语言,通过与第1语言对应的意图理解引擎来解析翻译成第1语言后的发言的内容。中心服务器1在翻译中使用外部的翻译服务器3。翻译服务器3将指定的数据翻译成由中心服务器1指定的语言。
例如,当在海外旅行的情况下,发言的语言和用户终端2的位置信息示出的国家的使用语言不同。当在旅行目的地使用对话控制***100的服务的情况下,在如发言内容中包含旅行目的地的国家特有的语句的情况下,发言的语言下的意图理解引擎有时无法准确地理解其意图。旅行目的地的国家特有的语句是指,例如,观光景点的俗称、该国家特有的食物以及料理的名称、国家的地方方言等。因此,在第1实施方式中,将发言的内容翻译成旅行目的地的国家的使用语言,利用旅行目的地的国家的使用语言的意图理解引擎来解析翻译后的发言的内容。由此,例如,能够理解利用在发言的语言下无法完全理解的语句、或者能够抑制表示发言的意图的语句的漏检,从而提高理解发言的意图的精度。
图2是示出中心服务器1的硬件结构的一个例子的图。作为硬件结构,中心服务器1具有CPU(Central Processing Unit,中央处理单元)101、存储器102、外部存储装置103以及通信部104。存储器102以及外部存储装置103是计算机可读取的记录介质。中心服务器1是“信息处理装置”的一个例子。
外部存储装置103储存各种程序以及在执行各程序时由CPU101使用的数据。外部存储装置103例如是EPROM(Erasable Programmable ROM,可擦可编程ROM)、硬盘驱动器(Hard Disk Drive)。在保持于外部存储装置103的程序中,例如,保持操作***(OS)、对话控制程序、其他各种应用程序。对话控制程序是用于根据发言的内容辨识处理的指示、并执行该处理的程序。
存储器102是对CPU 101提供用于载入储存于外部存储装置103的程序的存储区域以及作业区域、或者被用作缓冲器的存储装置。存储器102例如包括如ROM(Read OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)的半导体存储器。
CPU 101通过将保持于外部存储装置103的OS、各种应用程序载入到存储器102并执行,来执行各种处理。CPU 101不限于1个,也可以具备多个。CPU 101是“信息处理装置”的“控制部”的一个例子。
通信部104是用于与网络进行信息的输入输出的接口。通信部104既可以是与有线的网络连接的接口,也可以是与无线的网络连接的接口。通信部104例如是NIC(NetworkInterface Card,网络接口卡)、无线电路等。此外,中心服务器1的硬件结构不限定于图2所示的结构。
此外,用户终端2也与中心服务器1同样地,具有CPU、存储器、外部存储装置、通信部,所以省略其图示。在用户终端2中,例如,安装有对话控制应用和声音文本变换应用,通过执行这些应用,将把发言的声音数据变换成文本数据后的发言的内容、和对话控制请求发送给中心服务器1。此外,在用户终端2未具备声音文本变换应用的情况下,也可以发送发言的声音数据。另外,用户终端2例如具备如GPS(Global Positioning System,全球定位***)接收部的位置信息的取得单元,将位置信息与对话控制请求一起也发送给中心服务器1。
图3是示出中心服务器1的功能结构的一个例子的图。作为功能构成要素,中心服务器1具备控制部11、翻译控制部12、服务判定部13、意图理解引擎群14以及服务群15。这些功能构成要素例如通过由中心服务器1的CPU 101执行预定的程序来达成。
控制部11从用户终端2接收对话控制请求、发言的内容的文本数据以及位置信息。此外,在来自用户终端2的发言的内容是声音数据的情况下,控制部11也可以将该声音数据变换成文本数据。此外,从声音数据向文本数据的变换,既可以由中心服务器1进行,也可以委托外部服务器进行。
控制部11根据位置信息确定第1语言,该第1语言为用户终端2所处的国家的使用语言。在第1语言和发言的语言不同的情况下,控制部11指示翻译控制部12将发言的内容的文本数据从发言的语言翻译成第1语言。
在从翻译控制部12受理了翻译成第1语言后的发言的内容的文本数据的输入时,控制部11向与第1语言对应的意图理解引擎输出该文本数据。在从意图理解引擎受理了发言的内容的解析结果的输入时,控制部11向服务判定部13输出该解析结果,委托判定要提供的服务。
此外,在第1实施方式中,服务判定部13与1种语言对应。因此,在向服务判定部13输入发言的内容的解析结果之前,控制部11判定服务判定部13的使用语言和第1语言是否相同。以下,将服务判定部13的使用语言称为“服务判定语言”。服务判定语言是“第2语言”的一个例子。
在服务判定语言和第1语言不同的情况下,控制部11通过翻译控制部12,将第1语言的发言的内容的解析结果翻译成服务判定语言,将翻译成服务判定语言的发言的内容输出给服务判定部13。此外,在关于多种语言分别准备服务判定部13的情况下,选择与第1语言对应的服务判定部13,输入翻译成第1语言后的发言的内容的解析结果即可。
控制部11在由服务判定部13判定出要提供的服务后,指示相应的服务进行依照发言的内容的处理。在受理了该服务的处理的结果的输入时,控制部11制作向用户终端2的应答。利用服务判定语言制作应答。在服务判定语言和发言的语言不同的情况下,应答被翻译成发言的语言。此外,利用文本数据制作应答。控制部11将制作出的应答发送给用户终端2。
翻译控制部12依照来自控制部11的指示,委托翻译服务器3将指定的数据翻译成指定的语言,从翻译服务器3取得翻译后的数据。翻译控制部12将取得的翻译后的数据输出给控制部11。
服务判定部13依照来自控制部11的指示,判定发言的内容所意图的服务。服务判定部13例如与1种语言对应。此外,在第1实施方式中,仅具备1个服务判定部13,所以在第1语言和服务判定语言不同的情况下,在将翻译成第1语言的发言的内容再次翻译成服务判定语言后,输入给服务判定部13。
意图理解引擎群14例如包括与日语对应的意图理解引擎14A、与英语对应的意图理解引擎14B、与法语对应的意图理解引擎14C以及与意大利语对应的意图理解引擎14D等。各意图理解引擎分别保持对应的语言的各种词典数据库,参照该数据库,推测发言的内容的意图。在意图理解引擎保持的词典数据库中,例如,有设施名以及建筑物名等的词典数据库、各地方方言的词典数据库以及俚语的词典数据库等。意图理解引擎保持的词典数据库不限定于这些。
具体而言,针对输入的文本数据,意图理解引擎进行分成单词并对各单词附加标签的词素解析。单词附加标签是指,例如,对词性等进行分类。进而,意图理解引擎从输入文本数据抽出作为用户请求的动作的任务、和与储存作为任务的参数的信息的槽位(slot)相应的单词。根据该任务和槽位的信息,进行服务判定。
服务群15包括由中心服务器1提供的多个服务的应用。例如,服务群15包括日程安排以及导航等的应用。
此外,图3所示的中心服务器1的功能结构是一个例子,不限定于此。另外,中心服务器1的功能构成要素例如也能够通过FPGA(Field Programmable Gate Array,现场可编程门阵列)等硬件实现。
图4是中心服务器1的对话控制处理的流程图的一个例子。图4所示的处理例如以预定的周期反复执行。图4所示的处理的执行主体是中心服务器1的CPU 101,但为方便起见,以功能构成要素为主体进行说明。
在OP101中,控制部11判定是否从用户终端2接收到对话控制请求。在接收到对话控制请求的情况下(OP101:“是”),处理进入到OP102。在未接收到对话控制请求的情况下(OP101:“否”),图4所示的处理结束。与对话请求控制一起,例如,还接收发言的内容的文本数据以及一个信息。
在OP102中,控制部11根据用户终端2的位置信息,确定用户终端2所处的国家,将该国家的使用语言确定为第1语言。在OP103中,控制部11判定第1语言和发言的语言是否一致。例如,根据文本数据的文字代码等判别发言的语言。在第1语言和发言的语言一致的情况下(OP103:“是”),处理进入到OP105。在第1语言和发言的语言不一致的情况下(OP103:“否”),处理进入到OP104。
在OP104中,控制部11指示翻译控制部12,委托翻译服务器3将发言的内容翻译成第1语言。在OP105中,控制部11将翻译成第1语言后的发言的内容输入给与第1语言对应的意图理解引擎并使意图理解引擎进行解析。
在OP106中,控制部11判定第1语言和服务判定语言是否一致。在第1语言和服务判定语言一致的情况下(OP106:“是”),处理进入到OP108。在第1语言和服务判定语言不一致的情况下(OP106:“否”),处理进入到OP107。
在OP107中,控制部11指示翻译控制部12,委托翻译服务器3将利用第1语言的意图理解引擎解析发言的内容得到的解析结果,翻译成服务判定语言。在OP108中,控制部11将服务判定语言的发言内容的解析结果输入给服务判定部13,判定发言的内容所意图的服务,进行处理。在OP109中,控制部11利用服务判定语言制作包括服务的处理的结果的应答。
在OP110中,控制部11判定服务判定语言和发言的语言是否一致。在服务判定语言和发言的语言一致的情况下(OP110:“是”),处理进入到OP112。在服务判定语言和发言的语言不一致的情况下(OP110:“否”),处理进入到OP111。在OP111中,控制部11指示翻译控制部12,委托翻译服务器3将应答的内容翻译成发言的语言。
在OP112中,控制部11将翻译成发言的语言的应答发送给用户终端2。OP112的处理是“关于服务,基于所述发言的语言进行引导”的一个例子。之后,图4所示的处理结束。
此外,中心服务器1的对话控制处理不限定于图4所示的例子。例如,在服务群15的各服务中设定有使用语言的情况下,OP108中的服务处理也可以利用设定的语言进行。
图5是示出对话控制处理的具体例的图。在图5所示的具体例中,设想发言的语言是英语,服务判定语言是日语。在图5中,根据图4所示的对话控制处理的流程图的各处理,示出发言的内容或者处理的内容。
在OP101中,中心服务器1接收对话控制请求、发言的内容为“Register Lepantschedule from 10:00tomorrow”的文本数据以及用户终端2的位置信息。设想用户终端2的位置信息示出意大利。此外,由于是发言的语句,所以存在语法等不准确的可能性。此外,发言的内容中的“Lepant”是意大利语,是意大利的一个车站。
在OP102中,由于用户终端2的位置信息示出意大利,所以中心服务器1将第1语言确定为意大利语。
在OP103中,由于发言的语言是英语、第1语言是意大利语,所以中心服务器1判定发言的语言和第1语言不一致(OP103:“否”)。
在OP104中,中心服务器1委托翻译服务器3将发言的内容翻译成作为第1语言的意大利语。其结果,取得“Registra il programma Lepant dalle 10:00domani”这样的意大利语的文本数据。
在OP105中,中心服务器1将翻译成意大利语的发言的内容输入到意大利语的意图理解引擎14D并使意图理解引擎14D进行解析。其结果,被词素解析成“Registra|il|programma|Lepant|dalle|10:00domani”。其中,“|”表示词素解析的结果、词素的划分。意图理解引擎14D进而针对各单词,赋予“★|冠词|★|标题|助词|开始日期时间”这样的标签。此外,★为表示是表示任务的词语的标签。即,在图5所示的例子中,作为任务,抽出“Registra”以及“programma”(登记预定)。另外,作为针对“Registra”以及“programma”这样的任务的槽位,有“标题”和“开始日期时间”,在发言的内容中分别对“Lepant”和“10:00domani”附加标签。
在OP106中,由于服务判定语言是日语、第1语言是意大利语,所以中心服务器1判定服务判定语言和第1语言不一致(OP106:“否”)。
在OP107中,中心服务器1委托翻译服务器3将翻译成第1语言的发言的内容翻译成作为服务判定语言的日语。其结果,取得“登録|その|予定|Lepant|から|明日の10:00”这样的日语的文本数据。此外,“Lepant”是与槽位“标题”对应的参数,所以从向服务判定语言的翻译对象中被去掉。但是,不限于此,也可以根据与标题对应的语句,翻译成服务判定语言。
在OP108中,中心服务器1进行日语的服务判定。在图5所示的例子中,任务是“予定を登録”,所以作为服务,选择日程安排。另外,针对“予定を登録”这样的任务,作为槽位,抽出“開始日時:明日の10時”和“标题:Lepant”,所以登记“明日の10:00にLepant”这样的预定。此外,此时,在作为日程安排的使用语言设定有英语的情况下,用英语进行日程安排的登记。
在OP109中,中心服务器1检测日程安排的服务(预定的登记)成功,制作“明日の予定を登録しました”这样的应答的文本数据。此外,利用服务判定语言来制作该应答。
在OP110中,由于发言语言是英语、服务判定语言是日语,所以中心服务器1判定发言语言和服务判定语言不一致(OP110:“否”)。
在OP111中,中心服务器1委托翻译服务器3将作为服务判定语言的日语的应答的内容翻译成作为发言语言的英语。其结果,取得“Registered tomorrow’s schedule(登记明天的日程安排)”这样的英语的文本数据。在OP112中,中心服务器1将应答发送给用户终端2。
<第1实施方式的作用效果>
例如,在图5所示的例子中,在通过作为发言的语言的英语的意图理解引擎来解析发言的内容的情况下(OP105),辨识不出“Lepant”表示意大利的地名(车站名)、不附加标题的标签的可能性高。即,辨识不出“Lepant”与槽位对应的可能性高。在该情况下,例如,由于槽位不足,所以例如,有时向用户终端2回送“目的地はどこですか?(目的地是哪里?)”这样的用于弥补不足的槽位的疑问、或者在日程安排中不登记目的地的位置信息(住址等)。
另外,例如,在英语圈的其他国家也存在读音与意大利国内的目的地的名字相同的地名的情况下,通过利用作为发言的语言的英语的意图理解引擎解析发言的内容,则可能在日程安排中作为目的地的位置信息登记该其他国家的相同地名的场所的信息。
通过并非利用发言的语言的意图理解引擎,而是利用发言时的用户终端2的位置信息所示出的国家的使用语言的意图理解引擎来解析发言的内容,能够抑制上述的意图理解的错误以及发生误处理的情况。由此,能够提高发言的内容的意图理解的精度。此外,根据第1实施方式,不仅是与发言的内容中的槽位对应的单词,而且还能够抑制与任务对应的单词等作为意图理解的关键字的单词的漏检,能够提高意图理解的精度。
另外,在第1实施方式中,通过将服务判定的语言统一成1种语言,中心服务器1无需具有多个用于判定服务的引擎等,能够有效活用中心服务器1的资源。
<其他实施方式>
上述实施方式只不过是一个例子,能够在不脱离其要旨的范围内适当地变更来实施本发明。
在第1实施方式中,根据用户终端2的位置信息确定第1语言,但第1语言的确定条件不限定于用户终端2的位置信息。例如,中心服务器1也可以积蓄表示用户终端2的与场所有关的爱好的信息,根据表示与场所有关的爱好的信息来确定第1语言。表示与场所有关的爱好的信息例如是与场所关联的检索历史、日程安排信息的目的地以及向用户终端2推送的推送通知的历史等。中心服务器1也可以根据这些信息而制作各国家的出现次数的排名,例如,将从前N位以内的国家中选择出的国家的使用语言确定为第1语言。另外,中心服务器1例如也可以根据用户终端2的位置信息和表示用户终端2的与场所有关的爱好的信息这双方来确定第1语言。例如,在用户终端2的位置信息表示的国家进入到表示与场所有关的爱好的信息的出现次数排名的前N位以内的情况下,中心服务器1也可以将用户终端2的位置信息所示出的国家的语言确定为第1语言。
另外,在第1实施方式中,中心服务器1具备意图理解引擎群14,但意图理解引擎群14也可以设置于外部服务器。
只要不产生技术上的矛盾,本公开中说明的处理、单元就能够自由地组合实施。
另外,说明为由1个装置进行的处理也可以由多个装置分担执行。或者,说明为由不同的装置进行的处理也可以由1个装置执行。在计算机***中,能够灵活地变更通过什么样的硬件结构(服务器结构)实现各功能。
通过将安装有在上述实施方式中说明的功能的计算机程序供给给计算机,由该计算机具有的1个以上的处理器读出并执行程序也能够实现本发明。这样的计算机程序既可以通过能够连接到计算机的***总线的非临时性的计算机可读存储介质提供给计算机,也可以经由网络提供给计算机。非临时性的计算机可读存储介质例如包括磁盘(软盘(日本注册商标)、硬盘驱动器(HDD)等)、光盘(CD-ROM、DVD盘、蓝光盘等)等任意类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡、闪存存储器、光学式卡、适合于储存电子命令的任意类型的介质。
Claims (6)
1.一种信息处理装置,具备:
多种语言的意图理解引擎,保持有所述多种语言的词典数据库;
存储装置;以及
控制部,
其中,该控制部执行:
将第1用户的日程安排信息以及向所述第1用户的配送信息的历史存储到所述存储装置;
接收从输入了所述第1用户的发言的第1装置发送的、所述发言的内容的声音数据;
制作作为存储于所述存储装置的向所述第1用户的配送信息的历史中的国家的出现次数的排名的、表示所述第1用户的与场所有关的爱好的信息;
根据表示所述第1用户的与场所有关的爱好的信息,确定所述国家的出现次数的排名为第一位的国家的使用语言,作为用于翻译输入的发言的内容的第1语言;
将所述发言的内容的声音数据变换为所述发言的内容的文本数据;
根据所述发言的内容的文本数据的文字代码,判定所述第1语言与所述发言的语言是否一致;
在判定为所述第1语言与所述发言的语言不一致的情况下,利用所述第1语言翻译所述发言的内容的文本数据;
从所述多种语言的意图理解引擎中选择与所述第1语言对应的意图理解引擎;
使用所述多种语言的词典数据库中的与所述第1语言对应的意图理解引擎的词典数据库,对利用所述第1语言翻译后的所述发言的内容的文本数据进行词素解析;
从进行所述词素解析后的所述发言的内容的文本数据中抽出与作为所述第1用户所请求的动作的任务相应的单词和与储存作为所述任务的参数的信息的槽位相应的单词;
根据与所述任务相应的单词以及与所述槽位相应的单词推测所述发言的内容的意图;
根据推测出的所述意图选择要提供的服务;以及
关于所述服务,基于所述发言的语言进行引导。
2.根据权利要求1所述的信息处理装置,其中,
所述控制部
将利用所述第1语言推测出的所述意图翻译成在选择所述服务时使用的第2语言,
根据翻译成所述第2语言的所述意图选择要提供的服务。
3.一种信息处理方法,由具备保持有多种语言的词典数据库的所述多种语言的意图理解引擎和存储装置的计算机执行:
将第1用户的日程安排信息以及向所述第1用户的配送信息的历史存储到所述存储装置;
接收从输入了所述第1用户的发言的第1装置发送的、所述发言的内容的声音数据;
制作作为存储于所述存储装置的向所述第1用户的配送信息的历史中的国家的出现次数的排名的、表示所述第1用户的与场所有关的爱好的信息;
根据表示所述第1用户的与场所有关的爱好的信息,确定所述国家的出现次数的排名为第一位的国家的使用语言,作为用于翻译输入的发言的内容的第1语言;
将所述发言的内容的声音数据变换为所述发言的内容的文本数据;
根据所述发言的内容的文本数据的文字代码,判定所述第1语言与所述发言的语言是否一致;
在判定为所述第1语言与所述发言的语言不一致的情况下,利用所述第1语言翻译所述发言的内容的文本数据;
从所述多种语言的意图理解引擎中选择与所述第1语言对应的意图理解引擎;
使用所述多种语言的词典数据库中的与所述第1语言对应的意图理解引擎的词典数据库,对利用所述第1语言翻译后的所述发言的内容的文本数据进行词素解析;
从进行所述词素解析后的所述发言的内容的文本数据中抽出与作为所述第1用户所请求的动作的任务相应的单词和与储存作为所述任务的参数的信息的槽位相应的单词;
根据与所述任务相应的单词以及与所述槽位相应的单词推测所述发言的内容的意图;
根据推测出的所述意图选择要提供的服务;以及
关于所述服务,基于所述发言的语言进行引导。
4.根据权利要求3所述的信息处理方法,其中,
由所述计算机执行:
将利用所述第1语言推测出的所述意图翻译成在选择所述服务时使用的第2语言,
根据翻译成所述第2语言的所述意图选择要提供的服务。
5.一种记录程序的记录介质,其中,
该程序用于使计算机执行权利要求3或4所述的信息处理方法。
6.一种记录程序的记录介质,其中,该程序用于使计算机执行:
将输入的第1用户的发言的内容的语音数据发送给具备保持有多种语言的词典数据库的所述多种语言的意图理解引擎和存储装置的服务器;以及
通过所述服务器,将第1用户的日程安排信息以及向所述第1用户的配送信息的历史存储到所述存储装置;接收所述发言的内容的声音数据;制作作为存储于所述存储装置的向所述第1用户的配送信息的历史中的国家的出现次数的排名的、表示所述第1用户的与场所有关的爱好的信息;根据表示所述第1用户的与场所有关的爱好的信息,确定所述国家的出现次数的排名为第一位的国家的使用语言,作为用于翻译输入的发言的内容的第1语言;将所述发言的内容的声音数据变换为所述发言的内容的文本数据;根据所述发言的内容的文本数据的文字代码,判定所述第1语言与所述发言的语言是否一致;在判定为所述第1语言与所述发言的语言不一致的情况下,利用所述第1语言翻译所述发言的内容的文本数据,从所述多种语言的意图理解引擎中选择与所述第1语言对应的意图理解引擎;使用所述多种语言的词典数据库中的与所述第1语言对应的意图理解引擎的词典数据库,对利用所述第1语言翻译后的所述发言的内容的文本数据进行词素解析;从进行所述词素解析后的所述发言的内容的文本数据中抽出与作为所述第1用户所请求的动作的任务相应的单词和与储存作为所述任务的参数的信息的槽位相应的单词;根据与所述任务相应的单词以及与所述槽位相应的单词推测所述发言的内容的意图,根据推测出的所述意图选择服务,接收被发送的、与所述服务有关的基于所述发言的语言实现的引导。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020020577A JP7434978B2 (ja) | 2020-02-10 | 2020-02-10 | 情報処理装置、情報処理方法、及び、プログラム |
JP2020-020577 | 2020-02-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312927A CN113312927A (zh) | 2021-08-27 |
CN113312927B true CN113312927B (zh) | 2024-04-16 |
Family
ID=77178813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110177319.1A Active CN113312927B (zh) | 2020-02-10 | 2021-02-09 | 信息处理装置、信息处理方法以及记录介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11626100B2 (zh) |
JP (1) | JP7434978B2 (zh) |
CN (1) | CN113312927B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010999A (ja) * | 1998-06-24 | 2000-01-14 | Matsushita Electric Ind Co Ltd | 翻訳通信装置 |
CN1755670A (zh) * | 2004-09-29 | 2006-04-05 | 日本电气株式会社 | 翻译***、翻译通信***、机器翻译方法及包含程序的介质 |
WO2009091098A1 (en) * | 2008-01-18 | 2009-07-23 | Citus Co., Ltd. | System, device and method for providing navigation service |
CN105814557A (zh) * | 2013-12-09 | 2016-07-27 | 谷歌公司 | 用于提供文本的基于上下文的定义和翻译的***和方法 |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话*** |
CN108156825A (zh) * | 2015-11-13 | 2018-06-12 | 柯达阿拉里斯股份有限公司 | 跨文化问候卡*** |
JP2020013594A (ja) * | 2019-09-03 | 2020-01-23 | 株式会社メルカリ | 情報処理方法、プログラム、及び情報処理装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008096289A (ja) | 2006-10-12 | 2008-04-24 | Alpine Electronics Inc | 多言語対応ナビゲーション装置 |
US7890493B2 (en) | 2007-07-20 | 2011-02-15 | Google Inc. | Translating a search query into multiple languages |
US9098494B2 (en) | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US9411801B2 (en) * | 2012-12-21 | 2016-08-09 | Abbyy Development Llc | General dictionary for all languages |
KR102014665B1 (ko) * | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US10102201B2 (en) * | 2015-11-30 | 2018-10-16 | Soundhound, Inc. | Natural language module store |
US10579742B1 (en) * | 2016-08-30 | 2020-03-03 | United Services Automobile Association (Usaa) | Biometric signal analysis for communication enhancement and transformation |
US20180089172A1 (en) * | 2016-09-27 | 2018-03-29 | Intel Corporation | Communication system supporting blended-language messages |
KR101889279B1 (ko) * | 2017-01-16 | 2018-08-21 | 주식회사 케이티 | 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법 |
JP7095254B2 (ja) * | 2017-10-10 | 2022-07-05 | トヨタ自動車株式会社 | 対話システムおよびドメイン決定方法 |
US10891435B1 (en) * | 2018-02-20 | 2021-01-12 | Interactions Llc | Bootstrapping multilingual natural language understanding via machine translation |
EP3559946B1 (en) * | 2018-03-07 | 2020-09-23 | Google LLC | Facilitating end-to-end communications with automated assistants in multiple languages |
US11645545B2 (en) * | 2018-06-20 | 2023-05-09 | Sap Se | Train a digital assistant with expert knowledge |
KR102372069B1 (ko) * | 2018-12-27 | 2022-03-10 | 한국전자통신연구원 | 언어학습을 위한 양국어 자유 대화 시스템 및 방법 |
-
2020
- 2020-02-10 JP JP2020020577A patent/JP7434978B2/ja active Active
-
2021
- 2021-02-01 US US17/163,633 patent/US11626100B2/en active Active
- 2021-02-09 CN CN202110177319.1A patent/CN113312927B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010999A (ja) * | 1998-06-24 | 2000-01-14 | Matsushita Electric Ind Co Ltd | 翻訳通信装置 |
CN1755670A (zh) * | 2004-09-29 | 2006-04-05 | 日本电气株式会社 | 翻译***、翻译通信***、机器翻译方法及包含程序的介质 |
WO2009091098A1 (en) * | 2008-01-18 | 2009-07-23 | Citus Co., Ltd. | System, device and method for providing navigation service |
CN105814557A (zh) * | 2013-12-09 | 2016-07-27 | 谷歌公司 | 用于提供文本的基于上下文的定义和翻译的***和方法 |
CN108156825A (zh) * | 2015-11-13 | 2018-06-12 | 柯达阿拉里斯股份有限公司 | 跨文化问候卡*** |
CN106448670A (zh) * | 2016-10-21 | 2017-02-22 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话*** |
JP2020013594A (ja) * | 2019-09-03 | 2020-01-23 | 株式会社メルカリ | 情報処理方法、プログラム、及び情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7434978B2 (ja) | 2024-02-21 |
US20210248994A1 (en) | 2021-08-12 |
CN113312927A (zh) | 2021-08-27 |
JP2021124709A (ja) | 2021-08-30 |
US11626100B2 (en) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002510B (zh) | 一种对话处理方法、装置、设备和介质 | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
EP2863300B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
US9323854B2 (en) | Method, apparatus and system for location assisted translation | |
US20170199867A1 (en) | Dialogue control system and dialogue control method | |
US20190279622A1 (en) | Method for speech recognition dictation and correction, and system | |
CN109616096B (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
US20160163314A1 (en) | Dialog management system and dialog management method | |
JP2020030408A (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
EP2863385B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
CN109903770A (zh) | 用于校正用户的话语错误的装置及其方法 | |
CN111540353B (zh) | 一种语义理解方法、装置、设备及存储介质 | |
JP2009300573A (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
JP2015176099A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
CN111079408B (zh) | 一种语种识别方法、装置、设备及存储介质 | |
US20170372695A1 (en) | Information providing system | |
CN111309876A (zh) | 一种服务请求的处理方法、装置、电子设备及存储介质 | |
CN107112007B (zh) | 语音识别装置及语音识别方法 | |
CN110910903A (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN114676691B (zh) | 一种识别方法、***、设备以及计算机可读存储介质 | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN111737990A (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN113312927B (zh) | 信息处理装置、信息处理方法以及记录介质 | |
CN114297229A (zh) | 一种数据查询方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |