CN108242237A - 语音处理设备、具有该设备的车辆以及语音处理方法 - Google Patents

语音处理设备、具有该设备的车辆以及语音处理方法 Download PDF

Info

Publication number
CN108242237A
CN108242237A CN201710672463.6A CN201710672463A CN108242237A CN 108242237 A CN108242237 A CN 108242237A CN 201710672463 A CN201710672463 A CN 201710672463A CN 108242237 A CN108242237 A CN 108242237A
Authority
CN
China
Prior art keywords
user
information
relationship
speech processing
data base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710672463.6A
Other languages
English (en)
Inventor
李赈浩
赵在珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN108242237A publication Critical patent/CN108242237A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/03Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for
    • B60R16/0315Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for using multiplexing techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata
    • H04M1/27457Management thereof, e.g. manual editing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mechanical Engineering (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Navigation (AREA)

Abstract

本发明涉及语音处理设备、具有该设备的车辆以及语音处理方法。其中,所述语音处理设备包括:语音处理器,其基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;存储器,其存储第一用户DB和第二用户DB,所述第一用户DB包括有由第二识别标签识别的第二用户的个人信息,所述第二用户DB包括有由第一识别标签识别的第一用户的个人信息;以及DB管理处理器,其用于根据所获取的第一用户与第二用户之间的关系的信息来更新所述第一用户DB和第二用户DB。

Description

语音处理设备、具有该设备的车辆以及语音处理方法
技术领域
本发明涉及一种语音处理设备、具有该种语音处理设备的车辆以及一种语音处理方法,所述语音处理设备识别用户的语音并且从所识别的语音中获取所需信息。
背景技术
随着车辆相关技术的发展,用于增强用户便捷性的各种功能日益成熟,并且与基本行驶功能一起使用。例如,连接至用户的移动终端的车辆可以提供例如打电话或者发送信息的功能。
这样,随着车辆可执行功能的多样化,用户的操作负荷增加。而操作负荷的增加会导致用户驾驶集中度的降低,这就会导致不利的驾驶状况。另外,不能够熟练操作设备的用户也不能适当地使用这些车辆的功能。
因此,这就需要研究并开发出能够降低操作负荷的用户界面。特别的,当在车辆中使用识别用户的语音并且执行对应于用户语音的功能的语音识别技术时,期待用户的操作负荷降低。
发明内容
本发明的一个方面提供一种语音处理设备,其能够基于用户的口头语言而确定多个用户之间的关系,并且基于确定的用户之间的关系来执行多个智能语音识别,或者主动地提供用户所需的信息。
根据本发明的一个方面,一种语音处理设备,包括:语音处理器,其配置为基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;存储器,其配置为存储第一用户DB和第二用户DB,所述第一用户DB包括有通过第二识别标签识别的第二用户的个人信息,所述第二用户DB包括有通过第一识别标签识别的第一用户的个人信息;以及DB管理处理器,其配置为根据所获取的第一用户与第二用户之间的关系的信息来更新所述第一用户DB和第二用户DB。
所述个人信息包括电话号码和地址中的至少一个。
所述第一识别标签包括第一用户的姓名,并且所述第二识别标签包括第二用户的姓名。
所述DB管理处理器将第二用户与第一用户的关系添加至所述第二识别标签。
所述DB管理处理器将第一用户与第二用户的关系添加至所述第一识别标签。
通过第一用户与第二用户的关系而能够搜索存储在所述第二用户DB中的第一用户的个人信息。
所述语音处理器基于第二用户的口头语言来获取第二用户与其他成员之间的关系的信息,所述其他成员是所述第一用户和第二用户所属的团体中的成员。
所述DB管理处理器基于所获取的第二用户与其他成员之间的关系的信息来更新所述第二用户DB。
所述DB管理处理器根据所获取的第二用户与其他成员之间的关系的信息来确定第一用户与其他成员之间的关系的信息,并且基于所确定的关系的信息来更新所述第一用户DB。
根据本发明的另一方面,一种车辆,包括:语音处理器,其配置为基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;存储器,其配置为存储第一用户DB和第二用户DB,所述第一用户DB存储有通过第二识别标签识别的第二用户的个人信息,所述第二用户DB存储有通过第一识别标签识别的第一用户的个人信息;DB管理处理器,其配置为根据所获取的第一用户与第二用户之间的关系的信息来更新所述第一用户DB和第二用户DB;以及扬声器,其配置为输出语音。
所述个人信息包括电话号码。
所述第一识别标签包括第一用户的姓名,并且所述第二识别标签包括第二用户的姓名。
所述DB管理处理器将第二用户与第一用户的关系添加至所述第二识别标签。
所述DB管理处理器将第一用户与第二用户的关系添加至所述第一识别标签。
通过第一用户与第二用户的关系而能够搜索存储在所述第二用户DB中的第一用户的个人信息。
所述第一用户DB进一步包括附加信息,该附加信息包括所述第一用户的生日和地址中的至少一个。
所述DB管理处理器根据包含于所述第一用户DB中的附加信息来更新所述第二用户DB。
所述扬声器基于所述附加信息来输出语音,以向第二用户提供服务。
所述车辆进一步包括:通信器,其配置为与第一用户的移动设备和第二用户的移动设备进行通信,以及从所述移动设备中下载电话薄数据;并且所述DB管理处理器使用下载的电话薄数据,以生成第一用户DB和第二用户DB。
根据本发明的另一方面,一种语音处理方法,包括:存储第一用户DB,该第一用户DB包括通过第二识别标签识别的第二用户的个人信息;基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;基于所获取的第一用户与第二用户之间的关系的信息来更新所述第一用户DB;存储第二用户DB,该第二用户DB包括通过第一识别标签识别的第一用户的个人信息;基于所获取的第一用户与第二用户之间的关系的信息来更新所述第二用户DB。
所述个人信息包括电话号码和地址中的至少一个。
所述第一识别标签包括第一用户的姓名,并且所述第二识别标签包括第二用户的姓名。
更新所述第一用户DB包括:将第二用户与第一用户的关系添加至所述第二识别标签。
更新所述第二用户DB包括:将第一用户与第二用户的关系添加至所述第一识别标签。
所述语音处理方法进一步包括:基于第二用户的口头语言来获取第二用户与其他成员之间的关系的信息,并且所述其他成员是所述第一用户和第二用户所属的团体中的成员。
所述语音处理方法进一步包括:基于所获取的第二用户与其他成员之间的关系的信息来更新所述第二用户DB。
所述语音处理方法进一步包括:基于所获取的第二用户与其他成员之间的关系的信息来确定第一用户与其他成员之间的关系的信息;并且基于所确定的关系的信息来更新所述第一用户DB。
附图说明
图1为根据本发明的示例性实施方案的语音处理设备的控制框图。
图2为示出了根据本发明的示例性实施方案的车辆外部的示意图。
图3为示出了图2中的车辆的内部配置的示意图。
图4为根据本发明的示例性实施方案的车辆与服务器之间的关系的控制框图。
图5为根据本发明的示例性实施方案的提供与用户所说语音相关的反馈的车辆的控制框图。
图6为根据本发明的示例性实施方案,当语音处理设备包含于车辆中时车辆与移动设备之间的关系的控制框图。
图7为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流的示例的示意图。
图8为示出了根据本发明的示例性实施方案的根据用户与车辆之间的对话交流来更新信息的示例的示意图。
图9为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流的另一示例的示意图。
图10为示出了根据图9的对话来更新信息的示例的示意图。
图11为示出了根据本发明的示例性实施方案的基于存储在第一用户数据库(database,DB)中的信息来更新第二用户DB的操作的示意图。
图12为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流的另一示例的示意图。
图13为示出了根据图12的对话来进行信息更新的示例的示意图。
图14为示出了根据本发明的示例性实施方案的基于存储在第二用户DB中的信息来更新第一用户DB的操作的示意图。
图15为示出了根据本发明的示例性实施方案的基于存储在第一用户DB中的信息来更新第三用户DB的操作的示意图。
图16为示出了根据本发明的示例性实施方案的将附加信息(除了电话号码)存储在用户DB中的示例的示意图。
图17和图18为示出了根据本发明的示例性实施方案的利用存储在用户DB中的附加信息来提供用户所需信息的示例的示意图。
图19和图20为描述了根据本发明的示例性实施方案的语音处理方法的流程图。
具体实施方式
在整个说明书中,同样的附图标记指代相同的元件。并不是本发明的实施方案的所有细节都在这里进行描述,与本发明中的各个实施方案之间相关或者重复描述的相关技术中的描述在这里将会省略。在这里使用的术语,例如“单元”、“模块”、“部件”和“块”将实现为软件或者硬件。根据不同的实施方案,单元、模块、部件和块中的多个可以由单独的元件来实现、或者由包含多个元件中的单独的单元、单独的模块、单独的部件和单独的块中的每一个来实现。
在整个说明书中,将特定部分“连接至”另一部分包括:将该特定部分直接地连接至其他部分或者间接地连接至其他部分。所述间接地连接包括经由无线通信网络进行连接。
并且,所述特定部分“包括”这样的特定元件:该特定部分可以进一步包括其他元件而不是排除其他元件,除非另有特殊的说明。
术语,例如第一和第二用于将一个元件与另一个元件区分,例如这些元件之间的顺序的相关性并不由这些术语进行限制。
单一表述包括复数表述,除非在本文中有明确的说明。
为了方便描述,为每一个步骤给定了参考数字。这些参考数字并不是用于描述各个步骤的顺序,并且这些步骤可以以与附图中所示的不同顺序来执行,除非在本文中对具体顺序进行了明确的描述。
这里,将参考所述附图详细描述语音处理设备、具有该语音处理设备的车辆以及语音处理方法的实施方案。
图1为根据本发明的示例性实施方案的语音处理设备的控制框图。
参见图1,根据示例性的实施方案的语音处理设备100包括:语音识别器110,其配置为识别经由语音输入器10输入的用户的语音;存储器130,配置为存储与用户相关的信息;语音处理器120,其配置为基于识别的语音获取所需的信息;以及数据库(database,DB)管理器140,其配置为基于获取的信息管理存储在存储器130中的信息。
语音识别器110识别由用户输入的语音并且输出识别的结果。识别的结果可以包括用户的口头语言或者单词或者数字,在下文描述的示例性实施方案中,用户的口头语言将会作为语音。口头语言可以为预定的指令或者为通常由用户使用的自然语言。
语音识别器110可以包括语音识别引擎。所述语音识别引擎可以将语音识别算法应用至输入语音,识别用户的语音并且生成识别的结果。
这里,输入语音可以转换成更有利于语音识别的形式。从语音信号中检测开始点和结束点,并且检测包含于输入语音中的实际语音范围。这被称之为结束点检测(EndPoint Detection,EPD)。
另外,可以在检测的范围内应用特征向量提取技术(例如,倒频谱(Cepstrum)、线性预测系数(Linear Predictive Coefficient,LPC)、梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficient,MFCC)以及滤波器组能量(filter bank energy)),以提取输入语音的特征向量。
经由将提取的特征向量与训练的参考模式(trained reference pattern)进行比较而可以获取识别的结果。为此,可以使用声学模型和语言模型,在所述声学模型中对语音信号的属性进行建模和比较,在所述语言模型中对单词或者对应于所识别的单词的音节的语言顺序关系进行建模。
所述声学模型可以被细分为直接比较方法和统计模型方法;在所述直接比较方法中,识别对象被设置为特征向量模型并且将特征向量模型与语音数据的特征向量进行比较;在所述统计模型方法中,对识别对象的特征向量进行统计处理和使用。
所述直接比较方法是这样一种方法:已经变成为识别对象的单词、音位(Phoneme)等的单元被设定为特征向量模型,并且比较特征向量模型与输入语音之间的相似度。向量量化方法(vector quantization method)是所述直接比较方法的可行示例。所述向量量化方法是这样一种方法:输入的语音数据的特征向量被映射至作为参考模型的编码薄(codebook)并被编码为代表值,并且所编码的值与另一个值进行比较。
所述统计模型方法是这样一种方法:识别对象的单元被配置为状态序列,并且使用状态序列之间的关系。所述状态序列可以配置为多个节点。使用状态序列之间的关系的方法包括动态时间规整(Dynamic Time Warping,DTW)、隐马尔可夫模型(Hidden MarkovModel,HMM)以及使用神经网络的方法。
所述DTW是这样一种方法:当语音信号的特征向量与参考模型进行比较时,考虑到语音的动态特性(其中,即使当同一个人说同一件事情时,信号的长度也随时间变化)来对时间轴上的差异进行补偿。所述HMM是这样一种语音识别技术:语音被假定为具有状态转移概率并且在每一个状态处的节点(输出符号)观测概率的马尔可夫过程,经由学习数据来预估所述状态转移概率和所述节点观测概率,并且计算出输入至预估模型的语音的生成的可能性。
同时,语言模型(其中,对单词、音节等的语言顺序关系进行建模)可以将形成语言的单元之间的顺序关系应用至从语音识别中获取的单元。以这种方法,可以减少声音的歧义以及识别的错误。语言模型包括统计语言模型和基于有限状态自动机(finite stateautomata,FSA)的模型,统计语言模型可以使用单词链概率(例如,一元模型、二元模型、三元模型)。
所述语音识别器110可以使用上面所描述的任意一种识别语音的方法。例如,可以使用应用有HMM的声学模型,或者可以使用集成有声学模型和语音模型的N-最优搜索(N-best search)方法。在所述N-最优搜索方法中,利用声学模型和语言模型,选择多达N的识别结果候选,并且随后候选的排序被重新评估。以这种方式,可以改善识别性能。
所述语音识别器110可以计算信任值,以确保识别结果的信任度。所述信任值是对语音识别结果的可靠度的评测。例如,所述信任值可以被定义为这样的相对值:其与作为识别结果的音位或者单词从其他音位或者单词说出的概率相关。因此,该信任值可以表示为在0与1之间的值,并且也可以表示为在0与100之间的值。
当信任值超出阈值时,可以输出识别结果并且可以执行对应于识别结果的操作。当其信任值等于或者小于阈值时,可以拒绝识别结果。
语音识别器110可以在使用软件、硬件或者软件与硬件相结合的计算机可读记录介质中实施。根据硬件的实施,可以利用一个或多个电气单元来实现所述语音识别器110,所述电气单元为例如专用集成电路(application specific integrated circuit,ASIC)、数字信号处理器(digital signal processor,DSP)、数字信号处理装置(digital signalprocessing device,DSPD)、可编程逻辑装置(programmable logic device,PLD)、现场可编程门阵列(field programmable gate array,FPGA)、处理器、微控制器以及微处理器。
根据软件的实施,所述语音识别器110可以实现为单独的软件装置以及软件代码,所述软件装置配置为执行一个或多个功能或操作,所述软件代码可以通过以合适的程序语言来编写的软件应用来实现。
所述语音处理器120可以从口头语言中发现用户语音的意图。例如,当口头语言为自然语言时,语音处理器120可以应用自然语言处理技术并且执行对话管理器的功能。
另外,语音处理器120可以从口头语言中获取多个用户之间的关系的信息。例如,当多个用户在相同的家庭中,语音处理器120可以从口头语言中确定多个用户是否具有父女关系、父子关系、夫妻关系、母女关系或者母子关系。
语音处理器120可以包括一个或多个存储器以及一个或多个处理器,所述存储器配置为存储用于执行上述操作以及下文将要描述的各种操作的程序,所述处理器配置为运行所存储的程序。
语音处理器120可以与语音识别器110共享内存和处理器,并且可以与存储器130共享内存。例如,语音处理器120可以设置为与DB管理处理器140一起的单独的处理器,并且可以在物理上形成为单独的芯片。也就是说,只要语音处理器120和语音识别器110能够执行示例性的实施方案中所描述的操作,用于实现语音处理器120和语音识别器110的物理配置并不限制于此。
存储器130可以以DB形式来存储用户相关的信息。例如,存储器130可以在第一用户DB中存储第一用户信息,在第二用户DB中存储第二用户信息,并且可以在第三用户DB中存储第三用户信息。
这里,用户信息可以包括每一个用户保存的其他人员的个人信息。所述其他人员的个人信息可以包括例如电话号码和地址的信息。并且,所述其他人员可以包括熟人或者除了用户本人以外的家庭成员。
所述第一用户DB、第二用户DB和第三用户DB全部存储在存储器130中。用户的数量以及根据用户的数量的DB的数量并没有限制。
存储在每一个用户DB中的用户信息可以基于由语音处理器120获取的关系信息来进行更新。例如,当语音处理器120获取了第一用户与第二用户之间的关系时,第一用户与第二用户之间的关系信息可以被附加地存储到第一用户DB和第二用户DB中。
例如,语音处理设备100可以利用来自车辆中用户的移动设备的电话簿数据来生成用户DB并且存储该用户DB。并且,所述语音处理设备100可以识别用户的语音、使用从识别的语音中获取的信息、并且更新存储在用户DB中的信息。根据上面的示例,将描述语音处理设备100的示例性的实施方案。
图2为示出了车辆外部的示意图,图3为示出了图2中的车辆的内部结构的示意图。
参见图2和图3,车辆1示例性地包括:车轮51和52,所述车轮51和52配置为使车辆1移动;车门71L、71R、72L和72R,所述车门71L,71R,72L和72R配置为将车辆1内部与外部隔开;车前窗63,所述车前窗63配置为向驾驶员提供车辆1的前方视野;以及侧后视镜81L和81R,所述外后视镜81L和81R配置为向驾驶员提供车辆1的后方视野。
车前窗63设置在车辆1的上前侧,以使在车辆1中的驾驶员能够获取车辆1前方的可视信息,车前窗63也可以被称为挡风玻璃。
另外,侧后视镜81L和81R包括设置在车辆1左侧的左侧后视镜81L和设置在车辆1右侧的右侧后视镜81R,所述侧后视镜81L和81R能够使位于车辆1内部的驾驶员获取车辆1两侧和后方的可视信息。
所述车轮51和52包括设置在车辆前部的前车轮51和设置在车辆后部的后车轮52,并且设置在车辆1内部的驱动装置60向前车轮51或者后车轮52提供旋转力,以使车辆1移动。
当车辆1使用前轮驱动方式时,所述驱动装置60向前车轮51提供旋转力,当车辆1使用后轮驱动方式时,所述驱动装置60向后车轮52提供旋转力。另外,当车辆1使用四轮驱动方式时,驱动装置60可以向前车轮51和后车轮52都提供旋转力。
所述驱动装置60可以采用发动机或者电机,所述发动机配置为燃烧化石燃料并产生旋转力,所述电机配置为从电容器接收电力并产生旋转力。所述驱动装置60也可以采用混合动力方式,在混合动力方式中包括发动机和电机,并且选择性地使用发动机和电机中的一种。
车门71L、71R、72L和72R可转动地设置在车辆1的左侧和右侧,以使驾驶员或者乘客可以乘坐入车辆1中,并且将车辆1的内部与外部进行隔开。
此外,车辆1可以包括传感装置,例如近距离传感器和雨传感器,近距离传感器配置为感测在车辆1后方或者侧方的障碍物或者其他车辆,所述雨传感器配置为感测降雨或者降雨量。
显示器41配置为显示执行车辆控制所需的画面,所述车辆控制包括音频功能、视频功能、导航功能和呼叫功能。输入器43配置为接收来自用户的控制指令并且可以设置在中控台62,该中控台62为车辆1中的仪表板61的中间区域。
所述显示器41可以实现为各种显示装置中的任意一种,例如,液晶显示器(liquidcrystal display,LCD)、发光二极管(light emitting diode,LED)显示器、等离子显示板(plasma display panel,PDP)、有机LED(OLED)显示器、以及阴极射线管(cathode raytube,CRT)显示器。
用户可以操作输入器43并且输入用于控制车辆1的指令。所述输入器43可以设置为在临近于显示器41的区域中的硬键。当所述显示器41实现为触摸屏时,该显示器41也可以执行输入器43的功能。
车辆1也可以经由语音输入器10而通过用户的语音来接收来自用户的控制指令。语音输入器10可以实现为麦克风,其配置为接收声音并且将接收的声音输出为电信号。
如图3所示,语音输入器10可以安装于头顶衬板64,以使语音输入有效。但是,车辆1的实施方案并不限制于此,所述语音输入器10也可以安装于仪表板61或者转向盘65,或者其他任何合适的位置。此外,语音输入器10可以安装在语音输入器10能够适当地接收用户语音的任何位置。
另外,扬声器42配置为输出执行车辆1的控制所需的声音,扬声器42可以设置在车辆1的内部。例如,扬声器42可以设置在驾驶员座椅门71L和副驾驶座椅门71R的内侧。
车辆1可以连接至用户的移动设备2,并且下载存储在移动设备2中的数据或者控制该移动设备2。
例如,移动设备2可以包括电子装置,例如,包括个人数字助理(personal digitalassistant,PDA)的可穿戴装置、便携式电脑、平板电脑(personal computer,PC)、智能手机、智能眼镜、智能手表等等。但是,所述移动设备2的例子并不限制于此,该移动设备2可以为任何便携式的、能够存储数据的、能够无线或者有线连接至车辆1的、并且能够传输数据的电子装置。在下面将要进行描述的示例性的实施方案中,将以移动设备2为智能手机的情况作为示例进行描述。
图4为根据本发明的示例性实施方案的车辆与服务器之间的关系的控制框图。
上文参考图1所描述的语音处理设备100可以包含于车辆1、外部设置的服务器3或者移动设备2。
可选地,语音处理设备100中的一些元件可以包含于车辆1,而语音处理设备100中的其他元件可以包含于外部设置的服务器3。
例如,语音处理设备100的语音识别器110可以包含于服务器3,而语音处理器120和存储器130可以包含于车辆1。可选地,语音识别器110和语音处理器120可以包含于服务器3,而存储器130可以包含于车辆1。
在示例中,将通过假定语音处理设备100包含于外部设置的服务器3而对该语音处理设备100进行描述。当语音处理设备100包含于外部设置的服务器3时,语音处理设备100的数据存储容量或者数据处理性能不取决于车辆1或者移动设备2的数据存储容量或者数据处理性能。
参见图4,车辆1示例性地包括:语音输入器10,所述语音输入器10配置为接收用户的语音;通信器20,所述通信器20配置为使移动设备2与服务器3进行通信,并且向移动设备2或者服务器3传输数据,并且从移动设备2或者服务器3接收数据;和控制器30,所述控制器30配置为控制车辆1。
所述通信器20可以包括一个或多个通信装置,其配置为能够与外部装置进行通信。例如,所述通信器20可以包括一个或多个短距离通信装置、有线通信装置和无线通信装置。
所述短距离通信装置可以包括利用无线网络在短距离传输并接收信号的多种短距离通信装置,例如,蓝牙装置、红外通信装置、射频识别(radio frequencyidentification,RFID)通信装置、无线局域网(wireless local area network,WLAN)。
所述有线通信装置可以包括多种有线通信装置,例如,LAN(局域网)装置、广域网(wide area network,WAN)装置、增值网(value added network,VAN)装置,还包括各种线缆通信装置(例如,通用串行总线(universal serial bus,USB)装置、高清多媒体接口(high definition multimedia interface,HDMI)装置、数字视频接口(digital visualinterface,DVI)装置、推荐性标准232(recommended standard232,RS-232)装置、电力线缆通信装置、普通电话业务(plain old telephone service,POTS)装置)。
所述无线通信装置可以包括无线保真(wireless fidelity,Wi-Fi)装置、无线宽带装置以及支持各种无线通信方法的其他无线通信装置,例如,全球移动通信***(globalsystem for mobile communication,GSM)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、通用移动通讯***(universal mobile telecommunications system,UMTS)、时分多址(time divisionmultiple access,TDMA)、长期演进技术(long term evolution,LTE)。
此外,所述无线通信装置可以包括配置为传输和接收信号的天线、传输器和接收器。
所述无线通信装置可以进一步包括信号转换装置,其配置为将数字控制信号调制为模拟无线信号,并且将接收的模拟无线信号解调为数字控制信号。
此外,所述通信器20可以进一步包括内部通信装置,其配置为执行车辆1内部的各个电子装置之间的通信。控制器局域网络(controller area network,CAN)、本地互联网络(local interconnection network,LIN)、FlexRay、以太网等等可以被用作车辆1的内部通信协议。
所述通信器20可以利用无线通信装置向服务器3传输数据并且从服务器3接收数据,并且可以利用短距离通信装置或者有线通信装置而向移动设备2传输数据并且从移动设备2接收数据。
例如,车辆1中的用户可以利用蓝牙通信而将移动设备2连接至车辆1。该用户可以包括车辆1中的驾驶员和乘客,并且车辆1中的全部乘客均可以称为用户。
所述移动设备2和车辆1可以经由通信器20的短距离通信装置来进行连接,并且存储在移动设备2中的用户信息可以传输至车辆1。例如,传输至车辆1的该用户信息可以是存储有电话号码的电话薄数据。存储在用户的移动设备2中的电话号码和用于识别电话号码所有者的识别标签被存储在电话薄数据中。
传输至车辆1的电话薄数据可以暂时地或者永久地存储在车辆1中设置的内存中,并且可以经由通信器20的无线通信装置而传输至服务器3。
包含于服务器3的语音处理设备100中的DB管理处理器140可以通过利用传输至此的电话薄数据而生成用户DB,并且可以将生成的用户DB存储到存储器130中。特别地,当车辆1的用户多于一个时,可以为每一个用户生成并存储DB。
如上面所描述的,车辆1可以接收用户的语音。例如,当用户将语音输入至语音输入器10时,该语音输入器10将输入的语音转换成电信号。
该输入语音可以暂时地或者永久地存储在车辆1设置的内存中,并且可以经由通信器20的无线通信装置而传输至服务器3。
服务器3的语音识别器110可以识别传输至该语音识别器的语音,并且输出口头语言,所述语音处理器120可以从口头语言中获取多个用户之间的关系的信息。
当口头语言为自然语言时,语音处理器120可以应用自然语言处理技术,以查找包含于所说语言中的用户语音的意图。因此,用户可以通过自然对话来输入控制指令,并且车辆1可以通过对话来引导控制指令的输入或者经由扬声器42来输出对话,以提供用户所需求的服务。
同时,家庭成员通常共享车辆。因此,通过语音处理器120而从口头语言中获取的用户之间的关系的信息可以是家庭关系的信息。
例如,当从第一用户的所说内容中获取的第一用户与第二用户之间的关系的信息为父女关系时,指示了第一用户与第二用户具有父女关系的信息被加入至存储在第一用户DB中的第二用户的电话号码。当第一用户为父亲而第二用户为女儿时,指示了第二用户为“女儿”以及第二用户的姓名的信息可以被标记至存储在第一用户DB中的第二用户的电话号码。
此外,当第二用户乘坐于车辆1并且将她的移动设备2连接至车辆1时,第二用户的电话薄数据可以传输至服务器3,并且DB管理处理器140可以通过利用第二用户的电话薄数据来生成第二用户DB。
该DB管理处理器140可以通过将信息反映于存储在第一用户DB中的第一用户与第二用户之间的关系而在第二用户DB中更新第二用户DB。也就是说,指示了第一用户为“父亲”以及第一用户姓名的信息可以被标记至存储在第二用户DB中的第一用户的电话号码。
图5为根据本发明的示例性实施方案的提供有与用户的所说语音相关的反馈的车辆的控制框图。
如上面参考图3所描述的,所述显示器41配置为向用户提供视觉信息,所述扬声器42配置为向用户提供听觉信息,所述显示器41和扬声器42可以设置在车辆1的内部。
当所述语音处理设备100识别出用户所说的语音并且发现用户语音的意图时,所述控制器30可以经由显示器41或扬声器42来提供与之相关的反馈。
例如,通过视觉上或者听觉上提供用户所需求的信息、输出问题以检查用户语音的意图、或者当需要附加信息以执行控制时输出有关于执行根据用户语音的意图的控制所需的附加信息的问题,控制器30可以提供反馈。
特别的,当与用户的语音相关的反馈以听觉形式提供时,可以防止正在进行驾驶的用户的驾驶集中度由于该用户查看显示器41而降低。
图6为根据本发明的示例性实施方案,当语音处理设备包含于车辆中时车辆与移动设备之间的关系的控制框图。
作为示例,上文已经描述了语音处理设备100包含于服务器3中的情况。根据图6所示的示例,语音处理设备100包含于车辆1中。在这种情况下,与服务器3进行的通信不需要每次执行语音识别、语音处理或者信息更新。
除了经由语音输入器10的语音输入被传输至车辆1内部的语音处理设备100,各个元件的操作均与参考图4所进行的上述描述相同。
图7为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流示例的示意图,图8为示出了根据本发明的示例性实施方案的基于用户与车辆之间的对话交流来进行信息更新的示例的示意图。
假定第一用户乘坐在车辆1中,第一用户的移动设备2已经连接至车辆1,电话薄数据已经由车辆1下载并且传输至服务器3,并且已经生成第一用户DB。
参见图7,当第一用户经由语音输入器10来输入语音U1(“呼叫我的女儿”)来呼叫他的女儿时,语音输入器10将语音U1传输至语音处理设备100,语音识别器110识别第一用户的语音并且输出口头语言。
所述语音处理器120基于口头语言发现第一用户的语音的意图是呼叫他的女儿,并且经由第一用户DB来查找他的女儿的电话号码。当查询结果是并不存在标记有“女儿”的电话号码时,所述语音处理器120可以经由扬声器42来输出用于识别第一用户的女儿的语音C1(“谁是您的女儿?”)作为与查询结果相关的反馈。
第一用户可以经由语音输入器10来输入语音U2(“简”)以提供他女儿的姓名,并且语音处理设备100可以识别语音U2并获取第一用户的女儿的姓名是“简”的信息。也就是说,语音处理设备100可以发现第一用户和“简”具有父女关系。
该语音处理设备100可以通过将第一用户与“简”具有父女关系的信息反映在第一用户DB中来更新第一用户DB。
首先,参见图8,第一用户保存的电话号码以及用于识别电话号码的所有者的识别标签可以存储于第一用户DB。这里,识别标签可以是姓名或者是由第一用户直接设定的头衔。姓名或者头衔的类型并不受到限制,并且可以为公司名称、称谓、指定名称、昵称等等。
当查询“女儿”时,即使“简”的电话号码已经存储在第一用户DB中,由于电话号码只标记有识别标签“简”,因此没有返回对应于“简”的电话号码的查询结果。由于语音处理器120已经从第一用户与车辆1之间的对话中获取了“简”是第一用户的女儿的信息,因此DB管理处理器140可以在第一用户DB中将第一用户与“简”之间的关系保存为“女儿”。保存在用户DB中的关系是某人与相应的用户之间的关系。
再次参见图7,扬声器42可以输出语音C2(“简将被保存为您的女儿”),以通知第一用户:将利用第一用户与“简”之间的关系来更新第一用户DB。
此外,控制器30可以将控制信号传输至连接至车辆1的移动设备2并且尝试呼叫“简”。
第一用户与每一个电话号码的所有者之间的关系也可以作为每一个电话号码的识别标签。也就是说,用于识别第二用户的电话号码的第二识别标签可以包括第一用户与第二用户之间的关系以及第二用户的姓名的信息。因此,当第一用户将来需要再次呼叫他的女儿时,可以在第一用户DB中查询“女儿”,并且将会查找到“简”的电话号码。
图9为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流的示例的示意图,图10为示出了根据图9示出的对话来进行信息更新的示例的示意图。
当第一用户经由语音输入器10来输入语音U3(“呼叫我的妻子”)来呼叫他的妻子时,语音输入器10将语音U3传输至语音处理设备100,语音识别器110识别所传输的语音并且输出第一用户的口头语言。
所述语音处理器120基于第一用户的口头语言发现第一用户的语音的意图是呼叫他的妻子,并且经由第一用户DB来查找他的妻子的电话号码。当查询结果为并不存在标记有“妻子”的电话号码时,所述语音处理器120可以经由扬声器42来输出用于识别第一用户的妻子的语音C3(“谁是您的妻子?”),作为与查询结果相关的反馈。
第一用户可以经由语音输入器10来输入语音U4(“朱莉亚”)以提供他妻子的姓名,并且语音处理设备100可以识别语音U4并获取第一用户的妻子的姓名是“朱莉亚”的信息。也就是说,语音处理设备100可以发现第一用户和“朱莉亚”具有夫妻关系。
该语音处理设备100可以通过将第一用户与“朱莉亚”具有夫妻关系的信息反映在第一用户DB中来更新第一用户DB。
参见图10,当查询“妻子”时,即使“朱莉亚”的电话号码已经存储在第一用户DB中,由于该电话号码只是标记有识别标签“朱莉亚”,因此没有返回对应于“朱莉亚”的电话号码的查询结果。由于语音处理器120已经从第一用户与车辆1之间的对话中获取了“朱莉亚”是第一用户的妻子的信息,因此DB管理处理器140可以在第一用户DB中将第一用户与“朱莉亚”之间的关系保存为“妻子”。
此外,控制器30可以将控制信号传输至连接至车辆1的移动设备2并且尝试呼叫“朱莉亚”。
再次参见图9,扬声器42可以输出语音C4(“朱莉亚将被保存为您的妻子”),以通知第一用户:将利用第一用户与“朱莉亚”之间的关系来更新第一用户DB。
当第一用户将来需要再次呼叫他的妻子时,可以在第一用户DB中查询“妻子”,并且将会查找到“朱莉亚”的电话号码。
图11为示出了根据本发明的示例性实施方案的基于存储在第一用户DB中的信息来更新第二用户DB的操作的示意图。
当作为第二用户的“简”乘坐在车辆1中,并且第二用户的移动设备2连接至车辆1时,存储在第二用户的移动设备2中的电话薄数据会被车辆1下载并且传输至服务器3,并且生成第二用户DB。
如上面所描的第一用户DB,第二用户保存的电话号码以及用于识别电话号码的所有者的识别标签(姓名和关系)可以存储在第二用户DB中。
DB管理处理器140可以确定,在第一用户DB中存储有识别标签“简(姓名)”和“女儿(关系)”的电话号码与第二用户的电话号码相匹配。由此,DB管理处理器140可以确定第二用户是“简”。
当第二用户已经在她的移动设备2存储了她的姓名时,第二用户的姓名也可以在第二用户DB中保存为“简”。否则,第二用户的姓名可以根据DB管理处理器140进行的确认而更新为“简”。
同样的,当第一用户的姓名没有保存在第一用户DB中时,通过反映在第二用户DB中对应于第一用户的电话号码的姓名为“詹姆斯”的信息,DB管理处理器140可以在第一用户DB中将第一用户的姓名保存为“詹姆斯”。
DB管理处理器140可以根据存储在第一用户DB中的信息来更新第二用户DB。
例如,根据存储在第一用户DB中的指示第二用户是第一用户的“女儿”的信息,DB管理处理器140可以在第二用户DB中将第一用户与第二用户之间的关系保存为“父亲”。
此外,根据存储在第一用户DB中的指示第一用户的妻子为“朱莉亚”的信息,DB管理处理器140可以确定第二用户的母亲为“朱莉亚”并且在第二用户DB中将第二用户与“朱莉亚”之间的关系保存为“母亲”。
第二用户与每一个电话号码的所有者之间的关系也可以作为每一个电话号码的识别标签。也就是说,用于识别第一用户的电话号码的第一识别标签可以包括第一用户与第二用户之间的关系以及第一用户的姓名的信息。因此,当第二用户需要在将来再次呼叫他的父亲时,可以在第二用户DB中查询“父亲”,并且将会查找到“詹姆斯”的电话号码。
图12为示出了根据本发明的示例性实施方案的用户与车辆之间的对话交流的示例的示意图,图13为示出了根据图12示出的对话来进行信息更新的示例的示意图。
如图12所示,当第二用户经由语音输入器10来输入语音U5(“呼叫我的祖母”)来呼叫她的祖母时,语音输入器10将语音U5传输至语音处理设备100,语音识别器110识别所传输的语音并且输出第二用户的口头语言。
所述语音处理器120基于第二用户的口头语言发现第二用户的语音的意图是呼叫她的祖母,并且经由第二用户DB来查找她的祖母的电话号码。当查询结果为并不存在标记有“祖母”的电话号码时,所述语音处理器120可以经由扬声器42来输出用于识别第二用户的祖母的语音C5(“谁是您的祖母”),作为与查询结果相关的反馈。
第二用户可以经由语音输入器10来输入语音U6(“凯蒂”)以提供她祖母的姓名,并且语音处理设备100可以识别语音U6并获取第二用户的祖母的姓名是“凯蒂”的信息。该语音处理设备100可以通过将第二用户的祖母是“凯蒂”的信息反映在第二用户DB中来更新第二用户DB。
参见图13,当查询“祖母”时,即使“凯蒂”的电话号码已经存储在第二用户DB中,由于该电话号码只是标记有识别标签“凯蒂”,没有返回因此对应于“凯蒂”的电话号码的查询结果。由于语音处理器120已经从第二用户与车辆1之间的对话中获取了“凯蒂”是第二用户的祖母的信息,因此DB管理处理器140可以在第二用户DB中将第二用户与“凯蒂”之间的关系保存为“祖母”。
此外,控制器30可以将控制信号传输至连接至车辆1的移动设备2并且尝试呼叫“凯蒂”。
再次参见图12,扬声器42可以输出语音C6(“凯蒂将被保存为您的祖母”),以通知第二用户:将利用第二用户与“凯蒂”之间的关系来更新第二用户DB。
当第二用户需要在将来再次呼叫她的祖母时,可以在第二用户DB中查询“祖母”,并且将会查找到“凯蒂”的电话号码。
图14为示出了根据本发明的示例性实施方案的基于存储在第二用户DB中的信息来更新第一用户DB的操作的示意图。
从指示第二用户(“简”)的祖母是“凯蒂”的信息中,DB管理处理器140可以获取指示第一用户(“詹姆斯”,其是第二用户的父亲)的母亲是“凯蒂”的信息。因此,如图14所示,第一用户与“凯蒂”之间的关系可以在第一用户DB中保存为“母亲”。
图15为示出了根据本发明的示例性实施方案的基于存储在第一用户DB中的信息来更新第三用户DB的操作的示意图。
当作为第三用户的“朱莉亚”乘坐在车辆1中,并且第三用户的移动设备2连接至车辆1时,存储在第三用户的移动设备2中的电话薄数据被车辆1下载并且传输至服务器3,并且生成第三用户DB。
如上面所描的第一用户DB和第二用户DB,第三用户保存的电话号码以及用于识别电话号码的所有者的识别标签(姓名和关系)可以存储在第三用户DB中。
DB管理处理器140可以确定,在第一用户DB中存储有识别标签“朱莉亚(姓名)”和“妻子(关系)”的电话号码与第三用户的电话号码相匹配。由此,DB管理处理器140可以确定第三用户是“朱莉亚”。
当第三用户已经在她的移动设备2中存储了她的姓名时,第三用户的姓名也可以在第三用户DB中保存为“朱莉亚”。否则,第三用户的姓名将根据DB管理处理器140进行的确认而被保存为“朱莉亚”。
DB管理处理器140可以根据存储在第一用户DB中的信息来更新第三用户DB。
例如,根据存储在第一用户DB中的指示第一用户(“詹姆斯”)的妻子为“朱莉亚”的信息,DB管理处理器140可以确定第三用户的丈夫为“詹姆斯”并且在第三用户DB中将第三用户与“詹姆斯”之间的关系保存为“丈夫”。
根据存储在第一用户DB中的指示第二用户(“简”)是第一用户的女儿的信息,DB管理处理器140可以在第三用户DB中将第三用户与“简”之间的关系保存为“女儿”。
此外,根据存储在第一用户DB中的指示“凯蒂”是第一用户的“母亲”的信息,DB管理处理器140可以在第三用户DB中将第三用户与“凯蒂”之间的关系保存为“婆母”。
当更新第三用户DB时,可以使用存储在第二用户DB中的信息而不使用存储在第一用户DB中的信息,或者可以使用存储在第一用户DB中的信息以及存储在第二用户DB中的信息。
在上面所描述的示例性的实施方案中,已经描述了语音处理设备100从与用户进行的对话中获取多个用户之间的关系或者用户与其他家庭成员之间的关系的信息,并且通过将信息反映到用户DB中来更新用户DB的情况。
但是,语音处理设备100的实施方案并不限制于此。与上面所描述的实施方案不同,所述语音处理设备100可以从与用户进行的对话中获取其他用户或者其他家庭成员的姓名的信息,并且将该信息反映到用户DB中来更新用户DB。
此外,即使在上面实施方案中已经描述了共享车辆1的多个用户在相同的家庭中的情况,但是语音处理设备100和车辆1的实施方案也可以等同地应用在共享车辆1的多个用户在同一工作场所中工作的情况。也就是说,除了多个用户在同一个家庭的情况下,本发明的实施方案可适用于其他任何情况,只要共享车辆1的多个用户属于同一个团体。
特别的,当基于用户的口头语言而获取了两个用户之间的关系的信息时,也获取了两个用户中的一个用户与两个用户所属的其他团体的另一成员之间的关系的信息,利用上面的信息片段,两个用户中的另一个用户与其他成员之间的关系信息也可以确定并且添加到用户DB中。
此外,虽然在上面的实施方案中已经描述了存储在用户DB中的信息为电话号码的情况,但是除了电话号码之外的信息(例如,家庭地址)也可以在用户DB中存储并管理。
图16为示出了根据本发明的示例性实施方案的除了电话号码之外的附加信息存储在用户DB中的示例的示意图。
如图16所示,电话号码的所有者的生日或者家庭地址可以进一步的在用户DB中保存为附加信息。所述附加信息可以由移动设备2提供(可以由用户单独输入)或者由管理用户的个人信息的其他外部服务器提供。接收附加信息的方法并不限制于此。
例如,当第一用户的家庭地址存储在第一用户DB中时,DB管理处理器140可以将第一用户的女儿(“简”)和第一用户的妻子(“朱莉亚”)的家庭地址保存为相同的地址。
当第二用户的家庭地址和第三用户的家庭地址分别存储在第二用户DB和第三用户DB中时,可以通过从第二用户DB和第三用户DB中加载第二用户和第三用户的家庭地址来更新第一用户DB。
此外,当第二用户的生日存储在第二用户DB中,并且第三用户的生日存储在第三用户DB中时,可以通过从第二用户DB和第三用户DB中加载第二用户的生日信息和第三用户的生日信息来更新第一用户DB。
第二用户DB和第三用户DB也可以以同样的方式来更新附加信息。
所述语音处理设备100可以根据存储在用户DB中的附加信息来主动地提供用户所需的信息。下面,将参考图17和图18来进行描述。
图17和图18为示出了利用存储在用户DB中的附加信息来提供用户所需信息的示例的示意图。
如图17所述,当第二用户经由语音输入器10来输入语音U7(“呼叫我的父亲”)来呼叫她的父亲时,语音输入器10将语音U7传输至语音处理设备100,语音识别器110识别所传输的语音并且输出第二用户的口头语言。
所述语音处理器120可以基于第二用户的口头语言来发现第二用户的语音的意图是呼叫她的父亲,并且同时从第二用户DB中获取指示第二用户的父亲是“詹姆斯”并且今天是“詹姆斯”的生日的信息。
当语音处理器120基于所获取的信息将控制信号传输至控制器30时,经由扬声器42输出用于检查“詹姆斯”是否是第二用户父亲的语音C7(“詹姆斯是您的父亲吗?”),并且当第二用户发出语音U8(“是”)来回答语音C7时,扬声器42可以输出语音C8(“今天是您父亲的生日。您愿意发送祝贺消息吗?”)以同时提供指示今天是“詹姆斯”的生日并且询问第二用户是否愿意发送祝贺消息的信息。
也就是说,即使当第二用户并不知道她的父亲的生日或者并不想发送祝贺消息,语音处理设备100也主动地提供与之相关的信息。以这种方式,可以提供主动服务。
如图18所示,即使当第二用户没有说话时,语音处理设备100也可以经由扬声器42提前说话并输出语音C9(“今天是詹姆斯的生日。您愿意预定餐厅吗?”),以同时提供指示今天是“詹姆斯”的生日并且询问第二用户是否愿意预定餐厅的信息。
当第二用户发出语音U9(“是的,请搜索我家附近的韩国餐厅”)来预定餐厅时,所述语音处理器120可以根据存储在第二用户DB中的家庭地址来确定将要搜索餐厅的区域。此外,语音处理器120可以经由扬声器42输出语音C10(“即将搜索良才洞附近的韩国餐厅”),以向第二用户通知将要进行搜索的信息。
通过利用设置在车辆1中的导航装置或者存储在服务器3或者车辆1中的地图数据库,所述控制器30可以搜索第二用户的住所附近的韩国餐厅,并且可以将搜索结果提供给第二用户。
上面所描述的实施方案仅仅是可以向用户提供的服务的示例。不同于上面所描述的,车辆1和语音处理设备100可以进行结合,并且通过利用用户与其他用户或者其他家庭成员之间的关系的信息以及与之相关的附加信息来提供各种服务。
下面,将描述根据示例性的实施方案的语音处理方法。根据示例性的实施方案所描述的语音处理设备100和车辆1可以用于执行根据实施方案的语音处理方法。因此,关于语音处理设备100和车辆1的上文描述可以等同地应用至根据实施方案的语音处理方法。
图19和图20为用于描述根据实施方案的语音处理方法的流程图。语音处理方法并不是需要图19和图20中所描的所有步骤。所描述的步骤中的一些步骤仅需要用于描述语音处理方法并且可以从组成该语音处理方法中的步骤中移除。
参见图19,连接车辆和第一移动设备(310)。所述第一移动设备指代第一用户的移动设备,并且车辆与第一移动设备之间的连接可以通过无线通信或有线通信来执行。
车辆从第一移动设备下载第一电话薄数据(311)。通过第一用户保存在第一用户的移动设备中的电话号码和用于识别电话号码的所有者的识别标签一起存储在第一电话薄数据中。
语音处理设备通过利用第一电话薄数据而生成第一用户DB(312)。可以使用存储在第一电话薄数据中的信息而不进行改变,或者通过改变成便于语音识别的形式,以生成第一用户DB。第一用户DB的示例与图8中所描述的示例相同。生成的第一用户DB存储在存储器130中。
当第一用户将语音输入到设置在车辆1中的语音输入器10中时,所述语音处理设备识别第一用户的语音并且输出口头语言(313)。所述语音输入器10将输入的语音转换成语音信号并且将该语音信号传输至语音处理设备100,所述语音处理设备100的语音识别器110识别该语音信号并且输出识别的结果。所述识别的结果包括由第一用户说出并输入的语言,也即,口头语言。口头语言假定包括第一用户与第二用户之间的关系的信息。
语音处理器从口头语言中获取第一用户与第二用户之间的关系的信息(314)。例如,在图7所示的示例中,第一用户可以说出用于呼叫他的女儿的语音,并且可以从第一用户与语音处理设备100之间的对话中提供指示第二用户是第一用户的女儿的信息。所述语音处理器120可以基于口头语言来获取指示第二用户是第一用户的女儿的信息。
第一用户DB可以基于获取的关系信息来进行更新(315)。所述DB管理处理器140可以在第一用户DB中进一步存储第一用户与第二用户之间的关系。例如,当第二用户的姓名是“简”,并且“简”的电话号码与识别标签“简”一起存储在第一用户DB中时,DB管理处理器140可以在第一用户DB中将第一用户与“简”之间的关系保存为“女儿”。这里,第一用户与每一个电话号码的所有者之间的关系也可以作为识别标签。因此,在当第一用户将来说“女儿”而不是说“简”来呼叫第二用户时,语音处理器120可以立即查询对应于“女儿”的电话号码(也就是“简”的电话号码)而不会再次询问,并且呼叫“简”。
参见图20,连接车辆和第二移动设备(320)。所述第二移动设备指代第二用户的移动设备,并且车辆与第二移动设备之间的连接可以通过无线通信或有线通信来执行。
车辆从第二移动设备下载第二电话薄数据(321)。通过第二用户保存在第二用户的移动设备中的电话号码和用于识别电话号码所有者的识别标签一起存储在第二电话薄数据中。
所述语音处理设备通过利用第二电话薄数据而生成第二用户DB(322)。可以使用存储在第二电话薄数据中的信息而不进行改变,或者改变成便于语音识别的形式,以生成第二用户DB。第二用户DB的示例与图11中所描述的示例相同。生成的第二用户DB存储在存储器130中。
该DB管理处理器140基于在第一用户DB中更新的第一用户与第二用户之间的关系的信息来更新第二用户DB(323)。特别的,DB管理处理器140可以确定,在第一用户DB中与识别标签“简(姓名)”和“女儿(关系)”一起存储的电话号码与第二用户的电话号码相匹配。由此,DB管理处理器140可以确定第二用户是“简”。根据指示存储在第一用户DB中的第一用户与第二用户之间的关系是“女儿”的信息,DB管理处理器140可以在第二用户DB中将第一用户与第二用户之间的关系保存为“父亲”。此外,除了第一用户与第二用户之间的关系的信息,当第一用户与其他家庭成员之间的关系的信息也存储在第一用户DB中时,所述DB管理处理器140可以根据存储的信息来确定第二用户与相应的家庭成员之间的关系的信息。此外,该DB管理处理器140可以基于所确定的关系信息来更新第二用户DB。
当第二用户将语音输入到设置在车辆1中的语音输入器10中时,所述语音处理设备识别第二用户的语音并且输出所输入的语言(324)。所述语音输入器10将输入的语音转换成语音信号并且将该语音信号传输至语音处理设备100,所述语音处理设备100的语音识别器110识别该语音信号并且输出识别的结果。所述识别的结果包括第二用户说出并输入的语言,也即,口头语言。口头语言假定包括第二用户与其他成员之间的关系的信息。
语音处理器从口头语言中获取第二用户与其他成员之间的关系的信息(325)。例如,在图12所示的示例中,第二用户可以说出用于呼叫她祖母的语音,并且可以从第二用户与语音处理设备100之间的对话中提供指示第二用户的祖母是“凯蒂”的信息。所述语音处理器120可以基于口头语言来获取指示第二用户的祖母是“凯蒂”的信息。
第一用户DB和第二用户DB可以基于获取的关系信息来进行更新(326)。所述DB管理处理器140可以在第二用户DB将第二用户与“凯蒂”之间的关系存储为“祖母”。从指示第二用户的祖母是“凯蒂”的信息中可以获取指示第一用户(“詹姆斯”,其是第二用户的父亲)的母亲是“凯蒂”的信息。因此,如图14所示,第一用户与“凯蒂”之间的关系可以在第一用户DB中保存为“母亲”。
为了便于描述,虽然在图19和图20中仅仅提及了第一用户DB和第二用户DB,但是用户DB的数量可以根据共享车辆的家庭成员的数量来改变。此外,不同于上面所描述的实施方案,其他用户或者其他家庭成员的姓名的信息可以经由与用户的对话来获取,并且用户DB可以通过在用户DB中反映所获取的信息来进行更新。
此外,虽然在上面的实施方案中已经描述了存储在用户DB中的信息为电话号码的情况,但是也可以在用户DB中存储并管理除了电话号码以外的信息,例如家庭地址。
除了电话号码,例如家庭地址和生日的信息可以作为附加信息而进一步地存储在用户DB中。所述语音处理设备可以利用这些附加信息来提供信息或者用户所需的或预测到的用户所需的服务。
根据按照上面所描述的实施方案的语音处理设备、具有所述语音处理设备的车辆以及语音处理方法,多个用户之间的关系可以基于用户所说的内容来确定,并且可以基于所确定的用户之间关系来执行更加智能的语音识别,或者可以主动地提供用户所需的信息。
根据按照一方面的语音处理设备、具有所述语音处理设备的车辆以及语音处理方法,能够基于用户的口头语言来确定多个用户之间的关系,并且能够基于所确定的用户之间关系来执行更加智能的语音识别,或者能够主动地提供用户所需的信息。
上面的说明仅仅是对本发明的技术精神进行示意性的描述。属于本发明的技术领域中的任何一个普通技术人员在不偏离本发明的基本特征的范围内均能够做出各种修改、改变和替换。因此,这里所描述的实施方案和附图仅仅是用于描述本发明而并不是用于限制本发明的技术精神,并且本发明的技术精神的范围并不由这些实施方案和所附附图来进行限制。本发明的技术精神的范围应当基于权利要求来进行解释,包含于该范围内的所有技术原理等同于应当被解释为属于本发明的范围的权利要求。

Claims (27)

1.一种语音处理设备,包括:
语音处理器,其基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;
存储器,其存储第一用户数据库和第二用户数据库,所述第一用户数据库包括由第二识别标签识别的第二用户的个人信息,所述第二用户数据库包括由第一识别标签识别的第一用户的个人信息;以及
数据库管理处理器,其根据所获取的第一用户与第二用户之间的关系的信息来更新第一用户数据库和第二用户数据库。
2.根据权利要求1所述的语音处理设备,其中,所述个人信息包括:电话号码和地址中的至少一个。
3.根据权利要求1所述的语音处理设备,其中:
所述第一识别标签包括第一用户的姓名;
所述第二识别标签包括第二用户的姓名。
4.根据权利要求3所述的语音处理设备,其中,所述数据库管理处理器将第二用户与第一用户的关系添加至所述第二识别标签。
5.根据权利要求3所述的语音处理设备,其中,所述数据库管理处理器将第一用户与第二用户的关系添加至所述第一识别标签。
6.根据权利要求5所述的语音处理设备,其中,通过第一用户与第二用户的关系,能够搜索存储在第二用户数据库中的第一用户的个人信息。
7.根据权利要求1所述的语音处理设备,其中:
所述语音处理器基于第二用户的口头语言来获取第二用户与其他成员之间的关系的信息;
所述其他成员是所述第一用户和第二用户所属的团体中的成员。
8.根据权利要求7所述的语音处理设备,其中,所述数据库管理处理器基于所获取的第二用户与其他成员之间的关系的信息来更新所述第二用户数据库。
9.根据权利要求8所述的语音处理设备,其中,所述数据库管理处理器根据所获取的第二用户与其他成员之间的关系的信息来确定第一用户与其他成员之间的关系的信息,并且基于所确定的关系信息来更新所述第一用户数据库。
10.一种车辆,包括:
语音处理器,其基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;
存储器,其存储第一用户数据库和第二用户数据库,所述第一用户数据库保存有由第二识别标签来识别的第二用户的个人信息,所述第二用户数据库保存有由第一识别标签来识别的第一用户的个人信息;
数据库管理处理器,其根据所获取的第一用户与第二用户之间的关系的信息来更新第一用户数据库和第二用户数据库;以及
扬声器,其用于输出语音。
11.根据权利要求10所述的车辆,其中:
所述个人信息包括电话号码。
12.根据权利要求11所述的车辆,其中:
所述第一识别标签包括第一用户的姓名;
所述第二识别标签包括第二用户的姓名。
13.根据权利要求12所述的车辆,其中,所述数据库管理处理器将第二用户与第一用户的关系添加至所述第二识别标签。
14.根据权利要求12所述的车辆,其中,所述数据库管理处理器将第一用户与第二用户的关系添加至所述第一识别标签。
15.根据权利要求14所述的车辆,其中,通过第一用户与第二用户的关系,能够搜索存储在所述第二用户数据库中的第一用户的个人信息。
16.根据权利要求11所述的车辆,其中,所述第一用户数据库进一步包括附加信息,该附加信息包括第一用户的生日和地址中的至少一个。
17.根据权利要求16所述的车辆,其中,所述数据库管理处理器根据包含于所述第一用户数据库中的附加信息来更新所述第二用户数据库。
18.根据权利要求17所述的车辆,其中,所述扬声器基于所述附加信息来输出语音,以向第二用户提供服务。
19.根据权利要求11所述的车辆,进一步包括:通信器,其用于与第一用户的移动设备和第二用户的移动设备进行通信,以及从所述移动设备中下载电话薄数据;
其中,所述数据库管理处理器使用下载的电话薄数据,以生成第一用户数据库和第二用户数据库。
20.一种语音处理方法,包括:
存储第一用户数据库,该第一用户数据库包括通过第二识别标签识别的第二用户的个人信息;
基于第一用户的口头语言来获取第一用户与第二用户之间的关系的信息;
基于所获取的第一用户与第二用户之间的关系的信息来更新所述第一用户数据库;
存储第二用户数据库,该第二用户数据库包括通过第一识别标签识别的第一用户的个人信息;
基于所获取的第一用户与第二用户之间的关系的信息来更新所述第二用户数据库。
21.根据权利要求20所述的语音处理方法,其中,个人信息包括电话号码和地址中的至少一个。
22.根据权利要求20所述的语音处理方法,其中:
所述第一识别标签包括第一用户的姓名;
所述第二识别标签包括第二用户的姓名。
23.根据权利要求22所述的语音处理方法,其中,更新所述第一用户数据库的步骤包括将第二用户与第一用户的关系添加至所述第二识别标签。
24.根据权利要求22所述的语音处理方法,其中,更新所述第二用户数据库的步骤包括将第一用户与第二用户的关系添加至所述第一识别标签。
25.根据权利要求20所述的语音处理方法,进一步包括:基于第二用户的口头语言来获取第二用户与其他成员之间的关系的信息;
其中,所述其他成员是所述第一用户和第二用户所属的团体中的成员。
26.根据权利要求25所述的语音处理方法,进一步包括:基于所获取的第二用户与其他成员之间的关系的信息来更新所述第二用户数据库。
27.根据权利要求26所述的语音处理方法,进一步包括:
基于所获取的第二用户与其他成员之间的关系的信息来确定第一用户与其他成员之间的关系的信息;
基于所确定的关系信息来更新所述第一用户数据库。
CN201710672463.6A 2016-12-26 2017-08-08 语音处理设备、具有该设备的车辆以及语音处理方法 Pending CN108242237A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160178871A KR102668438B1 (ko) 2016-12-26 2016-12-26 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법
KR10-2016-0178871 2016-12-26

Publications (1)

Publication Number Publication Date
CN108242237A true CN108242237A (zh) 2018-07-03

Family

ID=62630454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710672463.6A Pending CN108242237A (zh) 2016-12-26 2017-08-08 语音处理设备、具有该设备的车辆以及语音处理方法

Country Status (3)

Country Link
US (1) US11004447B2 (zh)
KR (1) KR102668438B1 (zh)
CN (1) CN108242237A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708226A (zh) * 2019-08-20 2020-01-17 北京泰豪装备科技有限公司 一种基于FlexRay车载总线通信***
CN110826388A (zh) * 2018-08-10 2020-02-21 本田技研工业株式会社 个人识别装置和个人识别方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436417B2 (en) * 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
CN112262381B (zh) 2018-08-07 2024-04-09 谷歌有限责任公司 汇编和评估对隐私问题的自动助理响应
US10930265B2 (en) * 2018-11-28 2021-02-23 International Business Machines Corporation Cognitive enhancement of communication with tactile stimulation
WO2020196960A1 (ko) * 2019-03-28 2020-10-01 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법
KR20190099167A (ko) * 2019-08-06 2019-08-26 엘지전자 주식회사 음성 인식을 수행하는 인공 지능 기기

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本***
US20070011236A1 (en) * 2004-09-13 2007-01-11 Relgo Networks, Inc. Relationship definition and processing system and method
CN101359334A (zh) * 2007-07-31 2009-02-04 Lg电子株式会社 便携终端及其图像信息管理方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN101976304A (zh) * 2010-10-16 2011-02-16 陈长江 智能生活管家***及方法
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别***
CN102377869A (zh) * 2010-08-23 2012-03-14 联想(北京)有限公司 一种移动终端及通信方法
US20130080169A1 (en) * 2011-09-27 2013-03-28 Fuji Xerox Co., Ltd. Audio analysis system, audio analysis apparatus, audio analysis terminal
CN103167174A (zh) * 2013-02-25 2013-06-19 广东欧珀移动通信有限公司 一种移动终端问候语的输出方法、装置及移动终端
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
US20130238312A1 (en) * 2012-03-08 2013-09-12 Mobile Technologies, Llc Device for extracting information from a dialog
CN103730118A (zh) * 2012-10-11 2014-04-16 百度在线网络技术(北京)有限公司 语音信号采集方法和移动终端
CN103780771A (zh) * 2012-10-23 2014-05-07 华为技术有限公司 语音业务的处理方法和装置
CN103827963A (zh) * 2011-09-27 2014-05-28 感官公司 使用说话者检验的背景语音辨识助理
US20140270504A1 (en) * 2013-03-15 2014-09-18 General Instrument Corporation Logo presence detection based on blending characteristics
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话***自动训练方法、对话***及用于车辆的控制装置
CN104541325A (zh) * 2012-06-26 2015-04-22 谷歌公司 混合模型语音识别
CN104584010A (zh) * 2012-09-19 2015-04-29 苹果公司 基于语音的媒体搜索
CN105224586A (zh) * 2014-06-10 2016-01-06 谷歌公司 从先前会话检索情境
CN105323350A (zh) * 2014-07-11 2016-02-10 现代自动车株式会社 用于在车辆中控制呼出呼叫的方法和设备
CN105335380A (zh) * 2014-06-26 2016-02-17 联想(北京)有限公司 一种用户信息获取方法及电子设备
CN105453026A (zh) * 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
CN105825869A (zh) * 2015-01-22 2016-08-03 富士通株式会社 语音处理装置和语音处理方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100637760B1 (ko) * 2004-07-28 2006-10-25 (주)유비티즌 네트워크를 기반으로 한 가족 사이트에서의 가족관계자동설정과 가계도 자동생성 시스템 및 방법
WO2009073637A2 (en) * 2007-11-29 2009-06-11 Iqzone Systems and methods for personal information management and contact picture synchronization and distribution
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR101363609B1 (ko) * 2011-10-25 2014-03-03 주식회사 이노스파크 사회적 관계정보 관리 시스템 및 관리 방법
US8919640B2 (en) * 2012-06-22 2014-12-30 Paychief Llc Methods and systems for registering relationships between users via a symbology
US9424233B2 (en) * 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US20150186406A1 (en) * 2013-12-31 2015-07-02 Studio Nadimi, LLC System and method for facilitating interpersonal connections
CN105024984B (zh) * 2014-04-30 2017-12-01 腾讯科技(深圳)有限公司 权限设置方法、装置及***
US9536228B2 (en) * 2014-07-31 2017-01-03 Gretel, LLC Contact management systems
KR101641572B1 (ko) * 2015-01-19 2016-07-21 주식회사 엔씨소프트 상황 및 선호도 기반 대화 스티커 순위 결정 방법 및 컴퓨터 프로그램
US20170024375A1 (en) * 2015-07-26 2017-01-26 Microsoft Technology Licensing, Llc Personal knowledge graph population from declarative user utterances
US20170061005A1 (en) * 2015-08-25 2017-03-02 Google Inc. Automatic Background Information Retrieval and Profile Updating
KR20170030296A (ko) * 2015-09-09 2017-03-17 삼성전자주식회사 전자 장치 및 그 정보 처리 방법
US10154103B2 (en) * 2015-09-23 2018-12-11 At&T Intellectual Property I, L.P. System and method for exchanging a history of user activity information
KR20170038378A (ko) * 2015-09-30 2017-04-07 삼성전자주식회사 이미지를 처리하는 전자 장치 및 그 제어 방법
CN105468767B (zh) * 2015-12-04 2019-03-26 小米科技有限责任公司 名片信息获取方法及装置
US20180096072A1 (en) * 2016-10-03 2018-04-05 Google Inc. Personalization of a virtual assistant

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本***
US20070011236A1 (en) * 2004-09-13 2007-01-11 Relgo Networks, Inc. Relationship definition and processing system and method
CN101359334A (zh) * 2007-07-31 2009-02-04 Lg电子株式会社 便携终端及其图像信息管理方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
CN102377869A (zh) * 2010-08-23 2012-03-14 联想(北京)有限公司 一种移动终端及通信方法
CN103262156A (zh) * 2010-08-27 2013-08-21 思科技术公司 语音识别语言模型
CN101976304A (zh) * 2010-10-16 2011-02-16 陈长江 智能生活管家***及方法
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别***
CN103827963A (zh) * 2011-09-27 2014-05-28 感官公司 使用说话者检验的背景语音辨识助理
US20130080169A1 (en) * 2011-09-27 2013-03-28 Fuji Xerox Co., Ltd. Audio analysis system, audio analysis apparatus, audio analysis terminal
CN103226949A (zh) * 2011-09-30 2013-07-31 苹果公司 在虚拟助理中使用情境信息来促进命令的处理
US20130238312A1 (en) * 2012-03-08 2013-09-12 Mobile Technologies, Llc Device for extracting information from a dialog
CN104541325A (zh) * 2012-06-26 2015-04-22 谷歌公司 混合模型语音识别
CN104584010A (zh) * 2012-09-19 2015-04-29 苹果公司 基于语音的媒体搜索
CN103730118A (zh) * 2012-10-11 2014-04-16 百度在线网络技术(北京)有限公司 语音信号采集方法和移动终端
CN103780771A (zh) * 2012-10-23 2014-05-07 华为技术有限公司 语音业务的处理方法和装置
CN103167174A (zh) * 2013-02-25 2013-06-19 广东欧珀移动通信有限公司 一种移动终端问候语的输出方法、装置及移动终端
US20140270504A1 (en) * 2013-03-15 2014-09-18 General Instrument Corporation Logo presence detection based on blending characteristics
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话***自动训练方法、对话***及用于车辆的控制装置
CN105453026A (zh) * 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
CN105224586A (zh) * 2014-06-10 2016-01-06 谷歌公司 从先前会话检索情境
CN105335380A (zh) * 2014-06-26 2016-02-17 联想(北京)有限公司 一种用户信息获取方法及电子设备
CN105323350A (zh) * 2014-07-11 2016-02-10 现代自动车株式会社 用于在车辆中控制呼出呼叫的方法和设备
CN105825869A (zh) * 2015-01-22 2016-08-03 富士通株式会社 语音处理装置和语音处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪志鸿;于水源;杜利民;: "使用期待提高对话***的语音识别率", 黑龙江大学自然科学学报, no. 01, pages 64 - 67 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826388A (zh) * 2018-08-10 2020-02-21 本田技研工业株式会社 个人识别装置和个人识别方法
CN110826388B (zh) * 2018-08-10 2023-11-28 本田技研工业株式会社 个人识别装置和个人识别方法
CN110708226A (zh) * 2019-08-20 2020-01-17 北京泰豪装备科技有限公司 一种基于FlexRay车载总线通信***

Also Published As

Publication number Publication date
KR20180075009A (ko) 2018-07-04
US20180182391A1 (en) 2018-06-28
KR102668438B1 (ko) 2024-05-24
US11004447B2 (en) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108242237A (zh) 语音处理设备、具有该设备的车辆以及语音处理方法
CN110660397B (zh) 对话***、车辆和用于控制车辆的方法
CN108346430B (zh) 对话***、具有对话***的车辆以及对话处理方法
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
CN102016502B (zh) 基于场境的语音识别语法选择方法及***
CN103811002B (zh) 用于语音***的调节方法和***
CN108989541A (zh) 基于情境的会话启动装置、***、车辆和方法
CN104123936A (zh) 对话***自动训练方法、对话***及用于车辆的控制装置
US20200152188A1 (en) Vehicle and control method thereof
US20200020331A1 (en) Dialogue system, vehicle having the same and dialogue processing method
CN103810995A (zh) 用于语音***的调节方法和***
US10559304B2 (en) Vehicle-mounted voice recognition device, vehicle including the same, vehicle-mounted voice recognition system, and method for controlling the same
CN110503949A (zh) 对话***、具有对话***的车辆和对话处理方法
EP3570276A1 (en) Dialogue system, and dialogue processing method
US10861460B2 (en) Dialogue system, vehicle having the same and dialogue processing method
CN110503947B (zh) 对话***、包括其的车辆和对话处理方法
US11978453B2 (en) Natural language processing routing
KR20210044475A (ko) 대명사가 가리키는 객체 판단 방법 및 장치
US11532303B2 (en) Agent apparatus, agent system, and server device
CN105869631B (zh) 语音预测的方法和装置
CN111559328B (zh) 智能体装置、智能体装置的控制方法及存储介质
US20200320998A1 (en) Agent device, method of controlling agent device, and storage medium
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
US20200322450A1 (en) Agent device, method of controlling agent device, and computer-readable non-transient storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination