CN108132952A - 一种基于语音识别的主动型搜索方法和装置 - Google Patents

一种基于语音识别的主动型搜索方法和装置 Download PDF

Info

Publication number
CN108132952A
CN108132952A CN201611091688.4A CN201611091688A CN108132952A CN 108132952 A CN108132952 A CN 108132952A CN 201611091688 A CN201611091688 A CN 201611091688A CN 108132952 A CN108132952 A CN 108132952A
Authority
CN
China
Prior art keywords
information
voice messaging
user
search
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611091688.4A
Other languages
English (en)
Other versions
CN108132952B (zh
Inventor
项连志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611091688.4A priority Critical patent/CN108132952B/zh
Priority to PCT/CN2017/076968 priority patent/WO2018098932A1/zh
Publication of CN108132952A publication Critical patent/CN108132952A/zh
Application granted granted Critical
Publication of CN108132952B publication Critical patent/CN108132952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于语音识别的主动型搜索方法和装置,识别接收的语音信息,获得所述语音信息的语音特征向量;判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果;若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域;将所述主题域映射扩展为对应的搜索结构;根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。与现有技术相比,本发明将接收的语音信息的语音特征向量与基准语音特征向量是否匹配,作为是否启动搜索功能的条件,实时向用户反馈相关信息或摘要的功能,使用户能够及时、快速获取未知信息,解决沟通中或者其他语言环境中信息不对称的问题。

Description

一种基于语音识别的主动型搜索方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于语音识别的主动型搜索技术。
背景技术
在人类生活中,沟通是最基本的社会活动,但经常出现沟通不畅的场景,例如,在社交场合,一方聊起了音乐,另一方由于对该领域不甚了解而略显尴尬接不下去;在业务洽谈时,业务方提出了新概念和方法,沟通受阻;在专家咨询场合,专家讲述了众多的理念和意见,听众发现跟不上了,进一步的沟通无法展开。综上可以发现,沟通受阻将会影响沟通效率,也可能会导致商业、人脉建立等机会的流失。究其根本原因在于人与人之间由于信息广度和深度的不对等(即信息不对称),以及信息获取滞后造成的。
现有的信息获取主要依赖于搜索引擎,通过搜索引擎获得相关的信息,这种方式很大程度上解决了人们从海量信息中获取信息的难题,但应用于沟通时存在以下问题:1)搜索得到的信息相关度依赖于用户输入的关键词。当今的搜索引擎大多是以关键词为索引的方式去查找信息,当用户无法构建合适的关键词时,信息的相关度将急剧下降;2)信息获取的滞后性,用户在构建关键词之后,将关键词输入搜索引擎得到相关信息,这一系列过程相对于沟通存在滞后性。
因此,如何提供一种基于语音识别的主动型搜索技术,帮助用户及时获取未知信息,成为本领域技术人员亟需解决的技术问题之一。
发明内容
本发明的目的是提供一种基于语音识别的主动型搜索方法和装置。
根据本发明的一个方面,提供一种基于语音识别的主动型搜索方法,其中,该方法包括以下步骤:
a.识别接收的语音信息,获得所述语音信息的语音特征向量;
b.判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果;
c.若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域
d.将所述主题域映射扩展为对应的搜索结构;
e.根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
优选地,所述步骤c包括:
若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;
对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。
优选地,所述主题域包括以下至少任一项:
信息领域;
信息意图;
信息意图对象。
更优选地,其中,所述主题域包括信息领域、信息意图和信息意图对象,其中,所述步骤d包括:
根据所述主题域的信息领域、信息意图确定对应的主题模板;
根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;
将填充后的所述主题模板映射扩展为对应的搜索结构。
优选地,所述步骤d包括:
根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。
优选地,所述步骤e包括:
根据所述搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
优选地,所述步骤e包括:
根据所述搜索结构进行主动匹配搜索,获取对应的候选信息;
基于对所述候选信息的信息提取整合,生成所述主题信息;
将所述主题信息呈现给所述用户。
根据本发明的另一个方面,还提供了一种基于语音识别的主动型搜索装置,其中,该搜索装置包括:
识别装置,用于识别接收的语音信息,获得所述语音信息的语音特征向量;
判断装置,用于判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果;
生成装置,用于若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域;
映射装置,用于将所述主题域映射扩展为对应的搜索结构;
呈现装置,用于根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
优选地,所述生成装置用于:
若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;
对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。
优选地,所述主题域包括以下至少任一项:
信息领域;
信息意图;
信息意图对象。
优选地,所述主题域包括信息领域、信息意图和信息意图对象,其中,所述映射装置用于:
根据所述主题域的信息领域、信息意图确定对应的主题模板;
根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;
将填充后的所述主题模板映射扩展为对应的搜索结构。
优选地,所述映射装置用于根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。
优选地,所述呈现装置用于:
根据所述搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
优选地,所述呈现装置包括:
获取单元,用于根据所述搜索结构进行主动匹配搜索,获取对应的候选信息;
整合单元,用于基于对所述候选信息的信息提取整合,生成所述主题信息;
呈现单元,用于将所述主题信息呈现给所述用户。
与现有技术相比,本发明具有以下优点:
本发明通过持续主动获取语音信息,并且判断所述语音信息的语音特征向量与预先设置的基准语音特征向量是否匹配,即,判断所述语音信息的发出者是否为预定用户,将判断的结果作为是否启动搜索功能的条件,然后通过搜索操作,获得与所述语音信息相对应的信息的主题信息,并呈现给用户,帮助用户及时、快速获取未知信息,解决沟通中或者其他语言环境中信息不对称的问题。
进一步地,本发明通过采用自然语义分析技术,更加准确地获得语音信息中的关键词,并且根据所述语音信息的语义对所述关键词进行扩展或者删减,提高搜索结果的准确性和命中率,提升用户的使用体验。
进一步地,本发明基于对语音信息的识别,生成与该语音信息对应的主题域,主题域的主题域结构中的信息领域、信息意图和信息意图对象补充并修正主题域中的关键词,提高搜索的准确率,减少搜索过程中的噪音,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种基于语音识别的主动型搜索装置的结构示意图;
图2示出根据本发明一个实施例的使用百度搜索引擎时的搜索结构示意图;
图3示出根据本发明另一个方面的一种基于语音识别的主动型搜索方法的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的一种基于语音识别的主动型搜索装置的结构示意图。搜索装置1包括:识别装置101、判断装置102、生成装置103、映射装置104和呈现装置105。
以下以搜索装置1位于网络设备中为例进行详细描述,该网络设备与用户设备进行交互,接收用户设备收集的语音信息,识别接收的语音信息,获得所述语音信息的语音特征向量,判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域,将所述主题域映射扩展为对应的搜索结构;根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并返回给该用户设备,从而呈现给所述用户。
在此,所述用户设备包括但不限于个人电脑、便携式电脑、平板电脑、智能手机、PDA、虚拟现实(Virtual Reality,VR)眼镜、虚拟现实头盔、智能耳机等。用户设备通过其上的语音收集模块收集语音信息,并将所述收集的语音信息通过网络发送给搜索装置1,以便搜索装置1接收所述收集的语音信息后进行语音识别,将语音识别的结果作为是否启动搜索的条件,通过搜索获取对应的主题信息并呈现给用户。
其中,识别装置101识别接收的语音信息,获得所述语音信息的语音特征向量。具体地,用户设备通过其上的特定模块,例如语音收集模块,持续收集语音信息,然后通过网络发送给搜索装置1,或者搜索装置1定期地通过约定的通信方式,如http、https等通信协议,直接从用户设备获取用户设备收集的所述语音信息,搜索装置1获取所述语音信息后,首先通过滤波装置过滤掉所述语音信息中的噪音信息,识别装置101对接收的过滤后的所述语音信息进行预处理,例如通过采样、量化、预加重、加窗的预处理过程,然后例如通过使用Mel频率倒谱参数(Mel Frequency Cepstral Coefficient,MFCC)提取法、线性预测编码(linear predictive coding,LPC)提取法、高频域强调提取法(high frequency domainemphasis extraction method)或窗口函数提取法来提取语音特征向量。其中,所述语音特征向量是一种用于识别说话人(声纹识别)的语音特征参数,通过判断两个语音特征向量是否匹配,便可大体确定所述两个语音特征向量对应的语音信息是否出自同一用户。其中,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。
例如,在社交场合,如果用户A聊起了音乐,用户B对该话题不了解,则B可以通过搜索装置1快速获取与A所发出的语音信息相对应的音乐相关信息,具体地,在交流前,B通过点击用户设备上与所述搜索装置1对应的应用界面上相应的功能区域,或者其他方式激活搜索功能,在A发出语音信息时,用户设备通过其上的语音接收模块收集语音信息,然后通过网络将其发送至搜索装置1,搜索装置1获取所述语音信息后,识别装置101对接收的所述语音信息进行预处理,例如,对每一帧进行快速傅里叶变换(Fast FourierTransformation,FFT),求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算(Logarithm),再进一步做离散余弦变换(Discrete Cosine Transform,DCT)可得语音特征参数MMFC,进而得出对应的语音特征向量。
本领域技术人员应能理解,上述获得所述语音特征向量的方法仅为举例,现有的或者今后可能出现的获得语音特征向量的方法如可适用于本发明,都应包含在本发明的保护范围内,并在此以引用的方式包含于此。
判断装置102判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果。具体地,用户预先在搜索装置1中设置基准语音特征向量,例如通过预先接收预定用户的语音信息,并通过识别装置101识别所述语音信息,获得所述语音信息的语音特征向量,然后将该语音特征向量存储为基准语音特征向量,用于判断搜索装置1识别的语音信息的语音特征向量是否与所述基准语音特征向量匹配,即搜索装置1识别的语音信息的发出者是否为预定用户,获得对应的判断结果,进而将所述判断结果作为是否启动搜索的条件。其中,所述预定用户可以根据具体的使用情况确定。
例如,用户C对所述搜索装置1发出语音信息,识别装置101识别该语音信息,并获得该语音信息的语音特征向量,将该语音特征向量作为基准语音特征向量,通过该基准语音特征向量,可以判断搜索装置1后续接收的语音信息是否出自用户C,然后根据判断结果,做出相应的响应。例如,1)专家咨询场合,专家讲述了众多的理念和意见,搜索装置1接收该场合中的语音信息,并识别接收的所述语音信息,获得所述语音信息的语音特征向量x,判断装置102将该语音特征向量x与所述基准语音特征向量进行比较,判断两者是否匹配,获得对应的判断结果,如果判断结果为匹配,则所述语音信息为用户C自己发出的语音信息,则不作进一步处理;如果判断结果为不匹配,则所述语音信息为非用户C发出的语音信息,则搜索装置1进行后续搜索操作,并获得对应的搜索结果提供给用户C,用户C便可以根据所述搜索结果理解专家讲述的理念和意见,并与该专家进行有效的沟通和咨询,提高用户C与专家沟通的效率和质量;2)用户C在相对嘈杂的环境中使用所述搜索装置1,进行基于用户C发出的语音信息的语音搜索时,搜索装置1接收该场合中的语音信息,并识别接收的所述语音信息,获得所述语音信息的语音特征向量y,判断装置102将该语音特征向量y与所述基准语音特征向量进行比较,判断两者是否匹配,获得对应的判断结果,若判断结果为匹配,则所述语音信息为用户C自己发出的语音信息,搜索装置1,进行后续搜索操作,并获得对应的搜索结果提供给用户C;若判断结果为不匹配,则不作进一步处理。
若所述判断结果为不匹配,生成装置103基于对所述语音信息的识别,生成与所述语音信息对应的主题域。具体地,若用户想搜索除某一预定用户(包括自己)以外的其他用户所发出的语音信息的对应信息,将该预定用户所发出的语音信息的语音特征向量作为基准语音特征向量,若所述判断结果为不匹配,则所述接收的语音信息的发出者不是预定用户,即,所述接收的语音信息的发出者为除预定用户以外的其他用户,所述语音特征向量符合用户进行搜索的条件,生成装置103基于识别装置101识别的所述语音信息,通过特征提取技术和模式匹配技术识别出特定的声学模型,通过所述声学模型训练形成一定的语言模型,在声学模型和语言模型组成的空间进行快速寻优,将所述语音信息转变成文本信息,然后对所述文本信息进行语义分析,例如采用全切分的分词技术对所述文本信息进行分词,得到对应的关键词,然后按照预设的特征模型进行特征值计算,匹配最优主题域,并将所述关键词填充至主题域;其中,所述主题域包括但不限于:信息领域(domain);信息意图(intent);信息意图对象(object)。其中,主题域(可看成特征结构)可以通过以下方式获得:一是人为标注设置特征参数;二是抓取大量的基础数据,进行机器学习,生成特征参数;第二种方法有时也结合人工监管纠正的方式,以达到更好地效果。其中,同一类型的数据或资源,以及围绕数据或资源提供的服务称为一个信息领域(domain)。信息领域数据一般是结构化的表格数据,有一个主键(主属性),信息领域一般以名词命名;信息意图(intent)代表用户对信息领域数据的操作,如查询、查询某一个属性的值、预订、拨打等,一般以动词命名;信息意图对象(object)描述意图的数据,也是实现意图所需要的参数,具体表现为通过分词技术得出的关于所述文本信息的主关键词。上述信息领域、信息意图和信息意图对象也可看作该主题域的主题域结构。
例如,使用搜索装置1的用户D将所发出的语音信息的语音特征向量作为基准语音特征向量,用户D和朋友E一起讨论回老家的事宜,D说:我已经定好回青岛的火车票,朋友E说:我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票。识别装置101分别识别接收的上述语音信息,获得所述语音信息分别对应的语音特征向量,判断装置102分别对识别装置101识别的语音信息进行判断,判断用户D发出的语音信息的语音特征向量与所述基准语音特征向量匹配,则不作进一步处理,判断装置102判断出用户E发出的语音信息“我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票”的语音特征向量与基准语音特征向量不匹配时,即所述语音信息的发出者不是用户时,生成装置103将所述语音信息转变成文字信息,并对所述文字信息通过语义分析进行分词,对分词后的文本按照预设的特征模型进行特征值计算,匹配最优主题域,并将文本内容填充至主题域,得到简单的主题域结构:
领域:火车;
意图:预定;
意图对象:
{
始发站:北京;
到达站:青岛;
}
本领域技术人员应能理解,上述主题域仅为举例,现有的或者今后可能出现的主题域如可适用于本发明都应包含在本发明的保护范围内,并在此以引用的方式包含于此。
映射装置104将所述主题域映射扩展为对应的搜索结构。
具体地,映射装置104将被填充后的主题域中对应的关键词根据预设的规则进行映射,例如,通过某一模板进行映射,并进行相应扩展,例如,根据所述模板的信息扩展生成一部分关键词,补充主题域中的关键词信息,得到对应的完整的搜索结构。
呈现装置105根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。具体地,呈现装置105根据映射装置104所确定的搜索结果进行主动匹配搜索,获得大量相关搜索结果,呈现装置105对所述搜索结果进行判断,若所述搜索结果为主题化信息时,直接呈现给用户;若所述搜索结果为非主题化信息时,呈现装置105进行主题化的信息提取,通过智能机的屏幕或具有接收语音消息的穿戴式耳机,向用户呈现经过提炼聚集之后的主要信息,帮助用户快速获取所述语音信息涉及的具体内容,及时准确的获取未知信息。
在此,呈现装置105获取对应的主题信息的方法例如,1)对于单个文档,采用自动文摘技术,例如,基于理解的自动文摘技术或者基于结构的自动文摘技术对获得到的所述搜索结果进行概括、提取,获得简洁、连贯的主题信息;2)对于多个文档,可以将多个文档通过聚类方法,将内容相似的搜索结果进行分组、分类,然后再采用文摘技术提取主题信息,其中,所述聚类方法需要计算每个搜索结果所对应的文档的特征值,然后根据特征值聚合到某个类别下。其中,计算每个文档的特征值所需的特征参数和种子文档特征值是预先通过训练模型训练好的。
在此,搜索装置1为用户提供基准语音特征向量预设功能,用户通过该功能预先设置基准语音特征向量,然后判断接收的语音信息的语音特征向量与基准语音特征向量是否匹配,将判断结果作为是否启动搜索功能的条件,并将搜索获得的信息进行主题化组织,获得主题化信息并呈现给用户,实现了在沟通中或者复杂的语音环境下持续主动接收语音信息,并自主判断所述语音信息,理解并搜索获取与所述语音信息相关的信息,实时向用户反馈相关信息或摘要,使用户能够及时、快速获取未知信息,解决交流中信息不对称的问题。例如,1)在接受咨询服务时,将基准语音特征向量设定为用户自身语音信息的基准语音特征向量,搜索装置1可以持续主动接收语音信息,若所述接收的语音信息的发出者为该用户,则不作进一步处理,若发出者为其他人,则生成所述语音信息对应的主题域,并根据所述主题域进行搜索,为用户获取与接收的所述语音信息对应的背景主题信息、具体知识要点或者技术框架等信息,及时为用户提供准确、全面专业的解答;2)假设用户正在接受医疗服务,搜索装置1将向该用户实时提供医生所述内容的相关解释和原理,让该用户有基础能够持续发问,获得想要的信息,一定程度上缓解医患之间的信息不对称;3)在洽谈业务时,对于客户所提的问题或概念,用户通过搜索装置1可以更专业和全面的回答问题,有利于下一步合作的展开;4)日常生活中,利用搜索装置1实时提供的信息,用户在与其他人交谈是可以涉及多领域多主题,提高双方沟通的有效性和扩展性。进一步地,搜索装置1将把信息普惠性提升到一个新的层级,在使用上将会给那些不懂如何获取信息的人员提供一个全新的获取方式。
优选地,所述生成装置103用于:1)若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;2)对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。具体地,若接收的语音信息的语音特征向量与用户预设的基准语音特征向量不匹配,即所述接收的语音信息的发出者不是预定用户,生成装置103基于对所述语音信息的识别,将所述语音信息进行模数转换,得出所述语音信息的音频区间,提取出该音频区间的音频数据的特征量,基于该特征向量将所述语音信息识别为对应的自然语言文本;然后生成装置103对所述自然语言文本进行自然语义解析,获得对应的解析结果,根据所述解析结果生成与所述语音信息对应的主题域。
在此,生成装置103通过采用自然语义分析技术,更加准确的获得语音信息中的关键词,并且根据所述语音信息的语义对所述关键词进行扩展或者删减,提高搜索结果的准确性和命中率,提升用户的使用体验。
优选地,所述主题域包括信息领域、信息意图和信息意图对象,其中,所述映射装置104根据所述主题域的信息领域、信息意图确定对应的主题模板;根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;将填充后的所述主题模板映射扩展为对应的搜索结构。
具体地,当主题域的主题域结构包括:信息领域、信息意图和信息意图对象时,上述将语音信息转化成的文本内容填充至主题域之后,主题域的信息领域、信息意图和信息意图对象都各自有对应的关键词。映射装置104根据主题域中的信息领域、信息意图,通过模式匹配在主题模板库中获取对应的主题模板,并且信息意图对象(主关键词)结合主题模板中预设的规则生成外延扩展关键词列表,将主题域的内容和所述外延扩展关键词列表分别填充至主题模板对应位置,其中,所述外延扩展关键词可以是加关键词,也可以是减关键词,将所述外延扩展关键词填充至主题模板的对应位置中,以使主题模板各项内容更加完整,提高搜索的命中率。其中,所述信息意图对象(主关键词)和外延扩展关键词共同组成主题模板以及对应的搜索结构的各项搜索关键词。其中,所述主题模板中预设有搜索模式,所述搜索模式例如为搜索指令,每一个搜索指令预设的特定搜索结构(其中,特定搜索结构为主题模板的搜索结构,与搜索引擎对应的搜索结构不同)等,所述主题模板的内容映射扩展到预设的搜索引擎对应的搜索结构的某些属性中。其中,所述主题模板库为预先设置用于存储主题模板的数据库,例如可以通过采集大量的语音信息样本,进行分析处理,得出大量主题模板,存入所述主题模板库中。
在此,所述扩展关键词使搜索关键词更加丰富,更容易得到用户想要的结果,并且同时能减少搜索关键词中的噪音信息,减少不必要的搜索,使得关键词更加精确。根据主题域获取对应的主题模板,将主题域内容和对应于该主题模板生成的外延扩展关键词填充至主题模板中,将主题模板直接映射成搜索引擎对应的搜索结构,提高了搜索关键词的准确度,减小了搜索引擎的压力,提高了搜索的命中率,为用户呈现更加精确的匹配结果,增加了用户实时快速获取信息的能力。
例如,接前述例子,识别装置101识别的语音信息为:“我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票”,映射装置104根据生成装置103生成的主题域中的信息领域(火车)、信息意图(预定),通过模式匹配在主题模板库中获取对应的主题模板,将主题域的内容对应填充至主题模板中,并且信息意图对象(主关键词:北京、青岛)结合主题模板中预设的规则例如主题模板中预设各种票的日期限制是一周以内,并且根据信息领域为火车这一信息,主题模板内置排除飞机、大巴、船等交通方式,因此生成外延扩展关键词列表:日期:一周以内;交通方式:-飞机、-大巴、-船,其中,“一周以内”为增加的关键词,“飞机、大巴、船”为缩减的关键词,将主题域内容和外延扩展关键词对应填充至获取主题模板:
主题模板名:列车&查询
搜索指令:
出发地:{北京};
目的地:{青岛};
日期:{可选,若未设置,可选最近一周}
优先类别:{可选}
排除的交通方式:{飞机、大巴、船}
若搜索装置1采用百度搜索引擎进行搜索,则将上述主题模板的内容映射至与百度搜索引擎对应的搜索结构中,例如,将上述主题模板的内容映射至与图2示出的搜索结构中,进行主动匹配搜索,获取对应的主体信息呈现给用户。图2示出根据本发明一个实施例的使用百度搜索引擎时的搜索结构的框架。
优选地,所述映射装置104根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。具体地,映射装置104根据所述主题域的所述信息领域、所述信息意图、所述信息意图对象或三者中的任意组合构建搜索指令,然后基于所述主动匹配搜索所对应的搜索引擎属性的不同,生成对应的搜索结构。例如,当用户使用百度搜索引擎进行搜索时,根据对接收的用户语音信息的识别,生成的对应于主题域的搜索结构框架如图2所示,根据接收的语音信息,图2的输入条中会自动嵌入与所述语音信息对应的搜索结构中的关键词,进行搜索操作。
优选地,所述呈现装置105根据所述主题域所对应的搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。具体地,呈现装置104根据所述主题域所对应的搜索结构,结合认知计算,匹配满足所述搜索结构的信息,获取所述信息的主题信息后呈现给用户,例如,学习并分析组合所述搜索结构中的关键词信息,根据所述关键词信息感知用户的需求,以为用户获得相关度高的信息,并将所述搜索结果进行主题化组织,获取对应的主题信息,并呈现给所述用户,提高搜索装置1进行自动匹配搜索的智能性。其中,所述认知计算通过将简单的单元计算通过层级累加,将无结构的信息进行计算,实现对人脑思考方式和认知的模拟。
优选地,所述呈现装置105包括:获取单元1051(未示出)、整合单元1052(未示出)和呈现单元1053(未示出).
获取单元1051根据所述主题域所对应的搜索结构进行主动匹配搜索,获取对应的候选信息。具体地,获取单元1051根据所述搜索结构进行自动匹配搜索,得到大量相关的搜索结果,呈现装置105的显示界面有限,而且用户获取信息的时间也是有限的,因此需要将所述大量相关的搜索结果作为候选信息,对所述候选信息进行提炼处理之后呈现给用户。
整合单元1052基于对所述候选信息的信息提取整合,生成所述主题信息。具体地,预先设置一资源和规则库,整合单元1052根据所述搜索结构确定主题,然后通过所述资源和规则库中存储的资源和规则,从所述搜索结果的信息中提取出涉及所述主题的描述向量,基于所述描述向量,生成涉及该主题的全局性信息作为主题信息,以便于用户通过所述全局性信息快速获取相关知识。例如,用户查询“荨麻疹”的情况,搜索装置1进行搜索之后会有大量的搜索结果,受呈现装置105的限制,不能一次性将所有结果呈现给用户,而且为了用户能够快速的获取主要知识,整合单元1052将荨麻疹总结为以下主题信息:风团;风疹团;皮肤病;局部或全身性皮肤上突然成片出现红色肿块;发病快,消失快;剧痒;过敏。用户再看到上述全局性信息之后便可以大体了解荨麻疹这一疾病。
呈现单元1053将所述主题信息呈现给所述用户。具体地,将主题信息呈现给所述用户的呈现方式包括但不限于:通过音频设备呈现;通过视频设备呈现;通过穿戴式设备呈现。所述音频设备例如为智能耳麦,智能耳机等;所述视频设备例如为虚拟现实(VR)眼镜,能够在普通眼镜功能和放映功能中自由切换的智能眼镜等;穿戴式设备包括智能手表、智能头盔、智能服饰等。
图3示出根据本发明另一个方面的一种基于语音识别的主动型搜索方法的流程示意图。
其中,在步骤S301中,搜索装置1识别接收的语音信息,获得所述语音信息的语音特征向量。具体地,用户设备通过其上的特定模块,例如语音收集模块,持续收集语音信息,然后通过网络发送给搜索装置1,或者搜索装置1定期地通过约定的通信方式,如http、https等通信协议,直接从用户设备获取用户设备收集的所述语音信息,搜索装置1获取所述语音信息后,首先通过滤波装置过滤掉所述语音信息中的噪音信息,在步骤S301中,搜索装置1对接收的过滤后的所述语音信息进行预处理,例如通过采样、量化、预加重、加窗的预处理过程,然后例如通过使用Mel频率倒谱参数(Mel Frequency Cepstral Coefficient,MFCC)提取法、线性预测编码(linear predictive coding,LPC)提取法、高频域强调提取法(high frequency domain emphasis extraction method)或窗口函数提取法来提取语音特征向量。其中,所述语音特征向量是一种用于识别说话人(声纹识别)的语音特征参数,通过判断两个语音特征向量是否匹配,便可大体确定所述两个语音特征向量对应的语音信息是否出自同一用户。其中,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。
例如,在社交场合,如果用户A聊起了音乐,用户B对该话题不了解,则B可以通过搜索装置1快速获取与A所发出的语音信息相对应的音乐相关信息,具体地,在交流前,B通过点击用户设备上与所述搜索装置1对应的应用界面上相应的功能区域,或者其他方式激活搜索功能,在A发出语音信息时,用户设备通过其上的语音接收模块收集语音信息,然后通过网络将其发送至搜索装置1,搜索装置1获取所述语音信息后,在步骤S301中,搜索装置1对接收的所述语音信息进行预处理,例如,对每一帧进行快速傅里叶变换(Fast FourierTransformation,FFT),求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算(Logarithm),再进一步做离散余弦变换(Discrete Cosine Transform,DCT)可得语音特征参数MMFC,进而得出对应的语音特征向量。
本领域技术人员应能理解,上述获得所述语音特征向量的方法仅为举例,现有的或者今后可能出现的获得语音特征向量的方法如可适用于本发明,都应包含在本发明的保护范围内,并在此以引用的方式包含于此。
在步骤S302中,搜索装置1判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果。具体地,用户预先在搜索装置1中设置基准语音特征向量,例如通过预先接收预定用户的语音信息,并通过搜索装置1在步骤S301中识别所述语音信息,获得所述语音信息的语音特征向量,然后将该语音特征向量存储为基准语音特征向量,用于判断搜索装置1识别的语音信息的语音特征向量是否与所述基准语音特征向量匹配,即搜索装置1识别的语音信息的发出者是否为预定用户,获得对应的判断结果,进而将所述判断结果作为是否启动搜索的条件。其中,所述预定用户可以根据具体的使用情况确定。
例如,用户C对所述搜索装置1发出语音信息,在步骤S301中,搜索装置1识别该语音信息,并获得该语音信息的语音特征向量,将该语音特征向量作为基准语音特征向量,通过该基准语音特征向量,可以判断搜索装置1后续接收的语音信息是否出自用户C,然后根据判断结果,做出相应的响应。例如,1)专家咨询场合,专家讲述了众多的理念和意见,搜索装置1接收该场合中的语音信息,并识别接收的所述语音信息,获得所述语音信息的语音特征向量x,在步骤S302中,搜索装置1将该语音特征向量x与所述基准语音特征向量进行比较,判断两者是否匹配,获得对应的判断结果,如果判断结果为匹配,则所述语音信息为用户C自己发出的语音信息,则不作进一步处理;如果判断结果为不匹配,则所述语音信息为非用户C发出的语音信息,则搜索装置1进行后续搜索操作,并获得对应的搜索结果提供给用户C,用户C便可以根据所述搜索结果理解专家讲述的理念和意见,并与该专家进行有效的沟通和咨询,提高用户C与专家沟通的效率和质量;2)用户C在相对嘈杂的环境中使用所述搜索装置1,进行基于用户C发出的语音信息的语音搜索时,搜索装置1接收该场合中的语音信息,并识别接收的所述语音信息,获得所述语音信息的语音特征向量y,在步骤S302中,搜索装置1将该语音特征向量y与所述基准语音特征向量进行比较,判断两者是否匹配,获得对应的判断结果,若判断结果为匹配,则所述语音信息为用户C自己发出的语音信息,搜索装置1进行后续搜索操作,并获得对应的搜索结果提供给用户C;若判断结果为不匹配,则不作进一步处理。
若所述判断结果为不匹配,在步骤S303中,搜索装置1基于对所述语音信息的识别,生成与所述语音信息对应的主题域。具体地,若用户想搜索除某一预定用户(包括自己)以外的其他用户所发出的语音信息的对应信息,将该预定用户所发出的语音信息的语音特征向量作为基准语音特征向量,若所述判断结果为不匹配,则所述接收的语音信息的发出者不是预定用户,即,所述接收的语音信息的发出者为除预定用户以外的其他用户,所述语音特征向量符合用户进行搜索的条件,在步骤S301中,搜索装置1基于识别的所述语音信息,通过特征提取技术和模式匹配技术识别出特定的声学模型,通过所述声学模型训练形成一定的语言模型,在声学模型和语言模型组成的空间进行快速寻优,将所述语音信息转变成文本信息,然后对所述文本信息进行语义分析,例如采用全切分的分词技术对所述文本信息进行分词,得到对应的关键词,然后按照预设的特征模型进行特征值计算,匹配最优主题域,并将所述关键词填充至主题域;其中,所述主题域包括但不限于:信息领域(domain);信息意图(intent);信息意图对象(object)。其中,主题域(可看成特征结构)可以通过以下方式获得:一是人为标注设置特征参数;二是抓取大量的基础数据,进行机器学习,生成特征参数;第二种方法有时也结合人工监管纠正的方式,以达到更好地效果。其中,同一类型的数据或资源,以及围绕数据或资源提供的服务称为一个信息领域(domain)。信息领域数据一般是结构化的表格数据,有一个主键(主属性),信息领域一般以名词命名;信息意图(intent)代表用户对信息领域数据的操作,如查询、查询某一个属性的值、预订、拨打等,一般以动词命名;信息意图对象(object)描述意图的数据,也是实现意图所需要的参数,具体表现为通过分词技术得出的关于所述文本信息的主关键词。上述信息领域、信息意图和信息意图对象也可看作该主题域的主题域结构。
例如,使用搜索装置1的用户D将所发出的语音信息的语音特征向量作为基准语音特征向量,用户D和朋友E一起讨论回老家的事宜,D说:我已经定好回青岛的火车票,朋友E说:我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票。在步骤S301中,搜索装置1分别识别接收的上述语音信息,获得所述语音信息分别对应的语音特征向量,在步骤S302中,搜索装置1分别对识别的语音信息进行判断,判断用户D发出的语音信息的语音特征向量与所述基准语音特征向量匹配,则不作进一步处理,在步骤S302中,搜索装置1判断出用户E发出的语音信息“我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票”的语音特征向量与基准语音特征向量不匹配时,即所述语音信息的发出者不是用户时,在步骤S303中,搜索装置1将所述语音信息转变成文字信息,并对所述文字信息通过语义分析进行分词,对分词后的文本按照预设的特征模型进行特征值计算,匹配最优主题域,并将文本内容填充至主题域,得到简单的主题域结构:
领域:火车;
意图:预定;
意图对象:
{
始发站:北京;
到达站:青岛;
}
本领域技术人员应能理解,上述主题域仅为举例,现有的或者今后可能出现的主题域如可适用于本发明都应包含在本发明的保护范围内,并在此以引用的方式包含于此。
在步骤S304中,搜索装置1将所述主题域映射扩展为对应的搜索结构。
具体地,在步骤S304中,搜索装置1将被填充后的主题域中对应的关键词根据预设的规则进行映射,例如,通过某一模板进行映射,并进行相应扩展,例如,根据所述模板的信息扩展生成一部分关键词,补充主题域中的关键词信息,得到对应的完整的搜索结构。
在步骤S305中,搜索装置1根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。具体地,在步骤S305中,搜索装置1根据其在步骤S304中所确定的搜索结果进行主动匹配搜索,获得大量相关搜索结果,在步骤S305中,搜索装置1对所述搜索结果进行判断,若所述搜索结果为主题化信息时,直接呈现给用户;若所述搜索结果为非主题化信息时,在步骤S305中,搜索装置1进行主题化的信息提取,通过智能机的屏幕或具有接收语音消息的穿戴式耳机,向用户呈现经过提炼聚集之后的主要信息,帮助用户快速获取所述语音信息涉及的具体内容,及时准确的获取未知信息。
在此,在步骤S305中,搜索装置1获取对应的主题信息的方法例如,1)对于单个文档,采用自动文摘技术,例如,基于理解的自动文摘技术或者基于结构的自动文摘技术对获得到的所述搜索结果进行概括、提取,获得简洁、连贯的主题信息;2)对于多个文档,可以将多个文档通过聚类方法,将内容相似的搜索结果进行分组、分类,然后再采用文摘技术提取主题信息,其中,所述聚类方法需要计算每个搜索结果所对应的文档的特征值,然后根据特征值聚合到某个类别下。其中,计算每个文档的特征值所需的特征参数和种子文档特征值是预先通过训练模型训练好的。
在此,搜索装置1为用户提供基准语音特征向量预设功能,用户通过该功能预先设置基准语音特征向量,然后判断接收的语音信息的语音特征向量与基准语音特征向量是否匹配,将判断结果作为是否启动搜索功能的条件,并将搜索获得的信息进行主题化组织,获得主题化信息并呈现给用户,实现了在沟通中或者复杂的语音环境下持续主动接收语音信息,并自主判断所述语音信息,理解并搜索获取与所述语音信息相关的信息,实时向用户反馈相关信息或摘要,使用户能够及时、快速获取未知信息,解决交流中信息不对称的问题。例如,1)在接受咨询服务时,将基准语音特征向量设定为用户自身语音信息的基准语音特征向量,搜索装置1可以持续主动接收语音信息,若所述接收的语音信息的发出者为该用户,则不作进一步处理,若发出者为其他人,则生成所述语音信息对应的主题域,并根据所述主题域进行搜索,为用户获取与接收的所述语音信息对应的背景主题信息、具体知识要点或者技术框架等信息,及时为用户提供准确、全面专业的解答;2)假设用户正在接受医疗服务,搜索装置1将向该用户实时提供医生所述内容的相关解释和原理,让该用户有基础能够持续发问,获得想要的信息,一定程度上缓解医患之间的信息不对称;3)在洽谈业务时,对于客户所提的问题或概念,用户通过搜索装置1可以更专业和全面的回答问题,有利于下一步合作的展开;4)日常生活中,利用搜索装置1实时提供的信息,用户在与其他人交谈是可以涉及多领域多主题,提高双方沟通的有效性和扩展性。进一步地,搜索装置1将把信息普惠性提升到一个新的层级,在使用上将会给那些不懂如何获取信息的人员提供一个全新的获取方式。
优选地,在步骤S303中,搜索装置1用于:1)若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;2)对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。具体地,若接收的语音信息的语音特征向量与用户预设的基准语音特征向量不匹配,即所述接收的语音信息的发出者不是预定用户,在步骤S303中,搜索装置1基于对所述语音信息的识别,将所述语音信息进行模数转换,得出所述语音信息的音频区间,提取出该音频区间的音频数据的特征量,基于该特征向量将所述语音信息识别为对应的自然语言文本;然后在步骤S303中,搜索装置1对所述自然语言文本进行自然语义解析,获得对应的解析结果,根据所述解析结果生成与所述语音信息对应的主题域。
在此,在步骤S303中,搜索装置1通过采用自然语义分析技术,更加准确的获得语音信息中的关键词,并且根据所述语音信息的语义对所述关键词进行扩展或者删减,提高搜索结果的准确性和命中率,提升用户的使用体验。
优选地,所述主题域包括信息领域、信息意图和信息意图对象,其中,在步骤S304中,搜索装置1根据所述主题域的信息领域、信息意图确定对应的主题模板;根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;将填充后的所述主题模板映射扩展为对应的搜索结构。
具体地,当主题域的主题域结构包括:信息领域、信息意图和信息意图对象时,上述将语音信息转化成的文本内容填充至主题域之后,主题域的信息领域、信息意图和信息意图对象都各自有对应的关键词,在步骤S304中,搜索装置1根据主题域中的信息领域、信息意图,通过模式匹配在主题模板库中获取对应的主题模板,并且信息意图对象(主关键词)结合主题模板中预设的规则生成外延扩展关键词列表,将主题域的内容和所述外延扩展关键词列表分别填充至主题模板对应位置,其中,所述外延扩展关键词可以是加关键词,也可以是减关键词,将所述外延扩展关键词填充至主题模板的对应位置中,以使主题模板各项内容更加完整,提高搜索的命中率。其中,所述信息意图对象(主关键词)和外延扩展关键词共同组成主题模板以及对应的搜索结构的各项搜索关键词。其中,所述主题模板中预设有搜索模式,所述搜索模式例如为搜索指令,每一个搜索指令预设的特定搜索结构(其中,特定搜索结构为主题模板的搜索结构,与搜索引擎对应的搜索结构不同)等,所述主题模板的内容映射扩展到预设的搜索引擎对应的搜索结构的某些属性中。其中,所述主题模板库为预先设置用于存储主题模板的数据库,例如可以通过采集大量的语音信息样本,进行分析处理,得出大量主题模板,存入所述主题模板库中。
在此,所述扩展关键词使搜索关键词更加丰富,更容易得到用户想要的结果,并且同时能减少搜索关键词中的噪音信息,减少不必要的搜索,使得关键词更加精确。根据主题域获取对应的主题模板,将主题域内容和对应于该主题模板生成的外延扩展关键词填充至主题模板中,将主题模板直接映射成搜索引擎对应的搜索结构,提高了搜索关键词的准确度,减小了搜索引擎的压力,提高了搜索的命中率,为用户呈现更加精确的匹配结果,增加了用户实时快速获取信息的能力。
例如,接前述例子,在步骤S301中,搜索装置1识别的语音信息为:“我最近也要回青岛,不知道现在还能不能订到北京到青岛的火车票”,在步骤S304中,搜索装置1根据生成的主题域中的信息领域(火车)、信息意图(预定),通过模式匹配在主题模板库中获取对应的主题模板,将主题域的内容对应填充至主题模板中,并且信息意图对象(主关键词:北京、青岛)结合主题模板中预设的规则例如主题模板中预设各种票的日期限制是一周以内,并且根据信息领域为火车这一信息,主题模板内置排除飞机、大巴、船等交通方式,因此生成外延扩展关键词列表:日期:一周以内;交通方式:-飞机、-大巴、-船,其中,“一周以内”为增加的关键词,“飞机、大巴、船”为缩减的关键词,将主题域内容和外延扩展关键词对应填充至获取主题模板:
主题模板名:列车&查询
搜索指令:
出发地:{北京};
目的地:{青岛};
日期:{可选,若未设置,可选最近一周}
优先类别:{可选}
排除的交通方式:{飞机、大巴、船}
若搜索装置1采用百度搜索引擎进行搜索,则将上述主题模板的内容映射至与百度搜索引擎对应的搜索结构中,例如,将上述主题模板的内容映射至与图2示出的搜索结构中,进行主动匹配搜索,获取对应的主体信息呈现给用户。图2示出根据本发明一个实施例的使用百度搜索引擎时的搜索结构的框架。
优选地,在步骤S304中,搜索装置1根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。具体地,在步骤S304中,搜索装置1根据所述主题域的所述信息领域、所述信息意图、所述信息意图对象或三者中的任意组合构建搜索指令,然后基于所述主动匹配搜索所对应的搜索引擎属性的不同,生成对应的搜索结构。例如,当用户使用百度搜索引擎进行搜索时,根据对接收的用户语音信息的识别,生成的对应于主题域的搜索结构框架如图2所示,根据接收的语音信息,图2的输入条中会自动嵌入与所述语音信息对应的搜索结构中的关键词,进行搜索操作。
优选地,在步骤S305中,搜索装置1根据所述主题域所对应的搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。具体地,在步骤S304中,搜索装置1根据所述主题域所对应的搜索结构,结合认知计算,匹配满足所述搜索结构的信息,获取所述信息的主题信息后呈现给用户,例如,学习并分析组合所述搜索结构中的关键词信息,根据所述关键词信息感知用户的需求,以为用户获得相关度高的信息,并将所述搜索结果进行主题化组织,获取对应的主题信息,并呈现给所述用户,提高搜索装置1进行自动匹配搜索的智能性。其中,所述认知计算通过将简单的单元计算通过层级累加,将无结构的信息进行计算,实现对人脑思考方式和认知的模拟。
优选地,步骤S305包括:子步骤3051(未示出)、子步骤3052(未示出)和子步骤3053(未示出).
在子步骤S3051中,搜索装置1根据所述主题域所对应的搜索结构进行主动匹配搜索,获取对应的候选信息。具体地,在子步骤S3051中,搜索装置1根据所述搜索结构进行自动匹配搜索,得到大量相关的搜索结果,在步骤S305中,搜索装置1的显示界面有限,而且用户获取信息的时间也是有限的,因此需要将所述大量相关的搜索结果作为候选信息,对所述候选信息进行提炼处理之后呈现给用户。
在子步骤S3052中,搜索装置1基于对所述候选信息的信息提取整合,生成所述主题信息。具体地,预先设置一资源和规则库,在子步骤S3052中,搜索装置1根据所述搜索结构确定主题,然后通过所述资源和规则库中存储的资源和规则,从所述搜索结果的信息中提取出涉及所述主题的描述向量,基于所述描述向量,生成涉及该主题的全局性信息作为主题信息,以便于用户通过所述全局性信息快速获取相关知识。例如,用户查询“荨麻疹”的情况,搜索装置1进行搜索之后会有大量的搜索结果,受搜索装置1的限制,不能一次性将所有结果呈现给用户,而且为了用户能够快速的获取主要知识,在子步骤S3052中,搜索装置1将荨麻疹总结为以下主题信息:风团;风疹团;皮肤病;局部或全身性皮肤上突然成片出现红色肿块;发病快,消失快;剧痒;过敏。用户再看到上述全局性信息之后便可以大体了解荨麻疹这一疾病。
在子步骤S3053中,搜索装置1将所述主题信息呈现给所述用户。具体地,将主题信息呈现给所述用户的呈现方式包括但不限于:通过音频设备呈现;通过视频设备呈现;通过穿戴式设备呈现。所述音频设备例如为智能耳麦,智能耳机等;所述视频设备例如为虚拟现实(VR)眼镜,能够在普通眼镜功能和放映功能中自由切换的智能眼镜等;穿戴式设备包括智能手表、智能头盔、智能服饰等。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (15)

1.一种基于语音识别的主动型搜索方法,其中,该方法包括以下步骤:
a.识别接收的语音信息,获得所述语音信息的语音特征向量;
b.判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果;
c.若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域;
d.将所述主题域映射扩展为对应的搜索结构;
e.根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
2.根据权利要求1所述的方法,其中,所述步骤c包括:
若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;
对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。
3.根据权利要求1或2所述的方法,其中,所述主题域包括以下至少任一项:
信息领域;
信息意图;
信息意图对象。
4.根据权利要求3所述的方法,其中,所述主题域包括信息领域、信息意图和信息意图对象,其中,所述步骤d包括:
根据所述主题域的信息领域、信息意图确定对应的主题模板;
根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;
将填充后的所述主题模板映射扩展为对应的搜索结构。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤d包括:
根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤e包括:
根据所述搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤e包括:
根据所述搜索结构进行主动匹配搜索,获取对应的候选信息;
基于对所述候选信息的信息提取整合,生成所述主题信息;
将所述主题信息呈现给所述用户。
8.一种基于语音识别的主动型搜索装置,其中,该搜索装置包括:
识别装置,用于识别接收的语音信息,获得所述语音信息的语音特征向量;
判断装置,用于判断所述语音特征向量与用户预设的基准语音特征向量是否匹配,获得对应的判断结果;
生成装置,用于若所述判断结果为不匹配,基于对所述语音信息的识别,生成与所述语音信息对应的主题域;
映射装置,用于将所述主题域映射扩展为对应的搜索结构;
呈现装置,用于根据所述搜索结构进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
9.根据权利要求8所述的搜索装置,其中,所述生成装置用于:
若所述判断结果为不匹配,基于对所述语音信息的识别,将所述语音信息翻译成自然语言文本;
对所述自然语言文本进行自然语义解析,生成与所述语音信息对应的主题域。
10.根据权利要求8或9所述的搜索装置,其中,所述主题域包括以下至少任一项:
信息领域;
信息意图;
信息意图对象。
11.根据权利要求10所述的搜索装置,其中,所述主题域包括信息领域、信息意图和信息意图对象,其中,所述映射装置用于:
根据所述主题域的信息领域、信息意图确定对应的主题模板;
根据所述主题模板,结合所述信息意图对象生成外延扩展关键词列表,将所述主题域和所述外延扩展关键词列表填充至所述主题模板;
将填充后的所述主题模板映射扩展为对应的搜索结构。
12.根据权利要求8至11中任一项所述的搜索装置,其中,所述映射装置用于:
根据所述主动匹配搜索所对应的搜索引擎的属性,将所述主题域映射扩展为所述搜索结构。
13.根据权利要求8至12中任一项所述的搜索装置,其中,所述呈现装置用于:
根据所述搜索结构,并结合认知计算,进行主动匹配搜索,获取对应的主题信息并呈现给所述用户。
14.根据权利要求8至13中任一项所述的搜索装置,其中,所述呈现装置包括:
获取单元,用于根据所述搜索结构进行主动匹配搜索,获取对应的候选信息;
整合单元,用于基于对所述候选信息的信息提取整合,生成所述主题信息;
呈现单元,用于将所述主题信息呈现给所述用户。
15.一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
CN201611091688.4A 2016-12-01 2016-12-01 一种基于语音识别的主动型搜索方法和装置 Active CN108132952B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611091688.4A CN108132952B (zh) 2016-12-01 2016-12-01 一种基于语音识别的主动型搜索方法和装置
PCT/CN2017/076968 WO2018098932A1 (zh) 2016-12-01 2017-03-16 一种基于语音识别的主动型搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611091688.4A CN108132952B (zh) 2016-12-01 2016-12-01 一种基于语音识别的主动型搜索方法和装置

Publications (2)

Publication Number Publication Date
CN108132952A true CN108132952A (zh) 2018-06-08
CN108132952B CN108132952B (zh) 2022-03-15

Family

ID=62241092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611091688.4A Active CN108132952B (zh) 2016-12-01 2016-12-01 一种基于语音识别的主动型搜索方法和装置

Country Status (2)

Country Link
CN (1) CN108132952B (zh)
WO (1) WO2018098932A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065055A (zh) * 2018-09-13 2018-12-21 三星电子(中国)研发中心 基于声音生成ar内容的方法、存储介质和装置
CN109343806A (zh) * 2018-08-09 2019-02-15 维沃移动通信有限公司 一种信息显示方法及终端
CN110853615A (zh) * 2019-11-13 2020-02-28 北京欧珀通信有限公司 一种数据处理方法、装置及存储介质
CN111105796A (zh) * 2019-12-18 2020-05-05 杭州智芯科微电子科技有限公司 无线耳机控制装置及控制方法、语音控制设置方法和***
CN111178081A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111291168A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 图书检索方法、装置及可读存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110146A (zh) * 2019-04-12 2019-08-09 深圳壹账通智能科技有限公司 基于人工智能的视频短片搜索方法、装置、介质和设备
CN110060681A (zh) * 2019-04-26 2019-07-26 广东昇辉电子控股有限公司 具有智能语音识别功能的智能网关的控制方法
CN111343022A (zh) * 2020-02-28 2020-06-26 上海万得维进出口有限公司 通过与用户直接交互的方式实现智能设备进行网络配置处理的方法及其***
CN112562652B (zh) * 2020-12-02 2024-01-19 湖南翰坤实业有限公司 一种基于Untiy引擎的语音处理方法及***
CN112800782B (zh) * 2021-01-29 2023-10-03 中国科学院自动化研究所 融合文本语义特征的语音翻译方法、***、设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及***
CN102497391A (zh) * 2011-11-21 2012-06-13 宇龙计算机通信科技(深圳)有限公司 服务器、移动终端和提示方法
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
US20130159003A1 (en) * 2011-12-20 2013-06-20 Electronics And Telecommunications Research Institute Method and apparatus for providing contents about conversation
CN104836720A (zh) * 2014-02-12 2015-08-12 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
CN105095406A (zh) * 2015-07-09 2015-11-25 百度在线网络技术(北京)有限公司 一种基于用户特征的语音搜索方法及装置
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天***及其实现方法
US9495350B2 (en) * 2012-09-14 2016-11-15 Avaya Inc. System and method for determining expertise through speech analytics
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN105159568A (zh) * 2015-08-31 2015-12-16 百度在线网络技术(北京)有限公司 一种在输入界面中进行音乐搜索的方法和装置
CN105068661B (zh) * 2015-09-07 2018-09-07 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及***
CN102497391A (zh) * 2011-11-21 2012-06-13 宇龙计算机通信科技(深圳)有限公司 服务器、移动终端和提示方法
US20130159003A1 (en) * 2011-12-20 2013-06-20 Electronics And Telecommunications Research Institute Method and apparatus for providing contents about conversation
CN102880645A (zh) * 2012-08-24 2013-01-16 上海云叟网络科技有限公司 语义化的智能搜索方法
CN104836720A (zh) * 2014-02-12 2015-08-12 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
CN105095406A (zh) * 2015-07-09 2015-11-25 百度在线网络技术(北京)有限公司 一种基于用户特征的语音搜索方法及装置
CN105279227A (zh) * 2015-09-11 2016-01-27 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109343806A (zh) * 2018-08-09 2019-02-15 维沃移动通信有限公司 一种信息显示方法及终端
CN109065055A (zh) * 2018-09-13 2018-12-21 三星电子(中国)研发中心 基于声音生成ar内容的方法、存储介质和装置
CN109065055B (zh) * 2018-09-13 2020-12-11 三星电子(中国)研发中心 基于声音生成ar内容的方法、存储介质和装置
CN111178081A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111178081B (zh) * 2018-11-09 2023-07-21 中移(杭州)信息技术有限公司 语义识别的方法、服务器、电子设备及计算机存储介质
CN111291168A (zh) * 2018-12-07 2020-06-16 北大方正集团有限公司 图书检索方法、装置及可读存储介质
CN110853615A (zh) * 2019-11-13 2020-02-28 北京欧珀通信有限公司 一种数据处理方法、装置及存储介质
CN110853615B (zh) * 2019-11-13 2022-05-27 北京欧珀通信有限公司 一种数据处理方法、装置及存储介质
CN111105796A (zh) * 2019-12-18 2020-05-05 杭州智芯科微电子科技有限公司 无线耳机控制装置及控制方法、语音控制设置方法和***

Also Published As

Publication number Publication date
WO2018098932A1 (zh) 2018-06-07
CN108132952B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN108132952A (zh) 一种基于语音识别的主动型搜索方法和装置
CN109145099A (zh) 基于人工智能的问答方法和装置
JP2020521210A (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN102855317B (zh) 一种基于演示视频的多模式索引方法及***
CN110232447B (zh) 法律案件深度推理方法
KR102100214B1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
CN114187988A (zh) 数据处理的方法及装置、***、存储介质
CN110110049A (zh) 服务咨询方法、装置、***、服务机器人及存储介质
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN108509416A (zh) 句意识别方法及装置、设备和存储介质
CN111599359A (zh) 人机交互方法、服务端、客户端及存储介质
JP2017146720A (ja) 特許要件適否予測装置および特許要件適否予測プログラム
CN111063455A (zh) 远程医疗的人机交互方法和装置
CN117828355A (zh) 基于多模态信息的情绪定量模型训练方法及情绪定量方法
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN110245334A (zh) 用于输出信息的方法和装置
Granell et al. A scoping review on the use, processing and fusion of geographic data in virtual assistants
KR20190023722A (ko) 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법
CN116894498A (zh) 网络模型的训练方法、策略识别方法、装置以及设备
CN115623134A (zh) 会议音频处理方法、装置、设备及存储介质
KR102499198B1 (ko) 사용자 맞춤형 챗봇 서비스 시스템 및 그 방법
CN114661942A (zh) 流调数据的处理方法、装置、电子设备及计算机可读介质
CN112367494A (zh) 基于ai的在线会议通讯方法、装置及计算机设备
CN117174092B (zh) 基于声纹识别与多模态分析的移动语料转写方法及装置
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant