CN104239459B - 语音搜索方法、装置和*** - Google Patents

语音搜索方法、装置和*** Download PDF

Info

Publication number
CN104239459B
CN104239459B CN201410443478.1A CN201410443478A CN104239459B CN 104239459 B CN104239459 B CN 104239459B CN 201410443478 A CN201410443478 A CN 201410443478A CN 104239459 B CN104239459 B CN 104239459B
Authority
CN
China
Prior art keywords
search
user
phonetic
voice
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410443478.1A
Other languages
English (en)
Other versions
CN104239459A (zh
Inventor
张宏驰
马旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410443478.1A priority Critical patent/CN104239459B/zh
Publication of CN104239459A publication Critical patent/CN104239459A/zh
Application granted granted Critical
Publication of CN104239459B publication Critical patent/CN104239459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种语音搜索方法、装置和***,其中,所述语音搜索方法,包括以下步骤:接收用户的语音搜索请求;对语音搜索请求进行意图解析,以获取用户的搜索意图;根据用户的搜索意图获取搜索结果;以及根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并将语音对话结果提供给用户。本发明的语音搜索方法,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。

Description

语音搜索方法、装置和***
技术领域
本发明涉及语音搜索技术领域,特别涉及一种语音搜索方法、装置和***。
背景技术
随着语音识别技术的发展,语音搜索已逐步应用于各种终端设备中。目前的语音搜索产品通过对用户输入的搜索语音进行语音识别,以将搜索语音转换成文字,并分析出其中的关键字,然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答***的数据库中查询对应的问答结果,并将搜索结果以语音、网页、文字等形式展现给用户。
但是,用户输入的语音往往都是偏口语化的表达,而如果跟进由此转换成的文本中提取的关键进行检索,结果的命中率会很差。特别是在连续的语音搜索中,口语的表达还依赖于用户之前搜索的上下文,缺乏这些上下文的文本检索也会造成结果的不准确。而基于问答***的虽然能够结合上下文给出回答,但是给出的回答结果是从数据库中查询的到的固定的单一的文本回答,没有和真正相应的检索资源相匹配,难以满足用户的需求。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种语音搜索方法,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加智能、精准地满足了用户需求。
本发明的第二个目的在于提出一种语音搜索装置。
本发明的第三个目的在于提出一种语音搜索***。
为达上述目的,根据本发明第一方面实施例提出了一种语音搜索方法,包括以下步骤:接收用户的语音搜索请求;对所述语音搜索请求进行意图解析,以获取所述用户的搜索意图;根据所述用户的搜索意图获取搜索结果;以及根据所述搜索结果和所述用户的搜索意图生成所述语音搜索请求的语音对话结果,并将所述语音对话结果提供给所述用户。
本发明实施例的语音搜索方法,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
本发明第二方面实施例提供了一种语音搜索装置,包括:接收模块,用于接收用户的语音搜索请求;意图解析模块,用于对所述语音搜索请求进行意图解析,以获取所述用户的搜索意图;获取模块,用于根据所述用户的搜索意图获取搜索结果;生成模块,用于根据所述搜索结果和所述用户的搜索意图生成所述语音搜索请求的语音对话结果;以及第一提供模块,用于将所述语音对话结果提供给所述用户。
本发明实施例的语音搜索装置,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
本发明第三方面实施例提供了一种语音搜索***,包括客户端和本发明第二方面实施例额语音搜索装置。
本发明实施例的语音搜索***,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的语音搜索方法的流程图;
图2为根据本发明一个实施例的S102的具体实现方法的流程图;
图3为根据本发明另一个实施例的语音搜索方法的流程图;
图4为根据本发明一个实施例的语音搜索装置的结构示意图;
图5为根据本发明一个具体实施例的语音搜索装置的结构示意图;
图6为根据本发明另一个实施例的语音搜索装置的结构示意图;
图7为根据本发明又一个实施例的语音搜索装置的结构示意图;
图8为根据本发明一个实施例的语音搜索***的结构示意图;
图9为根据本发明一个具体实施例的语音搜索***的工作原理示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的语音搜索方法、装置和***。
为了,本发明提出了一种,语音搜索方法,包括以下步骤:接收用户的语音搜索请求;对语音搜索请求进行意图解析,以获取用户的搜索意图;根据用户的搜索意图获取搜索结果;以及根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并将语音对话结果提供给用户。
图1为根据本发明一个实施例的语音搜索方法的流程图。如图1所示,根据本发明实施例的语音搜索方法,包括:
S101,接收用户的语音搜索请求。
在本发明的一个实施例中,语音搜索请求为用户进行搜索时输入的语音。举例来说,如果用户希望搜索明天的天气,可输入语音“明天天气怎么样”。
S102,对语音搜索请求进行意图解析,以获取用户的搜索意图。
在本发明的一个实施例中,如图2所示,对语音搜索请求进行意图解析可具体包括:
S201,对语音搜索请求进行语音识别,以获取语音搜索请求中的搜索关键字。
在本发明的实施例中,对语音搜索请求进行语音识别后可得到用户输入的语音对应的文字内容,并可对得到的文字内容进行语义分析,以获取其中的搜索关键字。举例来说,对于语音搜索请求“明天天气怎么样”,可通过语音识别,分析出搜索关键字为“明天”和“天气”。
S202,根据所述搜索关键字获取所述语音搜索请求的上下文信息。
其中,语音搜索请求的上下文信息为用户历史输入的与该语音搜索请求相关联的内容,可为语音或者文字内容。具体地,可通过对话问答***(DA&QA)记录用户历史输入的内容,另外,对话问答***中还包括了一些常用的问题-回答结果。因此,可根据语音搜索请求的搜索关键字在对话问答***中查询到语音搜索请求相关联的内容,从而得到语音搜索请求的上下文信息。
S203,根据所述语音搜索请求的上下文信息解析所述用户的搜索意图。
在本发明的实施例中,由于用户在输入语音搜索请求时,可能根据已输入的内容进行省略或简要输入。因此,可根据用户输入的语音搜索请求对应的上下文信息将语音搜索请求的内容补充完整,并进一步进行语音分析以得到用户的搜索意图。
举例来说,例如,当用户输入语音搜索请求“适合洗车么”时,查询到用户之前已对“明天天气怎么样”进行了搜索,则可根据“明天天气怎么样”将语音搜索请求“适合洗车么”补充完整为“明天天气适合洗车么”,即可得到用户的搜索意图为“明天的天气是否适合洗车”。
S103,根据用户的搜索意图获取搜索结果。
在本发明的实施例中,在解析出用户的搜索意图后,即可根据用户的搜索意图获取对应的搜索结果。举例来说,对于用户的搜索意图“明天的天气是否适合洗车”,获取明天的天气,并获取洗车需要的天气条件,并在明天天气适合洗车时,还可进一步获取洗车相关的信息,如洗车注意事项、技巧等。
S104,根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并将语音对话结果提供给用户。
具体地,在本发明的一个实施例中,可根据结果生成与用户搜索意图相对应的对话结果,例如,对于用户的搜索意图“明天的天气十分适合洗车”,根据搜索结果“明天晴天,微风”以及适合洗车的天气,可组合生成一个与用户搜索意图对应的对话回答“明天晴天微风,适合洗车”。由此,可智能地针对用户输入的语音搜索请求给出对应的语音回答。
本发明实施例的语音搜索方法,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
在本发明的一个实施例中,在根据用户的搜索意图获取搜索结果之后可还包括:对搜索结果进行渲染,并提供搜索结果展示页面,以展示渲染后的搜索结果,可通过文字、图片等视觉展示形式展示给用户,从而,能够为用户提供更丰富、多样化的搜索结果,便于用户获取所需要的信息,进一步提升了用户的搜索体验。
图3为根据本发明另一个实施例的语音搜索方法的流程图。
如图3所示,该语音搜索方法,包括:
S301,接收用户的语音搜索请求。
在本发明的一个实施例中,语音搜索请求为用户进行搜索时输入的语音。举例来说,如果用户希望搜索明天的天气,可输入语音“明天天气怎么样”。
S302,对语音搜索请求进行意图解析,以获取用户的搜索意图。
在本发明的一个实施例中,对语音搜索请求进行意图解析可具体包括如图2所示的步骤:
S201,对语音搜索请求进行语音识别,以获取语音搜索请求中的搜索关键字。
在本发明的实施例中,对语音搜索请求进行语音识别后可得到用户输入的语音对应的文字内容,并可对得到的文字内容进行语义分析,以获取其中的搜索关键字。举例来说,对于语音搜索请求“明天天气怎么样”,可通过语音识别,分析出搜索关键字为“明天”和“天气”。
S202,根据所述搜索关键字获取所述语音搜索请求的上下文信息。
其中,语音搜索请求的上下文信息为用户历史输入的与该语音搜索请求相关联的内容,可为语音或者文字内容。具体地,可通过对话问答***(DA&QA)记录用户历史输入的内容,另外,对话问答***中还包括了一些常用的问题-回答结果。因此,可根据语音搜索请求的搜索关键字在对话问答***中查询到语音搜索请求相关联的内容,从而得到语音搜索请求的上下文信息。
S203,根据所述语音搜索请求的上下文信息解析所述用户的搜索意图。
在本发明的实施例中,由于用户在输入语音搜索请求时,可能根据已输入的内容进行省略或简要输入。因此,可根据用户输入的语音搜索请求对应的上下文信息将语音搜索请求的内容补充完整,并进一步进行语音分析以得到用户的搜索意图。
举例来说,例如,当用户输入语音搜索请求“适合洗车么”时,查询到用户之前已对“明天天气怎么样”进行了搜索,则可根据“明天天气怎么样”将语音搜索请求“适合洗车么”补充完整为“明天天气适合洗车么”,即可得到用户的搜索意图为“明天的天气是否适合洗车”。
S303,根据用户的搜索意图获取搜索结果。
在本发明的实施例中,在解析出用户的搜索意图后,即可根据用户的搜索意图获取对应的搜索结果。举例来说,对于用户的搜索意图“明天的天气是否适合洗车”,获取明天的天气,并获取洗车需要的天气条件,并在明天天气适合洗车时,还可进一步获取洗车相关的信息,如洗车注意事项、技巧等。
S304,根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果。
具体地,在本发明的一个实施例中,可根据结果生成与用户搜索意图相对应的对话结果,例如,对于用户的搜索意图“明天的天气十分适合洗车”,根据搜索结果“明天晴天,微风”以及适合洗车的天气,可组合生成一个与用户搜索意图对应的对话回答“明天晴天微风,适合洗车”。由此,可智能地针对用户输入的语音搜索请求给出对应的回答。
S305,对语音搜索请求进行特征识别,以获取用户的语音特征。
其中,用户的语音特征包括用户的身份特征数据、年龄特征数据和用户所处的地区特征数据中的一种或多种。
在本发明的实施例中,用户的身份特征数据可包括用户的性别信息;年龄特征数据为用户所属的年龄阶段,如青少年、中年、老年等;可获取所述日常语音数据的基频特征,并根据所述基频特征获取所述用户的身份特征数据和/或年龄特征数据。基频特征是指声音中最低且通常情况下最强的频率,通常被认为是声音的基础音调。男性和女性的声音的基频特征以及不同年龄段的人的声音的基频都具有较大的区别,因此可预先根据不同性别对应的基频特征和不同年龄段对应的基频特征的建立基频特征数据库。从而将据获取的到的用户的日常语音数据的基频特征与基频特征数据库中的基频特征进行比对,以得到该用户的身份特征数据和/或年龄特征数据。
用户所处的地区特征是指用户所在地或者用户的籍贯地区,可根据用户所使用语言类型来判断。语言类型可包括不同语种、方言等,例如、英语、日语、韩语、***语、粤语、四川方言等。具体地,可对所述日常语音数据进行语义解析,以获取所述日常语音数据所属的语言类型,并根据所述所属的语言类型获取所述用户所处的地区特征数据。在对日常语音数据进行语义解析后,可得到语音的具体内容。然后,根据具体内容中的词汇、语义等于预先建立的语言词汇数据库进行比对,其中,语言词汇数据库中包括不同语言类型对应的词汇库。从而可根据用户的日常语音数据对应的词汇比对出对应的语言类型,并进一步预测出该用户所处的地区特征数据。例如,如果用户使用的是葡萄牙语,则用户可能为来自葡萄牙语使用国的用户或者用户正处于葡萄牙语使用国,如果用户使用的是粤语,则用户可能为来自广东、香港等地的用户或者用户正处于广东、香港等地。
S306,根据用户的语音特征判断用户所使用的语言类型。
在本发明的实施例中,可根据用户所处的地区特征数据判断用户所使用的语言类型,例如,如果用户所处地区特征数据对应的是四川,则可知用户使用的语言类型为四川方言。
在本发明的另一个实施例中,步骤S305和S306也可在步骤S303之前执行,或者,步骤S305和S306也可与步骤S303和S304同时并行执行。
S307,根据用户所使用的语言类型对语音对话结果进行类型转换,并将类型转换后的语音对话结果提供给用户。
举例来说,如果用户使用的语音类型为四川方言,则可将语音对话结果转换四川方言后提供给用户。
S308,根据用户的语音特征对多个搜索结果进行排序,并将排序后的搜索结果在搜索结果展示页面中进行展示。
在本发明的实施例中,可根据用户的不同语音特征对搜索结果进行排序,具体地,可增加与用户的语音特征相匹配的结果的排序权重,以使其展示能够优先展示,更符合用户的个性化需求。
举例来说,如果用户搜索A地附近美食,而该用户的所处地域特征数据为四川,则可将搜索结果中川菜排在前面提供给用户,如果用户为青年女性用户,则可将一些美容、养眼的美食排在前面提供给用户,从而能够满足不同用户的多样化及个性化需求。
其中,S308是可选的。
本发明实施例的语音搜索方法,可根据语音搜索请求获取用户的语音特征,并根据语音特征将语音对话结果转换为符合用户使用的语言类型,还可根据用户的语音特征对搜索结果进行排序,能够满足不同用户的多样化和个性化需求,便于用户快速准确的获取需要的资源,进一步提升了用户的搜索体验。
为了实现上述实施例,本发明还提出一种语音搜索装置。
一种语音搜索装置,包括:接收模块,用于接收用户的语音搜索请求;意图解析模块,用于对语音搜索请求进行意图解析,以获取用户的搜索意图;获取模块,用于根据用户的搜索意图获取搜索结果;生成模块,用于根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果;以及第一提供模块,用于将语音对话结果提供给用户。
图4为根据本发明一个实施例的语音搜索装置的结构示意图。
如图4所示,根据本发明实施例的语音搜索装置,包括:接收模块10、意图解析模块20、获取模块30、生成模块40和第一提供模块50。
具体地,接收模块10用于接收用户的语音搜索请求。在本发明的一个实施例中,语音搜索请求为用户进行搜索时输入的语音。举例来说,如果用户希望搜索明天的天气,可输入语音“明天天气怎么样”。接收模块10即可接收到语音搜索请求“明天天气怎么样”。
意图解析模块20用于对语音搜索请求进行意图解析,以获取用户的搜索意图。更具体地,在本发明的一个实施例中,如图5所示,意图解析模块20具体包括:语音识别单元21、获取单元22和解析单元23,其中,
语音识别单元21用于对语音搜索请求进行语音识别,以获取语音搜索请求中的搜索关键字;在本发明的实施例中,语音识别单元21对语音搜索请求进行语音识别后可得到用户输入的语音对应的文字内容,并可对得到的文字内容进行语义分析,以获取其中的搜索关键字。举例来说,对于语音搜索请求“明天天气怎么样”,可通过语音识别,分析出搜索关键字为“明天”和“天气”。
获取单元22用于获取语音搜索请求对应的上下文信息;其中,语音搜索请求的上下文信息为用户历史输入的与该语音搜索请求相关联的内容,可为语音或者文字内容。更具体地,获取单元22可通过对话问答***(DA&QA)记录用户历史输入的内容,另外,对话问答***中还包括了一些常用的问题-回答结果。因此,获取单元22可根据语音搜索请求的搜索关键字在对话问答***中查询到语音搜索请求相关联的内容,从而得到语音搜索请求的上下文信息。
解析单元23用于根据所述搜索关键字获取所述语音搜索请求的上下文信息。在本发明的实施例中,由于用户在输入语音搜索请求时,可能根据已输入的内容进行省略或简要输入。因此,解析单元23可根据用户输入的语音搜索请求对应的上下文信息将语音搜索请求的内容补充完整,并进一步进行语音分析以得到用户的搜索意图。
举例来说,例如,当用户输入语音搜索请求“适合洗车么”时,查询到用户之前已对“明天天气怎么样”进行了搜索,则可根据“明天天气怎么样”将语音搜索请求“适合洗车么”补充完整为“明天天气适合洗车么”,即可得到用户的搜索意图为“明天的天气是否适合洗车”。
获取模块30用于根据用户的搜索意图获取搜索结果。在本发明的实施例中,在解析出用户的搜索意图后,获取模块30即可根据用户的搜索意图获取对应的搜索结果。举例来说,对于用户的搜索意图“明天的天气是否适合洗车”,获取明天的天气,并获取洗车需要的天气条件,并在明天天气适合洗车时,还可进一步获取洗车相关的信息,如洗车注意事项、技巧等。
生成模块40用于根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果。更具体地,在本发明的一个实施例中,生成模块40可根据结果生成与用户搜索意图相对应的对话结果,例如,对于用户的搜索意图“明天的天气十分适合洗车”,根据搜索结果“明天晴天,微风”以及适合洗车的天气,可组合生成一个与用户搜索意图对应的对话回答“明天晴天微风,适合洗车”。
第一提供模块50用于将语音对话结果提供给用户。
由此,可智能地针对用户输入的语音搜索请求给出对应的回答。
本发明实施例的语音搜索装置,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
图6为根据本发明另一个实施例的语音搜索装置的结构示意图。
如图6所示,根据本发明实施例的语音搜索装置,包括:接收模块10、意图解析模块20、获取模块30、生成模块40、第一提供模块50和第二提供模块60。
具体地,第二提供模块60用于对所述搜索结果进行渲染,并提供搜索结果展示页面,以展示所述渲染后的搜索结果。第二提供模块60可通过文字、图片等视觉展示形式展示给用户,从而能够为用户提供更丰富、多样化的搜索结果,便于用户获取所需要的信息,进一步提升了用户的搜索体验。
图7为根据本发明又一个实施例的语音搜索装置的结构示意图。
如图7所示,根据本发明实施例的语音搜索装置,包括:接收模块10、意图解析模块20、获取模块30、生成模块40、第一提供模块50、第二提供模块60、特征识别模块70、转换模块80和排序模块90。
具体地,特征识别模块70用于在接收用户的语音搜索请求之后对语音搜索请求进行特征识别,以获取用户的语音特征。用户的语音特征包括用户的身份特征数据、年龄特征数据和用户所处的地区特征数据中的一种或多种。其中,用户的语音特征包括用户的身份特征数据、年龄特征数据和用户所处的地区特征数据中的一种或多种。
在本发明的实施例中,用户的身份特征数据可包括用户的性别信息;年龄特征数据为用户所属的年龄阶段,如青少年、中年、老年等;可获取所述日常语音数据的基频特征,并根据所述基频特征获取所述用户的身份特征数据和/或年龄特征数据。基频特征是指声音中最低且通常情况下最强的频率,通常被认为是声音的基础音调。男性和女性的声音的基频特征以及不同年龄段的人的声音的基频都具有较大的区别,因此特征识别模块70可预先根据不同性别对应的基频特征和不同年龄段对应的基频特征的建立基频特征数据库。从而将据获取的到的用户的日常语音数据的基频特征与基频特征数据库中的基频特征进行比对,以得到该用户的身份特征数据和/或年龄特征数据。
用户所处的地区特征是指用户所在地或者用户的籍贯地区,特征识别模块70可根据用户所使用语言类型来判断。语言类型可包括不同语种、方言等,例如、英语、日语、韩语、***语、粤语、四川方言等。更具体地,特征识别模块70可对所述日常语音数据进行语义解析,以获取所述日常语音数据所属的语言类型,并根据所述所属的语言类型获取所述用户所处的地区特征数据。在对日常语音数据进行语义解析后,可得到语音的具体内容。然后,根据具体内容中的词汇、语义等于预先建立的语言词汇数据库进行比对,其中,语言词汇数据库中包括不同语言类型对应的词汇库。从而可根据用户的日常语音数据对应的词汇比对出对应的语言类型,并进一步预测出该用户所处的地区特征数据。例如,如果用户使用的是葡萄牙语,则用户可能为来自葡萄牙语使用国的用户或者用户正处于葡萄牙语使用国,如果用户使用的是粤语,则用户可能为来自广东、香港等地的用户或者用户正处于广东、香港等地。
转换模块80用于根据用户的语音特征判断用户所使用的语言类型,以及根据用户所使用的语言类型对语音对话结果进行类型转换,并将类型转换后的语音对话结果提供给用户。在本发明的实施例中,转换模块80可根据用户所处的地区特征数据判断用户所使用的语言类型,例如,如果用户所处地区特征数据对应的是四川,则可知用户使用的语言类型为四川方言,转换模块80可将语音对话结果转换四川方言后提供给用户。
排序模块90用于在根据用户的搜索意图获取搜索结果之后,根据用户的语音特征对多个搜索结果进行排序,并将排序后的搜索结果在搜索结果展示页面中进行展示。在本发明的实施例中,排序模块90可根据用户的不同语音特征对搜索结果进行排序,更具体地,排序模块90可增加与用户的语音特征相匹配的结果的排序权重,以使其展示能够优先展示,更符合用户的个性化需求。
举例来说,如果用户搜索A地附近美食,而该用户的所处地域特征数据为四川,则可将搜索结果中川菜排在前面提供给用户,如果用户为青年女性用户,则可将一些美容、养眼的美食排在前面提供给用户,从而能够满足不同用户的多样化及个性化需求。
其中,排序模块是90可选的。
本发明实施例的语音搜索装置,可根据语音搜索请求获取用户的语音特征,并根据语音特征将语音对话结果转换为符合用户使用的语言类型,还可根据用户的语音特征对搜索结果进行排序,能够满足不同用户的多样化和个性化需求,便于用户快速准确的获取需要的资源,进一步提升了用户的搜索体验。
为了实现上述实施例,本发明还提出一种语音搜索***。
本发明实施例的语音搜索***,包括:客户端和本发明上述实施例的语音搜索装置。
图8为根据本发明一个实施例的语音搜索***的结构示意图。
如图8所示,该语音搜索***,包括客户端100和语音搜索装置200。
本发明实施例的语音搜索***,可对用户的语音搜索请求进行意图解析以获取用户的搜索意图,并根据用户的搜索意图获取搜索结果,从而可根据搜索结果和用户的搜索意图生成语音搜索请求的语音对话结果,并转换成语音提供给用户,不再是对搜索结果进行简单的语音播报,而是以对话的形式与输入的语音搜索请求相呼应,更加智能。此外,可分析出用户的搜索意图,并获取相应的搜索结果来生成语音对话结果,更加精准地满足了用户需求,结果更加准确,个性化和人性化。
图9为根据本发明一个具体实施例的语音搜索***的工作原理示意图。如图9所示,用户通过客户端输入语音搜索请求后,客户端将该语音搜索请求发送至语音搜索装置。该语音搜索装置包括语音识别功能模块、语音搜索核心IE、对话问答***(DA&QA)以及ODP(Online Development Platform,在线开发平台)***。当语音搜索装置接收到语音搜索请求时,首先由音识别功能模块进行语音识别以获取搜索关键字QUERY和用户的语音特征,语音搜索核心IE在得到语音识别的搜索关键字QUERY和用户的语音特征后请求对话问答***,对话问答***可基于用户上下文对当前QUERY做变化进行意图解析,以获取用户的搜索意图,并从资源服务请求对应的资源。问答***结合请求到的资源和用户的搜索意图给出合理的对话结果,返回给语音搜索核心IE。语音搜索核心IE可将资源的ID(Identity,身份标识码)发送给ODP***,以使ODP***获取对应的资源,并使用模板渲染对从资源服务器请求的资源进行渲染,并将渲染结果通过语音搜索核心IE返回给客户端,从而可在搜索结果页面中展示搜索与用户的语音搜索请求对应的搜索结果。
此外,语音搜索核心IE可根据用户的语音特征(地域、性别等)指导ODP***做搜索结果的筛选排序,使搜索结果展现更加合理;还可根据用户的地域特征将搜索结果转换成方言或者外语,并通过客户端播放。由此,满足了不同用户的个性化需求。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (11)

1.一种语音搜索方法,其特征在于,包括以下步骤:
接收用户的语音搜索请求;
对所述语音搜索请求进行意图解析,以获取所述用户的搜索意图,其中,所述对所述语音搜索请求进行意图解析具体包括:对所述语音搜索请求进行语音识别,以获取所述语音搜索请求中的搜索关键字;根据所述搜索关键字获取所述语音搜索请求的上下文信息,所述语音搜索请求的上下文信息为用户历史输入的与所述语音搜索请求相关联的内容;根据所述语音搜索请求的上下文信息解析所述用户的搜索意图,其中根据所述语音搜索请求的上下文信息将所述语音搜索请求的内容补充完整,并进一步进行语音分析以得到所述用户的搜索意图;
根据所述用户的搜索意图获取搜索结果;以及
根据所述搜索结果和所述用户的搜索意图生成所述语音搜索请求的语音对话结果,并将所述语音对话结果提供给所述用户。
2.如权利要求1所述的语音搜索方法,其特征在于,在所述根据所述用户的搜索意图获取搜索结果之后还包括:
对所述搜索结果进行渲染,并提供搜索结果展示页面,以展示所述渲染后的搜索结果。
3.如权利要求2所述的语音搜索方法,其特征在于,在接收用户的语音搜索请求之后还包括:
对所述语音搜索请求进行特征识别,以获取所述用户的语音特征;
根据所述用户的语音特征判断所述用户所使用的语言类型;
根据所述用户所使用的语言类型对所述语音对话结果进行类型转换,并将类型转换后的语音对话结果提供给所述用户。
4.如权利要求3所述的语音搜索方法,其特征在于,所述搜索结果为多个,在所述根据所述用户的搜索意图获取搜索结果之后,还包括:
根据所述用户的语音特征对所述多个搜索结果进行排序,并将排序后的搜索结果在所述搜索结果展示页面中进行展示。
5.如权利要求3或4所述的语音搜索方法,其特征在于,所述用户的语音特征包括所述用户的身份特征数据、年龄特征数据和所述用户所处的地区特征数据中的一种或多种。
6.一种语音搜索装置,其特征在于,包括:
接收模块,用于接收用户的语音搜索请求;
意图解析模块,用于对所述语音搜索请求进行意图解析,以获取所述用户的搜索意图,其中,所述意图解析模块具体包括:语音识别单元,用于对所述语音搜索请求进行语音识别,以获取所述语音搜索请求中的搜索关键字;获取单元,用于根据所述搜索关键字获取所述语音搜索请求的上下文信息,所述语音搜索请求的上下文信息为用户历史输入的与所述语音搜索请求相关联的内容;解析单元,用于根据所述语音搜索请求的上下文信息解析所述用户的搜索意图,其中根据所述语音搜索请求的上下文信息将所述语音搜索请求的内容补充完整,并进一步进行语音分析以得到所述用户的搜索意图;
获取模块,用于根据所述用户的搜索意图获取搜索结果;
生成模块,用于根据所述搜索结果和所述用户的搜索意图生成所述语音搜索请求的语音对话结果;以及
第一提供模块,用于将所述语音对话结果提供给所述用户。
7.如权利要求6所述的语音搜索装置,其特征在于,还包括:
第二提供模块,用于对所述搜索结果进行渲染,并提供搜索结果展示页面,以展示所述渲染后的搜索结果。
8.如权利要求7所述的语音搜索装置,其特征在于,还包括:
特征识别模块,用于在接收用户的语音搜索请求之后对所述语音搜索请求进行特征识别,以获取所述用户的语音特征;
转换模块,用于根据所述用户的语音特征判断所述用户所使用的语言类型,以及根据所述用户所使用的语言类型对所述语音对话结果进行类型转换,并将类型转换后的语音对话结果提供给所述用户。
9.如权利要求8所述的语音搜索装置,其特征在于,所述搜索结果为多个,还包括:
排序模块,用于在所述根据所述用户的搜索意图获取搜索结果之后,根据所述用户的语音特征对所述多个搜索结果进行排序,并将排序后的搜索结果在所述搜索结果展示页面中进行展示。
10.如权利要求7或8所述的语音搜索装置,其特征在于,所述用户的语音特征包括所述用户的身份特征数据、年龄特征数据和所述用户所处的地区特征数据中的一种或多种。
11.一种语音搜索***,其特征在于,包括:
客户端;
如权利要求6-10任一项所述的语音搜索装置。
CN201410443478.1A 2014-09-02 2014-09-02 语音搜索方法、装置和*** Active CN104239459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410443478.1A CN104239459B (zh) 2014-09-02 2014-09-02 语音搜索方法、装置和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410443478.1A CN104239459B (zh) 2014-09-02 2014-09-02 语音搜索方法、装置和***

Publications (2)

Publication Number Publication Date
CN104239459A CN104239459A (zh) 2014-12-24
CN104239459B true CN104239459B (zh) 2018-03-09

Family

ID=52227518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410443478.1A Active CN104239459B (zh) 2014-09-02 2014-09-02 语音搜索方法、装置和***

Country Status (1)

Country Link
CN (1) CN104239459B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN104898589B (zh) * 2015-03-26 2019-04-30 天脉聚源(北京)传媒科技有限公司 一种用于智能管家机器人的智能应答方法和装置
CN105095406A (zh) * 2015-07-09 2015-11-25 百度在线网络技术(北京)有限公司 一种基于用户特征的语音搜索方法及装置
CN106372091A (zh) * 2015-07-23 2017-02-01 中兴通讯股份有限公司 基于信息识别提供解决方案的方法及装置
CN105279227B (zh) * 2015-09-11 2020-07-28 百度在线网络技术(北京)有限公司 同音词的语音搜索处理方法及装置
CN106708887A (zh) * 2015-11-17 2017-05-24 镇江诺尼基智能技术有限公司 一种意图驱动的产品搜索***和方法
CN105895097A (zh) * 2016-05-20 2016-08-24 杨天君 一种语音对话问讯平台
CN106202165B (zh) * 2016-06-24 2020-03-17 北京小米移动软件有限公司 人机交互的智能学习方法及装置
CN108009177A (zh) 2016-10-28 2018-05-08 百度在线网络技术(北京)有限公司 一种信息交互方法、服务器和客户端
CN106653006B (zh) * 2016-11-17 2019-11-08 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN107357875B (zh) * 2017-07-04 2021-09-10 北京奇艺世纪科技有限公司 一种语音搜索方法、装置及电子设备
CN107221329A (zh) * 2017-07-06 2017-09-29 上海思依暄机器人科技股份有限公司 一种对话控制方法、装置及机器人
CN107526826B (zh) * 2017-08-31 2021-09-17 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN107656997B (zh) * 2017-09-20 2021-01-15 Oppo广东移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备
CN107704549A (zh) * 2017-09-26 2018-02-16 百度在线网络技术(北京)有限公司 语音搜索方法、装置及计算机设备
CN107622766B (zh) * 2017-09-28 2021-01-05 百度在线网络技术(北京)有限公司 用于搜索信息的方法和装置
CN108231080A (zh) * 2018-01-05 2018-06-29 广州蓝豹智能科技有限公司 语音推送方法、装置、智能设备和存储介质
CN108345663A (zh) * 2018-02-02 2018-07-31 新华智云科技有限公司 一种新闻推送方法及设备
CN108763264B (zh) * 2018-03-30 2022-06-17 斑马网络技术有限公司 基于车辆的智能搜索***及其搜索方法
CN108597510A (zh) * 2018-04-11 2018-09-28 上海思依暄机器人科技股份有限公司 一种数据处理方法和装置
CN110472021A (zh) * 2018-05-11 2019-11-19 微软技术许可有限责任公司 会话中推荐新闻的技术
CN108766431B (zh) * 2018-06-06 2021-07-23 广东小天才科技有限公司 一种基于语音识别的自动唤醒方法及电子设备
CN109033151A (zh) * 2018-06-12 2018-12-18 广东小天才科技有限公司 一种基于语音交互的搜题方法及电子设备
CN108920541A (zh) * 2018-06-12 2018-11-30 广东小天才科技有限公司 一种基于语音搜索的识别方法及家教机
CN108846125A (zh) * 2018-06-29 2018-11-20 北京百度网讯科技有限公司 对话生成方法、装置、终端和计算机可读存储介质
CN110853647A (zh) * 2018-07-27 2020-02-28 Tcl集团股份有限公司 一种视频搜索方法、视频播放终端及存储介质
CN110880326B (zh) * 2018-09-05 2022-06-14 陈旭 语音交互***及方法
CN109933724B (zh) * 2019-03-07 2022-01-14 上海智臻智能网络科技股份有限公司 知识搜索方法、***、问答装置、电子设备及存储介质
CN110046306B (zh) * 2019-04-26 2022-10-21 百度在线网络技术(北京)有限公司 相亲对象的获取方法和装置
CN110362372B (zh) * 2019-06-19 2022-04-05 深圳壹账通智能科技有限公司 页面转译方法、装置、介质及电子设备
CN110570837B (zh) * 2019-08-28 2022-03-11 卓尔智联(武汉)研究院有限公司 一种语音交互方法、装置及存储介质
CN111312247A (zh) * 2020-02-19 2020-06-19 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN111061854B (zh) * 2020-03-11 2021-02-26 支付宝(杭州)信息技术有限公司 智能对话的交互方法、装置和电子设备
CN112148848A (zh) * 2020-08-28 2020-12-29 出门问问(苏州)信息科技有限公司 一种问答处理方法及装置
CN112667880B (zh) * 2020-12-25 2024-02-02 北京百度网讯科技有限公司 搜索结果展示方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103279508A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 修正语音应答的方法及自然语言对话***
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及***
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9081868B2 (en) * 2009-12-16 2015-07-14 Google Technology Holdings LLC Voice web search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
CN103279508A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 修正语音应答的方法及自然语言对话***
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及***

Also Published As

Publication number Publication date
CN104239459A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN104239459B (zh) 语音搜索方法、装置和***
KR101634086B1 (ko) 감정 분석을 통한 스티커 추천 방법 및 시스템
CN107195296B (zh) 一种语音识别方法、装置、终端及***
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
US8666746B2 (en) System and method for generating customized text-to-speech voices
CN110032742B (zh) 响应语句生成设备、方法和存储介质以及语音交互***
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
US8630860B1 (en) Speaker and call characteristic sensitive open voice search
US6704708B1 (en) Interactive voice response system
US20130110511A1 (en) System, Method and Program for Customized Voice Communication
Bulyko et al. Error-correction detection and response generation in a spoken dialogue system
US20090326947A1 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
KR20160089152A (ko) 화행 분석을 통한 스티커 추천 방법 및 시스템
CN107707745A (zh) 用于提取信息的方法和装置
JP5221768B2 (ja) 翻訳装置、及びプログラム
CN111508501B (zh) 一种电话机器人中带口音的语音识别方法及***
CN111899140A (zh) 基于话术水平提升的客服培训方法及***
CN110968673B (zh) 一种语音评论的播放方法、装置、语音设备及存储介质
CN106710587A (zh) 一种语音识别数据预处理方法
Tsiakoulis et al. Dialogue context sensitive HMM-based speech synthesis
CN111128130B (zh) 语音数据处理方法和装置及电子装置
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR102464156B1 (ko) 사용자의 상태 및 상담원의 상태에 기초하여 사용자와 상담원을 매칭하는 콜센터 서비스 제공 장치, 방법 및 프로그램
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN114049875A (zh) 一种tts播报方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant