CN103678675A - 通过拼音进行搜索的方法、服务器及*** - Google Patents

通过拼音进行搜索的方法、服务器及*** Download PDF

Info

Publication number
CN103678675A
CN103678675A CN201310727117.5A CN201310727117A CN103678675A CN 103678675 A CN103678675 A CN 103678675A CN 201310727117 A CN201310727117 A CN 201310727117A CN 103678675 A CN103678675 A CN 103678675A
Authority
CN
China
Prior art keywords
word
phonetic
group
keyword
individual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310727117.5A
Other languages
English (en)
Inventor
乔磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201310727117.5A priority Critical patent/CN103678675A/zh
Publication of CN103678675A publication Critical patent/CN103678675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了通过拼音进行搜索的方法、服务器及***,所述方法包括:接收包括至少一个拼音词语的拼音关键词,根据拼音关键词在拼音词库进行匹配,其中,拼音词库中具有多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,两个以上拼音词语之间具有相关的多音字拼音;根据与拼音关键词匹配的群组,获取匹配的群组对应的文字,根据匹配到的群组对应的文字组成拼音关键词对应的文字关键词,其中,对于匹配到两个以上群组的拼音关键词,拼音关键词中的每个拼音词语匹配到一个群组。即使输入拼音关键词中包含错乱使用的多音字拼音,本申请依然可以匹配到准确的文字,从而完成资源的搜索。

Description

通过拼音进行搜索的方法、服务器及***
技术领域
本申请涉及流媒体播放领域,具体涉及一种通过拼音进行搜索的方法、服务器及***。
背景技术
如今,视频网站普遍都支持用户在搜索框直接输入拼音来搜索视频结果。视频网站的服务器会根据输入的拼音来自动适配拼音所反应出的文字,再根据这些文字来搜索对应的视频结果。因此只要用户输入的拼音正确,往往就可以找到想搜索的视频。
但是在汉字中存在大量的多音字,一个多音字对应有多个读音,这些不同的读音不能混用,而不同的语境搭配需要使用相应的读音,否则会发生错乱,无法获得真正要表达的意思。在用户搜索时输入的拼音关键字中如果包含这种错乱使用的多音字拼音,显然就会发生很多的误差。例如,如果用户希望搜索“甄嬛传”,需要输入拼音“zhen huan zhuan”,但是“传”本身具有两个读音,分别是“zhuan”(音“撰”)和“chuan”(音“船”),而对于一些普通话发音掌握不太好的用户来说,极容易发生将多音字混淆输入的问题,例如这些用户希望输入的是“甄嬛传”,但是有可能因为多音字混淆将拼音输入成“zhuan huan chuan”,这样就无法正确找到用户希望的结果。
因此,在用户输入的拼音关键字中包含错乱使用的多音字拼音时,如何准确获取与拼音关键字对应的正确的搜索结果就成为了亟待解决的技术问题。
发明内容
本申请所要解决的技术问题在于提供一种通过拼音进行搜索的方法、服务器及***,在用户输入的拼音关键词中包含错乱使用的多音字拼音时,依然可以准确地获取与拼音关键字对应的正确的搜索结果。
为了解决上述问题,本申请揭示了一种通过拼音进行搜索的方法,包括:接收包括至少一个拼音词语的拼音关键词,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中具有多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音;根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字,根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源。
进一步地,所述拼音词库,包括:词语拼音子库和单字拼音子库,其中,所述词语拼音子库中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库中的群组为单字群组,每个单字群组对应一单个文字。
进一步地,根据所述拼音关键词在拼音词库进行匹配的操作,具体包括:按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组。
进一步地,根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字,根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词的操作,具体包括:当所述拼音关键词匹配到的群组包括所述第一数目的词语群组以及所述第三数目的单字群组时,根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字,根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词;当所述拼音关键词匹配到的群组包括所述第二数目的词语群组以及所述第四数目的单字群组时,根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
进一步地,所述拼音词库中的每个群组还分别具有不同的权重;根据所述拼音关键词在所述拼音词库进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。
为了解决上述问题,本申请还揭示了一种通过拼音进行搜索的服务器,包括:接收模块、匹配模块、获取模块、组合模块、执行模块和拼音词库,其中,所述接收模块,用于接收包括至少一个拼音词语的拼音关键词;所述匹配模块,用于根据所述拼音关键词在拼音词库进行匹配,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;所述获取模块,用于根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字;所述组合模块,用于根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词;所述执行模块,用于根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源;所述拼音词库,用于保存多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音。
进一步地,所述拼音词库,包括:词语拼音子库和单字拼音子库,其中,所述词语拼音子库中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库中的群组为单字群组,每个单字群组对应一单个文字。
进一步地,所述匹配模块,具体用于按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组。
进一步地,所述获取模块,当所述拼音关键词匹配到的群组包括所述第一数目的词语群组以及所述第三数目的单字群组时,具体用于根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字;当所述拼音关键词匹配到的群组包括所述第二数目的词语群组以及所述第四数目的单字群组时,具体用于根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字;所述组合模块,具体用于根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词,或者,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
进一步地,所述拼音词库,具体用于为其中每个群组分别配置不同的权重;所述匹配模块,具体用于在根据所述拼音关键词在所述拼音词库进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。
为了解决上述问题,本申请还揭示了一种通过拼音进行搜索的***,包括:一个或多个客户端和服务器,其中,所述服务器,包括如前所述的通过拼音进行搜索的服务器;所述一个或多个客户端,用于识别用户输入的包括至少一个拼音词语的拼音关键词,并发送给所述服务器。
进一步地,所述一个或多个客户端,具体用于在所述拼音关键词的显示位置的周边设置一显示区域或者开启新页面,根据所述文字关键词形成提示信息并将所述提示信息显示在所述显示区域或者新页面;接收用户对所述提示信息的点选触发,向所述服务器发送触发信息以使所述服务器根据文字关键词在搜索引擎中进行检索。
与现有技术相比,本申请可以获得包括以下技术效果:
1)当用户错误混淆了多音字的读音,并使用这种错误的读音输入拼音时,本申请可以通过实现将各种多音字读音以群组方式组织成拼音库,这样即使输入拼音关键词中包含错乱使用的多音字拼音,使用拼音库匹配都可以匹配到准确的文字,从而完成资源的搜索。
2)在对拼音关键词进行匹配时,可以使用拼音关键词由左向右及由右向左两个排列方向分别匹配,选择匹配到词语群组较多的方向作为符合用户输入本意的方向进行继续匹配,进一步提高了匹配的准确性,从而有利于完成资源的搜索。
3)在为拼音关键词匹配到准确文字后,还可以通过提示的方式显示给用户,以便用户进行确认是否匹配的结果符合用户输入的本意,最大化地确保了在多音字读音的混淆使用的情况下匹配的准确性,从而完成资源的搜索。
需要说明的是,以上技术效果并不一定同时达到。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请第一实施例的方法流程图。
图2为本申请第二实施例的方法流程图。
图3为本申请第三实施例的服务器结构图。
图4为本申请第四实施例的***架构图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
实施例一
如图1所示,为本申请第一实施例的方法流程图,包括:
步骤S100,接收包括至少一个拼音词语的拼音关键词;
用户在客户端或者浏览器的搜索框中输入拼音关键词后,点击搜索,服务器接收拼音关键词;
拼音关键词中可以包含一个或多个拼音词语,当然,用户在输入时并不知道拼音关键词是否包含拼音词语,从拼音词库匹配的角度看,拼音关键词至少会包含一个拼音词语,当然,也可能是多个。
步骤S102,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中具有多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音;
举例来说,因为“传”是多音字,有“zhuan”(音“撰”)和“chuan”(音“船”)的读音,“甄嬛传”的拼音词语就可以是“zhen huan zhuan”和“zhen huan chuan”。因此将“zhen huan zhuan”和“zhen huan chuan”组成一个群组,这个群组对应的文字“甄嬛传”。这样,无论用户输入的是正确的甄嬛传的拼音,还是错误使用了多音字读音的拼音,都可以对应到“甄嬛传”的文字。
用户输入的拼音关键词一定是由一个或多个拼音词语组成的,通过匹配就可以将拼音关键词分解为多个拼音词语并命中群组,这种过程一方面是匹配,另一方面也相当于对拼音关键词进行了切分,切分为多个群组。当然,这些匹配的群组有的是完整的一个名词,也有可能是一个字。为了更精准地进行匹配,在构建拼音词库时,就分别根据名词和字来建立词库——所述拼音词库,包括:词语拼音子库和单字拼音子库,其中,所述词语拼音子库中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库中的群组为单字群组,每个单字群组对应一单个文字。通过互联网及相关词典收集日常词语文字对应的拼音词语得到基本词语群组,保存在词语拼音子库;同时,对于某些特殊的应用领域,例如视频类领域,还特别通过收集影视剧名称、明星名的拼音词语得到群组,保存在词语拼音子库。
例如:拼音词库中保存有“甄嬛传”群组、“甄嬛”群组、“中”群组以及“的”群组,“甄嬛传”群组对应的拼音词语包括“zhen huan zhuan”和“zhen huan chuan”,“甄嬛”群组对应的拼音词语包括“zhen huan”,“中”群组对应的拼音词语包括“zhong”,“的”群组对应的拼音词语包括“de”和“di”。用户输入的拼音关键词为“zhen huan zhuan zhong de zhen huan”(甄嬛传中的甄嬛),这样对拼音关键词匹配后就得到上述四个群组。
根据所述拼音关键词在拼音词库进行匹配时,要分别从所述拼音关键词由左向右的排列方向以及由右向左的排列方向进行两次匹配,所述拼音关键词因为从不同的排列方向开始,语义组合很可能会变化,因此会匹配到不一样的结果,当然,这里所谓的结果主要是指词语群组的不同匹配结果,这里不考虑单字群组。在两个排列方向上,以得到的匹配的词语群组数量较多的方向为准,依照这个方向将未被词语群组匹配的剩余部分再进行匹配,这个剩余部分的匹配主要是单字群组的匹配。将这个方向上匹配到的词语群组和单字群组作为匹配结果。本处可参照实施例二。
另外,所述拼音词库中的每个群组还分别具有不同的权重;根据所述拼音关键词在所述拼音词库进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。例如:“乐”具有读音“le”(音“勒”)和“yue”(音“悦”),“月”具有读音“yue”(音“悦”)。这样,“le”和“yue”组成一个群组,这个群组对应的文字“乐”;“yue”组成一个群组,这个群组对应的文字“月”。显然,“乐”群组和“月”群组中具有相同的拼音词语“yue”,而这两个群组分别对应不同的文字。这时在用户输入的拼音关键字中“yue”匹配群组时,会同时匹配到“乐”群组和“月”群组,此时需要结合这两个群组的权重,权重值大的群组作为与“yue”匹配的群组。
步骤S104,根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字,根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;
所述拼音关键词在匹配后仅匹配到一个群组,这时这个群组对应的文字就是所述拼音关键词对应的文字关键词;
所述拼音关键词中不同部分在匹配后,每个部分分别匹配到一个群组,这时将各个匹配到的群组对应的文字,按照各部分在拼音关键词中顺序组合起来,就得到了所述拼音关键词对应的文字关键词。
例如:拼音词库中保存有“甄嬛传”群组、“甄嬛”群组、“中”群组以及“的”群组,“甄嬛传”群组对应的拼音词语包括“zhen huan zhuan”和“zhen huan chuan”,“甄嬛”群组对应的拼音词语包括“zhen huan”,“中”群组对应的拼音词语包括“zhong”,“的”群组对应的拼音词语包括“de”和“di”。用户输入的拼音关键词为“zhen huan zhuan zhong de zhenhuan”,这样对拼音关键词匹配后就得到上述四个群组,根据每个群组对应的文字,就可以根据拼音关键字得到文字关键字“甄嬛传中的甄嬛”。
步骤S106,根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源。
这里可以不对用户提示根据拼音关键词得到的文字关键词,而是直接根据文字关键词在搜索引擎中进行检索,得到与所述文字关键词对应的资源,将这些资源显示给用户;
当然,也可以是根据拼音关键词得到的文字关键词后,客户端在所述拼音关键词的显示位置的周边设置一显示区域或者开启新页面,根据所述文字关键词形成提示信息并将所述提示信息显示在所述显示区域或者新页面从而方便用户进行确认,接收用户对所述提示信息的点选触发,客户端触发所述服务器根据文字关键词在搜索引擎中进行检索,得到与所述文字关键词对应的资源,将这些资源显示给用户。
实施例二
如图2所示,为本申请第二实施例的方法流程图,主要针对步骤S102进行细化,包括:
步骤S200,按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;
步骤S202,按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;
步骤S200和S202的执行顺序不分先后。所述拼音关键词因为从不同的排列方向开始,语义组合很可能会变化,因此会匹配到不一样的结果,当然,这里所谓的结果主要是指词语群组的不同匹配结果,这里不考虑单字群组。
这里需要说明的是,匹配本身并不是根据所述拼音关键词中一个个字母进行考虑,而是对所述拼音关键词中拼音词语进行匹配,因此按照所述拼音关键词由右向左的排列方向是指拼音词语的排列方向。例如:按由左向右的排列方向,拼音关键词为“zhen huan chuan”,按由右向左的排列方向,拼音关键词为“chuan huan zhen”。
步骤S204,比较所述第一数目和第二数目,根据比较结果执行步骤S206或者步骤S210;
步骤S206,如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;
如果第一数目大于第二数目,说明按照所述拼音关键词由左向右的排列方向匹配到了更多的词语群组,剩余的单字相对较少,这样会更贴近用户输入的本意。所以选择匹配到词语群组更多的方向,即由左向右的排列方向作为对拼音关键词进行匹配的方向,词语群组匹配后剩余的部分是少量单字,依照单字拼音子库进行匹配,就可以得到最终按由左向右的排列方向匹配到的几个词语群组和少量单字群组。
步骤S208,根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字,根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词;
步骤S210,如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组;
如果第二数目大于第一数目,说明按照所述拼音关键词由右向左的排列方向匹配到了更多的词语群组,剩余的单字相对较少,这样会更贴近用户输入的本意。所以选择匹配到词语群组更多的方向,即由右向左的排列方向作为对拼音关键词进行匹配的方向,词语群组匹配后剩余的部分是少量单字,依照单字拼音子库进行匹配,就可以得到最终按由左向右的排列方向匹配到的几个词语群组和少量单字群组。
步骤S212,根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
当然,以上还有可能发生第二数目等于第一数目的情况,因为本方案主要应用于视频搜索领域,用户输入拼音关键词以影视剧名称、影星名称为主,而影视剧名称、影星名称往往都较为独特,而且影视剧名称、影星名称往往都已经在词语拼音子库中进行了整体拼音标注形成了相应的拼音词语,因此无论是哪个排列方向进行匹配,都不容易发生语义组合的变化,所以在第二数目等于第一数目时,往往匹配到的第一数目的拼音词语和第二数目的拼音词语是相同的,此时无论将哪个排列方向作为对拼音关键词进行匹配的方向,最后的匹配结果都是一样的。
另外,按照步骤S206和S210方式中以匹配到词语群组多的排列方向为匹配方向,会大大地降低与用户输入的本意存在偏差的可能性,当然,并不能完全消除这种可能性。但是即使依然存在偏差,还可以通过步骤S106的提示信息让用户确认,如果用户认为偏差较大,还可以通过输入文字的方式来修正。
实施例三
如图3所示,为本申请第三实施例的服务器结构图。通过拼音进行搜索的服务器,包括:接收模块30、匹配模块31、获取模块32、组合模块33、执行模块34和拼音词库35,其中,
所述接收模块30,用于接收包括至少一个拼音词语的拼音关键词;
所述匹配模块31,分别与接收模块30、拼音词库35耦接,用于根据所述拼音关键词在拼音词库进行匹配,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;
所述获取模块32,与匹配模块31耦接,用于根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字;
所述组合模块33,与获取模块32耦接,用于根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词;
所述执行模块34,与组合模块33耦接,用于根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源;
所述拼音词库35,用于保存多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音;所述拼音词库35,包括:词语拼音子库351和单字拼音子库352,其中,所述词语拼音子库351中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库352中的群组为单字群组,每个单字群组对应一单个文字。
所述拼音词库35,具体用于为其中每个群组分别配置不同的权重;
所述匹配模块31,具体用于在根据所述拼音关键词在所述拼音词库35进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。
所述匹配模块31,具体用于按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库351中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库351中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库352中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库352中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组。
所述获取模块,当所述拼音关键词匹配到的群组包括所述第一数目的词语群组以及所述第三数目的单字群组时,具体用于根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字;当所述拼音关键词匹配到的群组包括所述第二数目的词语群组以及所述第四数目的单字群组时,具体用于根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字;
所述组合模块32,具体用于根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词,或者,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
实施例四
如图4所示,为本申请第四实施例的***架构图,包括:一个或多个客户端600和服务器620,所述一个或多个客户端600通过网络接入所述服务器620,其中,
所述服务器620,包括如图3中及实施例三所示出的通过拼音进行搜索的服务器,参考实施例三,在此不再赘述。
所述客户端600,用于识别用户输入的包括至少一个拼音词语的拼音关键词,并发送给所述服务器620;还用于在所述拼音关键词的显示位置的周边设置一显示区域或者开启新页面,根据所述文字关键词形成提示信息并将所述提示信息显示在所述显示区域或者新页面从而方便用户进行确认,接收用户对所述提示信息的点选触发,向服务器发送触发信息以使所述服务器根据文字关键词在搜索引擎中进行检索。
所述客户端600可以是网络电视、平板电脑、个人电脑、网络视频播放机(网络机顶盒)、手机等,本申请并不限于此。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者***中还存在另外的相同要素。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (12)

1.一种通过拼音进行搜索的方法,其特征在于,包括:
接收包括至少一个拼音词语的拼音关键词,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中具有多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音;
根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字,根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;
根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源。
2.如权利要求1所述的方法,其特征在于,
所述拼音词库,包括:词语拼音子库和单字拼音子库,其中,所述词语拼音子库中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库中的群组为单字群组,每个单字群组对应一单个文字。
3.如权利要求2所述的方法,其特征在于,根据所述拼音关键词在拼音词库进行匹配的操作,具体包括:
按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;
如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;
如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组。
4.如权利要求3所述的方法,其特征在于,根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字,根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词的操作,具体包括:
当所述拼音关键词匹配到的群组包括所述第一数目的词语群组以及所述第三数目的单字群组时,根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字,根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词;
当所述拼音关键词匹配到的群组包括所述第二数目的词语群组以及所述第四数目的单字群组时,根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
5.如权利要求1所述的方法,其特征在于,
所述拼音词库中的每个群组还分别具有不同的权重;
根据所述拼音关键词在所述拼音词库进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。
6.一种通过拼音进行搜索的服务器,其特征在于,包括:接收模块、匹配模块、获取模块、组合模块、执行模块和拼音词库,其中,
所述接收模块,用于接收包括至少一个拼音词语的拼音关键词;
所述匹配模块,用于根据所述拼音关键词在拼音词库进行匹配,其中,对于匹配到两个以上群组的所述拼音关键词,所述拼音关键词中的每个拼音词语匹配到一个群组;
所述获取模块,用于根据与所述拼音关键词匹配的群组,获取所述匹配的群组对应的文字;
所述组合模块,用于根据所述匹配到的群组对应的文字组成所述拼音关键词对应的文字关键词;
所述执行模块,用于根据所述文字关键词形成提示信息并发送至客户端显示,或者,根据所述文字关键词搜索与所述文字关键词对应的资源;
所述拼音词库,用于保存多个群组,每个群组对应一文字,每个群组包括至少一个拼音词语,对于包括两个以上拼音词语的群组,所述两个以上拼音词语之间具有相关的多音字拼音。
7.如权利要求6所述的服务器,其特征在于,
所述拼音词库,包括:词语拼音子库和单字拼音子库,其中,所述词语拼音子库中的群组为词语群组,每个词语群组对应一词语文字;所述单字拼音子库中的群组为单字群组,每个单字群组对应一单个文字。
8.如权利要求7所述的服务器,其特征在于,
所述匹配模块,具体用于按照所述拼音关键词由左向右的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第一数目的词语群组;按照所述拼音关键词由右向左的排列方向,在所述词语拼音子库中对所述拼音关键词进行匹配,匹配到第二数目的词语群组;如果所述第一数目大于第二数目,将所述拼音关键词中未被所述第一数目的词语群组匹配到的剩余部分组成第一剩余部分,在所述单字拼音子库中对所述第一剩余部分进行匹配,匹配到与所述第一剩余部分中的拼音词语对应的第三数目的单字群组,将所述第一数目的词语群组以及所述第三数目的单字群组作为所述拼音关键词匹配到的群组;如果所述第二数目大于第一数目,对所述拼音关键词中未被所述第二数目的词语群组匹配到的剩余部分组成第二剩余部分,在所述单字拼音子库中对所述第二剩余部分进行匹配,匹配到与所述第二剩余部分中的拼音词语对应的第四数目的单字群组,将所述第二数目的词语群组以及所述第四数目的单字群组作为所述拼音关键词匹配到的群组。
9.如权利要求8所述的服务器,其特征在于,
所述获取模块,当所述拼音关键词匹配到的群组包括所述第一数目的词语群组以及所述第三数目的单字群组时,具体用于根据所述第一数目的词语群组获取相应的第一数目的词语文字,根据所述第三数目的单字群组获取第三数目的单个文字;当所述拼音关键词匹配到的群组包括所述第二数目的词语群组以及所述第四数目的单字群组时,具体用于根据所述第二数目的词语群组获取相应的第二数目的词语文字,根据所述第四数目的单字群组获取第四数目的单个文字;
所述组合模块,具体用于根据所述第一数目的词语文字和第三数目的单个文字组成所述拼音关键词的文字关键词,或者,根据所述第二数目的词语文字和第四数目的单个文字组成所述拼音关键词的文字关键词。
10.如权利要求6所述的服务器,其特征在于,
所述拼音词库,具体用于为其中每个群组分别配置不同的权重;
所述匹配模块,具体用于在根据所述拼音关键词在所述拼音词库进行匹配时,所述拼音关键词中的一个拼音词语同时匹配到分别对应不同文字的多个群组,依据所述多个群组各自的权重,从所述多个群组中选择一个作为与所述拼音关键词中的一个拼音词语匹配的群组。
11.一种通过拼音进行搜索的***,其特征在于,包括:一个或多个客户端和服务器,其中,
所述服务器,包括如权利要求6-10中任一项所述的通过拼音进行搜索的服务器;
所述一个或多个客户端,用于识别用户输入的包括至少一个拼音词语的拼音关键词,并发送给所述服务器。
12.如权利要求11所述的***,其特征在于,
所述一个或多个客户端,具体用于在所述拼音关键词的显示位置的周边设置一显示区域或者开启新页面,根据所述文字关键词形成提示信息并将所述提示信息显示在所述显示区域或者新页面;接收用户对所述提示信息的点选触发,向所述服务器发送触发信息以使所述服务器根据文字关键词在搜索引擎中进行检索。
CN201310727117.5A 2013-12-25 2013-12-25 通过拼音进行搜索的方法、服务器及*** Pending CN103678675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310727117.5A CN103678675A (zh) 2013-12-25 2013-12-25 通过拼音进行搜索的方法、服务器及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310727117.5A CN103678675A (zh) 2013-12-25 2013-12-25 通过拼音进行搜索的方法、服务器及***

Publications (1)

Publication Number Publication Date
CN103678675A true CN103678675A (zh) 2014-03-26

Family

ID=50316219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310727117.5A Pending CN103678675A (zh) 2013-12-25 2013-12-25 通过拼音进行搜索的方法、服务器及***

Country Status (1)

Country Link
CN (1) CN103678675A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN107967352A (zh) * 2017-12-15 2018-04-27 四川汉科计算机信息技术有限公司 信息知识智慧推荐方法
CN108170293A (zh) * 2017-12-29 2018-06-15 北京奇虎科技有限公司 输入联想的个性化推荐方法及装置
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
CN113094470A (zh) * 2021-04-08 2021-07-09 蔡堃 文本搜索方法和***
US11100921B2 (en) 2018-04-19 2021-08-24 Boe Technology Group Co., Ltd. Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN107967352A (zh) * 2017-12-15 2018-04-27 四川汉科计算机信息技术有限公司 信息知识智慧推荐方法
CN108170293A (zh) * 2017-12-29 2018-06-15 北京奇虎科技有限公司 输入联想的个性化推荐方法及装置
US11100921B2 (en) 2018-04-19 2021-08-24 Boe Technology Group Co., Ltd. Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog
CN109741755A (zh) * 2018-12-25 2019-05-10 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
CN109741755B (zh) * 2018-12-25 2021-04-16 苏州思必驰信息科技有限公司 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法
CN113094470A (zh) * 2021-04-08 2021-07-09 蔡堃 文本搜索方法和***
CN113094470B (zh) * 2021-04-08 2022-05-24 蔡堃 文本搜索方法和***

Similar Documents

Publication Publication Date Title
US11636146B2 (en) Content analysis to enhance voice search
US11817013B2 (en) Display apparatus and method for question and answer
CN103678675A (zh) 通过拼音进行搜索的方法、服务器及***
CN103678674A (zh) 通过拼音进行纠错搜索的方法、装置及***
US20130144592A1 (en) Automatic Spelling Correction for Machine Translation
KR102047200B1 (ko) 데이터 스트림들의 실시간 자연어 처리
US8799307B2 (en) Cross-language information retrieval
US9031970B1 (en) Query autocompletions
US20140122407A1 (en) Chatbot system and method having auto-select input message with quality response
US9152717B2 (en) Search engine suggestion
US20120290286A1 (en) Automatic Correction of User Input Based on Dictionary
US20100005086A1 (en) Resource locator suggestions from input character sequence
US20160162555A1 (en) Accessing Messaging Applications in Search
US11487757B2 (en) Assistive browsing using context
US8515731B1 (en) Synonym verification
WO2008151465A1 (en) Dictionary word and phrase determination
CN103605808B (zh) 基于搜索的ugc推荐的方法及***
CN102770859A (zh) 跨语言搜索选项
CN103678560A (zh) 多媒体资源纠错检索方法、多媒体资源服务器及***
EP2846554A1 (en) A method, an electronic device, and a computer program
KR101446468B1 (ko) 자동완성 질의어 제공 시스템 및 방법
US9378272B1 (en) Determining correction of queries with potentially inaccurate terms
WO2011106087A1 (en) Method for processing auxilary information for topic generation
US9646608B2 (en) Voice recognition apparatus and method of controlling the same
RU2726009C1 (ru) Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180126