CN108255939B - 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 - Google Patents
一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 Download PDFInfo
- Publication number
- CN108255939B CN108255939B CN201711297472.8A CN201711297472A CN108255939B CN 108255939 B CN108255939 B CN 108255939B CN 201711297472 A CN201711297472 A CN 201711297472A CN 108255939 B CN108255939 B CN 108255939B
- Authority
- CN
- China
- Prior art keywords
- translation
- search
- search result
- keyword
- language search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013519 translation Methods 0.000 claims abstract description 313
- 238000013507 mapping Methods 0.000 claims description 23
- 230000014616 translation Effects 0.000 description 258
- 230000008569 process Effects 0.000 description 23
- 238000005516 engineering process Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 241000288673 Chiroptera Species 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001573881 Corolla Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
Description
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种跨语言搜索方法和装置、一种用于跨语言搜索的装置。
背景技术
随着互联网信息的不断增长,用户对于信息搜索提出了更高的要求,不再满足于在同一种语种数据库中搜索,而要求获取多种语种数据。例如,如果用户输入的搜索词(query)为“蔻驰”,则中文数据库中的搜索可能并不能最大程度地满足用户需求,源自欧美网站的英文数据库中可能具有更优、更多的搜索结果。
跨语言搜索技术结合了信息检索技术和机器翻译技术。现有的跨语言搜索过程具体可以包括:首先,通过机器翻译技术将源语言搜索词转换为目标语言搜索词;然后,依据源语言搜索词在对应的数据库中进行信息检索,得到第一搜索结果,以及,依据目标语言搜索词在对应的数据库中进行信息检索,得到第二搜索结果;接着,对第二搜索结果进行目标语言到源语言的翻译,以得到翻译搜索结果。
在实际应用中,翻译质量等因素使得翻译搜索结果中难免存在错误,而错误的翻译搜索结果有可能会使得用户认为返回了与源语言搜索词无关的搜索结果,从而降低了翻译搜索结果的点击率。例如,用户输入的源语言搜索词为“蔻驰”,假设将该源语言搜索词“蔻驰”翻译为目标搜索词“coach”、并检索到目标搜索词“coach”对应的第二搜索结果“COACH–Shoes,Bags,Watches”,由于“coach”对应的翻译结果包括“教练”,故第二搜索结果“COACH–Shoes,Bags,Watches”可能被翻译为“教练–鞋子,袋子,手表”并被返回给用户;此种情况下,即使翻译搜索结果的具体内容(如网页内容)与源语言搜索词相关,错误的翻译搜索结果也有可能会使得用户认为该翻译搜索结果与源语言搜索词无关进而忽略该翻译搜索结果,从而降低了翻译搜索结果的点击率。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的跨语言搜索方法、跨语言搜索装置及用于跨语言搜索的装置,本发明实施例可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
为了解决上述问题,本发明实施例公开了一种跨语言搜索方法,包括:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
另一方面,本发明实施例公开了一种跨语言搜索装置,包括:
搜索词翻译模块,用于将源语言搜索词翻译为目标语言搜索词;
搜索结果获取模块,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块,用于从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;以及
关键词替换模块,用于将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述关键词获取模块包括:
映射建立子模块,用于建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;
映射查找子模块,用于依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述装置还包括:
判断模块,用于在所述关键词获取模块从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述翻译搜索结果是否包括所述源语言搜索词,若否,则触发所述关键词获取模块从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。
可选地,所述关键词替换模块,具体用于若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述装置还包括:
第一标记显示模块,用于若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述第一标记显示模块,具体用于若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述装置还包括:
第二标记显示模块,用于若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
再一方面,本发明实施例公开了一种用于跨语言搜索的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
又一方面,本发明实施例公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述一个或多个所述的跨语言搜索方法。
本发明实施例包括以下优点:
本发明实施例从翻译搜索结果中获取与目标语言搜索词相匹配的关键词,并将所述翻译搜索结果中的所述关键词替换为源语言搜索词,可以在目标语言搜索结果到翻译搜索结果的翻译过程中出现目标语言搜索词对应的翻译错误的情况下,将该目标语言搜索词对应的翻译结果纠正为源语言搜索词,这样可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
附图说明
图1是本发明的一种跨语言搜索方法的应用环境的示意图;
图2是本发明的一种跨语言搜索方法实施例一的步骤流程图;
图3是本发明的一种跨语言搜索方法实施例二的步骤流程图;
图4是本发明的一种跨语言搜索方法实施例三的步骤流程图;
图5是本发明的一种跨语言搜索方法实施例四的步骤流程图;
图6是本发明的一种跨语言搜索方法实施例五的步骤流程图;
图7是本发明的一种跨语言搜索装置实施例的结构框图;
图8是本发明的一种用于跨语言搜索的装置900作为终端时的框图;及
图9是本发明的一种用于跨语言搜索的装置作为服务器时的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
发明人在实施本发明实施例的过程中发现,在跨语言搜索的过程中,在将源语言搜索词(以中文为例)对应的目标语言搜索词(以英文为例)再重新翻译为源语言的情况下,该目标语言搜索词通常对应至少一种翻译可能,这样将可能导致目标语言搜索结果到翻译搜索结果的翻译过程中出现翻译错误,然而错误的翻译搜索结果可能会使得用户认为该翻译搜索结果与源语言搜索词无关进而忽略该翻译搜索结果,从而降低了翻译搜索结果的点击率。
本发明实施例提供了一种跨语言搜索方案,该方案可以将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
本发明实施例从翻译搜索结果中获取与目标语言搜索词相匹配的关键词,并将所述翻译搜索结果中的所述关键词替换为源语言搜索词,可以在目标语言搜索结果到翻译搜索结果的翻译过程中出现目标语言搜索词对应的翻译错误的情况下,将该目标语言搜索词对应的翻译结果纠正为源语言搜索词,这样可以提高翻译搜索结果的准确率、保证翻译搜索结果与目标语言搜索结果之间的一致性,且可以提高翻译搜索结果对于用户的吸引力,从而可以进一步提高翻译搜索结果的点击率。
本发明实施例中,目标语言搜索词对应的搜索结果可以包括:目标语言搜索结果和翻译搜索结果,其中,翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到的源语言形式的搜索结果,目标语言搜索结果和翻译搜索结果可以对应相同的搜索结果(如相同的网页、视频、图片、音乐等),两者的区别之一在于语言形式的不同。
在本发明的一种应用示例中,假设用户输入的源语言搜索词为“蔻驰”,假设将该源语言搜索词“蔻驰”翻译为目标搜索词“coach”、并检索到目标搜索词“coach”对应的目标语言搜索结果“COACH–Shoes,Bags,Watches”,由于目标搜索词“coach”对应的翻译结果除“蔻驰”外还包括“教练”,故目标语言搜索结果“COACH–Shoes,Bags,Watches”可能被翻译为“教练–鞋子,袋子,手表”并被返回给用户。而本发明实施例可以从目标搜索词“coach”对应的翻译搜索结果“教练–鞋子,袋子,手表”中获取与目标搜索词“coach”相匹配的关键词,该关键词具体为“教练”,并将翻译搜索结果“教练–鞋子,袋子,手表”中的关键词“教练”替换为源语言搜索词“蔻驰”,上述替换可以实现对于目标语言搜索词对应的翻译结果的纠正,因此可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性和点击率。
本发明实施例可以应用于搜索APP(应用程序,Application)、搜索网站(如搜索引擎)等具有跨语言搜索功能的平台环境中,以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性和点击率。本发明实施例主要以搜索APP为例对本发明实施例的跨语言搜索方法进行说明,搜索网站等其他平台对应的跨语言搜索方法相互参照即可。
本发明实施例提供的跨语言搜索方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
本发明实施例的跨语言搜索流程可由客户端100和服务器200中的任一或者组合执行:
例如,客户端100可以接收用户输入的源语言搜索词,并向服务器200发送该源语言搜索词;服务器200在接收该源语言搜索词后,可以将源语言搜索词翻译为目标语言搜索词,获取所述目标语言搜索词对应的目标语言搜索结果,对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到翻译搜索结果;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词;并向客户端100发送替换后的上述翻译搜索结果,以使客户端100展现替换后的上述翻译搜索结果。
又如,客户端100可以接收用户输入的源语言搜索词,并在接收该源语言搜索词后,首先将源语言搜索词翻译为目标语言搜索词,接着获取所述目标语言搜索词对应的目标语言搜索结果,然后对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到翻译搜索结果;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词;进而展现替换后的上述翻译搜索结果。
其中,在翻译搜索结果、翻译搜索结果中关键词的获取过程、以及翻译搜索结果的替换过程由服务器200执行时,能够发挥服务器200计算资源丰富的优势,提高翻译搜索结果、以及翻译搜索结果中关键词的获取效率和获取准确率。例如,云服务器可以部署有众多高配置的计算设备,故利用这些计算设备进行翻译搜索结果、以及翻译搜索结果中关键词的获取,以提高翻译搜索结果、以及翻译搜索结果中关键词的获取效率和获取准确率;同时可以节省客户端100侧的运算资源,提高客户端100所对应终端的性能。当然,翻译搜索结果、翻译搜索结果中关键词的获取过程、以及翻译搜索结果的替换过程可由服务器200和客户端100中的任一执行,本发明实施例对于翻译搜索结果、翻译搜索结果中关键词的获取过程、以及翻译搜索结果的替换过程对应的具体执行主体不加以限制。
可选地,客户端100可以运行在终端上,上述终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例一
参照图2,示出了本发明的一种跨语言搜索方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、将源语言搜索词翻译为目标语言搜索词;
步骤202、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;
步骤203、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
步骤204、将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
本发明实施例中,源语言搜索词可以为用户使用源语言输入的搜索词。在实际应用中,搜索APP或者搜索网站的客户端可以提供UI(用户界面,User Interface),则用户可以通过该UI上的搜索框、语音接口等方式向客户端提交源语言搜索词。无论用户通过何种方式向客户端提交源语言搜索词,客户端均可以将接收到的源语言搜索词显示在搜索框中。因此,本发明实施例中,用户输入的源语言搜索词可以包括:用户通过任意方式向客户端提交的源语言搜索词。可以理解,本发明实施例对于用户输入的源语言搜索词的具体获取方式不加以限制。
本发明实施例中,源语言和目标语言可用于表示不同的两种语言,上述源语言和目标语言可由用户预置得到,也可由搜索APP或者搜索网站通过分析用户的搜索行为和/或浏览行为得到。可选地,搜索APP或者搜索网站可以将用户最常用的语言作为源语言,将除了源语言之外使用过的语言作为目标语言。例如,用户的搜索行为表明,用户之前使用的搜索词均为中文搜索词,则可以确定源语言为中文;用户的浏览行为还表明,用户访问过翻译网站,并通过该翻译网站进行过中文和英文之间的相互翻译行为,故可以确定目标语言为英文。可以理解,本发明实施例的目标语言的数量可以为一种或者多种,例如,对于以中文为母语的用户而言,源语言可以为中文,目标语言可以为英文、日文、韩文、德文、法文中的一种或者组合。本发明实施例主要以源语言为中文、目标语言为英文为例对本发明实施例的跨语言搜索方法进行说明,其他源语言和目标语言对应的跨语言搜索方法相互参照即可。
在实际应用中,步骤201可由客户端或者服务器将源语言搜索词翻译为目标语言搜索词。可选地,在将源语言搜索词翻译为目标语言搜索词的过程中,可能会得到多种不同的翻译结果,此种情况下,可以从多种不同的翻译结果中选择置信度最高的一种翻译结果作为目标语言搜索词,可以理解,本发明实施例对于将源语言搜索词翻译为目标语言搜索词的具体过程不加以限制。在本发明的一种应用示例中,若源语言搜索词为“蔻驰”,则目标语言搜索词可以为“coach”。在本发明的另一种应用示例中,若源语言搜索词为“迪士尼”,则目标语言搜索词可以为“disney”。
在实际应用中,步骤202可以依据步骤201得到的目标语言搜索词,在目标语言的数据库中进行检索,以得到目标语言搜索结果。可以理解,本发明实施例对于目标语言搜索结果的具体获取方式不加以限制。
由于步骤202中目标语言搜索结果表现为目标语言形式,该目标语言一般为该搜索用户的非母语语言或者为该搜索用户不熟悉的语言,这将影响用户从搜索结果中获取信息的效率。为了提高用户从搜索结果中获取信息的效率,步骤202可以对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到翻译搜索结果。其中,目标语言搜索结果和翻译搜索结果可以对应相同的搜索结果(如相同的网页、视频、图片、音乐等),两者的区别之一在于语言形式的不同。
在实际应用中,翻译搜索结果的获取过程可以包括:利用翻译模型,对所述目标语言搜索结果进行从目标语言到源语言的翻译;其中,该翻译模型可以为翻译领域内通用的翻译模型,也可以为搜索结果专用的翻译模型,本发明实施例对于具体的翻译模型、以及对所述目标语言搜索结果进行从目标语言到源语言的具体翻译过程不加以限制。
步骤203可以从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。其中,关键词对应的语言形式可以为源语言形式,也即关键词对应的语言形式与翻译搜索结果对应的语言形式一致。
本发明实施例中,关键词与目标语言搜索词相匹配,可以包括:关键词对应的语义与目标语言搜索词对应的语义相匹配,或者,关键词对源语言读者所产生的效果与目标语言搜索词对目标语言读者所产生的效果相匹配,或者,关键词在翻译搜索结果中的位置与目标语言搜索词在目标语言搜索结果中的位置一致。
根据一种实施例,步骤203从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的过程,可以包括:根据翻译词典获取与所述目标语言搜索词相匹配的关键词,并从所述翻译搜索结果中查找与所述关键词相同的内容。其中,上述翻译词典可以针对目标语言词汇提供对应的源语言词汇,如针对目标语言词汇“coach”提供的源语言词汇可以包括:“教练”、“长途客车”、等,由此可以从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。
根据另一种实施例,步骤203可以通过词对齐技术,从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。词对齐是指将双语句对中的源语言词汇和目标语言词汇对应。例如,双语句对为“我在教室玩游戏”、“I play game in the classroom”,词对齐技术能够将“我”、“在”、“教室”、“玩”、“游戏”分别与“I”、“in”、“classroom”、“play”、“game”对应起来。由于上述词对齐技术考虑了双语句中互为译文的词汇对之间的对齐关系,故可以提高关键词的准确率。通过词对齐技术,可以准确地定位到目标语言搜索词被错误翻译的情况、以及目标语言搜索词对应的错误翻译结果也即关键词,进而可以实现对于错误翻译结果的替换。
上述通过词对齐技术,从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的过程,可以包括:建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
其中,可以通过词对齐技术,建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系,具体地,可以获取目标语言搜索结果和翻译搜索结果中包括的双语句,并在双语句中互为译文的目标语言词汇与源语言词汇之间建立映射关系。
在实际应用中,可以利用词对齐模型,建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系。其中,可以采用双语对齐语料训练得到上述词对齐模型,以使该词对齐模型包含用于确定双语句中互为译文的词汇对的统计信息,由于词对齐模型为本领域的相关技术,在此不作赘述。
在本发明实施例的一种应用示例中,假设用户输入的源语言搜索词为“蔻驰”,假设将该源语言搜索词“蔻驰”翻译为目标搜索词“coach”、并检索到目标搜索词“coach”对应的目标语言搜索结果“COACH–Shoes,Bags,Watches”,由于目标搜索词“coach”对应的翻译结果包括“教练”,故目标语言搜索结果“COACH–Shoes,Bags,Watches”可能被翻译为“教练–鞋子,袋子,手表”。本发明实施例可以采用词对齐模型,对目标语言搜索结果和翻译搜索结果对应的双语句进行对齐,例如,对于双语句“COACH–Shoes,Bags,Watches”和“教练–鞋子,袋子,手表”,可以将“COACH”、“Shoes”、“Bags”分别与“教练”、“鞋子”、“手表”对应起来,由此,可以得到翻译搜索结果“教练–鞋子,袋子,手表”中包括的与“coach”相匹配的关键词“教练”。
可以理解,上述通过翻译词典、或者通过词对齐技术、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的过程只是作为可选实施例,实际上本领域技术人员可以根据实际应用需求,采用从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的其他过程,例如可以利用神经网络机器翻译模型的注意力机制,判断目标语言形式的“coach”被翻译成了源语言形式的哪个词,等等,其中,注意力机制是一个用来分配有限的信息处理能力的选择机制,注意力是指,选择性地专注在某些感受到的信息上,这些信息可能是客观或主观的,同时忽视同一时刻收到的其他信息,这一个认知过程。可以理解,本发明实施例对于从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的具体过程不加以限制。
在实际应用中,翻译搜索结果对应的展现内容可以包括:标题、摘要、推广内容等内容,则步骤204可以将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。例如,可以对标题或者摘要中包括的所述关键词替换为所述源语言搜索词,或者,可以对推广内容中包括的所述关键词替换为所述源语言搜索词,等等。
对应上述示例,可以将翻译搜索结果“教练–鞋子,袋子,手表”中的关键词“教练”替换为源语言搜索词“蔻驰”,上述替换可以实现对于目标语言搜索词对应的翻译结果的纠正,因此可以提高翻译搜索结果的准确率、以及翻译搜索结果与目标语言搜索结果之间的一致性和点击率。
在本发明的一些实施例中,可以将所述目标语言搜索词对应的搜索结果作为第二搜索结果,还可以获取源语言搜索词对应的第一搜索结果,并将目标语言形式和/或源语言形式的第二搜索结果与第一搜索结果进行混合展现;由此可以向用户提供源自多种语言数据库的搜索结果。可选地,可以在源语言的数据库中进行检索,以得到源语言搜索词对应的第一搜索结果。
综上,本发明实施例的跨语言搜索方法,从翻译搜索结果中获取与目标语言搜索词相匹配的关键词,并对所述翻译搜索结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的翻译搜索结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的翻译搜索结果中获取信息的效率。
方法实施例二
参照图3,示出了本发明的一种跨语言搜索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤301、将源语言搜索词翻译为目标语言搜索词;
步骤302、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;
步骤303、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
步骤304、若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
相对于图2所示方法实施例一,图3所示方法实施例二中将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词的过程可以包括:若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
本发明实施例将第一预置匹配度条件作为关键词的替换条件,该第一预置匹配度条件可用于约束关键词的替换所对应的匹配度。该匹配度可以在一定程度上反映关键词所表征的翻译结果的准确率,通常,该匹配度越低则翻译结果的准确率越低,该匹配度越高则翻译结果的准确率越高。
本发明实施例中,所述关键词与所述源语言搜索词之间的匹配度可以包括:所述关键词与所述源语言搜索词之间的相似度等,则第一预置匹配度条件可以包括:相似度不超过第一相似度阈值。在实际应用中,可以分别确定所述关键词对应的第一词向量、以及所述源语言搜索词对应的第二词向量,然后,通过欧氏距离、夹角余弦等相似度度量,计算第一词向量与第二词向量之间的相似度。
当然,上述相似度只是作为匹配度的一种可选实施例,实际上,本领域技术人员可以根据实际应用需求采用其他匹配度,如语义相关度等,本发明实施例对于具体的匹配度不加以限制。
在本发明实施例的一种应用示例中,可以对关键词“教练”与源语言搜索词“蔻驰”进行匹配度判断,认为该匹配度符合第一预置匹配度条件,则可以将翻译搜索结果中的关键词“教练”替换为源语言搜索词“蔻驰”。
可以理解,在本发明的其他实施例中,若所述关键词与所述源语言搜索词之间的匹配度不符合第一预置匹配度条件,则可以不将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。在本发明实施例的另一种应用示例中,可以对关键词为“迪士尼”与源语言搜索词“迪斯尼”进行匹配度判断,认为该匹配度不符合第一预置匹配度条件,则可以不将翻译搜索结果中的关键词“迪士尼”替换为源语言搜索词“迪斯尼”。当然,本发明实施例对于将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词对应的具体替换条件不加以限制。
方法实施例三
参照图4,示出了本发明的一种跨语言搜索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤401、将源语言搜索词翻译为目标语言搜索词;
步骤402、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;
步骤403、判断所述翻译搜索结果是否包括所述源语言搜索词;
步骤404、若所述翻译搜索结果不包括所述源语言搜索词,则从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
步骤405、将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
相对于图2所示方法实施例一,图4所示方法实施例三在从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,可以判断所述翻译搜索结果是否包括所述源语言搜索词,若否,则从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,并将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。相对于针对所有翻译搜索结果从中获取与所述目标语言搜索词相匹配的关键词,本发明实施例针对不包括所述源语言搜索词的翻译搜索结果,从中获取与所述目标语言搜索词相匹配的关键词,可以降低关键词的获取所需的运算量。例如,在采用词对齐技术获取关键词的情况下,可以避免对所有目标语言搜索结果对应的翻译搜索结果均进行词对齐的操作,仅对不包含源语言搜索词的翻译搜索结果、即有可能出现翻译错误的翻译搜索结果进行词对齐操作,故可以降低词对齐操作的操作频度,进而可以降低关键词的获取所需的运算量。
可以理解,上述在所述翻译搜索结果不包括所述源语言搜索词的情况下、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,只是作为可选实施例,实际上,本发明实施例对于“从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词”对应的执行条件不加以限制。例如,在所述翻译搜索结果包括所述源语言搜索词的情况下,也可以从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。
方法实施例四
参照图5,示出了本发明的一种跨语言搜索方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤501、将源语言搜索词翻译为目标语言搜索词;
步骤502、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;
步骤503、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
步骤504、将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词;
相对于图2所示方法实施例一,图5所示方法实施例四还可以包括:
步骤505、若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
发明人在实施本发明实施例的过程中发现,现有方案可以将目标语言搜索结果翻译到源语言,并对翻译得到的翻译搜索结果中、与源语言搜索词(以下简称源语言搜索词)相同的内容进行标红。例如,若源语言搜索词为“特朗普”,对应的目标语言搜索词为“Trump”,则可以将“Trump”对应的翻译搜索结果中出现的“特朗普”进行标红,由此可以使用户快速获取某条翻译搜索结果中包括的关键信息,进而可以使用户快速判断某条翻译搜索结果是否符合自身的信息需求。
然而,在实际应用中,翻译质量等因素导致翻译搜索结果中可能不存在源语言搜索词;此种情况下,将无法实现对于翻译搜索结果的标红,使得标红内容的覆盖率较低,进而影响用户对于某条翻译搜索结果包括的关键信息的获取效率。例如,假设源语言搜索词为“3月”,假设“3月”对应的目标语言搜索词为“March”,假设“March”对应的目标语言搜索结果包括“March-Wikipedia”,假设针对“March-Wikipedia”翻译得到的、“March”对应的翻译搜索结果包括“三月-***”,则由于“March”对应的翻译搜索结果中不存在“3月”,因此无法实现对于翻译搜索结果的标红。
针对上述翻译搜索结果中标红内容的覆盖率低的技术问题,本发明实施例从翻译搜索结果中获取与目标语言搜索词相匹配的关键词,并对所述翻译搜索结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的翻译搜索结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的翻译搜索结果中获取信息的效率。
在本发明实施例的一种应用示例中,假设源语言搜索词为“3月”,假设“3月”对应的目标语言搜索词为“March”,假设“March”对应的目标语言搜索结果包括“March-Wikipedia”,假设针对“March-Wikipedia”翻译得到的、“March”对应的翻译搜索结果包括“三月-***”,则本发明实施例可以采用词对齐模型,对目标语言搜索结果和翻译搜索结果对应的双语句进行对齐,例如,对于双语句“March-Wikipedia”和“三月-***”,可以将“March”、“Wikipedia”分别与“三月”、“***”对应起来,由此,可以得到翻译搜索结果“三月-***”中包括的与“March”相匹配的关键词“三月”;进一步,可以在“March”对应的翻译搜索结果“三月-***”中的关键词“三月”进行标记显示,由此可以提高翻译搜索结果中标红内容的覆盖率。
可选地,可以通过标记所述关键词的字体或者颜色,对所述关键词进行标记显示;例如,可以将所述关键词的字体加粗、加下划线、倾斜、立体化、设为红色等,这相对于正常字体或者正常颜色的展现内容,能够提高所述关键词的辨识度。或者,在展示所述关键词的同时,展示所述所述关键词的标识。例如,可以在所述关键词的上标、下标等位置,展现对应的图标等,可以理解,本发明实施例对于具体的标记显示过程不加以限制。
本发明实施例中,由于标记显示的关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,故可以提高标记显示的关键词与源语言搜索词之间的关联,进而可以使标记显示的关键词更加符合用户的信息需求。
本发明实施例中,所述关键词与所述源语言搜索词之间的匹配度可以包括:所述关键词与所述源语言搜索词之间的相似度等,第二预置匹配度条件可以包括:相似度超过第二相似度阈值等。
在本发明实施例的一种应用示例中,可以对关键词“三月”与源语言搜索词“3月”进行匹配度判断,若该匹配度符合预置匹配度条件,则可以对翻译搜索结果中的关键词“三月”进行标记显示。
在本发明实施例的另一种应用示例中,可以对关键词为“迪士尼”与源语言搜索词“迪斯尼”进行匹配度判断,若该匹配度符合预置匹配度条件,则可以对翻译搜索结果中的关键词“迪士尼”进行标记显示。
可以理解,在本发明的其他实施例中,若所述关键词与所述源语言搜索词之间的匹配度不符合预置匹配度条件,则可以不对所述翻译搜索结果中的所述关键词进行标记显示,以避免与源语言搜索词之间的关联较低的关键词被标记显示。
在本发明的一种可选实施例中,本发明实施例的方法还可以包括:若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。由此可以在翻译搜索结果中不存在源语言搜索词的情况下,实现对于翻译搜索结果的标红。
在本发明的一种可选实施例中,本发明实施例的方法还可以包括:若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。本发明实施例在所述翻译搜索结果包括所述源语言搜索词的情况下,也可以从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,由此可以实现翻译搜索结果中源语言搜索词和关键词的同时标红。
综上,本发明实施例的跨语言搜索方法,从翻译搜索结果中获取与目标语言搜索词相匹配的关键词,并对所述翻译搜索结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的翻译搜索结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的翻译搜索结果中获取信息的效率。
方法实施例五
参照图6,示出了本发明的一种跨语言搜索方法实施例五的步骤流程图,具体可以包括如下步骤:
步骤601、将源语言搜索词翻译为目标语言搜索词;
步骤602、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果可以为对所述目标语言搜索结果进行翻译得到;
步骤603、从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
步骤604、若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词;
步骤605、若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可以理解,本发明实施例还可以对替换后的翻译搜索结果中的源语言搜索词进行标记显示。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图7,示出了本发明的一种跨语言搜索装置实施例的结构框图,具体可以包括:搜索词翻译模块701、搜索结果获取模块702、关键词获取模块703和关键词替换模块704。
其中,搜索词翻译模块701,用于将源语言搜索词翻译为目标语言搜索词;
搜索结果获取模块702,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块703,用于从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
关键词替换模块704,用于将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述关键词获取模块703可以包括:
映射建立子模块,用于建立所述目标语言搜索结果中可以包括的目标语言词汇与所述翻译搜索结果可以包括的源语言词汇之间的映射关系;
映射查找子模块,用于依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果可以包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述装置还可以包括:
判断模块,用于在所述关键词获取模块703从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述翻译搜索结果是否可以包括所述源语言搜索词,若否,则触发所述关键词获取模块703从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。
可选地,所述关键词替换模块704,具体用于若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述装置还可以包括:
第一标记显示模块,用于若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述第一标记显示模块,具体用于若所述翻译搜索结果不可以包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述装置还可以包括:
第二标记显示模块,用于若所述翻译搜索结果可以包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
再一方面,本发明实施例公开了一种用于跨语言搜索的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,包括:
建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;
依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述翻译搜索结果是否包括所述源语言搜索词;
若所述翻译搜索结果不包括所述源语言搜索词,则执行所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的步骤。
可选地,所述将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词,包括:
若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述对所述翻译搜索结果中的所述关键词进行标记显示,包括:
若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
图8是根据一示例性实施例示出的一种用于跨语言搜索的装置900作为终端时的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图9是根据一示例性实施例示出的一种用于跨语言搜索的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或服务器)的处理器执行时,使得终端能够执行一种跨语言搜索方法,所述方法包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种跨语言搜索方法、一种跨语言搜索装置和一种用于跨语言搜索的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (22)
1.一种跨语言搜索方法,其特征在于,包括:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
2.根据权利要求1所述的方法,其特征在于,所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,包括:
建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;
依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
3.根据权利要求1或2所述的方法,其特征在于,在所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,所述方法还包括:
判断所述翻译搜索结果是否包括所述源语言搜索词;
若所述翻译搜索结果不包括所述源语言搜索词,则执行所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的步骤。
4.根据权利要求1或2所述的方法,其特征在于,所述将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词,包括:
若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
6.根据权利要求5所述的方法,其特征在于,所述对所述翻译搜索结果中的所述关键词进行标记显示,包括:
若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
8.一种跨语言搜索装置,其特征在于,包括:
搜索词翻译模块,用于将源语言搜索词翻译为目标语言搜索词;
搜索结果获取模块,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块,用于从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;以及
关键词替换模块,用于将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
9.根据权利要求8所述的装置,其特征在于,所述关键词获取模块包括:
映射建立子模块,用于建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;
映射查找子模块,用于依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
判断模块,用于在所述关键词获取模块从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述翻译搜索结果是否包括所述源语言搜索词,若否,则触发所述关键词获取模块从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词。
11.根据权利要求8或9所述的装置,其特征在于,所述关键词替换模块,具体用于若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
12.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
第一标记显示模块,用于若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
13.根据权利要求12所述的装置,其特征在于,所述第一标记显示模块,具体用于若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
14.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
第二标记显示模块,用于若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
15.一种用于跨语言搜索的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和翻译搜索结果;其中,所述翻译搜索结果为对所述目标语言搜索结果进行翻译得到;
从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词;
将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
16.根据权利要求15所述的装置,其特征在于,所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词,包括:
建立所述目标语言搜索结果中包括的目标语言词汇与所述翻译搜索结果包括的源语言词汇之间的映射关系;
依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述翻译搜索结果包括的、与所述目标语言搜索词相匹配的关键词。
17.根据权利要求15或16所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述翻译搜索结果是否包括所述源语言搜索词;
若所述翻译搜索结果不包括所述源语言搜索词,则执行所述从所述翻译搜索结果中获取与所述目标语言搜索词相匹配的关键词的步骤。
18.根据权利要求15或16所述的装置,其特征在于,所述将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词,包括:
若所述关键词与所述源语言搜索词之间的匹配度符合第一预置匹配度条件,则将所述翻译搜索结果中的所述关键词替换为所述源语言搜索词。
19.根据权利要求15或16所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
20.根据权利要求19所述的装置,其特征在于,所述对所述翻译搜索结果中的所述关键词进行标记显示,包括:
若所述翻译搜索结果不包括所述源语言搜索词、且所述关键词与所述源语言搜索词之间的匹配度符合第二预置匹配度条件,则对所述翻译搜索结果中的所述关键词进行标记显示。
21.根据权利要求15或16所述的装置,其特征在于,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述翻译搜索结果包括所述源语言搜索词,则对所述翻译搜索结果中的所述源语言关键词进行标记显示。
22.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的跨语言搜索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711297472.8A CN108255939B (zh) | 2017-12-08 | 2017-12-08 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
PCT/CN2018/100991 WO2019109664A1 (zh) | 2017-12-08 | 2018-08-17 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711297472.8A CN108255939B (zh) | 2017-12-08 | 2017-12-08 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255939A CN108255939A (zh) | 2018-07-06 |
CN108255939B true CN108255939B (zh) | 2020-02-14 |
Family
ID=62722398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711297472.8A Active CN108255939B (zh) | 2017-12-08 | 2017-12-08 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108255939B (zh) |
WO (1) | WO2019109664A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255939B (zh) * | 2017-12-08 | 2020-02-14 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
CN111161706A (zh) * | 2018-10-22 | 2020-05-15 | 阿里巴巴集团控股有限公司 | 交互方法、装置、设备和*** |
CN109408822A (zh) * | 2018-10-30 | 2019-03-01 | 中译语通科技股份有限公司 | 一种跨语言图书相关度分析方法及*** |
CN110033756B (zh) * | 2019-04-15 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 语种识别方法、装置、电子设备及存储介质 |
CN110232107A (zh) * | 2019-05-08 | 2019-09-13 | 深圳市小满科技有限公司 | 一种产品数据获取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101443759A (zh) * | 2006-05-12 | 2009-05-27 | 乐图集团有限公司 | 多语言信息检索 |
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通***及方法 |
CN102955853A (zh) * | 2012-11-02 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种跨语言文摘的生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255939B (zh) * | 2017-12-08 | 2020-02-14 | 北京搜狗科技发展有限公司 | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 |
-
2017
- 2017-12-08 CN CN201711297472.8A patent/CN108255939B/zh active Active
-
2018
- 2018-08-17 WO PCT/CN2018/100991 patent/WO2019109664A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101443759A (zh) * | 2006-05-12 | 2009-05-27 | 乐图集团有限公司 | 多语言信息检索 |
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通***及方法 |
CN102955853A (zh) * | 2012-11-02 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种跨语言文摘的生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108255939A (zh) | 2018-07-06 |
WO2019109664A1 (zh) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255939B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN107918496B (zh) | 一种输入纠错方法和装置、一种用于输入纠错的装置 | |
CN110941966A (zh) | 机器翻译模型的训练方法、装置及*** | |
WO2019109663A1 (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN110019675B (zh) | 一种关键词提取的方法及装置 | |
CN106919642B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN109101505B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN107665046B (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN110020106B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN111414766B (zh) | 一种翻译方法及装置 | |
CN108628461B (zh) | 一种输入方法和装置、一种更新词库的方法和装置 | |
CN109725736B (zh) | 一种候选排序方法、装置及电子设备 | |
CN107784037B (zh) | 信息处理方法和装置、用于信息处理的装置 | |
CN111241844A (zh) | 一种信息推荐方法及装置 | |
CN113033163A (zh) | 一种数据处理方法、装置和电子设备 | |
US20210124880A1 (en) | Method and device for information processing, and storage medium | |
US20230267282A1 (en) | Poetry generation | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN111832297A (zh) | 词性标注方法、装置及计算机可读存储介质 | |
CN110633017B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN109992790B (zh) | 数据处理方法和装置、用于数据处理的装置 | |
CN108614830B (zh) | 一种搜索结果的展示方法和装置 | |
RU2636673C2 (ru) | Способ и устройство для сохранения строки | |
CN112837668B (zh) | 一种语音处理方法、装置和用于处理语音的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |