CN108255940A - 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 - Google Patents

一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 Download PDF

Info

Publication number
CN108255940A
CN108255940A CN201711298752.0A CN201711298752A CN108255940A CN 108255940 A CN108255940 A CN 108255940A CN 201711298752 A CN201711298752 A CN 201711298752A CN 108255940 A CN108255940 A CN 108255940A
Authority
CN
China
Prior art keywords
language
source language
language search
translation results
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711298752.0A
Other languages
English (en)
Inventor
许静芳
张嘉成
翟飞飞
戴磊
刘祺
方菲
丁彦卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711298752.0A priority Critical patent/CN108255940A/zh
Publication of CN108255940A publication Critical patent/CN108255940A/zh
Priority to PCT/CN2018/100990 priority patent/WO2019109663A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;对所述源语言翻译结果中的所述关键词进行标记显示。本发明实施例可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。

Description

一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种跨语言搜索方法和装置、一种用于跨语言搜索的装置。
背景技术
随着互联网信息的不断增长,用户对于信息搜索提出了更高的要求,不再满足于在同一种语种数据库中搜索,而要求获取多种语种数据。例如,用户输入的搜索词(query)为“3月”,中文数据库中的搜索可能并不能最大程度地满足用户需求,源自欧美网站的英文数据库中可能具有更优、更多的搜索结果。
跨语言搜索技术结合了信息检索技术和机器翻译技术。现有的跨语言搜索过程具体可以包括:首先,通过机器翻译技术将源语言搜索词转换为目标语言形式的搜索词,然后,分别依据源语言搜索词和目标语言形式的搜索词,分别在对应的数据库中进行信息检索,以得到多语言的搜索结果,其中,多语言的搜索结果可以包括:源语言形式的搜索结果和目标语言搜索结果。
为了满足不具备目标语言阅读能力、或者目标语言的阅读能力有限的用户的需求,现有方案可以对目标语言搜索结果进行翻译,并将翻译得到的源语言翻译结果提供给用户。然而,在实际应用中,用户通常需要认真解读才能从源语言翻译结果中获取所需的关键信息,这将影响用户从源语言翻译结果中获取信息的效率。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的跨语言搜索方法、跨语言搜索装置及用于跨语言搜索的装置,本发明实施例可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。
为了解决上述问题,本发明实施例公开了一种跨语言搜索方法,包括:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
对所述源语言翻译结果中的所述关键词进行标记显示。
另一方面,本发明实施例公开了一种跨语言搜索装置,包括:
搜索词翻译模块,用于将源语言搜索词翻译为目标语言搜索词;
结果获取模块,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块,用于从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;以及
标记显示模块,用于对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述关键词获取模块包括:
映射建立子模块,用于建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系;以及
映射查找子模块,用于依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述源语言翻译结果包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述标记显示模块,具体用于若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述装置还包括:
判断模块,用于在所述关键词获取模块从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述源语言翻译结果是否包括所述源语言搜索词,若所述源语言翻译结果不包括所述源语言搜索词,则触发所述关键词获取模块从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词。
可选地,所述装置还包括:
第二标记显示模块,用于若所述源语言翻译结果包括所述源语言搜索词,则对所述源语言翻译结果中的所述源语言搜索词进行标记显示。
可选地,所述装置还包括:
翻译结果获取模块,用于获取所述目标语言搜索词对应的至少两种翻译结果;
第三标记显示模块,用于对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。
可选地,所述源语言翻译结果获取子模块包括:
筛选单元,用于对所述目标语言搜索词进行从目标语言到源语言的翻译,从翻译得到的结果中筛选得到至少两种源语言的翻译结果;
其中,所述筛选单元包括:
第一筛选子单元,用于从所述翻译得到的结果中选择置信度符合预置置信度条件的至少两种源语言的翻译结果;或者,
第二筛选子单元,用于依据所述源语言搜索词的词性,从所述翻译得到的结果中筛选得到至少两种翻译结果。
再一方面,本发明实施例公开了一种用于跨语言搜索的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
对所述源语言翻译结果中的所述关键词进行标记显示。
又一方面,本发明实施例公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述一个或多个所述的跨语言搜索方法。
本发明实施例包括以下优点:
本发明实施例从源语言翻译结果中获取与目标语言搜索词相匹配的关键词,并对所述源语言翻译结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。
附图说明
图1是本发明的一种跨语言搜索方法的应用环境的示意图;
图2是本发明的一种跨语言搜索方法实施例一的步骤流程图;
图3是本发明的一种跨语言搜索方法实施例二的步骤流程图;
图4是本发明的一种跨语言搜索方法实施例三的步骤流程图;
图5是本发明的一种跨语言搜索方法实施例四的步骤流程图;
图6是本发明的一种跨语言搜索装置实施例的结构框图;
图7是本发明的一种用于跨语言搜索的装置900作为终端时的框图;及
图8是本发明的一种用于跨语言搜索的装置作为服务器时的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
发明人在实施本发明实施例的过程中发现,现有方案可以将目标语言搜索结果翻译到源语言,并对翻译得到的源语言翻译结果中、与源语言搜索词相同的内容进行标红。例如,若源语言搜索词为“特朗普”,对应的目标语言搜索词为“Trump”,则可以将“Trump”对应的源语言翻译结果中出现的“特朗普”进行标红,由此可以使用户快速获取某条源语言翻译结果中包括的关键信息,进而可以使用户快速判断某条源语言翻译结果是否符合自身的信息需求。
然而,在实际应用中,翻译质量等因素导致源语言翻译结果中可能不存在源语言搜索词;此种情况下,将无法实现对于源语言翻译结果的标红,使得标红内容的覆盖率较低,进而影响用户对于某条源语言翻译结果包括的关键信息的获取效率。例如,假设源语言搜索词为“3月”,假设“3月”对应的目标语言搜索词为“March”,假设“March”对应的目标语言搜索结果包括“March-Wikipedia”,假设针对“March-Wikipedia”翻译得到的源语言翻译结果为“三月-***”,可见源语言翻译结果中不存在源语言搜索词“3月”,因此无法实现对于源语言翻译结果中关键信息的标红。
针对现有方案中源语言翻译结果中标红内容的覆盖率低的技术问题,本发明实施例提供了一种跨语言搜索方案,该方案可以将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到;从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;并对所述源语言翻译结果中的所述关键词进行标记显示。
本发明实施例从源语言翻译结果中获取与目标语言搜索词相匹配的关键词,并对所述源语言翻译结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。
本发明实施例中,目标语言搜索词对应的搜索结果可以包括:目标语言搜索结果和源语言翻译结果,其中,源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到,目标语言搜索结果和源语言翻译结果可以对应相同的搜索结果(如相同的网页、视频、图片、音乐等),两者的区别之一在于语言形式的不同。
在本发明的一种应用示例中,假设源语言搜索词为“3月”,假设“3月”对应的目标语言搜索词为“March”,假设“March”对应的目标语言搜索结果包括“March-Wikipedia”,针对“March-Wikipedia”翻译得到的源语言翻译结果为“三月-***”,则本发明实施例可以从“March”对应的源语言翻译结果“三月-***”中确定出与“March”相匹配的关键词“三月”,并对“March”对应的源语言翻译结果“三月-***”中的“三月”进行标记显示,由此可以提高源语言翻译结果中标红内容的覆盖率。
本发明实施例可以应用于搜索APP(应用程序,Application)、搜索网站(如搜索引擎)等具有跨语言搜索功能的平台环境中,以提高从目标语言搜索词对应的搜索结果中获取信息的效率。本发明实施例主要以搜索APP为例对本发明实施例的跨语言搜索方法进行说明,搜索网站等其他平台对应的跨语言搜索方法相互参照即可。
本发明实施例提供的跨语言搜索方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
本发明实施例的跨语言搜索流程可由客户端100和服务器200中的任一或者组合执行:
例如,客户端100可以接收用户输入的源语言搜索词,并向服务器200发送该源语言搜索词;服务器200在接收该源语言搜索词后,可以将源语言搜索词翻译为目标语言搜索词,获取所述目标语言搜索词对应的目标语言搜索结果,对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到源语言翻译结果;以及从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;并向客户端100发送上述源语言翻译结果和上述关键词,以使客户端100展现所述源语言翻译结果,并对所述源语言翻译结果中的所述关键词进行标记显示。
又如,客户端100可以接收用户输入的源语言搜索词,并在接收该源语言搜索词后,首先将源语言搜索词翻译为目标语言搜索词,接着获取所述目标语言搜索词对应的目标语言搜索结果,然后对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到源语言翻译结果;以及从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;进而展现所述源语言翻译结果,并对所述源语言翻译结果中的所述关键词进行标记显示。
其中,在源语言翻译结果、以及源语言翻译结果中关键词的获取过程由服务器200执行时,能够发挥服务器200计算资源丰富的优势,提高源语言翻译结果、以及源语言翻译结果中关键词的获取效率和获取准确率。例如,云服务器可以部署有众多高配置的计算设备,故利用这些计算设备进行源语言翻译结果、以及源语言翻译结果中关键词的获取,以提高源语言翻译结果、以及源语言翻译结果中关键词的获取效率和获取准确率;同时可以节省客户端100侧的运算资源,提高客户端100所对应终端的性能。当然,源语言翻译结果和源语言翻译结果中关键词的获取过程可由服务器200和客户端100中的任一执行,本发明实施例对于源语言翻译结果和源语言翻译结果中关键词的获取过程对应的具体执行主体不加以限制。
可选地,客户端100可以运行在终端上,上述终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例一
参照图2,示出了本发明的一种跨语言搜索方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、将源语言搜索词翻译为目标语言搜索词;
步骤202、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到;
步骤203、从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
步骤204、对所述源语言翻译结果中的所述关键词进行标记显示。
本发明实施例中,源语言搜索词可以为用户使用源语言输入的搜索词。在实际应用中,搜索APP或者搜索网站的客户端可以提供UI(用户界面,User Interface),则用户可以通过该UI上的搜索框、语音接口等方式向客户端提交源语言搜索词。无论用户通过何种方式向客户端提交源语言搜索词,客户端均可以将接收到的源语言搜索词显示在搜索框中,因此,本发明实施例中,用户输入的源语言搜索词可以包括:用户通过任意方式向客户端提交的源语言搜索词。可以理解,本发明实施例对于用户输入的源语言搜索词的具体获取方式不加以限制。
本发明实施例中,源语言和目标语言可用于表示不同的两种语言,上述源语言和目标语言可由用户预置得到,也可由搜索APP或者搜索网站通过分析用户的搜索行为和/或浏览行为得到。可选地,搜索APP或者搜索网站可以将用户最常用的语言作为源语言,将除了源语言之外使用过的语言作为目标语言。例如,用户的搜索行为表明,用户之前使用的搜索词均为中文搜索词,则可以确定源语言为中文;用户的浏览行为还表明,用户访问过翻译网站,并通过该翻译网站进行过中文和英文之间的相互翻译行为,故可以确定目标语言为英文。可以理解,本发明实施例的目标语言的数量可以为一种或者多种,例如,对于以中文为母语的用户而言,源语言可以为中文,目标语言可以为英文、日文、韩文、德文、法文中的一种或者组合。本发明实施例主要以源语言为中文、目标语言为英文为例对本发明实施例的跨语言搜索方法进行说明,其他源语言和目标语言对应的跨语言搜索方法相互参照即可。
在实际应用中,步骤201可由客户端或者服务器将源语言搜索词翻译为目标语言搜索词。可选地,在将源语言搜索词翻译为目标语言搜索词的过程中,可能会得到多种不同的翻译结果,此种情况下,可以从多种不同的翻译结果中选择置信度最高的一种翻译结果作为目标语言搜索词,可以理解,本发明实施例对于将源语言搜索词翻译为目标语言搜索词的具体过程不加以限制。在本发明的一种应用示例中,若源语言搜索词为“3月”,则目标语言搜索词可以为“March”。在本发明的另一种应用示例中,若源语言搜索词为“迪士尼”,则目标语言搜索词可以为“disney”。
在实际应用中,步骤202可以依据步骤201得到的目标语言搜索词,在目标语言的数据库中进行检索,以得到目标语言搜索结果。可以理解,本发明实施例对于目标语言搜索结果的具体获取方式不加以限制。
由于步骤202中目标语言搜索结果表现为目标语言形式,该目标语言一般为该搜索用户的非母语语言或者为该搜索用户不熟悉的语言,这将影响用户从搜索结果中获取信息的效率。为了提高用户从搜索结果中获取信息的效率,步骤202可以对所述目标语言搜索结果进行从目标语言到源语言的翻译,以得到源语言翻译结果。其中,目标语言搜索结果和源语言翻译结果可以对应相同的搜索结果(如相同的网页、视频、图片、音乐等),两者的区别之一在于语言形式的不同。
在实际应用中,源语言翻译结果的获取过程可以包括:利用翻译模型,对所述目标语言搜索结果进行从目标语言到源语言的翻译;其中,该翻译模型可以为翻译领域内通用的翻译模型,也可以为搜索结果专用的翻译模型,本发明实施例对于具体的翻译模型、以及对所述目标语言搜索结果进行从目标语言到源语言的具体翻译过程不加以限制。
在本发明的一种可选实施例中,可以通过改进对所述目标语言搜索结果从目标语言到源语言的翻译过程,实现源语言翻译结果中目标内容的翻译结果与源语言搜索词的一致性,这样,可以提高标红内容的覆盖率。相应地,源语言翻译结果的获取过程可以包括:在对所述目标语言搜索结果进行从目标语言到源语言的翻译的过程中,将所述目标语言搜索结果中目标内容翻译为与所述源语言搜索词一致的翻译结果;其中,所述目标内容为所述目标语言搜索结果中与所述目标语言搜索词相同的内容。例如,虽然目标搜索词“Trump”的翻译结果可以包括:“川普”、“特朗普”、“王牌”、“好人”、“老实人”等,然而,由于标红的对象为所述关键词,故本发明实施例可以通过提高源语言翻译结果中目标内容的翻译结果与源语言搜索词的一致性,提高标红内容的覆盖率。这样,若目标语言搜索词“Trump”对应的源语言搜索词为“特朗普”,则可以将目标语言搜索词“Trump”翻译为“特朗普”,并将所述目标语言搜索结果中包括的所有的“Trump”均翻译为“特朗普”;或者,若目标语言搜索词“Trump”对应的源语言搜索词为“川普”,则可以将目标语言搜索词“Trump”翻译为“川普”,并将所述目标语言搜索结果中包括的所有“Trump”均翻译为“川普”;由此可以提高标红内容的覆盖率。
步骤203可以从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词。其中,关键词对应的语言形式可以为源语言形式,也即关键词对应的语言形式与源语言翻译结果对应的语言形式一致。
本发明实施例中,关键词与目标语言搜索词相匹配,可以包括:关键词对应的语义与目标语言搜索词对应的语义相匹配,或者,关键词对源语言读者所产生的效果与目标语言搜索词对目标语言读者所产生的效果相匹配。
根据一种实施例,步骤203从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的过程,可以包括:根据翻译词典获取与所述目标语言搜索词相匹配的关键词,并从所述源语言翻译结果中查找与所述关键词相同的内容。其中,上述翻译词典可以针对目标语言词汇提供对应的源语言词汇,如针对目标语言词汇“March”提供的源语言词汇可以包括:“三月”、“3月”、“前进”等,由此可以从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词。
根据另一种实施例,步骤203可以通过词对齐技术,从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词。词对齐是指将双语句对中的源语言词汇和目标语言词汇对应。例如,双语句对为“我在教室玩游戏”、“I play game in the classroom”,词对齐技术能够将“我”、“在”、“教室”、“玩”、“游戏”分别与“I”、“in”、“classroom”、“play”、“game”对应起来。由于上述词对齐技术考虑了双语句中互为译文的词汇对之间的对齐关系,故可以提高关键词的准确率。
上述通过词对齐技术,从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的过程,可以包括:建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系;依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述源语言翻译结果包括的、与所述目标语言搜索词相匹配的关键词。
其中,可以通过词对齐技术,建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系,具体地,可以获取目标语言搜索结果和源语言翻译结果中包括的双语句,并在双语句中互为译文的目标语言词汇与源语言词汇之间建立映射关系。
在实际应用中,可以利用词对齐模型,建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系。其中,可以采用双语对齐语料训练得到上述词对齐模型,以使该词对齐模型包含用于确定双语句中互为译文的词汇对的统计信息,由于词对齐模型为本领域的相关技术,在此不作赘述。
在本发明实施例的一种应用示例中,假设源语言搜索词为“3月”,假设“3月”对应的目标语言搜索词为“March”,假设“March”对应的目标语言搜索结果包括“March-Wikipedia”,假设针对“March-Wikipedia”翻译得到的、“March”对应的源语言翻译结果包括“三月-***”,则本发明实施例可以采用词对齐模型,对目标语言搜索结果和源语言翻译结果对应的双语句进行对齐,例如,对于双语句“March-Wikipedia”和“三月-***”,可以将“March”、“Wikipedia”分别与“三月”、“***”对应起来,由此,可以得到源语言翻译结果“三月-***”中包括的与“March”相匹配的关键词“三月”。
可以理解,上述通过翻译词典、或者通过词对齐技术、从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的过程只是作为可选实施例,实际上本领域技术人员可以根据实际应用需求,采用从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的其他过程,例如可以利用神经网络机器翻译模型的注意力机制,判断目标语言搜索词被翻译成了源语言形式的哪个词,等等,其中,注意力机制是一个用来分配有限的信息处理能力的选择机制,注意力是指,选择性地专注在某些感受到的信息上,这些信息可能是客观或主观的,同时忽视同一时刻收到的其他信息,这一个认知过程。本发明实施例对于从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的具体过程不加以限制。
在实际应用中,源语言翻译结果对应的展现内容可以包括:标题、摘要、推广内容等内容,则步骤204可以对所述源语言翻译结果对应的展现内容中的所述关键词进行标记显示。例如,可以对标题或者摘要中包括的所述关键词进行标记展示,或者,可以对推广内容中包括的所述关键词进行标记展示。
可选地,可以通过标记所述关键词的字体或者颜色,对所述关键词进行标记显示;例如,可以将所述关键词的字体加粗、加下划线、倾斜、立体化、设为红色等,这相对于正常字体或者正常颜色的展现内容,能够提高所述关键词的辨识度。或者,在展示所述关键词的同时,展示所述所述关键词的标识。例如,可以在所述关键词的上标、下标等位置,展现对应的图标等,可以理解,本发明实施例对于具体的标记显示过程不加以限制。
在本发明的一些实施例中,可以将所述目标语言搜索词对应的搜索结果作为第一搜索结果,还可以获取源语言搜索词对应的第二搜索结果,并将目标语言形式和/或源语言形式的第一搜索结果与第二搜索结果进行混合展现;由此可以向用户提供源自多种语言数据库的搜索结果。可选地,可以在源语言的数据库中进行检索,以得到源语言搜索词对应的第二搜索结果。
综上,本发明实施例的跨语言搜索方法,从源语言翻译结果中获取与目标语言搜索词相匹配的关键词,并对所述源语言翻译结果中的所述关键词进行标记显示,可以提高目标语言搜索词对应的源语言翻译结果中标红内容的覆盖率,进而可以提高从目标语言搜索词对应的源语言翻译结果中获取信息的效率。
方法实施例二
参照图3,示出了本发明的一种跨语言搜索方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤301、将源语言搜索词翻译为目标语言搜索词;
步骤302、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到;
步骤303、从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
步骤304、若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。
相对于图2所示方法实施例一,图3所示方法实施例二中对所述源语言翻译结果中的所述关键词进行标记显示的过程可以包括:若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。由于标记显示的关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,故可以提高标记显示的关键词与源语言搜索词之间的关联,进而可以使标记显示的关键词更加符合用户的信息需求。
本发明实施例中,所述关键词与所述源语言搜索词之间的匹配度可以包括:所述关键词与所述源语言搜索词之间的相似度等,预置匹配度条件可以包括:相似度超过相似度阈值。在实际应用中,可以分别确定所述关键词对应的第一词向量、以及所述源语言搜索词对应的第二词向量,然后,通过欧氏距离、夹角余弦等相似度度量,计算第一词向量与第二词向量之间的相似度。
当然,上述相似度只是作为匹配度的一种可选实施例,实际上,本领域技术人员可以根据实际应用需求采用其他匹配度,如语义相关度等,本发明实施例对于具体的匹配度不加以限制。
在本发明实施例的一种应用示例中,可以对关键词“三月”与源语言搜索词“3月”进行匹配度判断,若该匹配度符合预置匹配度条件,则可以对源语言翻译结果中的关键词“三月”进行标记显示。
在本发明实施例的另一种应用示例中,可以对关键词为“迪士尼”与源语言搜索词“迪斯尼”进行匹配度判断,若该匹配度符合预置匹配度条件,则可以对源语言翻译结果中的关键词“迪士尼”进行标记显示。
可以理解,在本发明的其他实施例中,若所述关键词与所述源语言搜索词之间的匹配度不符合预置匹配度条件,则可以不对所述源语言翻译结果中的所述关键词进行标记显示,以避免与源语言搜索词之间的关联较低的关键词被标记显示。
方法实施例三
参照图4,示出了本发明的一种跨语言搜索方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤401、将源语言搜索词翻译为目标语言搜索词;
步骤402、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到;
步骤403、判断所述源语言翻译结果是否包括所述源语言搜索词;
步骤404、若所述源语言翻译结果不包括所述源语言搜索词,则从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
步骤405、对所述源语言翻译结果中的所述关键词进行标记显示。
相对于图2所示方法实施例一,图4所示方法实施例三在从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词之前,可以判断所述源语言翻译结果是否包括所述源语言搜索词,若否,则从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词,并对所述源语言翻译结果中的所述关键词进行标记显示;由此可以在源语言翻译结果中不存在源语言搜索词的情况下,实现对于源语言翻译结果的标红。
可以理解,上述在所述源语言翻译结果不包括所述源语言搜索词的情况下、从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词,只是作为可选实施例,实际上,本发明实施例对于“从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词”对应的执行条件不加以限制。例如,在所述源语言翻译结果包括所述源语言搜索词的情况下,也可以从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词,由此可以实现源语言翻译结果中源语言搜索词和关键词的同时标红。相应地,本发明实施例的方法还可以包括:若所述源语言翻译结果包括所述源语言搜索词,则对所述源语言翻译结果中的所述源语言搜索词进行标记显示。
方法实施例四
参照图5,示出了本发明的一种跨语言搜索方法实施例四的步骤流程图,具体可以包括如下步骤:
步骤501、将源语言搜索词翻译为目标语言搜索词;
步骤502、针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果可以为对所述目标语言搜索结果进行翻译得到;
步骤503、从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
步骤504、对所述源语言翻译结果中的所述关键词进行标记显示;
相对于图2所示方法实施例一,图5所示方法实施例四还可以包括:
步骤505、获取所述目标语言搜索词对应的至少两种翻译结果;
步骤506、对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。
由于源语言翻译结果为对所述目标语言搜索结果进行翻译得到,故源语言翻译结果往往具有多种可能性,这样,若仅仅将源语言翻译结果中、与源语言搜索词相同的内容进行标红,则导致标红内容的覆盖率较低。例如,对于目标语言搜索结果包含的内容“Trump”而言,其源语言翻译结果可能包括:“特朗普”、“川普”等多种翻译可能,若源语言搜索词为“特朗普”,则仅仅能够实现对于“特朗普”这一种翻译可能的标红,而无法实现对于“川普”等其他翻译可能的标红,故导致标红内容的覆盖率较低。
针对上述标红内容的覆盖率低的技术问题,本发明实施例可以获取目标语言搜索词对应的的至少两种翻译结果,并对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。由于至少两种翻译结果可以反映目标语言搜索词到源语言的至少两种翻译可能,故本发明实施例能够通过源语言翻译结果实现至少两种翻译可能的标红,因此能够提高源语言翻译结果中标红内容的覆盖率,进而能够提高从目标语言搜索词对应的搜索结果中获取信息的效率。
在本发明的一种应用示例中,若源语言搜索词为“特朗普”,对应的目标语言搜索词为“Trump”,而对于目标语言搜索词“Trump”对应的目标语言搜索结果包含的内容“Trump”而言,其对应的源语言翻译结果可能包括:“特朗普”、“川普”等多种翻译可能,则本发明实施例可以获取“特朗普”、“川普”等至少两种翻译可能,并通过源语言翻译结果实现至少两种翻译可能的标红,因此能够提高标红内容的覆盖率。
对于获取所述目标语言搜索词对应的至少两种翻译结果,本发明实施例可以提供如下的获取方案:
获取方案1
获取方案1可以对所述目标语言搜索词进行从目标语言到源语言的翻译,从翻译得到的结果中筛选得到至少两种源语言的翻译结果。可选地,可以采用翻译模型将目标语言搜索词翻译为多个翻译结果,并从翻译得到的结果中筛选得到其中的至少两种。
在本发明的一种可选实施例中,上述从翻译得到的结果中筛选得到至少两种源语言的翻译结果,具体可以包括:从所述翻译得到的结果中选择置信度符合预置置信度条件的至少两种源语言的翻译结果。例如,可以依据“Trump”翻译得到多个翻译结果:“川普”、“特朗普”、“王牌”、“好人”、“老实人”、“手段”、“超越”等,并针对“Trump”对应的多个翻译结果,选择置信度较高的至少两种翻译结果,例如“川普”、“特朗普”。可选地,源语言翻译结果的置信度可以为目标语言搜索词到源语言翻译结果的翻译概率,该翻译概率可由翻译模型计算得到,可以理解,本发明实施例对于源语言翻译结果的置信度及其获取方式不加以限制。
在本发明的另一种可选实施例中,上述从翻译得到的结果中筛选得到至少两种源语言的翻译结果,具体可以包括:依据所述源语言搜索词的词性,从所述翻译得到的结果中筛选得到至少两种翻译结果。以“Trump”对应的翻译结果为例,其中可以包括:名词“川普”、“特朗普”、“王牌”、“好人”、“老实人”、“手段”、以及动词“超越”等,本可选实施例可以依据源语言搜索词的词性,对至少两种翻译结果进行筛选,以得到与源语言搜索词的词性一致的翻译结果,因此能够提高翻译结果的准确度。例如,源语言搜索词为“特朗普”,源语言搜索词的词性为“名词”或者“专有名词”,则可以依据“名词”,过滤掉动词“超越”;或者,可以依据“专有名词”,过滤掉动词“超越”和非专有名词“王牌”、“好人”、“老实人”、“手段”。
获取方案2
获取方案2可以在对所述目标语言搜索结果进行从目标语言到源语言的翻译过程中,对所述目标语言搜索结果中的目标内容对应的翻译结果进行记录,以得到所述目标语言搜索词对应的至少两种翻译结果;其中,所述目标内容为所述目标语言搜索结果中与所述目标语言搜索词相同的内容。
在实际应用中,目标语言搜索结果的背景、上下文等因素,导致目标语言搜索结果中同一内容在不同背景和上下文中可以对应不同的翻译结果,例如,“Apple”可以被翻译为“水果”,也可以被翻译为“苹果手机”,还可以被翻译为“炸弹”等。
为了获得目标语言搜索结果中的目标内容对应的翻译结果,获取方案2可以在对所述目标语言搜索结果进行从目标语言到源语言的翻译过程中,对所述搜索结果中的目标内容对应的翻译结果进行记录;由于该目标内容为所述目标语言搜索结果中与所述目标语言搜索词相同的内容,因此,在翻译完成后,可以从所述记录内容中获得目标语言搜索词对应的至少两种翻译结果。以目标语言搜索词“Trump”为例,对应的目标内容也为“Trump”,可以通过翻译模型记录目标语言搜索结果中包括的“Trump”被翻译为什么,例如对应不同的语境或上下文,可能被翻译为了“特朗普”、“川普”、或者“王牌”等等,记录所有出现的翻译结果,以得到所述目标语言搜索词对应的至少两种翻译结果。可选地,上述,对所述搜索结果中目标内容对应的翻译结果进行记录可以包括:对目标内容对应的每一个翻译结果进行记录,或者,将目标内容对应的当前翻译结果与记录的翻译结果进行比较,若不同,则进行记录,若相同,则不记录。
以上通过获取方案1和获取方案2对获取所述目标语言搜索词对应的至少两种翻译结果的过程进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求,采用获取方案1和获取方案2中的任一或者组合,或者,还可以采用其他获取方案,可以理解,本发明实施例对于获取所述目标语言搜索词对应的至少两种翻译结果的具体过程不加以限制。
综上,本发明实施例的跨语言搜索方法,可以对目标语言搜索结果进行从目标语言到源语言的翻译,以得到源语言翻译结果,并对所述源语言翻译结果中、与目标语言搜索词所对应至少两种翻译结果相匹配的内容进行标记显示;由于上述至少两种翻译结果可以反映目标语言搜索词到源语言的至少两种翻译可能,故本发明实施例能够通过源语言翻译结果实现至少两种翻译可能的标红,因此不仅可以实现对源语言翻译结果中与源语言搜索词相同内容的标红,还能实现对源语言翻译结果中与源语言搜索词相关内容(形式不同,但对应的目标语言翻译结果相同)的标红,从而能够提高源语言形式的源语言翻译结果中标红内容的覆盖率,进而能够提高用户从源语言翻译结果中获取信息的效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图6,示出了本发明的一种跨语言搜索装置实施例的结构框图,具体可以包括:搜索词翻译模块601、结果获取模块602、关键词获取模块603和标记显示模块603。
其中,搜索词翻译模块601,用于将源语言搜索词翻译为目标语言搜索词;
结果获取模块602,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块603,用于从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
标记显示模块604,用于对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述关键词获取模块603可以包括:
映射建立子模块,用于建立所述目标语言搜索结果中可以包括的目标语言词汇与所述源语言翻译结果可以包括的源语言词汇之间的映射关系;以及
映射查找子模块,用于依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述源语言翻译结果可以包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述标记显示模块604,具体用于若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述装置还可以包括:
判断模块,用于在所述关键词获取模块从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述源语言翻译结果是否可以包括所述源语言搜索词,若所述源语言翻译结果不可以包括所述源语言搜索词,则触发所述关键词获取模块从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词。
可选地,所述装置还可以包括:
第二标记显示模块,用于若所述源语言翻译结果可以包括所述源语言搜索词,则对所述源语言翻译结果中的所述源语言搜索词进行标记显示。
可选地,所述装置还可以包括:
翻译结果获取模块,用于获取所述目标语言搜索词对应的至少两种翻译结果;
第三标记显示模块,用于对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。
可选地,所述源语言翻译结果获取子模块可以包括:
筛选单元,用于对所述目标语言搜索词进行从目标语言到源语言的翻译,从翻译得到的结果中筛选得到至少两种源语言的翻译结果;
其中,所述筛选单元可以包括:
第一筛选子单元,用于从所述翻译得到的结果中选择置信度符合预置置信度条件的至少两种源语言的翻译结果;或者,
第二筛选子单元,用于依据所述源语言搜索词的词性,从所述翻译得到的结果中筛选得到至少两种翻译结果。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例公开了一种用于跨语言搜索的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词,包括:
建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系;
依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述源语言翻译结果包括的、与所述目标语言搜索词相匹配的关键词。
可选地,所述对所述源语言翻译结果中的所述关键词进行标记显示,包括:
若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词之前,判断所述源语言翻译结果是否包括所述源语言搜索词;
若所述源语言翻译结果不包括所述源语言搜索词,则执行所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的步骤。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
若所述源语言翻译结果包括所述源语言搜索词,则对所述源语言翻译结果中的所述源语言搜索词进行标记显示。
可选地,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取所述目标语言搜索词对应的至少两种翻译结果;
对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。
可选地,所述获取所述目标语言搜索词对应的至少两种翻译结果,包括:
对所述目标语言搜索词进行从目标语言到源语言的翻译,从翻译得到的结果中筛选得到至少两种源语言的翻译结果;
其中,所述从翻译得到的结果中筛选得到至少两种源语言的翻译结果包括:
从所述翻译得到的结果中选择置信度符合预置置信度条件的至少两种源语言的翻译结果;或者,
依据所述源语言搜索词的词性,从所述翻译得到的结果中筛选得到至少两种翻译结果。
图7是根据一示例性实施例示出的一种用于跨语言搜索的装置900作为终端时的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种用于跨语言搜索的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或服务器)的处理器执行时,使得终端能够执行一种跨语言搜索方法,所述方法包括:将源语言搜索词翻译为目标语言搜索词;针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;对所述源语言翻译结果中的所述关键词进行标记显示。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种跨语言搜索方法、一种跨语言搜索装置和一种用于跨语言搜索的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种跨语言搜索方法,其特征在于,包括:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
对所述源语言翻译结果中的所述关键词进行标记显示。
2.根据权利要求1所述的方法,其特征在于,所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词,包括:
建立所述目标语言搜索结果中包括的目标语言词汇与所述源语言翻译结果包括的源语言词汇之间的映射关系;
依据所述目标语言搜索词,在所述映射关系中进行查找,以得到所述源语言翻译结果包括的、与所述目标语言搜索词相匹配的关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述源语言翻译结果中的所述关键词进行标记显示,包括:
若所述关键词与所述源语言搜索词之间的匹配度符合预置匹配度条件,则对所述源语言翻译结果中的所述关键词进行标记显示。
4.根据权利要求1或2所述的方法,其特征在于,在所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词之前,所述方法还包括:
判断所述源语言翻译结果是否包括所述源语言搜索词;
若所述源语言翻译结果不包括所述源语言搜索词,则执行所述从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词的步骤。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若所述源语言翻译结果包括所述源语言搜索词,则对所述源语言翻译结果中的所述源语言搜索词进行标记显示。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述目标语言搜索词对应的至少两种翻译结果;
对所述源语言翻译结果中、与所述目标语言搜索词对应的至少两种翻译结果相匹配的内容进行标记显示。
7.根据权利要求6所述的方法,其特征在于,所述获取所述目标语言搜索词对应的至少两种翻译结果,包括:
对所述目标语言搜索词进行从目标语言到源语言的翻译,从翻译得到的结果中筛选得到至少两种源语言的翻译结果;
其中,所述从翻译得到的结果中筛选得到至少两种源语言的翻译结果包括:
从所述翻译得到的结果中选择置信度符合预置置信度条件的至少两种源语言的翻译结果;或者,
依据所述源语言搜索词的词性,从所述翻译得到的结果中筛选得到至少两种翻译结果。
8.一种跨语言搜索装置,其特征在于,包括:
搜索词翻译模块,用于将源语言搜索词翻译为目标语言搜索词;
结果获取模块,用于针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
关键词获取模块,用于从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;以及
标记显示模块,用于对所述源语言翻译结果中的所述关键词进行标记显示。
9.一种用于跨语言搜索的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将源语言搜索词翻译为目标语言搜索词;
针对所述目标语言搜索词,获取其对应的目标语言搜索结果和源语言翻译结果;其中,所述源语言翻译结果为对所述目标语言搜索结果进行翻译得到;
从所述源语言翻译结果中获取与所述目标语言搜索词相匹配的关键词;
对所述源语言翻译结果中的所述关键词进行标记显示。
10.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的跨语言搜索方法。
CN201711298752.0A 2017-12-08 2017-12-08 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 Pending CN108255940A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711298752.0A CN108255940A (zh) 2017-12-08 2017-12-08 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
PCT/CN2018/100990 WO2019109663A1 (zh) 2017-12-08 2018-08-17 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711298752.0A CN108255940A (zh) 2017-12-08 2017-12-08 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Publications (1)

Publication Number Publication Date
CN108255940A true CN108255940A (zh) 2018-07-06

Family

ID=62722397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711298752.0A Pending CN108255940A (zh) 2017-12-08 2017-12-08 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Country Status (2)

Country Link
CN (1) CN108255940A (zh)
WO (1) WO2019109663A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及***
WO2019109663A1 (zh) * 2017-12-08 2019-06-13 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN111126087A (zh) * 2019-12-25 2020-05-08 北京百度网讯科技有限公司 领域翻译处理方法、装置及设备
CN112163433A (zh) * 2020-09-29 2021-01-01 北京字跳网络技术有限公司 关键词汇的匹配方法、装置、电子设备及存储介质
CN112528129A (zh) * 2019-08-28 2021-03-19 搜狗(杭州)智能科技有限公司 多语种翻译***语种搜索方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838774A (zh) * 2012-11-26 2014-06-04 英业达科技有限公司 网页查询***及其查询方法
CN106599206A (zh) * 2016-12-15 2017-04-26 北京小米移动软件有限公司 搜索信息的方法及装置
CN106919642A (zh) * 2017-01-13 2017-07-04 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304412B (zh) * 2017-01-13 2022-09-30 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108334526A (zh) * 2017-01-20 2018-07-27 北京搜狗科技发展有限公司 搜索结果项的展示方法和装置
CN108255940A (zh) * 2017-12-08 2018-07-06 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838774A (zh) * 2012-11-26 2014-06-04 英业达科技有限公司 网页查询***及其查询方法
CN106599206A (zh) * 2016-12-15 2017-04-26 北京小米移动软件有限公司 搜索信息的方法及装置
CN106919642A (zh) * 2017-01-13 2017-07-04 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019109663A1 (zh) * 2017-12-08 2019-06-13 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及***
CN112528129A (zh) * 2019-08-28 2021-03-19 搜狗(杭州)智能科技有限公司 多语种翻译***语种搜索方法及装置
CN112528129B (zh) * 2019-08-28 2024-03-22 北京搜狗科技发展有限公司 多语种翻译***语种搜索方法及装置
CN111126087A (zh) * 2019-12-25 2020-05-08 北京百度网讯科技有限公司 领域翻译处理方法、装置及设备
CN111126087B (zh) * 2019-12-25 2023-08-29 北京百度网讯科技有限公司 领域翻译处理方法、装置及设备
CN112163433A (zh) * 2020-09-29 2021-01-01 北京字跳网络技术有限公司 关键词汇的匹配方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2019109663A1 (zh) 2019-06-13

Similar Documents

Publication Publication Date Title
CN108255940A (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108255939A (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN109189879B (zh) 电子书籍显示方法及装置
CN109657236B (zh) 引导信息获取方法、装置、电子装置及存储介质
CN110175223A (zh) 一种实现问题生成的方法及装置
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN109144285B (zh) 一种输入方法和装置
CN111428522B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN107527619A (zh) 语音控制业务的定位方法及装置
CN112269853B (zh) 检索处理方法、装置及存储介质
CN108958503A (zh) 输入方法和装置
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN108538284A (zh) 同声翻译结果的展现方法及装置、同声翻译方法及装置
CN108073292A (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN108304412A (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108345608A (zh) 一种搜索方法、装置及设备
CN111984749A (zh) 一种兴趣点排序方法和装置
CN106919642A (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110929137B (zh) 文章推荐方法、装置、设备及存储介质
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN108628461A (zh) 一种输入方法和装置、一种更新词库的方法和装置
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN112632222B (zh) 一种终端设备和确定数据所属领域的方法
CN111428523B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN110399468A (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication