CN108304412B - 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 - Google Patents

一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 Download PDF

Info

Publication number
CN108304412B
CN108304412B CN201710025472.6A CN201710025472A CN108304412B CN 108304412 B CN108304412 B CN 108304412B CN 201710025472 A CN201710025472 A CN 201710025472A CN 108304412 B CN108304412 B CN 108304412B
Authority
CN
China
Prior art keywords
preset
translation
target
search result
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710025472.6A
Other languages
English (en)
Other versions
CN108304412A (zh
Inventor
翟飞飞
张骏
许静芳
薛征山
祝天刚
于恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710025472.6A priority Critical patent/CN108304412B/zh
Publication of CN108304412A publication Critical patent/CN108304412A/zh
Application granted granted Critical
Publication of CN108304412B publication Critical patent/CN108304412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种跨语言搜索方法和装置、一种用于跨语言搜索的装置,其中的方法具体包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。本发明实施例能够提高翻译搜索结果的准确度。

Description

一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
技术领域
本发明涉及信息搜索技术领域,特别是涉及一种跨语言搜索方法和装置、一种用于跨语言搜索的装置。
背景技术
随着互联网信息的不断增长,人们对于信息搜索提出了更高的要求,不再满足于在同一种语种数据库中搜索,而要求获取多种语种数据。例如,如果用户输入的搜索词(query))为“搜索词A”,则中文数据库中的搜索可能并不能最大程度地满足用户需求,源自欧美网站的英文数据库中可能具有更优、更多的搜索结果。
跨语言搜索技术结合了信息检索技术和机器翻译技术。现有的跨语言搜索方案的实现过程具体可以包括:首先,通过机器翻译技术将源语言形式的搜索词转换为目标语言形式的搜索词,然后,分别依据源语言形式的搜索词和目标语言形式的搜索词,在对应的单语言数据库中进行信息检索,以得到多语言的搜索结果,其中,多语言的搜索结果可以包括:源语言的搜索结果和目标语言的搜索结果。
为了满足不具备目标语言阅读能力、或者目标语言的阅读能力有限的用户的需求,现有方案可以利用翻译模型,对目标语言的搜索结果进行翻译,以得到源语言形式的翻译搜索结果。
发明人在实施本发明实施例的过程中发现,现有方案至少存在如下问题:现有方案通常采用通用翻译模型对目标语言的搜索结果进行翻译,该通用翻译模型的局限性容易影响翻译搜索结果的准确度,也即,现有方案中得到的翻译搜索结果的准确度较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的跨语言搜索方法、跨语言搜索装置及用于跨语言搜索的装置,本发明实施例能够提高翻译搜索结果的准确度。
为了解决上述问题,本发明公开了一种跨语言搜索方法,包括:
获取第一语种的搜索词;
根据所述搜索词,获取第二语种的搜索结果;
针对每个第二语种的搜索结果,执行以下步骤:
确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;
向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
可选地,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:
确定所述搜索结果包含的各预设展示部分对应的展示类型;
依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
可选地,若所述预设展示部分对应的展示类型为标题类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为摘要类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
可选地,若所述预设展示部分为标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:
识别所述标题部分所包含的预置符号;
依据所述预置符号,将所述标题部分分割为多个语义单元;
利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;
依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。
可选地,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译的步骤,包括:
分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
可选地,若所述预设展示部分为摘要部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:
从所述摘要部分中提取位于预置位置的目标内容;
利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。
可选地,所述方法还包括:确定所述搜索结果所属的目标类别;
所述依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型包括:
结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
可选地,所述确定所述搜索结果所属的目标类别的步骤,包括:
分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
可选地,所述确定所述搜索结果所属的目标预置类别的步骤,包括:
将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
另一方面,本发明公开了一种跨语言搜索装置,包括:
搜索词获取模块,用于获取第一语种的搜索词;
搜索结果获取模块,用于根据所述搜索词,获取第二语种的搜索结果;
搜索结果处理模块,用于对每个第二语种的搜索结果进行处理;
所述搜索结果处理模块包括:翻译模型确定模块、翻译搜索结果获取模块以及翻译搜索结果展示模块;
所述翻译模型确定模块,用于针对每个第二语种的搜索结果,确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
所述翻译搜索结果获取模块,用于利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;以及
所述翻译搜索结果展示模块,用于向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
可选地,所述翻译模型确定模块包括:展示类型确定子模块和翻译模型获取子模块;
其中,所述展示类型确定子模块,用于确定所述搜索结果包含的各预设展示部分对应的展示类型;
所述翻译模型获取子模块,用于依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
可选地,若所述预设展示部分对应的展示类型为标题类,则所述翻译模型获取子模块包括:第一翻译模型获取单元;
所述第一翻译模型获取单元,用于获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为摘要类,则所述翻译模型获取子模块包括:第二翻译模型获取单元;
所述第二翻译模型获取单元,用于获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为页面内容类,则所述翻译模型获取子模块包括:第三翻译模型获取单元;
所述第三翻译模型获取单元,用于获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
可选地,若所述预设展示部分为标题部分,则所述翻译搜索结果获取模块包括:识别子模块、分割子模块、第一翻译子模块和组合子模块;
其中,所述识别子模块,用于识别所述标题部分所包含的预置符号;
所述分割子模块,用于依据所述预置符号,将所述标题部分分割为多个语义单元;
所述第一翻译子模块,用于利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;
所述组合子模块,用于依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。
可选地,所述第一翻译子模块包括:翻译单元;
所述翻译单元,用于分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
可选地,若所述预设展示部分为摘要部分,则所述翻译搜索结果获取模块包括:提取子模块和第二翻译子模块;
所述提取子模块,用于从所述摘要部分中提取位于预置位置的目标内容;
所述第二翻译子模块利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。
可选地,所述装置还包括:类别确定模块;
所述类别确定模块,用于确定所述搜索结果所属的目标类别;
所述翻译模型获取子模块包括:模型获取单元;
所述模型获取单元,用于结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
可选地,所述类别确定模块包括:匹配子模块和确定子模块;
所述匹配子模块,用于分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
所述确定子模块,用于将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
可选地,所述类别确定模块包括:分类子模块;
所述分类子模块,用于将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
再一方面,本发明公开了一种用于跨语言搜索的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一语种的搜索词;
根据所述搜索词,获取第二语种的搜索结果;
针对每个第二语种的搜索结果,执行以下步骤:
确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;
向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
本发明实施例包括以下优点:
本发明实施例在跨语言搜索的第二语种的搜索结果的翻译过程中,可以首先确定与所述搜索结果的各预设展示部分相对应的目标翻译模型,然后利用上述目标翻译模型,获取所述搜索结果的预设展示部分对应的翻译搜索结果;这样,上述目标翻译模型可以是与各预设展示部分相适配的翻译模型,也即,上述目标翻译模型可以按照各预设展示部分的特点进行第二语种到第一语种的翻译,因此能够提高翻译搜索结果的准确度。
附图说明
图1是本发明的一种跨语言搜索方法的应用环境的示意图;
图2是本发明的一种跨语言搜索方法实施例一的步骤流程图;
图3是本发明的一种跨语言搜索装置实施例的结构框图;
图4是本发明的一种用于跨语言搜索的装置900作为终端时的框图;及
图5是本发明的一种用于跨语言搜索的装置作为服务器时的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例中,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看作对原文通过模型转换为译文的解码过程。因此翻译模型可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立用于描述概率的翻译模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知翻译模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。
发明人在实施本发明实施例的过程中发现,现有方案通常采用通用翻译模型对目标语言的搜索结果进行翻译,对于该通用模型,只要输入的文本内容相同,就会得到相同的翻译搜索结果。然而,通常不同类型的搜索结果通常具有自身的特点,这样,采用通用翻译模型对所有类型的搜索结果进行翻译,则容易影响翻译搜索结果的准确度,也即,现有方案中得到的翻译搜索结果的准确度较低。
针对现有方案中存在的翻译搜索结果的准确度较低的技术问题,本发明实施例提供了一种跨语言搜索方案,该方案可以获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;并针对每个第二语种的搜索结果,确定与所述搜索结果的预设展示部分相对应的目标翻译模型;并利用所述目标翻译模型,获取所述搜索结果的预设展示部分对应的翻译搜索结果;进而向用户展示所述搜索结果的预设展示部分对应的翻译搜索结果。由于本发明实施例可以首先确定与所述搜索结果的各预设展示部分相对应的目标翻译模型,然后利用上述目标翻译模型,获取所述搜索结果的预设展示部分对应的翻译搜索结果;这样,上述目标翻译模型可以是与各预设展示部分相适配的翻译模型,也即,上述目标翻译模型可以按照各预设展示部分的特点进行第二语种到第一语种的翻译,因此能够提高翻译搜索结果的准确度。
本发明实施例中,可以首先将第一语种的搜索词翻译为第二语种的搜索词,然后,依据第二语种的搜索词在第二语种的数据库中进行检索,以得到第二语种的搜索结果。因此,第二语种的搜索结果可用于表示第二语种的搜索词对应的搜索结果,翻译搜索结果可用于表示依据第二语种的搜索结果翻译得到的第一语种的翻译搜索结果,其中,第二语种的搜索结果和第一语种的翻译搜索结果可以对应相同的搜索结果(如网页、视频、图片、音乐等),两者的区别之一在于语言形式的不同。
在本发明的一种应用示例中,若第一语种的搜索词为“搜索词A”,对应的第二语种的搜索词为“搜索词A的翻译”,则可以依据“搜索词A的翻译”在英文数据库中进行检索,以得到英文的搜索结果,并利用与所述搜索结果的各预设展示部分相对应的目标翻译模型,对各预设展示部分进行翻译,以得到对应的翻译搜索结果。
本发明实施例可以应用于搜索APP、搜索网站(如搜索引擎)等具有跨语言搜索功能的平台环境中,不仅可以向用户提供源自多语种数据库的搜索结果,而且能够向用户提供更为精确的翻译搜索结果,以满足不具备目标语言阅读能力、或者目标语言阅读能力有限的用户的需求。本发明实施例主要以搜索APP为例对本发明实施例的跨语言搜索方法进行说明,搜索网站等其他平台对应的跨语言搜索方法相互参照即可。
本发明实施例提供的跨语言搜索方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100 与服务器200 进行数据交互。
本发明实施例的跨语言搜索流程可由客户端100和服务器200中的任一或者组合执行:
例如,客户端100可以接收用户输入的第一语种的搜索词,并向服务器200发送该第一语种的搜索词;服务器200在接收到该第一语种的搜索词后,可以根据所述搜索词,获取第二语种的搜索结果,针对每个第二语种的搜索结果,确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;并利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果,并向客户端100发送各预设展示部分对应的翻译搜索结果,使客户端100向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
由于第二语种的搜索结果和/或翻译搜索结果的获取过程由服务器200执行,故能够发挥服务器200计算资源丰富的优势,提高第二语种的搜索结果和/或翻译搜索结果的获取效率和获取准确率。例如,云服务器可以部署有众多高配置的计算设备,故利用这些计算设备进行第二语种的搜索结果和/或翻译搜索结果的获取,以提高第二语种的搜索结果和/或翻译搜索结果的获取效率和获取准确率;同时能够节省客户端100侧的运算资源,提高客户端100所对应智能终端的性能。
当然,第二语种的搜索结果和/或翻译搜索结果的获取过程也可由客户端100执行,本发明实施例对于第二语种的搜索结果和/或翻译搜索结果的获取过程的具体执行主体不加以限制。
可选地,客户端100可以运行在智能终端上,上述智能终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3 (动态影像专家压缩标准音频层面3,Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,MovingPicture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
方法实施例一
参照图2,示出了本发明的一种跨语言搜索方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤201、获取第一语种的搜索词;
步骤202、根据所述搜索词,获取第二语种的搜索结果;
针对每个第二语种的搜索结果,执行以下步骤:
步骤203、确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
步骤204、利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;
步骤205、向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
本发明实施例中,第一语种的搜索词可以为用户使用第一语种输入。在实际应用中,搜索APP或者搜索网站的客户端可以提供UI(用户界面,User Interface),则用户可以通过该UI上的搜索框、语音接口等方式向客户端提交第一语种的搜索词。无论用户通过何种方式向客户端提交第一语种的搜索词,客户端均可以将接收到的第一语种的搜索词显示在搜索框。因此,本发明实施例中,用户输入的第一语种的搜索词可以包括:用户通过任意方式向客户端提交的第一语种的搜索词。可以理解,本发明实施例对于第一语种的搜索词的具体获取方式不加以限制。
本发明实施例中,第一语种和第二语种可用于表示不同的两种语言,上述第一语种和第二语种可由用户预置得到,也可由搜索APP或者搜索网站通过分析用户的搜索行为和/或浏览行为得到。可选地,搜索APP或者搜索网站可以将用户最常用的语言作为第一语种,将除第一语种之外使用过的语言作为第二语种。例如,用户的搜索行为表明,用户之前使用的搜索词均为中文搜索词,则可以确定源语言为中文;用户的浏览行为还表明,用户访问过翻译网站,并通过该翻译网站进行过中文和英文之间的相互翻译行为,故可以确定第二语种为英文。可以理解,本发明实施例的第二语种的数量可以为一种或者多种,例如,对于以中文为母语的用户而言,第一语种可以为中文,第二语种可以为英文、日文、韩文、德文、法文中的一种或者组合。本发明实施例主要以第一语种为中文、第二语种为英文为例对本发明实施例的跨语言搜索方法进行说明,其他第一语种和第二语种对应的跨语言搜索方法相互参照即可。
在实际应用中,步骤202可由客户端或者服务器将第一语种的搜索词翻译为第二语种的搜索词,然后,依据第二语种的搜索词在第二语种的数据库中进行检索,以得到第二语种的搜索结果。以第二语种为英文为例,英文的数据库中可以存储有欧美网站的数据。可以理解,本发明实施例对于根据所述搜索词,获取第二语种的搜索结果的具体获取方式不加以限制。
可选地,在将第一语种的搜索词翻译为第二语种的搜索词的过程中,可能会得到多种不同的翻译结果,此种情况下,可以从多种不同的翻译结果中选择置信度最高的一种翻译结果。进一步,可以依据该置信度最高的翻译结果搜索获得第二语种的搜索结果;也可以依据该多种不同的翻译结果中的一个或多个分别进行搜索,并将搜索得到的结果均作为第二语种的搜索结果。在本发明的一种应用示例中,若第一语种的搜索词为“搜索词A”,则第二语种的搜索词可以为“搜索词A的翻译”。
步骤203可以针对步骤202得到的每个搜索结果,确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;步骤204可以利用步骤203得到的目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果。这样,上述目标翻译模型可以是与各预设展示部分相适配的翻译模型,也即,上述目标翻译模型可以按照各预设展示部分的特点进行第二语种到第一语种的翻译,因此能够提高翻译搜索结果的准确度。
在本发明的一种可选实施例中,上述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,可以包括:确定所述搜索结果包含的各预设展示部分对应的展示类型;依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。上述展示类型可以反映预设展示部分的特点,故依据各预设展示部分的展示类型,可以得到与各预设展示部分相适配的目标翻译模型,进而可以提高翻译搜索结果的准确度。
本发明实施例中,上述预设展示部分可用于表示针对搜索结果预设的展示内容,本发明实施例可以针对搜索结果包含的预设展示部分及其对应的展示类型,提供获取与各预设展示部分相对应的目标翻译模型的如下获取方案:
获取方案1、
获取方案1中,所述预设展示部分可以包括:标题部分;所述标题部分对应的展示类型可以包括:标题类;则所述标题部分对应的目标翻译模型可以包括:标题翻译模型;所述标题翻译模型可以为依据标题语料训练得到。
对于搜索结果的标题部分,其通常具有自身的特点:如通常表现为短句、短语或者词组的形式、或者通常会含有特殊的预置符号“-”、“|”,“…”等,故本发明实施例可以预先获取源自搜索结果的标题语料,可选地,该标题语料可以为双语语料或者对齐语料(也即将双语语句中可以互译的词进行配对);然后依据标题语料训练得到标题翻译模型。由于标题语料也具备标题部分的特点,故依据标题语料训练得到的标题翻译模型能够考虑短句、短语或者词组的形式、包含预置符号等特点,故对于标题部分能够得到较为精确的翻译搜索结果。
获取方案2、
获取方案2中,所述预设展示部分可以包括:摘要部分;所述摘要部分对应的展示类型可以包括:摘要类;则所述摘要部分对应的目标翻译模型可以包括:摘要翻译模型;所述摘要翻译模型可以为依据摘要语料训练得到。
对于搜索结果的摘要部分,其通常具有自身的特点:如通常表现为长句的形式、或者在特定位置出现特定类型内容(在摘要的开头位置会出现相对固定的内容,如时间、信息源等)等,故本发明实施例可以预先获取源自搜索结果的摘要语料,可选地,该摘要语料可以为双语语料或者对齐语料;然后依据摘要语料训练得到摘要翻译模型。由于摘要语料也具备摘要部分的特点,依据摘要语料训练得到的摘要翻译模型能够考虑长句的形式、或者在特定位置出现特定类型内容的特点,故对于摘要部分能够得到较为精确的翻译搜索效果。
获取方案3、
获取方案3中,所述预设展示部分可以包括:页面内容部分;所述页面内容部分对应的展示类型可以包括:页面内容类;则所述页面内容部分对应的目标翻译模型可以包括:页面内容翻译模型;所述内容翻译模型为依据预置页面内容语料训练得到。
除了标题部分和摘要部分之外,某些网站还会在搜索结果中设置页面内容部分,以使用户通过该页面内容部分获得该网站的更为精确的信息。例如,电子商务网站可以在搜索结果中设置页面内容部分,该页面内容部分可用于展现推广活动,以通过该推广活动吸引用户的眼球。又如,新闻网站可以在搜索结果中设置页面内容部分,该页面内容部分可用于展现热门新闻事件,以通过该热门新闻事件吸引用户的眼球。
网站设置的页面内容部分通常具备与自身网站相关的特点,如电子商务网站的页面内容通常与商品有关,新闻网站的页面内容通常与新闻有关。故本发明实施例可以预先获取预置页面内容语料,这里的预置页面内容语料为源自搜索结果的语料;可选地,该预置页面内容可以为双语语料或者对齐语料;然后依据预置页面内容语料训练得到页面内容翻译模型。由于预置页面内容语料也具备页面内容部分的特点,依据预置页面内容训练得到的页面内容翻译模型能够考虑页面内容部分的特点,故对于页面内容部分能够得到较为精确的翻译搜索结果。
以上通过获取方案1至获取方案3对获取与各预设展示部分相对应的目标翻译模型的过程进行了详细介绍,可以理解,本领域技术人员可以根据实际应用需求采用获取方案1至获取方案3中的任一或者任几个的组合,或者,还可以针对其他预设展示部分采用其他获取方案,本发明实施例对于获取与预设展示部分相对应的目标翻译模型的具体过程不加以限制。
在本发明的一种可选实施例中,还可以依据搜索结果所属的目标类别,对获取方案1至获取方案3对应的标题翻译模型、摘要翻译模型和页面内容翻译模型进行优化,以进一步提高翻译搜索结果的准确度。相应地,所述方法还可以包括:确定所述搜索结果所属的目标类别。则前述所述依据所述各预设展示部分对应的展示类型,获取与各预设展示部分相对应的目标翻译模型可以包括:结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
具体的,所述结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型可以包括:若所述预设展示部分为标题部分,其对应的展示类型为标题类,则所述标题部分对应的标题翻译模型可以包括:所述目标类别对应的标题翻译模型;其中,所述目标类别对应的标题翻译模型为依据所述目标类别内的标题语料训练得到;
和/或,
若所述预设展示部分为摘要部分,其对应的展示类型为摘要类,则所述摘要部分对应的摘要翻译模型可以包括:所述目标类别对应的摘要翻译模型;其中,所述目标类别对应的摘要翻译模型为依据所述目标类别内的摘要语料训练得到;
和/或,
若所述预设展示部分为页面内容部分,其对应的展示类型为页面内容类,则所述页面内容部分对应的页面翻译模型可以包括:所述目标类别对应的页面翻译模型;其中,所述目标类别对应的页面翻译模型为依据所述目标类别内的预置页面内容语料训练得到。
可选地,上述目标类别可以包括:电子商务、论坛、新闻、小说、视频等,则可以根据各目标类别的搜索结果,收集目标类别内的标题语料、摘要语料和预置页面内容语料。
在本发明的一种可选实施例中,上述确定所述搜索结果所属的目标类别的步骤,可以包括:分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。其中,所述搜索结果包括的内容可以是所述搜索结果对应网页包括的内容(也即网页内容),也可以是所述搜索结果的预设展示部分包括的内容。
可选地,获取匹配率的过程可以包括:将所述搜索结果包括的预设展示部分和/或网页内容进行分词,统计所有词汇的数量N、以及在预置类别的词典中出现的词汇的数量M,将M与N的比值作为匹配率,可以理解,本发明实施例对于匹配率的具体获取方式不加以限制。
在本发明的一种可选实施例中,上述确定所述搜索结果所属的目标类别的步骤,可以包括:将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。上述分类器可用于判别搜索结果属于哪个预置类别,也即,分类器输出的结果也即搜索结果所属的目标类别。
需要说明的是,可以通过机器学习的训练方法,训练得到本发明实施例的各种翻译模型、或者分类器。另外,本发明实施例对于各种翻译模型、或者分类器的具体类型不加以限制,例如,翻译模型的类型可以包括:NMT(神经网络机器翻译,Neural MachineTranslation)、统计机器翻译(SMT,Statistical Machine Translation);或者,分类器的具体类型可以包括:SVM(支持向量机,Support Vector Machine)、贝叶斯等。
步骤204可以利用步骤203得到的目标翻译模型,获取所述搜索结果的预设展示部分对应的翻译搜索结果。在本发明的一种可选实施例中,还可以依据预设展示部分的特点,预置对应的翻译规则,并依据该翻译规则智能地利用翻译模型,以得到更为精确的翻译搜索结果。
本发明实施例可以提供利用目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的如下翻译方案:
翻译方案1、
翻译方案1中,所述预设展示部分可以包括:标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,可以包括:
识别所述标题部分所包含的预置符号;
依据所述预置符号,将所述标题部分分割为多个语义单元;
利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;
依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。
其中,上述标题部分对应的第一目标翻译模型可以为前述的标题翻译模型,也可以为标题部分对应的其他翻译模型。上述语义单元可以为字符、单词、词组、短语或短句中的任一等。
在实际应用中,标题部分通常会含有特殊的预置符号“-”、“|”、“…”等,则本发明实施例可以针对标题部分的预置符号,预置对应的翻译规则,并利用该翻译规则智能地利用翻译模型,以得到更为精确的翻译搜索结果。具体地,在利用所述标题部分对应的第一目标翻译模型进行翻译的过程中,将这些预置符号两边的语义单元分开翻译,然后将各部分语义单元对应的翻译结果进行组合,并在组合得到的第一翻译搜索结果中保留预置符号、以及位于该预置符号两边的语义单元之间的相对位置,因此能够提高标题部分对应的第一翻译搜索结果的准确度。
在本发明的一种可选实施例中,为了避免分开翻译将短语或者句子变得破碎,上述分别利用所述标题部分对应的目标翻译模型对各部分语义单元进行翻译的步骤,可以包括:分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。由于在分开翻译各部分语义单元的过程中考虑了对应的上下文关系,故能够保证第一翻译搜索结果的整体性和全局性。
翻译方案2、
翻译方案2中,所述预设展示部分可以包括:摘要部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,可以包括:
从所述摘要部分中提取位于预置位置的目标内容;
利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。
本发明实施例发现摘要部分的如下特点:在特定位置出现特定类型内容。例如,在摘要的开头位置会出现相对固定的内容,如时间、信息源等。在此给出摘要部分的如下示例:
示例1、44个回复 - 发贴时间:2014年4月15日
示例2、28分钟前 - MOSCOW, Jan. 11 (Xinhua) -- The Kremlin on Wednesdaydenied that it has compromising materials on U.S. President-elect Donald 搜索词A的翻译
其中,示例1为论坛类别的搜索结果的摘要部分,其在开头位置出现的“44个回复”、“发贴时间:2014年4月15日”分别用于表示帖子类型搜索结果的回复数量、发帖时间,这种回复数量、发帖时间属于论坛类别的搜索结果的摘要部分的特点。
示例2为新闻类别的搜索结果的摘要部分,其在开头位置出现的“28分钟前”、“MOSCOW, Jan. 11 (Xinhua)”分别用于表示新闻类型搜索结果的发布时间与当前时间的差值、新闻类型搜索结果的发布日期和信息源,发布时间与当前时间的差值、新闻类型搜索结果的发布日期和信息源属于新闻类别的搜索结果的摘要部分的特点。
可以理解,上述示例1和示例2为论坛类别的搜索结果和新闻类别的搜索结果的示例,实际上,其他类别的搜索结果的摘要部分也具有:在特定位置出现特定类型内容的特点。故本发明实施例可以利用该特点,针对预置位置训练对应的第二目标翻译模型,这样,在翻译过程中,可以从所述摘要部分中提取位于预置位置的目标内容;利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。其中,上述第二目标翻译模型可以为预置位置对应的预置内容语料训练得到,其能够与预置位置对应的预置内容语料的特点相适配,故对于位于预置位置的目标内容能够得到较为精确的翻译搜索结果。
需要说明的是,本发明实施例的第二目标翻译模型可以为:所述目标类别和预置位置对应的翻译模型,这样,可以依据目标类别内预置位置对应的预置内容语料进行第二目标翻译模型的训练。
在步骤204利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果后,步骤205可以向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果,其中,客户端可以将所述搜索结果的一个或者多个预设展示部分对应的翻译搜索结果进行展示。
综上,本发明实施例的跨语言搜索方法,可以在跨语言搜索的第二语种搜索结果的翻译过程中,首先确定与所述搜索结果的各预设展示部分相对应的目标翻译模型,然后利用上述目标翻译模型,获取所述搜索结果的预设展示部分对应的翻译搜索结果;这样,上述目标翻译模型可以是与各预设展示部分相适配的翻译模型,也即,上述目标翻译模型可以按照各预设展示部分的特点进行第二语种到第一语种的翻译,因此能够提高翻译搜索结果的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图3,示出了本发明的一种跨语言搜索装置实施例的结构框图,具体可以包括:搜索词获取模块301、搜索结果获取模块302、搜索结果处理模块303;
上述搜索词获取模块301,用于获取第一语种的搜索词;
上述搜索结果获取模块302,用于根据所述搜索词,获取第二语种的搜索结果;
上述搜索结果处理模块303,用于对每个第二语种的搜索结果进行处理;
其中,所述搜索结果处理模块303可以包括:翻译模型确定模块3031、翻译搜索结果获取模块3032和翻译搜索结果展示模块3033;
其中,上述翻译模型确定模块3031,用于确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
上述翻译搜索结果获取模块3032,用于利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;以及
上述翻译搜索结果展示模块3033,用于向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
可选地,所述翻译模型确定模块3031可以包括:展示类型确定子模块和翻译模型获取子模块;
其中,所述展示类型确定子模块,用于确定所述搜索结果包含的各预设展示部分对应的展示类型;
所述翻译模型获取子模块,用于依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
可选地,若所述预设展示部分对应的展示类型为标题类,则所述翻译模型获取子模块可以包括:第一翻译模型获取单元;
所述第一翻译模型获取单元,用于获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为摘要类,则所述翻译模型获取子模块可以包括:第二翻译模型获取单元;
所述第二翻译模型获取单元,用于获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为页面内容类,则所述翻译模型获取子模块可以包括:第三翻译模型获取单元;
所述第三翻译模型获取单元,用于获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
可选地,若所述预设展示部分为标题部分,则所述翻译搜索结果获取模块3032可以包括:识别子模块、分割子模块、第一翻译子模块和组合子模块;
其中,所述识别子模块,用于识别所述标题部分所包含的预置符号;
所述分割子模块,用于依据所述预置符号,将所述标题部分分割为多个语义单元;
所述第一翻译子模块,用于利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;
所述组合子模块,用于依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果可以包括所述预置符号。
可选地,所述第一翻译子模块可以包括:翻译单元;
所述翻译单元,用于分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
可选地,若所述预设展示部分为摘要部分,则所述翻译搜索结果获取模块3032可以包括:提取子模块和第二翻译子模块;
其中,所述提取子模块,用于从所述摘要部分中提取位于预置位置的目标内容;
所述第二翻译子模块利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。
可选地,所述装置还可以包括:类别确定模块;
所述类别确定模块,用于确定所述搜索结果所属的目标类别;
所述翻译模型获取子模块可以包括:模型获取单元;
所述模型获取单元,用于结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
可选地,所述类别确定模块可以包括:匹配子模块和确定子模块;
其中,所述匹配子模块,用于分别将所述搜索结果可以包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
所述确定子模块,用于将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
可选地,所述类别确定模块可以包括:分类子模块;
所述分类子模块,用于将搜索结果可以包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于跨语言搜索的装置900作为终端时的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/ O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理***,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/ O接口912为处理组件902和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种跨语言搜索方法,所述方法包括:获取第一语种的搜索词;根据所述搜索词,获取第二语种的搜索结果;针对每个第二语种的搜索结果,执行以下步骤:确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果。
可选地,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型,包括:
确定所述搜索结果包含的各预设展示部分对应的展示类型;
依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
可选地,若所述预设展示部分对应的展示类型为标题类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为摘要类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取摘要翻译模型,所述摘要翻译模型为依据摘要语料训练得到;
和/或,
若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
可选地,若所述预设展示部分为标题部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果,包括:
识别所述标题部分所包含的预置符号;
依据所述预置符号,将所述标题部分分割为多个语义单元;
利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;
依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号。
可选地,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,包括:
分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
可选地,若所述预设展示部分为摘要部分,则所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果,包括:
从所述摘要部分中提取位于预置位置的目标内容;
利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果。
可选地,所述终端还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定所述搜索结果所属的目标类别;
所述依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型包括:
结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
可选地,所述确定所述搜索结果所属的目标类别,包括:
分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
可选地,所述确定所述搜索结果所属的目标预置类别,包括:
将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
图5是根据一示例性实施例示出的一种用于跨语言搜索的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种跨语言搜索方法、一种跨语言搜索装置和一种用于跨语言搜索的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种跨语言搜索方法,其特征在于,包括:
获取第一语种的搜索词;
根据所述搜索词,获取第二语种的搜索结果;
针对每个第二语种的搜索结果,执行以下步骤:
确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;
向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果;
所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:
若所述预设展示部分为标题部分,则识别所述标题部分所包含的预置符号;依据所述预置符号,将所述标题部分分割为多个语义单元;利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号;所述第一目标翻译模型为标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
若所述预设展示部分为摘要部分,则从所述摘要部分中提取位于预置位置的目标内容;利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果;所述第二目标翻译模型为根据预置位置对应的预置内容语料训练得到。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:
确定所述搜索结果包含的各预设展示部分对应的展示类型;
依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
3.根据权利要求2所述的方法,其特征在于,若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
4.根据权利要求1所述的方法,其特征在于,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译的步骤,包括:
分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:确定所述搜索结果所属的目标类别;
所述依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型包括:
结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
6.根据权利要求5所述的方法,其特征在于,所述确定所述搜索结果所属的目标类别的步骤,包括:
分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
7.根据权利要求5所述的方法,其特征在于,所述确定所述搜索结果所属的目标预置类别的步骤,包括:
将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
8.一种跨语言搜索装置,其特征在于,包括:
搜索词获取模块,用于获取第一语种的搜索词;
搜索结果获取模块,用于根据所述搜索词,获取第二语种的搜索结果;
搜索结果处理模块,用于对每个第二语种的搜索结果进行处理;
所述搜索结果处理模块包括:
翻译模型确定模块,用于确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
翻译搜索结果获取模块,用于利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;以及
翻译搜索结果展示模块,用于向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果;
若所述预设展示部分为标题部分,则所述翻译搜索结果获取模块包括:识别子模块、分割子模块、第一翻译子模块和组合子模块;若所述预设展示部分为摘要部分,则所述翻译搜索结果获取模块包括:提取子模块和第二翻译子模块;
其中,所述识别子模块,用于识别所述标题部分所包含的预置符号;
所述分割子模块,用于依据所述预置符号,将所述标题部分分割为多个语义单元;
所述第一翻译子模块,用于利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;所述第一目标翻译模型为标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
所述组合子模块,用于依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号;
所述提取子模块,用于从所述摘要部分中提取位于预置位置的目标内容;
所述第二翻译子模块利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果;所述第二目标翻译模型为根据预置位置对应的预置内容语料训练得到。
9.根据权利要求8所述的装置,其特征在于,所述翻译模型确定模块包括:展示类型确定子模块和翻译模型获取子模块;
其中,所述展示类型确定子模块,用于确定所述搜索结果包含的各预设展示部分对应的展示类型;
所述翻译模型获取子模块,用于依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
10.根据权利要求9所述的装置,其特征在于,若所述预设展示部分对应的展示类型为页面内容类,则所述翻译模型获取子模块包括:第三翻译模型获取单元;
所述第三翻译模型获取单元,用于获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
11.根据权利要求8所述的装置,其特征在于,所述第一翻译子模块包括:翻译单元;
所述翻译单元,用于分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
12.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:类别确定模块;
所述类别确定模块,用于确定所述搜索结果所属的目标类别;
所述翻译模型获取子模块包括:模型获取单元;
所述模型获取单元,用于结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
13.根据权利要求12所述的装置,其特征在于,所述类别确定模块包括:匹配子模块和确定子模块;
所述匹配子模块,用于分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
所述确定子模块,用于将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
14.根据权利要求12所述的装置,其特征在于,所述类别确定模块包括:分类子模块;
所述分类子模块,用于将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
15.一种用于跨语言搜索的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一语种的搜索词;
根据所述搜索词,获取第二语种的搜索结果;
针对每个第二语种的搜索结果,执行以下步骤:
确定与所述搜索结果的各预设展示部分相对应的目标翻译模型;
利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果;
向用户展示所述搜索结果的各预设展示部分对应的翻译搜索结果;
所述利用所述目标翻译模型,获取所述搜索结果的各预设展示部分对应的翻译搜索结果的步骤,包括:
若所述预设展示部分为标题部分,则识别所述标题部分所包含的预置符号;依据所述预置符号,将所述标题部分分割为多个语义单元;利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,以得到各语义单元对应的翻译结果;依据所述预置符号,对所述各语义单元对应的翻译结果进行组合,以得到所述标题部分对应的第一翻译搜索结果;所述第一翻译搜索结果包括所述预置符号;所述第一目标翻译模型为标题翻译模型,所述标题翻译模型为依据标题语料训练得到;
若所述预设展示部分为摘要部分,则从所述摘要部分中提取位于预置位置的目标内容;利用所述预置位置对应的第二目标翻译模型,对所述目标内容进行翻译,以得到对应的第二翻译搜索结果;所述第二目标翻译模型为根据预置位置对应的预置内容语料训练得到。
16.根据权利要求15所述的装置,其特征在于,所述确定与所述搜索结果的各预设展示部分相对应的目标翻译模型的步骤,包括:
确定所述搜索结果包含的各预设展示部分对应的展示类型;
依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型。
17.根据权利要求16所述的装置,其特征在于,若所述预设展示部分对应的展示类型为页面内容类,则所述获取与各预设展示部分相对应的目标翻译模型包括:获取页面内容翻译模型,所述内容翻译模型为依据预置页面内容语料训练得到。
18.根据权利要求15所述的装置,其特征在于,所述利用所述标题部分对应的第一目标翻译模型对分割得到的各语义单元进行翻译,包括:
分别将各语义单元及其对应的上下文输入至所述第一目标翻译模型,以得到所述第一目标翻译模型输出的各语义单元对应的翻译结果。
19.根据权利要求16或17所述的装置,其特征在于,所述装置还包括:确定所述搜索结果所属的目标类别;
所述依据所述展示类型,获取与各预设展示部分相对应的目标翻译模型包括:
结合所述搜索结果所属的目标类别和各预设展示部分对应的展示类型,获取各预设展示部分相对应的目标翻译模型。
20.根据权利要求19所述的装置,其特征在于,所述确定所述搜索结果所属的目标类别的步骤,包括:
分别将所述搜索结果包括的内容与各预置类别的词典进行匹配,以得到各预置类别对应的匹配率;
将所有预置类别对应的匹配率中的最大者对应的预置类别,作为所述搜索结果所属的目标类别。
21.根据权利要求19所述的装置,其特征在于,所述确定所述搜索结果所属的目标预置类别的步骤,包括:
将搜索结果包括的内容输入分类器,并将所述分类器输出的分类结果作为所述搜索结果所属的目标类别;其中,所述分类器为依据各预置类别的搜索结果样本训练得到。
22.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-7中一个或多个所述的方法。
CN201710025472.6A 2017-01-13 2017-01-13 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 Active CN108304412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710025472.6A CN108304412B (zh) 2017-01-13 2017-01-13 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710025472.6A CN108304412B (zh) 2017-01-13 2017-01-13 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Publications (2)

Publication Number Publication Date
CN108304412A CN108304412A (zh) 2018-07-20
CN108304412B true CN108304412B (zh) 2022-09-30

Family

ID=62872442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710025472.6A Active CN108304412B (zh) 2017-01-13 2017-01-13 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置

Country Status (1)

Country Link
CN (1) CN108304412B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334526A (zh) * 2017-01-20 2018-07-27 北京搜狗科技发展有限公司 搜索结果项的展示方法和装置
CN108255940A (zh) * 2017-12-08 2018-07-06 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110930208B (zh) * 2018-09-19 2023-05-05 阿里巴巴集团控股有限公司 对象搜索方法及装置
US10956487B2 (en) * 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN112287217B (zh) * 2020-10-23 2023-08-04 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651003A (zh) * 2011-02-28 2012-08-29 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103838774A (zh) * 2012-11-26 2014-06-04 英业达科技有限公司 网页查询***及其查询方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651003A (zh) * 2011-02-28 2012-08-29 北京百度网讯科技有限公司 一种跨语言搜索的方法和装置
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103838774A (zh) * 2012-11-26 2014-06-04 英业达科技有限公司 网页查询***及其查询方法

Also Published As

Publication number Publication date
CN108304412A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN107291704B (zh) 处理方法和装置、用于处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN109101505B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
WO2019109663A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN111369978B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN111708943A (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN109521888B (zh) 一种输入方法、装置和介质
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN108241614B (zh) 信息处理方法和装置、用于信息处理的装置
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
CN111414766B (zh) 一种翻译方法及装置
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN109992790B (zh) 数据处理方法和装置、用于数据处理的装置
CN108073294B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN114610163A (zh) 推荐方法、装置和介质
CN112306252A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113515618A (zh) 语音处理方法、装置和介质
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN112214692A (zh) 基于输入法的数据处理方法、装置和机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant