CN1687925A - 一种实现双语网页搜索的方法 - Google Patents

一种实现双语网页搜索的方法 Download PDF

Info

Publication number
CN1687925A
CN1687925A CN 200510018672 CN200510018672A CN1687925A CN 1687925 A CN1687925 A CN 1687925A CN 200510018672 CN200510018672 CN 200510018672 CN 200510018672 A CN200510018672 A CN 200510018672A CN 1687925 A CN1687925 A CN 1687925A
Authority
CN
China
Prior art keywords
bilingual
translation
search
retrieval type
query requests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510018672
Other languages
English (en)
Inventor
贺方升
陈智贤
余俊
程伟
朱前线
孙上海
李银刚
朱柳嵩
王沧洪
Original Assignee
贺方升
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 贺方升 filed Critical 贺方升
Priority to CN 200510018672 priority Critical patent/CN1687925A/zh
Publication of CN1687925A publication Critical patent/CN1687925A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种利用搜索引擎和自动生成的双语检索式实现搜索双语网页,为用户提供辅助翻译的方法,其特征在于:包括以下步骤,(1)用户提交查询请求;(2)依据查询请求内容生成双语检索式;(3)将双语检索式传送给搜索引擎进行搜索;(4)搜索引擎返回搜索结果。本发明的优点在于只要在用户操作与显示界面提交一个单语言查询请求,就能自动生成双语检索式,从而能检索到同时含有该查询请求与可能含有该查询请求对应翻译的双语网页。采用本发明可以为用户提供便捷准确的翻译信息。

Description

一种实现双语网页搜索的方法
技术领域
本发明涉及一种互联网多语言网页的搜索方法;具体地说,涉及一种利用搜索引擎和自动生成的双语检索式实现搜索双语网页,为用户提供辅助翻译的方法。
背景技术
随着互联网的发展及国际文化交流的加强,网站也开始出现了国际化的趋势。首先,出现了越来越多的英语学***行网站,在这些网页中有很多双语对照的学习资源;另外在很多网页中,对于一些专有名词或新近出现的词汇,有些作者会在这类词汇后附上它们的对应英文翻译,如在武汉理工大学网站上的学校简介网页上,就有“武汉理工大学(Wuhan University ofTechnology)是***直属全国重点大学”这样的双语描述。这些含有双语对照翻译的网页在互联网中有很多,是人们在翻译时可以参考的宝贵资源。
为了搜索到这些在互联网上已经存在的翻译成果,人们可以借助于一些通用的搜索引擎,如www.***.com和百度( www.***.com),通过选择和组合关键词检索项可以搜索到这些存在双语对照翻译的网页。举例来说,用户可以在www.***.com的搜索框中输入双语检索式“武汉理工大学university”,会搜索到很多同时包括有“武汉理工大学”和“university”的网页,在这些搜索结果中,会出现“武汉理工大学(Wuhan University of Technology)是***直属全国重点大学……”这样的双语描述,显然,这些搜索结果对用户翻译“武汉理工大学”这样的专有名词是很有帮助的。但问题是现有的这些通用搜索引擎并不是专门为翻译搜索而设计,对用户的搜索水平和英语水平都有较高要求。
发明内容
本发明的目的是针对上述不便而提出的一种实现双语网页搜索的方法,该方法可以依据用户的输入内容,自动生成对应的双语检索式,再送入搜索引擎搜索,为用户搜索到同时含有用户输入内容及其对应翻译的网页,为用户的翻译提供参考。
为了达到上述目的,本发明提供的技术方案是:包括以下步骤,
(1)用户提交查询请求;
(2)依据查询请求内容生成双语检索式;
(3)将双语检索式传送给搜索引擎进行搜索;
(4)搜索引擎返回搜索结果。
而且,所述步骤2由双语检索式自动生成***实现,实现步骤如下:
A)双语检索式自动生成***接收到查询请求后,将查询请求切分成关键词项,从关键词项中自动挑选检索关键词项,删除冗余的关键词项;
B)将检索关键词项分别翻译;
C)将检索关键词项的翻译和查询请求内容根据逻辑关系组合成双语检索式。
而且,在进行步骤C)之后,向用户提交自动生成的双语检索式,接受用户确认或修改,然后进行步骤3。
采用以上技术方案后,本发明具有以下优点和积极效果:用户只要在用户操作与显示界面提交一个单语言查询请求,就能自动生成双语检索式,从而能检索到同时含有该查询请求与可能含有该查询请求对应翻译的双语网页。能为用户的翻译提供一定程度上的参考,特别是对一些只能“查找”不能自行“翻译”的专有名词的翻译有极大的参考价值。
附图说明
图1是本发明流程图。
图2是本发明的***示意图。
具体实施方式
以下结合附图1、图2,对本发明作进一步的详细说明。为方便阐述,本发明提供一个以中文、英文为例的具体实施例子,事实上本发明同样适用于其它语言间的双语搜索,如中文和法文、日语和英文等。
一种实现双语网页搜索的方法包括以下步骤:(1)用户提交查询请求;(2)依据查询请求内容生成双语检索式;(3)将双语检索式传送给搜索引擎进行搜索;(4)搜索引擎返回搜索结果。
在步骤1中,用户提交查询请求通过用户操作与显示界面实现,用户操作与显示界面可以是浏览器或者客户端软件,有用户输入接口,可以接收用户的查询请求,并将查询请求通过网络发送出去。用户操作与显示界面的编写属于计算机软件方面的现有技术。
例子:假设用户要通过本方法查询“武汉理工大学”的英文翻译,则在用户操作与显示界面提交查询请求:“武汉理工大学”。
在步骤2中,利用双语检索式自动生成***依据查询请求内容生成双语检索式。在具体实施时,双语检索式自动生成***可以分为切分关键词模块和翻译引擎这两个模块编写。
在步骤3中,所述的搜索引擎为通用搜索引擎,如 www.***.comwww.***.com等,也可以是元搜索引擎。
在例子中,双语检索式自动生成***将双语检索式传送给搜索引擎,如将“武汉理工大学AND wuhan AND university”传送给 www.***.comwww.***.com接收到查询请求后,以双语检索式为检索项对其数据库进行检索。
在步骤4中,搜索引擎返回搜索结果,并在用户操作与显示界面中显示结果。
在例子中, www.***.com以“武汉理工大学AND wuhan AND university”为检索项对其数据库进行检索,返回585项搜索结果,即有585个网页同时含有“武汉理工大学”、“wuhan”、“university”。在前10条结果中,有5条结果含有“武汉理工大学(Wuhan University of Technology)是***直属全国重点大学”这样的双语描述,显然这些搜索结果对用户翻译“武汉理工大学”很有帮助。
为了提供高效的双语检索式,本发明提供实现生成双语检索式的步骤如下:
A)双语检索式自动生成***接收到查询请求后,将查询请求切分成关键词项,从关键词项中自动挑选检索关键词项,删除冗余的关键词项;B)将检索关键词项分别翻译;C)将检索关键词项的翻译和查询请求内容根据逻辑关系组合成双语检索式。其工作流程与各模块的功能具体说明如下:
在步骤A)中双语检索式自动生成***接收到查询请求后,切分关键词模块将查询请求切分成多个关键词,如果关键词较多,可依据关键词的词性和词频删除部分关键词,自动挑选检索关键词项。对于中文、韩文、日文等为代表的东方语系语言而言,与以英文为代表的拉丁语系语言不同,这些语言的句子中的词与词间没有明显的分界符。以中文为例子来说,汉语是一些连续的字序列,需要将其切分成多个关键词,才能用于查询检索。在中文查询请求的处理中切分关键词模块就是在中文分词与词性标注,将一句长话中的词识别出来,将长话切分成多个基本独立语义单位——中文单词,并进行词性标注。中文分词与词性标注研究一直是中文信息处理研究的热点,国内外均有较成熟的技术和产品:在产品上,国内的众多单位,如海量科技信息技术有限公司的“中文分词软件包”、厦门大学语言技术中心的“分词标注程序”、北京大学计算语言学研究所的“汉语切分与标注程序”等都是较成熟的产品;在技术和算法上,有最大匹配法,反向最大匹配法,逐词遍历法,设立切分法,最佳匹配法,有穷多层次列举法,二次扫描法,邻接约束法,邻接知识约束法,专家***法,最少分词词频选择方法,神经网络方法等等。
对于以英文为代表的拉丁语系语言而言,在英文中,单词之间是以空格作为自然分界符的,分词与词性标注的问题不大,但存在英文的词法分析问题:即词汇形态还原、查找短语(词组)与特殊符号的处理。只有将具有形态变化的词汇还原成原形形式,才能利于翻译***的翻译;只有确定了哪几个相邻的词构成一个短语,并以短语为单位进行翻译,才能得到相应的正确译文。在英文查询请求的处理中切分关键词模块就是在进行分词、词性标注与词法分析;在对英文进行分词的过程中,除了空格分隔符,还有几种特殊的符号要处理:数字、连字符、标点符号和字母的大小写等。英文的分词、词性标注与词法分析目前已经取得了很大进展,技术成熟,如在国内流行的英汉机器翻译软件内置有分词、词性标注与词法分析工具,如金山快译、东方快车等软件。
在例子中:双语检索式自动生成***接收到用户的查询请求:“武汉理工大学”后,切分关健词模块将其切分为多个关健词,一种切分结果是:“武汉”(名词)、“理工”(名词)、“大学”(名词)。
又如:双语检索式自动生成***接收到用户的查询请求:“凡是坚持真理的人”后,切分关健词模块将其切分为多个关健词项,一种切分结果是:“凡是”(副词)、“坚持”(动词)、“真理”(名词)、“的”(助词)、“人”(名词),由于关键词项较多,可依据关键词项的词性删除部分关键词项,如去除副词、助词、和动词,留下检索关键词项:“真理”(名词)、“人”(名词)。
在步骤B)中,翻译引擎将切分后生成的关键词分别进行翻译,翻译成多个以另一种语言描述的关键词。这类翻译引擎属于已经很成熟的现有技术,比如金山词霸、东方大典、Dr.eye“译典通”等电子词典软件。
在例子中:翻译引擎对切分后生成的关键词项“武汉”、“理工”、“大学”分别进行翻译,“武汉”被翻译成为“wuhan”,“理工”没有与之对应的翻译,“大学”有两个翻译与其对应:“college”和“university”。
在步骤C)中,双语检索式自动生成***将检索关键词项的翻译和原来的查询请求一起组合成双语检索式。
一个查询请求内容可能包含有多个检索关键词项(分别记为关键词a、关键词b、关键词c……关键词x),同一检索关健词项可能有多种翻译(分别记为译法1、译法2、译法3……译法n),关键词A的翻译记为译法a1、译法a2……译法an,其他依此类推。则生成的双语检索式可以有多种组合方式,这些关键词内部之间可以逻辑或或逻辑与的关系组合起来,而这些关键词和译法之间也可以逻辑或或逻辑与的关系组合起来,查询请求、关键词、翻译之间也可以逻辑或或逻辑与的关系组合起来,如:
查询请求+(译法a1 OR译法a2 OR译法a3……)+(译法b1 OR译法b2 OR译法b3……)+……+(译法x1 OR译法x2 OR译法x3……);
查询请求+(译法a1 AND译法a2 AND译法a3……)+(译法b1 AND译法b2 AND译法b3……)+……+(译法x1 AND译法x2 AND译法x3……);
(关键词a AND关键词b AND关键词c……)+(译法a1 AND译法a2 AND译法a3……)+(译法b1 AND译法b2 AND译法b3……)+……+(译法x1 AND译法x2 AND译法x3……);
(关键词a AND关键词b AND关键词c……)+(译法a1 OR译法a2 OR译法a3……)+(译法b1 OR译法b2 OR译法b3……)+……+(译法x1 OR译法x2 OR译法x3……);
查询请求+(译法a1 OR译法a2 OR译法a3……)OR(译法b1 OR译法b2 OR译法b3……)OR……OR(译法x1 OR译法x2 OR译法x3……);
(关键词a AND关键词b AND关键词c……)OR(译法a1 AND译法a2 AND译法a3……)OR(译法b1 AND译法b2 AND译法b3……)OR……OR(译法x1 AND译法x2 AND译法x3……)。
以上的组合方式中的“+”和“AND”都表示逻辑与的关系,“OR”表示逻辑或的关系,括号“()”为便于描述而加并无实际意义。
具体实施时,双语检索式自动生成***可以选择上述任一种来自动生成双语检索式。
在例子中,查询请求“武汉理工大学”经双语检索式自动生成***处理后,生成的双语检索式可以为,示例如下:
(武汉理工大学) AND(wuhan)AND(university OR college)
为了提供人性化的结果,在自动生成双语检索式后,返回该双语检索式至用户操作与显示界面,供用户确认,用户可以依据自己的需要对自动生成的双语检索式进行修改。
在例子中,用户见到上述的双语检索式后,用户可能认为college这个翻译是不适合的,可以将college这个关键词从双语检索式中删除。双语检索式变为:(武汉理工大学) AND(wuhan)AND(university),本检索项中括号“()”为便于描述而加并无实际意义。
在具体实施时,还可以设计为进行完步骤4,用户得到搜索结果后,再对双语检索式进行修改,然后重新进行步骤3、步骤4,可以反复修改,以得到用户最满意的结果。

Claims (3)

1.一种实现双语网页搜索的方法,其特征在于:包括如下步骤,
(1)用户提交查询请求;
(2)依据查询请求内容生成双语检索式;
(3)将双语检索式传送给搜索引擎进行搜索;
(4)搜索引擎返回搜索结果。
2.如权利要求书1所述的一种实现双语网页搜索的方法,其特征在于:所述步骤(2)由双语检索式自动生成***实现,实现步骤如下,
A)双语检索式自动生成***接收到查询请求后,将查询请求切分成关键词项,从关键词项中自动挑选检索关键词项,删除冗余的关键词项;
B)将检索关键词项分别翻译;
C)将检索关键词项的翻译和查询请求内容根据逻辑关系组合成成双语检索式。
3.如权利要求书2所述的一种实现双语网页搜索的方法,其特征在于:在进行步骤C)之后,向用户提交自动生成的双语检索式,接受用户确认或修改,然后进行步骤(3)。
CN 200510018672 2005-05-10 2005-05-10 一种实现双语网页搜索的方法 Pending CN1687925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200510018672 CN1687925A (zh) 2005-05-10 2005-05-10 一种实现双语网页搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510018672 CN1687925A (zh) 2005-05-10 2005-05-10 一种实现双语网页搜索的方法

Publications (1)

Publication Number Publication Date
CN1687925A true CN1687925A (zh) 2005-10-26

Family

ID=35305966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510018672 Pending CN1687925A (zh) 2005-05-10 2005-05-10 一种实现双语网页搜索的方法

Country Status (1)

Country Link
CN (1) CN1687925A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其***
CN103324680A (zh) * 2012-06-01 2013-09-25 微软公司 语言学习机会和通用搜索引擎
CN103885943A (zh) * 2012-12-19 2014-06-25 北大方正集团有限公司 网页中的下拉列表框控件的实现方法
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎***
CN105022728A (zh) * 2015-07-13 2015-11-04 广西达译商务服务有限责任公司 汉老双语平行语料自动采集的***及实现方法
CN106294643A (zh) * 2016-08-03 2017-01-04 王晓光 不同语言在大数据中实现实时搜索方法及***
CN106326350A (zh) * 2016-08-06 2017-01-11 马岩 不同语言在大数据中实现实时搜索方法及***
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
WO2018023483A1 (zh) * 2016-08-03 2018-02-08 王晓光 不同语言在大数据中实现实时搜索方法及***
WO2018027344A1 (zh) * 2016-08-06 2018-02-15 马岩 不同语言在大数据中实现实时搜索方法及***
CN108900574A (zh) * 2018-06-04 2018-11-27 上海市疾病预防控制中心 基于用户个性化需求的一站式搜索推送方法
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692B (zh) * 2006-03-24 2010-09-22 富士通株式会社 基于语义预测的译文获取方法和设备
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN102253930B (zh) * 2010-05-18 2016-03-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103324680A (zh) * 2012-06-01 2013-09-25 微软公司 语言学习机会和通用搜索引擎
CN103020044A (zh) * 2012-12-03 2013-04-03 江苏乐买到网络科技有限公司 一种机器辅助网页翻译方法及其***
CN103885943A (zh) * 2012-12-19 2014-06-25 北大方正集团有限公司 网页中的下拉列表框控件的实现方法
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎***
CN105022728A (zh) * 2015-07-13 2015-11-04 广西达译商务服务有限责任公司 汉老双语平行语料自动采集的***及实现方法
CN106294643A (zh) * 2016-08-03 2017-01-04 王晓光 不同语言在大数据中实现实时搜索方法及***
WO2018023483A1 (zh) * 2016-08-03 2018-02-08 王晓光 不同语言在大数据中实现实时搜索方法及***
CN106326350A (zh) * 2016-08-06 2017-01-11 马岩 不同语言在大数据中实现实时搜索方法及***
WO2018027344A1 (zh) * 2016-08-06 2018-02-15 马岩 不同语言在大数据中实现实时搜索方法及***
CN106503231A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN106503231B (zh) * 2016-10-31 2020-02-04 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108900574A (zh) * 2018-06-04 2018-11-27 上海市疾病预防控制中心 基于用户个性化需求的一站式搜索推送方法
CN112434537A (zh) * 2020-11-24 2021-03-02 掌阅科技股份有限公司 翻译文本一致性校验方法、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN1687925A (zh) 一种实现双语网页搜索的方法
JP5203934B2 (ja) オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
US9069857B2 (en) Per-document index for semantic searching
CN1685341B (zh) 跨语言搜索结果的闪烁注释标注加亮
Hertling et al. WikiMatch-using Wikipedia for ontology matching.
US20090106203A1 (en) Method and apparatus for a web search engine generating summary-style search results
US8280721B2 (en) Efficiently representing word sense probabilities
US20170109449A1 (en) Discovery engine
CN1839386A (zh) 使用语义歧义消除与扩展的因特网搜索
WO2008098507A1 (fr) Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement
Bian et al. Cross‐language information access to multilingual collections on the internet
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
CN1815477A (zh) 用于提供基于标记语言的限定词的方法和***
CN1282934A (zh) 相似字选取和文件检索的方法和***
CN1750002A (zh) 提供搜索结果的方法
Kishida et al. Overview of CLIR task at the fifth NTCIR workshop
Liu et al. Information retrieval and Web search
Kishida et al. Overview of CLIR task at the fourth NTCIR workshop
Bian et al. Integrating query translation and document translation in a cross-language information retrieval system
JP2003150623A (ja) 言語横断型特許文献検索方法
CN1114165C (zh) 中文文本中的字词分割方法
Nasharuddin et al. Cross-lingual information retrieval
Vidya et al. Web Page Ranking Using Multilingual Information Search Algorithm-A Novel Approach
CN111241854A (zh) 一种基于区块链技术的语言搜索引擎***
KR100885527B1 (ko) 문맥 기반 색인데이터 생성장치와 문맥기반 검색장치 및 그방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: He Fangsheng

Document name: Notification before expiration of term

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: He Fangsheng

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication