CN105843802A - 翻译中语料介入模块及方法 - Google Patents
翻译中语料介入模块及方法 Download PDFInfo
- Publication number
- CN105843802A CN105843802A CN201610202189.1A CN201610202189A CN105843802A CN 105843802 A CN105843802 A CN 105843802A CN 201610202189 A CN201610202189 A CN 201610202189A CN 105843802 A CN105843802 A CN 105843802A
- Authority
- CN
- China
- Prior art keywords
- translation
- language material
- corpus
- coupling
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种翻译中语料介入模块及方法,目的在于,实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性,所采用的技术方案为:利用语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;利用翻译材料读取模块打开需要翻译的材料,并对需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义,并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;最后通过匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。
Description
技术领域
本发明属于计算语言学和翻译技术领域,具体涉及一种翻译中语料介入模块及方法。
背景技术
语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目的而集成的大型文本库(Atkins and Clear,1992:1-16)。Renouf认为,语料库是“由大量收集的书面语或口语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf,1987:1)。Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须反洗足量的自然英语(或其他语言)文本,以便基于观测频率(observed frequency)进行合乎实际的预测。
因此,就需要可靠机读的电子文本集,即可机读的语料库”(leech,1987:2)。综上所述,语料库具有以下基本特征:
1)语料库的设计和建设是在***的理论语言学原则下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。
2)语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurred data)。
3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库攒在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky,1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery,1996:5)。
李文中认为:语料文本是一连续的文本或话语片段(running text or continuous stretches ofdiscourse),而不是鼓励的句子和词汇。在语料库研究中,对某一搜索词的语法关系、用法、以及大批的观察是通过分析提供的语境(context)进行的。
目前关于语料的研究更多为理论性的,为语料翻译学的研究服务,未涉及具体的实际应用;语料库的选择为研究性语料库,大多不是具体翻译实践中能够直接采用的语料库;具体翻译实践中,语料库如何介入翻译,或者说语料库如何形成对翻译的帮助,都没有具体提及。目前在翻译行业中,没有一种比较成熟的术语介入工具,通常为人工参考,效率较低。
发明内容
为了解决现有技术中的问题,本发明提出一种翻译时能够实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性的翻译中语料介入模块及方法。
为了实现以上目的,本发明所采用的技术方案为:
一种翻译中语料介入模块,包括:
语料读取模块:用于选择性读取历史语料库和为翻译活动备制的语料库;
翻译材料读取模块:用于打开需要翻译的材料,读取所述需要翻译的材料,并对所述需要翻译的材料进行分句处理;
语料和翻译材料检索匹配模块:用于对读取并经过分句处理的所述需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;
匹配语料显示模块:用于将匹配的语料和语料的译文区别显示出来;
匹配语料介入翻译模块:用于对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。
一种翻译中语料介入方法,包括以下步骤:
1)翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理,同时语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;
2)语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;
3)匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现翻译中的语料介入。
所述的步骤1)中翻译材料读取模块对写字板、Word文档调用Word的Com接口获取word中的文本;对excel文档调用excel的Com接口获取excel表格中的文本。
所述的步骤1)中翻译材料读取模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾。
所述的翻译材料读取模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。
所述的步骤1)中语料读取模块对历史语料库和为翻译活动备制的语料库中读取的语料以列表形式保存,并对语料按字母顺序排序。
所述的步骤2)中语料和翻译材料检索匹配模块对需要翻译的材料的匹配的具体步骤包括:
2.1)取一个单词到单词组,语料列表搜索单词组;
2.2)如果搜索到一个全匹配的语料,则保存语料的信息;继续转到步骤2.1)搜索更大的匹配;
2.3)如果搜索到一个子匹配,即单词组是语料的一部分,则转到步骤2.1)继续搜索;
2.4)如未搜索到匹配,则清空单词组,从最后一个匹配的单词组后开始转到步骤2.1),直至所有的翻译材料搜索完毕。
所述的步骤2)中匹配语料显示模块通过悬浮窗口或符号标注形式显示标定的匹配语料的译文,且该译文能够编辑。
与现有技术相比,本发明利用语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;利用翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理;语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义,并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;最后通过匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。翻译时能够实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性。
进一步,翻译材料读取模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾,对于英文句号需要判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符,进一步提高了翻译材料读取模块对分句处理的准确性,提高了翻译效率。
进一步,语料读取模块可选择性读取历史语料库和专为本次翻译活动备制的语料库,也可以读取为本次翻译活动备制的语料库为主,将历史语料库作为辅助参考读取,读取的语料以列表保存,并对语料按字母顺序排序,能够语料匹配搜索时的效率,从而能够缩减翻译时间。
进一步,语料和翻译材料检索匹配模块对需要翻译的材料的匹配采用最大语料匹配的原则,能够更好的对需要翻译的材料尽心语料匹配,进一步提高本发明的效率。
具体实施方式
下面结合具体的实施例对本发明作进一步的解释说明。
本发明由五个模块构成:
模块一:语料读取模块:可选择性读取历史语料库和专为本次翻译活动备制的语料库,也可以读取为本次翻译活动备制的语料库为主,将历史语料库作为辅助参考读取。读取的语料以列表保存,并对语料按字母顺序排序,提高语料匹配搜索时的效率;
模块二:翻译材料读取模块:打开需要翻译的材料,打开材料的同时,对材料进行分句处理。根据标点符号和规则,将英语文本切分为一个个的句子,定义句子终止符,如英文的句号、感叹号、问号等,遇到终止符判断为句尾,英文句号还需要判断是否缩略词,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符;
模块三:语料和翻译材料检索匹配模块:对读取并经过分句处理的翻译材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料(语料+释义);具体包括:(1)取一个单词到单词组,语料列表搜索单词组;(2)如果搜索到一个全匹配的语料,则保存语料的信息(位置+语料+释义),继续转到步骤(1)搜索更大的匹配;(3)如果搜索到一个子匹配(词组是语料的一部分),则转到步骤(1);(4)如果未搜索到匹配,则清空词组,从最后一个配词组后开始转到步骤(1),直到所有的翻译材料搜索完毕;
模块四:匹配语料显示模块:凡是标签标注过的语料都是已经匹配上的语料,在翻译该句的时候,有多种方式进行显示:
1)显示方式一:匹配上的语料颜色显示(颜色可以设定,可设定两种颜色,区分为本次翻译活动备制的语料库和历史语料库中的语料),鼠标放置到该语料上时,鼠标旁出现该语料的译文的文本框,鼠标移动到该文本框上的时候,可选择复制该译文,鼠标离开该文本框,则该文本框退出;
2)显示方法二:匹配上的语料颜色显示(颜色可以设定,可设定两种颜色,区分为本次翻译活动备制的语料库和历史语料库中的语料),该语料的译文直接用设定符号标注直接显示在该语料后面;
3)显示方法三:匹配上的语料颜色显示(颜色可以设定,可设定两种颜色,区分为本次翻译活动备制的语料库和历史语料库中的语料),该语料的译文悬浮显示在该语料上方,数据移动到该译文上的时候,可编辑该语料,例如可以复制改译文内容;
模块五:匹配语料介入翻译模块:不同显示方式的语料译文可以通过复制,然后在翻译中选择位置粘贴,从而实现对翻译的介入。
本发明方法完整的步骤:
在工具界面打开需要翻译的文本(格式可为Word、Excel、记事本、写字板等),文本文件直接用通用读文件模块获取文本,写字板、Word文档调用Word的Com接口获取word中的文本,excel调用excel的Com接口获取excel表格中的文本;然后点击“语料介入”(语料为历史语料或为本项目特制的语料),按照提示选择语料(语料形式列表分两栏显示,左栏为语料、右栏为释义)文件,调用语料和翻译材料检索匹配模块获得匹配的语料信息;
匹配显示有两种方式可选,1)为匹配上的语料直接用特殊符号,例如【】显示释义,根据语料和翻译材料检索匹配模块得到匹配语料在翻译文本中的位置,为了简化***对语料在文本位置的影响,翻译文本从后往前***匹配语料的释义;
2)语料上悬浮显示,鼠标移动到该语料上的时候,停留时间超过设定值(缺省是3秒),取到鼠标的位置,根据该位置取到句子,句子经过语料和翻译材料检索匹配模块,得到改句子匹配的语料并在鼠标所在的位置弹出显示的悬浮窗口显示;
直接复制两种方法显示的释义,粘贴到翻译位置,完成语料在翻译中的计入。
本发明翻译时能够实现语料检索和对比,匹配上的语料可轻松介入到翻译中,从而能够缩减翻译时间,并提高翻译中表达一致性。
Claims (8)
1.一种翻译中语料介入模块,其特征在于,包括:
语料读取模块:用于选择性读取历史语料库和为翻译活动备制的语料库;
翻译材料读取模块:用于打开需要翻译的材料,读取所述需要翻译的材料,并对所述需要翻译的材料进行分句处理;
语料和翻译材料检索匹配模块:用于对读取并经过分句处理的所述需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;
匹配语料显示模块:用于将匹配的语料和语料的译文区别显示出来;
匹配语料介入翻译模块:用于对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现对翻译的介入。
2.一种翻译中语料介入方法,其特征在于,包括以下步骤:
1)翻译材料读取模块打开需要翻译的材料,读取需要翻译的材料,并对需要翻译的材料进行分句处理,同时语料读取模块选择性读取历史语料库和为翻译活动备制的语料库;
2)语料和翻译材料检索匹配模块对读取并经过分句处理的需要翻译的材料,逐句从第一个单词开始依次搜索最大语料匹配,最终得到匹配语料在文本中位置和语料释义;并通过匹配语料显示模块将匹配的语料和语料的译文区别显示出来;
3)匹配语料介入翻译模块对匹配的语料译文进行复制,并在翻译中选择位置粘贴,从而实现翻译中的语料介入。
3.根据权利要求2所述的一种翻译中语料介入方法,其特征在于,所述的步骤1)中翻译材料读取模块对写字板、Word文档调用Word的Com接口获取word中的文本;对excel文档调用excel的Com接口获取excel表格中的文本。
4.根据权利要求3所述的一种翻译中语料介入方法,其特征在于,所述的步骤1)中翻译材料读取模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾。
5.根据权利要求4所述的一种翻译中语料介入方法,其特征在于,所述的翻译材料读取模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。
6.根据权利要求2所述的一种翻译中语料介入方法,其特征在于,所述的步骤1)中语料读取模块对历史语料库和为翻译活动备制的语料库中读取的语料以列表形式保存,并对语料按字母顺序排序。
7.根据权利要求2所述的一种翻译中语料介入方法,其特征在于,所述的步骤2)中语料和翻译材料检索匹配模块对需要翻译的材料的匹配的具体步骤包括:
2.1)取一个单词到单词组,语料列表搜索单词组;
2.2)如果搜索到一个全匹配的语料,则保存语料的信息;继续转到步骤2.1)搜索更大的匹配;
2.3)如果搜索到一个子匹配,即单词组是语料的一部分,则转到步骤2.1)继续搜索;
2.4)如未搜索到匹配,则清空单词组,从最后一个匹配的单词组后开始转到步骤2.1),直至所有的翻译材料搜索完毕。
8.根据权利要求2所述的一种翻译中语料介入方法,其特征在于,所述的步骤2)中匹配语料显示模块通过悬浮窗口或符号标注形式显示标定的匹配语料的译文,且该译文能够编辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610202189.1A CN105843802A (zh) | 2016-03-31 | 2016-03-31 | 翻译中语料介入模块及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610202189.1A CN105843802A (zh) | 2016-03-31 | 2016-03-31 | 翻译中语料介入模块及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105843802A true CN105843802A (zh) | 2016-08-10 |
Family
ID=56596566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610202189.1A Pending CN105843802A (zh) | 2016-03-31 | 2016-03-31 | 翻译中语料介入模块及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105843802A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN110263149A (zh) * | 2019-05-29 | 2019-09-20 | 科大讯飞股份有限公司 | 一种文本展示方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996166A (zh) * | 2009-08-14 | 2011-03-30 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译*** |
CN102831109A (zh) * | 2012-08-08 | 2012-12-19 | 中国专利信息中心 | 一种基于智能匹配的机器翻译装置及其方法 |
CN105159892A (zh) * | 2015-08-28 | 2015-12-16 | 长安大学 | 一种语料提取器及提取语料的方法 |
CN105183723A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种翻译软件与语料搜索的关联方法 |
-
2016
- 2016-03-31 CN CN201610202189.1A patent/CN105843802A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996166A (zh) * | 2009-08-14 | 2011-03-30 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译*** |
CN102831109A (zh) * | 2012-08-08 | 2012-12-19 | 中国专利信息中心 | 一种基于智能匹配的机器翻译装置及其方法 |
CN105159892A (zh) * | 2015-08-28 | 2015-12-16 | 长安大学 | 一种语料提取器及提取语料的方法 |
CN105183723A (zh) * | 2015-09-17 | 2015-12-23 | 成都优译信息技术有限公司 | 一种翻译软件与语料搜索的关联方法 |
Non-Patent Citations (1)
Title |
---|
哈乐: "基于实例的汉阿语言机器翻译***的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
CN110263149A (zh) * | 2019-05-29 | 2019-09-20 | 科大讯飞股份有限公司 | 一种文本展示方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gottlieb | Language and the modern state: The reform of written Japanese | |
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN104298662B (zh) | 一种基于有机物命名实体的机器翻译方法及翻译*** | |
CN102693222B (zh) | 基于实例的甲骨文释文机器翻译方法 | |
JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
CN101937430B (zh) | 一种汉语句子中事件句式的抽取方法 | |
DE69925831T2 (de) | Maschinenunterstützte übersetzungswerkzeuge | |
US7823061B2 (en) | System and method for text segmentation and display | |
CN101206639B (zh) | 一种基于pdf的复杂版面的标引方法 | |
CN106066866A (zh) | 一种英文文献关键短语自动抽取方法与*** | |
CN102043808B (zh) | 利用网页结构抽取双语词条的方法及设备 | |
CN106570171A (zh) | 一种基于语义的科技情报处理方法及*** | |
CN101404036B (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
CN101361064A (zh) | 文本编辑装置和方法 | |
Kosem et al. | Automation of lexicographic work: an opportunity for both lexicographers and crowd-sourcing | |
Didakowski et al. | Automatic example sentence extraction for a contemporary German dictionary | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译***和方法 | |
CN105068990B (zh) | 一种面向机器翻译的多策略英文长句分割方法 | |
CN106021224A (zh) | 一种双语篇章标注方法 | |
Gantar et al. | Discovering automated lexicography: The case of the Slovene lexical database | |
CN105843802A (zh) | 翻译中语料介入模块及方法 | |
CN107818082A (zh) | 结合短语结构树的语义角色识别方法 | |
CN110119510A (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN109783819A (zh) | 一种正则表达式的生成方法及*** | |
CN109766453A (zh) | 一种用户语料语义理解的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160810 |
|
WD01 | Invention patent application deemed withdrawn after publication |