CN106844304A - 一种基于译稿分类为待译稿件匹配译员的方法 - Google Patents

一种基于译稿分类为待译稿件匹配译员的方法 Download PDF

Info

Publication number
CN106844304A
CN106844304A CN201611218858.0A CN201611218858A CN106844304A CN 106844304 A CN106844304 A CN 106844304A CN 201611218858 A CN201611218858 A CN 201611218858A CN 106844304 A CN106844304 A CN 106844304A
Authority
CN
China
Prior art keywords
manuscript
translation
existing
treating
interpreter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611218858.0A
Other languages
English (en)
Inventor
宋安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language Network (wuhan) Information Technology Co Ltd
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201611218858.0A priority Critical patent/CN106844304A/zh
Publication of CN106844304A publication Critical patent/CN106844304A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于译稿分类为待译稿件匹配译员的方法,其特征是包括以下步骤:(1)建立停用词表(2)对已有译稿进行预处理,所述已有译稿均记录着完稿译员的信息;(3)对待译稿进行预处理,所述预处理包括分词;(4)将预处理后的已有译稿与待译稿进行文档相似度匹配,获得候选译稿;(5)基于译稿分类筛选译稿;(6)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。可达到以下效果:通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;通过计算高频通用词补充停用词表提高匹配准确率,通过对候选译稿进行类别筛选提高匹配准确率。

Description

一种基于译稿分类为待译稿件匹配译员的方法
技术领域
本发明属于自然语言处理、信息检索,尤其涉及一种基于译稿分类为待译稿件匹配译员的方法。
背景技术
在大体量的翻译公司或者翻译平台上,不得不面对的一个问题是如何为待译稿件匹配译员,常见的做法是人工判别和机器判别,人工判别是通过语言专家或翻译专家分别对翻译文档和译员进行分析和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别的方法包括一种方法:根据译稿匹配译员,实际是通过译稿匹配译稿库中已有译稿,进而确定译员。
文档相似度匹配可以通过搜索引擎实现,Lucene是一套用于全文检索和搜索的开源程序库,为互联网时代搜索引擎是常见的信息检索工具。
通常一个文档集合里会有很多文档包含某个单词,每个文档会记录文档编号,单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息叫做倒排索引项,包含这个单词的一系列倒排索引项构成了这个单词对应的倒排索引表,成万上亿个单词的倒排索引表构成了倒排索引。
目前,对利用文档处理及匹配提高匹配译员的效率尚有许多提高空间。
发明内容
本发明所要解决的技术问题是通过对已有译稿和待译稿进行预处理,基于译稿分类对预处理后的已有译稿和待译稿进行相似度匹配,从而高效准确地匹配到合适的译员。
为解决上述技术问题,本发明提供了一种基于译稿分类为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2)对已有译稿进行预处理,所述已有译稿记录着完稿译员的信息;
(3)对待译稿进行预处理,所述预处理包括分词;
(4)将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
(5)筛选译稿,所述筛选译稿的步骤是:
收集若干类别的文档作为训练样本,对译稿分类器进行训练,对译稿库已有译稿进行分类;
将候选译稿关联分类,如果候选译稿包含不同分类,保留数量比例超过设定阈值的分类的译稿;
(6)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
进一步,所述建立停用词表的步骤中的译稿库中的已有译稿,是已经通过译稿分类器分类后的译稿。
进一步,所述对待译稿进行预处理的步骤是: (1)对待译稿进行分词,(2)提取待译稿主题, (3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
进一步,所述将预处理后的已有译稿与待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi)。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
采用上述技术方案,可达到以下效果:
通过译稿匹配译员,代替人工指派译员,降低人工劳动强度,提高匹配准确率;
通过对对已有译稿和待译稿进行预处理提高了匹配基础;
通过高效的相似度匹配算法提高了匹配效率和质量;
通过计算高频通用词补充停用词表提高匹配准确率;
通过对候选译稿进行类别筛选提高匹配准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1示出了一种基于译稿分类为待译稿件匹配译员的方法的流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供了一种基于译稿分类为待译稿件匹配译员的方法,如图1所示,其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2)对已有译稿进行预处理,所述已有译稿记录着完稿译员的信息;
(3)对待译稿进行预处理,所述预处理包括分词;
(4)将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
(5)筛选译稿,所述筛选译稿的步骤是:
收集不同类别的文档作为训练样本,对译稿分类器进行训练,对译稿库已有译稿进行分类;
将候选译稿关联分类,如果候选译稿包含不同分类,保留数量比例超过设定阈值的分类的译稿;
(6)获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
进一步,所述建立停用词表的步骤中的译稿库中的已有译稿,是已经通过译稿分类器分类后的译稿。
进一步,所述对待译稿进行预处理的步骤是: (1)对待译稿进行分词,(2)提取待译稿主题, (3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
进一步,所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
进一步,所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
进一步,所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
进一步,所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
进一步,所述将预处理后的已有译稿与待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式 计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
进一步,所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
所述对译稿进行分类的方法是根据贝叶斯文本分类算法对译稿库进行分类。
本领域技术人员还应当理解,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于译稿分类为待译稿件匹配译员的方法,其特征是包括以下步骤:
(1)建立停用词表
所述建立停用词表的步骤是通过译稿库计算得到高频通用词,通过高频通用词和常见停用词建立停用词表;
(2) 对已有译稿进行预处理,所述已有译稿记录着完稿译员的信息;
(3) 对待译稿进行预处理,所述预处理包括分词;
(4) 将预处理后的已有译稿与预处理后的待译稿进行文档相似度匹配,获得候选译稿;
(5) 筛选译稿,所述筛选译稿的步骤是:
收集若干类别的文档作为训练样本,对译稿分类器进行训练,对译稿库已有译稿进行分类;
将候选译稿关联分类,如果候选译稿包含不同分类,保留数量比例超过设定阈值的分类的译稿;
(6) 获取候选译稿记录的译员信息,保存为待译稿件匹配译员的信息。
2.根据权利要求1所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述建立停用词表的步骤中的译稿库中的已有译稿,是已经通过译稿分类器分类后的译稿。
3.根据权利要求1所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述对待译稿进行预处理的步骤是: (1)对待译稿进行分词;(2)提取待译稿主题;(3)对待译稿分词后的待译稿内容和待译稿主题进行加权,获得预处理后的待译稿。
4.根据权利要求1所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述对已有译稿进行预处理的步骤是:(1)对已有译稿分词并建立基于词汇的倒排索引;(2)对分词后的已有译稿提取主题,建立基于译稿主题的倒排索引;(3)对基于词汇的倒排索引和基于译稿主题的倒排索引进行加权,获得预处理后的已有译稿。
5.根据权利要求4所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述对已有译稿分词后提取主题的方法是:(1)如果有标题,将标题默认为主题;(2)如果没有标题,但有关键词,根据关键词提取译稿主题;(3)如果没有标题,也没有关键词,默认首句为主题句。
6.根据权利要求1所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述对待译稿进行分词是通过调用Lucene搜索引擎进行分词,所述Lucene搜索引擎包括若干种分词器。
7.根据权利要求6所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器对译稿库中已有译稿进行分词。
8.根据权利要求7所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述Lucene搜索引擎根据语种类别采用相匹配的分词器,所述语种类别包括拉丁语系和东亚语系,所述拉丁语系采用具有词干提取功能的分词器,所述东亚语系采用基于词典和统计的分词器。
9.根据权利要求1所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述将预处理后的已有译稿与待译稿件进行文档相似度匹配的步骤是根据公式(一)计算文档相似度,所述公式(一)为:
其中,Q表示待译稿件,d表示已有译稿,qi表示预处理后的待译稿件词语,N表示译稿库中的总文档数;
k1, b为调节因子,设置k1=1.2,b=0.75,fi为qi在d中的出现次数,n(qi)为译稿库中包含qi的文档数,dl为已有译稿d的长度,avgdl为译稿库中所有文档的平均长度;
所述公式一的计算因子N,qi,n(qi),dl,avgdl,fi由以下步骤得出;
(a)记录译稿库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avgdl;
(b)根据步骤(2)获取预处理后的待译稿件词语qi,获取已有译稿d的长度dl,获取qi在已有译稿d中的出现次数 fi,计算译稿库中包含qi的文档数n(qi) 。
10.根据权利要求9所述的基于译稿分类为待译稿件匹配译员的方法,其特征是所述公式(一)是由公式集合(二)转换而来,
所述公式集合(二)为:
其中, Wi表示qi的权重;R(qi,d)表示qi与已有译稿d的相关性得分,
k1,k2,b为调节因子,设k2=0 ,qfi为qi在待译稿件中的出现频率,Wi表示词语与文档相关性的权重,IDF为逆文档频率。
CN201611218858.0A 2016-12-26 2016-12-26 一种基于译稿分类为待译稿件匹配译员的方法 Pending CN106844304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611218858.0A CN106844304A (zh) 2016-12-26 2016-12-26 一种基于译稿分类为待译稿件匹配译员的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611218858.0A CN106844304A (zh) 2016-12-26 2016-12-26 一种基于译稿分类为待译稿件匹配译员的方法

Publications (1)

Publication Number Publication Date
CN106844304A true CN106844304A (zh) 2017-06-13

Family

ID=59136451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611218858.0A Pending CN106844304A (zh) 2016-12-26 2016-12-26 一种基于译稿分类为待译稿件匹配译员的方法

Country Status (1)

Country Link
CN (1) CN106844304A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核***工程有限公司 一种基于改进的knn文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法
CN104408095A (zh) * 2014-11-15 2015-03-11 北京广利核***工程有限公司 一种基于改进的knn文本分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299737A (zh) * 2018-09-19 2019-02-01 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109299737B (zh) * 2018-09-19 2021-10-26 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备

Similar Documents

Publication Publication Date Title
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
CN105022725B (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN107608999A (zh) 一种适用于自动问答***的问句分类方法
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109522547B (zh) 基于模式学习的中文同义词迭代抽取方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN107704558A (zh) 一种用户意见抽取方法及***
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN103488623A (zh) 多种语言文本数据分类处理方法
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN1687924A (zh) 互联网人物信息搜索引擎的生成方法
CN107102976A (zh) 基于微博的娱乐新闻自动构建技术与***
CN106844303A (zh) 一种基于相似度匹配算法为待译稿件匹配译员的方法
Ibrahim et al. Sentiment analysis of Arabic tweets: With special reference restaurant tweets
CN106294398A (zh) 信息处理装置和信息处理方法
Hidayat et al. Effect of Stemming Nazief & Adriani on the Ratcliff/Obershelp algorithm in identifying level of similarity between slang and formal words
Ayadi et al. A Survey of Arabic Text Representation and Classification Methods.
CN114065749A (zh) 一种面向文本的粤语识别模型及***的训练、识别方法
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
CN106484672A (zh) 词汇识别方法和词汇识别***
CN106844304A (zh) 一种基于译稿分类为待译稿件匹配译员的方法
Hakkani-Tur et al. Statistical sentence extraction for information distillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170613

RJ01 Rejection of invention patent application after publication