CN111209461A

CN111209461A - 基于公共标识语的双语语料采集***

Info

Publication number: CN111209461A
Application number: CN201911388715.8A
Authority: CN
Inventors: 张洁; 王晓珊; 李伟彬; 刘华; 费比; 周黎; 周辛雨
Original assignee: Chengdu University of Information Technology; Chengdu Univeristy of Technology
Current assignee: Chengdu University of Information Technology; Chengdu Univeristy of Technology
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-29

Abstract

本发明涉及一种基于公共标识语的双语语料采集***，包括语料采集范围设定模块，用于在语料采集范围进行语料采集的语料采集模块，第一语料信息存储模块，第二语料信息存储模块，用于从采集的语料中提取公共标识语部分的公共标识语提取模块，双语对照翻译模块，第三语料信息存储模块。本发明基于网络信息和参考书籍针对性地采集与公共标识语相关的内容，为公共标识语的词汇提供了较为详细的对照基础，以便于后续使用时出现与公共标识语非相关的释义，有效地提高了公共标识语应用中的翻译准确度。

Description

基于公共标识语的双语语料采集***

技术领域

本发明涉及一种基于公共标识语的双语语料采集***。

背景技术

公共标识语也被称为公示语，主要是在城市中为公众或游客的出行方便而提供的指示性语音，包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等，其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展，尤其是旅游业的发展，很多城市都吸引了大量的外国友人，因此公共标识语的翻译显得尤为重要，其不仅是城市语言环境和人文环境的代表，而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象，反之，错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区，因此保证公共标识语翻译的准确很有必要。

在提高公共标识语翻译准确度的过程中，建立合理准确的公共标识语双语平行语料库又至关重要，而公共标识语双语平行语料库又源于广泛的双语平行语料基础，如何从广泛的语料信息来源中获取所需的公共标识语信息，是本领域技术人员亟需解决的问题。

发明内容

针对上述技术问题，本发明提供一种基于公共标识语的双语语料采集***，以较为方便地获取所需公共标识语语料，并在一定程度上提高了语料的准确率。

为实现上述目的，本发明采用的技术方案如下：

一种基于公共标识语的双语语料采集***，包括：

语料采集范围设定模块，用于设定与公共标识语相关的语料的采集范围，该采集范围包括涉及公共标识语的网页、文献著作；

语料采集模块，用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集，所述基础语料信息包括单语种基础语料信息和双语种基础语料信息；

第一语料信息存储模块，用于存储所采集到的单语种基础语料信息；

第二语料信息存储模块，用于存储所采集到的双语种基础语料信息；

公共标识语提取模块，用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息；

双语对照翻译模块，用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息；以及

第三语料信息存储模块，用于存储双语种公共标识语语料信息。

进一步地，所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集，其中，预设采集来源集用于保存预设的固定采集范围，扩展采集来源集用于保存来自输入装置新输入的采集范围。

进一步地，所述语料采集模块包括用于采集网络上信息的爬虫模块，用于接收人工输入信息的输入模块，用于对图像上文字进行识别的扫描识别模块，以及对采集的信息内容中的语种类别进行识别的语料语种识别模块，其中，该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存，并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。

进一步地，所述公共标识语提取模块还连接有关键词库，

该关键词库用于保存公共标识语关键词，其中一部分公共标识语关键词为预设，并根据实际需求输入并扩充新的公共标识语关键词。

进一步地，该基于公共标识语的双语语料采集***，还包括双语校正模块，用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。

进一步地，所述双语校正模块进行校正的过程为：

从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分，然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比，

若对比近似度不小于85％，则认为该部分的双语种公共标识语语料信息为可用，并将其存储在第三语料信息存储模块中，

若对比近似度不大于50％，则认为该部分的双语种公共标识语语料信息为不可用，则采用所述翻译词库对中文部分进行对应翻译，并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中，

若对比近似度介于50％～85％之间，则将该部分的双语种公共标识语语料信息作疑似标记，并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。

进一步地，对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。

与现有技术相比，本发明具有以下有益效果：

(1)本发明基于网络信息和参考书籍针对性地采集与公共标识语相关的内容，为公共标识语的词汇提供了较为详细的对照基础，以便于后续使用时出现与公共标识语非相关的释义，有效地提高了公共标识语应用中的翻译准确度。

(2)本发明通过对语料采集范围的设定，基于基本的语料获取范围，并可通过人工输入的方式扩展更多的语料采集范围，以便于双语语料的持续更新和增长。

(3)本发明利用关键词库对含有所需公共标识语的内容进行进一步提取，以排出一些与公共标识语无关的内容，提高了后续使用的公共标识语的准确度，并通过翻译词库对浓缩的公共标识语信息进行校正，进一步提高了双语公共标识语的翻译准确度。

附图说明

图1为本发明的结构框图。

图2为语料采集模块的结构框图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1和图2所示，该基于公共标识语的双语语料采集***，包括：

语料采集范围设定模块，用于设定与公共标识语相关的语料的采集范围，该采集范围包括涉及公共标识语的网页、文献著作，如旅游行业的相关网站网页、一些官方报告材料等；该语料采集范围设定模块内置有预设采集来源集和扩展采集来源集，其中，预设采集来源集用于保存预设的固定采集范围，扩展采集来源集用于保存来自输入装置新输入的采集范围。

语料采集模块，用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集，所述基础语料信息包括单语种基础语料信息和双语种基础语料信息，并且该基础语料信息以页面段落为基本单位；该语料采集模块包括用于采集网络上信息的爬虫模块，用于接收人工输入信息的输入模块，用于对图像上文字进行识别的扫描识别模块，以及对采集的信息内容中的语种类别进行识别的语料语种识别模块，其中，该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存，并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。

第一语料信息存储模块，用于存储所采集到的单语种基础语料信息。

第二语料信息存储模块，用于存储所采集到的双语种基础语料信息。

公共标识语提取模块，用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息，其中，单语种公共标识语语料信息可以是中文语种，也可以是外文语种，并且所提取的语种公共标识语语料信息和双语种公共标识语语料信息均以语句为基本单位。

双语对照翻译模块，用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息，该双语对照翻译模块可连接通用的双语翻译词库。

所述公共标识语提取模块还连接有关键词库，该关键词库用于保存公共标识语关键词，其中一部分公共标识语关键词为预设，并根据实际需求输入并扩充新的公共标识语关键词。

该基于公共标识语的双语语料采集***，还包括双语校正模块，用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。

具体地，所述双语校正模块进行校正的过程为：

并且，对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。

通过上述设置，本发明可通过较为广泛的网络信息环境获取到所需的公共标识语的双语语料信息，为后续建立准确的公共标识语双语平行语料库提供充分的信息资料基础。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于公共标识语的双语语料采集***，其特征在于，包括：

2.根据权利要求1所述的基于公共标识语的双语语料采集***，其特征在于，所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集，其中，预设采集来源集用于保存预设的固定采集范围，扩展采集来源集用于保存来自输入装置新输入的采集范围。

3.根据权利要求2所述的基于公共标识语的双语语料采集***，其特征在于，所述语料采集模块包括用于采集网络上信息的爬虫模块，用于接收人工输入信息的输入模块，用于对图像上文字进行识别的扫描识别模块，以及对采集的信息内容中的语种类别进行识别的语料语种识别模块，其中，该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存，并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。

4.根据权利要求3所述的基于公共标识语的双语语料采集***，其特征在于，所述公共标识语提取模块还连接有关键词库，

5.根据权利要求4所述的基于公共标识语的双语语料采集***，其特征在于，还包括双语校正模块，用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。

6.根据权利要求5所述的基于公共标识语的双语语料采集***，其特征在于，所述双语校正模块进行校正的过程为：

7.根据权利要求6所述的基于公共标识语的双语语料采集***，其特征在于，对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。