CN111209461A - 基于公共标识语的双语语料采集*** - Google Patents
基于公共标识语的双语语料采集*** Download PDFInfo
- Publication number
- CN111209461A CN111209461A CN201911388715.8A CN201911388715A CN111209461A CN 111209461 A CN111209461 A CN 111209461A CN 201911388715 A CN201911388715 A CN 201911388715A CN 111209461 A CN111209461 A CN 111209461A
- Authority
- CN
- China
- Prior art keywords
- corpus
- bilingual
- public
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012937 correction Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 5
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于公共标识语的双语语料采集***,包括语料采集范围设定模块,用于在语料采集范围进行语料采集的语料采集模块,第一语料信息存储模块,第二语料信息存储模块,用于从采集的语料中提取公共标识语部分的公共标识语提取模块,双语对照翻译模块,第三语料信息存储模块。本发明基于网络信息和参考书籍针对性地采集与公共标识语相关的内容,为公共标识语的词汇提供了较为详细的对照基础,以便于后续使用时出现与公共标识语非相关的释义,有效地提高了公共标识语应用中的翻译准确度。
Description
技术领域
本发明涉及一种基于公共标识语的双语语料采集***。
背景技术
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。
在提高公共标识语翻译准确度的过程中,建立合理准确的公共标识语双语平行语料库又至关重要,而公共标识语双语平行语料库又源于广泛的双语平行语料基础,如何从广泛的语料信息来源中获取所需的公共标识语信息,是本领域技术人员亟需解决的问题。
发明内容
针对上述技术问题,本发明提供一种基于公共标识语的双语语料采集***,以较为方便地获取所需公共标识语语料,并在一定程度上提高了语料的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种基于公共标识语的双语语料采集***,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及
第三语料信息存储模块,用于存储双语种公共标识语语料信息。
进一步地,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。
进一步地,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。
进一步地,所述公共标识语提取模块还连接有关键词库,
该关键词库用于保存公共标识语关键词,其中一部分公共标识语关键词为预设,并根据实际需求输入并扩充新的公共标识语关键词。
进一步地,该基于公共标识语的双语语料采集***,还包括双语校正模块,用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。
进一步地,所述双语校正模块进行校正的过程为:
从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分,然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比,
若对比近似度不小于85%,则认为该部分的双语种公共标识语语料信息为可用,并将其存储在第三语料信息存储模块中,
若对比近似度不大于50%,则认为该部分的双语种公共标识语语料信息为不可用,则采用所述翻译词库对中文部分进行对应翻译,并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中,
若对比近似度介于50%~85%之间,则将该部分的双语种公共标识语语料信息作疑似标记,并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。
进一步地,对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。
与现有技术相比,本发明具有以下有益效果:
(1)本发明基于网络信息和参考书籍针对性地采集与公共标识语相关的内容,为公共标识语的词汇提供了较为详细的对照基础,以便于后续使用时出现与公共标识语非相关的释义,有效地提高了公共标识语应用中的翻译准确度。
(2)本发明通过对语料采集范围的设定,基于基本的语料获取范围,并可通过人工输入的方式扩展更多的语料采集范围,以便于双语语料的持续更新和增长。
(3)本发明利用关键词库对含有所需公共标识语的内容进行进一步提取,以排出一些与公共标识语无关的内容,提高了后续使用的公共标识语的准确度,并通过翻译词库对浓缩的公共标识语信息进行校正,进一步提高了双语公共标识语的翻译准确度。
附图说明
图1为本发明的结构框图。
图2为语料采集模块的结构框图。
具体实施方式
下面结合附图说明和实施例对本发明作进一步说明,本发明的方式包括但不仅限于以下实施例。
实施例
如图1和图2所示,该基于公共标识语的双语语料采集***,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作,如旅游行业的相关网站网页、一些官方报告材料等;该语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息,并且该基础语料信息以页面段落为基本单位;该语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息。
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息。
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息,其中,单语种公共标识语语料信息可以是中文语种,也可以是外文语种,并且所提取的语种公共标识语语料信息和双语种公共标识语语料信息均以语句为基本单位。
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息,该双语对照翻译模块可连接通用的双语翻译词库。
第三语料信息存储模块,用于存储双语种公共标识语语料信息。
所述公共标识语提取模块还连接有关键词库,该关键词库用于保存公共标识语关键词,其中一部分公共标识语关键词为预设,并根据实际需求输入并扩充新的公共标识语关键词。
该基于公共标识语的双语语料采集***,还包括双语校正模块,用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。
具体地,所述双语校正模块进行校正的过程为:
从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分,然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比,
若对比近似度不小于85%,则认为该部分的双语种公共标识语语料信息为可用,并将其存储在第三语料信息存储模块中,
若对比近似度不大于50%,则认为该部分的双语种公共标识语语料信息为不可用,则采用所述翻译词库对中文部分进行对应翻译,并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中,
若对比近似度介于50%~85%之间,则将该部分的双语种公共标识语语料信息作疑似标记,并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。
并且,对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。
通过上述设置,本发明可通过较为广泛的网络信息环境获取到所需的公共标识语的双语语料信息,为后续建立准确的公共标识语双语平行语料库提供充分的信息资料基础。
上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。
Claims (7)
1.一种基于公共标识语的双语语料采集***,其特征在于,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及
第三语料信息存储模块,用于存储双语种公共标识语语料信息。
2.根据权利要求1所述的基于公共标识语的双语语料采集***,其特征在于,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。
3.根据权利要求2所述的基于公共标识语的双语语料采集***,其特征在于,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。
4.根据权利要求3所述的基于公共标识语的双语语料采集***,其特征在于,所述公共标识语提取模块还连接有关键词库,
该关键词库用于保存公共标识语关键词,其中一部分公共标识语关键词为预设,并根据实际需求输入并扩充新的公共标识语关键词。
5.根据权利要求4所述的基于公共标识语的双语语料采集***,其特征在于,还包括双语校正模块,用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。
6.根据权利要求5所述的基于公共标识语的双语语料采集***,其特征在于,所述双语校正模块进行校正的过程为:
从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分,然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比,
若对比近似度不小于85%,则认为该部分的双语种公共标识语语料信息为可用,并将其存储在第三语料信息存储模块中,
若对比近似度不大于50%,则认为该部分的双语种公共标识语语料信息为不可用,则采用所述翻译词库对中文部分进行对应翻译,并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中,
若对比近似度介于50%~85%之间,则将该部分的双语种公共标识语语料信息作疑似标记,并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。
7.根据权利要求6所述的基于公共标识语的双语语料采集***,其特征在于,对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388715.8A CN111209461A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语的双语语料采集*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911388715.8A CN111209461A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语的双语语料采集*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111209461A true CN111209461A (zh) | 2020-05-29 |
Family
ID=70788390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911388715.8A Pending CN111209461A (zh) | 2019-12-30 | 2019-12-30 | 基于公共标识语的双语语料采集*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209461A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881900A (zh) * | 2020-07-01 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 |
CN112183122A (zh) * | 2020-10-22 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文字识别方法和装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101034395A (zh) * | 2007-03-30 | 2007-09-12 | 传神联合(北京)信息技术有限公司 | 一种待译文件处理***及使用这种***的文件处理方法 |
CN102930031A (zh) * | 2012-11-08 | 2013-02-13 | 哈尔滨工业大学 | 由网页中提取双语平行正文的方法和*** |
CN105045862A (zh) * | 2015-07-13 | 2015-11-11 | 广西达译商务服务有限责任公司 | 汉外双语平行语料自动采集的***及实现方法 |
CN110008378A (zh) * | 2019-01-28 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于人工智能的语料收集方法、装置、设备及存储介质 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
-
2019
- 2019-12-30 CN CN201911388715.8A patent/CN111209461A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101034395A (zh) * | 2007-03-30 | 2007-09-12 | 传神联合(北京)信息技术有限公司 | 一种待译文件处理***及使用这种***的文件处理方法 |
CN102930031A (zh) * | 2012-11-08 | 2013-02-13 | 哈尔滨工业大学 | 由网页中提取双语平行正文的方法和*** |
CN105045862A (zh) * | 2015-07-13 | 2015-11-11 | 广西达译商务服务有限责任公司 | 汉外双语平行语料自动采集的***及实现方法 |
CN110008378A (zh) * | 2019-01-28 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于人工智能的语料收集方法、装置、设备及存储介质 |
CN110046261A (zh) * | 2019-04-22 | 2019-07-23 | 山东建筑大学 | 一种建筑工程多模态双语平行语料库的构建方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881900A (zh) * | 2020-07-01 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 |
CN111881900B (zh) * | 2020-07-01 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 |
CN112183122A (zh) * | 2020-10-22 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文字识别方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046261A (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN105045778A (zh) | 一种汉语同音词错误自动校对方法 | |
CN101788978B (zh) | 一种拼音和汉字相结合的汉外口语自动翻译方法 | |
CN102609408A (zh) | 基于多文种文档图像识别的跨文种理解方法 | |
CN111209461A (zh) | 基于公共标识语的双语语料采集*** | |
CN103902525B (zh) | 维吾尔语词性标注方法 | |
Chung et al. | Enhancing readability of web documents by text augmentation for deaf people | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
JP2009151777A (ja) | 音声言語パラレルコーパスのアライメント方法及び装置 | |
CN109871546A (zh) | 一种专利文件翻译*** | |
CN109271625B (zh) | 一种汉语地名的拼音拼写规范化方法 | |
Danielewicz-Betz et al. | Varieties of English in the urban landscapes of Hong Kong and Shenzhen: Changing English landscapes around a Chinese border | |
Wang et al. | CBConv: service for automatic conversion of Chinese characters into braille with high accuracy | |
CN101477519B (zh) | 一种用于网络翻译的原始文档同步预览装置及其方法 | |
CN103455572A (zh) | 获取网页中影视主体的方法及装置 | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN104050156A (zh) | 用于提取最大名词短语的装置、方法以及电子设备 | |
CN103164395A (zh) | 汉柯电子辞典及其自动转译汉柯语的方法 | |
Somers | Machine translation and minority languages | |
CN104834740A (zh) | 一种全自动音视频结构化与精准搜索的方法 | |
CN101458682A (zh) | 一种基于中文汉字和日文汉字的映射方法及其应用 | |
CN111241784A (zh) | 公共标识语语料资源的加工整理方法 | |
CN111680122B (zh) | 空间数据主动推荐方法、装置、存储介质及计算机设备 | |
CN100520769C (zh) | 自动标注日文假名的***及其标注方法 | |
Wang | Recent progress in corpus linguistics in China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200529 |
|
RJ01 | Rejection of invention patent application after publication |