CN103377217A - 专业英语词库的建构方法及*** - Google Patents

专业英语词库的建构方法及*** Download PDF

Info

Publication number
CN103377217A
CN103377217A CN2012101211180A CN201210121118A CN103377217A CN 103377217 A CN103377217 A CN 103377217A CN 2012101211180 A CN2012101211180 A CN 2012101211180A CN 201210121118 A CN201210121118 A CN 201210121118A CN 103377217 A CN103377217 A CN 103377217A
Authority
CN
China
Prior art keywords
entry
english dictionary
special english
special
professional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101211180A
Other languages
English (en)
Inventor
苏公雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou bigger Network Technology Co. Ltd.
Original Assignee
SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd filed Critical SUZHOU YINJIAO INFORMATION TECHNOLOGY Co Ltd
Priority to CN2012101211180A priority Critical patent/CN103377217A/zh
Publication of CN103377217A publication Critical patent/CN103377217A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明揭示了一种专业英语词库的建构方法,包括如下步骤:S1、抓取电子行业网站上的网页信息;S2、提取所述网页信息中的文本信息;S3、对所述文本信息进行分词,以获取若干词条;S4、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。与现有技术相比,本发明通过在本行业内各大网站上抓取网页信息,并通过分词获取大批专业英语词汇,从而提高所建立的专业英语词库的完整度,且减小了人工编译所带来的成本。

Description

专业英语词库的建构方法及***
技术领域
本发明涉及数据库建立领域,尤其涉及一种专业英语词库的建构方法及***。
背景技术
专业英语词库作为专业技术领域的术语基础,对行业的发展有着非常重要的意义。通过专业英语词库,可以对本行业的技术信息进行完整、准确的描述,并能够通过对专业词库的聚类实现产品、应用等信息的聚类,通过对专业词库的翻译(人工及程序提取),就可以高效地构建这个行业的专业词典,进而可以通过程序实现本专业领域的高度准确的海量信息的翻译。
然而,如何快速地构建一个既完整又准确的词库是一个挑战,目前,比如电子行业,还没有一个完整的专业英语词库,现有技术中有通过人工编译的方式整理了10万条左右的词条,但是,上述词库不够完整且词条相对比较陈旧。
发明内容
本发明的目的在于提供一种专业英语词库的建构方法。
相应地,本发明的目的还在于提供一种专业英语词库的建构***。
为实现上述发明目的之一,本发明采用的技术方案如下:一种专业英语词库的建构方法,其包括如下步骤:
S1、抓取电子行业网站上的网页信息;
S2、提取所述网页信息中的文本信息;
S3、对所述文本信息进行分词,以获取若干词条;
S4、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
作为本发明的进一步改进,在所述S3步骤后,还包括:查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
作为本发明的进一步改进,在所述S3步骤后,还包括:统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
作为本发明的进一步改进,在所述S4步骤后,还包括:根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
相应地,本发明提供的一种专业英语词库的建构***,包括:
网页抓取单元、用于抓取电子行业网站上的网页信息;
文本提取单元、用于提取所述网页信息中的文本信息;
分词单元、用于对所述文本信息进行分词,以获取若干词条;
筛选单元、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
作为本发明的进一步改进,该***还用于:查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
作为本发明的进一步改进,该***还用于:统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
作为本发明的进一步改进,该***还用于:根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
与现有技术相比,本发明通过在本行业内各大网站上抓取网页信息,并通过分词获取大批专业英语词汇,从而提高所建立的专业英语词库的完整度,且减小了人工编译所带来的成本。
附图说明
图1是本发明具体实施方式中专业英语词库的建构方法的基本流程图;
图2是本发明具体实施方式中专业英语词库的建构方法的具体步骤流程图;
图3示出了本发明具体实施方式中网页信息的抓取过程;
图4是本发明具体实施方式中专业英语词库的建构***的功能单元示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
参图1所示,在本实施方式中,所述专业英语词库的建构方法具体包括如下步骤:
S1、抓取电子行业网站上的网页信息;优选地,电子行业网站主要包括德州仪器等国外各大电子厂商官方网站。本发明中,网页信息抓取器通过特定的优先策略从上述网站上进行特定区域的网页信息抓取动作,其中,优先策略包括链接欢迎度、或者链接重要度、或者平均链接的深度等。
S2、提取所述网页信息中的文本信息;于本发明中,所述网页信息中可能包括图片、链接、文字等信息,从抓取到的网页信息中解析出我们需要的字段信息,并按照指定的格式进行信息的存放和加工处理。
S3、对所述文本信息进行分词,以获取若干词条;因为是全英文网站,所以提取的文本信息中包括多个英文词汇,这其中包括电子类专业词条、非专业词条(其他行业的专业词条)以及一些通用的词条。所以,本实施方式中,需要将所以提取到的文本信息分词为多个词条。
S4、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。优选地,通过滤除词条中非专业词条、和通用词条,以实现专业词条的获取。
参图2所示,在本发明优选地实施方式中,在所述S3步骤后,还包括:
S5、统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。将文本信息分词后,统计出所有搜集到的词条,因一段文字中可能多次出现某词条,于是,本发明通过统计出各词条在所有提取的文体中出现过的总次数,并按照这样的出现次数的高度进行排序 ,从而在判断词条是否为专业词条时更加方便。众所周知,一般地,此类专业电子网站上出现频度最高的是通用词条(is、all、the等),而电子行业的专业词条往往是出现频度次于上述通用词条的,出现频度再低一些的词条可能就是其他行业的词条。
优选地,在所述S3步骤后,还包括:
S6、查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条(步骤S42);若否,保存该词条。该步骤首先确保库中不存在重复收集的词条,也进一步提高英文信息库的建立效率。
优选地,本实施方式中,在所述S4步骤后,还包括:
S7、根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。此处进行词条排序,将电子行业的最常用的词条排最前面,也方便专业人员学习和查询。
参图3所示,其表示出了在某英文网站上抓取网页信息的截图,其中实线框所表示出即为被抓取的网页信息,通过对这些特定区域的信息抓取,并对这些抓取的网页信息进行特定的文本信息提取,从而实现本发明的技术方案。本发明通过在本行业内各大网站上抓取网页信息,并通过分词获取大批专业英语词汇,从而提高所建立的专业英语词库的完整度,且减小了人工编译所带来的成本。
接下来,请参图4所示,在本实施方式中,所述专业英语词库的建构***具体包括:
网页抓取单元101、用于抓取电子行业网站上的网页信息;优选地,电子行业网站主要包括德州仪器等国外各大电子厂商官方网站。本发明中,网页信息抓取器通过特定的优先策略从上述网站上进行特定区域的网页信息抓取动作,其中,优先策略包括链接欢迎度、或者链接重要度、或者平均链接的深度等。
文本提取单元102、用于提取所述网页信息中的文本信息;于本发明中,所述网页信息中可能包括图片、链接、文字等信息,从抓取到的网页信息中解析出我们需要的字段信息,并按照指定的格式进行信息的存放和加工处理。
分词单元103、用于对所述文本信息进行分词,以获取若干词条;因为是全英文网站,所以提取的文本信息中包括多个英文词汇,这其中包括电子类专业词条、非专业词条(其他行业的专业词条)以及一些通用的词条。所以,本实施方式中,需要将所以提取到的文本信息分词为多个词条。
筛选单元104、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。优选地,通过滤除词条中非专业词条、和通用词条,以实现专业词条的获取。
在本发明优选地实施方式中,该***还用于:
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。将文本信息分词后,统计出所有搜集到的词条,因一段文字中可能多次出现某词条,于是,本发明通过统计出各词条在所有提取的文体中出现过的总次数,并按照这样的出现次数的高度进行排序 ,从而在判断词条是否为专业词条时更加方便。众所周知,一般地,此类专业电子网站上出现频度最高的是通用词条(is、all、the等),而电子行业的专业词条往往是出现频度次于上述通用词条的,出现频度再低一些的词条可能就是其他行业的词条。
优选地,该***还用于:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。该单元首先确保库中不存在重复收集的词条,也进一步提高英文信息库的建立效率。
优选地,本实施方式中,上述***还用于:
根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。此处进行词条排序,将电子行业的最常用的词条排最前面,也方便专业人员学习和查询。
综上所述,本发明通过对这些特定区域的信息抓取,并对这些抓取的网页信息进行特定的文本信息提取,再通过分词获取大批专业英语词汇,并且在之后网络信息和电子行业网站的更新换代,也可以通过不断提取网络上所出现的电子行业内的新生词条,并将获取到词条保存进专业英语数据库中,从而不断地提高所建立的专业英语词库的完整度,且本发明也大大减小了人工编译所带来的成本,具有显著的进步性。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (8)

1.一种专业英语词库的建构方法,其特征在于,该方法包括如下步骤:
S1、抓取电子行业网站上的网页信息;
S2、提取所述网页信息中的文本信息;
S3、对所述文本信息进行分词,以获取若干词条;
S4、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
2.根据权利要求1所述的专业英语词库的建构方法,其特征在于,在所述S3步骤后,还包括:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
3.根据权利要求1所述的专业英语词库的建构方法,其特征在于,在所述S3步骤后,还包括:
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
4.根据权利要求3所述的专业英语词库的建构方法,其特征在于,在所述S4步骤后,还包括:
根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
5.一种专业英语词库的建构***,其特征在于,该***包括:
网页抓取单元、用于抓取电子行业网站上的网页信息;
文本提取单元、用于提取所述网页信息中的文本信息;
分词单元、用于对所述文本信息进行分词,以获取若干词条;
筛选单元、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
6.根据权利要求5所述的专业英语词库的建构***,其特征在于,该***还用于:查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条。
7.根据权利要求5所述的专业英语词库的建构***,其特征在于,该***还用于:
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
8.根据权利要求7所述的专业英语词库的建构***,其特征在于,该***还用于:
根据所述使用频率,对存储于所述专业英语词库中的词条进行排序标记。
CN2012101211180A 2012-04-24 2012-04-24 专业英语词库的建构方法及*** Pending CN103377217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101211180A CN103377217A (zh) 2012-04-24 2012-04-24 专业英语词库的建构方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101211180A CN103377217A (zh) 2012-04-24 2012-04-24 专业英语词库的建构方法及***

Publications (1)

Publication Number Publication Date
CN103377217A true CN103377217A (zh) 2013-10-30

Family

ID=49462343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101211180A Pending CN103377217A (zh) 2012-04-24 2012-04-24 专业英语词库的建构方法及***

Country Status (1)

Country Link
CN (1) CN103377217A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653058A (zh) * 2015-12-23 2016-06-08 小米科技有限责任公司 输入法词库的创建及加载方法、装置、终端及服务器
CN106021482A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种财税数据快速精确检索方法
CN111564157A (zh) * 2020-03-18 2020-08-21 浙江省北大信息技术高等研究院 会议记录优化方法、装置、设备及存储介质
CN112883952A (zh) * 2021-02-20 2021-06-01 安徽淘云科技有限公司 基于扫描笔的生词库维护方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112942A (ja) * 1998-10-05 2000-04-21 Matsushita Electric Ind Co Ltd 機械翻訳装置および機械翻訳方法ならびに記録媒体
CN1641634A (zh) * 2004-01-15 2005-07-20 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测***
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和***
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及***
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112942A (ja) * 1998-10-05 2000-04-21 Matsushita Electric Ind Co Ltd 機械翻訳装置および機械翻訳方法ならびに記録媒体
CN1641634A (zh) * 2004-01-15 2005-07-20 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测***
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和***
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及***
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
巫振新 等: ""专业语料库建立及其在机器翻译中的应用"", 《微型电脑应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653058A (zh) * 2015-12-23 2016-06-08 小米科技有限责任公司 输入法词库的创建及加载方法、装置、终端及服务器
CN105653058B (zh) * 2015-12-23 2019-03-12 小米科技有限责任公司 输入法词库的创建及加载方法、装置、终端及服务器
CN106021482A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种财税数据快速精确检索方法
CN111564157A (zh) * 2020-03-18 2020-08-21 浙江省北大信息技术高等研究院 会议记录优化方法、装置、设备及存储介质
CN112883952A (zh) * 2021-02-20 2021-06-01 安徽淘云科技有限公司 基于扫描笔的生词库维护方法和装置

Similar Documents

Publication Publication Date Title
CN106528532B (zh) 文本纠错方法、装置及终端
US11348330B2 (en) Key value extraction from documents
CN106445910B (zh) 一种文档解析方法与装置
CN105677710A (zh) 大数据的处理方法和***
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN103927400B (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN102663023A (zh) 一种提取网页内容的实现方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103377217A (zh) 专业英语词库的建构方法及***
CN101136020A (zh) 自动扩展参考数据的***和方法
CN102542061A (zh) 一种产品的智能分类方法
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN101101599A (zh) 一种从网页中提取广告主信息的方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN104462268B (zh) 一种html文档信息抽取表达式的方法及***
CN103377188A (zh) 翻译库的构建方法及***
CN103870495B (zh) 用于从网站中提取信息的方法和装置
CN103136219A (zh) 一种基于时效性的需求挖掘方法和装置
CN103150409B (zh) 一种用户检索词推荐的方法及***
CN103020646A (zh) 一种支持增量训练的垃圾图片识别方法和***
CN102801548A (zh) 一种智能预警的方法、装置及信息***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SUZHOU BIGE NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SUZHOU YINJIAO INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150401

TA01 Transfer of patent application right

Effective date of registration: 20150401

Address after: Dongping street Suzhou Industrial Park in Jiangsu province 215000 Australia Shunchang No. 270 building 3A unit

Applicant after: Suzhou bigger Network Technology Co. Ltd.

Address before: Suzhou City, Jiangsu Province, Suzhou Industrial Park 215000 Xinghu Street No. 328 Creative Industry Park Building 2 room B701

Applicant before: Suzhou Yinjiao Information Technology Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131030