CN105608074A - 一种字数统计方法及装置 - Google Patents

一种字数统计方法及装置 Download PDF

Info

Publication number
CN105608074A
CN105608074A CN201610028758.5A CN201610028758A CN105608074A CN 105608074 A CN105608074 A CN 105608074A CN 201610028758 A CN201610028758 A CN 201610028758A CN 105608074 A CN105608074 A CN 105608074A
Authority
CN
China
Prior art keywords
word
language
counting
character
punctuation mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610028758.5A
Other languages
English (en)
Other versions
CN105608074B (zh
Inventor
王建华
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mandarin Technology (beijing) Co Ltd
Original Assignee
Mandarin Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mandarin Technology (beijing) Co Ltd filed Critical Mandarin Technology (beijing) Co Ltd
Priority to CN201610028758.5A priority Critical patent/CN105608074B/zh
Publication of CN105608074A publication Critical patent/CN105608074A/zh
Application granted granted Critical
Publication of CN105608074B publication Critical patent/CN105608074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种字数统计方法及装置,涉及计算机技术领域;解决了现有技术不能对包括多种语言的文件或一段文字中的多种语言进行分项统计字数的技术问题;该技术方案包括:步骤一,读取文字内容,将文字按照一定的长度分批次读到内存;步骤二,每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;步骤三,读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;步骤四,将逐次统计的标点符号及每种语言文字或字符的数目各自相加。

Description

一种字数统计方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种字数统计方法及装置。
背景技术
现有技术对于同一语种的字数统计技术已经比较成熟,但是目前字数统计的难点在于一段文本或文档中,存在两种或多种以上的语言,如中英文混合,法日韩等多语文件,按语言分项统计各自语言字数无法实现。
发明内容
本发明要解决的是现有技术不能对包括多种语言的文件或一段文字中的多种语言进行分项统计字数的技术问题。
为了解决上述问题,本发明提供了一种字数统计方法,包括:步骤一,读取文字内容,将文字按照一定的长度分批次读到内存;步骤二,每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;步骤三,读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;步骤四,将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
本发明还包括一种字数统计装置,包括:读取模块,用于读取文字内容,将文字按照一定的长度分批次读到内存;标点符号识别模块,用于每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;语言识别模块,用于读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;分项统计模块,用于将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
通过以上技术方案可知,本发明提供一种字数统计方法及装置,对一段文本或文档进行分语言字数统计,使得字数统计更准确、详细,为翻译领域的文件统计字数,提供了便利,节省了时间。
附图说明
图1一种字数统计方法流程图1;
图2一种字数统计方法流程图2;
图3一种字数统计装置结构示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。
实施例一,如图1所示,一种字数统计方法,该技术方案包括:步骤一,读取文字内容,将文字按照一定的长度分批次读到内存;一定的长度,可以为固定个字节、一句话,也可以为一段文字、或一片文章。可按照需求设定。步骤二,每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;步骤三,读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;步骤四,将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
本发明提供一种字数统计方法,对一段文本或文档进行分语言字数统计,使得字数统计更准确、详细,为翻译领域的文件统计字数,提供了便利,节省了时间。
实施例二,如图2所示,在实施例一的基础上,更优的,所述步骤三,识别出对应的语言并计数具体步骤为:依次识别是不是中文,如果是则计数,如果不是则识别是不是英文,如果是则计数,如果不是则识别是不是法文,如果是则计数,如果不是则识别是不是其它语言,直到识别出每一个字或一个词对应的语言。
更优的,为每种语言设定一个编码库和语言模型,遍历编码库初步识别出一个字或是一个字符的语言类别,然后根据每种语言的语言模型及特定规则,完整的识别出一个字、词或字符。
更优的,所述步骤三,识别出对应的语言并计数具体步骤为:字与字之间不带空格的语种按实际字符个数计算字数。
更优的,所述步骤三,识别出对应的语言并计数具体步骤为:单词之间以空格区分的语种,以空格或标点符号为依据计算字数,不对空格进行字数统计。
如图2所示,一种字数统方法的具体步骤为:
准备多语文档或一串文字;
从文件或一段文字中,把文字按需分批次读取到内存;
通过标点符号算法,计算出标点符号个数,并计数;
把内存文字,通过一个标点符号过滤算法,去掉标点符号,形成一个新的字符串;
读取过滤掉标点符号的字符串中的一个字或是一个字符,依次通过中文识别算法、英文识别算法、法文识别算法等,直到识别出对应的语言并且完整的识别出一个字或一个词,转向计数器计数;
每个语言识别算法,首先会根据计算机UNICODE编码库,初步识别出一个字或是一个字符的语言,对于计算机UNICODE编码库不能准确识别的字或字符,然后再根据各自语言的大量单语训练出的语言模型进行匹配,做概率统计识别,最后根据一些特定规则,完整的识别出一个字或词。
具体特定规则如下:
①中文、日文、韩文等字与字之间不带空格的语种按实际字符个数计算,如我是谁、私は誰、等的统计结果分别为3、3、5;
②英文等单词之间以空格区分的语种,以空格或标点符号为依据计算字数,如IamaChinese,andyou?统计结果为8;
③每个标点符号均作为一个文字或单词进行计算;
④每个特殊字符均作为一个文字或单词进行计算;如#&等;
⑤一段连续的数字,作为一个字计算;如123456其字数为1;
⑥一段连续的字母,作为一个字计算;如abcdefg其字数为1;
⑦一段连续的数字或字母之间***了一个或多个字母、数字或特殊字符,则分开统计。如123a456、123abc456、123456、abc2def、abc123def、abc$def等其字数为3;
⑧空格不进行字数统计;
分项统计计数器,会记录每种语言和标点符号分项统计数据;
根据实际业务规则,把计数器分项记录的数据输出;如,中到英翻译,忽略文件内容中的英文,即只统计中文,不记录英文,如果含有其他语言,需要记录输出,标点符号需要输出。
为了解决上述问题,本发明针对含有不同语言的文本特征提供不同的计算字数方式,其中文本特征包括:中文、日文、韩文等字与字之间不带空格的亚洲语言特征;单词之间以空格区分的欧洲语言特征;特殊字符或标点符号;共三类。
实施例三,如图3所示,一种字数统计装置,该技术方案包括:读取模块,用于读取文字内容,将文字按照一定的长度分批次读到内存;标点符号识别模块,用于每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;语言识别模块,用于读取过滤掉标点符号的字符串中的字或字符,逐字识别出对应的语言并计数;分项统计模块,用于将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
更优的,所述语言识别模块,识别出对应的语言并计数具体步骤为:依次识别是不是中文,如果是则计数,如果不是则识别是不是英文,如果是则计数,如果不是则识别是不是法文,如果是则计数,如果不是则识别是不是其它语言,直到识别出每一个字或一个词对应的语言。
更优的,为每种语言设定一个编码库,遍历编码库初步识别出一个字或是一个字符的语言类别,然后根据每种语言的特征及特定规则,完整的识别出一个字、词或字符。
更优的,所述语言识别模块,识别出对应的语言并计数具体步骤为:字与字之间不带空格的语种按实际字符个数计算字数。
更优的,所述语言识别模块,识别出对应的语言并计数具体步骤为:单词之间以空格区分的语种,以空格或标点符号为依据计算字数,不对空格进行字数统计。
本装置与上述方法的技术方案一一对应,所有说明参照上述方法,在此不再赘述。
能准确统计一段文本或文档(存在两种及以上的语言)中的字数;能准确统计word、excel、txt常用文档格式中的字数;能够对大文件文档进行快速且准确的字数统计。本发明提供一种字数统计方法及装置,对一段文本或文档进行分语言字数统计,使得字数统计更准确、详细,为翻译领域的文件统计字数,提供了便利,节省了时间。本发明可用于翻译领域根据文件内容的不同语言进行综合翻译报价。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims (10)

1.一种字数统计方法,其特征在于,包括:步骤一,读取文字内容,将文字按照一定的长度分批次读到内存;步骤二,每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;步骤三,读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;步骤四,将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
2.如权利要求1所述的字数统计方法,其特征在于,所述步骤三,识别出对应的语言并计数具体步骤为:依次识别是不是中文,如果是则计数,如果不是则识别是不是英文,如果是则计数,如果不是则识别是不是法文,如果是则计数,如果不是则识别是不是其它语言,直到识别出每一个字或一个词对应的语言。
3.如权利要求2所述的字数统计方法,其特征在于,为每种语言设定一个编码库,遍历编码库初步识别出一个字或是一个字符的语言类别,然后根据每种语言的语言模型及特定规则,完整的识别出一个字、词或字符。
4.如权利要求1所述的字数统计方法,其特征在于,所述步骤三,识别出对应的语言并计数具体步骤为:字与字之间不带空格的语种按实际字符个数计算字数。
5.如权利要求1所述的字数统计方法,其特征在于,所述步骤三,识别出对应的语言并计数具体步骤为:单词之间以空格区分的语种,以空格或标点符号为依据计算字数,不对空格进行字数统计。
6.一种字数统计装置,其特征在于,包括:读取模块,用于读取文字内容,将文字按照一定的长度分批次读到内存;标点符号识别模块,用于每读到内存一个批次的文字后,扫描内存中的文字,识别并统计文字间的标点符号数目,之后去掉标点符号,形成一个新的不包含标点符号的字符串;语言识别模块,用于读取过滤掉标点符号的字符串中的字或字符,逐字识别出语言种类并计数;分项统计模块,用于将逐次统计的标点符号及每种语言文字或字符的数目各自相加。
7.如权利要求6所述的字数统计装置,其特征在于,所述语言识别模块,识别出对应的语言并计数具体步骤为:依次识别是不是中文,如果是则计数,如果不是则识别是不是英文,如果是则计数,如果不是则识别是不是法文,如果是则计数,如果不是则识别是不是其它语言,直到识别出每一个字或一个词对应的语言。
8.如权利要求7所述的字数统计装置,其特征在于,为每种语言设定一个编码库及语言模型,遍历编码库初步识别出一个字或是一个字符的语言类别,然后根据每种语言的语言模型及特定规则,完整的识别出一个字、词或字符。
9.如权利要求6所述的字数统计装置,其特征在于,所述语言识别模块,识别出对应的语言并计数具体步骤为:字与字之间不带空格的语种按实际字符个数计算字数。
10.如权利要求6所述的字数统计装置,其特征在于,所述语言识别模块,识别出对应的语言并计数具体步骤为:单词之间以空格区分的语种,以空格或标点符号为依据计算字数,不对空格进行字数统计。
CN201610028758.5A 2016-01-15 2016-01-15 一种字数统计方法及装置 Active CN105608074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610028758.5A CN105608074B (zh) 2016-01-15 2016-01-15 一种字数统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610028758.5A CN105608074B (zh) 2016-01-15 2016-01-15 一种字数统计方法及装置

Publications (2)

Publication Number Publication Date
CN105608074A true CN105608074A (zh) 2016-05-25
CN105608074B CN105608074B (zh) 2018-06-29

Family

ID=55988018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610028758.5A Active CN105608074B (zh) 2016-01-15 2016-01-15 一种字数统计方法及装置

Country Status (1)

Country Link
CN (1) CN105608074B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354711A (zh) * 2016-08-18 2017-01-25 中译语通科技(北京)有限公司 一种语种识别的方法及装置
CN106527876A (zh) * 2016-11-10 2017-03-22 广东工业大学 一种统计网页字数的方法及***
CN111160015A (zh) * 2019-12-24 2020-05-15 北京明略软件***有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端
CN112446262A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 文本分析方法、装置、终端和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4049913A (en) * 1975-10-31 1977-09-20 Nippon Electric Company, Ltd. System for recognizing speech continuously spoken with number of word or words preselected
US20020013778A1 (en) * 1999-09-10 2002-01-31 Neal Michael Renn Sequential subset catalog search engine
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
CN104281603A (zh) * 2013-07-05 2015-01-14 北大方正集团有限公司 字频分级统计方法及***
CN104699669A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文本字数统计的方法及装置
CN105204738A (zh) * 2015-09-18 2015-12-30 北京奇虎科技有限公司 电子书阅读量确定、排名方法及终端设备和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4049913A (en) * 1975-10-31 1977-09-20 Nippon Electric Company, Ltd. System for recognizing speech continuously spoken with number of word or words preselected
US20020013778A1 (en) * 1999-09-10 2002-01-31 Neal Michael Renn Sequential subset catalog search engine
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
CN104281603A (zh) * 2013-07-05 2015-01-14 北大方正集团有限公司 字频分级统计方法及***
CN104699669A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文本字数统计的方法及装置
CN105204738A (zh) * 2015-09-18 2015-12-30 北京奇虎科技有限公司 电子书阅读量确定、排名方法及终端设备和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIANG925 等: "java 统计字数 [问题点数:20分,结帖人qiang925]", 《HTTP://BBS.CSDN.NET/TOPICS/330038421》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354711A (zh) * 2016-08-18 2017-01-25 中译语通科技(北京)有限公司 一种语种识别的方法及装置
CN106527876A (zh) * 2016-11-10 2017-03-22 广东工业大学 一种统计网页字数的方法及***
CN112446262A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 文本分析方法、装置、终端和计算机可读存储介质
CN111160015A (zh) * 2019-12-24 2020-05-15 北京明略软件***有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端
CN111160015B (zh) * 2019-12-24 2024-03-05 北京明略软件***有限公司 一种实现文本分析的方法、装置、计算机存储介质及终端

Also Published As

Publication number Publication date
CN105608074B (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN111737969B (zh) 一种基于深度学习的简历解析方法和***
CN111259652B (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN105608074A (zh) 一种字数统计方法及装置
CN106528536A (zh) 一种基于词典与文法分析的多语种分词方法
CN107577663B (zh) 一种关键短语抽取方法和装置
CN106227808B (zh) 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
Drobac et al. OCR and post-correction of historical Finnish texts
U Rahman Towards Sindhi corpus construction
Gupta et al. A hybrid approach for entity extraction in code-mixed social media data
CN104978577B (zh) 信息处理方法、装置及电子设备
CN104252446A (zh) 计算装置、文件内容一致性验证***及方法
CN104699662B (zh) 识别整体符号串的方法和装置
Alotaiby et al. Processing large Arabic text corpora: Preliminary analysis and results
CN111291535B (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN111553155B (zh) 基于语义结构的口令分词***及方法
CN104699669A (zh) 一种文本字数统计的方法及装置
CN105573981A (zh) 一种提取中文人名地名的方法及装置
Khan et al. Creation and analysis of a new Bangla text corpus BDNC01
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
Hakro et al. Printed text image database for Sindhi OCR
Pillai et al. Named entity recognition for indian languages: A survey
Prinsloo et al. Optical Character Recognition and text cleaning in the indigenous South African languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100040 Shijingshan District railway building, Beijing, the 16 floor

Applicant after: Chinese translation language through Polytron Technologies Inc

Address before: 100040 Shijingshan District railway building, Beijing, the 16 floor

Applicant before: Mandarin Technology (Beijing) Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant