CN115455987A - 基于字频词频的字符分组方法、存储介质及电子设备 - Google Patents
基于字频词频的字符分组方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115455987A CN115455987A CN202211416941.4A CN202211416941A CN115455987A CN 115455987 A CN115455987 A CN 115455987A CN 202211416941 A CN202211416941 A CN 202211416941A CN 115455987 A CN115455987 A CN 115455987A
- Authority
- CN
- China
- Prior art keywords
- characters
- character
- state transition
- word frequency
- transition matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备,其中该字符分组方法包括如下步骤:遍历语料库,计算待分组的N个字符的概率及其所组成的各词语概率;根据字符概率和词语概率计算状态转移矩阵;对状态转移矩阵进行归一化得到归一化的状态转移矩阵;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,再通过选择权重最大的组来让一起出现的字符尽量不同组,实现了字符的合理分组,该分组方式对每组中字符个数不做限制,从而更加合理。
Description
技术领域
本发明涉及字库隐形水印技术领域,特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备。
背景技术
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、***稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
该方案中需要对字符进行分组。在对字符进行分组时,理论上来说,字频较高的字符,应该分别位于不同组;常出现在一起的字符,应该分别位于不同组。满足这两个要求所生成的安全字库,在进行安全码的提取时,所需要的文字内容更少,因此,提取效果、准确率也更佳。该方案中的字符分组方法存在诸多不足:其一,每组中的字符数基本相等,这与上述的要求有所冲突;其二,分组时只考虑了字频,并没有对词频进行充分考虑,理论上,经常出现的词语中对应的字符,应该分在不同组别中,这样可以在更短的内容中出现更多分组,在进行安全码的提取时所需的内容更少;其三,该方案中对分组进行优化时的计算过程太复杂,需消耗大量的时间和算力。
发明内容
本发明的目的在于提供一种基于字频词频的字符分组方法,能够更加合理的对字符进行分组。
为实现以上目的,本发明采用的技术方案为:一种基于字频词频的字符分组方法,包括如下步骤:遍历语料库,根据待分组的N个字符的出现频数计算各字符概率,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率;根据和计算一个字符后是另一个字符的概率得到状态转移矩阵;对状态转移矩阵进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。
与现有技术相比,本发明存在以下技术效果:该分组方案主要从词语之间的关联来对字符进行分组,对于常作为一个单词出现的多个字符,尽量将它们分配在不同的组中,状态转移矩阵反映的就是一个字符后是另一个字符的概率,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合图1,对本发明做进一步详细叙述。
参阅图1,本发明公开了一种基于字频词频的字符分组方法,包括如下步骤:遍历语料库,根据待分组的N个字符的出现频数计算各字符概率,N的最优取值范围为1000~3000,通过对字符的字频进行排序,挑选字频较高的N个字符。分词模型有很多,我们选用较为成熟的分词模型,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率。这里的字频和词频可以利用已有的语料库和模型去计算,也可以直接采用之前已经计算好的结果。语料库的选择也可以根据用户的需求去选择,即可以选择通用的语料库,也可以选择某个企业或组织的内部语料库,针对不同的语料库,所得到的字符分组也是不同的。
根据和计算一个字符后是另一个字符的概率得到状态转移矩阵,该矩阵的行、列数均等于字符数N,状态转移矩阵中的元素代表字符后是字符的概率,通过构建状态转移矩阵,从而建立了字符和字符之间的关系。具体地,状态转移矩阵中的元素可以根据如下公式计算得到:
式中,是特定词语概率之和,该特定词语中字符和字符相邻且按顺序排列。也即,这里的词语包含的是或或这样的词语,必须要字符在前、字符在后且两个字符相邻布置,不包括或者这样的词语。由于分词时会分出包含其他词语的长词语,所以需要求和;并且会忽视不构成词语的连续字,所以计算得到的状态转移矩阵中有很多元素的值为0,因此需要进一步进行归一化处理。
进一步地,对状态转移矩阵进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵;状态转移矩阵可以唯一地表示一个马尔科夫链,求出该矩阵后,语料库到语言模型的建模就完成了。具体地,按如下公式重置状态转移矩阵中为0的元素:
式中,为状态转移矩阵中第i行所有元素之和,为状态转移矩阵中第i行所有元素为0的字符对应的字符概率之和。如果某个字符与其他任何字符均不组成词语,那么在状态转移矩阵中该行元素的值均为0,经过归一化以后,该行元素的值就是各字符本身的概率。
当我们得到归一化的状态转移矩阵后,为了能够更好的对字符进行分组,我们考虑这样一个场景:字符集中的所有字符都已经完成了分组,此时有需要对一个新的字符c进行分组,只需要计算出该待分配字符c的最佳分组,重复这种思路,对每个字符都计算出最佳分组后,所得到的分组即N个字符的最佳分组。那么,如何确定某个字符的最佳分组呢,我们通过引入权重的方式来确定。
首先,我们定义语言模型下随机二元字符包含组别数的期望值为G,用来衡量分组的效果,N个字符分组后对应的G值计算公式如下:
其中,前两项与k无关,即与分组方法无关。根据上面的推导过程,我们可以有两种方式来定义权重。
分组K根据需要进行取值,比如可以取30,那么,此时的求和项数是大于的求和项数的,也即实施例二中的计算量虽然相较于实施例一中的方案少了很多,但是依然多于实施例三中的计算量的。因此,我们实际在进行权重的计算时,优选采用作为权重。
通过以上的描述我们可知,不论是随机二元字符包含组别数的期望值G本身,还是G的增加量,还是简化得到的,都是与随机二元字符包含组别数的期望值正相关的。除了这里提到的三个权重外,还可以设置其他的权重,只要其与G是正相关的即可。
进一步地,所述的逐一遍历字符,计算待分配字符c分配到所有分组的权重的步骤中,按照字频从高到低的顺序逐一遍历。我们每分配一个字符c,其实就是求局部最优解,按照字频从高到低的顺序遍历,可以求得整体最优解,即所有字符分组后的最优解。
本发明还公开了一种计算机可读存储介质和一种电子设备。具体地,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的基于字频词频的字符分组方法。一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如前所述的基于字频词频的字符分组方法。
Claims (10)
8.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的逐一遍历字符,计算待分配字符c分配到所有分组的权重的步骤中,按照字频从高到低的顺序逐一遍历。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的基于字频词频的字符分组方法。
10.一种电子设备,其特征在于:包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一项所述的基于字频词频的字符分组方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211416941.4A CN115455987B (zh) | 2022-11-14 | 2022-11-14 | 基于字频词频的字符分组方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211416941.4A CN115455987B (zh) | 2022-11-14 | 2022-11-14 | 基于字频词频的字符分组方法、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455987A true CN115455987A (zh) | 2022-12-09 |
CN115455987B CN115455987B (zh) | 2023-05-05 |
Family
ID=84295819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211416941.4A Active CN115455987B (zh) | 2022-11-14 | 2022-11-14 | 基于字频词频的字符分组方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455987B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US20080109209A1 (en) * | 2006-11-02 | 2008-05-08 | University Of Southern California | Semi-supervised training for statistical word alignment |
CN106372640A (zh) * | 2016-08-19 | 2017-02-01 | 中山大学 | 一种字频文本分类方法 |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN110263325A (zh) * | 2019-05-17 | 2019-09-20 | 交通银行股份有限公司太平洋***中心 | 中文分词*** |
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
US20210067533A1 (en) * | 2018-01-04 | 2021-03-04 | Ping An Technology (Shenzhen) Co., Ltd. | Network Anomaly Data Detection Method and Device as well as Computer Equipment and Storage Medium |
CN113688615A (zh) * | 2020-05-19 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
CN114708133A (zh) * | 2022-01-27 | 2022-07-05 | 北京国隐科技有限公司 | 一种通用的文本水印方法和装置 |
-
2022
- 2022-11-14 CN CN202211416941.4A patent/CN115455987B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US20080109209A1 (en) * | 2006-11-02 | 2008-05-08 | University Of Southern California | Semi-supervised training for statistical word alignment |
CN106372640A (zh) * | 2016-08-19 | 2017-02-01 | 中山大学 | 一种字频文本分类方法 |
CN107704455A (zh) * | 2017-10-30 | 2018-02-16 | 成都市映潮科技股份有限公司 | 一种信息处理方法及电子设备 |
CN108038103A (zh) * | 2017-12-18 | 2018-05-15 | 北京百分点信息科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
US20210067533A1 (en) * | 2018-01-04 | 2021-03-04 | Ping An Technology (Shenzhen) Co., Ltd. | Network Anomaly Data Detection Method and Device as well as Computer Equipment and Storage Medium |
CN108415953A (zh) * | 2018-02-05 | 2018-08-17 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理技术的不良资产经营知识管理方法 |
JP2019200784A (ja) * | 2018-05-09 | 2019-11-21 | 株式会社アナリティクスデザインラボ | 分析方法、分析装置及び分析プログラム |
CN109086267A (zh) * | 2018-07-11 | 2018-12-25 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN110263325A (zh) * | 2019-05-17 | 2019-09-20 | 交通银行股份有限公司太平洋***中心 | 中文分词*** |
CN113688615A (zh) * | 2020-05-19 | 2021-11-23 | 阿里巴巴集团控股有限公司 | 一种字段注释生成、字符串理解方法、设备及存储介质 |
CN114708133A (zh) * | 2022-01-27 | 2022-07-05 | 北京国隐科技有限公司 | 一种通用的文本水印方法和装置 |
Non-Patent Citations (3)
Title |
---|
丛伟: "基于层叠隐马尔可夫模型的蒙古语词切分***的研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》 * |
孙艺玮: "融合词典修正的Bi-LSTM+CRF中文分词方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
易勇: "计算机辅助诗词创作中的风格辨析及联语应对研究", 《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115455987B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795556A (zh) | 一种基于细粒度***式解码的摘要生成方法 | |
CN109977861A (zh) | 离线手写体数学公式识别方法 | |
CN108009253A (zh) | 一种改进的字符串相似对比方法 | |
CN114708133B (zh) | 一种通用的文本水印方法和装置 | |
CN111931489B (zh) | 文本纠错方法、装置和设备 | |
CN112016061A (zh) | 一种基于鲁棒水印技术的Excel文档数据保护方法 | |
CN108960301A (zh) | 一种基于卷积神经网络的古彝文识别方法 | |
Gutub et al. | Utilizing diacritic marks for Arabic text steganography | |
CN102402500A (zh) | Pdf文件到swf文件转换方法及*** | |
CN104050400B (zh) | 一种基于控制符编码隐写的网页链接保护方法 | |
CN107220333B (zh) | 一种基于Sunday算法的字符搜索方法 | |
CN115689853A (zh) | 一种基于汉字特征修改和分组的鲁棒文本水印方法 | |
CN111914825A (zh) | 文字识别方法、装置及电子设备 | |
CN111488732A (zh) | 一种变形关键词检测方法、***及相关设备 | |
CN112861844A (zh) | 业务数据的处理方法、装置和服务器 | |
CN101639828A (zh) | 一种基于xml电子文档的水印隐藏和提取方法 | |
CN115618809A (zh) | 基于二元字符频次的字符分组方法及安全字库构建方法 | |
CN115455987A (zh) | 基于字频词频的字符分组方法、存储介质及电子设备 | |
CN103136166B (zh) | 字体确定方法和设备 | |
CN116975864A (zh) | 恶意代码检测方法、装置、电子设备及存储介质 | |
CN115455965B (zh) | 基于字距词链的字符分组方法、存储介质及电子设备 | |
Khekan et al. | New text steganography method using the Arabic letters dots | |
Rui et al. | A multiple watermarking algorithm for texts mixed Chinese and English | |
CN115455955A (zh) | 基于局部和全局字符表征增强的中文命名实体识别方法 | |
CN115455966B (zh) | 安全字库构建方法及其安全码提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |