CN115455987A - 基于字频词频的字符分组方法、存储介质及电子设备 - Google Patents

基于字频词频的字符分组方法、存储介质及电子设备 Download PDF

Info

Publication number
CN115455987A
CN115455987A CN202211416941.4A CN202211416941A CN115455987A CN 115455987 A CN115455987 A CN 115455987A CN 202211416941 A CN202211416941 A CN 202211416941A CN 115455987 A CN115455987 A CN 115455987A
Authority
CN
China
Prior art keywords
characters
character
state transition
word frequency
transition matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211416941.4A
Other languages
English (en)
Other versions
CN115455987B (zh
Inventor
田辉
朱鹏远
鲁国峰
郭玉刚
张志翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei High Dimensional Data Technology Co ltd
Original Assignee
Hefei High Dimensional Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei High Dimensional Data Technology Co ltd filed Critical Hefei High Dimensional Data Technology Co ltd
Priority to CN202211416941.4A priority Critical patent/CN115455987B/zh
Publication of CN115455987A publication Critical patent/CN115455987A/zh
Application granted granted Critical
Publication of CN115455987B publication Critical patent/CN115455987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备,其中该字符分组方法包括如下步骤:遍历语料库,计算待分组的N个字符的概率及其所组成的各词语概率;根据字符概率和词语概率计算状态转移矩阵;对状态转移矩阵进行归一化得到归一化的状态转移矩阵;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,再通过选择权重最大的组来让一起出现的字符尽量不同组,实现了字符的合理分组,该分组方式对每组中字符个数不做限制,从而更加合理。

Description

基于字频词频的字符分组方法、存储介质及电子设备
技术领域
本发明涉及字库隐形水印技术领域,特别涉及一种基于字频词频的字符分组方法、存储介质及电子设备。
背景技术
在现有的文本水印技术中,为了提高水印算法抵抗打印扫描、屏幕截屏和屏幕拍照等恶意攻击的鲁棒性能,基于字符拓扑结构修改的文本数字水印技术成为主流。即通过将特定字符进行不同形式的变形后对应不同的水印信息位串,字符变形数据会保存在特定的水印字库中,并在电子文本文档打印输出和屏幕显示的过程中,通过字体替换来实现水印信息的嵌入。当我们针对不同的用户使用不同的字符变形数据,对于该用户来说,该特定的水印字库即构成其安全字库。
现有的安全字库存在很多缺陷,为了实现在不改变用户任何使用习惯的前提下,用以解决现有技术中水印加载通用性差、***稳定性差、实现过程复杂以及水印算法鲁棒性能低等问题,北京国隐科技有限公司申请的专利《一种通用的文本水印方法和装置》(公布号:CN114708133A)中公开了如下方案:一种通用的文本水印方法,包括以下步骤:根据特定策略对选定字库中一定数目的字符进行分组;根据特定规则对每个分组中的所有字符进行变形设计,并生成水印字符数据临时文件;生成用户终端水印编码数据,用以标识用户终端的身份认证信息;依据水印编码数据,并结合水印字符数据临时文件和分组的字符,动态生成并实时加载水印字库文件;运行电子格式的文本文件,在文件打印输出和屏幕显示的文档内容数据中利用水印字库文件实时嵌入水印信息。
该方案中需要对字符进行分组。在对字符进行分组时,理论上来说,字频较高的字符,应该分别位于不同组;常出现在一起的字符,应该分别位于不同组。满足这两个要求所生成的安全字库,在进行安全码的提取时,所需要的文字内容更少,因此,提取效果、准确率也更佳。该方案中的字符分组方法存在诸多不足:其一,每组中的字符数基本相等,这与上述的要求有所冲突;其二,分组时只考虑了字频,并没有对词频进行充分考虑,理论上,经常出现的词语中对应的字符,应该分在不同组别中,这样可以在更短的内容中出现更多分组,在进行安全码的提取时所需的内容更少;其三,该方案中对分组进行优化时的计算过程太复杂,需消耗大量的时间和算力。
发明内容
本发明的目的在于提供一种基于字频词频的字符分组方法,能够更加合理的对字符进行分组。
为实现以上目的,本发明采用的技术方案为:一种基于字频词频的字符分组方法,包括如下步骤:遍历语料库,根据待分组的N个字符的出现频数计算各字符概率
Figure 453747DEST_PATH_IMAGE001
,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure 213630DEST_PATH_IMAGE002
;根据
Figure 55684DEST_PATH_IMAGE001
Figure 529522DEST_PATH_IMAGE002
计算一个字符后是另一个字符的概率得到状态转移矩阵
Figure 609474DEST_PATH_IMAGE003
;对状态转移矩阵
Figure 963095DEST_PATH_IMAGE003
进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵
Figure 761286DEST_PATH_IMAGE004
;逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。
与现有技术相比,本发明存在以下技术效果:该分组方案主要从词语之间的关联来对字符进行分组,对于常作为一个单词出现的多个字符,尽量将它们分配在不同的组中,状态转移矩阵反映的就是一个字符后是另一个字符的概率,再通过权重计算公式,让经常出现在一起的两个字符分在不同组时的权重增大,这样我们就能通过选择权重最大的组来让一起出现的字符尽量不同组,从而实现了字符的合理分组,此种分组方式对每组中字符个数不做限制,从而更加合理。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合图1,对本发明做进一步详细叙述。
参阅图1,本发明公开了一种基于字频词频的字符分组方法,包括如下步骤:遍历语料库,根据待分组的N个字符的出现频数计算各字符概率
Figure 6192DEST_PATH_IMAGE001
,N的最优取值范围为1000~3000,通过对字符的字频进行排序,挑选字频较高的N个字符。分词模型有很多,我们选用较为成熟的分词模型,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure 206229DEST_PATH_IMAGE002
。这里的字频和词频可以利用已有的语料库和模型去计算,也可以直接采用之前已经计算好的结果。语料库的选择也可以根据用户的需求去选择,即可以选择通用的语料库,也可以选择某个企业或组织的内部语料库,针对不同的语料库,所得到的字符分组也是不同的。
根据
Figure 730751DEST_PATH_IMAGE001
Figure 219501DEST_PATH_IMAGE002
计算一个字符后是另一个字符的概率得到状态转移矩阵
Figure 487672DEST_PATH_IMAGE003
,该矩阵的行、列数均等于字符数N,状态转移矩阵
Figure 558527DEST_PATH_IMAGE003
中的元素
Figure 722792DEST_PATH_IMAGE005
代表字符
Figure 761155DEST_PATH_IMAGE006
后是字符
Figure 770700DEST_PATH_IMAGE007
的概率,通过构建状态转移矩阵
Figure 210908DEST_PATH_IMAGE003
,从而建立了字符和字符之间的关系。具体地,状态转移矩阵
Figure 280495DEST_PATH_IMAGE003
中的元素
Figure 806155DEST_PATH_IMAGE005
可以根据如下公式计算得到:
Figure 619390DEST_PATH_IMAGE008
式中,
Figure 903653DEST_PATH_IMAGE009
是特定词语概率之和,该特定词语中字符
Figure 472037DEST_PATH_IMAGE006
和字符
Figure 157096DEST_PATH_IMAGE007
相邻且按顺序排列。也即,这里的词语
Figure 836339DEST_PATH_IMAGE010
包含的是
Figure 923244DEST_PATH_IMAGE011
Figure 662530DEST_PATH_IMAGE012
Figure 382356DEST_PATH_IMAGE013
这样的词语,必须要字符
Figure 537393DEST_PATH_IMAGE006
在前、字符
Figure 806701DEST_PATH_IMAGE007
在后且两个字符相邻布置,不包括
Figure 654571DEST_PATH_IMAGE014
或者
Figure 376539DEST_PATH_IMAGE015
这样的词语。由于分词时会分出包含其他词语的长词语,所以需要求和;并且会忽视不构成词语的连续字,所以计算得到的状态转移矩阵
Figure 335268DEST_PATH_IMAGE003
中有很多元素的值为0,因此需要进一步进行归一化处理。
进一步地,对状态转移矩阵
Figure 193503DEST_PATH_IMAGE003
进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵
Figure 212274DEST_PATH_IMAGE004
;状态转移矩阵可以唯一地表示一个马尔科夫链,求出该矩阵后,语料库到语言模型的建模就完成了。具体地,按如下公式重置状态转移矩阵
Figure 670806DEST_PATH_IMAGE003
中为0的元素:
Figure 229964DEST_PATH_IMAGE016
式中,
Figure 100002_DEST_PATH_IMAGE017
为状态转移矩阵
Figure 942705DEST_PATH_IMAGE003
中第i行所有元素之和,
Figure 663536DEST_PATH_IMAGE018
为状态转移矩阵
Figure 297780DEST_PATH_IMAGE003
中第i行所有元素为0的字符对应的字符概率之和。如果某个字符与其他任何字符均不组成词语,那么在状态转移矩阵
Figure 411360DEST_PATH_IMAGE003
中该行元素的值均为0,经过归一化以后,该行元素的值就是各字符本身的概率。
当我们得到归一化的状态转移矩阵
Figure 447449DEST_PATH_IMAGE004
后,为了能够更好的对字符进行分组,我们考虑这样一个场景:字符集中的所有字符都已经完成了分组,此时有需要对一个新的字符c进行分组,只需要计算出该待分配字符c的最佳分组,重复这种思路,对每个字符都计算出最佳分组后,所得到的分组即N个字符的最佳分组。那么,如何确定某个字符的最佳分组呢,我们通过引入权重的方式来确定。
首先,我们定义语言模型下随机二元字符包含组别数的期望值为G,用来衡量分组的效果,N个字符分组后对应的G值计算公式如下:
Figure 604761DEST_PATH_IMAGE019
其中,g代表二元字符包含的不同组别数,当字符
Figure 523039DEST_PATH_IMAGE020
分在同一组时,
Figure DEST_PATH_IMAGE021
,当字符
Figure 423999DEST_PATH_IMAGE020
分在不同组时,
Figure 49015DEST_PATH_IMAGE022
Figure 892075DEST_PATH_IMAGE023
即字符
Figure 235332DEST_PATH_IMAGE006
后是字符
Figure 939982DEST_PATH_IMAGE007
的概率,且
Figure 747401DEST_PATH_IMAGE024
通过G的定义,我们可以得知,
Figure 449778DEST_PATH_IMAGE023
越大时,其最佳分组是将字符
Figure 342648DEST_PATH_IMAGE020
分在不同组,反映在G上就是G的值越大。因此,我们只需要计算待分配字符c分在每个组时的G值,当G值越大,表示该分组效果最佳。
因此,本发明的实施例一中,直接以随机二元字符包含组别数的期望值G作为权重,具体地,所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 788673DEST_PATH_IMAGE025
时的权重:
Figure 201331DEST_PATH_IMAGE026
式中,A为已分组字符和待分配字符c构成的集合,
Figure 74609DEST_PATH_IMAGE027
即归一化的状态转移矩阵
Figure 454774DEST_PATH_IMAGE004
中字符
Figure 235649DEST_PATH_IMAGE006
对应行、字符
Figure 955343DEST_PATH_IMAGE007
对应列的元素值。该实施例中,每分配一个字符时,计算该字符分在各组时对应的G值。
实施例一种的方案,随着已分组字符越来越多,后面的计算量也越来越大。为了提高处理速度,我们换一种思路,通过计算G的增加量来寻找最佳分组。将待分配字符c分到第k组
Figure 61839DEST_PATH_IMAGE025
时,G的增加量为:
Figure 866984DEST_PATH_IMAGE028
其中,前两项与k无关,即与分组方法无关。根据上面的推导过程,我们可以有两种方式来定义权重。
实施例二,所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 966396DEST_PATH_IMAGE025
时的权重:
Figure DEST_PATH_IMAGE029
式中,
Figure 337335DEST_PATH_IMAGE030
即归一化的状态转移矩阵
Figure 552415DEST_PATH_IMAGE004
中字符c对应行、字符
Figure 641594DEST_PATH_IMAGE006
对应列的元素值。
实施例三,所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 29850DEST_PATH_IMAGE025
时的权重:
Figure 458557DEST_PATH_IMAGE031
式中,
Figure 657589DEST_PATH_IMAGE030
即归一化的状态转移矩阵
Figure 437326DEST_PATH_IMAGE004
中字符c对应行、字符
Figure 629273DEST_PATH_IMAGE006
对应列的元素值。
分组K根据需要进行取值,比如可以取30,那么,此时
Figure 912486DEST_PATH_IMAGE032
的求和项数是大于
Figure DEST_PATH_IMAGE033
的求和项数的,也即实施例二中的计算量虽然相较于实施例一中的方案少了很多,但是依然多于实施例三中的计算量的。因此,我们实际在进行权重的计算时,优选采用
Figure 531687DEST_PATH_IMAGE034
作为权重。
通过以上的描述我们可知,不论是随机二元字符包含组别数的期望值G本身,还是G的增加量,还是简化得到的
Figure 595458DEST_PATH_IMAGE034
,都是与随机二元字符包含组别数的期望值正相关的。除了这里提到的三个权重外,还可以设置其他的权重,只要其与G是正相关的即可。
进一步地,所述的逐一遍历字符,计算待分配字符c分配到所有分组的权重的步骤中,按照字频从高到低的顺序逐一遍历。我们每分配一个字符c,其实就是求局部最优解,按照字频从高到低的顺序遍历,可以求得整体最优解,即所有字符分组后的最优解。
本发明还公开了一种计算机可读存储介质和一种电子设备。具体地,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的基于字频词频的字符分组方法。一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如前所述的基于字频词频的字符分组方法。

Claims (10)

1.一种基于字频词频的字符分组方法,其特征在于:包括如下步骤:
遍历语料库,根据待分组的N个字符的出现频数计算各字符概率
Figure DEST_PATH_IMAGE001
,对语料库中的所有文本进行分词,根据N个字符所组成词语的出现频数计算各词语概率
Figure 376003DEST_PATH_IMAGE002
根据
Figure 293144DEST_PATH_IMAGE001
Figure 10564DEST_PATH_IMAGE002
计算一个字符后是另一个字符的概率得到状态转移矩阵
Figure DEST_PATH_IMAGE003
对状态转移矩阵
Figure 405773DEST_PATH_IMAGE003
进行归一化使得一个字符后是其他字符的概率之和为1得到归一化的状态转移矩阵
Figure 220146DEST_PATH_IMAGE004
逐一遍历字符,计算待分配字符c分配到所有分组的权重并将字符c添加到权重最大的组,该权重和随机二元字符包含组别数的期望值正相关,以此类推直到所有字符完成分组。
2.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述N个字符分组后的随机二元字符包含组别数的期望值通过如下公式计算得到:
Figure 42608DEST_PATH_IMAGE006
式中,g代表二元字符包含的不同组别数,
Figure DEST_PATH_IMAGE007
即归一化的状态转移矩阵
Figure 247325DEST_PATH_IMAGE004
中字符
Figure 446225DEST_PATH_IMAGE008
对应行、字符
Figure DEST_PATH_IMAGE009
对应列的元素值。
3.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述状态转移矩阵
Figure 115103DEST_PATH_IMAGE003
中的元素
Figure 46150DEST_PATH_IMAGE010
代表字符
Figure 800480DEST_PATH_IMAGE008
后是字符
Figure 537492DEST_PATH_IMAGE009
的概率,其根据如下公式计算得到:
Figure 60877DEST_PATH_IMAGE012
式中,
Figure DEST_PATH_IMAGE013
是特定词语概率之和,该特定词语中字符
Figure 428404DEST_PATH_IMAGE008
和字符
Figure 670030DEST_PATH_IMAGE009
相邻且按顺序排列。
4.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的对状态转移矩阵
Figure 945153DEST_PATH_IMAGE003
进行归一化是指按如下公式重置状态转移矩阵
Figure 588624DEST_PATH_IMAGE003
中为0的元素:
Figure DEST_PATH_IMAGE015
式中,
Figure 861474DEST_PATH_IMAGE016
为状态转移矩阵
Figure 590395DEST_PATH_IMAGE003
中第i行所有元素之和,
Figure DEST_PATH_IMAGE017
为状态转移矩阵
Figure 669210DEST_PATH_IMAGE003
中第i行所有元素为0的字符对应的字符概率之和。
5.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 167187DEST_PATH_IMAGE018
时的权重:
Figure 876517DEST_PATH_IMAGE020
式中,A为已分组字符和待分配字符c构成的集合,
Figure 827156DEST_PATH_IMAGE007
即归一化的状态转移矩阵
Figure 709661DEST_PATH_IMAGE004
中字符
Figure 62145DEST_PATH_IMAGE008
对应行、字符
Figure 4693DEST_PATH_IMAGE009
对应列的元素值。
6.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 380311DEST_PATH_IMAGE018
时的权重:
Figure 800928DEST_PATH_IMAGE022
式中,
Figure DEST_PATH_IMAGE023
即归一化的状态转移矩阵
Figure 273498DEST_PATH_IMAGE004
中字符c对应行、字符
Figure 386947DEST_PATH_IMAGE008
对应列的元素值。
7.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的计算待分配字符c分配到所有组的权重步骤中,按如下公式计算待分配字符c分配到第k组
Figure 246931DEST_PATH_IMAGE018
时的权重:
Figure DEST_PATH_IMAGE025
式中,
Figure 471239DEST_PATH_IMAGE023
即归一化的状态转移矩阵
Figure 532736DEST_PATH_IMAGE004
中字符c对应行、字符
Figure 817087DEST_PATH_IMAGE008
对应列的元素值。
8.如权利要求1所述的基于字频词频的字符分组方法,其特征在于:所述的逐一遍历字符,计算待分配字符c分配到所有分组的权重的步骤中,按照字频从高到低的顺序逐一遍历。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的基于字频词频的字符分组方法。
10.一种电子设备,其特征在于:包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一项所述的基于字频词频的字符分组方法。
CN202211416941.4A 2022-11-14 2022-11-14 基于字频词频的字符分组方法、存储介质及电子设备 Active CN115455987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211416941.4A CN115455987B (zh) 2022-11-14 2022-11-14 基于字频词频的字符分组方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211416941.4A CN115455987B (zh) 2022-11-14 2022-11-14 基于字频词频的字符分组方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN115455987A true CN115455987A (zh) 2022-12-09
CN115455987B CN115455987B (zh) 2023-05-05

Family

ID=84295819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211416941.4A Active CN115455987B (zh) 2022-11-14 2022-11-14 基于字频词频的字符分组方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115455987B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US20080109209A1 (en) * 2006-11-02 2008-05-08 University Of Southern California Semi-supervised training for statistical word alignment
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法
CN107704455A (zh) * 2017-10-30 2018-02-16 成都市映潮科技股份有限公司 一种信息处理方法及电子设备
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋***中心 中文分词***
JP2019200784A (ja) * 2018-05-09 2019-11-21 株式会社アナリティクスデザインラボ 分析方法、分析装置及び分析プログラム
US20210067533A1 (en) * 2018-01-04 2021-03-04 Ping An Technology (Shenzhen) Co., Ltd. Network Anomaly Data Detection Method and Device as well as Computer Equipment and Storage Medium
CN113688615A (zh) * 2020-05-19 2021-11-23 阿里巴巴集团控股有限公司 一种字段注释生成、字符串理解方法、设备及存储介质
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US20080109209A1 (en) * 2006-11-02 2008-05-08 University Of Southern California Semi-supervised training for statistical word alignment
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法
CN107704455A (zh) * 2017-10-30 2018-02-16 成都市映潮科技股份有限公司 一种信息处理方法及电子设备
CN108038103A (zh) * 2017-12-18 2018-05-15 北京百分点信息科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
US20210067533A1 (en) * 2018-01-04 2021-03-04 Ping An Technology (Shenzhen) Co., Ltd. Network Anomaly Data Detection Method and Device as well as Computer Equipment and Storage Medium
CN108415953A (zh) * 2018-02-05 2018-08-17 华融融通(北京)科技有限公司 一种基于自然语言处理技术的不良资产经营知识管理方法
JP2019200784A (ja) * 2018-05-09 2019-11-21 株式会社アナリティクスデザインラボ 分析方法、分析装置及び分析プログラム
CN109086267A (zh) * 2018-07-11 2018-12-25 南京邮电大学 一种基于深度学习的中文分词方法
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋***中心 中文分词***
CN113688615A (zh) * 2020-05-19 2021-11-23 阿里巴巴集团控股有限公司 一种字段注释生成、字符串理解方法、设备及存储介质
CN114708133A (zh) * 2022-01-27 2022-07-05 北京国隐科技有限公司 一种通用的文本水印方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
丛伟: "基于层叠隐马尔可夫模型的蒙古语词切分***的研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》 *
孙艺玮: "融合词典修正的Bi-LSTM+CRF中文分词方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
易勇: "计算机辅助诗词创作中的风格辨析及联语应对研究", 《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》 *

Also Published As

Publication number Publication date
CN115455987B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110795556A (zh) 一种基于细粒度***式解码的摘要生成方法
CN109977861A (zh) 离线手写体数学公式识别方法
CN108009253A (zh) 一种改进的字符串相似对比方法
CN114708133B (zh) 一种通用的文本水印方法和装置
CN111931489B (zh) 文本纠错方法、装置和设备
CN112016061A (zh) 一种基于鲁棒水印技术的Excel文档数据保护方法
CN108960301A (zh) 一种基于卷积神经网络的古彝文识别方法
Gutub et al. Utilizing diacritic marks for Arabic text steganography
CN102402500A (zh) Pdf文件到swf文件转换方法及***
CN104050400B (zh) 一种基于控制符编码隐写的网页链接保护方法
CN107220333B (zh) 一种基于Sunday算法的字符搜索方法
CN115689853A (zh) 一种基于汉字特征修改和分组的鲁棒文本水印方法
CN111914825A (zh) 文字识别方法、装置及电子设备
CN111488732A (zh) 一种变形关键词检测方法、***及相关设备
CN112861844A (zh) 业务数据的处理方法、装置和服务器
CN101639828A (zh) 一种基于xml电子文档的水印隐藏和提取方法
CN115618809A (zh) 基于二元字符频次的字符分组方法及安全字库构建方法
CN115455987A (zh) 基于字频词频的字符分组方法、存储介质及电子设备
CN103136166B (zh) 字体确定方法和设备
CN116975864A (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN115455965B (zh) 基于字距词链的字符分组方法、存储介质及电子设备
Khekan et al. New text steganography method using the Arabic letters dots
Rui et al. A multiple watermarking algorithm for texts mixed Chinese and English
CN115455955A (zh) 基于局部和全局字符表征增强的中文命名实体识别方法
CN115455966B (zh) 安全字库构建方法及其安全码提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant