CN103186669A - 关键词快速过滤方法 - Google Patents
关键词快速过滤方法 Download PDFInfo
- Publication number
- CN103186669A CN103186669A CN201310092433XA CN201310092433A CN103186669A CN 103186669 A CN103186669 A CN 103186669A CN 201310092433X A CN201310092433X A CN 201310092433XA CN 201310092433 A CN201310092433 A CN 201310092433A CN 103186669 A CN103186669 A CN 103186669A
- Authority
- CN
- China
- Prior art keywords
- character
- keyword
- execution
- hash
- hash table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001914 filtration Methods 0.000 title claims abstract description 9
- 239000000284 extract Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008878 coupling Effects 0.000 description 13
- 238000010168 coupling process Methods 0.000 description 13
- 238000005859 coupling reaction Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种关键词快速过滤方法,包括关键词索引步骤和关键词匹配步骤;本发明对关键词集合中的各个关键词进行哈希编码,然后通过哈希编码进行关键词匹配,其效率高于普通的多模式关键词匹配算法;本发明采用的是结束符触发关键词匹配,以实现文本扫描过程中当前文本不与任何关键词匹配的快速判定,并且只有当首、尾字符一致时才通过哈希值匹配关键词,从而大大加快了文本扫描和匹配速度。
Description
技术领域
本发明具体涉及一种关键词快速过滤方法。
背景技术
在计算机的研究领域中,关键词匹配是最早出现的计算机应用之一,其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、信息检索和病毒检测等领域。近年来随着网络技术的飞速发展和用户的剧烈增长,网络传输数据量越来越大,网络用语越来越趋于多样化。如何快速的屏蔽用户的不当言论、过滤用户发表内容中的非法词汇已成为关键词匹配领域的一项重大难题。
在网络应用的早期,诞生了自动机、WM(Wu-Manber算法)等关键词匹配算法。自动机算法是一种最直接的方法,其将每一个关键词都与待匹配文本进行一次匹配,复杂度在最坏情况下需要对待匹配文本进行N(关键词个数)次扫描和匹配。WM算法是在1994年由Sun Wu和Udi Manber提出的另一种快速而有效的多模式匹配算法。WM(Wu-Manber算法)算法利用了多级匹配和散列的思想,利用SHIFT(移动表),HASH(哈希)和PREFIX(前缀表)三个在输入模式集合上预先建立的哈希表,以及BM算法中跳跃的思想来避免大量不必要的匹配测试。通过这两个技术,WM算法在实际的应用中表现出了很高的效率。
WM算法是精确匹配算法,主要适用于待匹配文本是***语系、拉丁语系的环境。在中文领域,文本的最小单元是单个汉字,且汉字与汉字之间可任意组词,词汇量相对于任何语言都是最庞大的。这就需要对关键词匹配算法有更精确的要求,从而使得现有的关键词匹配算法在实际应用中不能达到令人满意的效率,特别是进行多关键词的精确匹配,性能尤其差。
发明内容
本发明所要解决的技术问题在于提供一种关键词快速过滤方法,不仅克服了传统模式下关键词匹配效率低的弊端,同时解决了现有的多模式关键字匹配针对汉字领域无法发挥高效特点的问题。
本发明是通过以下技术方案解决上述技术问题的:一种关键词快速过滤方法,包括关键词索引方法和关键词匹配方法,
所述关键词索引方法包含以下内容:
步骤10:构建一哈希表H1,将预设的关键词集合中的各关键词的哈希值存储于哈希表H1;
步骤20:构建哈希表H2和哈希表H3,将所述关键词集合中的各关键词的首字符哈希值存储于哈希表H2,将所述关键词集合中的各关键词的尾字符哈希值存储于哈希表H3中;
步骤30:查询所述关键词集合中字符数最多的关键词,并记录该关键词的字符长度L;
所述关键词匹配方法包含以下内容:
步骤40:构造一与所述字符长度L相等长度的线性表,得到首字符列表PL;
步骤50:将待匹配文本从前往后扫描一字符C;
步骤60:判断字符C是否属于所述哈希表H2中的各关键词的首字符之一,若是,则将字符C及其在待匹配文本的位置地址存储于所述首字符列表PL,并执行步骤70;若否,执行步骤70;
步骤70:判断字符C是否属于哈希表H3中的各关键词的尾字符之一,若是,则执行步骤90;若否,则执行步骤80;
步骤80:将待匹配文本继续往后扫描一个字符C,判断字符C是否为空,若是,结束流程;若否,则执行步骤60;
步骤90:将所述首字符列表PL中的字符从下向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100;
步骤100:计算字符B与字符C在待匹配文本中的位置地址差I,判断是否I≤L,若是,则执行步骤110;若否,则清空所述首字符列表PL,并执行步骤80;
步骤110:提取待匹配文本中字符B与字符C之间的字符串S,计算所述字符串S的哈希值Hs,判断哈希值Hs是否属于所述哈希表H1中各关键词的哈希值之一,若是,则报告一次成功的关键词匹配事件,并清空首字符列表PL,然后返回步骤80;若否,则进入步骤120;
步骤120:将所述首字符列表PL中的字符继续向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100。
进一步地,所述步骤10中的关键词集合中的各关键词的哈希值计算方法如下:
步骤一:将关键词的哈希码HD设为0;
步骤二:对所述关键词从后往前扫描一个字符D,
步骤三:判断所述字符D是否为空,若是,则结束流程;若否,则进入步骤四;
步骤四:将所述HD做左移四位运算,再将所述字符D哈希值与HD作异或运算,运算后的结果作为HD的新值;继续提取下一个字符D,重复步骤三和步骤四,直至D为关键词的最后一个字符,最后一个字符的运算结果即为该关键词的哈希值。
本发明的有益效果在于:本发明实现了文本内容的敏感词过滤,既能够满足效率的要求,同时又降低了开发实现难度。
具体实施方式
一种关键词快速过滤方法,包括关键词索引方法和关键词匹配方法,
所述关键词索引方法包含以下内容:
步骤10:构建一哈希表H1,将预设的关键词集合中的各关键词的哈希值存储于哈希表H1;
步骤20:构建哈希表H2和哈希表H3,将所述关键词集合中的各关键词的首字符哈希值存储于哈希表H2,将所述关键词集合中的各关键词的尾字符哈希值存储于哈希表H3中;当各关键词的首字符存在相同的字符时,则不重复记录,当各关键词的尾字符存在相同的字符时,亦不重复记录。
步骤30:查询所述关键词集合中字符数最多的关键词,并记录该关键词的字符长度L;
所述关键词匹配方法包含以下内容:
步骤40:构造一与所述字符长度L相等长度的线性表,得到首字符列表PL;构造一个与所述字符长度L相等长度的线性表,当存入PL的字符长度超过长度L时则移除最早添加的字符。
步骤50:将待匹配文本从前往后扫描一字符C;
步骤60:判断字符C是否属于所述哈希表H2中的各关键词的首字符之一,若是,则将字符C及其在待匹配文本的位置地址存储于所述首字符列表PL,并执行步骤70;若否,执行步骤70;
步骤70:判断字符C是否属于哈希表H3中的各关键词的尾字符之一,若是,则执行步骤90;若否,则执行步骤80;
步骤80:将待匹配文本继续往后扫描一个字符C,判断字符C是否为空,若是,结束流程;若否,则执行步骤60;
步骤90:将所述首字符列表PL中的字符从下向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100;
步骤100:计算字符B与字符C在待匹配文本中的位置地址差I,判断是否I≤L,若是,则执行步骤110;若否,则清空所述首字符列表PL,并执行步骤80;
步骤110:提取待匹配文本中字符B与字符C之间的字符串S,计算所述字符串S的哈希值Hs,判断哈希值Hs是否属于所述哈希表H1中各关键词的哈希值之一,若是,则报告一次成功的关键词匹配事件,并清空首字符列表PL,然后返回步骤80;若否,则进入步骤120;
步骤120:将所述首字符列表PL中的字符继续向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100。
所述关键词集合中的各关键词的哈希值计算方法如下:
步骤一:将关键词的哈希码HD设为0;
步骤二:对所述关键词从后往前扫描一个字符D,
步骤三:判断所述字符D是否为空,若是,则结束流程;若否,则进入步骤四;
步骤四:将所述HD做左移四位运算,再将所述字符D哈希值与HD作异或运算,运算后的结果作为HD的新值;继续提取下一个字符D,重复步骤三和步骤四,直至D为关键词的最后一个字符,最后一个字符的运算结果即为该关键词的哈希值。
为了使得构造的哈希表具有较好的平衡性,需要为哈希表构造一个均匀性较好的哈希映射函数F,并且所构造的哈希映射函数F应具有较高的计算效率,以减少哈希表的索引开销。对于关键词之间出现的哈希值冲突,本发明采用链表法来解决,其原理为:将哈希值相同的关键词串接到一个链表中,链表中的元素按字典升序排序,再将链表作为值域存入哈希表H1。
所述字符串S的哈希值Hs计算方法与上述关键词的哈希值计算方法一致。
由于本发明采用一种结束符触发关键词匹配算法,对于待匹配文本ABCDE,假设A、B、C、D都属于首字符集合即哈希表H2,如果E是结束符,则会检索ABCDE、BCDE、CDE、DE、E。如果采用从后往前计算哈希值的方法,那就可以利用E的哈希值以及字符D计算DE的哈希值,而不需要再次对E字符进行计算,因此该散列函数构造关键词的哈希值具有较高的效率。
为使本发明更好理解,特举例如下:
定义 P为关键词集合,表示为P[北京,上海,厦门,呼和浩特,海口,成都,宜昌,盐城]。
定义T为待匹配文本,表示为T[厦门和上海都是宜居的旅游城市]
按照本发明方法的模式匹配过程如下:
首先,构建哈希表:
H1=[309719:北京;432506:上海;593190:厦门;122676668:呼和浩特;348999:海口;617920:成都;408412:宜昌;330288:盐城];
H2=[21271:北;19978:上;21414:厦;21628:呼;28023:海;25104:成;23452:宜;30416:盐];
H3=[20140:京;28023:海;38376:门;29305:特;21475:口;37117:都;26124:昌;22478:城];
最长关键词为[呼和浩特],所以L=4。
构建一个长度为4的线性表即首字符列表PL,用于存储匹配成功的首字符。
然后,扫描待匹配文本T的第一个字符[厦],可见[厦]属于首字符集合即哈希表H2,在待匹配文本的位置地址为1,将其存入PL得PL=[(厦,1)];
扫描下一个字符[门],[门]属于尾字符集合即哈希表H3,提取[门]到[厦]之间的字符串[厦门],[厦门]的长度为2,小于L。计算[厦门]的哈希值为593190,从H1中获取相同哈希值的关键词为[厦门],匹配成功,清空PL,PL=[]。
扫描下一个字符[和],[和]既不属于哈希表H2也不属于哈希表H3,跳过匹配步骤。
扫描下一个字符[上],判断[上]属于关键词的首字符,将[上]及其在待匹配文本的位置地址4存入PL,PL=[(上,4)]。
扫描下一个字符[海],首先判断[海]属于关键词的首字符,将[海]及其在待匹配文本的位置地址5存入PL,PL=[(上,4);(海,5)];再判断[海]属于哈希表H3,提取[海]至上一个扫描到的首字符[海]之间的字符串[海],计算[海]的哈希值为28023,从H1没有匹配到相同的关键词;继续提取[海]至上一个扫描到的首字符[上]之间的字符串[上海],计算[上海]的哈希值为432506,从H1中获取相同哈希值的关键词为[上海],匹配成功。清空PL,PL=[]。
扫描下一个字符[都],判断[都]属于哈希表H3,此时PL为空,跳过匹配步骤。
当扫描到[宜]时,判断[宜]属于哈希表H2,将[宜]及其在待匹配文本的位置地址8存入PL,PL=[(宜,8)]。
继续往后扫描到[城]时,判断[城]属于哈希表H3,提取[城]至上一个扫描到的首字符[宜]之间的字符串[宜居的旅游城],由于该字符串的长度为6,大于L,因此直接跳过匹配步骤。
如此反复,直至整个待匹配文本扫描结束。
本发明建立哈希表是为了消除通过遍历比较来搜索关键词带来的时间浪费,在搜索匹配的过程中,本发明依据关键词的哈希值来快速判断是否匹配成功。
本发明对关键词集合中的各个关键词进行哈希编码,然后通过哈希编码进行关键词匹配,其效率高于普通的多模式关键词匹配算法。本发明采用的是结束符触发关键词匹配,以实现文本扫描过程中当前文本不与任何关键词匹配的快速判定,并且只有当首、尾字符一致时才通过哈希值匹配关键词,从而大大加快了文本扫描和匹配速度。
Claims (2)
1.一种关键词快速过滤方法,其特征在于:包括关键词索引方法和关键词匹配方法,
所述关键词索引方法包含以下内容:
步骤10:构建一哈希表H1,将预设的关键词集合中的各关键词的哈希值存储于哈希表H1;
步骤20:构建哈希表H2和哈希表H3,将所述关键词集合中的各关键词的首字符哈希值存储于哈希表H2,将所述关键词集合中的各关键词的尾字符哈希值存储于哈希表H3中;
步骤30:查询所述关键词集合中字符数最多的关键词,并记录该关键词的字符长度L;
所述关键词匹配方法包含以下内容:
步骤40:构造一与所述字符长度L相等长度的线性表,得到首字符列表PL;
步骤50:将待匹配文本从前往后扫描一字符C;
步骤60:判断字符C是否属于所述哈希表H2中的各关键词的首字符之一,若是,则将字符C及其在待匹配文本的位置地址存储于所述首字符列表PL,并执行步骤70;若否,执行步骤70;
步骤70:判断字符C是否属于哈希表H3中的各关键词的尾字符之一,若是,则执行步骤90;若否,则执行步骤80;
步骤80:将待匹配文本继续往后扫描一个字符C,判断字符C是否为空,若是,结束流程;若否,则执行步骤60;
步骤90:将所述首字符列表PL中的字符从下向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100;
步骤100:计算字符B与字符C在待匹配文本中的位置地址差I,判断是否I≤L,若是,则执行步骤110;若否,则清空所述首字符列表PL,并执行步骤80;
步骤110:提取待匹配文本中字符B与字符C之间的字符串S,计算所述字符串S的哈希值Hs,判断哈希值Hs是否属于所述哈希表H1中各关键词的哈希值之一,若是,则报告一次成功的关键词匹配事件,并清空首字符列表PL,然后返回步骤80;若否,则进入步骤120;
步骤120:将所述首字符列表PL中的字符继续向上提取一字符B,判断字符B是否为空,若是,则执行步骤80;若否,则执行步骤100。
2.如权利要求1所述的关键词快速过滤方法,其特征在于:所述步骤10中的关键词集合中的各关键词的哈希值计算方法如下:
步骤一:将关键词的哈希码HD设为0;
步骤二:对所述关键词从后往前扫描一个字符D,
步骤三:判断所述字符D是否为空,若是,则结束流程;若否,则进入步骤四;
步骤四:将所述HD做左移四位运算,再将所述字符D哈希值与HD作异或运算,运算后的结果作为HD的新值;继续提取下一个字符D,重复步骤三和步骤四,直至D为关键词的最后一个字符,最后一个字符的运算结果即为该关键词的哈希值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310092433.XA CN103186669B (zh) | 2013-03-21 | 2013-03-21 | 关键词快速过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310092433.XA CN103186669B (zh) | 2013-03-21 | 2013-03-21 | 关键词快速过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103186669A true CN103186669A (zh) | 2013-07-03 |
CN103186669B CN103186669B (zh) | 2018-07-06 |
Family
ID=48677836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310092433.XA Active CN103186669B (zh) | 2013-03-21 | 2013-03-21 | 关键词快速过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103186669B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885964A (zh) * | 2012-12-20 | 2014-06-25 | 北京新媒传信科技有限公司 | 一种内容审核方法和*** |
CN104602206A (zh) * | 2014-12-31 | 2015-05-06 | 上海大汉三通通信股份有限公司 | 一种垃圾短信识别方法与*** |
CN104809138A (zh) * | 2014-01-28 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 一种基于hash处理的词汇管理方法和设备 |
CN105260357A (zh) * | 2015-10-14 | 2016-01-20 | 北京京东尚科信息技术有限公司 | 基于哈希有向图的敏感词检查方法和设备 |
CN106484730A (zh) * | 2015-08-31 | 2017-03-08 | 北京国双科技有限公司 | 字符串匹配方法和装置 |
CN107402940A (zh) * | 2016-05-20 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 敏感词检索方法 |
CN109145283A (zh) * | 2017-06-17 | 2019-01-04 | 黄冈 | 一种人工智能的敏感信息检测方法 |
CN109783607A (zh) * | 2018-12-19 | 2019-05-21 | 南京莱斯信息技术股份有限公司 | 一种在任意文本中匹配识别海量关键词的方法 |
CN109933644A (zh) * | 2019-03-22 | 2019-06-25 | 中国农业银行股份有限公司 | 一种字符串匹配方法及装置 |
CN110222015A (zh) * | 2019-06-19 | 2019-09-10 | 北京泰迪熊移动科技有限公司 | 一种文件数据的读取、查询方法、装置及可读存储介质 |
JP7498844B1 (ja) | 2023-12-27 | 2024-06-12 | ネットスター株式会社 | ウェブフィルタリングシステム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250086A (ja) * | 1998-03-03 | 1999-09-17 | Hitachi Ltd | 検索支援システム |
CN101030221A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种用于文本或网络内容分析的大规模多关键词匹配方法 |
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN101398820A (zh) * | 2007-09-24 | 2009-04-01 | 北京启明星辰信息技术有限公司 | 一种大规模关键词匹配方法 |
-
2013
- 2013-03-21 CN CN201310092433.XA patent/CN103186669B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250086A (ja) * | 1998-03-03 | 1999-09-17 | Hitachi Ltd | 検索支援システム |
CN101030221A (zh) * | 2007-04-13 | 2007-09-05 | 清华大学 | 一种用于文本或网络内容分析的大规模多关键词匹配方法 |
CN101359325A (zh) * | 2007-08-01 | 2009-02-04 | 北京启明星辰信息技术有限公司 | 一种快速内容分析的多关键词匹配方法 |
CN101398820A (zh) * | 2007-09-24 | 2009-04-01 | 北京启明星辰信息技术有限公司 | 一种大规模关键词匹配方法 |
Non-Patent Citations (1)
Title |
---|
张鑫等: "一种改进的Wu-Manber 多关键词匹配算法", 《计算机应用》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103885964A (zh) * | 2012-12-20 | 2014-06-25 | 北京新媒传信科技有限公司 | 一种内容审核方法和*** |
CN104809138B (zh) * | 2014-01-28 | 2018-06-08 | 阿里巴巴集团控股有限公司 | 一种基于hash处理的词汇管理方法和设备 |
CN104809138A (zh) * | 2014-01-28 | 2015-07-29 | 阿里巴巴集团控股有限公司 | 一种基于hash处理的词汇管理方法和设备 |
CN104602206A (zh) * | 2014-12-31 | 2015-05-06 | 上海大汉三通通信股份有限公司 | 一种垃圾短信识别方法与*** |
CN106484730A (zh) * | 2015-08-31 | 2017-03-08 | 北京国双科技有限公司 | 字符串匹配方法和装置 |
CN105260357A (zh) * | 2015-10-14 | 2016-01-20 | 北京京东尚科信息技术有限公司 | 基于哈希有向图的敏感词检查方法和设备 |
CN105260357B (zh) * | 2015-10-14 | 2018-03-30 | 北京京东尚科信息技术有限公司 | 基于哈希有向图的敏感词检查方法和设备 |
CN107402940B (zh) * | 2016-05-20 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 敏感词检索方法、装置及存储介质 |
CN107402940A (zh) * | 2016-05-20 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 敏感词检索方法 |
CN109145283A (zh) * | 2017-06-17 | 2019-01-04 | 黄冈 | 一种人工智能的敏感信息检测方法 |
CN109145283B (zh) * | 2017-06-17 | 2022-03-15 | 黄冈 | 一种人工智能的敏感信息检测方法 |
CN109783607A (zh) * | 2018-12-19 | 2019-05-21 | 南京莱斯信息技术股份有限公司 | 一种在任意文本中匹配识别海量关键词的方法 |
CN109933644A (zh) * | 2019-03-22 | 2019-06-25 | 中国农业银行股份有限公司 | 一种字符串匹配方法及装置 |
CN109933644B (zh) * | 2019-03-22 | 2021-03-09 | 中国农业银行股份有限公司 | 一种字符串匹配方法及装置 |
CN110222015A (zh) * | 2019-06-19 | 2019-09-10 | 北京泰迪熊移动科技有限公司 | 一种文件数据的读取、查询方法、装置及可读存储介质 |
JP7498844B1 (ja) | 2023-12-27 | 2024-06-12 | ネットスター株式会社 | ウェブフィルタリングシステム |
Also Published As
Publication number | Publication date |
---|---|
CN103186669B (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103186669A (zh) | 关键词快速过滤方法 | |
CN100452055C (zh) | 一种用于文本或网络内容分析的大规模多关键词匹配方法 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN101976253B (zh) | 一种中文变异文本匹配识别方法 | |
CN103646018B (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
CN105912514B (zh) | 基于指纹特征的文本复制检测***及方法 | |
CN102750379B (zh) | 一种基于过滤型的字符串快速匹配方法 | |
Hsu et al. | Space-efficient data structures for top-k completion | |
CN103365992B (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
CN108829658A (zh) | 新词发现的方法及装置 | |
CN105630765A (zh) | 地名地址识别方法 | |
CN102867049B (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN103412858A (zh) | 用于文本或网络内容分析的大规模特征匹配的方法 | |
CN103778141A (zh) | 一种混合pdf图书目录自动抽取算法 | |
CN116562297B (zh) | 基于HTrie树的中文敏感词变形体识别方法及*** | |
CN105335481A (zh) | 一种大规模字符串文本的后缀索引构造方法及装置 | |
CN103324612A (zh) | 一种分词的方法及装置 | |
CN103902918A (zh) | 一种从Word文档中快速提取文字格式的方法和装置 | |
CN101770478B (zh) | 数据检索方法、数据检索装置及嵌入式终端 | |
CN104573055B (zh) | 一种网络账号快速检索的分词方法 | |
CN102521357A (zh) | 一种利用自动机实现文本精确匹配的***和方法 | |
CN102253983A (zh) | 一种汉语高危词识别方法和*** | |
CN103488616B (zh) | 一种内嵌字体处理方法与装置 | |
CN104850609A (zh) | 一种针对跳字类关键词的过滤方法 | |
CN101833571B (zh) | 一种从互联网上自动提取双语翻译词典的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 361009 Xiamen Torch High tech Zone Software Park Innovation Building C Area 303-E, Xiamen, Fujian Province Patentee after: Xiamen Yaxun Zhilian Technology Co.,Ltd. Country or region after: China Address before: Xiamen City, Fujian province 361009 software industry base in view of the road No. 46 Patentee before: XIAMEN YAXON NETWORK Co.,Ltd. Country or region before: China |