CN108170682A - 一种基于专业词汇的中文分词方法及计算设备 - Google Patents
一种基于专业词汇的中文分词方法及计算设备 Download PDFInfo
- Publication number
- CN108170682A CN108170682A CN201810050618.7A CN201810050618A CN108170682A CN 108170682 A CN108170682 A CN 108170682A CN 201810050618 A CN201810050618 A CN 201810050618A CN 108170682 A CN108170682 A CN 108170682A
- Authority
- CN
- China
- Prior art keywords
- participle
- character
- determined
- entry
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000011218 segmentation Effects 0.000 claims abstract description 19
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000003491 array Methods 0.000 claims abstract description 5
- 230000001174 ascending effect Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 6
- 208000027418 Wounds and injury Diseases 0.000 description 5
- 230000006378 damage Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 208000014674 injury Diseases 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- KZBUYRJDOAKODT-UHFFFAOYSA-N Chlorine Chemical compound ClCl KZBUYRJDOAKODT-UHFFFAOYSA-N 0.000 description 2
- 206010052428 Wound Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 229910052801 chlorine Inorganic materials 0.000 description 2
- 239000000460 chlorine Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000270708 Testudinidae Species 0.000 description 1
- 150000001335 aliphatic alkanes Chemical class 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于专业词汇的中文分词方法,该方法适于在计算设备中执行,包括:通过逐条读入词条来构造具有预定结构的词典,其中词典中将首字相同的词条按照Unicode码升序排列,并建立多个第一数组用于存储首字相同的词条,且在每个第一数组中建立至少一个第二数组,用于存储词条内容及标识位,标识位用于标识词条是否属于专业词汇;利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词;根据每个待确定分词对应的标识位对该待确定分词设置分词权重;以及根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果。本发明一并公开了用于执行该方法的计算设备。
Description
技术领域
本发明涉及信息处理技术领域,特别地,涉及一种基于专业词汇的中文分词方法及计算设备。
背景技术
中文信息处理技术现已在计算机网络、数据库技术、软件工程等计算机领域得到了广泛应用,而中文自动分词是中文信息处理的一项重要的基础性工作,许多中文信息处理项目中都涉及到分词问题,如机器翻译、自动文摘、自动分类、中文文献库全文检索、搜索引擎等。由于中文文本是连写的,词之间没有空格,因而在中文文本处理中,首先遇到的问题是分词的问题,词的正确切分是进行中文文本处理的必要条件。另外,中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就不很清楚,中文分词方法可以帮助判别英文单词的边界。因此,研究中文分词技术有很重要的意义。
现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如,“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断。而现有的中文分词技术所采用的词典相对通用,没有专门针对专业词汇的词典,很大可能导致分词结果不准确。
因此需要一种能识别出专业词汇的中文分词方法,从而进一步提高分词准确率。
发明内容
为此,本发明提供了一种基于专业词汇的中文分词方法及计算设备,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种基于专业词汇的中文分词方法,该方法适于在计算设备中执行,包括步骤:通过逐条读入词条来构造具有预定结构的词典,其中词典中将首字相同的词条按照Unicode码升序排列,并建立多个第一数组用于存储首字相同的词条,且在每个第一数组中建立至少一个第二数组,用于存储词条内容及标识位,标识位用于标识所述词条是否属于专业词汇;利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词;根据每个待确定分词对应的标识位对该待确定分词设置分词权重;根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果。
可选地,在根据本发明的方法中,根据每个待确定分词对应的标识位对该待确定分词设置分词权重的步骤包括:若待确定分词对应的标识位指示该待确定分词属于专业词汇,则对其设置第一分词权重;若待确定分词对应的标识位指示该待确定分词不属于专业词汇,则对其设置第二分词权重,其中,所述第一分词权重小于第二分词权重。
可选地,在根据本发明的方法中,根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果的步骤包括:以待分词语句中每个字符作为节点,其中待分词语句的第一个字符为起始节点、最后一个字符为终止节点;根据待确定分词依序构造出起始节点与终止节点之间的多条切分路径;结合每个待确定分词的分词权重计算每条切分路径的长度;以及选取长度最短的一条切分路径作为分词结果。
可选地,在根据本发明的方法中,通过逐条读入词条来构造具有预定结构的词典的步骤包括:建立输入流来依次读入词条;判断是否存在用于存储以该词条首字为首字的词条的第一数组;若不存在第一数组,则根据所读入的词条的首字创建用于存储以该首字为首字的所有词条的第一数组;在第一数组中建立第二数组来存储词条内容;判断词条是否属于专业词汇,若是专业词汇,则对其标识位赋予第一数值;以及若不是专业词汇,则对其标识位赋予第二数值。
可选地,在根据本发明的方法中,利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词的步骤之前,还包括步骤:识别待处理的源语句中的非中文字符;以及从待处理的源语句中剔除识别出的非中文字符,得到待分词语句。
可选地,在根据本发明的方法中,非中文字符包括标点符号、数字字符、英文字符、忽略动作的非可见字符。
可选地,在根据本发明的方法中,利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词的步骤包括:对于待分词语句中的每个字符:根据该字符的Unicode码,查找存储以该字符为首字的词条的第一数组;以该字符为首字组成至少一个字符串,通过二分查找法在第一数组的所有词条中查找该字符串;以及当查找到该字符串对应的词条时,将该字符串作为待确定分词。
可选地,在根据本发明的方法中,以该字符为首字组成至少一个字符串,通过二分查找法在第一数组的所有词条中查找该字符串的步骤还包括:若在第一数组中存在仅包括该字符的词条,则判断该字符为整词;以及将该字符作为一个待确定分词。
根据本发明的另一个方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述的方法中的任一方法的指令。
根据本发明的再一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行如上所述的方法中的任一方法。
根据本发明的基于专业词汇的中文分词方案,通过在构建词典时加入指示词条是否为专业词汇的标识位,而后在分词时,可以为判定是专业词汇的待确定分词设置一个较小的分词权重,根据分词权重和切分路径计算切分路径的长度,进而选取最短路径作为分词结果。通过引入这种计分机制,解决了可能出现的路径选择问题,保证了分词结果的准确性,不但能够较好地解决交叉歧义,还对专业领域内的专业词汇有较高的识别率,将该技术应用到不同的行业中能取得较高的分词正确率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的基于专业词汇的中文分词方法200的流程图;以及
图3示出了根据本发明一个实施例的构造具有预定结构的词典的流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的一个实施例的计算设备100的结构框图。
在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作***120上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在根据本发明的实现方式中,计算设备100被配置为执行根据本发明的基于专业词汇的中文分词方法。其中,计算设备100的一个或多个应用122中包括用于执行根据本发明的基于专业词汇的中文分词方法200的指令。
图2示出了根据本发明一个实施例的基于专业词汇的中文分词方法200的流程图。
方法200始于步骤S210,通过逐条读入词条来构造具有预定结构的词典。
根据本发明的一个实施例,所构造的词典中将首字相同的词条按照Java内建的Unicode码升序排列,即从“一”到“龟”的顺序。
由于Unicode码中会包含一些无意义的字,如“丿”“乀”等,若不加筛选一次性将所有的Unicode码加载,势必会浪费空间资源,也增加了后续查询匹配的次数。因此,在根据本发明的具有预定结构的词典中,建立多个第一数组用于存储首字相同的词条,且在每个第一数组中建立至少一个第二数组,每个第二数组用来存储一条词条的内容及标识位,标识位是用来标识该词条是否属于专业词汇。换句话说,将所有首字相同的词条构成一个词块(即,第一数组),在每个第一数组中,又构建多个第二数组,每个第二数组包含一个string常量和一个整型常量,其中,string常量用来存储词条的内容,整型常量用来存储标识位。
如表1示出了根据本发明实施例的词典结构的一种形式。
表1
本发明的实施例还提供了一种通过逐条读入词条构造具有预定结构的词典的过程,如图3所示。
采用文件流的形式,先在步骤S310中,建立输入流来依次读入词条,并判断是否达到输入流的末端,若达到输入流末端则所有词条读入完毕,若没有则继续执行下面的步骤。
然后,在步骤S320中,针对读入的词条,判断是否存在用于存储以该词条首字为首字的词条的第一数组。例如,读入的词条为“道理”,则需要判断当前词典中是否存在以“道”为首字的第一数组。
在步骤S330中,若不存在这样的第一数组,则根据所读入的词条的首字创建用于存储以该首字为首字的所有词条的第一数组。也就是说,若不存在以“道”为首字的第一数组,就在词典中创建一个第一数组,用来存储以“道”为首字的所有词条。
紧接着在步骤S340中,在该第一数组中建立第二数组来存储相应的词条内容。当然,若是经判断,词典中本来就存在以“道”为首字的第一数组,那就直接进入步骤S340,在该第一数组中创建一个第二数组,用来存储词条“道理”。
随后,在步骤S350中,判断当前词条是否属于专业词汇,若是专业词汇,则对其标识位赋予第一数值;若不是专业词汇,则对其标识位赋予第二数值,并将标识位写入第二数组中。可选地,以00表示第一数值,01表示第二数值,或者,以9表示第一数值,以1表示第二数值,标识位只要能够清楚地区分专业词汇和非专业词汇即可,本发明的实施例对此不作限制。
可选地,也可以通过对标识位赋予不同的值来区分不同专业领域内的专业词汇,如,对于危化品行业的专业词汇,其标识位设为9;对于广电行业的专业词汇,其标识位设为8。本发明的实施例对此均不作限制。
接下来循环进入步骤S310,继续读入下一词条,执行步骤S320-步骤S350,直至到达输入流末端,词典构建完毕。
随后在步骤S220中,利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词。
根据本发明的一种实现方式,对于待处理的源语句,先识别出其中的非中文字符,再从待处理的源语句中剔除识别出的非中文字符,得到待分词语句。可选地,非中文字符包括标点符号、数字字符、英文字符、忽略动作的非可见字符,忽略动作的非可见字符如换行、回车、水平制表符等。这样可以为之后的算法处理提供基本的语言信息并提高处理效率。
具体地,步骤S220可以按如下步骤执行:对于待分词语句中的每个字符,根据该字符的Unicode码,查找存储以该字符为首字的词条的第一数组;以该字符为首字组成至少一个字符串,通过二分查找法在第一数组的所有词条中查找该字符串;当查找到该字符串对应的词条时,就将该字符串作为待确定分词。
例如,待处理的源语句为:
“团体人身意外伤害保险实惠计划
意外伤害:指遭受外来的、突发的、非本意的、非疾病的使身体受到伤害的客观事件。”
通过识别其中的非中文字符得到待分词语句为:
“团体人身意外伤害保险实惠计划意外伤害指遭受外来的突发的非本意的非疾病的使身体伤害的客观事件”
然后,以待分词语句中的第一个字符“团”为例,查找词典中存储以“团”为首字的词条的第一数组,查到后再以二分查找法从第一数组中查找是否存在“团”或“团体”这样的词条,经查找,发现第一数组中存在词条“团体”,则将字符串“团体”作为一个待确定分词。对其他每个字符都执行上述查找过程,直到最后一个字符为止,得到初次切分后的多个待确定分词。
根据本发明的又一种实施方式,若在第一数组中存在仅包括该字符的词条,则判断该字符为整词(一般将单个字符可以自己成词的字成为整词),然后将该字符作为一个待确定分词。
经步骤S220处理后,上面的待处理源语句可以得到如下待确定分词:
“团体,人身,意外,外伤,伤害,保险,实惠,计划,意外,外伤,伤害,指,遭受,外来,的,突发,的,非,本意,的,非,疾病,的,使,身体,伤害,的,客观,事件”
从存储每个待确定分词的第二数组中获取其对应的标识位,随后在步骤S230中,根据每个待确定分词对应的标识位对该待确定分词设置分词权重。
根据一种实现方式,若待确定分词对应的标识位指示该待确定分词属于专业词汇,则对其设置第一分词权重;若待确定分词对应的标识位指示该待确定分词不属于专业词汇,则对其设置第二分词权重,并且,第一分词权重小于第二分词权重。可选地,第一分词权重设为0.5,第二分词权重设为1。
随后在步骤S240中,根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果。
根据一种实现方式,采用最短路径切词算法进行切词。根据本发明的一个实施例,构造切分路径的执行过程具体描述为:
1)以待分词语句中每个字符作为节点,其中以待分词语句的第一个字符为起始节点、最后一个字符为终止节点。
2)根据步骤S230得到的多个待确定分词依序构造出起始节点与终止节点之间的多条切分路径。
3)结合每个待确定分词的分词权重计算每条切分路径的长度,切分路径的长度通过统计该路径中切分出的每个词对应的边的计分得出。
若不考虑分词权重,那么,每个词对应的边计1分,但如果一个字更倾向于与其他字组成词(即,包含了不成词语素),那么,该字对应的边另计1分(即,计2分),例如,“民”,“实”。在此基础上,若某个词对应的边计为x分,对应的分词权重为y,则加入分词权重的考量后,其对应的边的计分为:x*y。
4)选取出长度最短的一条切分路径作为分词结果。
设,待分词语句为:江西吉安一槽罐车三氯甲烷泄漏事故。
以每个字符为节点,构造出起始节点“江”与终止节点“故”之间的多条切分路径为:
①江西/吉安/一/槽罐车/三/氯/甲/烷/泄漏/事故
②江西/吉安/一/槽罐车/三/氯/甲烷/泄漏/事故
③江西/吉安/一/槽罐车/三氯甲烷/泄漏/事故
其中,甲烷和三氯甲烷属于专业词汇,对应第一分词权重(如,0.5),其他词对应第二分词权重(如,1)。
这三条切分路径对应的长度分别为:
①1+1+1+1+1+2+1+2+1+1=12;
②1+1+1+1+1+2+1*0.5+1+1=9.5;
③1+1+1+1+1*0.5+1+1=6.5。
综上,选取长度最短的第③条切分路径对应的切分结果作为分词结果。
根据本发明的基于专业词汇的中文分词方案,通过在构建词典时加入指示词条是否为专业词汇的标识位,而后在分词时,可以为判定是专业词汇的待确定分词设置一个较小的分词权重,根据分词权重和切分路径计算切分路径的长度,进而选取最短路径作为分词结果。通过引入这种计分机制,解决了可能出现的路径选择问题,保证了分词结果的准确性,不但能够较好地解决交叉歧义,还对专业领域内的专业词汇有较高的识别率,将该技术应用到不同的行业中能取得较高的分词正确率。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种基于专业词汇的中文分词方法,所述方法适于在计算设备中执行,所述方法包括步骤:
通过逐条读入词条来构造具有预定结构的词典,其中所述词典中将首字相同的词条按照Unicode码升序排列,并建立多个第一数组用于存储首字相同的词条,且在每个第一数组中建立至少一个第二数组,用于存储词条内容及标识位,所述标识位用于标识所述词条是否属于专业词汇;
利用二分查找法在所述词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词;
根据每个待确定分词对应的标识位对该待确定分词设置分词权重;以及
根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果。
2.如权利要求1所述的方法,其中,所述根据每个待确定分词对应的标识位对该待确定分词设置分词权重的步骤包括:
若待确定分词对应的标识位指示该待确定分词属于专业词汇,则对其设置第一分词权重;
若待确定分词对应的标识位指示该待确定分词不属于专业词汇,则对其设置第二分词权重,
其中,所述第一分词权重小于第二分词权重。
3.如权利要求1或2所述的方法,其中,所述根据多个待确定分词及其分词权重构造切分路径并选取最短路径作为分词结果的步骤包括:
以待分词语句中每个字符作为节点,其中待分词语句的第一个字符为起始节点、最后一个字符为终止节点;
根据待确定分词依序构造出起始节点与终止节点之间的多条切分路径;
结合每个待确定分词的分词权重计算每条切分路径的长度;以及
选取长度最短的一条切分路径作为分词结果。
4.如权利要求1-3中任一项所述的方法,其中,所述通过逐条读入词条来构造具有预定结构的词典的步骤包括:
建立输入流来依次读入词条;
判断是否存在用于存储以该词条首字为首字的词条的第一数组;
若不存在所述第一数组,则根据所读入的词条的首字创建用于存储以所述首字为首字的所有词条的第一数组;
在所述第一数组中建立第二数组来存储所述词条内容;
判断所述词条是否属于专业词汇,若是专业词汇,则对其标识位赋予第一数值;以及
若不是专业词汇,则对其标识位赋予第二数值。
5.如权利要去1-4中任一项所述的方法,其中,所述利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词的步骤之前,还包括步骤:
识别待处理的源语句中的非中文字符;以及
从待处理的源语句中剔除识别出的非中文字符,得到待分词语句。
6.如权利要求5所述的方法,其中,所述非中文字符包括标点符号、数字字符、英文字符、忽略动作的非可见字符。
7.如权利要求1-6中任一项所述的方法,其中,所述利用二分查找法在词典中查找待分词语句中的一个或多个字符串,得到初次切分后的多个待确定分词的步骤包括:
对于待分词语句中的每个字符:
根据该字符的Unicode码,查找存储以该字符为首字的词条的第一数组;
以该字符为首字组成至少一个字符串,通过二分查找法在所述第一数组的所有词条中查找该字符串;以及
当查找到该字符串对应的词条时,将该字符串作为待确定分词。
8.如权利要求7所述的方法,其中,所述以该字符为首字组成至少一个字符串,通过二分查找法在第一数组的所有词条中查找该字符串的步骤还包括:
若在第一数组中存在仅包括该字符的词条,则判断该字符为整词;以及
将该字符作为一个待确定分词。
9.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-8所述的方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810050618.7A CN108170682B (zh) | 2018-01-18 | 2018-01-18 | 一种基于专业词汇的中文分词方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810050618.7A CN108170682B (zh) | 2018-01-18 | 2018-01-18 | 一种基于专业词汇的中文分词方法及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108170682A true CN108170682A (zh) | 2018-06-15 |
CN108170682B CN108170682B (zh) | 2021-09-07 |
Family
ID=62515230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810050618.7A Expired - Fee Related CN108170682B (zh) | 2018-01-18 | 2018-01-18 | 一种基于专业词汇的中文分词方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170682B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522740A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及*** |
CN110825608A (zh) * | 2018-08-08 | 2020-02-21 | 北京京东尚科信息技术有限公司 | 关键语义测试方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
CN103838794A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种适用于专业搜索引擎的分词方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及*** |
-
2018
- 2018-01-18 CN CN201810050618.7A patent/CN108170682B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6879951B1 (en) * | 1999-07-29 | 2005-04-12 | Matsushita Electric Industrial Co., Ltd. | Chinese word segmentation apparatus |
CN103838794A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种适用于专业搜索引擎的分词方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及*** |
Non-Patent Citations (1)
Title |
---|
张华平等: ""基于N-最短路径方法的中文词语粗分模型"", 《中文信息学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825608A (zh) * | 2018-08-08 | 2020-02-21 | 北京京东尚科信息技术有限公司 | 关键语义测试方法、装置、存储介质及电子设备 |
CN109522740A (zh) * | 2018-10-16 | 2019-03-26 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及*** |
CN109522740B (zh) * | 2018-10-16 | 2021-04-20 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN108170682B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US10706230B2 (en) | System and method for inputting text into electronic devices | |
CN106202382B (zh) | 链接实体方法和*** | |
US10460029B2 (en) | Reply information recommendation method and apparatus | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
US8335787B2 (en) | Topic word generation method and system | |
CN111626048A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN105468719B (zh) | 一种查询纠错方法、装置和计算设备 | |
US20110282858A1 (en) | Hierarchical Content Classification Into Deep Taxonomies | |
CN109033244B (zh) | 搜索结果排序方法和装置 | |
CN110377882B (zh) | 用于确定文本的拼音的方法、装置、***和存储介质 | |
US20150199609A1 (en) | Self-learning system for determining the sentiment conveyed by an input text | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN107220384A (zh) | 一种基于相关性的搜索词处理方法、装置及计算设备 | |
CN105814556A (zh) | 语境敏感的输入工具 | |
CN108170682A (zh) | 一种基于专业词汇的中文分词方法及计算设备 | |
CN111046627B (zh) | 一种中文文字显示方法及*** | |
CN114462401A (zh) | 一种针对领域的新词发现方法及计算设备 | |
CN107679122B (zh) | 一种模糊搜索方法及终端 | |
CN111198936A (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
JP7054731B2 (ja) | 対話システム | |
CN115035890B (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN111159526B (zh) | 查询语句处理方法、装置、设备及存储介质 | |
KR20210065750A (ko) | 검색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210907 |