CN111444716A - 标题分词方法、终端及计算机可读存储介质 - Google Patents
标题分词方法、终端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111444716A CN111444716A CN202010235425.6A CN202010235425A CN111444716A CN 111444716 A CN111444716 A CN 111444716A CN 202010235425 A CN202010235425 A CN 202010235425A CN 111444716 A CN111444716 A CN 111444716A
- Authority
- CN
- China
- Prior art keywords
- title
- text
- word segmentation
- user
- filtered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000002304 perfume Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种标题分词方法、终端及计算机可读存储介质,所述标题分词方法包括:获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;存储并显示所述第一分词结果。本发明可以提高用户在进行标题分词时的效率,提升用户的使用体验。
Description
技术领域
本发明涉及数据加工处理技术领域,尤其涉及一种标题分词方法、终端及计算机可读存储介质。
背景技术
目前,在电商领域,商户在对商品标题进行分词时采用的都是简单的分词软件,达不到理想的分词效果,并且商户在编辑商品名称时,因为商户有很多商品,基本上不会记得某个商品起什么名称合适,需要对商品标题进行查看,然后手动输入商品名称,商户进行标题分词时效率较低。
因此,有必要提供一种标题分词方法,以解决上述技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种标题分词方法、终端及计算机可读存储介质,旨在解决商户进行标题分词时效率较低的技术问题。
为实现上述目的,本发明提供一种标题分词方法,所述标题分词方法包括:
获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;
调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;
存储并显示所述第一分词结果。
优选地,所述获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本的步骤包括:
获取用户输入的标题文本,判断所述标题文本的类型;
若所述标题文本的类型为数字信息,则根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果;
若所述预设数据库中存在与所述标题文本对应的第二分词结果,则在用户界面显示所述第二分词结果;
所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之后,还包括:
若所述标题文本的类型为文字信息,则根据预设规则对所述标题文本进行过滤处理,生成已过滤文本。
优选地,所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之前,还包括:
获取用户输入的标题文本,判断所述标题文本的字符数是否大于预设字符数;
若所述标题文本的字符数小于或等于预设字符数,则执行:所述根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果的步骤;
若所述标题文本的字符数大于预设字符数,则执行:所述获取用户输入的标题文本,判断所述标题文本的类型的步骤。
优选地,所述获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本的步骤包括:
获取用户输入的标题文本,对所述标题文本进行文本识别,确认所述标题文本中的敏感字符;
删除所述标题文本中的所述敏感字符,生成已过滤文本。
优选地,所述删除所述标题文本中的所述敏感字符,生成已过滤文本的步骤,包括:
删除所述标题文本中的所述敏感字符,检测所述已过滤文本的语法,判断所述已过滤文本的语法是否符合预设语法规则;
若所述已过滤文本的语法不符合所述预设语法规则,则通过预设纠正算法对所述已过滤文本的语法进行纠正处理,生成已过滤文本。
优选地,所述调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果的步骤之后,包括:
将所述第一分词结果存入缓存队列中;
按照单线程顺序将所述缓存队列中的第一分词结果存入预设文本文件中。
优选地,所述存储并显示所述第一分词结果的步骤之后,包括:
获取所述第一分词结果各词组的语义;
生成与各所述词组的语义相似的近义词词组并显示。
优选地,所述存储并显示所述第一分词结果的步骤之后,包括:
将所述第一分词结果中各所述词组进行关联并组合,以生成标题简称。
本发明还提供一种终端,包括处理器、存储器、以及存储在所述存储器上的可被所述处理器执行的计算机程序,其中,所述计算机程序被所述处理器执行时,实现如上述的标题分词方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时,实现如上述的标题分词方法的步骤。
本发明技术方案中,通过获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;存储并显示所述第一分词结果。可以使用户在进行标题分词时的效率提升。
附图说明
图1为本发明实施例方案中涉及的终端的硬件结构示意图;
图2为本发明标题分词方法第一实施例的流程示意图;
图3为本发明标题分词方法第一实施例中步骤S100的流程细化示意图;
图4为本发明标题分词方法第三实施例的流程示意图;
图5为本发明标题分词方法第一实施例中步骤S100的流程细化示意图;
图6为本发明标题分词方法第四实施例中步骤S410的流程细化示意图;
图7为本发明标题分词方法第六实施例的流程示意图;
图8为本发明标题分词方法第七实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的标题分词方法主要应用于终端,该终端可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的终端结构示意图。本发明实施例中,终端可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作***、网络通信模块以及标题分词程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的标题分词程序,并执行标题分词方法的步骤:
获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;
调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;
存储并显示所述第一分词结果。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
获取用户输入的标题文本,判断所述标题文本的类型;
若所述标题文本的类型为数字信息,则根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果;
若所述预设数据库中存在与所述标题文本对应的第二分词结果,则在用户界面显示所述第二分词结果;
所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之后,还包括:
若所述标题文本的类型为文字信息,则根据预设规则对所述标题文本进行过滤处理,生成已过滤文本。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
获取用户输入的标题文本,判断所述标题文本的字符数是否大于预设字符数;
若所述标题文本的字符数小于或等于预设字符数,则执行:所述根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果的步骤;
若所述标题文本的字符数大于预设字符数,则执行:所述获取用户输入的标题文本,判断所述标题文本的类型的步骤。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
获取用户输入的标题文本,对所述标题文本进行文本识别,确认所述标题文本中的敏感字符;
删除所述标题文本中的所述敏感字符,生成已过滤文本。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
删除所述标题文本中的所述敏感字符,检测所述已过滤文本的语法,判断所述已过滤文本的语法是否符合预设语法规则;
若所述已过滤文本的语法不符合所述预设语法规则,则通过预设纠正算法对所述已过滤文本的语法进行纠正处理,生成已过滤文本。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
将所述第一分词结果存入缓存队列中;
按照单线程顺序将所述缓存队列中的第一分词结果存入预设文本文件中。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
获取所述第一分词结果各词组的语义;
生成与各所述词组的语义相似的近义词词组并显示。
进一步地,所述处理器1001可以调用所述存储器1005中存储的标题分词程序,并执行步骤:
将所述第一分词结果中各所述词组进行关联并组合,以生成标题简称。
基于上述终端的硬件结构,提出本发明标题分词方法的各个实施例。
本发明提供一种标题分词方法。
请参阅图2,在本发明第一实施例中,标题分词方法包括以下步骤:
步骤S100,获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;
在本实施例中,用户可以通过在终端上的预设的应用或者在应用中预设的小程序来实现所述标题分词方法,当用户需要进行标题分词时,可以打开应用或者小程序,并输入标题文本。该标题文本可以是描述商品信息的一句话,例如,输入的的标题文本可以为“海洋男士淡香水100ml”。
在本实施例中,对所述标题文本进行过滤处理可以是过滤标题中敏感字符或不符合预设规定的字符形式,所述敏感字符可以是特殊符号、空格和换行符等,不符合预设规定的字符形式可以是英文字母大/小写、中文字符的繁体/简体。通过对所述标题文本进行所述过滤处理,生成符合外部终端分词处理的已过滤的文本。例如:“海洋男士淡香水-100ml”,过滤处理只保留数字、中文和英文字符,生成“海洋男士淡香水100ml”。所述已过滤的文本可以是一串任何标点符号和空格都没有的文字。
步骤S110,调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;
在本实施例中,可以通过调用阿里云或者腾讯云提供的分词接口将所述已过滤文本发送至外部服务器,以通过外部服务器对所述已过滤文本进行分词得到第一分词结果,再接收分词接口发送的第一分词结果。
可选地,还可以通过调用IK分词库对所述文本信息进行分词。
步骤S120,存储并显示所述第一分词结果。
在本实施例中,所述第一分词结果为多个词组,用户可以通过用户显示界面查看所述多个词组。
优选地,用户还可以通过用户显示界面对所述词组进行点击进行组合。
在本实施例中,用户可以通过终端上的应用或者应用中的小程序输入标题文本即可得到所述第一分词结果,提升了用户对标题文本进行分词的效率。
进一步地,基于第一实施例提出第二实施例,参照图3,在本实施例中,所述步骤S100包括:
步骤S200,获取用户输入的标题文本,判断所述标题文本的类型;
步骤S210,若所述标题文本的类型为数字信息,则根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果;
步骤S220,若所述预设数据库中存在与所述标题文本对应的第二分词结果,则在用户界面显示所述第二分词结果;
步骤S230,若所述预设数据库中不存在与所述标题文本对应的第二分词结果,则生成无法查询与所述标题文本对应的第二分词结果的提示信息并显示;
在本实施例中,用户输入的标题文本类型可以为数字信息,所述数字即与商品标题对应的数字,例如:“海洋男士淡香水100ml”对应的数字为“100”,具体地,可以通过在存储器中预设数据库,所述预设数据库中存储有各商品标题以及与各商品标题对应的数字,并且所述数据库中还存储有与各商品标题对应的第二分词结果。当用户输入数字时,可以直接根据所述数字在所述预设数据库进行匹配查询,当所述预设数据库中存在与所述数字对应的第二分词结果时,则直接在用户界面显示所述第二分词结果,并且,当所述预设数据库中不存在与所述标题文本对应的第二分词结果时,生成无法查询的提示信息并显示,以提醒用户无法进行搜索。
所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之后,还包括:
步骤S240,若所述标题文本的类型为文字信息,则根据预设规则对所述标题文本进行过滤处理,生成已过滤文本。
在本实施例中,若所述标题文本的类型为文字信息,则可以判断用户输入的信息为标题文本,此时执行:所述获取用户输入的标题文本的步骤。
在本实施例中,通过判断用户输入的信息类型,当用户输入数字信息时,直接根据预设数据库查询第二分词结果,能够提高响应速度,并且能够防止用户恶意调用接口。
进一步地,基于第二实施例提出第三实施例,在本实施例中,参照图4,所述步骤S200之前,还包括:
步骤S300,获取用户输入的标题文本,判断所述标题文本的字符数是否大于预设字符数;
若所述标题文本的字符数小于或等于预设字符数,则执行步骤S210;
若所述信息的字符数大于预设字符数,则执行步骤S200。
在本实施例中,当用户输入标题文本时,可以判断所述标题文本的字符数是否大于预设字符数,所述预设字符数可以设置很小,当所述标题文本的字符数小于或等于所述预设字符数时,可以认为用户输入的标题文本为数字或者是较简单的标题文本。当用户输入数字时,可以直接根据所述数字在所述预设数据库进行匹配查询,当所述预设数据库中存在与所述数字对应的第二分词结果时,则直接在用户界面显示所述第二分词结果,并且,当所述预设数据库中不存在与所述标题文本对应的第二分词结果,或者当用户输入的信息是较简单的标题文本时,生成无法查询的提示信息并显示,以提醒用户无法进行搜索。
在本实施例中,通过判断用户输入的标题文本的字符数是否大于预设字符数,当用户输入的标题文本的字符数是否小于或等于预设字符数时,此时可以认为用户输入的标题文本为数字或者是较简单的标题文本,所述数字可以通过预设数据库进行查询并返回第二分词结果,提高响应速度,所述较简单的标题文本无法进行搜索,以防止用户输入大量简单且无需进行分词的标题本文占用服务器资源。
进一步地,基于第一实施例提出第四实施例,在本实施例中,参照图5,所述步骤S100包括:
步骤S400,获取用户输入的标题文本,对所述标题文本进行文本识别,确认所述标题文本中的敏感字符;
步骤S410,删除所述标题文本中的所述敏感字符,生成已过滤文本。
在本实施例中,可以对所述标题文本进行文本识别,确认所述标题文本中的敏感字符,所述敏感字符包括特殊符号、空格和换行符等,所述敏感字符还包括涉及政治等的不良字符,通过删除所述标题文本中的所述敏感字符,生成已过滤文本,不仅有利于进行后续调用分词接口进行分词,并且已过滤文本更加规范,提升用户的使用体验。
进一步地,基于第四实施例提出第五实施例,在本实施例中,参照图6,所述步骤S410包括:
步骤S500,删除所述标题文本中的所述敏感字符,检测所述已过滤文本的语法,判断所述已过滤文本的语法是否符合预设语法规则;
步骤S510,若所述已过滤文本的语法不符合所述预设语法规则,则通过预设纠正算法对所述已过滤文本的语法进行纠正处理,生成已过滤文本;
若所述已过滤文本的语法符合所述预设语法规则,则不做处理。
在本实施例中,所述标题文本的语法可能因为删除所述标题文本中的所述敏感字符而消除,此时通过检测所述已过滤文本的语法,判断所述已过滤文本的语法是否符合预设语法规则,例如:原来的标题文本中存在连续的英文或连续的数字(this is),通过过滤处理得到一串字母或一串数字(thisis)。此时通过预设纠正算法对所述已过滤文本的语法进行纠正,经过纠正解决了过滤导致语法错误的问题,并且用户输入的标题文本本身就可能存在语法问题,通过预设纠正算法解决了用户语法错误问题。
进一步地,基于第一实施例提出第六实施例,在本实施例中,参照图7,所述步骤S110之后,包括:
步骤S600,将所述第一分词结果存入缓存队列中;
步骤S610,按照单线程顺序将所述缓存队列中的第一分词结果存入预设文本文件中。
在本实施例中,所述预设文本文件可以是预先设置的txt文本文件,按照单线程顺序将所述缓存队列中的第一分词结果存入所述txt文本文件中,所述txt文本文件可以和IK分词器的数据库关联,本实施例中的存储方法,既可以将用户本次输入的标题文本对应的第一分词结果进行存储,又不影响所述第一份词结果的显示,做到了第一分词结果的实时显示和实时存储。
进一步地,基于第一实施例提出第七实施例,在本实施例中,参照图8,所述步骤S120之后,包括:
步骤S700,获取所述第一分词结果各词组的语义;
步骤S710,生成与各所述词组的语义相似的近义词词组并显示。
在本实施例中,在所述用户显示界面除了显示所述第一分词结果的各词组,还会对各所述词组的语义进行识别,并生成与各所述词组的语义相似的近义词词组并在所述用户界面显示,通过显示各所述词组的近义词词组,用户可以有更多选择,用户也可能通过所述近义词词组选择更适合的作为标题词组,大大提升了用户的使用体验。
进一步地,基于第一实施例提出第八实施例,在本实施例中,所述步骤S120之后,包括:
将所述第一分词结果中各所述词组进行关联并组合,以生成标题简称。
在本实施例中,所述终端除了在用户界面显示所述第一分词结果对应的各所述词组,还可以将所述词组进行关联并组合,生成标题简称。
优选地,用户还可以通过手动选择各所述词组,所述终端根据所述用户选择的各所述词组以及对应的选择顺序生成标题简称。用户在得到第一分词结果后,无需手动记录所述第一分词结果再进行组合得到标题简称,可以直接通过所述终端获取所述标题简称。
此外,本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有标题分词程序,其中,标题分词程序被处理器执行时,实现如上述的标题分词方法的步骤。
其中,标题分词程序被执行时所实现的方法可参照本发明标题分词方法的各个实施例,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种标题分词方法,其特征在于,所述标题分词方法包括:
获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本;
调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果;
存储并显示所述第一分词结果。
2.如权利要求1所述的标题分词方法,其特征在于,所述获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本的步骤包括:
获取用户输入的标题文本,判断所述标题文本的类型;
若所述标题文本的类型为数字信息,则根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果;
若所述预设数据库中存在与所述标题文本对应的第二分词结果,则在用户界面显示所述第二分词结果;
所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之后,还包括:
若所述标题文本的类型为文字信息,则根据预设规则对所述标题文本进行过滤处理,生成已过滤文本。
3.如权利要求2所述标题分词方法,其特征在于,所述获取用户输入的标题文本,判断所述标题文本的类型的步骤之前,还包括:
获取用户输入的标题文本,判断所述标题文本的字符数是否大于预设字符数;
若所述标题文本的字符数小于或等于预设字符数,则执行:所述根据预设数据库,判断所述预设数据库中是否存在与所述标题文本对应的第二分词结果的步骤;
若所述标题文本的字符数大于预设字符数,则执行:所述获取用户输入的标题文本,判断所述标题文本的类型的步骤。
4.如权利要求1所述的标题分词方法,其特征在于,所述获取用户输入的标题文本,根据预设规则对所述标题文本进行过滤处理,生成已过滤文本的步骤包括:
获取用户输入的标题文本,对所述标题文本进行文本识别,确认所述标题文本中的敏感字符;
删除所述标题文本中的所述敏感字符,生成已过滤文本。
5.如权利要求4所述的标题分词方法,其特征在于,所述删除所述标题文本中的所述敏感字符,生成已过滤文本的步骤,包括:
删除所述标题文本中的所述敏感字符,检测所述已过滤文本的语法,判断所述已过滤文本的语法是否符合预设语法规则;
若所述已过滤文本的语法不符合所述预设语法规则,则通过预设纠正算法对所述已过滤文本的语法进行纠正处理,生成已过滤文本。
6.如权利要求1中所述的标题分词方法,其特征在于,所述调用分词接口将所述已过滤文本发送至与所述分词接口对应的外部服务器,接收所述外部服务器根据所述已过滤文本生成的第一分词结果的步骤之后,包括:
将所述第一分词结果存入缓存队列中;
按照单线程顺序将所述缓存队列中的第一分词结果存入预设文本文件中。
7.如权利要求1所述的标题分词方法,其特征在于,所述存储并显示所述第一分词结果的步骤之后,包括:
获取所述第一分词结果各词组的语义;
生成与各所述词组的语义相似的近义词词组并显示。
8.如权利要求1所述的标题分词方法,其特征在于,所述存储并显示所述第一分词结果的步骤之后,包括:
将所述第一分词结果中各所述词组进行关联并组合,以生成标题简称。
9.一种终端,其特征在于,包括处理器、存储器、以及存储在所述存储器上的可被所述处理器执行的计算机程序,其中,所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的标题分词方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的标题分词方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235425.6A CN111444716A (zh) | 2020-03-30 | 2020-03-30 | 标题分词方法、终端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010235425.6A CN111444716A (zh) | 2020-03-30 | 2020-03-30 | 标题分词方法、终端及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111444716A true CN111444716A (zh) | 2020-07-24 |
Family
ID=71649299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010235425.6A Pending CN111444716A (zh) | 2020-03-30 | 2020-03-30 | 标题分词方法、终端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444716A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818110A (zh) * | 2020-12-31 | 2021-05-18 | 鹏城实验室 | 文本过滤方法、设备及计算机存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221863A1 (en) * | 2007-03-07 | 2008-09-11 | International Business Machines Corporation | Search-based word segmentation method and device for language without word boundary tag |
CN103699524A (zh) * | 2013-12-18 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 分词方法和移动终端 |
CN104462216A (zh) * | 2014-11-06 | 2015-03-25 | 上海南洋万邦软件技术有限公司 | 居委标准代码转换***及方法 |
CN105893626A (zh) * | 2016-05-10 | 2016-08-24 | 中广核工程有限公司 | 一种用于核电工程的索引库创建方法及其采用其方法的索引*** |
CN108197315A (zh) * | 2018-02-01 | 2018-06-22 | 中控技术(西安)有限公司 | 一种建立分词索引库的方法和装置 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN109840300A (zh) * | 2019-03-04 | 2019-06-04 | 深信服科技股份有限公司 | 网络舆情分析方法、装置、设备及计算机可读存储介质 |
CN109933805A (zh) * | 2019-03-26 | 2019-06-25 | 深圳Tcl数字技术有限公司 | 文本解析方法、***及计算机可读存储介质 |
CN110633352A (zh) * | 2018-06-01 | 2019-12-31 | 北京嘀嘀无限科技发展有限公司 | 一种语义检索的方法及装置 |
-
2020
- 2020-03-30 CN CN202010235425.6A patent/CN111444716A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221863A1 (en) * | 2007-03-07 | 2008-09-11 | International Business Machines Corporation | Search-based word segmentation method and device for language without word boundary tag |
CN103699524A (zh) * | 2013-12-18 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 分词方法和移动终端 |
CN104462216A (zh) * | 2014-11-06 | 2015-03-25 | 上海南洋万邦软件技术有限公司 | 居委标准代码转换***及方法 |
CN105893626A (zh) * | 2016-05-10 | 2016-08-24 | 中广核工程有限公司 | 一种用于核电工程的索引库创建方法及其采用其方法的索引*** |
CN108197315A (zh) * | 2018-02-01 | 2018-06-22 | 中控技术(西安)有限公司 | 一种建立分词索引库的方法和装置 |
CN108776653A (zh) * | 2018-05-25 | 2018-11-09 | 南京大学 | 一种基于PageRank和信息熵的裁判文书的文本分词方法 |
CN110633352A (zh) * | 2018-06-01 | 2019-12-31 | 北京嘀嘀无限科技发展有限公司 | 一种语义检索的方法及装置 |
CN109840300A (zh) * | 2019-03-04 | 2019-06-04 | 深信服科技股份有限公司 | 网络舆情分析方法、装置、设备及计算机可读存储介质 |
CN109933805A (zh) * | 2019-03-26 | 2019-06-25 | 深圳Tcl数字技术有限公司 | 文本解析方法、***及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
朱频频主编: "《智能客户服务技术与应用》", vol. 2019, 北京:中国铁道出版社, pages: 88 - 89 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818110A (zh) * | 2020-12-31 | 2021-05-18 | 鹏城实验室 | 文本过滤方法、设备及计算机存储介质 |
CN112818110B (zh) * | 2020-12-31 | 2024-05-24 | 鹏城实验室 | 文本过滤方法、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362370B (zh) | 一种网页语言的切换方法、装置及终端设备 | |
US10346484B2 (en) | Combining website characteristics in an automatically generated website | |
JP6612303B2 (ja) | ユーザコンタクトエントリのデータ設定 | |
CN106021510B (zh) | 对于由移动设备的用户启动的查询进行处理的方法和*** | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN108984650B (zh) | 计算机可读记录介质及计算机设备 | |
US9483740B1 (en) | Automated data classification | |
CN114757176B (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN101561725B (zh) | 一种手写快速输入的方法和*** | |
CN109074547B (zh) | 基于消息内容的文本消息排序 | |
CN106326233B (zh) | 地址提示方法及装置 | |
CN113254815A (zh) | 文档处理、页面处理方法及设备 | |
US20140225899A1 (en) | Method of animating sms-messages | |
CN110309217B (zh) | 数据的导入导出方法、装置、终端及计算机可读存储介质 | |
CN110134920B (zh) | 绘文字兼容显示方法、装置、终端及计算机可读存储介质 | |
CN113709681B (zh) | 展示及推送短信内容的方法及装置 | |
CN111444716A (zh) | 标题分词方法、终端及计算机可读存储介质 | |
CN112487138A (zh) | 带格式文本的信息抽取方法和装置 | |
US11334780B2 (en) | Method for generating word code, method and device for recognizing codes | |
US20180144309A1 (en) | System and Method for Determining Valid Request and Commitment Patterns in Electronic Messages | |
CN105988992B (zh) | 图标推送方法及装置 | |
CN111552527A (zh) | 用户界面内文字翻译方法、装置、***及存储介质 | |
CN105511642A (zh) | 一种输入方法及装置 | |
CN111045836B (zh) | 搜索方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200724 |