CN109145284A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN109145284A
CN109145284A CN201710464769.2A CN201710464769A CN109145284A CN 109145284 A CN109145284 A CN 109145284A CN 201710464769 A CN201710464769 A CN 201710464769A CN 109145284 A CN109145284 A CN 109145284A
Authority
CN
China
Prior art keywords
text
information
urtext
identified
feature set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710464769.2A
Other languages
English (en)
Inventor
李大霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710464769.2A priority Critical patent/CN109145284A/zh
Publication of CN109145284A publication Critical patent/CN109145284A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息处理方法和装置。其中,该方法包括:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合,得到结果文本。本发明解决了现有技术中识别文本广告的方法识别功能弱的技术问题。

Description

信息处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种信息处理方法和装置。
背景技术
文本广告是基于文本的形式进行广告。文本广告通常出现在热门新闻的评论中,或即时通信软件的聊天群中,出现的形式通常为产品名称及联系方式,例如:xxx增高产品,需要请加vx2516372819,为了拦截这些文本广告,现有技术的做法通常为采用正则表达式的方式,若文本中包含一定位数的数字、字母数字,或者以1开头的11位数字以及前后包含“加”、“vx”、“qq”等提示词,则认为是广告;否则认为是正常信息。
但正则表达式识别只能识别包含一定位数的数字或者字母数字组合或者以1开头的11位数字以及前后包含“加”、“vx”、“qq”等提示词的广告,识别模式单一,对于变异的文本广告,诸如:“家薇”(谐音:“加微”信)、“味辛”(谐音“微信”)这种变异形式,无法进行穷举,难以达到识别的目的。
因此,目前现有技术所使用的识别文本广告的方式手段单一、无法对抗变异的文本广告、且识别范围小等问题,从而不能有效净化内容化的平台环境,严重影响用户的信息安全。
针对现有技术中识别文本广告的方法识别功能弱的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种信息处理方法和装置,以至少解决现有技术中识别文本广告的方法识别功能弱的技术问题。
根据本发明实施例的一个方面,提供了一种信息处理方法,包括:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合,得到结果文本。
根据本发明实施例的另一方面,还提供了一种信息处理装置,包括:识别模块,用于对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;获取模块,用于对号码特征集合与字母特征集合进行组合,得到结果文本。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的信息处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的信息处理方法。
根据本发明实施例的另一方面,还提供了一种***,包括:处理器;以及存储器,与处理器连接,用于为处理器提供执行以下处理过程的指令:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合。
在本发明实施例中,本申请上述实施例对原始文本进行识别,确定号码特征结合和字母特征集合,再根据号码特征集合以及字母特征集合进行组合,得到结果文本。由于垃圾信息通常会通过变异等方式避开正则表达式所规定的逻辑公式,因此不能被现有技术中的垃圾信息识别方法所识别,而本申请并不使用正则表达式对原始文本进行直接识别,而是生成原始申请文本对应的结果文本,由于结果文本由原始文本的号码特征集合和字母特征集合构成,因此即使对垃圾信息进行了变异处理,但垃圾信息的特征仍然会通过号码特征集合或字母特征集合体现在结果文本中,从而被识别出来。
由此,本申请上述方案解决了现有技术中识别文本广告的方法识别功能弱的技术问题,达到了识别对变异后的垃圾信息的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本申请实施例1的一种信息处理方法的流程图;
图2是根据本申请实施例2的一种用于实现信息处理方法的计算机终端(或移动设备)的硬件结构框图
图3是根据本申请实施例2的一种信息处理方法的流程图;
图4是根据本申请实施例3的一种信息处理装置的示意图;
图5是根据本申请实施例4的一种***的示意图;以及
图6是根据本申请实施例5的一种信息处理方法的流程图;
图7是根据本申请实施例6的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
正则表达式:正则表达式是对字符串操作的一种逻辑公式,用事先定义好的一些特定字符、及特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,通常被用于来检索、替换符合某个模式(规则)的文本。
变异的文本广告:对文本广告中的文字或数字进行变异,以躲避广告拦截,例如:“xxx增高产品,需要请加vx2516372819”在进行变异后,得到“xxx增高产品,需要请加维+心二五一六三七二八一九”。
实施例1
文本广告通常出现于热门论坛、热门微博的评论中,或及时聊天软件的聊天群中,为用户带来诸多不便,为了屏蔽文本广告,现有技术通常使用正则表达式的方式,将具有固定模式的文本进行拦截,现有的文本广告为了躲避信息的拦截,对信息进行了变异,将信息变异成为正则表达式无法识别,但用户可以识别的形式,仍然影响了用户的体验。
为了解决对变异的文本广告的识别问题,本申请提供了相应的解决方案,具体如图1所示:
步骤S11,输入原始文本。
具体的,上述原始文本可以是通过应用程序中的评论功能,发布新鲜事等功能使用户能够直接看到的文本。
在一种可选的实施例中,以微博为例,可以将热门微博中的每一条评论分别作为原始文本进行文本广告的识别。
步骤S12,对原始文本进行预处理。
在上述步骤中,对原始文本进行预处理的方式可以为如下的一种或多种:
(1)将所述原始文本中出现的大写字母转化为对应的小写字母。
例如:原始文本为“有意者,請加WEi54&三器*#742”,经过大写字母转小写字母的预处理后,得到“有意者,請加wei54&三器*#742”。
(2)将所述原始文本中出现的繁体字转化为对应的简体字。
例如:原始文本为“有意者,請加wei54&三器*#742”,经过繁体字转简体字的预处理后,得到“有意者,请加wei54&三器*#742”。
(3)将所述原始文本中出现的表征数字含义的字符中分离出对应的数字。
例如:仍原始文本为“有意者,请加wei54&三器*#742”,将“三器”转换为字母“sanqi”,再通过字母所表征的拼音含义,影射为对应的数字,得到“37”。
(4)将所述原始文本中出现的一种或多种预设类型字符替换为统一的特定类型字符。
例如:原始文本为“有意者,请加wei54&37*#742”经过将一种或多种预设类型字符替换为统一的特定类型字符的预处理后,得到“有意者,请加wei54 37 742”。在该示例中,“&”、“*”、“#”为预设类型的字符,将“&”、“*”、“#”替换为空格字符,也可以将“&”、“*”、“#”替换为空字符,即删除了“&”、“*”、“#”,得到“有意者,请加wei5437742”。
(5)从所述原始文本中出现的图片中提取所述图片包含的内容,其中,所述内容包括以下至少之一:字母、文字、数字。
例如:对原始文本中出现的图片进行文字识别,识别出图片中的字母、文字和数字。
此处需要说明的是,上述几种预处理的方式可以是同时进行的,也可以是按照设定的顺序依次进行的,得到的结果是经过上述四种预处理方式进行处理后的结果。
步骤S13,获取号码特征集合。
具体的,号码特征集合包含于联系方式关联的标识信息,例如:微信号、电话号或QQ号等。可以对预处理后的文本按照联系方式的类别标识确定对应的字符串的长度范围,并通过类别标识和确定的长度范围从预处理后的文本中识别出号码,并将号码的信息标识加入至号码特征集合,号码的信息标识可以是qqNum、vxNum、telNum等,用于表征QQ号、微信号、电话号以及其他联系方式的号码。
在一种可选的实施例中,首先确定手机号码的字符串长度为11位,QQ号的字符串长度为9位或10位,微信号的字符串范围为6至10位,以“有意者,请加微5437742”为例,识别出该待识别文本中包含7位数字“5437742”,属于微信号对应的字符串的长度范围,因此将号码的信息标识“vxNum”加入号码特征集合中。
步骤S14,获取字母特征集合。
具体的,字母特征集合包含原始文本中出现的文字对应的字母组合。获取字母特征集合可以是如下任意一种或多种:将所述待识别的文本中出现的文字转化为对应的拼音,并将由文字转化得到的拼音加入至字母特征集合;将待识别的文本中出现的英文信息加入至字母特征集合;将待识别的文本中出现的字母信息加入至字母特征集合。
例如,待识别的文本为“有意者,请加wei5437742”,转换为拼音后为“you yi zhe,qing jia wei 5437741”。
步骤S15,汉字化号码识别。
为了防止被拦截,文本广告常用的变异形式为将数据采用同音的汉字表示,例如:将“有意者,请加wei54&37*#742”表示为“有意者,请加wei54&三器*#742”,为了对抗该种变异方式,在获取到字母特征集合之后,还需要确定字母特征集合中是否存在与多个数字读音相同的字母组合,如果存在,则将确定的字母组合转化为对应的数字集合,再通过获取号码特征集的方式,将由字母转化为数字的号码的信息标识加入号码特征集合。
在一种可选的实施例中,以待识别文本为“有意者,请加wei54&三器*#742”为例,将待识别文本转换为字母组合,得到“you yi zhe qing jia wei wu si san qi qi sier”,其中,“yi”和“wu si san qi qi si er”这两部分字母与数字的读音相同。但“yi”对应的数字为“1”,不属于联系方式对应的字符串的长度范围,因此不将“1”加入号码特征集合;“wu si san qi qi si er”对应的数字为“5437742”,属于联系方式中微信号对应的字符串长度的范围,因此将“5437742”对应的信息标识“vxNum”加入号码特征集合。
步骤S16,输出预测分值。
具体的,可以将号码特征集合和字母特征集合进行组合,即按照原始文本的输入顺序对获取到的号码特征集合和字母特征集合进行组合,得到原始文本对应的结果文本,将结果文本输入预设的评估模型,由评估模型输出该原始文本对应的预测分值,其中,该预测分值用于表征原始文本对应不同评估类型的概率值。
在一种可选的实施例中,以评估类型包括A:包含联系方式的广告文本、B:不包含联系方式的广告文本以及C:正常文本为例,预设评估模型检测结果文本中是否包括号码特征,同时,检测结果文本中的字母特征集合中是否包括预设的字母,根据两项检测结果得到三种评估类型的分值。以结果文本“you yi zhe qing jia WEi5437742”为例,该结果文本中包含号码特征,且检测结果的权重值w1=0.7,字母特征集合中仅包含一个预设字母“jiawei”,该项得分为0.3,该项检测结果的权重值w2=0.3。
由此,该结果文本的评估类型为A的概率为1*0.7+0.3*0.3=0.79。由于评估类型B表征包含联系方式的广告文本,而已经确定该结果文本中包含联系方式,因此,该结果文本的评估类型为B的概率为0。对于评估类型C,当结果文本中不包括号码特征时得1分,且权重为0.7,因此该结果文本的此项得分为0,检测结果文本中的字母特征集合中仅包含一个预设的字母,得分为0.7,且权重为0.3,因此,该结果文本的评估类型为C的概率为0*0.7+0.7*0.3=0.21。
在一种可选的实施例中,预设的评估类型可以包括:得到其对应于A评估类型的概率值为0.79,对应于B评估类型的概率值为0,对应于C类型的概率值为0.21,设置阈值为0.5,根据该文本的预测分值和预设的阈值可知,该文本的评估类型为A类型,即包含联系方式的广告文本。在确定原始文本的评估类型后,如果原始文本的评估类型为A类或B类,则确定原始文本中包含垃圾信息,对原始文本进行拦截。
在另一种可选的实施例中,仍设置阈值为0.5,但原始文本对应于A评估类型的概率值为0.4,对应于B评估类型的概率值为0.35,对应于C评估类型的概率值为0.25,由于该原始文本对应于三个评估类型的概率值均小于阈值0.5,因此并不能确定该原始文本是否包含垃圾信息,则不对该原始文本做拦截处理。
在又一种可选的实施例中,设置阈值为0.4,但原始文本对应于A评估类型的概率值为0.1,对应于B评估类型的概率值为0.42,对应于C评估类型的概率值为0.48,B评估类型和C评估类型的概率值都大于阈值0.4,在该种情况下,选择概率值最大的评估类型作为原始文本的类型,即C评估类型,因此确定该原始文本中不包含垃圾信息,不对该原始文本做拦截处理。
此处需要说明是,本申请上述实施例对原始文本进行识别,确定号码特征结合和字母特征集合,再根据号码特征集合以及字母特征集合进行组合,并根据组合的结果对原始文本中是否包含预定类型信息进行评估。由于垃圾信息通常会通过变异等方式避开正则表达式所规定的逻辑公式,因此不能被现有技术中的垃圾信息识别方法所识别,而本申请并不使用正则表达式对原始文本进行直接识别,而是对原始申请文本对应的结果文本进行识别,由于结果文本由原始文本的号码特征集合和字母特征集合构成,因此即使对垃圾信息进行了变异处理,但垃圾信息的特征仍然会通过号码特征集合或字母特征集合体现在结果文本中,从而被识别出来。
由此,本申请上述方案解决了现有技术中识别文本广告的方法识别功能弱的技术问题,达到了识别对变异后的垃圾信息的技术效果。
实施例2
根据本发明实施例,还提供了一种信息处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图2示出了一种用于实现信息处理方法的计算机终端(或移动设备)的硬件结构框图。如图2所示,计算机终端20(或移动设备20)可以包括一个或多个(图中采用202a、202b,……,202n来示出)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输模块206。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端20还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
应当注意到的是上述一个或多个处理器202和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端20(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器204可用于存储应用软件的软件程序以及模块,如本发明实施例中的信息处理方法对应的程序指令/数据存储装置,处理器202通过运行存储在存储器204内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器204可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器202远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端20的通信供应商提供的无线网络。在一个实例中,传输装置206包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置206可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图2所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图2仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图3所示的信息处理方法。图3是根据本发明实施例2的一种信息处理方法的流程图。结合图3所示,该方法包括:
步骤S31,对原始文本进行识别,获取号码特征集合与字母特征集合,其中,所述号码特征集合包含与联系方式关联的标识信息,所述字母特征集合包含所述原始文本中出现的文字对应的字母组合。具体的,上述原始文本可以是通过应用程序中的评论功能,发布新鲜事等功能使用户能够直看到的文本。上述与联系方式关联的标识信息可以是联系方式的号码,例如:微信号、QQ号,电话号码、手机号码等。
作为一种可选的实施例,为了获取原始文本的好么特征集合和字母特征集合,需要对所述原始文本进行预处理,得到待识别的文本。其中,对所述原始文本进行预处理包括以下至少之一:将所述原始文本中出现的大写字母转化为对应的小写字母;将所述原始文本中出现的繁体字转化为对应的简体字;将所述原始文本中出现的表征数字含义的字符中分离出对应的数字;将所述原始文本中出现的一种或多种预设类型字符替换为统一的特定类型字符;从所述原始文本中出现的图片中提取所述图片包含的内容,其中,所述内容包括以下至少之一:字母、文字、数字。
在上述实施例中,在得到经过预处理的待识别文本后,从待识别的文本中识别出所述号码特征集合可以包括:按照联系方式的类别标识确定对应的字符串的长度范围;通过所述类别标识和确定的长度范围从所述待识别的文本中识别出号码,并将所述号码的信息标识加入至所述号码特征集合。具体的,联系方式的类别具有对应的字符串的长度范围,例如:如果联系方式为电话号码,则对应的字符串长度为11位,如果联系方式为QQ号码,则对应的字符串长度范围为8位至10位,如果联系方式为微信号码,则对应的字符串长度为6位至10位。上述联系方式仅用于示例,其他能够用于通信的联系方式即其对应的字符串长度均可以应用于上述实施例。
在上述实施例中,从所述待识别的文本中识别出所述字母特征集合包括以下至少之一:将所述待识别的文本中出现的文字转化为对应字母,并将由文字转化得到的字母组合加入至所述字母特征集合;将所述待识别的文本中出现的英文信息加入至所述字母特征集合;将所述待识别的文本中出现的字母信息加入至所述字母特征集合。
由于存在将联系号码通过汉字或通过字母的形式显示的文本,因此在获取字母特征集合之后,确定所述字母特征集合中存在与多个数字读音相同的字母组合;将确定的字母组合转化为对应的数字集合;如果通过所述类别标识和确定的长度范围从所述数字集合识别出号码,则将所述号码的信息标识加入至所述号码特征集合。
步骤S33,对所述号码特征集合与所述字母特征集合进行组合,得到结果文本。具体的,可以将原始文本的号码特征集合和字母特征集合按照预设的规则进行组合,构成新的文本,即结果文本。具体的,对所述号码特征集合与所述字母特征集合进行组合可以是按照原始文本的输入顺序对获取到的号码特征集合和字母特征集合进行组合。
作为一种可选的实施例,在对所述号码特征集合与所述字母特征集合进行组合,得到所述结果文本之后,对所述结果文本中是否包含预设类型信息进行评估。具体的,上述预设类型信息可以为广告信息、不文明信息等信息。
作为一种可选的实施例中,可以将所述结果文本作为测试用例输入至预设评估模型,获取所述预设评估模型输出的类别信息以及与所述类别信息对应的概率值;采用所述类别信息和所述概率值评估所述结果文本中是否包含所述预设类型信息。具体的,上述预设评估模型可以用于对结果文本进行打分,得到结果文本对应的评估类型。
在上述实施例中,采用所述类别信息和所述概率值评估所述结果文本中是否包含所述预设类型信息包括:选取大于预设阈值的概率值对应的类别信息评估所述结果文本中是否包含所述预设类型信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
根据本发明实施例,还提供了一种用于实施上述信息处理方法的信息处理装置,如图4所示,该装置400包括:
识别模块402,用于对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合。
获取模块404,用于对号码特征集合与字母特征集合进行组合,得到结果文本。
此处需要说明的是,上述识别模块402和获取模块404对应于实施例1中的步骤S31至步骤S33,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端20中。
可选的,根据本申请上述实施例,识别模块402包括:
处理单元,用于对原始文本进行预处理,得到待识别的文本。
识别单元,用于从待识别的文本中识别出号码特征集合与字母特征集合。
可选的,根据本申请上述实施例,处理单元,用于将原始文本中出现的大写字母转化为对应的小写字母;或者,将原始文本中出现的繁体字转化为对应的简体字;或者,将原始文本中出现的表征数字含义的字符中分离出对应的数字;将原始文本中出现的一种或多种预设类型字符替换为统一的特定类型字符;从原始文本中出现的图片中提取图片包含的内容,其中,内容包括以下至少之一:字母、文字、数字。
可选的,根据本申请上述实施例,识别单元包括:
确定子单元,用于按照联系方式的类别标识确定对应的字符串的长度范围。
识别子单元,用于通过类别标识和确定的长度范围从待识别的文本中识别出号码,并将号码的信息标识加入至号码特征集合。
可选的,根据本申请上述实施例,识别子单元,用于将待识别的文本中出现的文字转化为对应字母,并将由文字转化得到的字母组合加入至字母特征集合;和/或,将待识别的文本中出现的英文信息加入至字母特征集合;和/或,将待识别的文本中出现的字母信息加入至字母特征集合。
可选的,根据本申请上述实施例,上述装置还包括:
确定模块,用于确定字母特征集合中存在与多个数字读音相同的字母组合。
转化模块,用于将确定的字母组合转化为对应的数字集合。
识别模块,还用于如果通过类别标识和确定的长度范围从数字集合识别出号码,则将号码的信息标识加入至号码特征集合。
可选的,根据本申请上述实施例,评估模块包括:
获取单元,用于将结果文本作为测试用例输入至预设评估模型,获取预设评估模型输出的类别信息以及与类别信息对应的概率值。
评估单元,用于采用类别信息和概率值评估结果文本中是否包含预设类型信息。
可选的,根据本申请上述实施例,评估单元,用于选取大于预设阈值的概率值对应的类别信息评估结果文本中是否包含预设类型信息。
实施例4
根据本发明实施例,还提供了一种***,如图5所示,该***包括:
处理器50;以及
存储器52,与所述处理器连接,用于为所述处理器提供执行以下处理过程的指令:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,所述号码特征集合包含与联系方式关联的标识信息,所述字母特征集合包含所述原始文本中出现的文字对应的字母组合;对所述号码特征集合与所述字母特征集合进行组合,得到结果文本。
具体的,上述处理器还可以执行如实施例1中的其他步骤,此处不再赘述。
实施例5
本发明的实施例可以提供一种信息处理方法,图6是根据本发明实施例5的一种可选的信息处理方法的流程图,结合图6所示,该方法包括如下步骤:
步骤S61,获取输入信息,其中,输入信息包括以下至少一种数据类型的数据:数字、文字、字母、图片、音频、视频数据类型。
具体的,上述输入信息可以是通过应用程序中的评论功能,发布新鲜事等功能使用户能够直接看到的数字、文字、字母或图片,也可以是***在网络音乐中的音频,或***在网络视频中的视频。
步骤S63,将输入信息中的数据转换为字母类型数据,得到输入信息对应的字母集合。
具体的,对于文本类型的输入信息,可以直接将其转换为拼音,将拼音作为字母类型数据,得到输入信息对应的字母集合;对于图片类型的输入信息,可以对其进行图像识别,得到图片中的数字、文字和字母,再将其中的数字和文字转换为拼音,并将数字和文字转换得到的拼音和图像识别得到的字母作为字母类型数据;对于音频类型的输入信息,可以先将音频信息进行语音识别得到文本信息,再将文本信息转化为拼音,将拼音作为字母类型数据;对于视频类型的输入信息,可以对视频中的每一帧图像按照图片类型的输入信息进行转换,得到视频信息对应的字母组合。
步骤S65,基于预设的字母样本,匹配字母集合,判断输入信息是否包含预设类型信息。具体的,上述预设类型信息可以为广告信息、不文明信息等信息。
在上述步骤中,判断输入信息是否包含预设类型信息的方式可以为将字母集合中的字母与预设的字母样本进行比对来判断。具体的,上述预设的字母样本可以根据分析大量的预设类型信息得到。
在一种可选的实施例中,以预设类型信息为广告信息为例,预设的字母样本中包含通过经验获取的多种广告信息对应的字母集合,在输入信息为“有意者,请加wei5437742”的情况下,将其转换为“you yi zhe,qing jia wei wu si san qi qi sier”,将“you yi zhe,qing jia wei wu si san qi qi si er”与预设样本库中的字母集合进行匹配,得到匹配成功的字母集合为“jiawe”以及“wu si san qi qi si er”,因此判断输入信息“有意者,请加wei5437742”为广告信息。
作为一种可选的实施例,字母数据类型包括拼音,字母样本包括拼音样本。具体的,拼音样本可以用于表征具有实际意义的字、词汇对应的拼音以及拼音组合。
作为一种可选的实施例,将输入信息中的数据转换为字母类型数据,得到输入信息对应的字母集合包括以下至少之一:
将输入信息中的出现的数字转化为对应拼音,并将由文字转化得到的拼音加入至字母集合。以“有意者,请加wei5437742”为例,经过上述转换后得到“有意者,请加wei wusi san qi qi si er”。
将输入信息中的出现的文字转化为对应拼音,并将由文字转化得到的拼音加入至字母集合。以“有意者,请加wei wu si san qi qi si er”为例,经过上述转换后得到“youyi zhe,qing jia wei wu si san qi qi si er”。
将从输入信息中的出现的图片信息中提取到的内容转化为对应拼音,并将由内容转化得到的拼音加入至字母集合,其中,内容包括以下至少之一:字母、文字、数字。
将从输入信息中的出现的音频信息中提取到的内容转化为对应拼音,并将由内容转化得到的拼音加入至字母集合,其中,内容包括以下至少之一:字母、文字、数字。具体的,音频信息中提取的内容通常为语音信息,在上述步骤中,将语音信息转换为对应的拼音,并将语音信息转换的拼音加入至字母组合,从而能够与预设的字母样本进行匹配,进而对音频信息是否为预设类型信息进行判断。
将从输入信息中的出现的视频信息中提取到的内容转化为对应拼音,并将由内容转化得到的拼音加入至字母集合,其中,内容包括以下至少之一:字母、文字、数字。在上述步骤中,可以对视频信息中的每一帧图像进行处理,提取每一帧图像中的内容,并转化为对应拼音,并将视频信息转换的拼音加入至字母组合,从而能够与预设的字母样本进行匹配,进而对视频信息是否为预设类型信息进行判断。
实施例6
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的信息处理方法中以下步骤的程序代码:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合,得到结果文本。
可选地,图7是根据本发明实施例的一种计算机终端的结构框图。如图7所示,该计算机终端70可以包括:一个或多个(图中仅示出一个)处理器72、存储器74、以及外设接口76。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的信息处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合,得到结果文本。
可选的,上述处理器还可以执行如下步骤的程序代码:对原始文本进行预处理,得到待识别的文本;从待识别的文本中识别出号码特征集合与字母特征集合。
可选的,上述处理器还可以执行如下步骤的程序代码:将原始文本中出现的大写字母转化为对应的小写字母;将原始文本中出现的繁体字转化为对应的简体字;将原始文本中出现的表征数字含义的字符中分离出对应的数字;将原始文本中出现的一种或多种预设类型字符替换为统一的特定类型字符;从原始文本中出现的图片中提取图片包含的内容,其中,内容包括以下至少之一:字母、文字、数字。
可选的,上述处理器还可以执行如下步骤的程序代码:按照联系方式的类别标识确定对应的字符串的长度范围;通过类别标识和确定的长度范围从待识别的文本中识别出号码,并将号码的信息标识加入至号码特征集合。
可选的,上述处理器还可以执行如下步骤的程序代码:将待识别的文本中出现的文字转化为对应字母,并将由文字转化得到的字母组合加入至字母特征集合;将待识别的文本中出现的英文信息加入至字母特征集合;将待识别的文本中出现的字母信息加入至字母特征集合。
可选的,上述处理器还可以执行如下步骤的程序代码:确定字母特征集合中存在与多个数字读音相同的字母组合;将确定的字母组合转化为对应的数字集合;如果通过类别标识和确定的长度范围从数字集合识别出号码,则将号码的信息标识加入至号码特征集合。
可选的,上述处理器还可以执行如下步骤的程序代码:对结果文本中是否包含预设类型信息进行评估。
可选的,上述处理器还可以执行如下步骤的程序代码:将结果文本作为测试用例输入至预设评估模型,获取预设评估模型输出的类别信息以及与类别信息对应的概率值;采用类别信息和概率值评估结果文本中是否包含预设类型信息。
可选的,上述处理器还可以执行如下步骤的程序代码:选取大于预设阈值的概率值对应的类别信息评估结果文本中是否包含预设类型信息。
采用本发明实施例,本申请上述实施例对原始文本进行识别,确定号码特征结合和字母特征集合,再根据号码特征集合以及字母特征集合进行组合,并根据组合的结果对原始文本中是否包含预定类型信息进行评估。以垃圾信息为例,由于垃圾信息通常会通过变异等方式避开正则表达式所规定的逻辑公式,因此不能被现有技术中的垃圾信息识别方法所识别,而本申请并不使用正则表达式对原始文本进行直接识别,而是对原始申请文本对应的结果文本进行识别,由于结果文本由原始文本的号码特征集合和字母特征集合构成,因此即使对垃圾信息进行了变异处理,但垃圾信息的特征仍然会通过号码特征集合或字母特征集合体现在结果文本中,从而被识别出来。
由此,本申请上述方案解决了现有技术中识别文本广告的方法识别功能弱的技术问题,达到了识别对变异后的垃圾信息的技术效果。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端70还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例7
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的信息处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对原始文本进行识别,获取号码特征集合与字母特征集合,其中,号码特征集合包含与联系方式关联的标识信息,字母特征集合包含原始文本中出现的文字对应的字母组合;对号码特征集合与字母特征集合进行组合,得到结果文本。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种信息处理方法,其特征在于,包括:
对原始文本进行识别,获取号码特征集合与字母特征集合,其中,所述号码特征集合包含与联系方式关联的标识信息,所述字母特征集合包含所述原始文本中出现的文字对应的字母组合;
对所述号码特征集合与所述字母特征集合进行组合,得到结果文本。
2.根据权利要求1所述的方法,其特征在于,对所述原始文本进行识别,获取所述号码特征集合与所述字母特征集合包括:
对所述原始文本进行预处理,得到待识别的文本;
从所述待识别的文本中识别出所述号码特征集合与所述字母特征集合。
3.根据权利要求2所述的方法,其特征在于,对所述原始文本进行预处理包括以下至少之一:
将所述原始文本中出现的大写字母转化为对应的小写字母;
将所述原始文本中出现的繁体字转化为对应的简体字;
将所述原始文本中出现的表征数字含义的字符中分离出对应的数字;
将所述原始文本中出现的一种或多种预设类型字符替换为统一的特定类型字符;
从所述原始文本中出现的图片中提取所述图片包含的内容,其中,所述内容包括以下至少之一:字母、文字、数字。
4.根据权利要求2所述的方法,其特征在于,从所述待识别的文本中识别出所述号码特征集合包括:
按照联系方式的类别标识确定对应的字符串的长度范围;
通过所述类别标识和确定的长度范围从所述待识别的文本中识别出号码,并将所述号码的信息标识加入至所述号码特征集合。
5.根据权利要求4所述的方法,其特征在于,从所述待识别的文本中识别出所述字母特征集合包括以下至少之一:
将所述待识别的文本中出现的文字转化为对应字母,并将由文字转化得到的字母组合加入至所述字母特征集合;
将所述待识别的文本中出现的英文信息加入至所述字母特征集合;
将所述待识别的文本中出现的字母信息加入至所述字母特征集合。
6.根据权利要求5所述的方法,其特征在于,在从所述待识别的文本中识别出所述字母特征集合之后,还包括:
确定所述字母特征集合中存在与多个数字读音相同的字母组合;
将确定的字母组合转化为对应的数字集合;
如果通过所述类别标识和确定的长度范围从所述数字集合识别出号码,则将所述号码的信息标识加入至所述号码特征集合。
7.根据权利要求1所述的方法,其特征在于,在对所述号码特征集合与所述字母特征集合进行组合,得到所述结果文本之后,还包括:
对所述结果文本中是否包含预设类型信息进行评估。
8.根据权利要求7所述的方法,其特征在于,对所述结果文本中是否包含所述预设类型信息进行评估包括:
将所述结果文本作为测试用例输入至预设评估模型,获取所述预设评估模型输出的类别信息以及与所述类别信息对应的概率值;
采用所述类别信息和所述概率值评估所述结果文本中是否包含所述预设类型信息。
9.根据权利要求8所述的方法,其特征在于,采用所述类别信息和所述概率值评估所述结果文本中是否包含所述预设类型信息包括:
选取大于预设阈值的概率值对应的类别信息评估所述结果文本中是否包含所述预设类型信息。
10.一种信息的处理装置,其特征在于,包括:
识别模块,用于对原始文本进行识别,获取号码特征集合与字母特征集合,其中,所述号码特征集合包含与联系方式关联的标识信息,所述字母特征集合包含所述原始文本中出现的文字对应的字母组合;
获取模块,用于对所述号码特征集合与所述字母特征集合进行组合,得到结果文本。
11.一种***,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供执行以下处理过程的指令:
对原始文本进行识别,获取号码特征集合与字母特征集合,其中,所述号码特征集合包含与联系方式关联的标识信息,所述字母特征集合包含所述原始文本中出现的文字对应的字母组合;
对所述号码特征集合与所述字母特征集合进行组合,得到结果文本。
12.一种信息处理方法,其特征在于,包括:
获取输入信息,其中,所述输入信息包括以下至少一种数据类型的数据:数字、文字、字母、图片、音频、视频数据类型;
将所述输入信息中的数据转换为字母类型数据,得到所述输入信息对应的字母集合;
基于预设的字母样本,匹配所述字母集合,判断所述输入信息是否包含预设类型信息。
13.根据权利要求12所述的方法,其特征在于,所述字母类型数据包括拼音,所述字母样本包括拼音样本。
14.根据权利要求13所述的方法,其特征在于,将所述输入信息中的数据转换为字母类型数据,得到所述输入信息对应的字母集合包括以下至少之一:
将所述输入信息中的出现的数字转化为对应拼音,并将由文字转化得到的拼音加入至所述字母集合;
将所述输入信息中的出现的文字转化为对应拼音,并将由文字转化得到的拼音加入至所述字母集合;
将从所述输入信息中的出现的图片信息中提取到的内容转化为对应拼音,并将由所述内容转化得到的拼音加入至所述字母集合,其中,所述内容包括以下至少之一:字母、文字、数字;
将从所述输入信息中的出现的音频信息中提取到的内容转化为对应拼音,并将由所述内容转化得到的拼音加入至所述字母集合,其中,所述内容包括以下至少之一:字母、文字、数字;
将从所述输入信息中的出现的视频信息中提取到的内容转化为对应拼音,并将由所述内容转化得到的拼音加入至所述字母集合,其中,所述内容包括以下至少之一:字母、文字、数字。
15.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的信息处理方法或权利要求12至14中任意一项所述的信息处理方法。
16.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的信息处理方法或权利要求12至14中任意一项所述的信息处理方法。
CN201710464769.2A 2017-06-19 2017-06-19 信息处理方法和装置 Pending CN109145284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710464769.2A CN109145284A (zh) 2017-06-19 2017-06-19 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710464769.2A CN109145284A (zh) 2017-06-19 2017-06-19 信息处理方法和装置

Publications (1)

Publication Number Publication Date
CN109145284A true CN109145284A (zh) 2019-01-04

Family

ID=64804566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710464769.2A Pending CN109145284A (zh) 2017-06-19 2017-06-19 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN109145284A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457597A (zh) * 2019-08-08 2019-11-15 中科鼎富(北京)科技发展有限公司 一种广告识别方法及装置
CN112560855A (zh) * 2020-12-18 2021-03-26 平安银行股份有限公司 图像信息提取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0303312D0 (en) * 2003-02-13 2003-03-19 Brooks Robert E Advertising response system
CN102231873A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 垃圾短信监控方法、***和监控处理装置
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤***及其过滤方法
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法
CN103415004A (zh) * 2013-07-26 2013-11-27 中国联合网络通信集团有限公司 一种检测垃圾短消息的方法及装置
CN104346337A (zh) * 2013-07-24 2015-02-11 腾讯科技(深圳)有限公司 一种拦截垃圾信息的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0303312D0 (en) * 2003-02-13 2003-03-19 Brooks Robert E Advertising response system
CN102231873A (zh) * 2011-06-22 2011-11-02 中兴通讯股份有限公司 垃圾短信监控方法、***和监控处理装置
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤***及其过滤方法
CN102761872A (zh) * 2012-08-01 2012-10-31 成都四方信息技术有限公司 一种垃圾短信拦截方法
CN104346337A (zh) * 2013-07-24 2015-02-11 腾讯科技(深圳)有限公司 一种拦截垃圾信息的方法和装置
CN103415004A (zh) * 2013-07-26 2013-11-27 中国联合网络通信集团有限公司 一种检测垃圾短消息的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457597A (zh) * 2019-08-08 2019-11-15 中科鼎富(北京)科技发展有限公司 一种广告识别方法及装置
CN112560855A (zh) * 2020-12-18 2021-03-26 平安银行股份有限公司 图像信息提取方法、装置、电子设备及存储介质
CN112560855B (zh) * 2020-12-18 2022-10-14 平安银行股份有限公司 图像信息提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10210865B2 (en) Method and apparatus for inputting information
US10698933B2 (en) Method for providing chatting service with chatbot assisted by human counselor
CN108460026B (zh) 一种翻译方法及装置
KR100695392B1 (ko) 단문 메시지를 멀티미디어 메시지로 변환 및 전송하는방법과 이를 수행하는 문자 이미지 변환서버
CN109218390A (zh) 用户筛选方法及装置
US11010687B2 (en) Detecting abusive language using character N-gram features
CN107592255B (zh) 信息展示方法和设备
CN104184653B (zh) 一种消息过滤的方法和装置
CN106792250A (zh) 弹幕信息交互方法及装置
CN109635080A (zh) 应答策略生成方法及装置
CN105929980A (zh) 用于信息输入的方法和装置
WO2016203805A1 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN107832941A (zh) 订单处理方法及装置
CN114969352B (zh) 文本处理方法、***、存储介质及电子设备
CN112188232A (zh) 一种视频生成、视频展示方法及装置
CN112447073A (zh) 一种讲解视频生成、讲解视频展示方法及装置
CN112765364A (zh) 群聊会话排序方法、装置、存储介质和电子设备
CN112291423A (zh) 通信呼叫智能应答处理方法、装置、电子设备及存储介质
CN109145284A (zh) 信息处理方法和装置
CN110970030A (zh) 一种语音识别转换方法及***
KR20190134100A (ko) 채팅 서비스 제공 방법 및 장치
CN108090044A (zh) 联系方式的识别方法和装置
CN112331201A (zh) 语音的交互方法和装置、存储介质、电子装置
KR100627853B1 (ko) 단문 메시지를 멀티미디어 메시지로 변환하고 전송하는방법 및 문자 이미지 변환서버
CN112466286A (zh) 数据处理方法及装置、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104