CN111476037A - 文本处理方法、装置、计算机设备和存储介质 - Google Patents

文本处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111476037A
CN111476037A CN202010289730.3A CN202010289730A CN111476037A CN 111476037 A CN111476037 A CN 111476037A CN 202010289730 A CN202010289730 A CN 202010289730A CN 111476037 A CN111476037 A CN 111476037A
Authority
CN
China
Prior art keywords
text
target
corrosion
relevant
structural element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010289730.3A
Other languages
English (en)
Other versions
CN111476037B (zh
Inventor
赵琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010289730.3A priority Critical patent/CN111476037B/zh
Publication of CN111476037A publication Critical patent/CN111476037A/zh
Application granted granted Critical
Publication of CN111476037B publication Critical patent/CN111476037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本处理方法、装置、计算机设备和存储介质,可以涉及大数据的处理,还可以基于用户画像以及处理得到的语义相关文本进行精准推荐,并可以基于人工智能模型进行精准推荐。所述方法包括:获取目标对象对应的初始相关文本;获取目标腐蚀结构元素;根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。采用本方法能够提高文本处理效率。

Description

文本处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息处理技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,互联网中的对象越来越多,在很多场景下都需要获取得到对象对应的文本,例如可以根据对象对应的文本得到对象的标签,以根据对象的标签对对象进行管理。对象例如可以是应用程序或者视频,可以根据应用程序或者视频的类别,进行对象的分类管理。
对象对应的文本数据经常包括无用的信息,目前通常是由人工对文本数据进行处理,导致文本处理效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:获取目标对象对应的初始相关文本;获取目标腐蚀结构元素;根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
一种文本处理装置,所述装置包括:初始相关文本获取模块,用于获取目标对象对应的初始相关文本;目标腐蚀结构元素获取模块,用于获取目标腐蚀结构元素;目标文本元素获取模块,用于根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;对比模块,用于将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;腐蚀模块,用于当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
在一些实施例中,所述目标文本元素获取模块包括:当前字符确定单元,用于确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为所述目标腐蚀结构元素对应的腐蚀参考点的位置;其中,在初次腐蚀时,将所述初始相关文本作为待腐蚀的相关文本,在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本;目标文本元素获取单元,用于根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为所述目标文本元素。
在一些实施例中,所述目标文本元素获取单元用于:当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素之后时,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的头部文本元素,作为所述目标文本元素。
在一些实施例中,所述目标文本元素获取单元用于:当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素之前时,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的尾部文本元素,作为所述目标文本元素。
在一些实施例中,所述目标文本元素获取单元用于:当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素内时,将所述目标腐蚀结构元素中位于所述腐蚀参考点之前的文本元素,作为第一结构文本元素,将所述目标腐蚀结构元素中位于所述腐蚀参考点之后的文本元素,作为第二结构文本元素;从所述待腐蚀的相关文本中,获取与所述第一结构文本元素的位置对应的头部文本元素,以及与所述第二结构文本元素的位置对应的尾部文本元素,将所述头部文本元素以及所述尾部文本元素作为所述目标文本元素;所述对比模块用于:将所述头部文本元素与所述第一结构文本元素进行对比,得到第一对比结果,将所述尾部文本元素与所述第二结构文本元素进行对比,得到第二对比结果;根据所述第一对比结果以及所述第二对比结果得到所述目标对比结果。
在一些实施例中,所述目标腐蚀结构元素获取模块用于:从腐蚀结构元素集合中获取目标腐蚀结构元素;所述腐蚀模块用于:当所述目标对比结果为对比一致时,对待腐蚀的相关文本进行腐蚀处理,得当前相关文本;其中,在初次腐蚀时,将所述初始相关文本作为待腐蚀的相关文本;将当前相关文本作为所述待腐蚀的相关文本,进入从腐蚀结构元素集合中获取目标腐蚀结构元素的步骤,直至当前相关文本收敛,将收敛的当前相关文本作为所述目标对象对应的语义相关文本。
在一些实施例中,确定当前相关文本收敛的模块用于:将本轮腐蚀中,利用所述腐蚀结构元素集合中的最后一个腐蚀结构元素进行腐蚀处理得到的相关文本,作为本轮腐蚀得到的相关文本;将本轮腐蚀得到的相关文本,与上一轮腐蚀得到的相关文本进行对比,当对比一致时,确定当前相关文本收敛。
在一些实施例中,所述装置还包括:相关文本集合获取模块,用于获取相关文本集合;候选结构元素集合获取模块,用于获取所述相关文本集合中的文本元素,组成候选结构元素集合;重要度获取模块,用于获取所述候选结构元素集合中,各个候选结构元素在所述相关文本集合中的重要度;筛选模块,用于根据所述候选结构元素的重要度从所述候选结构元素集合中,筛选得到满足重要度条件的候选结构元素,组成中间结构元素集合,所述中间结构元素集合用于确定所述目标腐蚀结构元素;所述重要度条件包括重要度小于第一重要度或者重要度排序低于第一排序的至少一个。
在一些实施例中,所述目标对象包括目标应用程序,所述相关文本集合获取模块用于:获取应用程序集合中各个应用程序分别对应的应用程序包名,组成相关文本集合;所述初始相关文本获取模块用于:将待确定标签的应用程序作为目标应用程序,获取所述目标应用程序对应的应用程序包名,作为所述目标应用程序对应的初始相关文本。
在一些实施例中,所述装置还包括:对象标签获取模块,用于获取所述语义相关文本对应的目标语义,根据所述目标语义得到所述目标对象的对象标签。
在一些实施例中,所述目标对象包括目标应用程序,所述目标对象对应的对象标签包括所述目标应用程序对应的程序标签,所述装置还包括:推送应用程序确定模块,用于将所述程序标签对应的应用程序,作为推送应用程序;推送模块,用于确定安装有所述目标应用程序的目标终端,将所述推送应用程序对应的程序相关信息推送至所述目标终端。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取目标对象对应的初始相关文本;获取目标腐蚀结构元素;根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取目标对象对应的初始相关文本;获取目标腐蚀结构元素;根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
上述文本处理方法、装置、计算机设备和存储介质,对于目标对象对应的初始相关文本,可以获取目标腐蚀结构元素,根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素,将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果,当目标对比结果为对比一致时,对初始相关文本进行腐蚀处理,得到目标对象对应的语义相关文本。由于腐蚀处理时,是根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素的,因此可以准确获取得到待腐蚀的文本元素。通过将与腐蚀结构元素的构成一致的文本元素去除,可以去除目标对象对应的初始相关文本中的无关文本,得到有语义价值的语义相关文本,故提高了文本处理的效率以及准确度。
附图说明
图1为一些实施例中文本处理方法的应用环境图;
图2为一些实施例中文本处理方法的流程示意图;
图3为一些实施例中应用程序推送界面的示意图;
图4为一些实施例中确定目标文本元素的原理示意图;
图5为一些实施例中文本处理方法的流程示意图;
图6为一些实施例中文本处理方法的流程示意图;
图7为一些实施例中得到腐蚀结构元素集合的腐蚀结构元素的流程示意图;
图8为一些实施例中文本处理装置的结构框图;
图9为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的方法可以涉及大数据的处理,例如本申请实施例提供的方法可以应用于对大量的应用程序的包名进行处理的应用场景中。大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。
本申请实施例提供的方法,在对目标对象对应的初始相关文本进行处理,得到语音相关文本后,可以基于处理得到的语义相关文本以及用户画像进行精准推荐。例如,当得到语义相关文本后,可以根据语义相关文本得到目标对象的对象标签,根据对象标签向用户进行对象推荐。举个实际例子,如果目标对象为应用程序,所对应的标签为游戏类,则可以向用户画像为“爱好游戏”的用户的终端推送该应用程序。
本申请实施例提供的方法,在进行精准推荐时,还可以基于人工智能模型进行推荐。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
例如,当得到语义相关文本后,可以根据语义相关文本得到目标对象的对象标签,将对象标签作为对象的特征,并将用户画像作为用户的特征,将用户的特征以及对象的特征输入到预先训练好的推荐模型中,推荐模型输出向用户推荐该对象的推荐概率,如果推荐概率大于第一概率例如0.6,则向用户对应的终端推送该对象。预先训练好的推荐模型是使用机器学习算法进行学习得到的。
又例如,当得到语义相关文本后,还可以根据语义相关文本以及词嵌入(wordembedding)模型,得到目标对象的向量化表示,并获取用户的向量化表示,计算目标对象的向量化表示与用户的向量化表示之间的向量相似度,将向量相似度大于第一相似度例如0.8的对象作为该用户的推送对象,向用户对应的终端推送该推送对象,例如,向用户对应的终端推荐应用程序。
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102中上包括目标对象,服务器104可以获取终端中各个目标对象的初始相关文本,执行本申请实施例提供的方法,得到目标对象对应的语义相关文本,服务器104可以根据语义相关文本得到目标对象的标签,根据目标对象的标签向终端102推送对象推送信息。
例如终端安装有应用程序,服务器104可以获取终端102中各个应用程序的包名,提取得到包名中有语义的语义相关文本,根据语义相关文本得到应用程序的标签,根据应用程序的标签向终端102推送程序相关信息。
其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取目标对象对应的初始相关文本。
其中,目标对象可以是任意的事物。例如可以是用户、应用程序、视频、语音或者图像中的任一种。文本是书面语言的表现形式。文本中包括语言文字,还可以包括数字或者标点符号的至少一种。语言文字是指以语言表示的文字,例如语言文字可以是英文或者中文表示的文字。目标对象对应的初始相关文本是指与目标对象相关的文本,该相关文本需要进行文本处理,因此称为初始相关文本。举个实际的例子,目标对象可以是应用程序,初始相关文本可以是应用程序的包名,例如可以为“com.aid.wzry”。其中包名是应用程序的安装包的唯一标识,例如可以是APK(Android application package,安卓应用程序包)的唯一标识。安卓***可以以包名为索引管理应用程序。在应用程序在被启动时,应用程序对应的进程的名称可以用包名表示。
在一些实施例中,服务器可以是在接收到目标对象对应的标签确定请求时,根据标签确定请求获取目标对象对应的初始相关文本。例如,标签确定请求中可以携带目标对象的名称以及目标对象对应的初始相关文本。或者,标签确定请求中可以携带需要确定标签的对象的范围,可以根据对象的范围确定该范围内的对象,作为目标对象,获取目标对象对应的初始相关文本。例如,对象的范围可以包括服务器的标识,可以将服务器的标识所对应的服务器中,存储的应用程序作为目标对象,获取应用程序的安装包的包名作为该应用程序对应的初始相关文本。也可以将终端例如手机上安装的应用程序作为目标对象,可以获取应用程序对应的进程名字,作为对应的包名。
在一些实施例中,可以是将标签缺失的对象作为目标对象。标签缺失的对象可以是指标签的数量小于或者等于第一数量的目标对象。第一数量可以根据需要设置,例如可以为1。例如,对于应用程序,应用程序的名称或者描述信息可以作为用程序的标签,因此可以获取应用程序的名称或者描述信息的至少一个,当确定应用程序的名称或者描述信息缺失时,则可以获取应用程序的包名,作为应用程序对应的初始相关文本,以利用该包名确定应用程序的标签。
步骤S204,获取目标腐蚀结构元素。
其中,文本腐蚀是指消除位于文本边缘的元素,使得文本向内部收缩的过程。文本的边缘指文本的两端。在对文本进行腐蚀时,可以腐蚀其中的一端或者对两端都进行腐蚀。
元素是文本的组成单位,可以将文本划分为元素,一个元素可以包括一个或者多个字符。文本中元素的划分可以根据需要设置,例如一个元素可以是一个单词,一个元素也可以是一个段落。结构元素是指具有结构的文本元素。对于文本,结构是指文本中字符的排布。结构元素中可以包括至少两个字符,这至少两个字符之间的排布是一定的,即字符组成的结构元素中可以看成是一个整体。例如,结构元素可以是“.com”,“.com”中,字符的排序依次为“.”、“c”、“o”、“m”。
目标腐蚀结构元素用于进行文本腐蚀,一个目标腐蚀结构元素可以包括一个或多个文本元素。“多个”是指至少两个。目标腐蚀结构元素可以是预先存储的,可以根据需要进行设置。腐蚀结构元素是语义不鲜明的文本元素,例如可以为无语义的文本元素或者通用文本元素。无语义的文本元素是指该文本元素是没有语义,例如数字“123”。通用文本元素是指该文本元素是通用的,例如在各个对象的初始相关文本中普遍出现。例如,假设目标对象为应用程序,则腐蚀结构元素可以是在各个应用程序的包名中普遍出现的结构文本元素。例如“.com”、“.android”、或者“.cn”等。
具体地,服务器中可以预先存储用于进行腐蚀的腐蚀结构元素集合,从腐蚀结构元素集合中获取目标腐蚀结构元素。
在一些实施例中,服务器可以获取文本元素的重要度,将满足重要度条件的文本元素作为目标腐蚀结构元素,重要度条件可以包括重要度小于预设重要度或者重要度排序低于预设排序的至少一个。候选结构元素的重要度例如可以用词频-逆文档频率的值表示。
步骤S206,根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素。
具体地,腐蚀参考点是指腐蚀处理时所参考的点,起到参考基准的作用。例如,腐蚀参考点可以是原点,将文本看作是在各个位置上排布的字符组成的,因此可以定义文本对应的原点。原点与目标腐蚀结构元素的相对位置关系可以根据需要定义,可以是预先设置的。例如原点的位置可以是在目标腐蚀结构元素内、在目标腐蚀结构元素之前或者在目标腐蚀结构元素之后。在目标腐蚀结构元素之前是指在目标腐蚀结构元素的第一个字符之前,在目标腐蚀结构元素之后是指在目标腐蚀结构元素的最后一个字符之后。
目标文本元素是初始相关文本中的元素,可以从待腐蚀的文本中获取目标文本元素。其中,在初次腐蚀时,将初始相关文本作为待腐蚀的相关文本,在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本。
目标文本元素是根据腐蚀参考点的位置获取的,可以确定腐蚀参考点在待腐蚀的相关文本中的位置,根据目标腐蚀结构元素与腐蚀参考点之间的相对位置关系,确定与目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素。例如,对于待腐蚀的相关文本“com.android.bankabc”,假设腐蚀参考点的位置为“android”中的字符“a”,目标腐蚀结构元素为“com.”,用“*”表示腐蚀参考点的位置,目标腐蚀结构元素与腐蚀参考点的相对位置关系表示为“com.*”,表示腐蚀参考点位于目标腐蚀结构元素之后。则可以得到待腐蚀的相关文本“com.android.bankabc”中的“com.”与目标腐蚀结构元素的位置对应,即待腐蚀的相关文本中的“com.”与目标腐蚀结构元素“com.”均在腐蚀参考点的前面。因此可以将“com.android.bankabc”中的“com.”作为目标文本元素。
在一些实施例中,目标文本元素是端部文本元素。一个文本可以具有两个端部,端部文本元素是指位于端部的文本元素,可以是头部文本元素或者尾部文本元素的至少一个。例如对于文本“com.android.bankabc”,包括端部文本元素“com.”所在的前端以及端部文本元素“.bankabc”所在的后端。
步骤S208,将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果。
具体地,目标对比结果可以是对比一致或者对比不一致。例如,如果目标腐蚀结构元素为“.com”,目标文本元素为“.cm”,则对比不一致。如果目标腐蚀结构元素为“.com”,目标文本元素为“.com”,则对比一致。
步骤S210,当目标对比结果为对比一致时,对初始相关文本进行腐蚀处理,得到目标对象对应的语义相关文本。
语义相关文本是指与语义相关的文本,语义是指所蕴含的意义。将初始相关文本看成包括语义鲜明的语义相关文本以及语义不鲜明的语义无关文本。文本腐蚀的目标是将初始相关文本中的语义无关文本去除,得到有语义的语义相关文本。例如,对于应用程序的包名“com.wzry”,在进行文本处理后,可以得到“wzry”,则“wzry”为语义相关文本表示的是一个游戏的名称。而“com.”在很多包名中都出现,且通常是作为包名的前缀或者后缀出现的,并没有特别的含义,因此“com.”为语义无关文本。可以理解,文本元素例如一个词语是语义相关文本还是语义无关文本根据应用场景可以不同。例如,当目标对象为应用程序,由于“android”是通用的词语,代表的是安卓类的应用程序,在很多程序的包名中都出现,因此可以将“android”作为语义无关元素。但在其他应用场景中,“android”可以为语义相关元素。
当目标对比结果为对比一致时,则对目标文本元素进行腐蚀,即将目标文本元素从待腐蚀的相关文本中删除。如果不一致,则不进行腐蚀。可以理解,可以是进行多次的腐蚀处理,每次腐蚀处理时,可以利用相同的目标腐蚀结构元素进行腐蚀,也可以是利用不同的目标腐蚀结构元素进行腐蚀。如果是进行多次的腐蚀处理,则将最终腐蚀得到的相关文本作为语义相关文本。
上述文本处理方法,对于目标对象对应的初始相关文本,可以获取目标腐蚀结构元素,根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素,将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果,当目标对比结果为对比一致时,对初始相关文本进行腐蚀处理,得到目标对象对应的语义相关文本。由于腐蚀处理时,是根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素的,因此可以准确获取得到待腐蚀的文本元素。通过将与腐蚀结构元素的构成一致的文本元素去除,可以去除目标对象对应的初始相关文本中的无关文本,得到有语义价值的语义相关文本,故提高了文本处理的效率以及准确度。
在一些实施例中,文本处理方法还包括:获取语义相关文本对应的目标语义,根据目标语义得到目标对象的对象标签。
具体地,对象标签用于描述对象。对象标签例如可以是对象的属性信息,例如对象的类别。当目标对象为应用程序时,目标对象对应的对象标签可以是应用程序的类别,是属于游戏类还是学习类。当目标对象为视频时,目标对象对应的对象标签可以是视频中的人物名字等。语义相关文本与目标语义之间的对应关系可以是预先设置的,也可以是对语义相关文本进行翻译,例如将语义相关文本输入到翻译模型中,翻译得到目标语义。例如,将英文的语义相关文本“baby”输入到翻译模型中,可以得到中文的目标语义“宝宝”。
举个实际的例子,如表一所示,示出了对应用程序的包名(初始相关文本)进行腐蚀后,得到语义相关文本(腐蚀结果),根据语义相关文本得到目标语义,根据目标语义得到应用程序的标签的结果的对应关系。
表一
应用程序包名 腐蚀结果 目标语义 应用程序的标签
com.android.bankabc bankabc 农业银行 银行类
com.android.baby baby 宝宝 幼儿类
com.tudou.android tudou 土豆: 视频类
在一些实施例中,目标对象包括目标应用程序,目标对象对应的对象标签包括目标应用程序对应的程序标签,文本处理方法还包括:
将程序标签对应的应用程序,作为推送应用程序;确定安装有目标应用程序的目标终端,将推送应用程序对应的程序相关信息推送至目标终端。
具体地,可以预先设置语义相关文本与程序标签的对应关系,语义相关文本与程序标签的对应关系可以是服务器对程序标签进行语义挖掘得到的,也可以是人工设置的。程序标签例如可以是娱乐、游戏或者英语等。程序标签对应的应用程序是指该应用程序具有相同的程序标签。推送应用程序对应的程序相关信息是指与推送应用程序相关的信息。例如可以是推送应用程序的下载链接、介绍或者名称的至少一个。通过将推送应用程序对应的程序相关信息推送至安装有目标应用程序的目标终端,可以提高推送的准确度,减少推送资源的浪费。例如,假设用户1的终端上安装有应用程序A,该应用程序A的标签为竞技游戏类,则可以获取竞技游戏类的应用程序,例如应用程序B以及C。如图3所示,可以将应用程序B以及C分别对应的下载链接以及名称推送至用户1的终端,当终端接收到针对应用程序B对应的“下载”控件的触控操作例如点击操作时,终端可以根据应用程序B的下载链接下载应用程序B的安装包。
在一些实施例中,步骤S206即根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素包括:确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为腐蚀参考点的位置;根据目标腐蚀结构元素与腐蚀参考点之间的相对位置关系,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素。
其中,当前字符可以是按照预设的字符确定规则确定的,字符确定规则例如可以是字符的排列顺序,当然也可以是随机的选择待腐蚀的相关文本中的字符作为当前字符。例如可以是按照待腐蚀的相关文本中,字符的排列顺序依次将待腐蚀的相关文本中的字符作为当前字符,直至待腐蚀的相关文本中的字符均作为当前字符,或者是得到目标对比结果为一致时。
例如,对于待腐蚀的文本“com.android.bankabc”,可以先将待腐蚀的文本中的第一个字符“c”所在的位置作为腐蚀参考点的位置,获取得到的目标文本元素为空,与目标腐蚀结构元素(com.)不一致,则不进行腐蚀。接着将第二个字符“o”所在的位置作为腐蚀参考点的位置,获取得到的目标文本元素为“c”,与目标腐蚀结构元素(com.)不一致,则不进行腐蚀。接着将第三个字符“m”所在的位置作为腐蚀参考点的位置,获取得到的目标文本元素为“co”,与目标腐蚀结构元素(com.)不一致,则不进行腐蚀。接着将第四个字符“.”所在的位置作为腐蚀参考点的位置,获取得到的目标文本元素为“com”,与目标腐蚀结构元素不一致,则不进行腐蚀。接着将第五个字符“a”所在的位置作为腐蚀参考点的位置,获取得到的目标文本元素为(com.),与目标腐蚀结构元素一致,则对待腐蚀的相关文本进行腐蚀。还可以停止执行确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为腐蚀参考点的位置的步骤。
相对位置关系为腐蚀参考点在目标腐蚀结构元素内、腐蚀参考点在目标腐蚀结构元素之后、或者相对位置关系为腐蚀参考点在目标腐蚀结构元素之前。例如,假设用“*”表示腐蚀参考点,目标腐蚀结构元素表示为“abc”,则目标腐蚀结构元素与腐蚀参考点的相对位置关系表示为“abc*”时,表示腐蚀参考点位于目标腐蚀结构元素之后。目标腐蚀结构元素与腐蚀参考点的相对位置关系表示为“*abc”时,表示腐蚀参考点位于目标腐蚀结构元素之前。目标腐蚀结构元素与腐蚀参考点的相对位置关系表示为“a*bc”或者“ab*c”时,表腐蚀参考点位于目标腐蚀结构元素内部。位置对应是指位置一致。
待腐蚀的相关文本是指需要进行腐蚀的文本。初次腐蚀是指第一次腐蚀。在第一次腐蚀时,将初始相关文本作为待腐蚀的相关文本。在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本。例如,对“com.android.bankabc”进行第一次腐蚀,假设得到“android.bankabc”,则第二次腐蚀时,将“android.bankabc”作为待腐蚀的文本。
本申请实施例中,通过确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为腐蚀参考点的位置,根据目标腐蚀结构元素与腐蚀参考点之间的相对位置关系,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素。将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果。因此可以在不需要对待腐蚀的相关文本进行元素划分的情况下,获取得到与目标腐蚀结构元素匹配的目标文本元素,对该目标文本元素进行腐蚀。
在一些实施例中,当相对位置关系为腐蚀参考点在目标腐蚀结构元素之后时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的头部文本元素,作为目标文本元素。
其中,头部文本元素是指位于待腐蚀的相关文本的头部的元素。即头部文本元素作为一个整体,是在待腐蚀的相关文本的最前端的。例如,“com.android.bankabc”中,“com.”或者“com.android”为头部文本元素。但是“android”不是头部文本元素,因为其前面还存在“com.”。
具体地,当相对位置关系为腐蚀参考点在目标腐蚀结构元素之后时,获取的是与目标腐蚀结构元素的位置一致,且位于待腐蚀的相关文本中的头部的元素。当腐蚀是对文本的两端进行腐蚀,对于与目标腐蚀结构元素的位置一致,但不是位于待腐蚀的相关文本中的头部的元素,则可以不作为目标文本元素。
举个实际的例子,假设待腐蚀的相关文本为“com.android.bankabc”,当目标腐蚀结构元素为“com.”,用“*”表示腐蚀参考点,假设目标腐蚀结构元素与原点位置的关系表示为“com.*”,表示腐蚀参考点的位置位于目标腐蚀结构元素之后。则在第一次确定腐蚀参考点的位置时,将“com.android.bankabc”中第一个字符“c”作为当前字符,将第一个字符“c”的位置作为原点(*)所在的位置,则如图4所示,由于目标腐蚀结构元素为“com.”有4个字符,可以用4个方格表示这4个字符的位置,此时这4个方格中没有文本,因此目标文本元素为空……在第五次确定腐蚀参考点的位置时,将“com.android.bankabc”中前端的第五个字符“a”的位置作为腐蚀参考点(*)所在的位置,此时这4个方格中存在文本“com.”,因此目标文本元素为“com.”,因此将目标文本元素“com.”与目标腐蚀结构元素“com.”对比,确定对比结果为对比一致,则将“com.”从待腐蚀的相关文本中去除,并可以在本轮腐蚀中,停止利用目标腐蚀结构元素“com.”对待腐蚀的相关文本进行腐蚀。
本申请实施例中,通过当相对位置关系为腐蚀参考点在目标腐蚀结构元素之后时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的头部文本元素,作为目标文本元素,可以保证文本的腐蚀是针对位于文本的端部的文本进行腐蚀,保证了文本腐蚀的正确性。而且能够不改变待腐蚀的相关文本中,元素之间的排列顺序即拓扑结构,由于文本的拓扑结构对文本所表示的语义存在影响,因此能够保证腐蚀得到的语义相关文本的语义的正确性。
在一些实施例中,当相对位置关系为腐蚀参考点在目标腐蚀结构元素之前时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的尾部文本元素,作为目标文本元素。
其中,尾部文本元素是指位于待腐蚀的相关文本的尾部的元素。即尾部文本元素作为一个整体,是在待腐蚀的相关文本的最末端的。例如,“com.android.bankabc”中,“.bankabc”或者“android.bankabc”为尾部文本元素。但是“android”不是尾部文本元素,因为其后面还存在“.bankabc”。
具体地,当相对位置关系为腐蚀参考点在目标腐蚀结构元素之前时,获取的是与目标腐蚀结构元素的位置一致,且位于待腐蚀的相关文本中的尾部的元素。当腐蚀处理是对文本的两端进行腐蚀,对于与目标腐蚀结构元素的位置一致,但不是位于待腐蚀的相关文本中的尾部的元素,则不作为目标文本元素。
本申请实施例中,通过当相对位置关系为腐蚀参考点在目标腐蚀结构元素之前时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的尾部文本元素,作为目标文本元素,可以保证对待腐蚀的相关文本进行腐蚀时,是对位于尾部的文本元素进行腐蚀,即保证了文本的腐蚀是针对位于文本的端部的文本进行腐蚀的,保证了文本腐蚀的正确性。而且能够不改变待腐蚀的相关文本中,元素之间的排列顺序即拓扑结构,由于文本的拓扑结构对文本所表示的语义存在影响,因此能够保证腐蚀得到的语义相关文本的语义的正确性。
在一些实施例中,按照字符的排列顺序依次将按照待腐蚀的相关文本中的字符作为当前字符时,可以是从头部的字符开始,也可以是从尾部的字符开始。例如,由于腐蚀参考点在目标腐蚀结构元素之后时,获取的目标文本元素是头部文本元素,因此从头部的字符开始,将待腐蚀的相关文本中的字符依次作为当前字符,以提高获取得到与目标腐蚀结构元素对比一致的目标文本元素的速度。同理,为了提高获取得到与目标腐蚀结构元素对比一致的目标文本元素的速度,当腐蚀参考点在目标腐蚀结构元素之前时,则可以从尾部的字符开始,将待腐蚀的相关文本中的字符依次作为当前字符。
在一些实施例中,当相对位置关系为腐蚀参考点在目标腐蚀结构元素内时,如图5所示,根据目标腐蚀结构元素与腐蚀参考点之间的相对位置关系,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素包括:
步骤S206A,将目标腐蚀结构元素中位于腐蚀参考点之前的文本元素,作为第一结构文本元素,将目标腐蚀结构元素中位于腐蚀参考点之后的文本元素,作为第二结构文本元素。
具体地,假设目标腐蚀结构元素为“com..test”,腐蚀参考点位于“com.”与“.test”之间,表示为“com.*.test”。则可以将“com.”作为第一结构文本元素。将“.test”作为第二结构文本元素。
步骤S206B,从待腐蚀的相关文本中,获取与第一结构文本元素的位置对应的头部文本元素,以及与第二结构文本元素的位置对应的尾部文本元素,将头部文本元素以及尾部文本元素作为目标文本元素。
例如,待腐蚀的相关文本为“bba.ten.mobile.test”,“com.”作为第一结构文本元素。“.test”作为第二结构文本元素。则当腐蚀参考点的位置位于“.ten”中的“t”时,获取的是与第一结构文本元素的位置对应的头部文本元素为“bba.”。则当腐蚀参考点的位置位于“mobile”中的“e”时,获取的是与第二结构文本元素位置的对应的尾部文本元素为“.test”。
如图5所示,步骤S208中将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果包括:
步骤S208A,将头部文本元素与第一结构文本元素进行对比,得到第一对比结果,将尾部文本元素与第二结构文本元素进行对比,得到第二对比结果。
具体地,第一对比结果可以为对比一致或者对比不一致。第二对比结果可以为对比一致或者对比不一致。
步骤S208B,根据第一对比结果以及第二对比结果得到目标对比结果。
具体地,当第一对比结果以及第二对比结果均为对比一致时,则目标对比结果为对比一致。当第一对比结果或者第二对比结果中的至少一个为对比不一致时,则目标对比结果为对比不一致。
当目标对比结果为对比一致时,则对待腐蚀的相关文本中的头部文本元素以及尾部文本元素进行腐蚀。否则,不对待腐蚀的相关文本中的头部文本元素以及尾部文本元素进行腐蚀。通过在目标对比结果为对比一致,对待腐蚀的相关文本中的头部文本元素以及尾部文本元素进行腐蚀,可以对头部以及尾部的组合均符合一定结构的无关文本元素进行腐蚀,提高了腐蚀的效率。
在一些实施例中,如图6所示,步骤S204即获取目标腐蚀结构元素包括:从腐蚀结构元素集合中获取目标腐蚀结构元素。
具体地,腐蚀结构元素集合中可以包括多个腐蚀结构元素。可以按照预设的顺序或者随机从腐蚀结构元素集合中获取腐蚀结构元素,作为目标腐蚀结构元素。例如,如表二所示为一些实施例中的腐蚀结构元素。其中表二的“*”表示腐蚀参考点。在第一次腐蚀时,可以将“*.com”作为目标腐蚀结构元素,在第二次腐蚀时,可以将“*.android”作为目标腐蚀结构元素。
如图6所示,步骤S210即根据目标对比结果对初始相关文本进行腐蚀处理,得到目标对象对应的语义相关文本包括:
步骤S602,根据目标对比结果对待腐蚀的相关文本进行腐蚀处理,得当前相关文本;其中,在初次腐蚀时,将初始相关文本作为待腐蚀的相关文本。
具体地,当前相关文本是指当前进行腐蚀处理得到的相关文本。例如,如表三所示,为利用不同的腐蚀结构元素,对应用程序包名进行第一次腐蚀得到的腐蚀结果。则对于初始相关文本“com.android.bankabc”,在第二次腐蚀时,可以将第一次腐蚀得到的腐蚀结果“android.bankabc”作为待腐蚀的文本。
表二:腐蚀结构元素集合的腐蚀结构元素。
*.com com.*
*.android android.*
*.cn cn.*
*.app app.*
*.net net.*
表三:
应用程序包名 目标腐蚀结构元素 腐蚀结果
com.android.bankabc com.* android.bankabc
com.android.baby *.android com.android.baby
com.tudou.android *.android com.tudou
com.tudou.android cn.* com.tudou.android
步骤S604,判断当前相关文本是否收敛。
具体地,收敛是指当前相关文本相对于目标历史相关文本不再变化。如果收敛,则不再进行腐蚀,进入步骤S608,将收敛的当前相关文本作为语义相关文本。如果没有收敛,进入步骤S606,将当前相关文本作为待腐蚀的相关文本,以继续进行腐蚀。
历史相关文本是指在当前相关文本之前,对初始相关文本进行腐蚀得到的相关文本。例如,相对于第三次腐蚀处理得到的当前相关文本,第一次腐蚀处理以及第二次腐蚀处理得到的相关文本为历史相关文本。可以是将上一次腐蚀得到的相关文本作为目标历史相关文本,也可以是将上一轮腐蚀得到的历史相关文本作为目标历史相关文本。
在一些实施例中,确定当前相关文本收敛的步骤包括:将本轮腐蚀中,利用腐蚀结构元素集合中的最后一个腐蚀结构元素进行腐蚀处理得到的相关文本,作为本轮腐蚀得到的相关文本;将本轮腐蚀得到的相关文本,与上一轮腐蚀得到的相关文本进行对比,当对比一致时,确定当前相关文本收敛。
具体地,将腐蚀结构元素集合中的每个腐蚀结构元素,依次作为目标腐蚀结构元素,对待腐蚀的相关文本进行腐蚀处理,称为一轮腐蚀。可以对初始相关文本进行多轮的腐蚀。判断当前相关文本是否收敛的步骤可以是在每轮腐蚀之后执行的。例如,当第一轮腐蚀完毕后,判断第一轮腐蚀中,最后得到的当前相关文本与初始相关文本是否相同,如果相同则表示文本已收敛,则将第一轮腐蚀中,最后得到当前相关文本作为语义相关文本。如果不收敛,则将第一轮腐蚀中,最后得到当前相关文本作为待腐蚀的相关文本,继续进行第二轮腐蚀,将第二轮腐蚀中,最后得到的当前相关文本,与第一轮腐蚀中,最后得到的相关文本进行对比。如果对比一致,则说明当前相关文本收敛了,如果对比不一致,则说明当前相关文本没有收敛,继续进入第三轮腐蚀。
步骤S606,将当前相关文本作为待腐蚀的相关文本。
具体地,将当前相关文本作为待腐蚀的相关文本,继续进入步骤S204,即从腐蚀结构元素集合中获取目标腐蚀结构元素的步骤,可以获取另一个腐蚀结构元素,对待腐蚀的相关文本进行腐蚀。
步骤S608,将收敛的当前相关文本作为语义相关文本。
具体地,如果当前相关文本已收敛,则将收敛的当前相关文本作为语义相关文本。
本申请实施例中,通过利用腐蚀结构元素集合中的腐蚀结构元素对初始相关文本进行腐蚀,当当前相关文本收敛,再停止腐蚀,可以完整的清除位于初始相关文本两端的语意无关文本。
在一些实施例中,腐蚀结构元素集合中的集合是满足重要度条件的结构元素,重要度条件包括重要度小于预设重要度或者重要度排序低于预设排序的至少一个。以下以其目标腐蚀结构元素为例,对如何得到腐蚀结构元素集合的腐蚀结构元素进行说明,如图7所示,包括以下步骤:
步骤S702,获取相关文本集合。
具体地,相关文本集合中包括多个相关文本,具体可以根据需要进行设置。相关文本集合中的相关文本可以是参考对象对应的初始相关文本。参考对象与目标对象具有相同的对象类型,例如目标对象为应用程序1,则相关文本集合中的相关文本可以是1000个应用程序对应的包名。
在一些实施例中,目标对象包括目标应用程序,获取相关文本集合包括:获取应用程序集合中各个应用程序分别对应的应用程序包名,组成相关文本集合。其中,应用程序集合包括多个应用程序,例如,可以是应用市场中的所有应用程序,获取这些应用程序对应的包名,组成相关文本集合。
在一些实施例中,获取目标对象对应的初始相关文本包括:将待确定标签的应用程序作为目标应用程序,获取目标应用程序对应的应用程序包名,作为目标应用程序对应的初始相关文本。
具体地,可以是将缺少标签的应用程序作为待确定标签的应用程序,还可以是将缺少名称的应用称为作为待确定标签的应用程序。目标应用程序可以是从应用程序集合中获取的,例如可以将应用程序集合中的每个应用程序均作为待确定标签的应用程序。
步骤S704,获取相关文本集合中的文本元素,组成候选结构元素集合。
具体地,可以对相关文本集合中的相关文本进行元素划分,得到文本元素。候选结构元素集合包括多个候选结构元素。
例如,将相关文本集合称为语料库D,可以对语料库D中各个语料进行分词,得到文本元素,组成候选结构元素集合。例如对于包名,可以按照标点符号进行元素划分,将标点符号之间的字符串作为一个文本元素。举个实际的例子,对包名“com.wzrytp.desu”进行元素划分,可以得到“com”、“wzrytp”以及“desu”三个文本元素。
步骤S706,获取候选结构元素集合中,各个候选结构元素在相关文本集合中的重要度。
具体地,重要度用于表示重要程度,重要度越大,则表示越重要。可以根据候选结构元素在相关文本集合中的相关文本的出现次数,以及相关文本集合中包括该候选结构元素的相关文本的个数,确定该候选结构元素的重要度。其中候选结构元素的重要度与出现次数成正相关关系,与相关文本集合中包括该候选结构元素的相关文本的个数成负相关关系。即在其他因素一定的情况下,候选结构元素在相关文本中的出现次数越多,则重要度越大。在其他因素一定的情况下,相关文本集合中包括该候选结构元素的相关文本的文本数量越大,则重要度越小。例如重要度可以是出现次数乘以包括该候选结构元素的相关文本的个数的倒数。
在一些实施例中,可以根据词频以及逆文档频率得到候选结构元素的重要度。例如,重要度可以是词频(Term Frequency,TF)以及逆文档频率(Iverse DocumentFrequency,IDF))的乘积。其中逆文档频率可以根据相关文本集合中文本的总数量、与包括该候选结构元素的相关文本的个数得到。其中包括该候选结构元素的相关文本的个数越多,则说明该词语是通用的词语,故重要度越小。词频是指词语在文本中出现的频率,可以用该词语的出现次数除以文本中词语的总个数得到,词频越大,说明该候选结构元素在该相关文本中越重要。
例如,重要度可以用词频-逆文档频率表示,表示如公式(1)、(2)以及(3)。tf_idfi,j表示第i个相关文本中第j个候选结构元素的重要度,tfi,j表示第i个相关文本中第j个候选结构元素的词频。idfi,j表示第i个相关文本中第j个候选结构元素对应的逆文档频率。ni,j表示第j个候选结构元素在第i个相关文本的出现次数。N表示第i个文本中文本元素的数量。|D|表示相关文本集合中,相关文本的总数量。pi表示相关文本集合中,包括第j个候选结构元素的文本的个数,k可以是任意的数,例如可以为1。
tf_idfi,j=tfi,j*idfi,j (1)
Figure BDA0002449956010000211
Figure BDA0002449956010000212
步骤S708,根据候选结构元素的重要度从候选结构元素集合中,筛选得到满足重要度条件的候选结构元素,组成中间结构元素集合,中间结构元素集合用于确定目标腐蚀结构元素。
具体地,重要度条件包括重要度小于第一重要度或者重要度排序低于第一排序的至少一个。第一重要度可以根据需要预先设置,例如可以为0.5。第一排序也可以是根据需要预先设置,例如低于倒数第50名。重要度排序是按照从大到小的顺序排序的,重要度越大,则排序越高。可以是将中间结构元素集合中的所有结构元素都作为目标腐蚀结构元素,也可以是经过人工挑选后得到目标腐蚀结构元素。例如,可以获取重要度最低的50个字符串输出到终端中进行显示。用户可以根据需要例如中间结构元素集合中元素的的分布、语义进行个性化选择。终端接收用户对这50个字符串的选择操作,终端将用户选择的字符串返回至服务器,服务器将用户选择的字符串作为腐蚀结构元素集合中的腐蚀结构元素。
例如,对于应用程序的包名,可以将com、android、cn、app、net作为腐蚀结构元素。本申请实施例中,通过将小于第一重要度或者重要度排序低于第一排序的候选结构元素组成中间结构元素集合,用于确定目标腐蚀结构元素,因此在利用目标腐蚀结构元素对初始相关文本进程腐蚀时,是对不重要的文本进行腐蚀,即对语义无关的进行腐蚀,使得腐蚀最终得到的相关文本是重要度高的语义相关文本。
本申请实施例提供的方法可以应用于确定应用程序的标签的应用场景中,可以通过文本的腐蚀操作来提取文本中的关键信息,提高召回信息量。并可以根据关键信息得到应用程序的标签,根据应用程序的标签进行程序的推荐或者分类管理。
本申请实施例提供的文本处理方法,可以在采集得到应用程序的安装包名的情况下,提取包名中有价值信息进而对应用程序进行打标签,从而提升数据价值,以进行信息推送,例如一个用户设备上安装有休闲游戏类,则可以向该用户设备发送类似的游戏的推荐信息。
以下以目标对象为目标应用程序为例,对本申请实施例提供的文本处理方法进行说明,包括以下步骤:
1、获取相关文本集合。
例如,可以获取1000个应用程序的包名,每一个包名作为相关文本,组成1000个相关文本组成的相关文本集合。
2、获取相关文本集合中的文本元素,组成候选结构元素集合。
例如,可以按照标点符号对包名进行划分,得到文本元素,组成候选结构元素集合。
3、获取候选结构元素集合中各个候选结构元素在相关文本集合中的重要度。
例如,可以计算每个候选结构元素的tf-idf值,作为重要度。
4、根据候选结构元素的重要度从候选结构元素集合中,筛选得到满足重要度条件的候选结构元素,组成腐蚀结构元素集合。
例如,重要度条件包括重要度小于第一重要度或者重要度排序低于第一排序的至少一个。可以获取重要度最低的10个的候选结构元素,组成腐蚀结构元素集合。
5、获取目标对象对应的初始相关文本。
例如,可以将步骤1中的1000个应用程序的每一个均作为目标应用程序,获取目标应用程序的包名。
6、从腐蚀结构元素集合中获取目标腐蚀结构元素。
具体地,可以依次将腐蚀结构元素集合中的腐蚀结构元素作为目标腐蚀结构元素。
7、根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素。
其中,初次腐蚀时,待腐蚀的相关文本为初始相关文本,非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本。
8、将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果。
9、根据目标对比结果对待腐蚀的相关文本进行腐蚀处理,得当前相关文本。
具体地,步骤6~9可以重复执行,直至腐蚀结构元素集合中的腐蚀结构元素均作为目标腐蚀结构元素,对需要腐蚀的文本进行了腐蚀处理,称为一轮腐蚀。
10、将本轮腐蚀中,腐蚀结构元素集合中的最后一个腐蚀结构元素进行腐蚀处理得到的当前相关文本,作为本轮腐蚀得到的相关文本。
11、将本轮腐蚀得到的相关文本,与上一轮腐蚀得到的相关文本进行对比,根据对比结果判断本轮腐蚀得到的当前相关文本是否收敛。
其中,步骤10以及11可以是每轮腐蚀完毕后再执行的。如果不收敛则返回步骤6。
12、将收敛的当前相关文本作为语义相关文本。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图8所示,提供了一种文本处理装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:初始相关文本获取模块802、目标腐蚀结构元素获取模块804、目标文本元素获取模块806、对比模块808和腐蚀模块810,其中:
初始相关文本获取模块802,用于获取目标对象对应的初始相关文本。
目标腐蚀结构元素获取模块804,用于获取目标腐蚀结构元素。
目标文本元素获取模块806,用于根据目标腐蚀结构元素对应的腐蚀参考点的位置,获取初始相关文本中的目标文本元素。
对比模块808,用于将目标腐蚀结构元素与目标文本元素进行对比,得到目标对比结果。
腐蚀模块810,用于当目标对比结果为对比一致时,对初始相关文本进行腐蚀处理,得到目标对象对应的语义相关文本。
在一些实施例中,目标文本元素获取模块包括:当前字符确定单元,用于确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为目标腐蚀结构元素对应的腐蚀参考点的位置;其中,在初次腐蚀时,将初始相关文本作为待腐蚀的相关文本,在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本;目标文本元素获取单元,用于根据目标腐蚀结构元素与腐蚀参考点之间的相对位置关系,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素。
在一些实施例中,目标文本元素获取单元用于:当相对位置关系为腐蚀参考点在目标腐蚀结构元素之后时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的头部文本元素,作为目标文本元素。
在一些实施例中,目标文本元素获取单元用于:当相对位置关系为腐蚀参考点在目标腐蚀结构元素之前时,获取待腐蚀的相关文本中,与目标腐蚀结构元素的位置对应的尾部文本元素,作为目标文本元素。
在一些实施例中,目标文本元素获取单元用于:当相对位置关系为腐蚀参考点在目标腐蚀结构元素内时,将目标腐蚀结构元素中位于腐蚀参考点之前的文本元素,作为第一结构文本元素,将目标腐蚀结构元素中位于腐蚀参考点之后的文本元素,作为第二结构文本元素;从待腐蚀的相关文本中,获取与第一结构文本元素的位置对应的头部文本元素,以及与第二结构文本元素的位置对应的尾部文本元素,将头部文本元素以及尾部文本元素作为目标文本元素;对比模块用于:将头部文本元素与第一结构文本元素进行对比,得到第一对比结果,将尾部文本元素与第二结构文本元素进行对比,得到第二对比结果;根据第一对比结果以及第二对比结果得到目标对比结果。
在一些实施例中,目标腐蚀结构元素获取模块用于:从腐蚀结构元素集合中获取目标腐蚀结构元素;腐蚀模块用于:当目标对比结果为对比一致时,对待腐蚀的相关文本进行腐蚀处理,得当前相关文本;其中,在初次腐蚀时,将初始相关文本作为待腐蚀的相关文本;将当前相关文本作为待腐蚀的相关文本,进入从腐蚀结构元素集合中获取目标腐蚀结构元素的步骤,直至当前相关文本收敛,将收敛的当前相关文本作为目标对象对应的语义相关文本。
在一些实施例中,确定当前相关文本收敛的模块用于:将本轮腐蚀中,利用腐蚀结构元素集合中的最后一个腐蚀结构元素进行腐蚀处理得到的相关文本,作为本轮腐蚀得到的相关文本;将本轮腐蚀得到的相关文本,与上一轮腐蚀得到的相关文本进行对比,当对比一致时,确定当前相关文本收敛。
在一些实施例中,文本处理装置还包括:相关文本集合获取模块,用于获取相关文本集合;候选结构元素集合获取模块,用于获取相关文本集合中的文本元素,组成候选结构元素集合;重要度获取模块,用于获取候选结构元素集合中,各个候选结构元素在相关文本集合中的重要度;筛选模块,用于根据候选结构元素的重要度从候选结构元素集合中,筛选得到满足重要度条件的候选结构元素,组成中间结构元素集合,中间结构元素集合用于确定目标腐蚀结构元素;重要度条件包括重要度小于第一重要度或者重要度排序低于第一排序的至少一个。
在一些实施例中,目标对象包括目标应用程序,相关文本集合获取模块用于:获取应用程序集合中各个应用程序分别对应的应用程序包名,组成相关文本集合;初始相关文本获取模块用于:将待确定标签的应用程序作为目标应用程序,获取目标应用程序对应的应用程序包名,作为目标应用程序对应的初始相关文本。
在一些实施例中,文本处理装置还包括:对象标签获取模块,用于获取语义相关文本对应的目标语义,根据目标语义得到目标对象的对象标签。
在一些实施例中,目标对象包括目标应用程序,目标对象对应的对象标签包括目标应用程序对应的程序标签,装置还包括:推送应用程序确定模块,用于将程序标签对应的应用程序,作为推送应用程序;推送模块,用于确定安装有目标应用程序的目标终端,将推送应用程序对应的程序相关信息推送至目标终端。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储相关文本集合。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本处理方法,所述方法包括:
获取目标对象对应的初始相关文本;
获取目标腐蚀结构元素;
根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;
将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;
当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素包括:
确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为所述目标腐蚀结构元素对应的腐蚀参考点的位置;其中,在初次腐蚀时,将所述初始相关文本作为待腐蚀的相关文本,在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本;
根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为所述目标文本元素。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为所述目标文本元素包括:
当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素之后时,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的头部文本元素,作为所述目标文本元素。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为所述目标文本元素包括:
当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素之前时,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的尾部文本元素,作为所述目标文本元素。
5.根据权利要求2所述的方法,其特征在于,所述根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取所述待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为所述目标文本元素包括:
当所述相对位置关系为所述腐蚀参考点在所述目标腐蚀结构元素内时,将所述目标腐蚀结构元素中位于所述腐蚀参考点之前的文本元素,作为第一结构文本元素,将所述目标腐蚀结构元素中位于所述腐蚀参考点之后的文本元素,作为第二结构文本元素;
从所述待腐蚀的相关文本中,获取与所述第一结构文本元素的位置对应的头部文本元素,以及与所述第二结构文本元素的位置对应的尾部文本元素,将所述头部文本元素以及所述尾部文本元素作为所述目标文本元素;
所述将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果包括:
将所述头部文本元素与所述第一结构文本元素进行对比,得到第一对比结果,将所述尾部文本元素与所述第二结构文本元素进行对比,得到第二对比结果;
根据所述第一对比结果以及所述第二对比结果得到所述目标对比结果。
6.根据权利要求1所述的方法,其特征在于,所述获取目标腐蚀结构元素包括:
从腐蚀结构元素集合中获取目标腐蚀结构元素;
所述当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本包括:
当所述目标对比结果为对比一致时,对待腐蚀的相关文本进行腐蚀处理,得当前相关文本;其中,在初次腐蚀时,将所述初始相关文本作为所述待腐蚀的相关文本;
将当前相关文本作为待腐蚀的相关文本,进入所述从腐蚀结构元素集合中获取目标腐蚀结构元素的步骤,直至当前相关文本收敛,将收敛的当前相关文本作为所述目标对象对应的语义相关文本。
7.根据权利要求6所述的方法,其特征在于,确定当前相关文本收敛的步骤包括:
将本轮腐蚀中,利用所述腐蚀结构元素集合中的最后一个腐蚀结构元素进行腐蚀处理得到的相关文本,作为本轮腐蚀得到的相关文本;
将本轮腐蚀得到的相关文本,与上一轮腐蚀得的到相关文本进行对比,当对比一致时,确定当前相关文本收敛。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取相关文本集合;
获取所述相关文本集合中的文本元素,组成候选结构元素集合;
获取所述候选结构元素集合中,各个候选结构元素在所述相关文本集合中的重要度;
根据所述候选结构元素的重要度从所述候选结构元素集合中,筛选得到满足重要度条件的候选结构元素,组成中间结构元素集合,所述中间结构元素集合用于确定所述目标腐蚀结构元素;
所述重要度条件包括重要度小于第一重要度或者重要度排序低于第一排序的至少一个。
9.根据权利要求8所述的方法,其特征在于,所述目标对象包括目标应用程序,所述获取相关文本集合包括:
获取应用程序集合中各个应用程序分别对应的应用程序包名,组成相关文本集合;
所述获取目标对象对应的初始相关文本包括:
将待确定标签的应用程序作为目标应用程序,获取所述目标应用程序对应的应用程序包名,作为所述目标应用程序对应的初始相关文本。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述语义相关文本对应的目标语义,根据所述目标语义得到所述目标对象的对象标签。
11.根据权利要求10所述的方法,其特征在于,所述目标对象包括目标应用程序,所述目标对象对应的对象标签包括所述目标应用程序对应的程序标签,所述方法还包括:
获取所述程序标签对应的应用程序,作为推送应用程序;
确定安装有所述目标应用程序的目标终端,将所述推送应用程序对应的程序相关信息推送至所述目标终端。
12.一种文本处理装置,所述装置包括:
初始相关文本获取模块,用于获取目标对象对应的初始相关文本;
目标腐蚀结构元素获取模块,用于获取目标腐蚀结构元素;
目标文本元素获取模块,用于根据所述目标腐蚀结构元素对应的腐蚀参考点的位置,获取所述初始相关文本中的目标文本元素;
对比模块,用于将所述目标腐蚀结构元素与所述目标文本元素进行对比,得到目标对比结果;
腐蚀模块,用于当所述目标对比结果为对比一致时,对所述初始相关文本进行腐蚀处理,得到所述目标对象对应的语义相关文本。
13.根据权利要求12所述的装置,其特征在于,所述目标文本元素获取模块包括:
当前字符确定单元,用于确定待腐蚀的相关文本中的当前字符,将当前字符所在的位置作为所述目标腐蚀结构元素对应的腐蚀参考点的位置;其中,在初次腐蚀时,将所述初始相关文本作为待腐蚀的相关文本,在非初次腐蚀时,将上一次腐蚀得到的相关文本作为待腐蚀的相关文本;
目标文本元素获取单元,用于根据所述目标腐蚀结构元素与所述腐蚀参考点之间的相对位置关系,获取待腐蚀的相关文本中,与所述目标腐蚀结构元素的位置对应的文本元素,作为目标文本元素。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202010289730.3A 2020-04-14 2020-04-14 文本处理方法、装置、计算机设备和存储介质 Active CN111476037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010289730.3A CN111476037B (zh) 2020-04-14 2020-04-14 文本处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010289730.3A CN111476037B (zh) 2020-04-14 2020-04-14 文本处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111476037A true CN111476037A (zh) 2020-07-31
CN111476037B CN111476037B (zh) 2023-03-31

Family

ID=71752122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010289730.3A Active CN111476037B (zh) 2020-04-14 2020-04-14 文本处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111476037B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078869A (ja) * 2002-08-20 2004-03-11 Joho Bunka Sogo Kenkyusho:Kk 日本語で記述された文章からキーワードを抽出するコンピュータプログラム及び当該コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
US20070239426A1 (en) * 2006-04-07 2007-10-11 Research In Motion Limited Handheld electronic device providing a learning function to facilitate correction of erroneous text entry in environment of text requiring multiple sequential actuations of the same key, and associated method
CN101369278A (zh) * 2008-09-27 2009-02-18 成都市华为赛门铁克科技有限公司 一种近似匹配方法和装置
JP2010102371A (ja) * 2008-10-21 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
US20120221588A1 (en) * 2009-11-10 2012-08-30 Alibaba Group Holding Limited Method and System for Text Filtering
CN104750673A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 文本匹配过滤方法及装置
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置
US20150339378A1 (en) * 2012-06-27 2015-11-26 Beijing Qihoo Technology Company Limited System and method for keyword filtering
CN105677757A (zh) * 2015-12-30 2016-06-15 东北大学 一种基于双缀过滤的大数据相似性连接方法
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
US20160321353A1 (en) * 2014-01-06 2016-11-03 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing text information
CN108733828A (zh) * 2018-05-24 2018-11-02 北京金堤科技有限公司 公司名称的提取方法、装置和计算机可读介质
CN108920483A (zh) * 2018-04-28 2018-11-30 南京搜文信息技术有限公司 基于后缀数组的字符串快速匹配方法
CN109101491A (zh) * 2018-07-24 2018-12-28 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110110198A (zh) * 2017-12-28 2019-08-09 中移(苏州)软件技术有限公司 一种网页信息抽取方法及装置
CN110688841A (zh) * 2019-09-30 2020-01-14 广州准星信息科技有限公司 一种机构名称识别方法、装置、设备以及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078869A (ja) * 2002-08-20 2004-03-11 Joho Bunka Sogo Kenkyusho:Kk 日本語で記述された文章からキーワードを抽出するコンピュータプログラム及び当該コンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体
US20070239426A1 (en) * 2006-04-07 2007-10-11 Research In Motion Limited Handheld electronic device providing a learning function to facilitate correction of erroneous text entry in environment of text requiring multiple sequential actuations of the same key, and associated method
CN101030221A (zh) * 2007-04-13 2007-09-05 清华大学 一种用于文本或网络内容分析的大规模多关键词匹配方法
CN101369278A (zh) * 2008-09-27 2009-02-18 成都市华为赛门铁克科技有限公司 一种近似匹配方法和装置
JP2010102371A (ja) * 2008-10-21 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 顔文字検出装置、その方法、プログラム及び記録媒体
US20120221588A1 (en) * 2009-11-10 2012-08-30 Alibaba Group Holding Limited Method and System for Text Filtering
US20150339378A1 (en) * 2012-06-27 2015-11-26 Beijing Qihoo Technology Company Limited System and method for keyword filtering
CN104750673A (zh) * 2013-12-31 2015-07-01 ***通信集团公司 文本匹配过滤方法及装置
US20160321353A1 (en) * 2014-01-06 2016-11-03 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing text information
CN105068989A (zh) * 2015-07-23 2015-11-18 中国测绘科学研究院 地名地址提取方法及装置
CN105677757A (zh) * 2015-12-30 2016-06-15 东北大学 一种基于双缀过滤的大数据相似性连接方法
CN105843950A (zh) * 2016-04-12 2016-08-10 乐视控股(北京)有限公司 敏感词过滤方法及装置
CN110110198A (zh) * 2017-12-28 2019-08-09 中移(苏州)软件技术有限公司 一种网页信息抽取方法及装置
CN108920483A (zh) * 2018-04-28 2018-11-30 南京搜文信息技术有限公司 基于后缀数组的字符串快速匹配方法
CN108733828A (zh) * 2018-05-24 2018-11-02 北京金堤科技有限公司 公司名称的提取方法、装置和计算机可读介质
CN109101491A (zh) * 2018-07-24 2018-12-28 湖南星汉数智科技有限公司 一种作者信息抽取方法、装置、计算机装置及计算机可读存储介质
CN110008474A (zh) * 2019-04-04 2019-07-12 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110688841A (zh) * 2019-09-30 2020-01-14 广州准星信息科技有限公司 一种机构名称识别方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111476037B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
US20220318317A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN112380344A (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
CN111611801A (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN113297854A (zh) 文本到知识图谱实体的映射方法、装置、设备及存储介质
CN111625579B (zh) 一种信息处理方法、装置及***
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN115114415A (zh) 问答知识库更新方法、装置、计算机设备和存储介质
CN112269877A (zh) 数据标注方法及装置
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025845

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant