CN114492371A - 文本处理方法及装置、存储介质、电子设备 - Google Patents

文本处理方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN114492371A
CN114492371A CN202210128335.6A CN202210128335A CN114492371A CN 114492371 A CN114492371 A CN 114492371A CN 202210128335 A CN202210128335 A CN 202210128335A CN 114492371 A CN114492371 A CN 114492371A
Authority
CN
China
Prior art keywords
text
word
determining
alternative
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210128335.6A
Other languages
English (en)
Inventor
李鑫
张华�
潘照明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Media Technology Beijing Co Ltd
Original Assignee
Netease Media Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Media Technology Beijing Co Ltd filed Critical Netease Media Technology Beijing Co Ltd
Priority to CN202210128335.6A priority Critical patent/CN114492371A/zh
Publication of CN114492371A publication Critical patent/CN114492371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本处理方法及装置、存储介质、电子设备,涉及计算机技术领域。该方法中,可以先从文本库中确定第一文本,再对第一文本进行分词处理,确定第一文本对应的查询词,通过查询词在索引词集中进行查找,确定第一文本对应的备选文本,索引词集是根据文本库中的多个第二文本确定的,并计算第一文本与备选文本之间的相关性得分,最后,根据相关性得分,从备选文本中确定第一文本对应的关联文本,以便基于关联文本建立第一文本的属性图。这样,通过确定文本的查询词与索引词,可以快速确定文本的相关文本,从而可以便于建立文本与相关文本之间的属性图,简化了操作内容,也一定程度上提高了文本处理的效率。

Description

文本处理方法及装置、存储介质、电子设备
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及文本处理方法及装置、存储介质、电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的发展,线上阅读逐渐成为越来越多用户的常用阅读方式。而在线上阅读时,阅读一个文章时,用户往往也会关注与该文章相关的文章,因此,为了提高文章的传播速度与广度,需要确定不同文章之间的相关性,建立同一文章与不同文章之间的属性图。在相关技术中,建立文章属性图的方法往往较为单一,且计算内容较为繁杂,使得对文本处理的效率极低,不便于操作。
发明内容
为克服相关技术中存在的问题,本公开提供一种文本处理方法及装置、存储介质、电子设备。
根据本公开的一个方面,提供了一种文本处理方法,所述方法包括:
从文本库中确定第一文本;
对所述第一文本进行分词处理,确定所述第一文本对应的查询词;
通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;
计算所述第一文本与所述备选文本之间的相关性得分;
根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
可选的,在所述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本之前,还包括:
根据所述文本库中除所述第一文本之外的其他文本,确定所述第二文本;
对所述第二文本进行分词处理,生成所述第二文本对应的关键词;
利用预设全文搜索算法,基于所述关键词建立所述第二文本对应的索引词。
可选的,所述基于所述关键词建立所述第二文本对应的索引词,包括:
确定所述关键词与所述第二文本之间的映射关系;
根据所述映射关系生成所述第二文本对应的倒排索引词。
可选的,所述倒排索引词包括所述第二文本的作者、文本类别、标签词、标题。
可选的,所述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本,包括:
在所述索引词集中,将与所述查询词相同的倒排索引词,作为目标索引词;
根据所述第二文本与所述倒排索引词的映射关系,将所述目标索引词对应的第二文本作为所述第一文本对应的备选文本。
可选的,所述计算所述第一文本与所述备选文本之间的相关性得分,包括:
利用预设的文本相关性算法对所述第一文本与所述备选文本进行处理计算,确定所述第一文本与所述备选文本之间的相关性得分。
可选的,所述对所述第一文本进行分词处理,确定所述第一文本对应的查询词,包括:
对所述第一文本进行分词处理,得到所述第一文本的分词结果;
对所述分词结果进行过滤,将过滤后的分词结果作为所述第一文本对应的查询词。
可选的,所述从文本库中确定第一文本,包括:
对所述文本库中的每一文本,确定用户与所述文本的交互量;
将所述交互量小于预设交互阈值的文本,作为所述第一文本。
根据本公开的一个方面,提供了一种文本处理装置,所述装置包括:
第一确定模块,用于从文本库中确定第一文本;
第一分词模块,用于对所述第一文本进行分词处理,确定所述第一文本对应的查询词;
查找模块,用于通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;
计算模块,用于计算所述第一文本与所述备选文本之间的相关性得分;
第二确定模块,用于根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
可选的,所述装置还包括:
选取模块,用于根据所述文本库中除所述第一文本之外的其他文本,确定所述第二文本;
第二分词模块,用于对所述第二文本进行分词处理,生成所述第二文本对应的关键词;
建立模块,用于利用预设全文搜索算法,基于所述关键词建立所述第二文本对应的索引词。
可选的,所述建立模块,还用于:
确定所述关键词与所述第二文本之间的映射关系;
根据所述映射关系生成所述第二文本对应的倒排索引词。
可选的,所述倒排索引词包括所述第二文本的作者、文本类别、标签词、标题。
可选的,所述查找模块,还用于:
在所述索引词集中,将与所述查询词相同的倒排索引词,作为目标索引词;
根据所述第二文本与所述倒排索引词的映射关系,将所述目标索引词对应的第二文本作为所述第一文本对应的备选文本。
可选的,所述计算模块,还用于:
利用预设的文本相关性算法对所述第一文本与所述备选文本进行处理计算,确定所述第一文本与所述备选文本之间的相关性得分。
可选的,所述第一分词模块,还用于:
对所述第一文本进行分词处理,得到所述第一文本的分词结果;
对所述分词结果进行过滤,将过滤后的分词结果作为所述第一文本对应的查询词。
可选的,所述第一确定模块,包括:
对所述文本库中的每一文本,确定用户与所述文本的交互量;
将所述交互量小于预设交互阈值的文本,作为所述第一文本。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的文本处理方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本处理方法。
综上所述,本公开实施例提供的文本处理方法,可以先从文本库中确定第一文本,再对第一文本进行分词处理,确定第一文本对应的查询词,通过查询词在索引词集中进行查找,确定第一文本对应的备选文本,索引词集是根据文本库中的多个第二文本确定的,并计算第一文本与备选文本之间的相关性得分,最后,根据相关性得分,从备选文本中确定第一文本对应的关联文本,以便基于关联文本建立第一文本的属性图。这样,通过确定文本的查询词与索引词,可以快速确定文本的相关文本,从而可以便于建立文本与相关文本之间的属性图,简化了操作内容,也一定程度上提高了文本处理的效率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1是本公开实施例提供的一种文本处理方法的步骤流程图;
图2是本公开实施例提供的确定第一文本方法的流程图;
图3是本公开实施例提供的建立第二文本索引词方法的流程图;
图4是本公开实施例提供的确定第一文本查询词方法的流程图;
图5是本公开实施例提供的确定第一文本对应的备选文本方法的流程图;
图6是本公开实施例提供的一种文本处理流程的示意图;
图7是本公开实施例提供的一种文本处理装置的方框图;
图8是本公开实施例提供的一种存储介质的示意图;以及
图9是本公开实施例提供的一种电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
图1是本公开实施例提供的一种文本处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤S101、从文本库中确定第一文本。
本公开实施例中,文本库可以是预先建立并存储有多个文本,其中,文本库中的文本可以是上传平台的新闻,也可以是个人发表的博客,还可以是公开的论文等,对此本公开不作限制。从文本库中确定第一文本,可以是对文本库中存储的文本,根据文本的属性特征选取文本作为第一文本,该属性特征可以是文本与用户的互动量,比如,可以是文本的用户点击量,也可以是文本的引用量,还可以是文本的用户阅读时间,等等,该属性特征也可以是文本本身的特征,比如,可以是文本的字符总数,也可以是文本所属的领域,还可以是文本的作者,等等。其中,第一文本可以是仅包含纯文本内容的文章,也可以是包含图片、视频、链接等信息的文章,对此本公开不做限制。
步骤S102、对所述第一文本进行分词处理,确定所述第一文本对应的查询词。
本公开实施例中,可以是先确定第一文本中的纯文本内容,再针对该纯文本内容利用预设分词方法进行分词处理得到分词结果,最后,根据分词结果确定第一文本对应的查询词。其中,预设分词方法可以是基于统计的机器学习方法,比如,可以是自然语言处理(Natural Language Processing,NLP),也可以是基于词典的规则匹配方法等等,具体的,可以以基于词典的规则匹配方法为例,先获取第一文本中的纯文本字符串,再将纯文本字符串与预先存储的字典字符串进行查找匹配,若纯文本字符串命中有字典字符串,则可以将该命中的字典字符串作为纯文本字符串的一个分词结果,最后,遍历纯文本字符串确定所有命中的字典字符串,从而可以将所有命中的字典字符串作为纯文本字符串的所有分词结果,即,所有命中的字典字符串可以是第一文本对应的分词结果。
本公开实施例中,根据第一文本的分词结果确定第一文本对应的查询词,可以是直接将第一文本得到的分词结果作为第一文本对应的查询词,也可以是先对第一文本得到的分词结果进行筛选,将筛选后符合预设条件的分词结果作为第一文本对应的查询词,其中,查询词可以是用于查询与第一文本的内容相似文章的分词结果,预设条件可以是将表述实际意义的分词结果作为查询词,例如,分词结果为“弹幕”、“平台”、“推荐”、“个性化”等,可以确定为具有实际表述意义的分词结果,则可以将该类具有实际表述意义的分词结果作为查询词,而分词结果为“我们”、“他们”、“什么”、“对吗”等,可以确定为没有实际表述意义的分词结果,则可以将该类没有实际表述意义的分词结果筛除,不作为查询词。
步骤S103、通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的。
本公开实施例中,可以是在索引词集中查找与查询词相匹配的索引词,例如,可以是查找与查询词相同的索引词,也可以是查找与查询词词义相近的索引词,再基于索引词与文本之间的对应关系确定该相匹配的索引词所指示的文本,将该指示的文本确定为索引词对应的备选文本,从而得到第一文本对应的备选文本。需要说明的是,第一文本对应的查询词可以有多个,即,可以是对多个查询词在索引词集中进行查找,查找与每一查询词相匹配的索引词。进一步地,索引词集中的任意一个索引词可以对应指示一个文本,也可以对应指示多个文本,则将索引词所指示的文本确定为备选文本,可以是将索引词所指示的一个文本确定为第一文本对应的备选文本,也可以是将索引词所指示的多个文本均确定为第一文本对应的备选文本。因此,通过多个查询词在索引词集中进行查找,确定第一文本对应的备选文本,可以得到备选文本的数量是多个,并且,备选文本的数量最小值可以与第一文本查询词的数量相同,则第一文本的查询词越多,可以得到第一文本对应的备选文本越多。
本公开实施例中,索引词集可以是根据多个第二文本的索引词组合得到的,第二文本的索引词可以是用于查找第二文本的分词结果,具体的,可以是先通过对第二文本分词处理,再根据第二文本的分词结果确定第二文本的索引词,第二文本的分词结果可以是利用预设分词方法进行分词处理得到的,也可以是将第二文本的作者、文本类别、标签词、标题等作为第二文本的分词结果。其中,第二文本可以是用于确定与第一文本是否存在相关关系的文本,具体的,第二文本可以是文本库中除第一文本之外的其他文本,也可以是从网上随机下载得到的文本。
需要说明的是,为了保证选取到的备选文本与第一文本之间的相关性得分分值较高,在本公开的一种实现方式中,可以选取与第一文本存在相关关系的文本作为第二文本,比如,可以选取与第一文本属于相同或相似技术领域的文本作为第二文本,例如,文本1所属领域为通信技术,文本2所属领域为软件应用,文本3所属领域为人文思想,其中,文本1为第一文本,由于文本1与文本2所属领域相似,则可以确定文本2为第二文本,而文本3与文本1所属领域差别较大,则文本3不能确定为第二文本。
步骤S104、计算所述第一文本与所述备选文本之间的相关性得分。
本公开实施例中,可以是对第一文本与备选文本进行比较,根据第一文本中所表述的内容与备选文本中所表述的内容,对两个内容之间存在的相关性进行打分,将打分结果作为第一文本与备选文本之间的相关性得分。例如,可以是比较第一文本与备选文本所属的技术领域,若所属领域的重合度越高,则可以为第一文本与备选文本之间的相关性分值取分越高,若所属领域差别较大,则可以为第一文本与备选文本之间的相关性分值取分越低,也可以是比较第一文本的关键词与备选文本的关键词之间的重复度,若两个文本的关键词重复度越高,则可以为第一文本与备选文本之间的相关性打分越高,若两个文本的关键词重复度越低,则可以为第一文本与备选文本之间的相关性打分越低,还可以是比较第一文本与备选文本的发表地址,若第一文本与备选文本的发表地址越相近,则可以为第一文本与备选文本之间的相关性打分越高,若第一文本与备选文本的发表地址相差越大,则可以为第一文本与备选文本之间的相关性打分越低。
步骤S105、根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
本公开实施例中,可以是按照备选文本与第一文本的相关性得分高低,对备选文本进行排序,选取排名前N个备选文本作为第一文本对应的关联文本,其中,N可以为预先设置的数值,比如,N可以设置为100个,从而可以将相关性得分从高到低排名前100的备选文本作为第一文本对应的关联文本。
本公开实施例中,建立第一文本的属性图,可以是将第一文本作为主节点,将与第一文本对应的关联文本作为邻居节点,每一关联文本与第一文本之间的相关性得分可以作为该关联文本对应的邻居节点与主节点之间的相关关系,从而可以基于主节点、邻居节点以及各个邻居节点与主节点之间的相关关系生成第一文本的属性图。这样,通过第一文本的属性图,可以快速获取与第一文本存在相关关系的文本,并且,可以确定该文本与第一文本之间的相关关系,从而可以减少对文本的处理步骤,提高了文本的处理效率。
综上所述,本公开实施例提供的文本处理方法,可以先从文本库中确定第一文本,再对第一文本进行分词处理,确定第一文本对应的查询词,通过查询词在索引词集中进行查找,确定第一文本对应的备选文本,索引词集是根据文本库中的多个第二文本确定的,并计算第一文本与备选文本之间的相关性得分,最后,根据相关性得分,从备选文本中确定第一文本对应的关联文本,以便基于关联文本建立第一文本的属性图。这样,通过确定文本的查询词与索引词,可以快速确定文本的相关文本,从而可以便于建立文本与相关文本之间的属性图,简化了操作内容,也一定程度上提高了文本处理的效率。
可选的,本公开实施例中上述从文本库中确定第一文本的操作,如图2所示,可以具体包括:
步骤S1011、对所述文本库中的每一文本,确定用户与所述文本的交互量。
本公开实施例中,可以是对文本库中存储的每一文本,统计该文本接收到用户的点击量,将该点击量作为用户对该文本的交互量,也可以是统计该文本接收到用户的付费阅读量,将该付费阅读量作为用户对该文本的交互量,还可以是统计用户对该文本的阅读时间,根据阅读时间的长短确定对应的交互量,以此作为用户对该文本的交互量。
步骤S1012、将所述交互量小于预设交互阈值的文本,作为所述第一文本。
本公开实施例中,预设交互阈值可以是根据实际情况预先设置的交互量阈值,比如,预设交互阈值可以是用户点击次数为1000,则可以将交互量小于预设交互阈值1000的文本,作为第一文本。本公开实施例为了解决文本交互量较低,推广有效度较低的问题,可以选取交互量较低的文本作为第一文本,以便为该第一文本建立属性图,后续可以基于属性图对第一文本进行推荐,由于人们往往会关注存在相关关系的文本,因此,在相关文本下推荐交互量较低的文本,可以提高用户对交互量较低文本的关注度,一定程度上可以提高交互量较低文本的推荐成功率。
可选的,本公开实施例中在上述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本的操作之前,如图3所示,还可以包括:
步骤S21、根据所述文本库中除所述第一文本之外的其他文本,确定所述第二文本。
本公开实施例中,由于选取的第一文本为文本库中交互量小于预设交互阈值的文本,而文本库中除第一文本之外的其他文本,可以有交互量小于预设交互阈值的文本,也可以有交互量大于预设交互阈值的文本,则在确定第二文本时,一种实施方式可以是,将文本库中除第一文本之外、且交互量大于预设交互阈值的文本作为第二文本,即,第二文本可以仅是交互量大于预设交互阈值的文本,这样,后续在从第二文本中确定备选文本时,可以使得确定的备选文本也是交互量大于预设交互阈值的文本,在利用备选文本建立第一文本的属性图时,可以确定第一文本与交互量较高的文本之间的相关关系,以及后续基于属性图对第一文本进行推荐时,可以在交互量较高的文本下推荐第一文本,一定程度上可以提高第一文本的交互量,从而可以提高文本推荐的有效性。
需要说明的是,在确定第二文本时,另一种实施方式可以是,直接将文本库中除第一文本之外的文本作为第二文本,即,第二文本可以是交互量大于预设交互阈值的文本,也可以是交互量小于预设交互阈值的文本。这样,通过增加第二文本的数量,在之后从第二文本中确定备选文本时,也可以增加备选文本的数量,而在利用备选文本建立第一文本的属性图时,可以确定第一文本与多个不同文本之间的相关关系,后续基于属性图对第一文本进行推荐时,可以提高第一文本的推荐次数以及推荐范围,从而一定程度上可以提高第一文本与用户的交互量。
步骤S22、对所述第二文本进行分词处理,生成所述第二文本对应的关键词。
本公开实施例中,可以是先利用预设分词方法对第二文本进行分词处理,再对得到的分词结果进行过滤,筛除标点符号、停用词等非关键词,将过滤得到的分词结果作为第二文本对应的关键词。其中,预设分词方法具体可以如前所述,在此不再赘述。
步骤S23、利用预设全文搜索算法,基于所述关键词建立所述第二文本对应的索引词。
本公开实施例中,预设全文搜索算法可以是顺序扫描法,也可以是索引扫描法,例如,预设全文搜索算法可以是Elasticsearch(分布式全文检索),也可以是WHOOSH(全文检索),也可以是SOLR(企业级搜索应用服务器),对此本公开实施例不作限制。利用预设全文搜索算法,基于关键词建立第二文本对应的索引词,可以是在对每一第二文本,通过分词处理得到该第二文本对应的关键词之后,针对多个第二文本可以得到多个关键词,利用预设全文搜索算法对多个关键词进行扫描,当关键词仅出现一次,则可以基于该关键词搜索得到对应的一个第二文本,可以将该关键词作为该第二文本对应的索引词,当关键词出现次数为X,X为大于1的正整数,则可以基于该关键词搜索得到对应的X个第二文本,可以将该关键词作为X个第二文本对应的索引词。
可选的,本公开实施例中上述基于所述关键词建立所述第二文本对应的索引词的操作,可以具体包括:
确定所述关键词与所述第二文本之间的映射关系;根据所述映射关系生成所述第二文本对应的倒排索引词。
示例的,第二文本1中的关键词可以有[通信、5G、微基站],则关键词与第二文本之间的映射关系可以表示为第二文本1-[通信、5G、微基站],第二文本2中的关键词可以有[软件、通信、微基站],则关键词与第二文本之间的映射关系可以表示为第二文本2-[软件、通信、微基站],第二文本3中的关键词可以有[通信、5G、微基站、分区],则关键词与第二文本之间的映射关系可以表示为第二文本3-[通信、5G、微基站、分区],第二文本4中的关键词可以有[通信、5G、配置],则关键词与第二文本之间的映射关系可以表示为第二文本4-[通信、5G、配置],根据上述映射关系生成第二文本对应的倒排索引词,可以得到倒排索引词有“通信”、“5G”、“微基站”、“软件”、“分区”、“配置”,其中,倒排索引词“通信”可以检索对应有第二文本1、第二文本2、第二文本3、第二文本4,倒排索引词“5G”可以检索对应有第二文本1、第二文本3、第二文本4,倒排索引词“微基站”可以检索对应有第二文本1、第二文本2、第二文本3,等等,以此类推。
需要说明的是,在一种实现方式中,可以将第二文本中的作者、文本类别、标签词、标题,也作为第二文本对应的关键词,则可以确定该关键词与第二文本之间的映射关系,根据映射关系生成第二文本对应的倒排索引词,这样可以将作者、文本类别、标签词、标题作为第二文本对应的倒排索引词。例如,映射关系可以是第二文本1-[作者1、文本类别1、标签词1、标题1、通信、5G、微基站],则可以得到倒排索引词分别为“作者1”、“文本类别1”、“标签词1”、“标题1”,“通信”、“5G”、“微基站”,且上述倒排索引词可以分别检索对应为第二文本1。
可选的,本公开实施例中上述对所述第一文本进行分词处理,确定所述第一文本对应的查询词的操作,如图4所示,可以具体包括:
步骤S1021、对所述第一文本进行分词处理,得到所述第一文本的分词结果。
本公开实施例中,可以利用预设分词方法对第一文本进行分词处理得到第一文本的分词结果,具体的,可以是获取第一文本中包含的字符串,对该字符串利用预设分词方法进行分词处理,将得到的结果作为第一文本的分词结果。
步骤S1022、对所述分词结果进行过滤,将过滤后的分词结果作为所述第一文本对应的查询词。
本公开实施例中,可以对得到的分词结果进行过滤,删除标点符号、连接词、语气词等,将过滤后的分词结果作为第一文本对应的查询词。例如,得到分词结果为“首先、金融、股票、是吗”,可以先对分词结果进行过滤,删除“首先”、“是吗”,则可以得到第一文本对应的查询词为“金融、股票”。
可选的,本公开实施例中上述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本的操作,如图5所示,可以具体包括:
步骤S1031、在所述索引词集中,将与所述查询词相同的倒排索引词,作为目标索引词。
示例的,查询词可以为“金融、股票”,而索引词集中的倒排索引词可以有“金融”、“股票”、“期货”、“基金”,与查询词相同的倒排索引词为“金融”、“股票”,则可以确定目标索引词为“金融”、“股票”。
步骤S1032、根据所述第二文本与所述倒排索引词的映射关系,将所述目标索引词对应的第二文本作为所述第一文本对应的备选文本。
示例的,与查询词相同的倒排索引词为“金融、股票”,即,目标索引词为“金融”、“股票”,而第二文本与倒排索引词的映射关系可以为金融-文本012,股票-文本035,则可以确定目标索引词“金融”对应的第二文本为文本012,目标索引词“股票”对应的第二文本为文本035,即,第一文本对应的备选文本为文本012和文本035。
可选的,本公开实施例中上述计算所述第一文本与所述备选文本之间的相关性得分,包括:
利用预设的文本相关性算法对所述第一文本与所述备选文本进行处理计算,确定所述第一文本与所述备选文本之间的相关性得分。
本公开实施例中,文本相关性算法可以是语义匹配算法,也可以是非语义匹配算法,比如,文本相关算法可以是TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数统计方法),也可以是BM25算法。具体的,可以是对第一文本进行语素解析,生成语素信息,然后,在备选文本中,针对每个语素信息进行搜索,得到针对每个语素信息的搜索结果,计算每个语素信息与对应的搜索结果之间的相关性得分,最后,将所有语素信息与对应的搜索结果之间的相关性得分进行加权求和,将求和结果作为第一文本与备选文本之间的相关性得分。
本公开实施例中,相较于相关文本处理方法,在建立文本的属性图时,是将文本全部内容直接加载到内存中来建立文本的属性图,导致文本处理时对内存的消耗较大,且对属性图的规模限制较大。而本公开实施例中,通过确定文本的查询词与索引词,可以快速确定文本的关联文本,从而可以便于建立文本与关联文本之间的属性图,简化了操作内容,也一定程度上提高了文本处理的效率。
本公开实施例中,由于选取的第一文本为与用户交互量较小的文本,通过建立第一文本的属性图,属性图中第一文本对应的关联文本往往是与用户交互量较大的文本,在实际应用中,比如,在对第一文本向用户进行推荐时,可以在交互量较大的关联文本处,推送第一文本,从而可以一定程度上提高第一文本的交互量,实现对第一文本的个性化推荐。
示例的,图6是本公开实施例提供的一种文本处理流程的示意图,如图6所示,11,对文本库中的每一文本进行分词处理,12,从文本库中确定第二文本,并建立第二文本的倒排索引词,13,从文本库中确定第一文本,并生成第一文本的查询词,14,在倒排索引词中查找第一文本对应的备选文本,15,计算第一文本与备选文本之间的相关性得分,16,根据相关性得分确定第一文本对应的关联文本。
需要说明的是,本公开实施例提供的文本处理方法,执行主体可以为文本处理装置,或者,或者该文本处理装置中的用于执行加载文本处理方法的控制模块。本公开实施例中以文本处理装置执行加载文本处理方法为例,说明本公开实施例提供的文本处理方法。接下来,参考图7对本公开示例性实施方式的文本处理装置进行描述。
图7是本公开实施例提供的一种文本处理装置的方框图,如图7所示,该文本处理装置50可以包括:
第一确定模块501,用于从文本库中确定第一文本;
第一分词模块502,用于对所述第一文本进行分词处理,确定所述第一文本对应的查询词;
查找模块503,用于通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;
计算模块504,用于计算所述第一文本与所述备选文本之间的相关性得分;
第二确定模块505,用于根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
综上所述,本公开实施例提供的文本处理装置,可以先从文本库中确定第一文本,再对第一文本进行分词处理,确定第一文本对应的查询词,通过查询词在索引词集中进行查找,确定第一文本对应的备选文本,索引词集是根据文本库中的多个第二文本确定的,并计算第一文本与备选文本之间的相关性得分,最后,根据相关性得分,从备选文本中确定第一文本对应的关联文本,以便基于关联文本建立第一文本的属性图。这样,通过确定文本的查询词与索引词,可以快速确定文本的相关文本,从而可以便于建立文本与相关文本之间的属性图,简化了操作内容,也一定程度上提高了文本处理的效率。
可选的,所述装置50还包括:
选取模块,用于根据所述文本库中除所述第一文本之外的其他文本,确定所述第二文本;
第二分词模块,用于对所述第二文本进行分词处理,生成所述第二文本对应的关键词;
建立模块,用于利用预设全文搜索算法,基于所述关键词建立所述第二文本对应的索引词。
可选的,所述建立模块,还用于:
确定所述关键词与所述第二文本之间的映射关系;
根据所述映射关系生成所述第二文本对应的倒排索引词。
可选的,所述倒排索引词包括所述第二文本的作者、文本类别、标签词、标题。
可选的,所述查找模块503,还用于:
在所述索引词集中,将与所述查询词相同的倒排索引词,作为目标索引词;
根据所述第二文本与所述倒排索引词的映射关系,将所述目标索引词对应的第二文本作为所述第一文本对应的备选文本。
可选的,所述计算模块504,还用于:
利用预设的文本相关性算法对所述第一文本与所述备选文本进行处理计算,确定所述第一文本与所述备选文本之间的相关性得分。
可选的,所述第一分词模块502,还用于:
对所述第一文本进行分词处理,得到所述第一文本的分词结果;
对所述分词结果进行过滤,将过滤后的分词结果作为所述第一文本对应的查询词。
可选的,所述第一确定模块501,包括:
对所述文本库中的每一文本,确定用户与所述文本的交互量;
将所述交互量小于预设交互阈值的文本,作为所述第一文本。
在介绍了本公开示例性实施方式的文本处理方法和装置之后,接下来,参考图8对本公开示例性实施方式的存储介质进行说明。
参考图8所示,描述了根据本公开的实施方式的用于实现上述方法的存储介质600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图9对本公开示例性实施方式的电子设备进行说明。
图9中所示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行步骤S101、从文本库中确定第一文本;步骤S102、对所述第一文本进行分词处理,确定所述第一文本对应的查询词;步骤S103、通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;步骤S104、计算所述第一文本与所述备选文本之间的相关性得分;步骤S105、根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备70(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了音频播放装置和音频分享装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
从文本库中确定第一文本;
对所述第一文本进行分词处理,确定所述第一文本对应的查询词;
通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;
计算所述第一文本与所述备选文本之间的相关性得分;
根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
2.根据权利要求1所述的方法,其特征在于,在所述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本之前,还包括:
根据所述文本库中除所述第一文本之外的其他文本,确定所述第二文本;
对所述第二文本进行分词处理,生成所述第二文本对应的关键词;
利用预设全文搜索算法,基于所述关键词建立所述第二文本对应的索引词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述关键词建立所述第二文本对应的索引词,包括:
确定所述关键词与所述第二文本之间的映射关系;
根据所述映射关系生成所述第二文本对应的倒排索引词。
4.根据权利要求3所述的方法,其特征在于,所述通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本,包括:
在所述索引词集中,将与所述查询词相同的倒排索引词,作为目标索引词;
根据所述第二文本与所述倒排索引词的映射关系,将所述目标索引词对应的第二文本作为所述第一文本对应的备选文本。
5.根据权利要求1所述的方法,其特征在于,所述计算所述第一文本与所述备选文本之间的相关性得分,包括:
利用预设的文本相关性算法对所述第一文本与所述备选文本进行处理计算,确定所述第一文本与所述备选文本之间的相关性得分。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一文本进行分词处理,确定所述第一文本对应的查询词,包括:
对所述第一文本进行分词处理,得到所述第一文本的分词结果;
对所述分词结果进行过滤,将过滤后的分词结果作为所述第一文本对应的查询词。
7.根据权利要求1-6中任一所述的方法,其特征在于,所述从文本库中确定第一文本,包括:
对所述文本库中的每一文本,确定用户与所述文本的交互量;
将所述交互量小于预设交互阈值的文本,作为所述第一文本。
8.一种文本处理装置,其特征在于,所述装置包括:
第一确定模块,用于从文本库中确定第一文本;
第一分词模块,用于对所述第一文本进行分词处理,确定所述第一文本对应的查询词;
查找模块,用于通过所述查询词在索引词集中进行查找,确定所述第一文本对应的备选文本;所述索引词集是根据所述文本库中的多个第二文本确定的;
计算模块,用于计算所述第一文本与所述备选文本之间的相关性得分;
第二确定模块,用于根据所述相关性得分,从所述备选文本中确定所述第一文本对应的关联文本,以便基于所述关联文本建立所述第一文本的属性图。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的文本处理方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任一项所述的文本处理方法。
CN202210128335.6A 2022-02-11 2022-02-11 文本处理方法及装置、存储介质、电子设备 Pending CN114492371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210128335.6A CN114492371A (zh) 2022-02-11 2022-02-11 文本处理方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210128335.6A CN114492371A (zh) 2022-02-11 2022-02-11 文本处理方法及装置、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN114492371A true CN114492371A (zh) 2022-05-13

Family

ID=81480143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210128335.6A Pending CN114492371A (zh) 2022-02-11 2022-02-11 文本处理方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN114492371A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407280A (zh) * 2016-08-26 2017-02-15 合网络技术(北京)有限公司 查询目标匹配方法及装置
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质
CN113434636A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于语义的近似文本搜索方法、装置、计算机设备及介质
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407280A (zh) * 2016-08-26 2017-02-15 合网络技术(北京)有限公司 查询目标匹配方法及装置
WO2021189951A1 (zh) * 2020-10-21 2021-09-30 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质
CN112749344A (zh) * 2021-02-04 2021-05-04 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备、存储介质及程序产品
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质
CN113434636A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于语义的近似文本搜索方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
US9436918B2 (en) Smart selection of text spans
US20130060769A1 (en) System and method for identifying social media interactions
CN107291792B (zh) 用于确定相关实体的方法和***
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US10970324B2 (en) System for generation of automated response follow-up
CN102214208B (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
US10073839B2 (en) Electronically based thesaurus querying documents while leveraging context sensitivity
US10229187B2 (en) System for determination of automated response follow-up
CN116911312B (zh) 一种任务型对话***及其实现方法
CN110472013B (zh) 一种热门话题更新方法、装置和计算机存储介质
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
US11275777B2 (en) Methods and systems for generating timelines for entities
US11361031B2 (en) Dynamic linguistic assessment and measurement
WO2010132062A1 (en) System and methods for sentiment analysis
Orimaye et al. Performance and trends in recent opinion retrieval techniques
US20230090601A1 (en) System and method for polarity analysis
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN114742062B (zh) 文本关键词提取处理方法及***
CN111126073A (zh) 语义检索方法和装置
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
CN111368036B (zh) 用于搜索信息的方法和装置
CN114492371A (zh) 文本处理方法及装置、存储介质、电子设备
KR102351264B1 (ko) 사용자 맞춤형 신간 도서 정보의 제공 방법 및 그 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination