CN116306514B - 一种文本处理方法及装置、电子设备、存储介质 - Google Patents

一种文本处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN116306514B
CN116306514B CN202310576920.7A CN202310576920A CN116306514B CN 116306514 B CN116306514 B CN 116306514B CN 202310576920 A CN202310576920 A CN 202310576920A CN 116306514 B CN116306514 B CN 116306514B
Authority
CN
China
Prior art keywords
media data
target
target media
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310576920.7A
Other languages
English (en)
Other versions
CN116306514A (zh
Inventor
颜子涵
王卿云
亓克娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN202310576920.7A priority Critical patent/CN116306514B/zh
Publication of CN116306514A publication Critical patent/CN116306514A/zh
Application granted granted Critical
Publication of CN116306514B publication Critical patent/CN116306514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本处理方法及装置、电子设备、存储介质,所述方法包括:获取多个语料数据;多个语料数据包括目标媒体数据和目标热门文本;分别抽取出各个语料数据的关键词,以及分析出各个语料数据所属的情感类别;基于各个语料数据的关键词和所属的情感类别,将各个目标媒体数据与各个目标热门文本进行匹配;提取出各个目标媒体数据中的实体词;分别针对每个目标媒体数据,按照预设规则对提取出的目标媒体数据中的实体词进行改写;将改写后的目标媒体数据中的实体词添加至与目标媒体数据匹配的目标热门文本中,得到目标媒体数据的初始平行语句;将目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到目标媒体数据的最终平行语句。

Description

一种文本处理方法及装置、电子设备、存储介质
技术领域
本申请涉及评论生成技术领域,特别涉及一种文本处理方法及装置、电子设备、存储介质。
背景技术
随着网络媒体的不断发展,其受众也越来越多。并且,当前用户在关注媒体内容本身外,还会对媒体内容进行评论、了解其他用户的观点评论,并与其进行交互等。所以一条好的评论,可以有使得用户更加关注评论内容以及参与到评论中,从而可以有效提高用户在应用或网站中的参与度以及互动性。因此,当前不少的媒体应用或网站会根据发布的媒体的信息,尝试自动生成一些评论,以激起用户的兴趣或反馈。
当前对于评论的自动生成,主要是通过人工构建平行语料,然后通过平行语料训练文本生成模型,从而可以通过将媒体内容数据输入训练好的文本生成模型,由于文本生成模型匹配出相应的文本,作为媒体内容对应的评论。即人工针对媒体的相关文本信息,例如文章的标题或具体内容、视频的文案或相关信息等,然后人工搜寻出可以吸引用户,并且适用于评论该媒体内容的文本,与该媒体的相关文本信息共同构成一个平行语料。
但是,人工所构建的平行语料会受到人工的文化水平以及个人喜好等主观因素的影响,所以利用这些平行语料所构建出的模型的输出结果,常常无法符合大众的兴趣,并且通过模型匹配出相应的文本,也无法很好与媒体内容相适应,无法有效体现出媒体内容原有意义,所以现有的方式生成的评论很难激起用户的兴趣以及反馈。
发明内容
基于上述现有技术的不足,本申请提供了一种文本处理方法及装置、电子设备、存储介质,以解决现有技术生产的评论无法有效激起用户兴趣及反馈的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请第一方面提供了一种文本处理方法,包括:
获取多个语料数据;其中,多个所述语料数据包括多个目标媒体数据以及多个目标热门文本;
分别抽取出各个所述语料数据的关键词,以及分析出各个所述语料数据所属的情感类别;
基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配;
提取出各个所述目标媒体数据中的实体词;
分别针对每个所述目标媒体数据,按照预设规则对提取出的所述目标媒体数据中的实体词进行改写;
将改写后的所述目标媒体数据中的实体词添加至与所述目标媒体数据匹配的所述目标热门文本中,得到所述目标媒体数据的初始平行语句;
将所述目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到所述目标媒体数据的最终平行语句。
可选地,在上述的文本处理方法中,所述分别抽取出各个所述语料数据的关键词,包括:
分别对各个所述语料数据进行分词,得到各个所述语料数据对应的分词;
利用CRF算法以及词性标注工具包对各个所述语料数据对应的分词进行词性标注;
从各个所述语料数据对应的分词中,筛选出词性属于指定词性的目标分词;
利用TF-IDF算法从所述目标分词中筛选出各个所述语料数据的关键词。
可选地,在上述的文本处理方法中,所述基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配,包括:
分别针对每个所述目标媒体数据,筛选出与所述目标媒体数据所属的情感类型相同的各个所述目标热门文本;
基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度;
基于所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,选取出与所述目标媒体数据匹配的所述目标热门文本。
可选地,在上述的文本处理方法中,所述分别抽取出各个所述语料数据的关键词之后,还包括:
识别出各个所述语料数据的各个关键词所属的词汇类型;
其中,所述基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,包括:
分别针对筛选出的各个所述目标热门文本,分别基于各个所述词汇类型的所述目标媒体数据的关键词以及所述目标热门文本的关键词,计算得到所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度;
对所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度进行加权计算,得到所述目标媒体数据与所述目标热门文本的相似度。
可选地,在上述的文本处理方法中,所述将所述目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到所述目标媒体数据的最终平行语句之后,还包括:
将所述目标媒体数据输入评论生成模型中,通过所述评论生成模型确定所述目标媒体数据中的关键词以及所属的情感类型;
通过所述评论生成模型,基于所述目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板;
通过所述评论生成模型将所述目标媒体数据中的关键词改写后,代入匹配出的所述热门文本模板中,得到所述目标媒体数据对应的当前评论文本并输出;
通过将所述目标媒体数据对应的当前评论文本与所述目标媒体数据的最终平行语句进行对比,计算所述评论生成模型的当前损失;
判断所述评论生成模型的当前损失是否收敛;
若判断出所述评论生成模型的当前损失未收敛,则调整所述评论生成模型的参数,并返回执行所述将所述目标媒体数据输入评论生成模型中;
若判断出所述评论生成模型的当前损失已收敛,则结束对所述评论生成模型的训练。
本申请第二方面提供了一种文本处理装置,包括:
语料获取单元,用于获取多个语料数据;其中,多个所述语料数据包括多个目标媒体数据以及多个目标热门文本;
关键词抽取单元,用于分别抽取出各个所述语料数据的关键词;
情感分析单元,用于分析出各个所述语料数据所属的情感类别;
匹配单元,用于基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配;
提取单元,用于提取出各个所述目标媒体数据中的实体词;
改写单元,用于分别针对每个所述目标媒体数据,按照预设规则对提取出的所述目标媒体数据中的实体词进行改写;
添加单元,用于将改写后的所述目标媒体数据中的实体词添加至与所述目标媒体数据匹配的所述目标热门文本中,得到所述目标媒体数据的初始平行语句;
调整单元,用于将所述目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到所述目标媒体数据的最终平行语句。
可选地,在上述的文本处理装置中,所述关键词抽取单元,包括:
分词单元,用于分别对各个所述语料数据进行分词,得到各个所述语料数据对应的分词;
标注单元,用于利用CRF算法以及词性标注工具包对各个所述语料数据对应的分词进行词性标注;
第一筛选单元,用于从各个所述语料数据对应的分词中,筛选出词性属于指定词性的目标分词;
第二筛选单元,用于利用TF-IDF算法从所述目标分词中筛选出各个所述语料数据的关键词。
可选地,在上述的文本处理装置中,所述匹配单元,包括:
第三筛选单元,用于分别针对每个所述目标媒体数据,筛选出与所述目标媒体数据所属的情感类型相同的各个所述目标热门文本;
第一计算单元,用于基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度;
第四筛选单元,用于基于所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,选取出与所述目标媒体数据匹配的所述目标热门文本。
可选地,在上述的文本处理装置中,还包括:
识别单元,用于识别出各个所述语料数据的各个关键词所属的词汇类型;
其中,所述第一计算单元,包括:
第二计算单元,用于分别针对筛选出的各个所述目标热门文本,分别基于各个所述词汇类型的所述目标媒体数据的关键词以及所述目标热门文本的关键词,计算得到所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度;
第三计算单元,用于对所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度进行加权计算,得到所述目标媒体数据与所述目标热门文本的相似度。
可选地,在上述的文本处理装置中,还包括:
输入单元,用于将所述目标媒体数据输入评论生成模型中,通过所述评论生成模型确定所述目标媒体数据中的关键词以及所属的情感类型;
文本处理单元,用于通过所述评论生成模型,基于所述目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板;
文本融合单元,用于通过所述评论生成模型将所述目标媒体数据中的关键词改写后,代入匹配出的所述热门文本模板中,得到所述目标媒体数据对应的当前评论文本并输出;
损失计算单元,用于通过将所述目标媒体数据对应的当前评论文本与所述目标媒体数据的最终平行语句进行对比,计算所述评论生成模型的当前损失;
判断单元,用于判断所述评论生成模型的当前损失是否收敛;
参数调整单元,用于在判断出所述评论生成模型的当前损失未收敛时,则调整所述评论生成模型的参数,并返回所述输入单元;
结束单元,用于在判断出所述评论生成模型的当前损失已收敛时,结束对所述评论生成模型的训练。
本申请第三方面提供了一种电子设备,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的文本处理方法。
本申请第四方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的文本处理方法。
本申请提供了一种文本处理方法,先获取多个语料数据。其中,多个语料数据包括多个目标媒体数据以及多个目标热门文本。然后分别抽取出各个语料数据的关键词,以及分析出各个语料数据所属的情感类别,以能基于各个语料数据的关键词以及所属的情感类别,将各个目标媒体数据与各个目标热门文本进行匹配,以使得进行任何的目标热门文本适用目标媒体数据的。接着提取出各个目标媒体数据中的实体词,并分别针对每个目标媒体数据,按照预设规则对提取出的目标媒体数据中的实体词进行改写。然后将改写后的目标媒体数据中的实体词添加至与目标媒体数据匹配的目标热门文本中,得到目标媒体数据的初始平行语句。最后为了能让语句更加通顺,将目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到目标媒体数据的最终平行语句。从而实现了将目标媒体数据中的信息与目标热门文本进行融合,得到通顺的目标媒体数据的评论。由于热门文本可以有效引起用户的关注,而通过媒体数据中的信息与匹配的热门文本进行融合,可以有效的保证评论反映出与媒体数据的原意,进而可以有效激起用户的兴趣,参于到评论中。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种文本处理方法的流程图;
图2为本申请实施例提供的一种分别抽取出各个语料数据的关键词的方法的流程图;
图3为本申请实施例提供的一种将目标媒体数据与目标热门文本进行匹配的方法的流程图;
图4为本申请实施例提供的一种计算目标媒体数据与目标热门文本的相似度的方法的流程图;
图5为本申请实施例提供的一种评论生成模型的训练方法的流程图;
图6为本申请实施例提供的一种文本处理装置的架构示意图;
图7为本申请实施例提供的一种电子设备的架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种文本处理方法,如图1所示,具体包括以下步骤:
S101、获取多个语料数据。
其中,多个语料数据包括多个目标媒体数据以及多个目标热门文本。
具体的,目标媒体数据指代与媒体内容相关的指定数据,例如,可以是文章的标题、文章的摘要、视频的标题、视频的文案等。目标热门文本则指的是指定的当前网络上比较热门的话术对应的文本。
由于当前的热门文本是当前最受大众追捧的文本,所以在本申请实施例中,采用其来构建媒体数据的评论,可以有效保证所构建出的评论能吸引到用户。
S102、分别抽取出各个语料数据的关键词,以及分析出各个语料数据所属的情感类别。
需要说明的是,为了使得所生成目标媒体数据的评论,可以与目标媒体数据相适应,有效反映出目标媒体数据的原意。所以在本申请实施例中,需要查找出与目标媒体数据最适合的目标热门文本进行融合。
由于一个文本的所要表达的意思,主要是由其关键词所表达出来的,所以在本申请实施例中,需要抽取出语料数据中的关键词,以能基于各个语料数据的关键词,将各个目标媒体数据与各个目标热门文本进行匹配。
而一个目标媒体数据所要体现的情感也是非常重要的。一个与其情感一致的评论,可以更准确的表达出目标媒体数据所要表达的意思。加上评论的情感类型若是与目标媒体数据不一致,不仅可能无法准确表达目标媒体数据所要表达的原意,无法引起用户的兴趣,并且还有可能会让用户出现反感。例如,对于正向、积极情感的目标媒体数据,则可以采用一些正向、幽默的评论,而对于一些消极情感的目标媒体数据,或者是比较严肃的目标媒体数据,若是采用了比较幽默的评论,显然会引起用户的反感。所以在本申请实施例中,还需要分析出各个语料数据所属的情感类别。
可选地,对于情感类型可以根据需求进行划分,例如,具体可以划分为政务、消极、积极以及通用。其中,属于政务情感类型的媒体数据,主要是一些比较严肃的时事媒体数据。属于消极情感类型的媒体数据,主要是一些表达负面情绪的媒体数据。而属于积极清单类型的媒体数据,主要是一些比较愉快等正向情绪的媒体数据。而不属于前面三种类型的媒体数据,则可以划分为通用的情感类型。
可选地,本申请另一实施例提供了一种分别抽取出各个语料数据的关键词的方法,如图2所示,包括以下步骤:
S201、分别对各个语料数据进行分词,得到各个语料数据对应的分词。
S202、利用CRF算法以及词性标注工具包对各个语料数据对应的分词进行词性标注。
由于文本不同词性的词汇,对文本意思的表达所占的比值不同,即不同词汇在文本中的重要性不同,例如名词往往比介词重要,所以需要对各个分词进行词性标注,以便于基于词性进行关键词筛选。
S203、从各个语料数据对应的分词中,筛选出词性属于指定词性的目标分词。
S204、利用TF-IDF算法从目标分词中筛选出各个语料数据的关键词。
需要说明的是,通过TF-IDF算法可以计算出各个目标分词在语料中的重要程度,所以可以基于重要程度从中实现出各个语料数据的关键词。
S103、基于各个语料数据的关键词以及所属的情感类别,将各个目标媒体数据与各个目标热门文本进行匹配。
具体的,针对每个目标媒体数据,查找出所属情感类型与该目标媒体数据一致,并且在关键词上与目标媒体数据比较相近的目标热门文本,作为与目标媒体数据匹配的目标热门文本。
其中,一个目标媒体数据可以匹配一个或多个目标热门文本。
可选地,在本申请另一实施例中,步骤S103的一种具体实施方式,如图3所示,包括以下步骤:
S301、分别针对每个目标媒体数据,筛选出与目标媒体数据所属的情感类型相同的各个目标热门文本。
S302、基于目标媒体数据的关键词以及筛选出的各个目标热门文本的关键词,分别计算目标媒体数据与筛选出的各个目标热门文本的相似度。
可选地,可以是基于关键词的词性以及类型等,计算出目标媒体数据与筛选出的各个目标热门文本在关键词上的相似度。
可选地,在本申请另一实施例中,在执行步骤S102抽取出各个语料数据的关键词之后,还进一步执行:
识别出各个语料数据的各个关键词所属的词汇类型。
相应的,在本申请实施例中提供了一种步骤302的实施方式,如图4所示,包括:
S401、分别针对筛选出的各个目标热门文本,分别基于各个词汇类型的目标媒体数据的关键词以及该目标热门文本的关键词,计算得到目标媒体数据与该目标热门文本在各个词汇类型上的相似度。
需要说明的是,在本申请实施例中主要是基于目标媒体数据与目标热门文本在关键词的词汇类型的相似程度,计算目标媒体数据与目标热门文本的相似度。
S402、对目标媒体数据与该目标热门文本在各个词汇类型上的相似度进行加权计算,得到目标媒体数据与该目标热门文本的相似度。
S303、基于目标媒体数据与筛选出的各个目标热门文本的相似度,选取出与目标媒体数据匹配的目标热门文本。
可选地,可以是选取相似度大于预设阈值的目标热门文本作为目标媒体数据匹配的目标热门文本,或者是选取相似度排序在前N位的目标热门文本作为匹配的目标热门文本。
S104、提取出各个目标媒体数据中的实体词。
为了使得生成的目标媒体数据的评论与目标媒体数据可以与目标媒体数据更加贴近,所以在本申请实施例中,会从各个目标媒体数据中提取出实体词,然后将实体词融入目标热门文本中。
可选地,可以是从目标媒体数据中提取出人物实体、地点实体等。
S105、分别针对每个目标媒体数据,按照预设规则对提取出的该目标媒体数据中的实体词进行改写。
由于提取出的实体词需要融入到目标热门文本中,而考虑到直接将实体词融入目标热门文本中,可能存在句子不完整,或者不够通顺等问题。因此在本申请实施例中,需要先按照预先规则对提取出的目标媒体数据汇总的实体词进行改写,例如,对实体词增加一些前缀或者后缀文本等。
S106、将改写后的该目标媒体数据中的实体词添加至与该目标媒体数据匹配的目标热门文本中,得到该目标媒体数据的初始平行语句。
可选地,通常是通过代替的方式将目标媒体数据中的实体词添加至与目标媒体数据匹配的目标热门文本中,例如,针对对人物实体增加一些前缀或者后缀文本,替换目标热门文本中的“你”,让目标媒体数据和目标热门文本之间产生实体关联。当然,也可以采用直接***等方式将实体词添加至目标热门文本中,具体可以根据实体词以及目标热门文本的结构进行选择。
S107、将该目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到该目标媒体数据的最终平行语句。
由于目标媒体数据的初始平行语句是直接通过将实体词,添加至目标热门文本中得到的,所起其可能存在不通顺,或者比较拗口,不容易等问题,因此在本申请实施例中,最后还会将目标媒体数据的初始平行语句输入文本改写模型中进行调整,以能得到读起来更加自然、通顺的评论。
可选地,可以采用RoFormer-Sim模型作为文本改写模型,对初始平行语句进行改写。
在通过上述方法构建出平行语料后,则可以利用所构建出的平行语料进行模型的训练。所以可选地,在本申请另一实施例中,在执行步骤S107之后,还进一步提供了一种评论生成模型的训练方法,如图5所示,具体包括以下步骤:
S501、将目标媒体数据输入评论生成模型中,通过评论生成模型确定目标媒体数据中的关键词以及所属的情感类型。
S502、通过评论生成模型,基于目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板。
S503、通过评论生成模型将目标媒体数据中的关键词改写后,代入匹配出的热门文本模板中,得到目标媒体数据对应的当前评论文本并输出。
可选地,可以根据Prompt模板对文本进行情感分析,并按照Prompt形式进行文本融合。其中,是否需要与一个热门文本模板融合,则由模型自行判断。
S504、通过将目标媒体数据对应的当前评论文本与目标媒体数据的最终平行语句进行对比,计算评论生成模型的当前损失。
S505、判断评论生成模型的当前损失是否收敛。
其中,若判断出评论生成模型的当前损失未收敛,则执行步骤S506。若判断出评论生成模型的当前损失已收敛,则执行步骤S507。
S506、调整评论生成模型的参数。
其中,在执行不足S506之后,返回执行步骤S501。
S507、结束对评论生成模型的训练。
本申请实施例提供了一种文本处理方法,先获取多个语料数据。其中,多个语料数据包括多个目标媒体数据以及多个目标热门文本。然后分别抽取出各个语料数据的关键词,以及分析出各个语料数据所属的情感类别,以能基于各个语料数据的关键词以及所属的情感类别,将各个目标媒体数据与各个目标热门文本进行匹配,以使得进行任何的目标热门文本适用目标媒体数据的。接着提取出各个目标媒体数据中的实体词,并分别针对每个目标媒体数据,按照预设规则对提取出的目标媒体数据中的实体词进行改写。然后将改写后的目标媒体数据中的实体词添加至与目标媒体数据匹配的目标热门文本中,得到目标媒体数据的初始平行语句。最后为了能让语句更加通顺,将目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到目标媒体数据的最终平行语句。从而实现了将目标媒体数据中的信息与目标热门文本进行融合,得到通顺的目标媒体数据的评论。由于热门文本可以有效引起用户的关注,而通过媒体数据中的信息与匹配的热门文本进行融合,可以有效的保证评论反映出与媒体数据的原意,进而可以有效激起用户的兴趣,参于到评论中。
本申请另一实施例提供了一种文本处理装置,如图6所示,包括以下单元:
语料获取单元601,用于获取多个语料数据。
其中,多个语料数据包括多个目标媒体数据以及多个目标热门文本。
关键词抽取单元602,用于分别抽取出各个语料数据的关键词。
情感分析单元603,用于分析出各个语料数据所属的情感类别。
匹配单元604,用于基于各个语料数据的关键词以及所属的情感类别,将各个目标媒体数据与各个目标热门文本进行匹配。
提取单元605,用于提取出各个目标媒体数据中的实体词。
改写单元606,用于分别针对每个目标媒体数据,按照预设规则对提取出的目标媒体数据中的实体词进行改写。
添加单元607,用于将改写后的目标媒体数据中的实体词添加至与目标媒体数据匹配的目标热门文本中,得到目标媒体数据的初始平行语句。
调整单元608,用于将目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到目标媒体数据的最终平行语句。
可选地,在本申请另一实施例提供的文本处理装置中,关键词抽取单元,包括:
分词单元,用于分别对各个语料数据进行分词,得到各个语料数据对应的分词。
标注单元,用于利用CRF算法以及词性标注工具包对各个语料数据对应的分词进行词性标注。
第一筛选单元,用于从各个语料数据对应的分词中,筛选出词性属于指定词性的目标分词。
第二筛选单元,用于利用TF-IDF算法从目标分词中筛选出各个语料数据的关键词。
可选地,在本申请另一实施例提供的文本处理装置中,匹配单元,包括:
第三筛选单元,用于分别针对每个目标媒体数据,筛选出与目标媒体数据所属的情感类型相同的各个目标热门文本。
第一计算单元,用于基于目标媒体数据的关键词以及筛选出的各个目标热门文本的关键词,分别计算目标媒体数据与筛选出的各个目标热门文本的相似度。
第四筛选单元,用于基于目标媒体数据与筛选出的各个目标热门文本的相似度,选取出与目标媒体数据匹配的目标热门文本。
可选地,在本申请另一实施例提供的文本处理装置中,还包括:
识别单元,用于识别出各个语料数据的各个关键词所属的词汇类型。
其中,第一计算单元,包括:
第二计算单元,用于分别针对筛选出的各个目标热门文本,分别基于各个词汇类型的目标媒体数据的关键词以及目标热门文本的关键词,计算得到目标媒体数据与目标热门文本在各个词汇类型上的相似度。
第三计算单元,用于对目标媒体数据与目标热门文本在各个词汇类型上的相似度进行加权计算,得到目标媒体数据与目标热门文本的相似度。
可选地,在本申请另一实施例提供的文本处理装置中,还包括:
输入单元,用于将目标媒体数据输入评论生成模型中,通过评论生成模型确定目标媒体数据中的关键词以及所属的情感类型。
文本处理单元,用于通过评论生成模型,基于目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板。
文本融合单元,用于通过评论生成模型将目标媒体数据中的关键词改写后,代入匹配出的热门文本模板中,得到目标媒体数据对应的当前评论文本并输出。
损失计算单元,用于通过将目标媒体数据对应的当前评论文本与目标媒体数据的最终平行语句进行对比,计算评论生成模型的当前损失。
判断单元,用于判断评论生成模型的当前损失是否收敛。
参数调整单元,用于在判断出评论生成模型的当前损失未收敛时,则调整评论生成模型的参数,并返回输入单元。
结束单元,用于在判断出评论生成模型的当前损失已收敛时,结束对评论生成模型的训练。
需要说明的是,本申请上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应步骤的实施过程,此处不再赘述。
本申请另一实施例提供了一种电子设备,如图7所示,包括:
存储器701和处理器702。
其中,存储器701用于存储程序。
处理器702用于执行存储器701存储的程序,该程序被执行时,具体用于实现如上述任意一个实施例提供的文本处理方法。
本申请另一实施例提供了一种计算机存储介质,用于存储计算机程序,计算机程序被执行时,用于实现如上述任意一个实施例提供的文本处理方法。
计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种文本处理方法,其特征在于,包括:
获取多个语料数据;其中,多个所述语料数据包括多个目标媒体数据以及多个目标热门文本;
分别抽取出各个所述语料数据的关键词,以及分析出各个所述语料数据所属的情感类别;
基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配;
提取出各个所述目标媒体数据中的实体词;
分别针对每个所述目标媒体数据,按照预设规则对提取出的所述目标媒体数据中的实体词进行改写;
将改写后的所述目标媒体数据中的实体词添加至与所述目标媒体数据匹配的所述目标热门文本中,得到所述目标媒体数据的初始平行语句;
将所述目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到所述目标媒体数据的最终平行语句;
将所述目标媒体数据输入评论生成模型中,通过所述评论生成模型确定所述目标媒体数据中的关键词以及所属的情感类型;
通过所述评论生成模型,基于所述目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板;
通过所述评论生成模型将所述目标媒体数据中的关键词改写后,代入匹配出的所述热门文本模板中,得到所述目标媒体数据对应的当前评论文本并输出;
通过将所述目标媒体数据对应的当前评论文本与所述目标媒体数据的最终平行语句进行对比,计算所述评论生成模型的当前损失;
判断所述评论生成模型的当前损失是否收敛;
若判断出所述评论生成模型的当前损失未收敛,则调整所述评论生成模型的参数,并返回执行所述将所述目标媒体数据输入评论生成模型中;
若判断出所述评论生成模型的当前损失已收敛,则结束对所述评论生成模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述分别抽取出各个所述语料数据的关键词,包括:
分别对各个所述语料数据进行分词,得到各个所述语料数据对应的分词;
利用CRF算法以及词性标注工具包对各个所述语料数据对应的分词进行词性标注;
从各个所述语料数据对应的分词中,筛选出词性属于指定词性的目标分词;
利用TF-IDF算法从所述目标分词中筛选出各个所述语料数据的关键词。
3.根据权利要求1所述的方法,其特征在于,所述基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配,包括:
分别针对每个所述目标媒体数据,筛选出与所述目标媒体数据所属的情感类型相同的各个所述目标热门文本;
基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度;
基于所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,选取出与所述目标媒体数据匹配的所述目标热门文本。
4.根据权利要求3所述的方法,其特征在于,所述分别抽取出各个所述语料数据的关键词之后,还包括:
识别出各个所述语料数据的各个关键词所属的词汇类型;
其中,所述基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,包括:
分别针对筛选出的各个所述目标热门文本,分别基于各个所述词汇类型的所述目标媒体数据的关键词以及所述目标热门文本的关键词,计算得到所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度;
对所述目标媒体数据与所述目标热门文本在各个所述词汇类型上的相似度进行加权计算,得到所述目标媒体数据与所述目标热门文本的相似度。
5.一种文本处理装置,其特征在于,包括:
语料获取单元,用于获取多个语料数据;其中,多个所述语料数据包括多个目标媒体数据以及多个目标热门文本;
关键词抽取单元,用于分别抽取出各个所述语料数据的关键词;
情感分析单元,用于分析出各个所述语料数据所属的情感类别;
匹配单元,用于基于各个所述语料数据的关键词以及所属的情感类别,将各个所述目标媒体数据与各个所述目标热门文本进行匹配;
提取单元,用于提取出各个所述目标媒体数据中的实体词;
改写单元,用于分别针对每个所述目标媒体数据,按照预设规则对提取出的所述目标媒体数据中的实体词进行改写;
添加单元,用于将改写后的所述目标媒体数据中的实体词添加至与所述目标媒体数据匹配的所述目标热门文本中,得到所述目标媒体数据的初始平行语句;
调整单元,用于将所述目标媒体数据的初始平行语句输入文本改写模型中进行调整,得到所述目标媒体数据的最终平行语句;
输入单元,用于将目标媒体数据输入评论生成模型中,通过评论生成模型确定目标媒体数据中的关键词以及所属的情感类型;
文本处理单元,用于通过评论生成模型,基于目标媒体数据中的关键词以及所属的情感类型,匹配出对应的热门文本模板;
文本融合单元,用于通过评论生成模型将目标媒体数据中的关键词改写后,代入匹配出的热门文本模板中,得到目标媒体数据对应的当前评论文本并输出;
损失计算单元,用于通过将目标媒体数据对应的当前评论文本与目标媒体数据的最终平行语句进行对比,计算评论生成模型的当前损失;
判断单元,用于判断评论生成模型的当前损失是否收敛;
参数调整单元,用于在判断出评论生成模型的当前损失未收敛时,则调整评论生成模型的参数,并返回输入单元;
结束单元,用于在判断出评论生成模型的当前损失已收敛时,结束对评论生成模型的训练。
6.根据权利要求5所述的装置,其特征在于,所述关键词抽取单元,包括:
分词单元,用于分别对各个所述语料数据进行分词,得到各个所述语料数据对应的分词;
标注单元,用于利用CRF算法以及词性标注工具包对各个所述语料数据对应的分词进行词性标注;
第一筛选单元,用于从各个所述语料数据对应的分词中,筛选出词性属于指定词性的目标分词;
第二筛选单元,用于利用TF-IDF算法从所述目标分词中筛选出各个所述语料数据的关键词。
7.根据权利要求5所述的装置,其特征在于,所述匹配单元,包括:
第三筛选单元,用于分别针对每个所述目标媒体数据,筛选出与所述目标媒体数据所属的情感类型相同的各个所述目标热门文本;
第一计算单元,用于基于所述目标媒体数据的关键词以及筛选出的各个所述目标热门文本的关键词,分别计算所述目标媒体数据与筛选出的各个所述目标热门文本的相似度;
第四筛选单元,用于基于所述目标媒体数据与筛选出的各个所述目标热门文本的相似度,选取出与所述目标媒体数据匹配的所述目标热门文本。
8.一种电子设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器用于存储程序;
所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如权利要求1至4任意一项所述的文本处理方法。
9.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,用于实现如权利要求1至4任意一项所述的文本处理方法。
CN202310576920.7A 2023-05-22 2023-05-22 一种文本处理方法及装置、电子设备、存储介质 Active CN116306514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310576920.7A CN116306514B (zh) 2023-05-22 2023-05-22 一种文本处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310576920.7A CN116306514B (zh) 2023-05-22 2023-05-22 一种文本处理方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN116306514A CN116306514A (zh) 2023-06-23
CN116306514B true CN116306514B (zh) 2023-09-08

Family

ID=86820626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310576920.7A Active CN116306514B (zh) 2023-05-22 2023-05-22 一种文本处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN116306514B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
CN109241402A (zh) * 2018-07-31 2019-01-18 成都华栖云科技有限公司 一种基于新闻内容的虚拟评论机器导入方法
CN110287278A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 评论生成方法、装置、服务器及存储介质
CN110956021A (zh) * 2019-11-14 2020-04-03 微民保险代理有限公司 一种原创文章的生成方法、装置、***及服务器
CN111723184A (zh) * 2020-06-15 2020-09-29 腾讯科技(深圳)有限公司 评论内容的生成方法和装置
CN111783468A (zh) * 2020-06-28 2020-10-16 百度在线网络技术(北京)有限公司 文本处理方法、装置、设备和介质
CN112533051A (zh) * 2020-11-27 2021-03-19 腾讯科技(深圳)有限公司 弹幕信息显示方法、装置、计算机设备和存储介质
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113079417A (zh) * 2021-03-25 2021-07-06 北京百度网讯科技有限公司 生成弹幕的方法、装置、设备和存储介质
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN114090764A (zh) * 2021-11-19 2022-02-25 南京一盏神灯网络信息科技有限公司 一种评论自动生成方法
CN114218930A (zh) * 2021-09-30 2022-03-22 北京搜狗科技发展有限公司 一种标题生成方法、装置和用于标题生成的装置
CN114238617A (zh) * 2021-12-21 2022-03-25 深圳供电局有限公司 一种行业热点推荐方法及***
CN115563268A (zh) * 2022-10-21 2023-01-03 中国建设银行股份有限公司 一种文本摘要的生成方法及装置、电子设备、存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153723A (zh) * 2017-12-27 2018-06-12 北京百度网讯科技有限公司 热点资讯评论文章生成方法、装置及终端设备
CN109241402A (zh) * 2018-07-31 2019-01-18 成都华栖云科技有限公司 一种基于新闻内容的虚拟评论机器导入方法
CN110287278A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 评论生成方法、装置、服务器及存储介质
CN110956021A (zh) * 2019-11-14 2020-04-03 微民保险代理有限公司 一种原创文章的生成方法、装置、***及服务器
CN111723184A (zh) * 2020-06-15 2020-09-29 腾讯科技(深圳)有限公司 评论内容的生成方法和装置
CN111783468A (zh) * 2020-06-28 2020-10-16 百度在线网络技术(北京)有限公司 文本处理方法、装置、设备和介质
WO2021139229A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 文本修辞句的生成方法、装置、设备及可读存储介质
CN112533051A (zh) * 2020-11-27 2021-03-19 腾讯科技(深圳)有限公司 弹幕信息显示方法、装置、计算机设备和存储介质
CN112836487A (zh) * 2021-02-07 2021-05-25 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113079417A (zh) * 2021-03-25 2021-07-06 北京百度网讯科技有限公司 生成弹幕的方法、装置、设备和存储介质
CN114218930A (zh) * 2021-09-30 2022-03-22 北京搜狗科技发展有限公司 一种标题生成方法、装置和用于标题生成的装置
CN114090764A (zh) * 2021-11-19 2022-02-25 南京一盏神灯网络信息科技有限公司 一种评论自动生成方法
CN114238617A (zh) * 2021-12-21 2022-03-25 深圳供电局有限公司 一种行业热点推荐方法及***
CN115563268A (zh) * 2022-10-21 2023-01-03 中国建设银行股份有限公司 一种文本摘要的生成方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全局用户意图的评论自动估价方法研究;陆军;洪宇;陆剑江;姚建民;朱巧明;;中文信息学报(第05期);全文 *

Also Published As

Publication number Publication date
CN116306514A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN106328147B (zh) 语音识别方法和装置
US9948595B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN109710841B (zh) 评论推荐方法和装置
US10217058B2 (en) Predicting interesting things and concepts in content
WO2019100350A1 (en) Providing a summary of a multimedia document in a session
CN109726274B (zh) 问题生成方法、装置及存储介质
Malandrakis et al. Distributional semantic models for affective text analysis
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
US20180107636A1 (en) Method and apparatus for establishing sentence editing model, sentence editing method and apparatus
CN104836720A (zh) 交互式通信中进行信息推荐的方法及装置
CN110895656B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN106610990B (zh) 情感倾向性分析的方法及装置
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN110851650B (zh) 一种评论输出方法、装置、以及计算机存储介质
CN111931073B (zh) 内容推送方法、装置、电子设备及计算机可读介质
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN111046172A (zh) 一种舆情分析方法、装置、设备和存储介质
CN114860992A (zh) 视频的标题生成方法、装置、设备及存储介质
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN108959268B (zh) 一种文本情感分析方法及装置
CN112527963B (zh) 基于词典的多标签情感分类方法及装置、设备、存储介质
CN109472032A (zh) 一种实体关系图的确定方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant