CN110263146A - 文本排序方法、装置及计算机可读存储介质 - Google Patents

文本排序方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110263146A
CN110263146A CN201910431363.3A CN201910431363A CN110263146A CN 110263146 A CN110263146 A CN 110263146A CN 201910431363 A CN201910431363 A CN 201910431363A CN 110263146 A CN110263146 A CN 110263146A
Authority
CN
China
Prior art keywords
text
value
target text
target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910431363.3A
Other languages
English (en)
Inventor
袁翔
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910431363.3A priority Critical patent/CN110263146A/zh
Publication of CN110263146A publication Critical patent/CN110263146A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本排序方法、装置及计算机可读存储介质,该方法包括:获取目标文本;根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种;至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序;按照所述排序显示每一所述目标文本。

Description

文本排序方法、装置及计算机可读存储介质
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种文本排序方法、一种文本排序装置以及一种计算机可读存储介质。
背景技术
目前,智能用户声音产品通过搜集站内反馈、舆情、服务热线等多渠道数据,并对多渠道数据进行分析,可以挖掘出用户在使用产品中的真实需求和体验痛点,为运营决策和产品设计提供关键依据。每个渠道数据都有各自的特点,比如服务热线渠道数据通常为用户投诉或者咨询信息,舆情渠道数据通常为一些风险事件信息,站内反馈渠道数据通常为用户建议等。
现有技术中,多渠道数据的内容通常是基于用户信息维度计算质量分,并将该质量分作为多渠道数据排序的依据。用户信息包括用户行为信息和用户画像信息。用户行为信息包括用户访问的内容信息、用户收藏的内容信息和用户的浏览时长信息。用户画像信息包括用户等级信息、用户职业信息、用户年龄信息。
这种基于用户维度信息计算多渠道数据的质量分的方式,并没有真实体现出多渠道数据的内容质量,导致得到的多渠道数据的排序的可靠性和准确性较差。
发明内容
本发明的一个目的是提供一种用于文本排序显示的新技术方案。
根据本发明的第一方面,提供了一种文本排序方法,包括:
获取目标文本;
根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种;
至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序;
按照所述排序显示每一所述目标文本。
可选地,在根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值之前,所述方法还包括获取每一所述目标文本的所述文本长度值:
对所述目标文本的停用词进行过滤,得到过滤后的目标文本;
统计所述过滤后的目标文本的字数,并将所述字数作为所述目标文本的文本长度值。
可选地,在根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值之前,所述方法还包括获取每一所述目标文本的所述业务关键词命中信息值:
利用关键词提取方法提取所述目标文本的关键词;
获得所述目标文本所属业务类别的业务关键词;
将所述目标文本的关键词和所述目标文本所属业务类别的业务关键词进行比对,获得所述目标文本命中的业务关键词;
确定所述目标文本命中的业务关键词的命中信息值。
可选地,至少根据每一所述目标文本的所述内容质量分数值对所有所述目标文本进行排序,包括:
根据每一所述目标文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,对所有所述目标文本进行排序;
其中,每一所述目标文本基于文本类别维度的类别质量分数值是根据文本所属业务类别信息确定,所述文本所属业务类别信息包括所述文本所属业务类别的概率值和所述文本所属业务类别对应的权重值。
可选地,在根据文本所属业务类别信息确定每一所述目标文本基于文本类别维度的类别质量分数值之前,所述方法还包括获取每一目标文本所属业务类别的概率值:
利用深度学习模型预测得到所述目标文本对应的各业务类别的概率值;
从所述目标文本对应的各业务类别的概率值中筛选得到最高概率值,并将所述最高概率值记作为所述目标文本所属业务类别的概率值。
可选地,在按照所述排序显示每一所述目标文本之前,所述方法还包括:
获得每一所述目标文本所属业务类别的标签信息;
在按照所述排序显示每一所述目标文本的同时,基于每一所述目标文本均相应显示对应的所属业务类别的标签信息。
可选地,至少根据每一所述目标文本的所述内容质量分数值对所有所述目标文本进行排序,包括:
基于多个来源渠道,根据每一所述目标文本的所述内容质量分数值和每一所述目标文本在各自来源渠道所处的排序位置对应的位置权重值,对所有所述目标文本进行排序;
其中,每一个来源渠道的相邻排序位置的位置权重值相差一个数量级,且不同来源渠道的同一排序位置对应的位置权重值是相同的。
可选地,在按照所述排序显示每一所述目标文本之前,所述方法还包括:
获取每一所述目标文本的来源渠道的标签信息;
在按照所述排序显示每一所述目标文本的同时,基于每一所述目标文本均相应显示对应的来源渠道的标签信息。
根据本发明的第二方面,提供了一种文本排序装置,包括:
获取模块,用于获取目标文本;
质量分数值确定模块,用于根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种;
排序模块,用于至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序;
显示模块,用于按照所述排序显示每一所述目标文本。
根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器用于存储可执行的指令;所述处理器用于根据所述指令的控制执行根据第一方面中任意一项所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据第一方面中任意一项所述的方法。
本发明实施例提供的文本排序方法,从目标文本的内容出发,确定目标文本的质量分数值,提高了目标文本的质量分数值的确定的可靠性和专准确性,使得可以从大量目标文本中挖掘出高质量、高价值的内容,从而提高运营效率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是可用于实现本发明任意实施例的文本排序方法的电子设备的硬件配置的框图。
图2是根据本发明一个实施例的文本排序方法的处理流程图。
图3是根据本发明一个实施例的用户反馈文本的显示示意图。
图4是根据本发明另一个实施例的用户反馈文本的显示示意图。
图5是根据本发明另一个实施例的各用户反馈文本的显示示意图。
图6为根据本发明实施例的文本排序装置的原理框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是可用于实现本发明任意实施例的文本排序方法的电子设备的硬件配置的框图。
在一个实施例中,电子设备1000可以是服务器,也可以是终端设备。
服务器提供处理、数据库、通讯设施的业务点。服务器可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的,例如但不限于,网络服务器,新闻服务器,邮件服务器,消息服务器,广告服务器,文件服务器,应用服务器,交互服务器,数据库服务器,或代理服务器。在一些实施例中,每个服务器可以包括硬件,软件,或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如,服务器例如刀片服务器、云端服务器等,或者可以是由多台服务器组成的服务器群组,可以包括上述类型的服务器中的一种或多种等等。
终端设备可以是手机、平板电脑、笔记本电脑中任一种。
在一个例子中,电子设备1000可以如图1所示,包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。
其中,处理器1100例如可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口、红外接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏、LED显示屏触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘等。
尽管在图1中对电子设备1000均示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及存储器1200和处理器1100。
应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100执行本发明实施例提供的文本排序方法。
在上述描述中,技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<方法实施例>
图2是根据本发明一个实施例的文本排序方法的处理流程图。
根据图2所示,该文本排序方法可以包括以下步骤S2100-S2400。
步骤S2100,获取目标文本。
在一个实施例中,目标文本可以是用户反馈文本。
该用户反馈文本可以来自不同的来源渠道,例如,服务热线渠道、产品站内反馈渠道、微博渠道等。
该用户反馈文本可以是用户提交的文本格式的意见或建议,还可以是由采集的用户声音信息转化得到的文本内容。
步骤S2200,根据文本内容信息确定每一目标文本基于文本内容维度的内容质量分数值,其中,文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种。
文本长度值用于考量文本内容表达的完整性。文本长度值越大表示文本内容的表达越完整。
图片数量值用于考量文本内容表达的丰富性。图片数量值越大表示文本内容的表达越丰富。
在本发明实施例中,根据文本长度值、图片数量值和业务关键词命中信息值任一值,或者,根据文本长度值、图片数量值和业务关键词命中信息值中任两个值,或者,根据文本长度值、图片数量值和业务关键词命中信息值这三个值,确定目标文本基于文本内容维度的内容质量分数值。
当根据文本长度值、图片数量值和业务关键词命中信息值这三个值确定目标文本基于文本内容维度的内容质量分数值时,可以基于以下计算式(1)得到目标文本基于文本内容维度的内容质量分数值content_score,
其中,content_length为目标文本的文本长度值,image_count为目标文本的图片数量值,keywordn为目标文本命中的第n个业务关键词的命中信息值。
需要说明地是,图片数量值的重要性低于文本长度值的重要性,因此,在一个实施例中,利用自然对数函数对图片数量值进行处理,以降低图片数量值的重要性,即利用ln(image_count+2)表示图片数量值。
当根据文本长度值、图片数量值和业务关键词命中信息值这三个值确定目标文本基于文本内容维度的内容质量分数值时,基于以下计算式(2)得到目标文本基于文本内容维度的内容质量分数值content_score,
其中,content_length为目标文本的文本长度值,image_count为目标文本的图片数量值,keywordn为目标文本命中的第n个业务关键词的命中信息值。
步骤S2300,至少根据每一目标文本的内容质量分数值对所有目标文本进行排序。
在一个实施例中,根据每一目标文本的内容质量分数值对所有目标文本进行降序排序,使得内容质量分数值较高的目标文本排列在前,内容质量分数值较低的目标文本排列在后。
步骤S2400,按照排序显示每一目标文本。
本发明实施例提供的文本排序方法,从目标文本的内容出发,确定目标文本的质量分数值,提高了目标文本的质量分数值的确定的可靠性和准确性,使得可以从大量目标文本中挖掘出高质量、高价值的内容,从而提高运营效率。
在一个实施例中,在执行步骤S2200之前,该文本排序方法还可以包括步骤S2500,获取每一目标文本的文本长度值。该步骤可以包括以下步骤S2510-S2520。
步骤S2510,对目标文本的停用词进行过滤,得到过滤后的目标文本。
停用词为语言中没有实际意义的功能词,例如,语气助词、副词、介词、连接词、限定词等。
步骤S2520,统计过滤后的目标文本的字数,并将字数作为目标文本的文本长度值。
在一个实施例中,在执行步骤S2200之前,该文本排序方法还可以包括步骤S2600,获取每一目标文本的业务关键词命中信息值。该步骤可以包括以下步骤S2610-S2640。
步骤S2610,利用关键词提取方法提取目标文本的关键词。
利用TF-IDF(Term Frequency–Inverse Document Frequency)关键词提取方法或者TextRank关键词提取方法提取目标文本的关键词。
步骤S2620,获得目标文本所属业务类别的业务关键词。
首先,利用深度学习模型预测得到目标文本所属业务类别。该深度学习模型可以是TextCNN模型或者FastText模型。然后,获得目标文本所属业务类别的业务关键词。
具体地,利用标注有不同业务类别信息的大量文本,对深度学习模型进行训练,得到训练后的深度学习模型。利用训练后的深度学习模型,预测得到目标文本对应的各业务类别的概率值,从目标文本对应的各业务类别的概率值中筛选得到最高概率值,并将最高概率值对应的业务类别信息记作为目标文本所属业务类别。然后,获取预存的文本所属业务类别与业务关键词的对应关系。利用目标文本所属业务类别,从该对应关系中查找得到目标文本所属业务类别的业务关键词。
步骤S2630,将目标文本的关键词和目标文本所属业务类别的业务关键词进行比对,获得目标文本命中的业务关键词。
步骤S2640,确定目标文本命中的业务关键词的命中信息值。
当利用TF-IDF关键词提取方法提取目标文本的关键词时,将目标文本命中的业务关键词的TF-IDF得分值作为命中信息值。当利用TextRank关键词提取方法提取目标文本的关键词时,将目标文本命中的业务关键词在目标文本出现的次数作为命中信息值。在本发明的一个实施例中,在根据文本内容信息确定每一目标文本基于文本内容维度的内容质量分数值之外,该文本排序方法还可以包括步骤S2700,根据文本所属业务类别信息确定每一目标文本基于文本类别维度的类别质量分数值,其中,文本所属业务类别信息包括文本所属业务类别的概率值和文本所属业务类别对应的权重值。
文本所属业务类别的概率值可以通过以下方式获得:利用深度学习模型预测得到目标文本对应的各业务类别的概率值;从目标文本对应的各业务类别的概率值中筛选得到最高概率值,并将最高概率值记作为目标文本所属业务类别的概率值。
文本所属业务类别对应的权重值可以根据业务类别的数量得到,即为或者其中,class_n为业务类别的数量。或者,文本所属业务类别对应的权重值可以根据各业务类别的重要程度进行设定。
在该实施例中,基于以下计算式(3)得到目标文本基于文本类别维度的类别质量分数值category_score,
其中,tag_score为目标文本所属业务类别的概率值,为目标文本所属业务类别的概率值。
在该实施例中,步骤S2300可以包括:根据每一目标文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,对所有目标文本进行排序。
具体地,根据每一目标文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,得到每一目标文本的多维度质量分数值。例如,基于以下计算式(4)得到每一目标文本的多维度质量分数值Multidimensional_score,
Multidimensional_score=content_score+category_score—计算式(4)。然后,利用每一目标文本的多维度质量分数值,对所有目标文本进行排序。
在本发明实施例中,基于文本质量维度和文本类别维度确定每一目标文本的质量分数值,提高了文本的质量分数值的确定的全面性和准确性。
在本发明的一个实施例中,在执行步骤S2400之前,该文本排序方法还可以包括步骤S2800,获得每一目标文本所属业务类别的标签信息,在按照排序显示每一目标文本的同时,基于每一目标文本均相应显示对应的所属业务类别的标签信息。
例如,当目标文本为用户反馈文本时,业务类别的标签信息至少包括产品投诉、产品建议、产品咨询。
图3是根据本发明一个实施例的用户反馈文本的显示示意图。
在本实施例中,图3显示的用户反馈文本是经过图2示出的文本排序方法处理的。在显示每一用户反馈文本对应的内容时,在用户反馈文本对应的内容的下方显示对应的所属业务类别的标签信息。
根据图3所示,在电子设备显示界面显示第一条用户反馈文本时,在该条用户反馈文本的下方显示有“产品投诉”的标签信息。在电子设备显示界面显示第二条用户反馈文本时,在该条用户反馈文本的下方显示有“产品建议”的标签信息。在电子设备显示界面显示第三条用户反馈文本时,在该条用户反馈文本的下方显示有“产品咨询”的标签信息。
目标文本可以是来自同一来源渠道,也可以是来自不同来源渠道。
当目标文本来自不同来源渠道时,可能会存在来自同一来源渠道的目标文本的质量分数值都较高,导致显示界面显示的目标文本均来自同一来源渠道,以致来自其他来源渠道的目标文本显示靠后或者被淹没的问题。为了解决这一技术问题,在本发明的一个实施例中,在执行步骤S2400之前,该文本排序方法还可以包括步骤S2900,基于每一个来源渠道,获取各排序位置对应的位置权重值,其中,相邻排序位置的位置权重值相差一个数量级,且不同来源渠道的同一排序位置对应的位置权重值是相同的。
以降序排序方式为例,每一个来源渠道包括n个排序位置,分别为每一个排序位置赋予一个位置权重值,该n个排序位置的位置权重值分别为10n、10n-1、10n-2、……102、10。
在该实施例中,步骤S2300可以包括:基于多个来源渠道,至少根据每一目标文本的内容质量分数值和每一目标文本在各自来源渠道所处的排序位置对应的位置权重值,对所有目标文本进行排序。
具体地,首先获取每一目标文本在各自来源渠道所处的排序位置,然后获得每一目标文本在各自来源渠道所处的排序位置对应的位置权重值,根据每一目标文本基于文本内容维度的质量分数值和每一目标文本在各自来源渠道所处的排序位置对应的位置权重值,得到每一目标文本的质量分数值。例如,基于以下计算式(5)得到每一目标文本的质量分数值score,
score=content_score*weight_n—计算式(5),
其中,weight_n为目标文本在其来源渠道所处的排序位置对应的位置权重值。然后,利用每一目标文本的质量分数值,对所有目标文本进行排序,可以达到来自不同来源渠道的目标文本自动交叉排序的效果。
当某一来源渠道新增一个目标文本时,获得该目标文本在该来源渠道所处的排序位置对应的位置权重值。然后,根据该目标文本基于文本内容维度的质量分数值和该目标文本在该来源渠道所处的排序位置对应的位置权重值,得到该目标文本的质量分数值。之后,对包括有新增目标文本的所有目标文本进行排序,并不会影响位于新增目标文本之前的目标文本的顺序,可以实现稳定排序的效果。
为了能够从显示界面上体现出来自不同来源渠道的目标文本自动交叉稳定排序的效果,该文本排序方法还包括:获取每一目标文本的来源渠道的标签信息;在按照排序显示每一目标文本的同时,基于每一目标文本均相应显示对应的来源渠道的标签信息。
以目标文本为用户反馈文本为例,用户反馈文本的来源渠道包括APP反馈渠道、微博反馈渠道和服务热线反馈渠道。每一来源渠道均包括5个用户反馈文本。
表1示出了每一个来源渠道的各用户反馈文本降序排序后的质量分数值。
表1
基于每一个来源渠道,按照降序排序的方式,第1-5个排序位置对应的位置权重值分别为105、104、103、102、10。
基于上述计算式(5),得到各用户反馈文本的最终质量分数值,具体参见表2。
表2
利用表2示出的各用户反馈文本的最终质量分数值,对所有用户反馈文本进行降序排序,并按照该排序显示各用户反馈文本以及各用户反馈文本对应的来源渠道的标签信息。
图4是根据本例子的用户反馈文本的显示示意图。
根据图4所示,电子设备显示界面显示的第一条用户反馈文本为来自APP反馈渠道、最终质量分数值为9.5*105对应的用户反馈文本。
电子设备显示界面显示的第二条用户反馈文本为来自微博反馈渠道、最终质量分数值为5.5*105对应的用户反馈文本。
电子设备显示界面显示的第三条用户反馈文本为来自服务热线反馈渠道、最终质量分数值为1.5*105对应的用户反馈文本。
电子设备显示界面显示的第四条用户反馈文本为来自APP反馈渠道、最终质量分数值为9.4*104对应的用户反馈文本。
电子设备显示界面显示的第五条用户反馈文本为来自微博反馈渠道、最终质量分数值为5.4*104对应的用户反馈文本。
电子设备显示界面显示的第六条用户反馈文本为来自服务热线反馈渠道、最终质量分数值为1.4*104对应的用户反馈文本。
由图4可以看出,用户反馈文本在显示时,可以达到来自上述三个来源渠道的用户反馈文本自动交叉稳定排序的效果。
<例子>
在本例子中,目标文本为用户反馈文本。用户反馈文本所属业务类别的标签信息包括产品投诉、产品建议、产品咨询。用户反馈文本的来源渠道包括APP反馈渠道、微博反馈渠道和服务热线反馈渠道。
该文本排序方法可以包括以下步骤S501-S511。
步骤S501,获取各用户反馈文本。
步骤S502,基于每一用户反馈文本,获取用户反馈文本的文本长度值、图片数量值和业务关键词命中信息值。
用户反馈文本的文本长度值可以参照上述步骤S2510-S2520涉及的处理操作。
用户反馈文本的业务关键词命中信息值可以参照上述步骤S2610-S2640。
步骤S503,基于每一用户反馈文本,根据用户反馈文本的文本长度值、图片数量值和业务关键词命中信息值,确定用户反馈文本基于文本内容维度的内容质量分数值。
具体地,参照上述计算式(1)或者计算式(2)得到每一用户反馈文本基于文本内容维度的内容质量分数值。
步骤S504,基于每一用户反馈文本,获取用户反馈文本所属业务类别的概率值和文本所属业务类别对应的权重值。
用户反馈文本所属业务类别的概率值可以通过以下方式获得:利用深度学习模型预测得到用户反馈文本对应的各业务类别的概率值;从用户反馈文本对应的各业务类别的概率值中筛选得到最高概率值,并将最高概率值记作为用户反馈文本所属业务类别的概率值。
文本所属业务类别对应的权重值可以根据业务类别的数量得到,即为或者其中,class_n为业务类别的数量。
步骤S505,基于每一用户反馈文本,根据用户反馈文本所属业务类别的概率值和用户反馈文本所属业务类别对应的权重值,确定用户反馈文本基于文本类别维度的类别质量分数值。
具体地,参照上述计算式(3)得到每一用户反馈文本基于文本类别维度的类别质量分数值。
步骤S506,基于每一用户反馈文本,根据用户反馈文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,得到用户反馈文本的多维度质量分数值。
具体地,参照上述计算式(4)得到每一用户反馈文本的多维度质量分数值。
步骤S507,获取每一用户反馈文本在各自来源渠道所处的排序位置对应的位置权重值。其中,基于每一个来源渠道,相邻排序位置的位置权重值相差一个数量级。不同来源渠道的同一排序位置对应的位置权重值是相同的。
步骤S508,基于每一用户反馈文本,根据用户反馈文本的多维度质量分数值和用户反馈文本在各自来源渠道所处的排序位置对应的位置权重值,得到用户反馈文本的最终质量分数值。
基于以下计算式(6)得到每一用户反馈文本的最终质量分数值final_score,
final_score=Multidimensional_score*weight_n—计算式(6)。weight_n为用户反馈文本在其来源渠道所处的排序位置对应的位置权重值。
步骤S509,根据每一用户反馈文本的最终质量分数值对所有用户反馈文本进行降序排序。
步骤S510,基于每一用户反馈文本,获取每一用户反馈文本所属业务类别的标签信息和来源渠道的标签信息。
步骤S511,按照排序显示每一用户反馈文本,以及,显示每一用户反馈文本所属业务类别的标签信息和来源渠道的标签信息。
图5是根据本例子的各用户反馈文本的显示示意图。
根据图5所示,在显示各用户反馈文本的同时,在每一用户反馈文本的下方还显示有所属业务类别的标签信息和来源渠道的标签信息,并且,来自上述三个来源渠道的用户反馈文本自动交叉稳定排序。
<装置实施例>
图6为根据本发明实施例的文本排序装置的原理框图。
根据图6所示,本实施例的文本排序装置6000可以包括获取模块6100、质量分数值确定模块6200、排序模块6300、显示模块6400。
获取模块6100用于获取目标文本。
质量分数值确定模块6200用于根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种。
排序模块6300用于至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序。
显示模块6400用于按照所述排序显示每一所述目标文本。
在一个实施例中,获取模块6100还用于获取每一目标文本的文本长度值。获取模块6100在获取每一目标文本的文本长度值具体用于:对目标文本的停用词进行过滤,得到过滤后的目标文本;统计过滤后的目标文本的字数,并将字数作为目标文本的文本长度值。
在一个实施例中,获取模块6100还用于获取每一目标文本的业务关键词命中信息值。获取模块6100在获取每一目标文本的业务关键词命中信息值具体用于:利用关键词提取方法提取目标文本的关键词;获得目标文本所属业务类别的业务关键词;将目标文本的关键词和目标文本所属业务类别的业务关键词进行比对,获得目标文本命中的业务关键词;确定目标文本命中的业务关键词的命中信息值。
在一个实施例中,获取模块6100还用于获得每一目标文本所属业务类别的标签信息。显示模块6400还用于在按照排序显示每一目标文本的同时,基于每一目标文本均相应显示对应的所属业务类别的标签信息。
在一个实施例中,质量分数值确定模块6200还用于根据文本所属业务类别信息确定每一目标文本基于文本类别维度的类别质量分数值,其中,文本所属业务类别信息包括文本所属业务类别的概率值和文本所属业务类别对应的权重值。排序模块6300还用于根据每一目标文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,对所有目标文本进行排序。
在该实施例中,获取模块6100还用于每一目标文本所属业务类别的概率值。获取模块6100在获取每一目标文本的业务关键词命中信息值具体用于:利用深度学习模型预测得到目标文本对应的各业务类别的概率值;从目标文本对应的各业务类别的概率值中筛选得到最高概率值,并将最高概率值记作为目标文本所属业务类别的概率值。
在一个实施例中,获取模块6100还用于基于每一个来源渠道,获取各排序位置对应的位置权重值,其中,相邻排序位置的位置权重值相差一个数量级,且不同来源渠道的同一排序位置对应的位置权重值是相同的。排序模块6300还用于基于多个来源渠道,至少根据每一目标文本的内容质量分数值和每一目标文本在各自来源渠道所处的排序位置对应的位置权重值,对所有目标文本进行排序。
在该实施例中,获取模块6100还用于获取每一目标文本的来源渠道的标签信息。显示模块6400还用于在按照排序显示每一所述目标文本的同时,基于每一目标文本均相应显示对应的来源渠道的标签信息。
<电子设备实施例>
在一个实施例中,电子设备1000可以包括根据本发明任意实施例的文本排序装置6000,用于实施本发明任意实施例的文本排序方法。
在另一个实施例中,电子设备1000可以包括处理器1100和存储器1200。该存储器1200用于存储可执行的指令,该处理器1100用于根据指令的控制运行电子设备1000执行根据本发明任意实施例的文本排序方法。
<计算机可读存储介质>
在本实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本发明任意实施例的文本排序方法。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (11)

1.一种文本排序方法,包括:
获取目标文本;
根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种;
至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序;
按照所述排序显示每一所述目标文本。
2.根据权利要求1所述的方法,其中,在根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值之前,所述方法还包括获取每一所述目标文本的所述文本长度值:对所述目标文本的停用词进行过滤,得到过滤后的目标文本;
统计所述过滤后的目标文本的字数,并将所述字数作为所述目标文本的文本长度值。
3.根据权利要求1所述的方法,其中,在根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值之前,所述方法还包括获取每一所述目标文本的所述业务关键词命中信息值:
利用关键词提取方法提取所述目标文本的关键词;
获得所述目标文本所属业务类别的业务关键词;
将所述目标文本的关键词和所述目标文本所属业务类别的业务关键词进行比对,获得所述目标文本命中的业务关键词;
确定所述目标文本命中的业务关键词的命中信息值。
4.根据权利要求1所述的方法,至少根据每一所述目标文本的所述内容质量分数值对所有所述目标文本进行排序,包括:
根据每一所述目标文本基于文本内容维度的质量分数值和基于文本类别维度的类别质量分数值,对所有所述目标文本进行排序;
其中,每一所述目标文本基于文本类别维度的类别质量分数值是根据文本所属业务类别信息确定,所述文本所属业务类别信息包括所述文本所属业务类别的概率值和所述文本所属业务类别对应的权重值。
5.根据权利要求4所述的方法,其中,所述文本所属业务类别的概率值通过以下方式确定:
利用深度学习模型预测得到所述目标文本对应的各业务类别的概率值;
从所述目标文本对应的各业务类别的概率值中筛选得到最高概率值,并将所述最高概率值记作为所述目标文本所属业务类别的概率值。
6.根据权利要求1所述的方法,其中,在按照所述排序显示每一所述目标文本之前,所述方法还包括:
获得每一所述目标文本所属业务类别的标签信息;
在按照所述排序显示每一所述目标文本的同时,基于每一所述目标文本均相应显示对应的所属业务类别的标签信息。
7.根据权利要求1-6中任一所述的方法,其中,
至少根据每一所述目标文本的所述内容质量分数值对所有所述目标文本进行排序,包括:
基于多个来源渠道,根据每一所述目标文本的所述内容质量分数值和每一所述目标文本在各自来源渠道所处的排序位置对应的位置权重值,对所有所述目标文本进行排序;
其中,每一个来源渠道的相邻排序位置的位置权重值相差一个数量级,且不同来源渠道的同一排序位置对应的位置权重值是相同的。
8.根据权利要求7所述的方法,其中,在按照所述排序显示每一所述目标文本之前,所述方法还包括:
获取每一所述目标文本的来源渠道的标签信息;
在按照所述排序显示每一所述目标文本的同时,基于每一所述目标文本均相应显示对应的来源渠道的标签信息。
9.一种文本排序装置,包括:
获取模块,用于获取目标文本;
质量分数值确定模块,用于根据文本内容信息确定每一所述目标文本基于文本内容维度的内容质量分数值,其中,所述文本内容信息包括文本长度值、图片数量值和业务关键词命中信息值中的至少一种;
排序模块,用于至少根据每一目标文本的所述内容质量分数值对所有所述目标文本进行排序;
显示模块,用于按照所述排序显示每一所述目标文本。
10.一种电子设备,包括存储器和处理器,所述存储器用于存储可执行的指令;所述处理器用于根据所述指令的控制执行根据权利要求1-8中任意一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任意一项所述的方法。
CN201910431363.3A 2019-05-22 2019-05-22 文本排序方法、装置及计算机可读存储介质 Pending CN110263146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431363.3A CN110263146A (zh) 2019-05-22 2019-05-22 文本排序方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431363.3A CN110263146A (zh) 2019-05-22 2019-05-22 文本排序方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110263146A true CN110263146A (zh) 2019-09-20

Family

ID=67915247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431363.3A Pending CN110263146A (zh) 2019-05-22 2019-05-22 文本排序方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110263146A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN103699521A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 文本分析方法及装置
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
CN108287821A (zh) * 2018-01-23 2018-07-17 北京奇艺世纪科技有限公司 一种高质量文本筛选方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN103699521A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 文本分析方法及装置
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
CN108287821A (zh) * 2018-01-23 2018-07-17 北京奇艺世纪科技有限公司 一种高质量文本筛选方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11455469B2 (en) Personality based sentiment analysis of textual information written in natural language
US11507756B2 (en) System and method for estimation of interlocutor intents and goals in turn-based electronic conversational flow
US10896670B2 (en) System and method for a computer user interface for exploring conversational flow with selectable details
CN107924552A (zh) 经由消息收发提供个人助理服务
CN104102687B (zh) 加密网络隧道内的Web业务的标识和分类的方法和***
US9105042B2 (en) Customer sentiment analysis using recorded conversation
US11709875B2 (en) Prioritizing survey text responses
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
US20120259891A1 (en) Method, system and program for analytics data delivering
US20180307673A1 (en) Determining an impact of a proposed dialog act using model-based textual analysis
EP4137961A1 (en) Method and apparatus for executing automatic machine learning process, and device
CN107392655A (zh) 优惠券推送方法、***、存储介质、电子设备及分流方法
CN108256098A (zh) 一种确定用户评论情感倾向的方法及装置
CN110516815A (zh) 人工智能推荐模型的特征处理方法、装置及电子设备
KR20180114856A (ko) 뮤지션 컨텐츠 모니터링 장치 및 방법
CN109190791A (zh) 应用推荐模型的评估方法、装置及电子设备
CN108256894A (zh) 广告展示控制方法、设备、服务器及客户端
CN110798567A (zh) 短信分类显示方法及装置、存储介质、电子设备
US20180336459A1 (en) Unstructured key definitions for optimal performance
CN108259547A (zh) 消息推送方法、设备及可编程设备
CN107807930A (zh) 终端设备浏览器推荐/显示内容的方法和设备
CN110442868A (zh) 文本处理方法、装置及电子设备
CN110264269A (zh) 广告位推荐方法、装置、电子设备及存储介质
KR102358657B1 (ko) 가상 비서 도메인 선택 분석
CN108536787A (zh) 内容识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190920

RJ01 Rejection of invention patent application after publication