CN113204632A - 文本信息处理方法及介质、设备、*** - Google Patents

文本信息处理方法及介质、设备、*** Download PDF

Info

Publication number
CN113204632A
CN113204632A CN202110609909.7A CN202110609909A CN113204632A CN 113204632 A CN113204632 A CN 113204632A CN 202110609909 A CN202110609909 A CN 202110609909A CN 113204632 A CN113204632 A CN 113204632A
Authority
CN
China
Prior art keywords
text
richness
model
target
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110609909.7A
Other languages
English (en)
Inventor
朱登龙
邹宇
何蜀波
孙玉霞
刘新
刘洋
余迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN202110609909.7A priority Critical patent/CN113204632A/zh
Publication of CN113204632A publication Critical patent/CN113204632A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了文本信息处理方法及介质、设备、***。所述方法包括建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;根据所述丰富度衡量后的文本确定选定的文本集合。上述技术方案可以提升文本信息处理的效率。

Description

文本信息处理方法及介质、设备、***
技术领域
本发明涉及信息处理领域,具体地,涉及文本信息处理方法及介质、设备、***。
背景技术
随着数据化时代的到来,越来越多的信息以文本信息的形式呈现。如何从文本信息中高效的挖掘符合预期目标的信息成为亟待解决的问题。
该问题呈现在各种领域中。例如,在旅游服务领域,如何挖掘得到符合预期目标的优质文本,已成为该领域中信息服务提供方研究的热点。
以旅游服务领域为例,随着互联网技术的发展,在线旅行社(Online TravelAgency,OTA)应运而生。OTA指"旅游消费者通过网络向旅游服务提供商预定旅游产品或服务,并通过网上支付或者线下付费,即各旅游主体可以通过网络进行产品营销或产品销售"。OTA的出现将原来传统的旅行社销售模式放到网络平台上,更广泛的传递了线路信息,互动式的交流更方便了客人的咨询和订购。
大型的OTA平台积累了大量的用户文本(评论,问答,攻略分享等等)信息。这些信息包含了用户的真实的评价,如何合理运用这些宝贵的信息是众多OTA平台亟待解决的问题。一方面面对上亿级别的数据,传统的人工挑选的方法来挑选产品的优质文本内容,已经不适合现在的技术发展;另一方面技术的快速发展,尤其是自然语言处理(NLP,NaturalLanguage Processing)方面的机器学习,深度学习等方法,也是的如何处理海量信息成为可能。如何利用机器学习,深度学习并结合传统方法来发现有价值,高品质的文本内容成为OTA亟待解决的技术难题。
发明内容
针对现有技术中的问题,本发明实施例提供票务信息交互方法,包括:建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;根据所述丰富度衡量后的文本确定选定的文本集合。
可选的,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。
可选的,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。
可选的,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。
可选的,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。
可选的,基于所述应用场景对所述目标文本进行评价包括:
建立对应不同应用场景的评价维度及评价维度分类模型;
基于所述评价维度及评价维度分类模型对所述目标文本进行评价。
可选的,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。
可选的,所述的文本信息处理方法还包括:
获取用户的个性化要求;
基于所述个性化要求,建立个性化匹配模型;
根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;
所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。
可选的,所述建立个性化匹配模型包括:
采用相同的神经网络结构,分别对所述已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;
采用余弦形似度衡量两者之间的相关性得分;
利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。
可选的,根据所述丰富度衡量后的文本确定选定的文本集合包括:优化所述丰富度衡量后的文本,所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。
可选的,所述根据所述丰富度衡量后的文本确定选定的文本集合包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。
可选的,所述文本信息处理方法还包括:
确定目标应用场景;
基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。
本申请实施例还提供一种文本信息处理***,用于实现所述的文本信息处理方法,包括:
模型建立单元,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
丰富度衡量单元,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;
文本集合确立单元,用于根据所述丰富度衡量后的文本确定选定的文本集合。
本申请实施例还提供一种文本信息处理设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的文本信息处理方法的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的文本信息处理方法的步骤。
本发明实施例中的文本信息处理方法通过建立内容丰富度模型,基于内容丰富度模型进行筛选,可以根据丰富度衡量后的文本确定符合需求的文本集合,进而能够大大提升文本筛选的效率,达到节省***资源的效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明实施例中一种文本信息处理方法的流程图;
图2是本发明实施例中另一种文本信息处理方法的流程图;
图3是本发明实施例中一种基于应用场景进行评价的流程图;
图4是本发明实施例中一种建立匹配模型的方法的流程图;
图5是是本发明实施例中另一种文本信息处理方法的流程图;
图6是本发明实施例中一种的文本信息处理设备的结构示意图;
图7是本发明实施例中一文本信息处理***的结构示意图;以及
图8是本发明实施例中一种计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
图1是是本发明实施例中的一种文本信息处理方法的流程图。结合参考图1,文本信息处理方法可以包括如下步骤:
步骤S11,建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
步骤S12,基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;
步骤S13,根据所述丰富度衡量后的文本确定选定的文本集合。
在具体实施中,用户的历史文本可以是OTA平台用户的历史数据。目标文本可以来源于该历史数据。
结合参考图2,在具体实施中,信息处理方法还可以包括步骤S21,对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。
进一步的,预处理过程可以通过情感分析模块实现。在本发明一实施例中,该模块可以使用2w条标注数据(正负比例1:1)的人工标注的数据进行一个二分类模型的训练,分类结果为正向情感和负向情感。我们设计了基于SVM(支持向量机)+TF-IDF的机器学习方法及基于迁移学习BERT方法,训练情感模型,用以筛选情感为正向的语句。可以理解的是,2w仅为举例,并非对本申请的限制。
其中,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。BERT是谷歌提出的一种非常优秀的预训练模型,它是一种Transformer结构,在很多自然语言处理任务中都打破了当时的记录。
通过正向情感的筛选,可以更高效的得到优质文本集合,也即选定的文本集合。在具体实现中,预处理还可以包括其它过程,例如:长度筛选、情感控制、敏感词过滤、拼写错误检查、繁简体转换等。
继续参考图1,在具体实施中,步骤S12中对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。高质量的文本,其信息量通常是比较高。通过建立能够衡量目标文本的信息量的模型,可以更准确的识别高质量的文本。
在具体实施中,文本信息处理方法还可以包括:获取指定产品的信息。所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还可以包括:评价所述目标文本与所述指定产品的内容关联关系。
进一步的,还可以利用实体识别技术(Bi-LSTM+CRF)及知识图谱来进行产品特征的识别,判断语句与该产品的内容关系。
其中,Bi-LSTM(long Short Term)可以看成是两层神经网络,第一层从左边作为系列的起始输入,在文本处理上可以理解成从句子的开头开始输入,而第二层则是从右边作为系列的起始输入,在文本处理上可以理解成从句子的最后一个词语作为输入,反向做与第一层一样的处理处理。最后对得到的两个结果进行处理。CRF即下条件随机场(Conditional Random Field,CRF)模型。
指定的产品信息是与目标文本对应的产品信息,通过进行产品特征的识别,可以更精确的对目标文本进行分析,进而更准确的识别出选定的文本集合,也即更高效的得到优质文本的集合。
在具体实施中,所述文本信息处理方法还可以包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。
结合参考图3,在具体实施中,基于所述应用场景对所述目标文本进行评价可以包括:
S31,建立对应不同应用场景的评价维度及评价维度分类模型;
S32,基于所述评价维度及评价维度分类模型对所述目标文本进行评价。
具体地,应用场景可以是景点、酒店、餐厅等维度。对应不同的应用场景可以设立不同的评价维度,并且可以建立评价维度分类模型。通过建立该模型,可以更加精确的对目标文本进行评价,提升对文本筛选得到选定的文本集合的准确性,进而可以使后续的处理基于更准确的数据,避免反复多次的信息处理过程,提升***效率。
在具体实施中,文本信息处理方法还可以包括:
获取用户的个性化要求;
基于所述个性化要求,建立个性化匹配模型;
根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;
所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。
结合参考图4,建立个性化匹配模型可以包括如下步骤:
步骤S41,采用相同的神经网络结构,分别对所述已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;
步骤S42,采用余弦形似度衡量两者之间的相关性得分;
步骤S43,利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。
上述个性化要求可以是例如亲子、情侣等个性化要求等召回需求。该个性化模型使用相同的Bi-LSTM网络结构,分别对个性化表征语句及已标注的训练集,进行向量特征抽取及变换,最后使用余弦形似度衡量两者之间的相关性得分,然后利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型,帮助我们满足不同需求的用户的对内容的需求。
其中,已标注的训练集可以来源于所述目标文本或所述丰富度衡量后的文本,标注的内容可以与个性化表征语句相同。
在本发明的具体实现中,可以先采用丰富度模型对所述目标文本进行分析,得到得到丰富度衡量后的文本。该衡量后的文本可以是基于分析进行筛选后的结果,其数量小于目标文本的数量。
在得到得到丰富度衡量后的文本后,结合参考图5,可以再利用个性化匹配模型对丰富度衡量后的文本进行匹配(步骤S51)。匹配的计算量小于利用丰富度模型对目标文本进行分析的计算量,故该中方式可以减少计算量,节省***资源。
本申请并不对上述过程的顺序进行限定,所有结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合的方式均落入本申请的保护范围。
在具体实施中,根据所述丰富度衡量后的文本确定选定的文本集合可以包括:优化所述丰富度衡量后的文本。所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。
可以理解的是,本申请中对所述丰富度衡量后的文本,并非仅限于经过丰富度衡量后的文本,可以是也经过了个性化匹配模型后的文本。
相应的,在具体实施中,可以在丰富度衡量以及个性化匹配模型后,对相应的数据进行优化(步骤S52)。
在具体实施中,所述根据所述丰富度衡量后的文本确定选定的文本集合可以包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。
可以理解的是,本申请中对所述丰富度衡量后的文本,并非仅限于经过丰富度衡量后的文本,可以是经过前述优化后的文本,或者经过个性化匹配模型后的文本,或者经过丰富度衡量、优化以及个性化匹配模型的文本,或者经过本申请中其它步骤的组合。可以根据实际应用时的需求进行选择。
在具体实施中,结合参考图5,文本信息处理方法还可以包括如下步骤:步骤S54,确定目标应用场景;基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。
目标应用场景可以是满足用户某种个性化要求层面的应用场景,例如:亲子,情侣等个性化要求等场景。
具体的,可以建立模型以进行处理,使得文本更加匹配目标应用场景的处理。模型可以基于sequence2sequence(序列到序列模型)的方法为基础完成文本生成技术。训练时候首先利用大量的内容-不同风格的标题对的数据进行模型训练。然后再生成阶段使用copynet(复制网)方法,引入copy(复制)机制解决超出词汇表(Out-of-vocabulary,OOV)问题。该生成模型一方面能够自动归纳长文本的信息,另一方面还能够变化语句风格,来满足不同场景下的需求。
在具体实施中,个性化匹配模型的生成和运用、优化、以及针对目标应用场景的匹配处理,均可以根据需要进行选择。在一些场景下,也可以仅进行内容丰富度衡量,基于内容丰富度衡量进行排序和优质文本的确定。或者,也可以选取上述个性化匹配模型的生成和运用、优化、以及针对目标应用场景的匹配处理的过程中的一个或多个,结合内容丰富度衡量共同确定优质文本。
基于本申请实施例中的文本信息处理方法得到的文本集合,可以应用于多种场景,例如智能问答,或者应用于进一步的大数据分析决策,在此不做限制。
本申请实施例还提供一种文本信息处理***,结合参见图7,通过该***可以实现如前所述的文本信息处理方法。该***可以包括如下单元:
模型建立单元71,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
丰富度衡量单元72,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;
文本集合确立单元73,用于根据所述丰富度衡量后的文本确定选定的文本集合。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
本申请实施例中文本信息处理***的具体实现和有益效果可以参见前文所述,在此不再赘述。
图6是本发明的一种文本信息处理设备的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述文本信息处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
图8是本发明的计算机可读存储介质的结构示意图。参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本说明书的描述中,参考术语“一实施例”、“再具体实施中”、“具体地”、或“一些示例”等的描述意指综合该实施例或示例描述的具体特征、结构、材料或者特点包括于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式综合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行综合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或综合这些指令执行***、装置或设备而使用。
综上,本发明实施例中的文本信息处理方法通过建立内容丰富度模型,基于内容丰富度模型进行筛选,可以根据丰富度衡量后的文本确定符合需求的文本集合,进而能够大大提升文本筛选的效率,达到节省***资源的效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (15)

1.一种文本信息处理方法,其特征在于,包括:
建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
基于所述丰富度模型对所述目标文本进行分析,得到丰富度衡量后的文本;
根据所述丰富度衡量后的文本确定选定的文本集合。
2.根据权利要求1所述的文本信息处理方法,其特征在于,对所述目标文本的信息量进行评价包括:利用信息熵、词性以及依存句法中至少一种确定所述目标文本对应的语句信息量。
3.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取指定产品的信息;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价还包括:评价所述目标文本与所述指定产品的内容关联关系。
4.根据权利要求3所述的文本信息处理方法,其特征在于,所述目标文本与所述指定产品的内容关联关系基于实体识别技术以及知识图谱确定。
5.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:获取所述目标文本对应的应用场景;所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价包括:基于所述应用场景对所述目标文本进行评价。
6.根据权利要求5所述的文本信息处理方法,其特征在于,基于所述应用场景对所述目标文本进行评价包括:
建立对应不同应用场景的评价维度及评价维度分类模型;
基于所述评价维度及评价维度分类模型对所述目标文本进行评价。
7.根据权利要求1所述的文本信息处理方法,其特征在于,在所述建立内容丰富度模型之前还包括:对所述用户的历史文本进行预处理,筛选情感为正向的文本作为所述目标文本。
8.根据权利要求1所述的文本信息处理方法,其特征在于,还包括:
获取用户的个性化要求;
基于所述个性化要求,建立个性化匹配模型;
根据所述个性化匹配模型对所述目标文本或所述丰富度衡量后的文本进行匹配,以得到个性化匹配后的结果;
所述根据所述丰富度衡量后的文本确定选定的文本集合包括:结合所述个性化匹配后的结果以及所述丰富度衡量后的文本确定选定的文本集合。
9.根据权利要求8所述的文本信息处理方法,其特征在于,所述建立个性化匹配模型包括:
采用相同的神经网络结构,分别对已标注的训练集和所述个性化要求的个性化表征语句进行向量特征抽取及变换;
采用余弦形似度衡量两者之间的相关性得分;
利用反向传播方法对模型进行训练,最终满足衡量个性化要求和语句的相关性的模型。
10.根据权利要求1所述的文本信息处理方法,其特征在于,根据所述丰富度衡量后的文本确定选定的文本集合包括:优化所述丰富度衡量后的文本,所述优化包括以下至少一种:进行相似度去重、进行语义匹配以及进行文本优美度判断。
11.根据权利要求1所述的文本信息处理方法,其特征在于,所述根据所述丰富度衡量后的文本确定选定的文本集合包括:对所述丰富度衡量后的文本确进行排序,基于所述排序确定所述选定的文本集合。
12.根据权利要求1所述的文本信息处理方法,其特征在于,所述文本信息处理方法还包括:
确定目标应用场景;
基于所述文本集合,生成符合所述目标应用场景的文本,或者生成符合所述目标应用场景的文本以及标题。
13.一种文本信息处理***,用于实现权利要求1至12中任一项所述的文本信息处理方法,其特征在于,包括:
模型建立单元,用于建立内容丰富度模型,所述内容丰富度模型用于对目标文本对应的内容丰富度进行评价,所述目标文本来源于用户的历史文本,所述内容丰富度至少包括:所述目标文本的信息量;
丰富度衡量单元,用于基于所述丰富度模型对所述目标文本进行筛选,得到丰富度衡量后的文本;
文本集合确立单元,用于根据所述丰富度衡量后的文本确定选定的文本集合。
14.一种文本信息处理设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的文本信息处理方法的步骤。
15.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至12中任意一项所述的文本信息处理方法的步骤。
CN202110609909.7A 2021-06-01 2021-06-01 文本信息处理方法及介质、设备、*** Pending CN113204632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110609909.7A CN113204632A (zh) 2021-06-01 2021-06-01 文本信息处理方法及介质、设备、***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110609909.7A CN113204632A (zh) 2021-06-01 2021-06-01 文本信息处理方法及介质、设备、***

Publications (1)

Publication Number Publication Date
CN113204632A true CN113204632A (zh) 2021-08-03

Family

ID=77023954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110609909.7A Pending CN113204632A (zh) 2021-06-01 2021-06-01 文本信息处理方法及介质、设备、***

Country Status (1)

Country Link
CN (1) CN113204632A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130024765A1 (en) * 2011-07-21 2013-01-24 International Business Machines Corporation Processing rich text data for storing as legacy data records in a data storage system
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和***
CN111382573A (zh) * 2018-12-12 2020-07-07 百度在线网络技术(北京)有限公司 用于答案质量评估的方法、装置、设备和存储介质
CN112069786A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 文本信息处理方法、装置、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130024765A1 (en) * 2011-07-21 2013-01-24 International Business Machines Corporation Processing rich text data for storing as legacy data records in a data storage system
CN111382573A (zh) * 2018-12-12 2020-07-07 百度在线网络技术(北京)有限公司 用于答案质量评估的方法、装置、设备和存储介质
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111368081A (zh) * 2020-03-03 2020-07-03 支付宝(杭州)信息技术有限公司 一种精选文本内容确定方法和***
CN112069786A (zh) * 2020-08-25 2020-12-11 北京字节跳动网络技术有限公司 文本信息处理方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘祥龙等: "飞桨PaddlePaddle深度学习实战", 31 August 2020, 北京:机械工业出版社, pages: 364 - 373 *

Similar Documents

Publication Publication Date Title
US10861456B2 (en) Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US11507677B2 (en) Image classification modeling while maintaining data privacy compliance
US9058317B1 (en) System and method for machine learning management
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
US11276099B2 (en) Multi-perceptual similarity detection and resolution
CN110968695A (zh) 基于弱监督技术主动学***台
CN111651996A (zh) 摘要生成方法、装置、电子设备及存储介质
CN113239173B (zh) 问答数据的处理方法、装置、存储介质与电子设备
US20190155942A1 (en) Searching multilingual documents based on document structure extraction
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
US11373041B2 (en) Text classification using models with complementary granularity and accuracy
CN111339292A (zh) 文本分类网络的训练方法、***、设备及存储介质
CN111754278A (zh) 物品推荐方法、装置、计算机存储介质和电子设备
AU2020202730B2 (en) Method and system for personalizing software based on real time tracking of voice-of-customer feedback
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
US11532174B2 (en) Product baseline information extraction
CN112749238A (zh) 搜索排序方法、装置、电子设备以及计算机可读存储介质
CN116680481A (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN112328899B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN112200602B (zh) 用于广告推荐的神经网络模型训练方法及装置
US11113081B2 (en) Generating a video for an interactive session on a user interface
CN113204632A (zh) 文本信息处理方法及介质、设备、***
CN114580790A (zh) 生命周期阶段预测和模型训练方法、装置、介质及设备
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination