CN108628833B - 原创内容摘要确定方法及装置,原创内容推荐方法及装置 - Google Patents

原创内容摘要确定方法及装置,原创内容推荐方法及装置 Download PDF

Info

Publication number
CN108628833B
CN108628833B CN201810447372.7A CN201810447372A CN108628833B CN 108628833 B CN108628833 B CN 108628833B CN 201810447372 A CN201810447372 A CN 201810447372A CN 108628833 B CN108628833 B CN 108628833B
Authority
CN
China
Prior art keywords
user
original content
determining
sentence
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810447372.7A
Other languages
English (en)
Other versions
CN108628833A (zh
Inventor
苏婧
于志安
王强
吴尚
侯培旭
李春阳
王燕华
陈文石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810447372.7A priority Critical patent/CN108628833B/zh
Publication of CN108628833A publication Critical patent/CN108628833A/zh
Priority to PCT/CN2018/121321 priority patent/WO2019214236A1/zh
Priority to US17/093,969 priority patent/US20210056571A1/en
Application granted granted Critical
Publication of CN108628833B publication Critical patent/CN108628833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种原创内容摘要确定方法,属于计算机技术领域,解决现有技术中无法准确提取用于原创内容摘要的问题。本申请实施例公开的用户原创内容摘要确定方法包括:确定用户原创内容包括的前后排列的至少一个句子;然后,确定每个所述句子的句子质量分;最后,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。经过大量用户原创内容的测试,本申请公开的用户原创内容摘要确定方法,通过原创内容包括的连续句子的质量评分确定用户原创内容的摘要,可以高效、准确的确定用户原创数据的摘要。

Description

原创内容摘要确定方法及装置,原创内容推荐方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种原创内容摘要确定方法及装置,原创内容推荐方法及装置。
背景技术
摘要是一篇文章或一段文字的简要描述,通常表达了文章或文字的核心含义。传统的文章自动生成摘要的方法可以看作是一个信息压缩过程,将输入的文章或文字压缩为一篇简短的摘要,该过程不可避免有信息损失。为了保留尽可能多的重要信息,常用的做法包括信息抽取、文章分类和词法分析等,然后根据获取的信息生成摘要。与传统文章相比,用户原创内容UGC(User created Content)篇幅一般更短,段落不明显,句子结构不规范,用词也相对随意,传统的提取文章或文字摘要的做法无法准确提取出用户原创内容的摘要。
综上,现有技术中迫切需要一种确定用户原创内容摘要的方法。
发明内容
本申请提供一种原创内容摘要确定方法,至少解决现有技术中没有准确提取用户原创内容摘要的方法的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种原创内容摘要确定方法包括:
确定用户原创内容包括的前后排列的至少一个句子;
确定每个所述句子的句子质量分;
在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。
第二方面,本申请实施例提供了一种原创内容摘要确定装置,包括:
句子确定模块,用于确定用户原创内容包括的前后排列的至少一个句子;
句子质量分确定模块,用于确定每个所述句子的句子质量分;
摘要确定模块,用于在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。
第三方面,本申请实施例还公开了一种用户原创内容推荐方法,包括:
确定当前用户的目标商户;
根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;
确定与所述当前用户匹配的所述候选用户原创内容;
根据本申请实施例所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要;
向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
第四方面,本申请实施例还公开了一种用户原创内容推荐装置,包括:
目标商户确定模块,用于确定当前用户的目标商户;
候选用户原创内容确定模块,用于根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;
匹配候选用户原创内容确定模块,用于确定与所述当前用户匹配的所述候选用户原创内容;
原创内容摘要确定模块,用于根据本申请实施例所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要;
推荐模块,用于向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要,其中,所述候选用户原创内容的摘要根据本申请实施例所述的用户原创内容摘要确定方法确定。
第五方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的用户原创内容摘要确定方法和用户原创内容推荐方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的原创内容摘要确定方法和用户原创内容推荐方法的步骤。
本申请实施例公开的用户原创内容摘要确定方法,通过确定用户原创内容包括的前后排列的至少一个句子;然后,确定每个所述句子的句子质量分;最后,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,解决了现有技术中无法准确提取用于原创内容摘要的问题。经过大量用户原创内容的测试,本申请公开的用户原创内容摘要确定方法,通过原创内容包括的连续句子的质量评分确定用户原创内容的摘要,可以高效、准确的确定用户原创数据的摘要。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的用户原创内容摘要确定方法流程图;
图2是本申请实施例二的用户原创内容摘要确定方法流程图;
图3是本申请实施例三的用户原创内容推荐方法流程图;
图4是本申请实施例四的用户原创内容推荐方法流程图;
图5是本申请实施例五的用户原创内容摘要确定装置的结构示意图之一;
图6是本申请实施例六的用户原创内容推荐装置的结构示意图之一;
图7是本申请实施例六的用户原创内容推荐装置的结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开的一种原创内容摘要确定方法,如图1所示,该方法包括:步骤110至步骤130。
步骤110,确定用户原创内容包括的前后排列的至少一个句子。
具体实施时,首先对用户原创内容进行数据处理,提取出所述用户原创内容中的句子,并将提取出的句子按照各句子在所述用户原创内容中出现的先后顺序进行前后排列。
由于用户原创数据,如用户点评,没有固定格式要求,所以内容和格式多样。本申请在具体实施时,按照预设标点符号作为句子之间的分隔标记,将所述用户原创内容划分为多个句子。其中,所述预设标点符号包括但不限于一下任意一种或多种:句号、感叹号、问号、逗号、空格、表情符号、波浪符号。本提案优先采用标准标点符号分句,如果分句后句子还是过长采用其他符号再次分句。最后,按照各句子在所述用户原创内容中出现位置的前后顺序进行排列,得到所述用户原创内容包括的前后排列的M个句子。其中,M为大于等于1的自然数。
步骤120,确定每个所述句子的句子质量分。
具体实施时,可以从句子包括的文本、观点和实体等信息维度的特征确定句子的句子质量分。其中,文本进一步可以包括:位置、长度、关键词情感属性、关键词对商户特征的描述等维度的信息。观点维度的信息可以为观点中包括的评价对象、评价词等信息。实体维度的信息可以为实词的出现频次、实体词的类型等温度的信息。
句子质量分用于表示该句子对所述用户原创内容的核心思想的贡献或表现能力。
步骤130,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。
在确定了用户原创内容中包括的前后排列的若干句子之后,选择信息含量最高的连续句子作为所述用户原创内容的摘要。具体实施时,通过滑动窗口,找到包含的字符长度满足预设字符长度条件的多组连续句子。然后,根据每组连续句子中的各句子的句子质量分,确定每组连续句子的评分。最后,选择评分最高的一组连续句子,作为所述用户原创内容的摘要。
本申请实施例公开的用户原创内容摘要确定方法,通过确定用户原创内容包括的前后排列的至少一个句子;然后,确定每个所述句子的句子质量分;最后,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,解决了现有技术中无法准确提取用于原创内容摘要的问题。经过大量用户原创内容的测试,本申请公开的用户原创内容摘要确定方法,通过原创内容包括的连续句子的质量评分确定用户原创内容的摘要,可以高效、准确的确定用户原创数据的摘要。
实施例二
本实施例公开的一种原创内容摘要确定方法,如图2所示,该方法包括:步骤210至步骤240。
步骤210,构建评价对象库、评价词库和实体词库。
具体实施时,为了确定用户原创内容中包括的句子的句子质量分,首先需要构建评价对象库、评价词库和实体词库,便于确定句子中包括的实体、评价对象,以及句子中包括的情感累的关键词等。
具体实施时,根据海量用户在平台上生成的数亿条UGC评论和每日千万级别的查询关键词,使用词法分析器得到名词和形容词等关键词,结合预设POI知识库的内容,使用N-Gram技术得到UGC评论中的所述关键词和所述查询关键词的词性类别(例如:景点、电影院、商区、商场等)。然后,通过评价对象挖掘,可以建成一个覆盖率比较高的评价对象库,为后续评论挖掘提供支持。
实体是评价对象中的一个子集,通常选自于商户、用户等的结构化数据中的关键词,例如:商家名称、菜品类别、菜品名称等。
关键词是指UGC文本经过分词后的有意义的词。评价词是指形容词、副词和成语等关键词。具体实施时,获取UGC评论中高频的评价词,统计这些评价词在5星评论和1星评论中的分布情况,得到评价词的极性(正面、负面和中性)。比如“很好”这个评价词出现在好评的评论中的数量要远大于在差评中的数量,则“很好”这个评价词的极性为正面。通过评价词挖掘,可以建成一个评价词库,为后续评论挖掘提供支持。通过评价词可以确定句子的情感信息。
步骤220,确定用户原创内容包括的前后排列的至少一个句子。
具体实施时,首先对用户原创内容进行数据处理,提取出所述用户原创内容中的句子,并将提取出的句子按照各句子在所述用户原创内容中出现的先后顺序进行前后排列。
由于用户原创数据,如用户点评,没有固定格式要求,所以内容和格式多样。本申请在具体实施时,按照预设标点符号作为句子之间的分隔标记,将所述用户原创内容划分为多个句子。其中,所述预设标点符号包括但不限于一下任意一种或多种:句号、感叹号、问号、逗号、空格、表情符号、波浪符号。本提案优先采用标准标点符号分句,如果分句后句子还是过长采用其他符号再次分句。最后,按照各句子在所述用户原创内容中出现位置的前后顺序进行排列,得到所述用户原创内容包括的前后排列的M个句子。其中,M为大于等于1的自然数。
可选的,确定用户原创内容包括的前后排列的至少一个句子的步骤包括:基于标准标点符号对用户原创内容进行分句,得到所述用户原创内容包括的第一句子;基于扩展标点符号对所述第一句子中字符长度大于预设句子字符长度阈值的第一句子进行再次分句,得到所述第一字句对应的第二字句;将所述第一句子中字符长度未进行再次分句的第一句子和所述第二字句,按照在所述用户原创内容中出现位置的前后顺序进行排列,得到所述用户原创内容包括的前后排列的M个句子。其中,M为大于等于1的自然数;标准标点符号至少包括:句号、逗号、问号、感叹号、省略号,扩展标点符号包括:空格、表情符号、破浪号等。
例如,一条用户原创内容为“地道巴蜀陈年酸菜,三年发酵而成,配合来自越南的无污染的龙利鱼^_^味道鲜嫩无比!”、预设句子字符长度阈值为10和字符举例,详细说明确定用户原创内容包括的前后排列的至少一个句子的具体实施方案。首先,基于标准标点符号对用户原创内容进行分句,可以得到“地道巴蜀陈年酸菜”、“三年发酵而成”和“配合来自越南的无污染的龙利鱼^_^味道鲜嫩无比”共3个第一句子。对于第一句子“配合来自越南的无污染的龙利鱼^_^味道鲜嫩无比”,其字符长度为21,大于预设句子字符长度阈值,因此需要基于扩展标点符号进一步对其进行句子划分。由于该句子中包括一个表情符号“^_^”,因此,该句子基于扩展标点符号进行划分后,得到2个第二句子,分别为:“配合来自越南的无污染的龙利鱼”和“味道鲜嫩无比”。最后,确定该用户原创内容中包括的4个句子为:第一句子“地道巴蜀陈年酸菜”、“三年发酵而成”,以及第二句子“配合来自越南的无污染的龙利鱼”和“味道鲜嫩无比”。之后,按照上述4个句子在所述用户原创内容中出现位置的前后顺序进行排列,得到所述用户原创内容包括的前后排列的4个句子,分别为:地道巴蜀陈年酸菜”、“三年发酵而成”、“配合来自越南的无污染的龙利鱼”和“味道鲜嫩无比”。
步骤230,确定每个所述句子的句子质量分。
句子质量分用于表示该句子对所述用户原创内容的核心思想的贡献或表现能力。具体实施时,所述确定每个所述句子的句子质量分,包括:根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,其中,所述预设维度包括以下维度中的一个或多个:文本、实体、观点。所述根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,包括:对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分。在本申请的一个实施例中,对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分,进一步包括:根据公式
score(sentencei)=w'×(α×score_sentencei(word∈实体)+β×score_sentencei(word∈评价对象))确定每个所述句子的句子质量分;其中,score(sentencei)表示句子sentencei的句子质量分,w'表示句子sentencei的文本维度评分,score_sentencei(word∈实体)表示句子sentencei的实体维度评分,score_sentencei(word∈评价对象)表示句子
sentencei的观点维度评分,其中,评价对象为句子中包括的观点针对的评价对象,α和β为权重调节因子。即,首先,通过
α×score_sentencei(word∈实体)+β×score_sentencei(word∈评价对象)计算初始值质量分,然后,进一步通过文本维度评分w'对初始值质量分进行加权调整,句子sentencei的句子质量分。
具体实施时,根据句子在所述用户原创内容中的前后位置、句子的负面情感信息、商户特色信息确定句子的文本维度评分。具体为:提升靠近用户原创内容首部的句子的句子质量分、降低含有负面情感信息的句子的句子质量分、提升包括商户特色信息的句子的句子质量分。例如,对于出现在用户原创内容中的前三个句子,则提高句子质量分,如加10分,以此提升用户原创内容首部位置句子出现在该要中的概率。例如,如果句子中包括预设评价词库中的负面词语,则确定所述句子包含负面情感,通过降低句子的句子质量分,如减20分,保证这句话几乎不会出现在最终确定的该用户原创内容的摘要中。如果句子中包括预设评价词库中的广告词语,则通过给负的质量分来打压,如负10分,降低该句子出现在最终确定的该用户原创内容的摘要中的概率。再例如,如果句子中含有商户排名前三的推荐菜,或者含有商户类目下特色的评价对象,加大该句子的句子质量分,如加10分,从而提升该句子出现在摘要中的概率。
实体维度评分反映了实体在用户原创内容中的权重。具体实施时,根据句子中包括的实体词的逆向文本词频确定句子的实体维度评分。例如,实体维度评分为所述句子中包括的实体的逆向文本词频之和,通过公式
Figure BDA0001657563900000081
确定句子的实体维度评分,公式中idf(wordj)为句子包括的实体词wordj的逆向文本词频。其中,所述实体的逆向文本词频通过公式
Figure BDA0001657563900000082
确定,公式中,|shop_num|为所有用户原创内容覆盖的商户总数,{k:word(j)∈shopk}表示出现关键词word(j)的商户总数。
具体实施时,根据句子中包括的观点涉及的评价对象的逆向文本词频确定句子的观点维度评分。例如,通过公式
Figure BDA0001657563900000083
确定句子的实体维度评分,公式中idf(wordj)为句子包括的实体词wordj的逆向文本词频。
观点维度评分反映了观点中的评价对象在用户原创内容中的权重。具体实施时,根据句子中包括的评价对象词的逆向文本词频确定句子的观点维度评分。例如,所述观点维度的信息为所述句子中包括的观点所涉及的评价对象的逆向文本词频之和,通过公式
Figure BDA0001657563900000091
确定句子的观点维度评分,公式中idf(wordl)为句子包括的评价对象wordl的逆向文本词频。其中,所述评价对象的逆向文本词频通过公式
Figure BDA0001657563900000092
确定,公式中,|shop_num|为所有用户原创内容覆盖的商户总数,{k:word(l)∈shopk}表示出现关键词word(l)的商户总数。
具体实施时,根据句子中包括的观点涉及的评价对象的逆向文本词频确定句子的观点维度评分。例如,通过公式
Figure BDA0001657563900000093
确定句子的观点维度评分,公式中idf(wordl)为句子包括的评价对象wordl的逆向文本词频。
通过上述公式可以看出,如果实体或评价对象出现在用户原创内容(如商户评论)中的频率低,则相应的实体维度评分或观点维度评分权重高。进一步的,通过对实体维度评分和观点维度评分进行加权求和,得到句子质量分。具体实施时,实体维度评分和观点维度评分的权值通过经验统计设置。
步骤240,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。
在确定了用户原创内容中包括的前后排列的若干句子之后,选择信息含量最高的连续句子作为所述用户原创内容的摘要。
具体实施时,通过公式
Figure BDA0001657563900000094
确定begi n和end之间的连续句子,作为所述用户原创内容的摘要;其中,begi n和end是所述用户原创内容中句子的顺序号,max_length为预设摘要最大字符长度,length(sentencei)为句子sentencei中的字符长度,w是总分调节因子,w根据句子sentencei,begin≤i≤end是否含有实体和观点、以及
Figure BDA0001657563900000095
确定。
所述在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,包括:通过滑窗技术确定满足预设摘要最大字符长度的约束条件的至少一组连续句子;确定所述至少一组连续句子中所述连续句子的句子质量分的加权和;将所述加权和最高的一组连续句子,作为所述用户原创内容的摘要。优选的,计算所述加权和的加权值根据所述一组连续句子是否含有实体和观点、所述连续句子的字符长度、所述连续句子中是否包含所述用户原创数据的首个句子或末尾句子中的任意一项或多项因素确定。
具体实施时,假设预设摘要最大字符长度为35,以某条用户原创内容中包括前后排列的9个句子,每个句子的句子质量分和字符长度如下表所示为例,说明确定摘要的具体方法。其中,句子编号1至9为句子的前后排列序号。
Figure BDA0001657563900000101
具体实施时,首先,从句子1开始,通过调整窗口的长度,找到长度不超过35个字符的连续句子,如{句子1},{句子1,句子2},{句子1,句子2,句子3},{句子1,句子2,句子3,句子4}。然后,分别确定每组连续句子的句子质量分,并保留句子质量分最高的一组连续句子,如{句子1,句子2,句子3,句子4}组成的一组连续句子做为候选摘要,所述候选摘要的句子质量分之和为3.7分。
接下来,滑动窗口,从句子2开始,通过调整窗口的长度,找到长度不超过35个字符的连续句子,如{句子2},{句子2,句子2},{句子2,句子3,句子4}。然后,分别确定每组连续句子的句子质量分,并保留句子质量分最高的一组连续句子,如{句子2,句子3,句子4}组成的一组连续句子,句子质量分和为3.2分。
{句子1,句子2,句子3,句子4}组成的候选摘要的句子质量分大于{句子2,句子3,句子4}组成的一组连续句子的句子质量分之和(3.2分),因此,暂时保留{句子1,句子2,句子3,句子4}组成的一组连续句子构成的候选摘要。
以此类推,通过滑窗技术,分别确定以每个句子开始的长度不超过35个字符的多组连续句子,并确定每组连续句子的句子质量分之和,以通过句子质量分之和更高的连续句子更新暂时保留的候选摘要,直至最后找到最高得分的一组连续句子,做为所述用户原创内容的摘要。以上表中的句子为例,最终将确定句子质量分之和为10分的连续句子{句子6,句子7,句子8,句子9}做为所述用户原创内容的摘要。
优选的,所述在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,包括:通过滑窗技术确定满足预设摘要最大字符长度的约束条件的至少一组连续句子;确定所述至少一组连续句子中,所述连续句子的句子质量分加权和最高的一组连续句子,作为所述用户原创内容的摘要。
确定所述至少一组连续句子中,所述连续句子的句子质量分加权和最高的一组连续句子,作为所述用户原创内容的摘要时,一组连续句子具有相同的加权值。
具体实施时,所述加权值与连续句子字符长度和预设摘要最大字符长度的比值得T此方成正比,T为大于1的数,如T=1.5,这样可以打压部分过短的摘要。具体实施时,如果一组连续句子的实体维度评分为零,例如该组连续句子中不包括实体,则降低所述加权值;如果一组连续句子的观点维度评分为零,例如该组连续句子中不包括评价对象,则降低所述加权值;如果一组连续句子中包括所述用户原创内容的第一个句子或最后一个句子,则提升所述加权值。根据所述连续句子中是否包含所述用户原创数据的首个句子或末尾句子确定加权值,可以提升确定的摘要中句子的完整性。
本申请实施例公开的用户原创内容摘要确定方法,通过确定用户原创内容包括的前后排列的至少一个句子;然后,确定每个所述句子的句子质量分;最后,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,解决了现有技术中无法准确提取用于原创内容摘要的问题。经过大量用户原创内容的测试,本申请公开的用户原创内容摘要确定方法,通过原创内容包括的连续句子的质量评分确定用户原创内容的摘要,可以高效、准确的确定用户原创数据的摘要。本申请实施例中,通过文本、实体和观点三个维度加权计算得到句子质量分,通过这种方法,能找到用户原创内容中信息价值密度最高的连续句子。并且,本申请实施例公开的远传内容摘要确定方法,支持标点符号使用不规范,甚至语句不通顺的用户原创内容摘要的抽取,鲁棒性更强;可以根据对摘要长度的不同要求,自适应抽取商户特色的用户原创内容摘要。
实施例三
本实施例公开的一种原创内容推荐方法,如图3所示,该方法包括:步骤310至步骤350。
步骤310,确定当前用户的目标商户。
具体实施时,首先根据当前用户的历史行为数据,确定用户发生过预设历史行为的商户,作为第一目标商户;然后,进一步确定与所述第一目标商户相似的商户,作为第二目标商户;最后,将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。
步骤320,根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容。
获取所述目标商户的用户原创内容,并进一步确定每条用户原创内容的评价得分。具体实施时,可以根据用户原创内容的文本信息、实体信息以及观点信息等确定用户原创内容的评价得分。具体实施时,评价得分越高表示所述用户原创内容的质量越高,即所述用户原创内容展示给用户的信息更有价值。然后,按照用户原创内容的评价得分由高到低的顺序,对每个所述目标用户的用户原创内容分别进行排序。之后,对于每一个目标用户,分别选择评价得分最高的预设数量的用户原创内容,作为候选用户原创内容。
步骤330,确定与所述当前用户匹配的所述候选用户原创内容。
具体实施时,可以分别提取当前用户的特征向量,以及每一条候选用户原创内容的特征向量,然后,根据计算当前用户的特征向量与每一条候选用户原创内容的特征向量之间的相似度,确定与所述当前用户匹配的所述候选用户原创内容。具体实施时,可以通过计算当前用户的特征向量与候选用户原创内容,特征向量之间的相似度距离的方式,确定当前用户与某一条候选用户原创内容的之间的匹配度;或者,通过预先训练的机器学习排序模型,根据输入的当前用户的特征向量和某一条所述用户原创内容的特征向量,计算当前用户与所述某一条所述用户原创内容之间的匹配度。
然后,选择与所述当前用户匹配度最高的一个或预设数量个所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容。
步骤340,确定与所述当前用户匹配的所述候选用户原创内容的摘要。
具体实施时,根据实施例一和实施例二所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要。
步骤350,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
在确定了与所述当前用户匹配的所述候选用户原创内容时,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
本申请实施例公开的用户原创内容推荐方法,通过确定当前用户的目标商户;根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;确定与所述当前用户匹配的所述候选用户原创内容;最后,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要,其中,所述候选用户原创内容的摘要根据实施例一或实施例二所述的用户原创内容摘要确定方法确定,解决了现有技术中根据用户原创内容的热度为用户推荐用户原创内容时,推荐的用户原创内容不准确,无法满足用户需求的问题。本申请实施例公开的用户原创内容推荐方法,通过把与用户匹配的用户原创内容推荐给用户,实现了有针对性的进行信息推荐,有效提升了用户原创内容推荐的准确性。同时,通过在为用户推荐原创内容时,仅展示原创内容的摘要,简洁清晰的为用户展示推荐的关键信息,便于用户准确快速的做出决策,进一步提升了用户体验。
实施例四
本实施例公开的一种原创内容推荐方法,如图4所示,该方法包括:步骤410至步骤470。
步骤410,构建评价对象库、评价词库和实体词库。
构建评价对象库、评价词库和实体词库的具体实施方式参见实施例二,本实施例不再赘述。
步骤420,确定当前用户的目标商户。
具体实施时,所述确定当前用户的目标商户,包括:确定所述当前用户产生过预设行为的商户,作为第一目标商户;通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户;将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。首先根据当前用户的历史行为数据,确定用户发生过预设历史行为的商户,作为第一目标商户。其中,用户产生过预设行为的商户包括但不限于:用户点击过的商户、用户浏览过的商户、用户收藏过的商户、用户购买过商品的商户。
然后,进一步确定与所述第一目标商户相似的商户,作为第二目标商户。
具体实施时,所述通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户之前,还包括:将用户点击的商户序列作为词向量模型的输入,训练商户向量模型;通过所述商户向量模型确定商户的商户向量。
具体实施时,把用户在商户上的行为转变为时间序列事件,然后,把时间序列事件做为输入,采用深度学习算法训练商户向量模型,即把商户特征从高维的离散空间映射到低维的连续空间。例如,当用户先后点击了商户A、商户B和商户C,那么,可以把商户A、商户B和商户C的商户标识序列做为输入样本,用于训练商户向量模型。然后,通过预先训练的商户向量模型,可以获得某个商户标识对应的商户向量。
在通过预先训练的商户向量模型,确定了每个商户的商户向量之后,通过计算商户向量的相似度,可以确定与所述第一目标商户相似的第二目标商户。
最后,将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。例如,根据用户的历史行为,确定用户曾经点击过商户A,则将商户A作为当前用户的第一目标商户。然后,通过计算商户向量的相似度,确定与商户A相似的商户B,则将商户B作为当前用户的第二目标商户。最后,将商户A和商户B作为当前用户的目标商户。
步骤430,根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。
所述根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容之前,还包括:根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。例如,根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分,可以为:通过对用户原创内容的文本得分、实体得分和观点得分进行加权求和,所述用户原创内容的评价得分。
首先,对于平台的用户原创内容,如用户点评,选取最近预设时间(如半年内)的用户原创数据。然后,文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。因为优质商户或者高星级用户下也存在低质的用户原创内容,所以在对用户原创内容进行评分时,不考虑商户和用户的特征,只从用户原创内容的内容质量本身来分析,通过文本、实体和观点三个维度计算得到用户原创内容的评价得分。
具体实施时,文本得分与用户原创内容中包含的不同文字的数量成正比。即,用户原创内容中包含的不同文字越多,文本得分越高。根据用户原创内容中包含的不同文字的数量确定文本得分,可以有效过滤掉用户重复使用同一个标点符号或者文字来充当字数的用户原创内容。
具体实施时,实体得分可以通过用户原创内容中包含的实体的逆向文本词频表示;观点得分可以通过用户原创内容中包含的观点涉及的评价对象的逆向文本词频表示。
在确定实体得分和观点得分之前,首先,将用户原创内容划分为多个句子。将用户原创内容划分为多个句子的具体方法可以参考实施例二中确定用户原创内容中的句子的方法,本实施例不再赘述。
然后,通过预设的实体词库,确定由用户原创内容中划分得到的每个句子中包括的实体和观点。
实体是用户原创内容中涉及的评论对象,例如,商户名、地址、类目、商场、星级酒店、商场、小区、电影院、行政区和城市等。实体是用户原创内容中的重要信息,例如,一条用户原创内容中提到的推荐菜、地址和类目等内容的信息,可以作为该条用户原创内容的重要特征。O2O场景下的信息抽取有别于传统的人名、地名和公司名识别,需要挖掘不同维度下不同关键词的权重信息,例如在美食品类下的商家评论中,“龙之梦”的出现的商家述很少,其逆向文本词频要高于“粤菜”。具体实施时,可以通过公式
Figure BDA0001657563900000161
确定一条用户原创内容的实体得分,公式中idf(wordp)为该条用户原创内容包括的实体词wordp的逆向文本词频。其中,所述实体词的逆向文本词频通过公式
Figure BDA0001657563900000162
确定,公式中,|shop_num|为所有用户原创内容覆盖的商户总数,{k:word(p)∈shopk}表示出现关键词wordp的商户总数。
观点表示对具体的评价对象的主客观判断信息,本申请中,主要从句子中抽取观点。例如,对于一条用户原创内容中的一个句子“浓缩咖啡豆是皮爷家的经典”,从该句子中抽取观点的具体方法如下:根据预先构建的评价对象库可以确定该句子中包括的评价对象是:咖啡豆;根据预先构建的评价词库可以确定该句子中包括的评价词是:“浓缩”、“经典”;将该句子中保护的评价对象和评价词量爱过你组合,得到该句子中包括的观点,即:“咖啡豆-经典”和“咖啡豆-浓缩”。再后,根据上述两个观点在所有用户原创内容中出现的比率得到每个观点的置信度,具体实施时,观点越频繁则置信度越高。最后得到一条用户原创内容中所有的观点,以及每个观点的置信度。
对于一条用户原创内容中得到的每个观点,通过对该观点包括的评价对象和评价词的词向量进行求和,得到该观点的向量表示。通过向量对观点进行表示之后,就可以采用余弦定理计算向量之间的距离,来判断观点之间的相似关系。具体实施时,通过对句子进行分析,可以得到如下观点数据结构表:
字段名称 字段说明 示例
Opinion 观点 咖啡豆-经典
SemanticVector 词向量 [0,1,0.32,0.16,0.07…]
Aspect 评价对象 咖啡豆
Evaluate 评价词 经典
Confidence 置信度 0.87
Updatetime 更新时间 2018-03-12 09:00:00
具体实施时,基于用户产生的全量用户原创内容数据,通过分词处理后得到训练样本,使用业界主流的词向量技术,得到训练样本中每个关键词的词向量。具体实施时,关键词包括实体词、评价词以及各种有意义的通用词汇。词向量是关键词的向量表示。具体实施时,关键词的词向量为固定长度的浮点型一维向量。本提案采用sk i p-gram模型的负采样方法训练词向量模型。采用词向量技术后,所有关键词都可以用一个固定长度的向量表示,将原来稀疏的巨大维度压缩到一个更小维度空间,例如“披萨”和“p i zza”这两个词在文本上没有相似性,但是通过词向量表示后,其语义距离比较接近。
最后,通过对一条用户原创内容中包括的实体的实体得分、观点的观点得分,以及文本得分进行加权求和,将得到的得分和作为该条用户原创内容的评价得分。具体实施时,对实体得分、观点得分以及文本得分,进行加权时各项得分的权值根据具体业务需求设置,通常,观点得分的权值最高,文本得分的权值最低。
步骤440,根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容。
如前所述,假设将商户A和商户B作为当前用户的目标商户,则进一步根据用户原创内容的评价得分,在所述商户A和商户B的用户原创内容中,分别选择评价得分满足预设条件的多条用户原创内容作为当前用户的候选用户原创内容。例如,按照评价得分由高到低的顺序,分别对商户A和商户B的用户原创内容排序,然后选择商户A的评价得分最高M条用户原创内容和商户B的评价得分最高M条用户原创内容,作为候选用户原创内容。
步骤450,确定与所述当前用户匹配的所述候选用户原创内容。
具体实施时,所述确定与所述当前用户匹配的所述候选用户原创内容,包括:根据每条所述候选用户原创内容的排序特征和所述当前用户的用户特征,分别确定每条所述候选用户原创内容与所述当前用户的匹配度;确定所述匹配度满足预设条件的所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容。
具体实施时,可以首先基于用户原创内容的排序特征和用户的用户特征通过机器学习训练匹配度识别模型。例如,将用户原创内容的排序特征和发布该原创内容的用户的用户特征组合为正样本,将用户原创内容的排序特征和踩了该原创内容的用户的用户特征组合为负样本,训练匹配度识别模型。然后,通过该匹配度识别模型基于输入的用户原创内容的排序特征和用户的用户特征识别所述用户原创内容和所述用户的匹配度。其中,所述排序特征包括:点赞数、评论数、分享数、文本质量分、图片质量分、实体词、用户原创内容发布者等级、发布者与所述当前用户的关系中的任意一项或多项;所述用户特征包括:用户历史行为特征、商区偏好特征、类目偏好特征、相似用户特征中的任意一项或多项,所述用户历史行为特征包括:搜索、浏览、购买、到店行为中的任意一项或多项的特征。
具体实施时,可以确定所述匹配度得分最高的预设数量的所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容;或者,确定每个商户对应的所述候选用户原创内容中,与所述当前用户的所述匹配度得分最高的一条所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容。由于进行匹配度识别时,结合了用户偏好、用户社交关系等特征,因此,确定的与所述当前用户匹配的所述候选用户原创内容,是用户偏好的用户原创内容。
步骤460,确定与所述当前用户匹配的所述候选用户原创内容的摘要。
具体实施时,通过是实施例一和实施例二所述的用户原创内容摘要确定方法确定所述候选用户原创内容的摘要,本实施例中,对摘要的具体提取方法不再赘述。
步骤470,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
在确定了与所述当前用户匹配的所述候选用户原创内容时,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
本申请实施例公开的用户原创内容推荐方法,通过确定当前用户的目标商户;然后,确定所述目标商户的用户原创内容的评价得分,并根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;确定与所述当前用户匹配的所述候选用户原创内容,及摘要;最后,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要,解决了现有技术中根据用户原创内容的热度为用户推荐用户原创内容时,推荐的用户原创内容不准确,无法满足用户需求的问题。本申请实施例公开的用户原创内容推荐方法,通过把与用户匹配的用户原创内容推荐给用户,实现了有针对性的进行信息推荐,有效提升了用户原创内容推荐的准确性。同时,通过在为用户推荐原创内容时,仅展示原创内容的摘要,简洁清晰的为用户展示推荐的关键信息,便于用户准确快速的做出决策,进一步提升了用户体验。
通过文本、实体和观点的信息,确定用户原创内容的评价得分,能够提升用户原创内容质量评价的准确性,进一步提升用户原创内容推荐的准确性。
实施例五
本实施例公开的一种原创内容摘要提取装置,如图5所示,所述装置包括:
句子确定模块510,用于确定用户原创内容包括的前后排列的至少一个句子;
句子质量分确定模块520,用于确定每个所述句子的句子质量分;
摘要确定模块530,用于在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要。
可选的,所述句子质量分确定模块520进一步用于:
根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,其中,所述预设维度包括以下维度中的一个或多个:文本、实体、观点。
可选的,所述根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,包括:对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分。在本申请的一个实施例中,对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分,进一步包括:
根据公式
score(sentencei)=w'×(α×score_sentencei(word∈实体)+β×score_sentencei(word∈评价对象))确定每个所述句子的句子质量分;其中,score(sentencei)表示句子sentencei的句子质量分,w'表示句子sentencei的文本维度评分,score_sentencei(word∈实体)表示句子sentencei的实体维度评分,score_sentencei(word∈评价对象)表示句子sentencei的观点维度评分,其中,评价对象为句子中包括的观点针对的评价对象,α和β为权重调节因子。
可选的,所述摘要确定模块530进一步用于:
通过滑窗技术确定满足预设摘要最大字符长度的约束条件的至少一组连续句子;
确定所述至少一组连续句子中所述连续句子的句子质量分的加权和;
将所述加权和最高的一组连续句子,作为所述用户原创内容的摘要。
可选的,计算所述加权和的加权值根据所述一组连续句子是否含有实体和观点、所述连续句子的字符长度、所述连续句子中是否包含所述用户原创数据的首个句子或末尾句子中的任意一项或多项因素确定。
本实施例是与实施例一和实施例二对应的装置实施例,本实施例中各模块的具体实现方式参见实施例一和实施例二中的相关步骤的描述,此处不再赘述。
本申请实施例公开的用户原创内容摘要确定装置,通过确定用户原创内容包括的前后排列的至少一个句子;然后,确定每个所述句子的句子质量分;最后,在预设摘要最大字符长度的约束条件下,确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,解决了现有技术中无法准确提取用于原创内容摘要的问题。经过大量用户原创内容的测试,本申请公开的用户原创内容摘要确定装置,通过原创内容包括的连续句子的质量评分确定用户原创内容的摘要,可以高效、准确的确定用户原创数据的摘要。本申请实施例中,通过文本、实体和观点三个维度加权计算得到句子质量分,通过这种方法,能找到用户原创内容中信息价值密度最高的连续句子。并且,本申请实施例公开的远传内容摘要确定方法,支持标点符号使用不规范,甚至语句不通顺的用户原创内容摘要的抽取,鲁棒性更强;可以根据对摘要长度的不同要求,自适应抽取商户特色的用户原创内容摘要。
实施例六
本实施例公开的一种原创内容推荐装置,如图6所示,所述装置包括:
目标商户确定模块610,用于确定当前用户的目标商户;
候选用户原创内容确定模块620,用于根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;
匹配候选用户原创内容确定模块630,用于确定与所述当前用户匹配的所述候选用户原创内容;
原创内容摘要确定模块640,用于根据本申请实施例所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要;
推荐模块650,用于向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要,其中,所述候选用户原创内容的摘要根据实施例一和实施例二所述的用户原创内容摘要确定方法确定。
可选的,如图7所示,所述装置还包括:
用户原创内容评价得分确定模块660,用于根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。
可选的,所述目标商户确定模块610进一步用于:
确定所述当前用户产生过预设行为的商户,作为第一目标商户;
通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户;
将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。
可选的,所述目标商户确定模块610还用于:
将用户点击的商户序列作为词向量模型的输入,训练商户向量模型;
通过所述商户向量模型确定商户的商户向量。
可选的,所述匹配候选用户原创内容确定模块630进一步用于:
根据每条所述候选用户原创内容的排序特征和所述当前用户的用户特征,分别确定每条所述候选用户原创内容与所述当前用户的匹配度;
确定所述匹配度满足预设条件的所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容;
其中,所述排序特征包括:点赞数、评论数、分享数、文本质量分、图片质量分、实体词、用户原创内容发布者等级、发布者与所述当前用户的关系中的任意一项或多项;所述用户特征包括:用户历史行为特征、商区偏好特征、类目偏好特征、相似用户特征中的任意一项或多项,所述用户历史行为特征包括:搜索、浏览、购买、到店行为中的任意一项或多项的特征。
本实施例是与实施例三和实施例四对应的装置实施例,本实施例中各模块的具体实现方式参见实施例三和实施例四中的相关步骤的描述,此处不再赘述。
本申请实施例公开的用户原创内容推荐装置,通过确定当前用户的目标商户;然后,确定所述目标商户的用户原创内容的评价得分,并根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;确定与所述当前用户匹配的所述候选用户原创内容,及摘要;最后,向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要,解决了现有技术中根据用户原创内容的热度为用户推荐用户原创内容时,推荐的用户原创内容不准确,无法满足用户需求的问题。本申请实施例公开的用户原创内容推荐装置,通过把与用户匹配的用户原创内容推荐给用户,实现了有针对性的进行信息推荐,有效提升了用户原创内容推荐的准确性。同时,通过在为用户推荐原创内容时,仅展示原创内容的摘要,简洁清晰的为用户展示推荐的关键信息,便于用户准确快速的做出决策,进一步提升了用户体验。
通过文本、实体和观点的信息,确定用户原创内容的评价得分,能够提升用户原创内容质量评价的准确性,进一步提升用户原创内容推荐的准确性。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的原创内容摘要提取方法、实施例三和实施例四所述的用于原创内容推荐方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的原创内容摘要确定方法的步骤、实施例三和实施例四所述的用户原创内容推荐方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种用户原创内容摘要确定方法及装置,用户原创内容推荐方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (22)

1.一种用户原创内容摘要确定方法,其特征在于,包括:
确定用户原创内容包括的前后排列的至少一个句子;
确定每个所述句子的句子质量分;
在预设摘要最大字符长度的约束条件下,通过滑动窗口确定多组连续句子,根据每组连续句子中的各句子的句子质量分,确定每组连续句子的句子质量分之和,并确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,其中,滑动窗口的步长为整个句子;
其中,在预设摘要最大字符长度的约束条件下,通过滑动窗口确定多组连续句子包括:
根据预设摘要最大字符长度,通过调整窗口的长度,找到长度不超过所述最大字符长度的多组连续句子,其中,每组连续句子包括的多个句子的编号连续,所述编号为前后排列序号。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述句子的句子质量分的步骤,包括:
根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,其中,所述预设维度包括以下维度中的一个或多个:文本、实体、观点。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分的步骤,包括:
对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分。
4.根据权利要求1所述的方法,其特征在于,所述在预设摘要最大字符长度的约束条件下,通过滑动窗口确定多组连续句子,根据每组连续句子中的各句子的句子质量分,确定每组连续句子的句子质量分之和,并确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要的步骤,包括:
通过滑窗技术确定满足预设摘要最大字符长度的约束条件的至少一组连续句子;
确定所述至少一组连续句子中所述连续句子的句子质量分的加权和;
将所述加权和最高的一组连续句子,作为所述用户原创内容的摘要。
5.根据权利要求4所述的方法,其特征在于,计算所述加权和的加权值根据所述一组连续句子是否含有实体和观点、所述连续句子的字符长度、所述连续句子中是否包含所述用户原创数据的首个句子或末尾句子中的任意一项或多项因素确定。
6.一种用户原创内容推荐方法,其特征在于,包括:
确定当前用户的目标商户;
根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;
确定与所述当前用户匹配的所述候选用户原创内容;
根据权利要求1至5任一项所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要;
向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容的步骤之前,还包括:
根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。
8.根据权利要求6所述的方法,其特征在于,所述确定当前用户的目标商户的步骤,包括:
确定所述当前用户产生过预设行为的商户,作为第一目标商户;
通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户;
将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。
9.根据权利要求6所述的方法,其特征在于,所述通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户的步骤之前,还包括:
将用户点击的商户序列作为词向量模型的输入,训练商户向量模型;
通过所述商户向量模型确定商户的商户向量。
10.根据权利要求6所述的方法,其特征在于,所述确定与所述当前用户匹配的所述候选用户原创内容的步骤,包括:
根据每条所述候选用户原创内容的排序特征和所述当前用户的用户特征,分别确定每条所述候选用户原创内容与所述当前用户的匹配度;
确定所述匹配度满足预设条件的所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容;
其中,所述排序特征包括:点赞数、评论数、分享数、文本质量分、图片质量分、实体词、用户原创内容发布者等级、发布者与所述当前用户的关系中的任意一项或多项;所述用户特征包括:用户历史行为特征、商区偏好特征、类目偏好特征、相似用户特征中的任意一项或多项,所述用户历史行为特征包括:搜索、浏览、购买、到店行为中的任意一项或多项的特征。
11.一种原创内容摘要提取装置,其特征在于,包括:
句子确定模块,用于确定用户原创内容包括的前后排列的至少一个句子;
句子质量分确定模块,用于确定每个所述句子的句子质量分;
摘要确定模块,用于在预设摘要最大字符长度的约束条件下,通过滑动窗口确定多组连续句子,根据每组连续句子中的各句子的句子质量分,确定每组连续句子的句子质量分之和,并确定句子质量分之和最高的连续所述句子,作为所述用户原创内容的摘要,其中,滑动窗口的步长为整个句子;其中,在预设摘要最大字符长度的约束条件下,通过滑动窗口确定多组连续句子包括:
根据预设摘要最大字符长度,通过调整窗口的长度,找到长度不超过所述最大字符长度的多组连续句子,其中,每组连续句子包括的多个句子的编号连续,所述编号为前后排列序号。
12.根据权利要求11所述的装置,其特征在于,所述句子质量分确定模块进一步用于:
根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,其中,所述预设维度包括以下维度中的一个或多个:文本、实体、观点。
13.根据权利要求12所述的装置,其特征在于,所述根据每个所述句子的预设维度的信息,确定每个所述句子的句子质量分,包括:
对每个所述句子的实体维度评分和观点维度评分进行加权求和得到初始质量分,并通过文本维度评分对所述初始质量分进一步加权调整,确定每个所述句子的句子质量分。
14.根据权利要求11所述的装置,其特征在于,所述摘要确定模块进一步用于:
通过滑窗技术确定满足预设摘要最大字符长度的约束条件的至少一组连续句子;
确定所述至少一组连续句子中所述连续句子的句子质量分的加权和;
将所述加权和最高的一组连续句子,作为所述用户原创内容的摘要。
15.根据权利要求14所述的装置,其特征在于,计算所述加权和的加权值根据所述一组连续句子是否含有实体和观点、所述连续句子的字符长度、所述连续句子中是否包含所述用户原创数据的首个句子或末尾句子中的任意一项或多项因素确定。
16.一种用户原创内容推荐装置,其特征在于,包括:
目标商户确定模块,用于确定当前用户的目标商户;
候选用户原创内容确定模块,用于根据所述目标商户的用户原创内容的评价得分,确定候选用户原创内容;
匹配候选用户原创内容确定模块,用于确定与所述当前用户匹配的所述候选用户原创内容;
原创内容摘要确定模块,用于根据权利要求1至5任一项所述用户原创内容摘要确定方法,确定与所述当前用户匹配的所述候选用户原创内容的摘要;
推荐模块,用于向所述当前用户推荐与所述当前用户匹配的所述候选用户原创内容的摘要。
17.根据权利要求16所述的装置,其特征在于,还包括:
用户原创内容评价得分确定模块,用于根据文本、实体和观点三个维度的信息,确定所述用户原创内容的评价得分。
18.根据权利要求16所述的装置,其特征在于,所述目标商户确定模块进一步用于:
确定所述当前用户产生过预设行为的商户,作为第一目标商户;
通过计算商户向量的相似度,确定与所述第一目标商户相似的第二目标商户;
将所述第一目标商户和所述第二目标商户,作为所述当前用户的目标商户。
19.根据权利要求16所述的装置,其特征在于,所述目标商户确定模块还用于:
将用户点击的商户序列作为词向量模型的输入,训练商户向量模型;
通过所述商户向量模型确定商户的商户向量。
20.根据权利要求16所述的装置,其特征在于,所述匹配候选用户原创内容确定模块进一步用于:
根据每条所述候选用户原创内容的排序特征和所述当前用户的用户特征,分别确定每条所述候选用户原创内容与所述当前用户的匹配度;
确定所述匹配度满足预设条件的所述候选用户原创内容,作为与所述当前用户匹配的所述候选用户原创内容;
其中,所述排序特征包括:点赞数、评论数、分享数、文本质量分、图片质量分、实体词、用户原创内容发布者等级、发布者与所述当前用户的关系中的任意一项或多项;所述用户特征包括:用户历史行为特征、商区偏好特征、类目偏好特征、相似用户特征中的任意一项或多项,所述用户历史行为特征包括:搜索、浏览、购买、到店行为中的任意一项或多项的特征。
21.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任意一项所述的原创内容摘要确定方法或实现权利要求6至10任意一项所述的原创内容推荐方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任意一项所述的原创内容摘要确定方法的步骤或实现权利要求6至10任意一项所述的原创内容推荐方法的步骤。
CN201810447372.7A 2018-05-11 2018-05-11 原创内容摘要确定方法及装置,原创内容推荐方法及装置 Active CN108628833B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810447372.7A CN108628833B (zh) 2018-05-11 2018-05-11 原创内容摘要确定方法及装置,原创内容推荐方法及装置
PCT/CN2018/121321 WO2019214236A1 (zh) 2018-05-11 2018-12-14 原创内容摘要确定和原创内容推荐
US17/093,969 US20210056571A1 (en) 2018-05-11 2020-11-10 Determining of summary of user-generated content and recommendation of user-generated content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810447372.7A CN108628833B (zh) 2018-05-11 2018-05-11 原创内容摘要确定方法及装置,原创内容推荐方法及装置

Publications (2)

Publication Number Publication Date
CN108628833A CN108628833A (zh) 2018-10-09
CN108628833B true CN108628833B (zh) 2021-01-22

Family

ID=63692812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810447372.7A Active CN108628833B (zh) 2018-05-11 2018-05-11 原创内容摘要确定方法及装置,原创内容推荐方法及装置

Country Status (3)

Country Link
US (1) US20210056571A1 (zh)
CN (1) CN108628833B (zh)
WO (1) WO2019214236A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628833B (zh) * 2018-05-11 2021-01-22 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN109151521B (zh) * 2018-10-15 2021-03-02 北京字节跳动网络技术有限公司 一种用户原创值获取方法、装置、服务器及存储介质
CN110334192B (zh) * 2019-07-15 2021-09-24 河北科技师范学院 文本摘要生成方法及***、电子设备及存储介质
CN110688845B (zh) * 2019-10-10 2024-02-13 汉海信息技术(上海)有限公司 菜谱类内容的识别方法、装置、终端及可读存储介质
CN111241242B (zh) * 2020-01-09 2023-05-30 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质
CN111858873B (zh) * 2020-04-21 2024-06-04 北京嘀嘀无限科技发展有限公司 一种推荐内容的确定方法、装置、电子设备及存储介质
CN111737382A (zh) * 2020-05-15 2020-10-02 百度在线网络技术(北京)有限公司 地理位置点的排序方法、训练排序模型的方法及对应装置
CN112579800A (zh) * 2020-08-28 2021-03-30 太极计算机股份有限公司 一种融媒体新闻原创作品及首发媒体自动识别方法
CN113535942B (zh) * 2021-07-21 2022-08-19 北京海泰方圆科技股份有限公司 一种文本摘要生成方法、装置、设备及介质
CN114281981B (zh) * 2021-12-22 2023-05-02 北京百度网讯科技有限公司 新闻简报的生成方法、装置和电子设备
CN115221863B (zh) * 2022-07-18 2023-08-04 桂林电子科技大学 一种文本摘要评价方法、装置以及存储介质
CN115795025A (zh) * 2022-11-29 2023-03-14 华为技术有限公司 一种摘要生成方法及其相关设备
CN116433800B (zh) * 2023-06-14 2023-10-20 中国科学技术大学 基于社交场景用户偏好与文本联合指导的图像生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132677A (ja) * 2000-10-20 2002-05-10 Oki Electric Ind Co Ltd 電子メール転送装置及び電子メール装置
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
CN100492366C (zh) * 2007-06-28 2009-05-27 腾讯科技(深圳)有限公司 摘要提取方法以及摘要提取模块
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN104615772B (zh) * 2015-02-16 2017-11-03 重庆大学 一种用于电子商务的文本评价数据专业程度分析方法
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
US20170186102A1 (en) * 2015-12-29 2017-06-29 Linkedin Corporation Network-based publications using feature engineering
WO2018058096A1 (en) * 2016-09-26 2018-03-29 Contiq, Inc. Systems and methods for constructing presentations
CN106600360B (zh) * 2016-11-11 2020-05-12 北京星选科技有限公司 推荐对象的排序方法及装置
CN108959312B (zh) * 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN107609960A (zh) * 2017-10-18 2018-01-19 口碑(上海)信息技术有限公司 推荐理由生成方法及装置
CN108628833B (zh) * 2018-05-11 2021-01-22 北京三快在线科技有限公司 原创内容摘要确定方法及装置,原创内容推荐方法及装置

Also Published As

Publication number Publication date
CN108628833A (zh) 2018-10-09
US20210056571A1 (en) 2021-02-25
WO2019214236A1 (zh) 2019-11-14

Similar Documents

Publication Publication Date Title
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN106156204B (zh) 文本标签的提取方法和装置
CN103425635B (zh) 一种答案推荐方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
CN106610955A (zh) 基于词典的多维度情感分析方法
CN108280124B (zh) 产品分类方法及装置,排行榜生成方法及装置,电子设备
CN106294744A (zh) 兴趣识别方法及***
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
US8983997B2 (en) Information processing apparatus, information processing method, and program
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及***
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN108733652B (zh) 基于机器学习的影评情感倾向性分析的测试方法
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN105912563A (zh) 一种基于心理学知识赋予机器人工智能学习的方法
Yao et al. Online deception detection refueled by real world data collection
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
Shin et al. Analysis on review data of restaurants in *** maps through text mining: Focusing on sentiment analysis
CN111259136B (zh) 一种基于用户偏好自动生成主题评价摘要的方法
CN112184021A (zh) 一种基于相似支持集的答案质量评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant