CN113407815B - 生成场景主题的方法和装置 - Google Patents

生成场景主题的方法和装置 Download PDF

Info

Publication number
CN113407815B
CN113407815B CN202010182006.0A CN202010182006A CN113407815B CN 113407815 B CN113407815 B CN 113407815B CN 202010182006 A CN202010182006 A CN 202010182006A CN 113407815 B CN113407815 B CN 113407815B
Authority
CN
China
Prior art keywords
scene
combination
category
optional
category combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010182006.0A
Other languages
English (en)
Other versions
CN113407815A (zh
Inventor
简晓容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010182006.0A priority Critical patent/CN113407815B/zh
Publication of CN113407815A publication Critical patent/CN113407815A/zh
Application granted granted Critical
Publication of CN113407815B publication Critical patent/CN113407815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了生成场景主题的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收场景主题的生成请求,根据生成请求,确定待生成场景主题对应的目标类目组合;基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句;对可选场景语句进行结构处理,获得可选场景短语,从可选场景短语中,筛选出待生成场景主题对应的目标标题。该实施方式能够通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。

Description

生成场景主题的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种生成场景主题的方法和装置。
背景技术
智能化时代的来临,越来越多的用户通过互联网选择自己感兴趣的数据,比如说在购物网站上购买自己需要的物品,在新闻网站上浏览自己感兴趣的新闻信息等等。为了吸引用户方便用户购买或者浏览等,网站上设定一些专栏或频道向用户展示或推荐物品。在这些专栏或频道上展示的一系列物品组合,添加文字场景描述,将这一文字场景描述称为场景主题。
现有技术中,场景主题的生成方法是特定人群(如达人)撰写而成。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:由特定人群撰写,耗时耗力、成本高,而且主观性较强。
发明内容
有鉴于此,本发明实施例提供一种生成场景主题的方法和装置,能够通过用户输入的目标类目组合智能生成场景主题,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。
为实现上述目的,根据本发明实施例的第一方面,提供了一种生成场景主题的方法。
本发明实施例的一种生成场景主题的方法,包括:接收场景主题的生成请求,根据所述生成请求,确定待生成场景主题对应的目标类目组合;基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句;对所述可选场景语句进行结构处理,获得可选场景短语,从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题。
可选地,所述基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句,包括:利用所述类目映射字典,查询所述目标类目组合对应的上一级类目组合,以生成所述目标类目组合对应的扩展类目组合;根据预定义规则,生成所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值;根据所述场景匹配值和预设的场景语句个数,从所述素材类目组合中筛选出可选类目组合;从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句。
可选地,所述根据预定义规则,生成所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值,包括:针对所述类目组合数据库中的每个素材类目组合,按照如下方法计算所述扩展类目组合与所述每个素材类目组合的场景匹配值:获取所述扩展类目组合中的第一元素个数、所述每个素材类目组合中的第二元素个数、所述扩展类目组合与所述每个素材类目组合的交集元素个数、以及所述扩展类目组合与所述每个素材类目组合的共线词语个数;根据所述第一元素个数、所述第二元素个数、所述交集元素个数、以及所述共线词语个数,获得所述扩展类目组合与所述每个素材类目组合的场景匹配值。
可选地,在基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句之前,所述方法还包括:确定所述每个素材类目组合,获取所述每个素材类目组合对应的场景语句;根据所述每个素材类目组合和所述每个素材类目组合对应的场景语句,构建所述类目组合数据库。
可选地,在从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句之后,所述方法还包括:利用预建的过滤词典,对所述可选场景语句进行过滤,所述过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。
可选地,所述对所述可选场景语句进行结构处理,获得可选场景短语,包括:针对每个可选场景语句,按照如下方法对所述每个可选场景语句进行结构处理,获得所述每个可选场景语句对应的可选场景短语:利用依存句法结构,提取所述每个可选场景语句中的至少一个特征词和至少一个观点词,然后计算所述至少一个特征词与所述至少一个观点词之间的关联度和语义相似度;根据所述关联度、所述语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成所述每个可选场景语句的特征观点词;确定生成的所述特征观点词为所述每个可选场景语句对应的可选场景短语。
可选地,所述从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题,包括:根据所述生成请求,确定所述待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;利用分类模型计算所述可选场景短语的情感值,并获取所述可选场景短语的场景匹配值;根据所述主标题字数、所述副短标题字数、所述副长标题字数、所述情感值和所述场景匹配值,从所述可选场景短语中筛选出所述待生成场景主题对应的主标题、副短标题和副长标题。
可选地,所述根据所述主标题字数、所述副短标题字数、所述副长标题字数、所述情感值和所述场景匹配值,从所述可选场景短语中筛选出所述待生成场景主题对应的主标题、副短标题和副长标题,包括:利用预设的场景短语加权算法,根据所述情感值和所述场景匹配值,计算所述可选场景短语的可选加权分数;根据所述主标题字数和所述可选加权分数,从所述可选场景短语中筛选出所述主标题;基于Bert模型,计算所述主标题与备选场景短语的关系值,所述备选场景短语由所述可选场景短语中所述主标题以外的短语组成;根据所述副短标题字数、所述副长标题字数、所述可选加权分数和所述关系值,从所述备选场景短语中筛选出所述副短标题和所述副长标题。
为实现上述目的,根据本发明实施例的第二方面,提供了一种生成场景主题的装置。
本发明实施例的一种生成场景主题的装置,包括:确定模块,用于接收场景主题的生成请求,根据所述生成请求,确定待生成场景主题对应的目标类目组合;获取模块,用于基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句;筛选模块,用于对所述可选场景语句进行结构处理,获得可选场景短语,从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题。
可选地,所述获取模块还用于:利用所述类目映射字典,查询所述目标类目组合对应的上一级类目组合,以生成所述目标类目组合对应的扩展类目组合;根据预定义规则,计算所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值;根据所述场景匹配值和预设的场景语句个数,从所述素材类目组合中筛选出可选类目组合;从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句。
可选地,所述获取模块还用于:针对所述类目组合数据库中的每个素材类目组合,按照如下方法计算所述扩展类目组合与所述每个素材类目组合的场景匹配值:获取所述扩展类目组合中的第一元素个数、所述每个素材类目组合中的第二元素个数、所述扩展类目组合与所述每个素材类目组合的交集元素个数、以及所述扩展类目组合与所述每个素材类目组合的共线词语个数;根据所述第一元素个数、所述第二元素个数、所述交集元素个数、以及所述共线词语个数,获得所述扩展类目组合与所述每个素材类目组合的场景匹配值。
可选地,所述装置还包括:构建模块,用于确定所述每个素材类目组合,获取所述每个素材类目组合对应的场景语句;根据所述每个素材类目组合和所述每个素材类目组合对应的场景语句,构建所述类目组合数据库。
可选地,所述获取模块还用于:利用预建的过滤词典,对所述可选场景语句进行过滤,所述过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。
可选地,所述筛选模块还用于:针对每个可选场景语句,按照如下方法对所述每个可选场景语句进行结构处理,获得所述每个可选场景语句对应的可选场景短语:利用依存句法结构,提取所述每个可选场景语句中的至少一个特征词和至少一个观点词,然后计算所述至少一个特征词与所述至少一个观点词之间的关联度和语义相似度;根据所述关联度、所述语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成所述每个可选场景语句的特征观点词;确定生成的所述特征观点词为所述每个可选场景语句对应的可选场景短语。
可选地,所述筛选模块还用于:根据所述生成请求,确定所述待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;利用分类模型计算所述可选场景短语的情感值,并获取所述可选场景短语的场景匹配值;根据所述主标题字数、所述副短标题字数、所述副长标题字数、所述情感值和所述场景匹配值,从所述可选场景短语中筛选出所述待生成场景主题对应的主标题、副短标题和副长标题。
可选地,所述筛选模块还用于:利用预设的场景短语加权算法,根据所述情感值和所述场景匹配值,计算所述可选场景短语的可选加权分数;根据所述主标题字数和所述可选加权分数,从所述可选场景短语中筛选出所述主标题;基于Bert模型,计算所述主标题与备选场景短语的关系值,所述备选场景短语由所述可选场景短语中所述主标题以外的短语组成;根据所述副短标题字数、所述副长标题字数、所述可选加权分数和所述关系值,从所述备选场景短语中筛选出所述副短标题和所述副长标题。
为实现上述目的,根据本发明实施例的第三方面,提供了一种电子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的生成场景主题的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的生成场景主题的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够从接收的场景主题的生成请求中,分析得到用户输入的目标类目组合,进而可以结合预先构建的类目映射字典和类目组合数据库,分析得知目标类目组合对应的可选场景语句,进一步得到可选场景短语,筛选出待生成场景对应的目标标题,达到了通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。此外,本发明实施例的生成场景主题的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大分析匹配的范围,从而可以提高匹配的准确性。还有,本发明实施例中利用预建的过滤词典将可选场景语句中不符合当前情形或者不可用使用的语句过滤掉,能够提高生成场景主题的准确性,给用户带来较好体验。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的生成场景主题的方法的主要步骤的示意图;
图2是根据本发明实施例的获取目标类目组合对应的可选场景语句的方法的主要流程的示意图;
图3是根据本发明实施例的利用可选场景语句生成场景主题对应的目标标题的方法的主要流程的示意图;
图4是根据本发明实施例的生成场景主题的方法的主要流程的示意图;
图5是根据本发明实施例的生成场景主题的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性***架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的生成场景主题的方法的主要步骤的示意图。如图1所示,本发明实施例的生成场景主题的方法的主要步骤可以包括:
步骤S101,接收场景主题的生成请求,根据生成请求,确定待生成场景主题对应的目标类目组合;
步骤S102,基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句;
步骤S103,对可选场景语句进行结构处理,获得可选场景短语,从可选场景短语中,筛选出待生成场景主题对应的目标标题。
本发明实施例的生成场景主题的方法中,接收的场景主题的生成请求中包括用户输入的目标类目组合,比如说输入的目标类目组合为个人理财#股票#金融理论#投资,每个类目之间可以用#分隔开,最后生成场景主题为个人理财#股票#金融理论#投资对应的场景主题,又或者是输入的目标类目组合为(个人理财、股票、金融理论、投资),当然输入的目标类目组合也可以是其他形式,本发明实施例对此不作限定。
在得到目标类目组合之后,利用预先构建的类目映射字典和类目组合数据库,对输入的目标类目组合进行场景匹配分析,即匹配得到目标类目组合对应的场景,从而可以获取到可选场景语句。本发明实施例中需要预先构建类目映射字典,构建的类目映射字典中包括物品、该物品对应的类型级别、以及该物品对应的上级分类。假设说,构建的类目映射字典包括三级分类,第一级分类中包括电子产品,电子产品对应的第二级分类可以包括音视频产品、影音产品等,音视频产品对应的三级分类可以包括音视频配件、麦克风、音箱、电视盒、耳机等。需要注意的是,获取到的可选场景语句的个数为至少一个。
在获取到至少一个可选场景语句之后,可以对每个可选场景语句的结构进行分析,获得每个可选场景语句对应的可选场景短语。显然,获取到的可选场景短语的个数也为至少一个,接着从至少一个可选场景短语中,筛选出待生成场景主题对应的目标标题。
从上述步骤S101至步骤S103中可以得知,能够从接收的场景主题的生成请求中,分析得到用户输入的目标类目组合,进而可以结合预先构建的类目映射字典和类目组合数据库,分析得知目标类目组合对应的可选场景语句,进一步得到可选场景短语,筛选出待生成场景对应的目标标题,达到了通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。
可以看出,本发明实施例的生成场景主题的方法中,利用类目映射字典和类目组合数据库进行场景匹配分析是本技术方案的重要部分。所以,类目映射字典和类型组合数据的构建有重要意义,在上文中已经描述过构建的类目映射字典中包括物品、该物品对应的类型级别、以及该物品对应的上级分类。
作为本发明的可参考实施例,在基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句之前,生成场景主题的方法还可以包括:确定每个素材类目组合,获取每个素材类目组合对应的场景语句;根据每个素材类目组合和每个素材类目组合对应的场景语句,构建类目组合数据库。也就是根据实际的业务需求确定素材类目组合,其中素材类目组合就是指工作人员根据需要设置的类目组合,也是构建的类目组合数据库中存储的类目组合,比如说素材类目组合为套装#运动背心#T恤,利用数据查询语句获取到该素材类目组合对应的场景语句为“篮球厂上,我们挥汗如雨,热血沸腾,汗水必定会打湿我们的衣服,所以对于个人运动而言…”,这样将该素材类目组合与其对应的场景语句存储至类目组合数据库中,从而完成类目组合数据库的构建。值得注意的是,本发明实施例中构建的类目组合数据库可以不断扩充更新的。
利用类目映射字典和类目组合数据库进行场景匹配分析是本技术方案的重要部分,匹配结果的准确性影响到选择的场景语句的准确性,进而会对场景主题的目标主题产生影响。作为本发明的可参考实施例,基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句,可以包括:
步骤S1021,利用类目映射字典,查询目标类目组合对应的上一级类目组合,以生成目标类目组合对应的扩展类目组合;
步骤S1022,根据预定义规则,生成扩展类目组合与类目组合数据库中的素材类目组合的场景匹配值;
步骤S1023,根据场景匹配值和预设的场景语句个数,从素材类目组合中筛选出可选类目组合;
步骤S1024,从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句。
在上文中已经描述过构建的类目映射字典中包括物品、该物品对应的类型级别、以及该物品对应的上级分类。因此在步骤S1021中,可以利用类目映射字典,查询到用户输入的目标类目组合对应的上一级类目组合,从而可以得到扩展类目组合,比如说目标类目组合为个人理财#股票#金融理论#投资,该目标类目组合中个人理财、股票和投资对应的上级类目为理财,金融理论对应的上级类目为金融,这样得到的二级类目组合为理财#金融,生成的扩展类目组合为个人理财#股票#金融理论#投资#理财#金融。本发明实施例的生成场景主题的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大分析匹配的范围,从而可以提高匹配的准确性。
在生成扩展类目组合之后,可以根据预定义规则,生成扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值。具体计算方法为:获取扩展类目组合中的第一元素个数、每个素材类目组合中的第二元素个数、扩展类目组合与每个素材类目组合的交集元素个数、以及扩展类目组合与每个素材类目组合的共线词语个数;根据第一元素个数、第二元素个数、交集元素个数、以及共线词语个数,获得扩展类目组合与每个素材类目组合的场景匹配值。
其中,扩展类目组合中的第一元素个数就是扩展类目组合中包括的元素个数,比如说扩展类目组合为个人理财#股票#金融理论#投资#理财#金融,则第一元素个数为5;每个素材类目组合中的第二元素个数就是该素材类目组合中包括的元素个数,比如素材类目组合为个人理财#理财产品#理财基金#经济,则第二元素个数为4;扩展类目组合与每个素材类目组合的交集元素个数就是指扩展类目组合中的元素与素材类目组合中的元素相同的个数,比如扩展类目组合为个人理财#股票#金融理论#投资#理财#金融,素材类目组合为个人理财#理财产品#理财基金#经济,则交集元素个数为1;扩展类目组合与每个素材类目组合的共线词语个数是指对扩展类目组合和素材类目组合中的元素进行分词后,得到的相同词语的个数,比如说扩展类目组合为个人理财#股票#金融理论#投资#理财#金融,素材类目组合为个人理财#理财产品#理财基金#经济,则扩展类目组合分词后得到的词语为个人、理财、股票、金融、理论、投资,素材类目组合分词后得到的词语为个人、理财、产品、基金、经济,则共线词语个数为2。
在获取到第一元素个数、第二元素个数、交集元素个数、以及共线词语个数后,获得扩展类目组合与每个素材类目组合的场景匹配值。本发明实施例中,预定义规则可以利用场景匹配值计算公式生成场景匹配值,即将第一元素个数、第二元素个数、交集元素个数、以及共线词语个数代入至场景匹配值计算公式中,得到场景匹配值。其中,场景匹配值计算公式可以为:
match(querycates,keycates)=(x_num*x_num)/(q_num*min(max(k_num,penalty_bias),q_num))+homo_word_match
其中,querycates为扩展类目组合;keycates为素材类目组合;x_num为querycates和keycates的交集元素个数;q_num为querycates的第一元素个数;k_num为keycates的第二元素个数;homo_word_match是querycates和keycates的共线词语个数;penalty_bias为设置的常数,其值可以根据实际情况设置。
在计算得到扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值,然后根据在步骤S1023中,根据计算得到的场景匹配值和预设的场景语句个数,从素材类目组合中筛选出可选类目组合。将计算得到的扩展类目组合与每个素材类目组合的场景匹配值从高到低进行排序,然后利用预设的场景语句个数,选择排名靠前的类目组合为可选类目组合。假设说,预设的场景语句个数为100,最高的场景匹配值对应的素材类目组合对应的场景语句为30,排名第二的场景匹配值对应的素材类目组合对应的场景语句为40,排名第三的场景匹配值对应的素材类目组合对应的场景语句为30,则筛选出的可选类目组合就为这三个素材类目组合。进而,能够从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句。
此外,本发明实施例中,在从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句之后,生成场景主题的方法还可以包括:利用预建的过滤词典,对可选场景语句进行过滤,过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。考虑到得到的可选场景语句中可能包括不符合当前情形或者不可用使用的语句,因此利用预建的过滤词典对可选场景语句进行过滤处理。节日词典可以包括:元旦、跨年、年末、双旦、小寒、大寒、腊八、中秋等,将可选场景语句中包括这些节日词典又与当前生成请求无关的语句过滤掉;人名词典可以包括一些具有影响力的人物名字,为了避免侵权问题,可以将可选场景语句中涉及到人名词典中的语句过滤掉;负面词汇词典可以包括:乱离、散漫、出卖、无赖、虚假、谗言等,负面词汇不适合在场景主题中出现,因此需要将可选场景语句中与负面词汇相关的语句过滤掉。
图2是根据本发明实施例的获取目标类目组合对应的可选场景语句的方法的主要流程的示意图。如图2所示,本发明实施例的获取目标类目组合对应的可选场景语句的方法的主要流程可以包括:
步骤S201,利用类目映射字典,查询目标类目组合对应的上一级类目组合,以生成目标类目组合对应的扩展类目组合;
步骤S202,选取类目组合数据库中的任意一个素材类目组合,命名为A;
步骤S203,获取扩展类目组合中的第一元素个数、素材类目组合A中的第二元素个数、扩展类目组合与素材类目组合A的交集元素个数、以及扩展类目组合与素材类目组合A的共线词语个数;
步骤S204,根据第一元素个数、第二元素个数、交集元素个数、以及共线词语个数,获得扩展类目组合与素材类目组合A的场景匹配值;
步骤S205,判断是否计算扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值,若是,则执行步骤S206;
步骤S206,根据扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值和预设的场景语句个数,从素材类目组合中筛选出可选类目组合;
步骤S207,从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句;
步骤S208,利用预建的过滤词典,对可选场景语句进行过滤,过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。
本发明实施例的获取目标类目组合对应的可选场景语句的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大匹配的类目组合范围,从而可以提高匹配的准确性。
在获取到可选场景语句之后,需要对可选场景语句进行结构处理,得到可选场景短语。作为本发明的可参考实施例,对可选场景语句进行结构处理,获得可选场景短语,可以包括:针对每个可选场景语句,对每个可选场景语句进行结构处理,获得每个可选场景语句对应的可选场景短语。生成每个可选场景语句对应的可选场景短语的方法具体解释为:利用依存句法结构,提取每个可选场景语句中的至少一个特征词和至少一个观点词,然后计算至少一个特征词与至少一个观点词之间的关联度和语义相似度;根据关联度、语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成每个可选场景语句的特征观点词;确定生成的特征观点词为每个可选场景语句对应的可选场景短语。
依存句法结构是通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分,本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。本发明实施例中可以直接利用依存句法结构,提取每个可选场景语句中的至少一个特征词和至少一个观点词,对于特征词,一般是名词、动名词或者复合词语,如通话质量、质量、效果、使用等,对于观点词,一般是形容词、形动词、或者复合词语,如特别、好、正确等。
针对每个可选场景语句,提取出该可选场景语句的特征词和观点词之后,然后计算每个特征词与每个观点词之间的关联度和语义相似度。本发明实施例中,可以利用互信息技术计算特征词与观点词之间的关联度,互信息是指变量间相互依赖性的量度,还可以利用其它手段计算特征词与观点词之间的关联度,对此不作限定;可以利用KL散度计算特征词与观点词之间的语义相似度,KL散度是是两个概率分布P和Q差别的非对称性的度量,也可以利用其它手段计算特征词与观点词之间的语义相似度,对此不作限定。
在计算得到特征词与观点词之间的关联度和语义相似度之后,根据关联度、语义相似度、预设的关联度阈值和预设的语义相似度阈值,并且结合依存句法结构,生成每个可选场景语句的特征观点词,同时确定生成的特征观点词为每个可选场景语句对应的可选场景短语。比如说,若一个特征词与一个观点词之间的关联度大于预设的关联度阈值,并且该特征词与该观点词之间的语义相似度大于预设的语义相似度阈值,则说明该特征词与该观点词之间的关联性较强,此种情况下则可以根据依存句法结构,生成该特征词和该观点词组成的特征观点词,并确定该特征观点词为可选场景短语。比如说,特征词有效果、使用,观点词有好、正确、带来,生成特征观点词可以为效果好、带来效果、正确使用,又或者是,特征词有质量、通话质量,观点词有特别,生成的特征观点词可以为质量特别、通话质量特别。
此外,作为本发明的可参考实施例,从可选场景短语中,筛选出待生成场景主题对应的目标标题,可以包括:根据生成请求,确定待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;利用分类模型计算可选场景短语的情感值,并获取可选场景短语的场景匹配值;根据主标题字数、副短标题字数、副长标题字数、情感值和场景匹配值,从可选场景短语中筛选出待生成场景主题对应的主标题、副短标题和副长标题。
本发明实施例中,生成场景主题可以为生成场景主题的主标题、副短标题和副长标题,用户通过主标题、副短标题和副长标题,就能够熟知场景主题。因此,接收的生成请求中包括主标题的字数要求、副短标题的字数要求和副长标题的字数要求。可选场景短语均是对可选场景语句进行结构处理得到的,在获取可选场景语句的方法中,计算了可选场景语句与扩展类目组合的场景匹配值,相当于是获取到可选场景短语对应的场景匹配值。本发明实施例中,在筛选可选场景短语的方法中,除了利用场景匹配值之外,还可以利用可选场景短语的情感值。本发明实施例中,可以利用分类模型计算可选场景短语的情感值,这属于自然语言处理的成熟算法,此处不作具体说明。
本发明实施例中,在获取到主标题字数、副短标题字数、副长标题字数、情感值和场景匹配值,就可以从可选场景短语中筛选出待生成场景主题对应的主标题、副短标题和副长标题,具体实现为:利用预设的场景短语加权算法,根据情感值和场景匹配值,计算可选场景短语的可选加权分数;根据主标题字数和可选加权分数,从可选场景短语中筛选出主标题;基于Bert模型,计算主标题与备选场景短语的关系值,备选场景短语由可选场景短语中主标题以外的短语组成;根据副短标题字数、副长标题字数、可选加权分数和关系值,从备选场景短语中筛选出副短标题和副长标题。其中,Bert模型全称为Bidirection alEncoder Representations from Transformer,Bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的。
假设说,主标题字数为4,副短标题字数为4到5,副长标题字数为6到10,在可选场景短语中选择情感值和场景匹配值最高的4字短语为场景主题的主标题,此处的情感值和场景匹配值最高可以根据实际情况设置加权系数计算。然后选择字数为4到5字的,情感值和场景匹配值最高的,并且与主标题没有重合的短语。值得注意的是,此时还需要基于Bert模型计算主标题与选择的短语的关系值,如果计算出来的关系值大于预设的关系值,如0.8,则说明主标题与选择出的短语表达主题一致,则确认选择出的短语为副短标题,否则还需要重新选择。接着选择字数为6到10字的,情感值和场景匹配值最高的,并且与主标题以及副短标题没有重合的短语。值得注意的是,此时还需要基于Bert模型计算主标题与选择的短语的关系值,如果计算出来的关系值大于预设的关系值,如0.8,则说明主标题与选择出的短语表达主题一致,则确认选择出的短语为副长标题,否则仍然需要重新选择。举例来说,目标类目组合为个人理财#股票#金融理论,最后生成的场景主题的主标题为财富人生,副短标题为懂点金融学,副长标题为书中有黄金屋。图3是根据本发明实施例的利用可选场景语句生成场景主题对应的目标标题的方法的主要流程的示意图。如图3所示,本发明实施例的利用可选场景语句生成场景主题对应的目标标题的方法的主要流程可以包括:
步骤S301,从可选场景语句中选择任意一个可选场景语句S;
步骤S302,利用依存句法结构,提取可选场景语句S中的至少一个特征词和至少一个观点词,计算至少一个特征词与至少一个观点词之间的关联度和语义相似度;
步骤S303,根据关联度、语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成可选场景语句S的特征观点词,确定生成的特征观点词为可选场景语句S对应的可选场景短语;
步骤S304,利用分类模型计算可选场景短语S的情感值,并获取可选场景短语S的场景匹配值;
步骤S305,利用预设的场景短语加权算法,根据情感值和场景匹配值,计算可选场景短语S的可选加权分数;
步骤S306,判断是否分析每个可选场景语句对应的可选场景短语,若是,则执行步骤S307;
步骤S307,确定待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;
步骤S308,根据主标题字数和可选加权分数,从所有可选场景短语中筛选出主标题;
步骤S309,基于Bert模型,计算主标题与备选场景短语的关系值,其中备选场景短语由所有可选场景短语中主标题以外的短语组成;
步骤S310,根据副短标题字数、副长标题字数、可选加权分数和关系值,从备选场景短语中筛选出副短标题和副长标题。
其中,步骤S309和步骤S310筛选出副短标题和副长标题可以是从备选场景短语中获得的。首先从所有可选场景短语中选择出主标题,然后将主标题从所有可选场景短语中删除,得到备选场景短语。还有,步骤S304和步骤S305的执行顺序可以根据实际情况调整,在步骤S308之前执行即可,本发明对此不作限定。
图4是根据本发明实施例的生成场景主题的方法的主要流程的示意图。如图4所示,本发明实施例的生成场景主题的方法的主要流程可以包括:
步骤S401,利用类目映射字典,查询目标类目组合对应的上一级类目组合,以生成目标类目组合对应的扩展类目组合;
步骤S402,选取类目组合数据库中的任意一个素材类目组合,命名为A;
步骤S403,获取扩展类目组合中的第一元素个数、素材类目组合A中的第二元素个数、扩展类目组合与素材类目组合A的交集元素个数、以及扩展类目组合与素材类目组合A的共线词语个数;
步骤S404,根据第一元素个数、第二元素个数、交集元素个数、以及共线词语个数,获得扩展类目组合与素材类目组合A的场景匹配值;
步骤S405,判断是否计算扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值,若是,则执行步骤S406;
步骤S406,根据扩展类目组合与类目组合数据库中每个素材类目组合的场景匹配值和预设的场景语句个数,从素材类目组合中筛选出可选类目组合;
步骤S407,从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句;
步骤S408,利用预建的过滤词典,对可选场景语句进行过滤,过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典;
步骤S409,从可选场景语句中选择任意一个可选场景语句S;
步骤S410,利用依存句法结构,提取可选场景语句S中的至少一个特征词和至少一个观点词,计算至少一个特征词与至少一个观点词之间的关联度和语义相似度;
步骤S411,根据关联度、语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成可选场景语句S的特征观点词,确定生成的特征观点词为可选场景语句S对应的可选场景短语;
步骤S412,利用分类模型计算可选场景短语S的情感值,并获取可选场景短语S的场景匹配值;
步骤S413,利用预设的场景短语加权算法,根据情感值和场景匹配值,计算可选场景短语S的可选加权分数;
步骤S414,判断是否分析每个可选场景语句对应的可选场景短语,若是,则执行步骤S415;
步骤S415,确定待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;
步骤S416,根据主标题字数和可选加权分数,从所有可选场景短语中筛选出主标题;
步骤S417,基于Bert模型,计算主标题与备选场景短语的关系值,其中备选场景短语由所有可选场景短语中主标题以外的短语组成;
步骤S418,根据副短标题字数、副长标题字数、可选加权分数和关系值,从备选场景短语中筛选出副短标题和副长标题。
其中,步骤S412和步骤S413的执行顺序可以根据实际情况调整,在步骤S416之前执行即可,本发明对此不作限定
根据本发明实施例的生成场景主题的技术方案,能够从接收的场景主题的生成请求中,分析得到用户输入的目标类目组合,进而可以结合预先构建的类目映射字典和类目组合数据库,分析得知目标类目组合对应的可选场景语句,进一步得到可选场景短语,筛选出待生成场景对应的目标标题,达到了通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。此外,本发明实施例的生成场景主题的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大分析匹配的范围,从而可以提高匹配的准确性。还有,本发明实施例中利用预建的过滤词典将可选场景语句中不符合当前情形或者不可用使用的语句过滤掉,能够提高生成场景主题的准确性,给用户带来较好体验。
图5是根据本发明实施例的生成场景主题的装置的主要模块的示意图。本发明实施例的生成场景主题的装置500可以包括:确定模块501、获取模块502和筛选模块503。
其中,确定模块501可用于接收场景主题的生成请求,根据生成请求,确定待生成场景主题对应的目标类目组合;获取模块502可用于基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句;筛选模块503可用于对可选场景语句进行结构处理,获得可选场景短语,从可选场景短语中,筛选出待生成场景主题对应的目标标题。
本发明实施例中,获取模块502还可用于:利用类目映射字典,查询目标类目组合对应的上一级类目组合,以生成目标类目组合对应的扩展类目组合;根据预定义规则,生成扩展类目组合与类目组合数据库中的素材类目组合的场景匹配值;根据场景匹配值和预设的场景语句个数,从素材类目组合中筛选出可选类目组合;从类目组合数据库中,获取可选类目组合对应的场景语句为可选场景语句。
本发明实施例中,获取模块502还可用于:针对类目组合数据库中的每个素材类目组合,按照如下方法计算扩展类目组合与每个素材类目组合的场景匹配值:获取扩展类目组合中的第一元素个数、每个素材类目组合中的第二元素个数、扩展类目组合与每个素材类目组合的交集元素个数、以及扩展类目组合与每个素材类目组合的共线词语个数;根据第一元素个数、第二元素个数、交集元素个数、以及共线词语个数,获得扩展类目组合与每个素材类目组合的场景匹配值。
本发明实施例中,生成场景主题的装置还可以包括:构建模块(图中未示出)。该构建模块可用于:确定每个素材类目组合,获取每个素材类目组合对应的场景语句;根据每个素材类目组合和每个素材类目组合对应的场景语句,构建类目组合数据库。
本发明实施例中,获取模块502还可用于:利用预建的过滤词典,对可选场景语句进行过滤,过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。
本发明实施例中,筛选模块503还可用于:针对每个可选场景语句,按照如下方法对每个可选场景语句进行结构处理,获得每个可选场景语句对应的可选场景短语:利用依存句法结构,提取每个可选场景语句中的至少一个特征词和至少一个观点词,然后计算至少一个特征词与至少一个观点词之间的关联度和语义相似度;根据关联度、语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成每个可选场景语句的特征观点词;确定生成的特征观点词为每个可选场景语句对应的可选场景短语。
本发明实施例中,筛选模块503还可用于:根据生成请求,确定待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;利用分类模型计算可选场景短语的情感值,并获取可选场景短语的场景匹配值;根据主标题字数、副短标题字数、副长标题字数、情感值和场景匹配值,从可选场景短语中筛选出待生成场景主题对应的主标题、副短标题和副长标题。
本发明实施例中,筛选模块503还可用于:利用预设的场景短语加权算法,根据情感值和场景匹配值,计算可选场景短语的可选加权分数;根据主标题字数和可选加权分数,从可选场景短语中筛选出主标题;基于Bert模型,计算主标题与备选场景短语的关系值,备选场景短语由可选场景短语中主标题以外的短语组成;根据副短标题字数、副长标题字数、可选加权分数和关系值,从备选场景短语中筛选出副短标题和副长标题。
从以上描述可以看出,本发明实施例的生成场景主题的装置能够从接收的场景主题的生成请求中,分析得到用户输入的目标类目组合,进而可以结合预先构建的类目映射字典和类目组合数据库,分析得知目标类目组合对应的可选场景语句,进一步得到可选场景短语,筛选出待生成场景对应的目标标题,达到了通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。此外,本发明实施例的生成场景主题的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大分析匹配的范围,从而可以提高匹配的准确性。还有,本发明实施例中利用预建的过滤词典将可选场景语句中不符合当前情形或者不可用使用的语句过滤掉,能够提高生成场景主题的准确性,给用户带来较好体验。
图6示出了可以应用本发明实施例的生成场景主题的方法或生成场景主题的装置的示例性***架构600。
如图6所示,***架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的生成场景主题的方法一般由服务器605执行,相应地,生成场景主题的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括确定模块、获取模块和筛选模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,确定模块还可以被描述为“接收场景主题的生成请求,根据生成请求,确定待生成场景主题对应的目标类目组合的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:接收场景主题的生成请求,根据生成请求,确定待生成场景主题对应的目标类目组合;基于预建的类目映射字典和类目组合数据库,对目标类目组合进行场景匹配分析,获取目标类目组合对应的可选场景语句;对可选场景语句进行结构处理,获得可选场景短语,从可选场景短语中,筛选出待生成场景主题对应的目标标题。
根据本发明实施例的技术方案,能够从接收的场景主题的生成请求中,分析得到用户输入的目标类目组合,进而可以结合预先构建的类目映射字典和类目组合数据库,分析得知目标类目组合对应的可选场景语句,进一步得到可选场景短语,筛选出待生成场景对应的目标标题,达到了通过用户输入的目标类目组合智能生成场景主题的效果,解决了现有技术中需要特定人群撰写,耗时耗力、成本高,而且主观性较强的缺陷。此外,本发明实施例的生成场景主题的方法中,生成目标类目组合对应的扩展类目组合,接着对扩展类目组合进行分析,能够扩大分析匹配的范围,从而可以提高匹配的准确性。还有,本发明实施例中利用预建的过滤词典将可选场景语句中不符合当前情形或者不可用使用的语句过滤掉,能够提高生成场景主题的准确性,给用户带来较好体验。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种生成场景主题的方法,其特征在于,包括:
接收场景主题的生成请求,根据所述生成请求,确定待生成场景主题对应的目标类目组合;
基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句,包括:利用所述类目映射字典,查询所述目标类目组合对应的上一级类目组合,以生成所述目标类目组合对应的扩展类目组合;根据预定义规则,生成所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值;根据所述场景匹配值和预设的场景语句个数,从所述素材类目组合中筛选出可选类目组合;从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句;其中,预先构建类目映射字典,构建的类目映射字典中包括物品、该物品对应的类型级别、以及该物品对应的上级分类;以及确定每个素材类目组合,获取所述每个素材类目组合对应的场景语句,根据所述每个素材类目组合和所述每个素材类目组合对应的场景语句,构建所述类目组合数据库;
对所述可选场景语句进行结构处理,获得可选场景短语,从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题。
2.根据权利要求1所述的方法,其特征在于,所述根据预定义规则,生成所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值,包括:
针对所述类目组合数据库中的每个素材类目组合,按照如下方法计算所述扩展类目组合与所述每个素材类目组合的场景匹配值:
获取所述扩展类目组合中的第一元素个数、所述每个素材类目组合中的第二元素个数、所述扩展类目组合与所述每个素材类目组合的交集元素个数、以及所述扩展类目组合与所述每个素材类目组合的共线词语个数;
根据所述第一元素个数、所述第二元素个数、所述交集元素个数、以及所述共线词语个数,获得所述扩展类目组合与所述每个素材类目组合的场景匹配值。
3.根据权利要求1所述的方法,其特征在于,在从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句之后,所述方法还包括:
利用预建的过滤词典,对所述可选场景语句进行过滤,所述过滤词典包括以下选项中至少一项:节日词典、人名词典、以及负面词汇词典。
4.根据权利要求1所述的方法,其特征在于,所述对所述可选场景语句进行结构处理,获得可选场景短语,包括:
针对每个可选场景语句,按照如下方法对所述每个可选场景语句进行结构处理,获得所述每个可选场景语句对应的可选场景短语:
利用依存句法结构,提取所述每个可选场景语句中的至少一个特征词和至少一个观点词,然后计算所述至少一个特征词与所述至少一个观点词之间的关联度和语义相似度;
根据所述关联度、所述语义相似度、预设的关联度阈值和预设的语义相似度阈值,结合依存句法结构,生成所述每个可选场景语句的特征观点词;
确定生成的所述特征观点词为所述每个可选场景语句对应的可选场景短语。
5.根据权利要求1所述的方法,其特征在于,所述从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题,包括:
根据所述生成请求,确定所述待生成场景主题对应的主标题字数、副短标题字数、以及副长标题字数;
利用分类模型计算所述可选场景短语的情感值,并获取所述可选场景短语的场景匹配值;
根据所述主标题字数、所述副短标题字数、所述副长标题字数、所述情感值和所述场景匹配值,从所述可选场景短语中筛选出所述待生成场景主题对应的主标题、副短标题和副长标题。
6.根据权利要求5所述的方法,其特征在于,所述根据所述主标题字数、所述副短标题字数、所述副长标题字数、所述情感值和所述场景匹配值,从所述可选场景短语中筛选出所述待生成场景主题对应的主标题、副短标题和副长标题,包括:
利用预设的场景短语加权算法,根据所述情感值和所述场景匹配值,计算所述可选场景短语的可选加权分数;
根据所述主标题字数和所述可选加权分数,从所述可选场景短语中筛选出所述主标题;
基于Bert模型,计算所述主标题与备选场景短语的关系值,所述备选场景短语由所述可选场景短语中所述主标题以外的短语组成;
根据所述副短标题字数、所述副长标题字数、所述可选加权分数和所述关系值,从所述备选场景短语中筛选出所述副短标题和所述副长标题。
7.一种生成场景主题的装置,其特征在于,包括:
确定模块,用于接收场景主题的生成请求,根据所述生成请求,确定待生成场景主题对应的目标类目组合;
获取模块,用于基于预建的类目映射字典和类目组合数据库,对所述目标类目组合进行场景匹配分析,获取所述目标类目组合对应的可选场景语句,包括:利用所述类目映射字典,查询所述目标类目组合对应的上一级类目组合,以生成所述目标类目组合对应的扩展类目组合;根据预定义规则,生成所述扩展类目组合与所述类目组合数据库中的素材类目组合的场景匹配值;根据所述场景匹配值和预设的场景语句个数,从所述素材类目组合中筛选出可选类目组合;从所述类目组合数据库中,获取所述可选类目组合对应的场景语句为所述可选场景语句;其中,预先构建类目映射字典,构建的类目映射字典中包括物品、该物品对应的类型级别、以及该物品对应的上级分类;以及确定每个素材类目组合,获取所述每个素材类目组合对应的场景语句,根据所述每个素材类目组合和所述每个素材类目组合对应的场景语句,构建所述类目组合数据库;
筛选模块,用于对所述可选场景语句进行结构处理,获得可选场景短语,从所述可选场景短语中,筛选出所述待生成场景主题对应的目标标题。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202010182006.0A 2020-03-16 2020-03-16 生成场景主题的方法和装置 Active CN113407815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182006.0A CN113407815B (zh) 2020-03-16 2020-03-16 生成场景主题的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182006.0A CN113407815B (zh) 2020-03-16 2020-03-16 生成场景主题的方法和装置

Publications (2)

Publication Number Publication Date
CN113407815A CN113407815A (zh) 2021-09-17
CN113407815B true CN113407815B (zh) 2024-06-18

Family

ID=77676404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182006.0A Active CN113407815B (zh) 2020-03-16 2020-03-16 生成场景主题的方法和装置

Country Status (1)

Country Link
CN (1) CN113407815B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766488A (zh) * 2018-07-25 2020-02-07 北京京东尚科信息技术有限公司 一种自动确定主题场景的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210411A1 (en) * 2008-02-15 2009-08-20 Oki Electric Industry Co., Ltd. Information Retrieving System

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766488A (zh) * 2018-07-25 2020-02-07 北京京东尚科信息技术有限公司 一种自动确定主题场景的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于业务词典的精准主题挖掘解决方案;杨志;林峰;胡牧;孟庆强;郑浩泉;;计算机与数字工程;20180820(08);全文 *

Also Published As

Publication number Publication date
CN113407815A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
JP6708717B2 (ja) ニュース推薦方法及び装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US11645517B2 (en) Information processing method and terminal, and computer storage medium
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
WO2017114019A1 (zh) 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和***
WO2016197767A2 (zh) 一种表情输入方法、装置、终端和计算机可读存储介质
US8825661B2 (en) Systems and methods for two stream indexing of audio content
US11586689B2 (en) Electronic apparatus and controlling method thereof
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
US20160078083A1 (en) Image display device, method for driving the same, and computer readable recording medium
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN110879839A (zh) 一种热词识别方法、装置及***
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
CN115062135B (zh) 一种专利筛选方法与电子设备
CN104376034B (zh) 信息处理设备,信息处理方法和程序
CN113407815B (zh) 生成场景主题的方法和装置
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN109960752A (zh) 应用程序内的查询方法、装置、计算机设备和存储介质
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant