CN110597978B - 物品摘要生成方法、***、电子设备及可读存储介质 - Google Patents
物品摘要生成方法、***、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110597978B CN110597978B CN201810603797.2A CN201810603797A CN110597978B CN 110597978 B CN110597978 B CN 110597978B CN 201810603797 A CN201810603797 A CN 201810603797A CN 110597978 B CN110597978 B CN 110597978B
- Authority
- CN
- China
- Prior art keywords
- sentences
- sentence
- keyword
- abstract
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000001174 ascending effect Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种物品摘要生成方法、***、电子设备及可读存储介质,所述物品摘要生成方法包括:对目标物品的文描图片进行识别得到多个文描语句;从所述文描语句中提取所述目标物品的多个文描关键词;基于TF‑IDF算法计算得到每个文描关键词的TF‑IDF值;根据所述TF‑IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句;根据所述匹配语句生成所述目标物品的摘要。本发明能够根据物品的文描图片自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种物品摘要生成方法、***、电子设备及可读存储介质。
背景技术
通常互联网网站会设定一些专栏或频道向用户展示或推荐物品,如发现好货、会买专辑等。为了吸引用户,对于物品会添加标题、图片以及文字描述,本申请将这一文字描述称为摘要。现有技术中,摘要的生成方法是直接利用商家对商品的描述,或由特定人群(如达人)撰写而成。直接利用商家对商品的描述,虽然比较容易获取,但是缺点为:语言较为生硬,偏重于技术性描述;而由特定人群撰写,虽然可以参考商品的文描图片信息,语言比较生动和多样化,容易吸引用户,但是缺点为:需要专人撰写,耗时耗力,成本高,同时,由于人工撰写的水平参差不齐,撰写质量难以把控。
发明内容
本发明要解决的技术问题是为了克服现有技术中人工撰写产品信息时撰写质量难以把控、耗时较长、成本较高的缺陷,提供一种物品摘要生成方法、***、电子设备及可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种物品摘要生成方法,所述物品摘要生成方法包括:
对目标物品的文描图片进行识别得到多个文描语句;
从所述文描语句中提取所述目标物品的多个文描关键词;
基于TF-IDF(词频-逆文件频率)算法计算得到每个文描关键词的TF-IDF值;
根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;
根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句;
根据所述匹配语句生成所述目标物品的摘要。
较佳地,所述根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词的步骤具体包括:
按照从大到小的顺序依次提取所述TF-IDF值排序靠前的N个文描关键词作为所述客观卖点关键词。
较佳地,所述根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句的步骤之前,所述物品摘要生成方法还包括:
从所述目标物品的评论数据中获取多个评论语句;
从所述评论语句中提取多个评论关键词;
计算每个评论关键词的频次;
根据所述频次从所述多个评论关键词中提取M个主观卖点关键词;M为自然数;
生成所述目标物品的摘要关键词,所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
所述根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句的步骤具体包括:
生成候选语句,所述候选语句包括所述文描语句和所述评论语句;
根据所述摘要关键词从所述候选语句中选取所述匹配语句。
较佳地,所述根据所述频次从所述多个评论关键词中提取M个主观卖点关键词的步骤具体包括:
按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为所述主观卖点关键词。
较佳地,所述生成所述目标物品的摘要关键词的步骤具体包括:
将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
较佳地,所述根据所述摘要关键词从所述候选语句中选取所述匹配语句的步骤之前,所述物品摘要生成方法还包括:
将所有客观卖点关键词的TF-IDF值进行归一化处理,并将每个客观卖点关键词的归一化后的TF-IDF值作为所述客观卖点关键词的第一权重;
将所有主观卖点关键词的频次进行归一化处理,并将每个主观卖点关键词的归一化后的频次作为所述主观卖点关键词的第二权重;
生成所述摘要关键词的权重;若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为所述第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为所述第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和;
所述根据所述摘要关键词从所述候选语句中选取所述匹配语句的步骤具体包括:
根据所述摘要关键词的权重将所述摘要关键词进行降序排列;
按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句;
所述根据所述匹配语句生成所述目标物品的摘要的步骤具体包括:
按照权重降序顺序依次选取每个摘要关键词的匹配语句组成所述摘要,直至所述摘要的字数达到预设字数。
较佳地,所述按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句的步骤具体包括:
按照权重降序顺序选取第一个摘要关键词;
从所述候选语句中提取包含所述第一个摘要关键词的第一类语句;
对每个候选语句进行打分得到所述每个候选语句的得分;
根据得分大小将所述第一类语句中的语句进行升序排列;
按照得分升序顺序选取所述第一类语句中排序第一的语句作为与所述第一个摘要关键词相匹配的第一匹配语句;所述匹配语句包括所述第一匹配语句;
按照权重降序顺序选取下一个摘要关键词;
从所述候选语句中提取包含所述下一个摘要关键词的第二类语句;
根据得分大小将所述第二类语句中的语句进行升序排列;
按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,然后执行选取下一个摘要关键词的步骤;所述匹配语句包括所述第二匹配语句。
较佳地,所述按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句的步骤具体包括:
按照得分升序顺序依次选取所述第二类语句中的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度;
剔除所述第二类语句中相似度不小于预设相似度的语句;
将所述第二类语句中第一个与所述第一匹配语句相似度小于预设相似度的语句更新为所述第二类语句中排序第一的语句;
将更新后的所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,所述匹配语句包括所述第一匹配语句和所述第二匹配语句。
较佳地,所述对每个候选语句进行打分得到所述每个候选语句的得分的步骤具体包括:
基于NLP(自然语言处理)算法分别对所述候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值;
基于PPL(困惑度)算法对候选语句的语言困惑度进行计算得到第四分值;
分别为所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;
将每个候选语句的所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。
较佳地,所述对目标物品的文描图片进行识别得到多个文描语句的步骤具体包括:
基于OCR(文字识别算法)对所述文描图片进行识别得到所述文描图片上的多个单行语句;
基于PPL算法计算任意相邻的两个单行语句之间的像素高度差是否在预设范围内,若在,则计算所述任意相邻的两个单行语句之间的语言困惑度;
判断所述语言困惑度是否小于预设阈值,若小于,则确认所述任意相邻的两个单行语句属于同一个语句;
将属于同一个语句的所有单行语句组合生成所述文描语句。
较佳地,所述对目标物品的文描图片进行识别得到多个文描语句的步骤之后,所述物品摘要生成方法还包括:
基于预设的脏词库滤除文字识别有误的文描语句;
所述从所述文描语句中提取所述目标物品的多个文描关键词的步骤中,从滤除后的文描语句中提取所述多个文描关键词。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的物品摘要生成方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的物品摘要生成方法的步骤。
一种物品摘要生成***,所述物品摘要生成***包括文描语句识别模块、文描关键词提取模块、TF-IDF值计算模块、客观卖点关键词提取模块、语句匹配模块和摘要生成模块;
所述文描语句识别模块用于对目标物品的文描图片进行识别得到多个文描语句;
所述文描关键词提取模块用于从所述文描语句中提取所述目标物品的多个文描关键词;
所述TF-IDF值计算模块用于基于TF-IDF算法计算得到每个文描关键词的TF-IDF值;
所述客观卖点关键词提取模块用于根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;
所述语句匹配模块用于根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句;
所述摘要生成模块用于根据所述匹配语句生成所述目标物品的摘要。
较佳地,所述客观卖点关键词提取模块用于按照从大到小的顺序依次提取所述TF-IDF值排序靠前的N个文描关键词作为所述客观卖点关键词。
较佳地,所述物品摘要生成***还包括评论语句获取模块、评论关键词提取模块、频次计算模块、主观卖点关键词提取模块和摘要关键词生成模块,所述语句匹配模块包括候选语句生成单元;
所述评论语句获取模块用于从所述目标物品的评论数据中获取多个评论语句;
所述评论关键词提取模块用于从所述评论语句中提取多个评论关键词;
所述频次计算模块还用于计算每个评论关键词的频次;
所述主观卖点关键词提取模块用于根据所述频次从所述多个评论关键词中提取M个主观卖点关键词;M为自然数;
所述摘要关键词生成模块用于生成所述目标物品的摘要关键词,所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
所述候选语句生成单元用于生成候选语句,所述候选语句包括所述文描语句和所述评论语句;
所述语句匹配模块用于根据所述摘要关键词从所述候选语句中选取所述匹配语句。
较佳地,所述主观卖点关键词提取模块用于按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为所述主观卖点关键词。
较佳地,所述摘要关键词生成模块用于将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
较佳地,所述物品摘要生成***还包括权重计算模块,所述权重计算模块包括归一化单元和权重生成单元,所述语句匹配模块包括排序单元和匹配语句选取单元;
所述归一化单元用于将所有客观卖点关键词的TF-IDF值进行归一化处理;
所述权重生成单元用于将每个客观卖点关键词的归一化后的TF-IDF值作为所述客观卖点关键词的第一权重;
所述归一化单元还用于将所有主观卖点关键词的频次进行归一化处理;
所述权重生成单元还用于将每个主观卖点关键词的归一化后的频次作为所述主观卖点关键词的第二权重;
所述权重生成单元还用于生成所述摘要关键词的权重;若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为所述第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为所述第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和;
所述排序单元用于根据所述摘要关键词的权重将所述摘要关键词进行降序排列;
所述匹配语句选取单元用于按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句;
所述摘要生成模块用于按照权重降序顺序依次选取每个摘要关键词的匹配语句组成所述摘要,直至所述摘要的字数达到预设字数。
较佳地,所述物品摘要生成***还包括打分模块,所述语句匹配模块还包括关键词选取单元;
所述打分模块用于对每个候选语句进行打分得到所述每个候选语句的得分;
所述关键词选取单元用于按照权重降序顺序选取第一个摘要关键词;
所述匹配语句选取单元用于从所述候选语句中提取包含所述第一个摘要关键词的第一类语句;
所述排序单元用于根据得分大小将所述第一类语句中的语句进行升序排列;
所述匹配语句选取单元用于按照得分升序顺序选取所述第一类语句中排序第一的语句作为与所述第一个摘要关键词相匹配的第一匹配语句,然后调用所述关键词选取单元执行按照权重降序顺序选取下一个摘要关键词的动作;所述匹配语句包括所述第一匹配语句;
所述匹配语句选取单元还用于从所述候选语句中提取包含所述下一个摘要关键词的第二类语句;
所述排序单元还用于根据得分大小将所述第二类语句中的语句进行升序排列;
所述匹配语句选取单元还用于按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,然后调用所述关键词选取单元执行选取下一个摘要关键词的动作;所述匹配语句包括所述第二匹配语句。
较佳地,所述语句匹配模块还包括相似度计算单元、剔除单元和更新单元;
所述相似度计算单元用于按照得分升序顺序依次选取所述第二类语句中的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度,并调用所述剔除单元;
所述剔除单元用于剔除所述第二类语句中相似度不小于预设相似度的语句;
所述更新单元用于将所述第二类语句中第一个与所述第一匹配语句相似度小于预设相似度的语句更新为所述第二类语句中排序第一的语句;
所述匹配语句选取单元用于将更新后的所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句。
较佳地,所述打分模块包括分值计算单元和权重赋予单元;
所述分值计算单元用于基于NLP算法分别对所述候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值,还用于基于PPL算法对候选语句的语言困惑度进行计算得到第四分值;
所述权重赋予单元用于分别为所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;
所述打分模块用于将每个候选语句的所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。
较佳地,所述文描语句识别模块包括单行语句识别单元、第一计算单元、第二计算单元、第一判断单元、第二判断单元语句、确认单元和文描语句生成单元;
所述单行语句识别单元用于基于OCR对所述文描图片进行识别得到所述文描图片上的多个单行语句;
所述第一计算单元用于基于PPL算法计算任意相邻的两个单行语句之间的像素高度差;
所述第一判断单元用于判断所述像素高度差是否在预设范围内,若在,则调用所述第二计算单元;
所述第二计算单元用于计算所述任意相邻的两个单行语句之间的语言困惑度;
所述第二判断单元还用于判断所述语言困惑度是否小于预设阈值,若小于,则调用所述语句确认单元;
所述语句确认单元用于确认所述任意相邻的两个单行语句属于同一个语句;
所述文描语句生成单元用于将属于同一个语句的所有单行语句组合生成所述文描语句。
较佳地,所述物品摘要生成***还包括滤除模块;
所述滤除模块用于基于预设的脏词库滤除文字识别有误的文描语句;
所述文描关键词提取模块用于从滤除后的文描语句中提取所述多个文描关键词。
本发明的积极进步效果在于:本发明能够根据物品的文描图片自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。
附图说明
图1为本发明实施例1的物品摘要生成方法的流程图。
图2为本发明实施例1的物品摘要生成方法中步骤10的具体流程图。
图3为本发明实施例1的物品摘要生成方法的另一实施方式的流程图。
图4为本发明实施例2的物品摘要生成方法的流程图。
图5为本发明实施例3的物品摘要生成方法中步骤50的具体流程图。
图6为本发明实施例4的物品摘要生成方法中步骤5202的具体流程图。
图7为本发明实施例4的物品摘要生成方法中步骤52023的具体流程图。
图8为本发明实施例5的物品摘要生成方法中步骤52029的具体流程图。
图9为本发明实施例6的电子设备的机构示意图。
图10为本发明实施例8的物品摘要生成***的结构框图。
图11为本发明实施例8的物品摘要生成***中文描语句识别模块的结构框图。
图12为本发明实施例9的物品摘要生成***的结构框图。
图13为本发明实施例9的物品摘要生成***中语句匹配模块的结构框图。
图14为本发明实施例10的物品摘要生成***的结构框图。
图15为本发明实施例10的物品摘要生成***中权重计算模块的结构框图。
图16为本发明实施例10的物品摘要生成***中语句匹配模块的结构框图。
图17为本发明实施例11的物品摘要生成***的结构框图。
图18为本发明实施例11的物品摘要生成***中语句匹配模块的结构框图。
图19为本发明实施例11的物品摘要生成***中打分模块的结构框图。
图20为本发明实施例12的物品摘要生成***中语句匹配模块的结构框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种物品摘要生成方法,如图1所示,所述物品摘要生成方法包括:
步骤10、对目标物品的文描图片进行识别得到多个文描语句;
步骤20、从文描语句中提取目标物品的多个文描关键词;
步骤30、基于TF-IDF算法计算得到每个文描关键词的TF-IDF值;
步骤40、根据TF-IDF值从多个文描关键词中提取N个客观卖点关键词;N为自然数;
步骤50、根据客观卖点关键词从文描语句中选取相匹配的匹配语句;需要说明的是,此处相匹配的语句为包含了客观卖点关键词的语句;
步骤60、根据匹配语句生成目标物品的摘要。
本实施例中,如图2所示,步骤10具体包括:
步骤101、基于OCR对文描图片进行识别得到文描图片上的多个单行语句;
步骤102、基于PPL算法计算任意相邻的两个单行语句之间的像素高度差;
步骤103、判断所述像素高度差是否在预设范围内,若是,则执行步骤104;若否,则该任意相邻的两个单行语句不属于同一个语句;
步骤104、计算任意相邻的两个单行语句之间的语言困惑度;
步骤105、判断语言困惑度是否小于预设阈值,若是,则执行步骤106;
步骤106、确认任意相邻的两个单行语句属于同一个语句;
步骤107、将属于同一个语句的所有单行语句组合生成文描语句。
另外,如图3所示,提供所述物品摘要生成方法的另一种实现方式,步骤10之后,所述物品摘要生成方法还包括:
步骤11、基于预设的脏词库滤除文字识别有误的文描语句;
进一步的,用步骤201替换步骤20,具体包括:
步骤201、从滤除后的文描语句中提取目标物品的多个文描关键词。
本实施例中,步骤40具体包括:
按照从大到小的顺序依次提取TF-IDF值排序靠前的N个文描关键词作为客观卖点关键词。
本实施例中,能够根据物品的文描图片中识别的文描语句自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。
实施例2
本是实施例的物品摘要生成方法是在实施例1的基础上进一步改进,如图4所示,步骤50之前,所述物品摘要生成方法还包括:
步骤41、从目标物品的评论数据中获取多个评论语句;
步骤42、从评论语句中提取多个评论关键词;
步骤43、计算每个评论关键词的频次;
步骤44、根据频次从多个评论关键词中提取M个主观卖点关键词;M为自然数;
步骤45、生成目标物品的摘要关键词;所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
进一步的,步骤50具体包括:
步骤510、生成候选语句;所述候选语句包括所述文描语句和所述评论语句;
步骤520、根据摘要关键词从候选语句中选取匹配语句。
本实施例中,步骤45具体包括:
将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
其中,步骤44具体包括:
按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为主观卖点关键词。
本实施例中,除了考虑上述的文描语句,同时还考虑用户对该物品的评论,从评论中提取的信息更加符合用户的喜好,提高了用户的体验。另外,由于用户的评论多而杂,因此,可以通过现有的一些语句分析的算法,滤除掉一些口语化的语句以及情感度较高的语句,同时,由于候选语句既包括评论语句,还包括文描语句,也可以将评论语句与文描语句进行相似度计算,滤除掉相似度值大于设定值的评论语句,以提高后续的匹配效率。
实施例3
本实施例的物品摘要生成方法是在实施例2的基础上进一步改进,如图5所示,步骤520之前,步骤50还包括:
步骤511、将所有客观卖点关键词的TF-IDF值进行归一化处理;
步骤512、每个客观卖点关键词的归一化后的TF-IDF值作为客观卖点关键词的第一权重;
步骤513、将所有主观卖点关键词的频次进行归一化处理;
步骤514、将每个主观卖点关键词的归一化后的频次作为主观卖点关键词的第二权重;
步骤515、生成摘要关键词的权重;若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为所述第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为所述第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和;
进一步的,步骤520具体包括:
步骤5201、根据摘要关键词的权重将摘要关键词进行降序排列;
步骤5202、按照权重降序顺序依次从候选语句中选取与摘要关键词相匹配的匹配语句;
进一步的,步骤60具体包括:
按照权重降序顺序依次选取每个摘要关键词的匹配语句组成摘要,直至摘要的字数达到预设字数。
本实施例中,得出最终的物品摘要关键词及相应的权重后,按照权重从大到小依次为每个摘要关键词匹配对应的语句,然后组合成为摘要,为了避免摘要的字数过多,在最终确定摘要时,每匹配一个摘要关键词的匹配语句,判断一下摘要的字数是否超过预设字数,若超过了,则不再匹配按权重排序的下一个的摘要关键词。
实施例4
本实施例的物品摘要生成方法是在实施例3的基础上进一步改进,如图6所示,步骤5202具体包括:
步骤52021、按照权重降序顺序选取第一个摘要关键词;
步骤52022、从候选语句中提取包含第一个摘要关键词的第一类语句;
步骤52023、对每个候选语句进行打分得到每个候选语句的得分;
步骤52024、根据得分大小将第一类语句中的语句进行升序排列;
步骤52025、按照得分升序顺序选取第一类语句中排序第一的语句作为与第一个摘要关键词相匹配的第一匹配语句;所述匹配语句包括所述第一匹配语句;
步骤52026、按照权重降序顺序选取下一个摘要关键词;
步骤52027、从候选语句中提取包含下一个摘要关键词的第二类语句;
步骤52028、根据得分大小将第二类语句中的语句进行升序排列;
步骤52029、按照得分升序顺序选取第二类语句中排序第一的语句作为与下一个摘要关键词相匹配的第二匹配语句,然后返回步骤52026;所述匹配语句包括所述第二匹配语句。
本实施例中,如图7所示,步骤52023具体包括:
步骤52023-1、基于NLP算法分别对候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值;需要说明的是,此处通过词性分析、依存句法结构和情感分类器来执行上述计算;
步骤52023-2、基于PPL算法对候选语句的语言困惑度进行计算得到第四分值;
步骤52023-3、分别为第一分值、第二分值、第三分值和第四分值赋予对应的权重;
步骤52023-4、将每个候选语句的第一分值、第二分值、第三分值和第四分值加权求和得到每个候选语句的得分。
本实施例中,在对候选语句进行打分的基础上,得到候选语句的得分,在对摘要关键词进行匹配语句时,依靠该得分选取相应的匹配语句。
实施例5
本实施例的物品摘要生成方法是在实施例4的基础上进一步改进,如图8所示,步骤52029包括:
步骤52029-1、按照得分升序顺序依次选取第二类语句中的语句与第一匹配语句进行相似度计算,直至相似度小于预设相似度;
步骤52029-2、剔除第二类语句中相似度不小于预设相似度的语句;
步骤52029-3、将第二类语句中第一个与第一匹配语句相似度小于预设相似度的语句更新为第二类语句中排序第一的语句;
步骤52029-4、将更新后的第二类语句中排序第一的语句作为与下一个摘要关键词相匹配的第二匹配语句;所述匹配语句包括所述第一匹配语句和所述第二匹配语句。
本实施例中,在匹配到第二个摘要关键词时,在其匹配语句中选取了得分最高的匹配语句后,要将其与前一个关键词的已经匹配成功的语句进行相似度计算,若相似度高于预设相似度,则剔除该得分最高的语句,将其匹配语句中得分第二的语句更新为得分最高的语句,并继续与前一个关键词的已经匹配成功的语句进行相似度计算,直到相似度小于预设相似度,则将当前小于相似度的语句作为当前匹配的摘要关键词的匹配语句。
实施例6
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1至5任一个实施例所述的物品摘要生成方法。
图9为本发明实施例6提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图9显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同***组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例7
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-5中任意一个实施例所述的物品摘要生成方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-5中任意一个实施例所述的物品摘要生成方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例8
一种物品摘要生成***,如图10所示,所述物品摘要生成***包括文描语句识别模块11、文描关键词提取模块13、TF-IDF值计算模块14、客观卖点关键词提取模块15、语句匹配模块3和摘要生成模块4;
所述文描语句识别模块11用于对目标物品的文描图片进行识别得到多个文描语句;
所述文描关键词提取模块13用于从所述文描语句中提取所述目标物品的多个文描关键词;
所述TF-IDF值计算模块14用于基于TF-IDF算法计算得到每个文描关键词的TF-IDF值;
所述客观卖点关键词提取模块15用于根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;具体地,所述客观卖点关键词提取模块15用于按照从大到小的顺序依次提取所述TF-IDF值排序靠前的N个文描关键词作为所述客观卖点关键词;
所述语句匹配模块3用于根据所述客观卖点关键词从所述文描语句中选取相匹配的匹配语句;需要说明的是,此处相匹配的语句为包含了客观卖点关键词的语句;
所述摘要生成模块4用于根据所述匹配语句生成所述目标物品的摘要。
本实施例中,如图11所示,所述文描语句识别模块11包括单行语句识别单元111、第一计算单元112、第二计算单元113、第一判断单元114、第二判断单元115、语句确认单元116和文描语句生成单元117;
所述单行语句识别单元111用于基于OCR对所述文描图片进行识别得到所述文描图片上的多个单行语句;
所述第一计算单元112用于基于PPL算法计算任意相邻的两个单行语句之间的像素高度差;
所述第一判断单元114用于判断所述像素高度差是否在预设范围内,若在,则调用所述第二计算单元113;
所述第二计算单元113用于计算所述任意相邻的两个单行语句之间的语言困惑度;
所述第二判断单元115还用于判断所述语言困惑度是否小于预设阈值,若小于,则调用所述语句确认单元116;
所述语句确认单元116用于确认所述任意相邻的两个单行语句属于同一个语句;
所述文描语句生成单元117用于将属于同一个语句的所有单行语句组合生成所述文描语句。
本实施例中,参见图10,所述物品摘要生成***还包括滤除模块12;
所述滤除模块12用于基于预设的脏词库滤除文字识别有误的文描语句;
所述文描关键词提取模块13用于从滤除后的文描语句中提取所述多个文描关键词。
本实施例中,能够根据物品的文描图片中识别的文描语句自动撰写物品的摘要,使得撰写质量得以把控,并且缩短撰写时间,提高写作效率,降低写作成本。
实施例9
本实施例的物品摘要生成***是在实施例8的基础上进一步改进,如图12-13所示,所述物品摘要生成***还包括评论语句获取模块21、评论关键词提取模块22、频次计算模块23、主观卖点关键词提取模块24和摘要关键词生成模块25,所述语句匹配模块3包括候选语句生成单元31;
所述评论语句获取模块21用于从所述目标物品的评论数据中获取多个评论语句;
所述评论关键词提取模块22用于从所述评论语句中提取多个评论关键词;
所述频次计算模块23还用于计算每个评论关键词的频次;
所述主观卖点关键词提取模块24用于根据所述频次从所述多个评论关键词中提取M个主观卖点关键词;M为自然数;具体地,所述主观卖点关键词提取模块24用于按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为所述主观卖点关键词;需要说明的是,本发明中M和N的值相同也可以不同;
所述摘要关键词生成模块25用于生成所述目标物品的摘要关键词,所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
所述候选语句生成单元31用于生成候选语句,所述候选语句包括所述文描语句和所述评论语句;
所述语句匹配模块3用于根据所述摘要关键词从所述候选语句中选取所述匹配语句。
进一步的,所述摘要关键词生成模块25用于将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
本实施例中,除了考虑上述的文描语句,同时还考虑用户对该物品的评论,从评论中提取的信息更加符合用户的喜好,提高了用户的体验。另外,由于用户的评论多而杂,因此,可以通过现有的一些语句分析的算法,滤除掉一些口语化的语句以及情感度较高的语句,同时,由于候选语句既包括评论语句,还包括文描语句,也可以将评论语句与文描语句进行相似度计算,滤除掉相似度值大于设定值的评论语句,以提高后续的匹配效率。
实施例10
本实施例的物品摘要生成***是在实施例9的基础上进一步改进,如图14-16所示,所述物品摘要生成***还包括权重计算模块5,所述权重计算模块5包括归一化单元51和权重生成单元52,所述语句匹配模块3还包括排序单元32和匹配语句选取单元33;
所述归一化单元51用于将所有客观卖点关键词的TF-IDF值进行归一化处理;
所述权重生成单元52用于将每个客观卖点关键词的归一化后的TF-IDF值作为所述客观卖点关键词的第一权重;
所述归一化单元51还用于将所有主观卖点关键词的频次进行归一化处理;
所述权重生成单元52还用于将每个主观卖点关键词的归一化后的频次作为所述主观卖点关键词的第二权重;
所述权重生成单元52还用于生成所述摘要关键词的权重;若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为所述第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为所述第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和;
所述排序单元32用于根据所述摘要关键词的权重将所述摘要关键词进行降序排列;
所述匹配语句选取单元33用于按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句;
进一步的,所述摘要生成模块4用于按照权重降序顺序依次选取每个摘要关键词的匹配语句组成所述摘要,直至所述摘要的字数达到预设字数。
本实施例中,得出最终的物品摘要关键词及相应的权重后,按照权重从大到小依次为每个摘要关键词匹配对应的语句,然后组合成为摘要,为了避免摘要的字数过多,在最终确定摘要时,每匹配一个摘要关键词的匹配语句,判断一下摘要的字数是否超过预设字数,若超过了,则不再匹配按权重排序的下一个的摘要关键词。
实施例11
本实施例的物品摘要生成***是在实施例10的基础上进一步改进,如图17-18所示,所述物品摘要生成***还包括打分模块6,所述语句匹配模块3还包括关键词选取单元34;
所述打分模块6用于对每个候选语句进行打分得到所述每个候选语句的得分;
所述关键词选取单元34用于按照权重降序顺序选取第一个摘要关键词;
所述匹配语句选取单元33用于从所述候选语句中提取包含所述第一个摘要关键词的第一类语句;
所述排序单元32用于根据得分大小将所述第一类语句中的语句进行升序排列;
所述匹配语句选取单元33用于按照得分升序顺序选取所述第一类语句中排序第一的语句作为与所述第一个摘要关键词相匹配的第一匹配语句,然后调用所述关键词选取单元34执行按照权重降序顺序选取下一个摘要关键词的动作;所述匹配语句包括所述第一匹配语句;
所述匹配语句选取单元33还用于从所述候选语句中提取包含所述下一个摘要关键词的第二类语句;
所述排序单元32还用于根据得分大小将所述第二类语句中的语句进行升序排列;
所述匹配语句选取单元33还用于按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,然后调用所述关键词选取单元34执行选取下一个摘要关键词的动作;所述匹配语句包括所述第二匹配语句。
本实施例中,如图19所示,所述打分模块6包括分值计算单元61和权重赋予单元62;
所述分值计算单元61用于基于NLP算法分别对所述候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值,还用于基于PPL算法对候选语句的语言困惑度进行计算得到第四分值;
所述权重赋予单元62用于分别为所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;
所述打分模块6用于将每个候选语句的所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。
本实施例中,在对候选语句进行打分的基础上,得到候选语句的得分,在对摘要关键词进行匹配语句时,依靠该得分选取相应的匹配语句。
实施例12
本实施例的物品摘要生成***是在实施例11的基础上进一步改进,如图20所示,所述语句匹配模块3还包括相似度计算单元35、剔除单元36和更新单元37;
所述相似度计算单元35用于按照得分升序顺序依次选取所述第二类语句中的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度,并调用所述剔除单元36匹配语句选取单元33;
所述剔除单元36用于剔除所述第二类语句中相似度不小于预设相似度的语句;
所述更新单元37用于将所述第二类语句中第一个与所述第一匹配语句相似度小于预设相似度的语句更新为所述第二类语句中排序第一的语句;
所述匹配语句选取单元33用于将更新后的所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句。
本实施例中,在匹配到第二个摘要关键词时,在其匹配语句中选取了得分最高的匹配语句后,要将其与前一个关键词的已经匹配成功的语句进行相似度计算,若相似度高于预设相似度,则剔除该得分最高的语句,将其匹配语句中得分第二的语句更新为得分最高的语句,并继续与前一个关键词的已经匹配成功的语句进行相似度计算,直到相似度小于预设相似度,则将当前小于相似度的语句作为当前匹配的摘要关键词的匹配语句。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (24)
1.一种物品摘要生成方法,其特征在于,所述物品摘要生成方法包括:
对目标物品的文描图片进行识别得到多个文描语句;
从所述文描语句中提取所述目标物品的多个文描关键词;
基于TF-IDF算法计算得到每个文描关键词的TF-IDF值;
根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;
从评论语句中提取多个评论关键词;
根据评论关键词的频次从所述多个评论关键词中提取M个主观卖点关键词;M为自然数;
生成所述目标物品的摘要关键词,所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
根据所述摘要关键词从候选语句中选取匹配语句;
根据所述匹配语句生成所述目标物品的摘要;
其中,在根据所述摘要关键词从所述候选语句中选取所述匹配语句之前还包括:
确定所述摘要关键词的权重,即,若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和。
2.如权利要求1所述的物品摘要生成方法,其特征在于,所述根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词的步骤具体包括:
按照从大到小的顺序依次提取所述TF-IDF值排序靠前的N个文描关键词作为所述客观卖点关键词。
3.如权利要求1所述的物品摘要生成方法,其特征在于,所述从评论语句中提取多个评论关键词的步骤之前,所述物品摘要生成方法还包括:
从所述目标物品的评论数据中获取多个评论语句;
所述根据所述摘要关键词从候选语句中选取所述匹配语句的步骤具体包括:
生成候选语句,所述候选语句包括所述文描语句和所述评论语句;
根据所述摘要关键词从所述候选语句中选取所述匹配语句。
4.如权利要求3所述的物品摘要生成方法,其特征在于,所述根据所述频次从所述多个评论关键词中提取M个主观卖点关键词的步骤具体包括:
按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为所述主观卖点关键词。
5.如权利要求3所述的物品摘要生成方法,其特征在于,所述生成所述目标物品的摘要关键词的步骤具体包括:
将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
6.如权利要求3所述的物品摘要生成方法,其特征在于,所述根据所述摘要关键词从所述候选语句中选取所述匹配语句的步骤之前,所述物品摘要生成方法还包括:
将所有客观卖点关键词的TF-IDF值进行归一化处理,并将每个客观卖点关键词的归一化后的TF-IDF值作为所述客观卖点关键词的第一权重;
将所有主观卖点关键词的频次进行归一化处理,并将每个主观卖点关键词的归一化后的频次作为所述主观卖点关键词的第二权重;
所述根据所述摘要关键词从所述候选语句中选取所述匹配语句的步骤具体包括:
根据所述摘要关键词的权重将所述摘要关键词进行降序排列;
按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句;
所述根据所述匹配语句生成所述目标物品的摘要的步骤具体包括:
按照权重降序顺序依次选取每个摘要关键词的匹配语句组成所述摘要,直至所述摘要的字数达到预设字数。
7.如权利要求6所述的物品摘要生成方法,其特征在于,所述按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句的步骤具体包括:
按照权重降序顺序选取第一个摘要关键词;
从所述候选语句中提取包含所述第一个摘要关键词的第一类语句;
对每个候选语句进行打分得到所述每个候选语句的得分;
根据得分大小将所述第一类语句中的语句进行升序排列;
按照得分升序顺序选取所述第一类语句中排序第一的语句作为与所述第一个摘要关键词相匹配的第一匹配语句;所述匹配语句包括所述第一匹配语句;
按照权重降序顺序选取下一个摘要关键词;
从所述候选语句中提取包含所述下一个摘要关键词的第二类语句;
根据得分大小将所述第二类语句中的语句进行升序排列;
按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,然后执行选取下一个摘要关键词的步骤;所述匹配语句包括所述第二匹配语句。
8.如权利要求7所述的物品摘要生成方法,其特征在于,所述按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句的步骤具体包括:
按照得分升序顺序依次选取所述第二类语句中的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度;
剔除所述第二类语句中相似度不小于预设相似度的语句;
将所述第二类语句中第一个与所述第一匹配语句相似度小于预设相似度的语句更新为所述第二类语句中排序第一的语句;
将更新后的所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,所述匹配语句包括所述第一匹配语句和所述第二匹配语句。
9.如权利要求7所述的物品摘要生成方法,其特征在于,所述对每个候选语句进行打分得到所述每个候选语句的得分的步骤具体包括:
基于NLP算法分别对所述候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值;
基于PPL算法对候选语句的语言困惑度进行计算得到第四分值;
分别为所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;
将每个候选语句的所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。
10.如权利要求1所述的物品摘要生成方法,其特征在于,所述对目标物品的文描图片进行识别得到多个文描语句的步骤具体包括:
基于OCR对所述文描图片进行识别得到所述文描图片上的多个单行语句;
计算任意相邻的两个单行语句之间的像素高度差是否在预设范围内,若在,则基于PPL算法计算所述任意相邻的两个单行语句之间的语言困惑度;
判断所述语言困惑度是否小于预设阈值,若小于,则确认所述任意相邻的两个单行语句属于同一个语句;
将属于同一个语句的所有单行语句组合生成所述文描语句。
11.如权利要求1所述的物品摘要生成方法,其特征在于,所述对目标物品的文描图片进行识别得到多个文描语句的步骤之后,所述物品摘要生成方法还包括:
基于预设的脏词库滤除文字识别有误的文描语句;
所述从所述文描语句中提取所述目标物品的多个文描关键词的步骤中,从滤除后的文描语句中提取所述多个文描关键词。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任一项所述的物品摘要生成方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至11任一项所述的物品摘要生成方法的步骤。
14.一种物品摘要生成***,其特征在于,所述物品摘要生成***包括文描语句识别模块、文描关键词提取模块、TF-IDF值计算模块、客观卖点关键词提取模块、语句匹配模块和摘要生成模块;
所述文描语句识别模块用于对目标物品的文描图片进行识别得到多个文描语句;
所述文描关键词提取模块用于从所述文描语句中提取所述目标物品的多个文描关键词;
所述TF-IDF值计算模块用于基于TF-IDF算法计算得到每个文描关键词的TF-IDF值;
所述客观卖点关键词提取模块用于根据所述TF-IDF值从所述多个文描关键词中提取N个客观卖点关键词;N为自然数;
所述物品摘要生成***还包括评论关键词提取模块、主观卖点关键词提取模块和摘要关键词生成模块;
所述评论关键词提取模块用于从评论语句中提取多个评论关键词;
所述主观卖点关键词提取模块用于根据评论关键词的频次从所述多个评论关键词中提取M个主观卖点关键词;M为自然数;
所述摘要关键词生成模块用于生成所述目标物品的摘要关键词,所述摘要关键词包括所述主观卖点关键词和所述客观卖点关键词;
所述语句匹配模块用于根据所述摘要关键词从候选语句中选取匹配语句;
所述摘要生成模块用于根据所述匹配语句生成所述目标物品的摘要;
所述物品摘要生成***还包括权重生成单元;
所述权重生成单元用于确定所述摘要关键词的权重,即,若所述摘要关键词为客观卖点关键词,则所述摘要关键词的权重为第一权重,若所述摘要关键词为主观卖点关键词,则所述摘要关键词的权重为第二权重,若所述摘要关键词既为客观卖点关键词又为主观卖点关键词,则所述摘要关键词的权重为所述第一权重和所述第二权重之和。
15.如权利要求14所述的物品摘要生成***,其特征在于,所述客观卖点关键词提取模块用于按照从大到小的顺序依次提取所述TF-IDF值排序靠前的N个文描关键词作为所述客观卖点关键词。
16.如权利要求14所述的物品摘要生成***,其特征在于,所述物品摘要生成***还包括评论语句获取模块、频次计算模块,所述语句匹配模块包括候选语句生成单元;
所述评论语句获取模块用于从所述目标物品的评论数据中获取多个评论语句;
所述候选语句生成单元用于生成候选语句,所述候选语句包括所述文描语句和所述评论语句;
所述语句匹配模块用于根据所述摘要关键词从所述候选语句中选取所述匹配语句。
17.如权利要求16所述的物品摘要生成***,其特征在于,所述主观卖点关键词提取模块用于按照从大到小的顺序依次提取频次排序靠前的M个评论关键词作为所述主观卖点关键词。
18.如权利要求16所述的物品摘要生成***,其特征在于,所述摘要关键词生成模块用于将所有主观卖点关键词和所有客观卖点关键词去重后生成所述摘要关键词。
19.如权利要求16所述的物品摘要生成***,其特征在于,所述物品摘要生成***还包括权重计算模块,所述权重计算模块包括归一化单元和权重生成单元,所述语句匹配模块包括排序单元和匹配语句选取单元;
所述归一化单元用于将所有客观卖点关键词的TF-IDF值进行归一化处理;
所述权重生成单元用于将每个客观卖点关键词的归一化后的TF-IDF值作为所述客观卖点关键词的第一权重;
所述归一化单元还用于将所有主观卖点关键词的频次进行归一化处理;
所述权重生成单元还用于将每个主观卖点关键词的归一化后的频次作为所述主观卖点关键词的第二权重;
所述排序单元用于根据所述摘要关键词的权重将所述摘要关键词进行降序排列;
所述匹配语句选取单元用于按照权重降序顺序依次从所述候选语句中选取与所述摘要关键词相匹配的匹配语句;
所述摘要生成模块用于按照权重降序顺序依次选取每个摘要关键词的匹配语句组成所述摘要,直至所述摘要的字数达到预设字数。
20.如权利要求19所述的物品摘要生成***,其特征在于,所述物品摘要生成***还包括打分模块,所述语句匹配模块还包括关键词选取单元;
所述打分模块用于对每个候选语句进行打分得到所述每个候选语句的得分;
所述关键词选取单元用于按照权重降序顺序选取第一个摘要关键词;
所述匹配语句选取单元用于从所述候选语句中提取包含所述第一个摘要关键词的第一类语句;
所述排序单元用于根据得分大小将所述第一类语句中的语句进行升序排列;
所述匹配语句选取单元用于按照得分升序顺序选取所述第一类语句中排序第一的语句作为与所述第一个摘要关键词相匹配的第一匹配语句,然后调用所述关键词选取单元执行按照权重降序顺序选取下一个摘要关键词的动作;所述匹配语句包括所述第一匹配语句;
所述匹配语句选取单元还用于从所述候选语句中提取包含所述下一个摘要关键词的第二类语句;
所述排序单元还用于根据得分大小将所述第二类语句中的语句进行升序排列;
所述匹配语句选取单元还用于按照得分升序顺序选取所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句,然后调用所述关键词选取单元执行选取下一个摘要关键词的动作;所述匹配语句包括所述第二匹配语句。
21.如权利要求20所述的物品摘要生成***,其特征在于,所述语句匹配模块还包括相似度计算单元、剔除单元和更新单元;
所述相似度计算单元用于按照得分升序顺序依次选取所述第二类语句中的语句与所述第一匹配语句进行相似度计算,直至所述相似度小于预设相似度,并调用所述剔除单元;
所述剔除单元用于剔除所述第二类语句中相似度不小于预设相似度的语句;
所述更新单元用于将所述第二类语句中第一个与所述第一匹配语句相似度小于预设相似度的语句更新为所述第二类语句中排序第一的语句;
所述匹配语句选取单元用于将更新后的所述第二类语句中排序第一的语句作为与所述下一个摘要关键词相匹配的第二匹配语句。
22.如权利要求20所述的物品摘要生成***,其特征在于,所述打分模块包括分值计算单元和权重赋予单元;
所述分值计算单元用于基于NLP算法分别对所述候选语句的词法、句法结构和情感值进行计算得到第一分值、第二分值和第三分值,还用于基于PPL算法对候选语句的语言困惑度进行计算得到第四分值;
所述权重赋予单元用于分别为所述第一分值、所述第二分值、所述第三分值和所述第四分值赋予对应的权重;
所述打分模块用于将每个候选语句的所述第一分值、所述第二分值、所述第三分值和所述第四分值加权求和得到所述每个候选语句的得分。
23.如权利要求14所述的物品摘要生成***,其特征在于,所述文描语句识别模块包括单行语句识别单元、第一计算单元、第二计算单元、第一判断单元、第二判断单元、语句确认单元和文描语句生成单元;
所述单行语句识别单元用于基于OCR对所述文描图片进行识别得到所述文描图片上的多个单行语句;
所述第一计算单元用于计算任意相邻的两个单行语句之间的像素高度差;
所述第一判断单元用于判断所述像素高度差是否在预设范围内,若在,则调用所述第二计算单元;
所述第二计算单元用于基于PPL算法计算所述任意相邻的两个单行语句之间的语言困惑度;
所述第二判断单元还用于判断所述语言困惑度是否小于预设阈值,若小于,则调用所述语句确认单元;
所述语句确认单元用于确认所述任意相邻的两个单行语句属于同一个语句;
所述文描语句生成单元用于将属于同一个语句的所有单行语句组合生成所述文描语句。
24.如权利要求14所述的物品摘要生成***,其特征在于,所述物品摘要生成***还包括滤除模块;
所述滤除模块用于基于预设的脏词库滤除文字识别有误的文描语句;
所述文描关键词提取模块用于从滤除后的文描语句中提取所述多个文描关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603797.2A CN110597978B (zh) | 2018-06-12 | 2018-06-12 | 物品摘要生成方法、***、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810603797.2A CN110597978B (zh) | 2018-06-12 | 2018-06-12 | 物品摘要生成方法、***、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597978A CN110597978A (zh) | 2019-12-20 |
CN110597978B true CN110597978B (zh) | 2023-12-08 |
Family
ID=68848918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810603797.2A Active CN110597978B (zh) | 2018-06-12 | 2018-06-12 | 物品摘要生成方法、***、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597978B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178953B (zh) * | 2019-12-20 | 2023-10-31 | 贝壳技术有限公司 | 信息生成方法和装置、电子设备和存储介质 |
CN111192111A (zh) * | 2019-12-26 | 2020-05-22 | 广东美的白色家电技术创新中心有限公司 | 产品销售数据的分析方法、终端设备 |
CN111192082B (zh) * | 2019-12-26 | 2024-03-26 | 广东美的白色家电技术创新中心有限公司 | 产品卖点的分析方法、终端设备及计算机可读存储介质 |
CN111738791B (zh) * | 2020-01-20 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 一种文本处理方法、装置、设备和存储介质 |
CN112148988B (zh) * | 2020-10-16 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于生成信息的方法、装置、设备以及存储介质 |
CN112288548A (zh) * | 2020-11-13 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 目标对象的关键信息的提取方法、装置、介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
CN105824915A (zh) * | 2016-03-16 | 2016-08-03 | 上海珍岛信息技术有限公司 | 一种网购产品评论文摘生成方法及*** |
CN106294425A (zh) * | 2015-05-26 | 2017-01-04 | 富泰华工业(深圳)有限公司 | 商品相关网络文章之自动图文摘要方法及*** |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169317A1 (en) * | 2008-12-31 | 2010-07-01 | Microsoft Corporation | Product or Service Review Summarization Using Attributes |
-
2018
- 2018-06-12 CN CN201810603797.2A patent/CN110597978B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
CN106294425A (zh) * | 2015-05-26 | 2017-01-04 | 富泰华工业(深圳)有限公司 | 商品相关网络文章之自动图文摘要方法及*** |
CN105824915A (zh) * | 2016-03-16 | 2016-08-03 | 上海珍岛信息技术有限公司 | 一种网购产品评论文摘生成方法及*** |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于梯度核特征及N-gram模型的商品图像句子标注;张红斌 等;《计算机科学》;第43卷(第5期);第2.2节 * |
Also Published As
Publication number | Publication date |
---|---|
CN110597978A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597978B (zh) | 物品摘要生成方法、***、电子设备及可读存储介质 | |
JP7282940B2 (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
US9971763B2 (en) | Named entity recognition | |
CN109492222B (zh) | 基于概念树的意图识别方法、装置及计算机设备 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN111967262A (zh) | 实体标签的确定方法和装置 | |
US20080097937A1 (en) | Distributed method for integrating data mining and text categorization techniques | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN111125435A (zh) | 视频标签的确定方法、装置和计算机设备 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN110032734B (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
Patel et al. | Dynamic lexicon generation for natural scene images | |
JP6420268B2 (ja) | 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム | |
CN112000834A (zh) | 文档处理方法、装置、***、电子设备及存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN110909193B (zh) | 图像排序展示方法、***、设备和存储介质 | |
US20140244240A1 (en) | Determining Explanatoriness of a Segment | |
CN111523019A (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
CN115048523A (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN114329206A (zh) | 标题生成方法和装置、电子设备、计算机可读介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、***、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |