CN112417858A - 一种实体权重评分方法、***、电子设备及存储介质 - Google Patents
一种实体权重评分方法、***、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112417858A CN112417858A CN202011319985.6A CN202011319985A CN112417858A CN 112417858 A CN112417858 A CN 112417858A CN 202011319985 A CN202011319985 A CN 202011319985A CN 112417858 A CN112417858 A CN 112417858A
- Authority
- CN
- China
- Prior art keywords
- entity
- standard
- attribute
- emotion
- establishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013077 scoring method Methods 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 46
- 230000008451 emotion Effects 0.000 claims abstract description 45
- 230000002996 emotional effect Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000015654 memory Effects 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 abstract description 18
- 239000013598 vector Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种实体权重评分方法、***、电子设备及存储介质,其方法技术方案包括标准库建立步骤,设立一标准库,在所述标准库中设定标准实体属性、标准情感状态、所述标准情感状态的权重值;数据获取步骤,获取电商平台上一商品的原始评价数据;数据预处理步骤,将所述原始评价数据进行冗余信息过滤,并进行分词处理;实体处理步骤,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;评分步骤,根据所述实体情感对应表、所述标准库计算商品的分值。本发明可以解决现有实体权重评分方法对情感状态利用不足、不科学问题。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种实体权重评分方法、***、电子设备及存储介质。
背景技术
人们在线上、线下购买的商品都可以在互联网上发表使用感受,并带有他们情感状态,通过捕捉这些数据可以获取大众对实体的反馈,并给予一定的评分,使得商品生产者、广告投放者在广告投放、实体性能改进方面能够有的放矢。但是由于数据量的巨大,单纯的靠人工整理数据比较繁琐,耗时时间长,需要大量的人力财力,同时,在评分过程中由于人工主观情感的影响造成评分的非客观性。
互联网中的商品评价错综复杂,涉及到的实体及实体属性的评价都可能会在评价数据中呈现出来,现有的技术大部分都是通过对日志采集,然后对用户-实体分析及用户的日常行为作出预测用来进行实体推荐,或者是通过分析评价日志,给评价打出是正向评价还是负评价的标签,而不是通过实体及其属性的权重进行评分,达到有针对性的优化产品的目的。并且目前对于实体评分这方面往往都是通过简单的人工处理,主观评分,存在误差性、人工耗时长等弊端。
发明内容
本申请实施例提供了一种实体权重评分方法、***、电子设备及存储介质,以至少解决现有实体权重评分方法处理数据过程的繁琐、人工处理耗时长,评分由于没有标准,同时缺乏对实体属性的评价数据的统计造成评分具有差异性的、片面性的的问题。
第一方面,本申请实施例提供了一种实体权重评分方法,包括:标准库建立步骤,设立一标准库,在所述标准库中设定标准实体属性、标准情感状态、所述标准情感状态的权重值;数据获取步骤,获取电商平台上一商品的原始评价数据;数据预处理步骤,将所述原始评价数据进行冗余信息过滤,并进行分词处理;实体处理步骤,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;评分步骤,根据所述实体情感对应表、所述标准库计算商品的分值。
优选的,所述实体处理步骤包括:实体标注步骤,标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;属性匹配步骤,对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;情感匹配步骤,对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;对应表建立步骤,将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。
优选的,所述实体属性标注通过一LSTM-CRF模型实现。
优选的,所述相似度匹配通过余弦相似度匹配实现。
第二方面,本申请实施例提供了一种实体权重评分***,适用于上述一种实体权重评分方法,包括:标准库建立单元,包括一标准库,在所述标准库中设定标准实体属性、标准情感状态、所述标准情感状态的权重值;数据获取单元,获取电商平台上一商品的原始评价数据;数据预处理单元,将所述原始评价数据进行冗余信息过滤,并进行分词处理;实体处理单元,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;评分单元,根据所述实体情感对应表、所述标准库计算商品的分值。
在其中一些实施例中,所述实体处理单元包括:实体标注模块,标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;属性匹配模块,对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;情感匹配模块,对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;对应表建立模块,将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。
在其中一些实施例中,所述实体属性标注通过一LSTM-CRF模型实现。
在其中一些实施例中,所述相似度匹配通过余弦相似度匹配实现。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种实体权重评分方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种实体权重评分方法。
相比于相关技术,本申请实施例提供的一种实体权重评分方法通过对商品的评价数据通过使用LSTM-CRF模型对实体进行标注解决了传统人工标注的繁琐及客观性,极大节省了人工成本,同时,将模型结果根据现有的标准库使用相似度匹配,使的属性标准化,最后使用权重评分机制生成实体及其属性的最终评分,让实体评分根据其属性的重要性作为影响其评分的指标,减少了片面性的获取商品评论态度的可能性,最终将评分结果反馈给商品的品牌广告主,给他们在实体性能提高及广告投入方面提供指导方向。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的实体权重评分方法流程图;
图2为图1中步骤S4的分步骤流程图;
图3为本发明的实体权重评分***的框架图;
图4为本发明的电子设备的框架图;
以上图中:
1、标准库建立单元;2、数据获取单元;3、数据预处理单元;4、实体处理单元;5、评分单元;41、实体标注模块;42、属性匹配模块;43、情感匹配模块;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机***,特别是其中的软件***。因而它是计算机科学的一部分。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。若让x=(x1,x2,…xn)表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRF模型定义状态序列的联合条件概率为:
p(y|x)=exp{}(2-14);
Z(x)={}(2-15);
其中:Z是以观察序列x为条件的概率归一化因子;fj(yi-1,yi,x,i)是一个任意的特征函数;是每个特征函数的权值。
长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型长期依赖局限性的缺点,被广泛应用于自然语言处理的各种任务中并取得了不错的效果。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足***的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到***的某一条件时停止。另外,所有被爬虫抓取的网页将会被***存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。注意上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个维度由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,会用到它来度量集群内部的凝聚力。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的实体权重评分方法流程图,请参见图1,本发明实体权重评分方法包括如下步骤:
S1:先行设立一标准库,在所述标准库中按照实际情况自主设定标准实体属性、标准情感状态,以及标准情感状态的权重值。
S2:获取电商平台上一商品的原始评价数据;可选的,可通过爬虫技术自动化获取上述一商品的原始评价数据。
S3:可根据时间等因素将所述原始评价数据进行冗余信息过滤,并对评价数据进行分词处理,用于后续的实体标注。
S4:对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;可选的,图2为图1中步骤S4的分步骤流程图,请参见图2:
S41.标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;可选的,可使用LSTM-CRF模型进行自动化的实体属性标注,即对实体进行命名实体识别时使用LSTM-CRF模型;
S42.对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;可选的,此处可通过余弦相似度匹配方法进行匹配;
S43.对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;可选的,此处可通过余弦相似度匹配方法进行匹配;
上述的余弦相似度匹配方法,公式为:
其中,A为实体属性,B为标准实体属性;或,A为情感状态,B为标准情感状态;
S44.将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。
S5:根据所述实体情感对应表、所述标准库计算商品的分值;可选的,首先计算实体属性评估值,公式为:
V(v1,v2,v3)=W{w1,w2,w3,…}*E{eattribute1,eattribute2,eattribute3,…}
其中,W代表实体属性权重值,E代表标准库中的情感状态的权重值,每个实体属性由于其在实体中的重要性不同,所以根据其重要性将其设置不同的权重值W,实体属性越重要,权重值W越大,其中,w1+w2+…+wn=1,当其实体属性对应的情感状态不存在的时候,选取一事先设定的默认的情感状态权重值常量;
可选的,再根据该原始评价数据的每个实体属性评估值的平均值,得到最终评分。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种实体权重评分***,适用于上述的一种实体权重评分方法。如以下所使用的,术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。
图3为根据本发明的实体权重评分***的框架图,请参见图3,包括:
标准库建立单元1,包括一先行设立的标准库,在所述标准库中按照实际情况自主设定标准实体属性、标准情感状态,以及标准情感状态的权重值。
数据获取单元2,获取电商平台上一商品的原始评价数据;可选的,可通过爬虫技术自动化获取上述一商品的原始评价数据。
数据预处理单元3,将可根据时间等因素将所述原始评价数据进行冗余信息过滤,并对评价数据进行分词处理,用于后续的实体标注。
实体处理单元4,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;可选的,实体处理单元4还包括:
实体标注模块41,标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;可选的,可使用LSTM-CRF模型进行自动化的实体属性标注,即对实体进行命名实体识别时使用LSTM-CRF模型;
属性匹配模块42,对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;可选的,此处可通过余弦相似度匹配方法进行匹配;
情感匹配模块43,对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;可选的,此处可通过余弦相似度匹配方法进行匹配;
上述的余弦相似度匹配方法,公式为:
其中,A为实体属性,B为标准实体属性;或,A为情感状态,B为标准情感状态;
对应表建立模块44,将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。评分单元5,根据所述实体情感对应表、所述标准库计算商品的分值;可选的,首先计算实体属性评估值,公式为:
V(v1,v2,v3)=W{w1,w2,w3,…}*E{eattribute1,eattribute2,eattribute3,…}
其中,W代表实体属性权重值,E代表标准库中的情感状态的权重值,每个实体属性由于其在实体中的重要性不同,所以根据其重要性将其设置不同的权重值W,实体属性越重要,权重值W越大,其中,w1+w2+…+wn=1,当其实体属性对应的情感状态不存在的时候,选取一事先设定的默认的情感状态权重值常量;
可选的,再根据该原始评价数据的每个实体属性评估值的平均值,得到最终评分。
另外,结合图1、图2描述的一种实体权重评分方法可以由电子设备来实现。图4为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种实体权重评分方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图4所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、***组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的一种实体权重评分方法。
另外,结合上述实施例中的一种实体权重评分方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种实体权重评分方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种实体权重评分方法,其特征在于,包括:
标准库建立步骤,设立一标准库,在所述标准库中设定标准实体属性、标准情感状态、所述标准情感状态的权重值;
数据获取步骤,获取电商平台上一商品的原始评价数据;
数据预处理步骤,将所述原始评价数据进行冗余信息过滤,并进行分词处理;
实体处理步骤,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;
评分步骤,根据所述实体情感对应表、所述标准库计算商品的分值。
2.如权利要求1所述的实体权重评分方法,其特征在于,所述实体处理步骤包括:
实体标注步骤,标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;
属性匹配步骤,对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;
情感匹配步骤,对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;
对应表建立步骤,将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。
3.如权利要求1或2所述的实体权重评分方法,其特征在于,所述实体属性标注通过一LSTM-CRF模型实现。
4.如权利要求1或2所述的实体权重评分方法,其特征在于,所述相似度匹配通过余弦相似度匹配实现。
5.一种实体权重评分***,包括:
标准库建立单元,包括一标准库,在所述标准库中设定标准实体属性、标准情感状态、所述标准情感状态的权重值;
数据获取单元,获取电商平台上一商品的原始评价数据;
数据预处理单元,将所述原始评价数据进行冗余信息过滤,并进行分词处理;
实体处理单元,对所述预处理后的原始评价数据进行实体级别处理,并根据所述实体级别处理结果建立一实体情感对应表;
评分单元,根据所述实体情感对应表、所述标准库计算商品的分值。
6.如权利要求5所述的实体权重评分***,其特征在于,所述实体处理单元包括:
实体标注模块,标注所述原始评价数据中的实体及实体属性,并获取所述实体属性的情感状态;
属性匹配模块,对比所述实体属性与所述标准库中的标准实体属性,当相似度达一阈值时,判定为实体属性相似,并记录该匹配到的标准实体属性;
情感匹配模块,对比所述实体属性的情感状态与所述标准库中的标准情感状态,当相似度达一阈值时,判定为情感状态相似,并记录该匹配到的标准情感状态;
对应表建立模块,将所述实体、所述实体对应的标准实体属性、标准情感状态建立为一实体情感对应表。
7.如权利要求5或6所述的实体权重评分***,其特征在于,所述实体属性标注通过一LSTM-CRF模型实现。
8.如权利要求5或6所述的实体权重评分***,其特征在于,所述相似度匹配通过余弦相似度匹配实现。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的实体权重评分方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的实体权重评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319985.6A CN112417858A (zh) | 2020-11-23 | 2020-11-23 | 一种实体权重评分方法、***、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319985.6A CN112417858A (zh) | 2020-11-23 | 2020-11-23 | 一种实体权重评分方法、***、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417858A true CN112417858A (zh) | 2021-02-26 |
Family
ID=74778685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011319985.6A Pending CN112417858A (zh) | 2020-11-23 | 2020-11-23 | 一种实体权重评分方法、***、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417858A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116259111A (zh) * | 2023-05-15 | 2023-06-13 | 江西工业贸易职业技术学院 | 基于vr的体育动作评分方法、***、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索*** |
US20150186790A1 (en) * | 2013-12-31 | 2015-07-02 | Soshoma Inc. | Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews |
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
JP2017120634A (ja) * | 2015-12-28 | 2017-07-06 | 株式会社リコー | 情感語極性の分析方法及び装置 |
WO2017149540A1 (en) * | 2016-03-02 | 2017-09-08 | Feelter Sales Tools Ltd | Sentiment rating system and method |
KR20180025690A (ko) * | 2016-09-01 | 2018-03-09 | 성균관대학교산학협력단 | 리뷰 데이터의 감성을 분류하기 위한 방법 및 장치 |
CN110489523A (zh) * | 2019-07-31 | 2019-11-22 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN110706028A (zh) * | 2019-09-26 | 2020-01-17 | 四川长虹电器股份有限公司 | 基于属性特征的商品评价情感分析*** |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及*** |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111080055A (zh) * | 2019-11-06 | 2020-04-28 | 邱素容 | 酒店评分方法、酒店推荐方法、电子装置和存储介质 |
CN111737978A (zh) * | 2020-07-02 | 2020-10-02 | 武汉卓尔数字传媒科技有限公司 | 一种购物评价情感分析的方法、装置及电子设备 |
-
2020
- 2020-11-23 CN CN202011319985.6A patent/CN112417858A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索*** |
US20150186790A1 (en) * | 2013-12-31 | 2015-07-02 | Soshoma Inc. | Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews |
WO2016197577A1 (zh) * | 2015-06-12 | 2016-12-15 | 百度在线网络技术(北京)有限公司 | 评论信息的标注方法、装置和计算机设备 |
JP2017120634A (ja) * | 2015-12-28 | 2017-07-06 | 株式会社リコー | 情感語極性の分析方法及び装置 |
WO2017149540A1 (en) * | 2016-03-02 | 2017-09-08 | Feelter Sales Tools Ltd | Sentiment rating system and method |
KR20180025690A (ko) * | 2016-09-01 | 2018-03-09 | 성균관대학교산학협력단 | 리뷰 데이터의 감성을 분류하기 위한 방법 및 장치 |
CN110489523A (zh) * | 2019-07-31 | 2019-11-22 | 西安理工大学 | 一种基于网购评价的细粒度情感分析方法 |
CN110517121A (zh) * | 2019-09-23 | 2019-11-29 | 重庆邮电大学 | 基于评论文本情感分析的商品推荐方法及商品推荐装置 |
CN110706028A (zh) * | 2019-09-26 | 2020-01-17 | 四川长虹电器股份有限公司 | 基于属性特征的商品评价情感分析*** |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及*** |
CN111080055A (zh) * | 2019-11-06 | 2020-04-28 | 邱素容 | 酒店评分方法、酒店推荐方法、电子装置和存储介质 |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111737978A (zh) * | 2020-07-02 | 2020-10-02 | 武汉卓尔数字传媒科技有限公司 | 一种购物评价情感分析的方法、装置及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116259111A (zh) * | 2023-05-15 | 2023-06-13 | 江西工业贸易职业技术学院 | 基于vr的体育动作评分方法、***、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN106599022B (zh) | 基于用户访问数据的用户画像形成方法 | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和*** | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
US11526750B2 (en) | Automated industry classification with deep learning | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN111753087A (zh) | 舆情文本分类方法、装置、计算机设备和存储介质 | |
WO2019085332A1 (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN112016294B (zh) | 一种基于文本的新闻重要性评估方法、装置及电子设备 | |
Angadi et al. | Multimodal sentiment analysis using reliefF feature selection and random forest classifier | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
Biswas et al. | A new ontology-based multimodal classification system for social media images of personality traits | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识*** | |
CN112417858A (zh) | 一种实体权重评分方法、***、电子设备及存储介质 | |
CN112149413A (zh) | 基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质 | |
Sanagavarapu et al. | News categorization using hybrid BiLSTM-ANN model with feature engineering | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |