CN111651987B - 身份判别方法及装置、计算机可读存储介质、电子设备 - Google Patents
身份判别方法及装置、计算机可读存储介质、电子设备 Download PDFInfo
- Publication number
- CN111651987B CN111651987B CN202010421276.2A CN202010421276A CN111651987B CN 111651987 B CN111651987 B CN 111651987B CN 202010421276 A CN202010421276 A CN 202010421276A CN 111651987 B CN111651987 B CN 111651987B
- Authority
- CN
- China
- Prior art keywords
- enterprise
- public opinion
- judged
- enterprises
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种身份判别方法及装置、计算机可读存储介质、电子设备,摒弃了查找企业名单的方式,采用了通过提取待判别企业在待判别文章中的上下文,由于距离待判别企业较近的词句与待判别企业的关系会更紧密,因此通过分析提取的上下文与用于标识从事媒体行业的企业的共现词的相似性,就可以基于文章内容来判别企业在舆情文章中担任的角色,而非机械的查找现有的指定行业的企业名单来判断。因此,本实施例提供的方案相较于现有方案能更精准的识别待判别企业在舆情文章中所担任的角色。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种身份判别方法及装置、计算机可读存储介质、电子设备。
背景技术
随着网络技术的不断发展和创新,互联网成为民众表达情感的宣泄口。企业若能实时了解舆情,就可以利用舆情宣传企业的价值观。但若未能掌握舆情的动态,舆情预警滞后,给企业带来极大的负面影响。所以对企业来说,有效地监测,第一时间了解,及时地处理企业在网络上的相关信息就显得尤为重要。
然而,目前针对舆情对企业影响的判断,主要基于提及该企业的舆情文章的数量,并按该数量对企业进行排序,以此来判断民众对该企业的关注热度。但其中还有特例,例如当企业在舆情文章中作为某些指定角色(如媒体角色)出现和作为事件主角出现,该文章对企业的关注热度的影响完全不同,甚至可能造成相反的影响。因此,在判断文章对企业的关注热度时,要选择性的剔除掉这些特例文章。现有的算法一般是通过是否从事“媒体”等指定相关行业的名单,直接判别企业在文章中是否担任“媒体角色”,这样将对部分从事媒体相关行业的企业作为“事件主角”的舆情文章产生误判,导致这类文章未当作该企业的舆情文章,导致企业未能及时监测到,给企业带来极大的负面影响。
综上所述,现有算法的维护成本高昂,且该算法优化空间不大,并无法准确地判别企业在舆情文章中担任的是否为“媒体角色”。
发明内容
本发明实施例提供了一种身份判别方法及装置、计算机可读存储介质、电子设备,分析舆情文章的内容,综合判别企业在舆情文章中担任的角色。
本发明实施例提供的一种身份判别方法,该方法包括:
获取待判别的舆情文章;
从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,并统计满足预设条件的判别因子的数量;其中,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;
根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色。
较佳地,所述根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色的步骤,包括:
若满足预设条件的判别因子的数量等于所述判别因子的总量,则确定所述待判别企业在舆情文章中担任“指定角色”。
较佳地,在所述确定该待判别企业对应的每一判别因子是否满足预设条件的步骤之后,该方法还包括:
若该判别因子满足预设条件,则统计该判别因子在待判别企业对应的判别因子中出现的次数,并确定该次数为判别因子统计值;统计所述待判别企业在所述待判别的舆情文章中被提及的次数,并确定该次数为待判别企业统计值;
此时,所述根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色的步骤,包括:
如果所述判别因子统计值和所述待判别企业统计值的比值低于预设阈值,确定所述待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
较佳地,所述提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子的步骤,包括:
若所述待判别企业为所述从事指定行业的企业,则提取所确定的位置的前面m个字词和所确定的位置的后面m个字词为判别因子;
若所述待判别企业不是所述从事指定行业的企业,则提取所确定的位置的前面n个字词和所确定的位置的后面n个字词为判别因子;
其中,m和n都是正整数,且m大于n,所述字词为单个字或单个词。
较佳地,所述指定标识词组的生成方法,包括:
获取从事指定行业的企业的名单,确定所述从事指定行业的企业为样本企业,并获取提及所述样本企业的舆情文章为样本文章;
从所述样本文章中,提取提及所述样本企业的句子,并对该句子进行分词,得到分词结果,对分词结果中的每一分词计算词频,然后基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词,最终确定筛选得到的标识词为指定标识词组。
较佳地,在所述提取该舆情文章中提及的企业为待判别企业的步骤之后,该方法还包括:
确定所述舆情文章的发布来源;
若所述待判别企业与舆情文章的发布来源所属企业相同,则确定该企业在舆情文章中担任“指定角色”。
较佳地,在所述提取该舆情文章中提及的企业为待判别企业的步骤之后,该方法还包括:
判断所述待判别企业是否为从事指定行业的企业;
若是,则在所述确定所述待判别企业在该舆情文章中的位置的步骤之后,该方法还包括:
判断所确定的位置的前面一个字符和后面一个字符是否为括号;若是,则确定所述待判别企业在舆情文章中担任“指定角色”。
本发明实施例提供的一种身份判别装置,该装置包括:
第一模块,用于获取待判别的舆情文章;
第二模块,用于从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
第三模块,用于确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
第四模块,用于针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,并统计满足预设条件的判别因子的数量;其中,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;
第五模块,用于根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色。
较佳地,所述第五模块,具体用于:
若满足预设条件的判别因子的数量等于所述判别因子的总量,则确定所述待判别企业在舆情文章中担任“指定角色”。
较佳地,所述第五模块,具体用于:
若该判别因子满足预设条件,则统计该判别因子在待判别企业对应的判别因子中出现的次数,并确定该次数为判别因子统计值;统计所述待判别企业在所述待判别的舆情文章中被提及的次数,并确定该次数为待判别企业统计值;
根据所述判别因子统计值和所述待判别企业统计值的比值与预设阈值的关系,则确定所述待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
较佳地,所述第三模块,具体用于:
若所述待判别企业为所述从事指定行业的企业,则提取所确定的位置的前面m个字词和所确定的位置的后面m个字词为判别因子;
若所述待判别企业不是所述从事指定行业的企业,则提取所确定的位置的前面n个字词和所确定的位置的后面n个字词为判别因子;
其中,m和n都是正整数,且m大于n,所述字词为单个字或单个词。
较佳地,所述第一模块,还用于:
获取从事指定行业的企业的名单,确定所述从事指定行业的企业为样本企业,并获取提及所述样本企业的舆情文章为样本文章;
从所述样本文章中,提取提及所述样本企业的句子,并对该句子进行分词,得到分词结果,对分词结果中的每一分词计算词频,然后基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词,最终确定筛选得到的标识词为指定标识词组。
较佳地,所述第五模块,还用于:
确定所述舆情文章的发布来源;
若所述待判别企业与舆情文章的发布来源所属企业相同,则确定该企业在舆情文章中担任“指定角色”。
较佳地,所述第五模块,还用于:
判断所述待判别企业是否为从事指定行业的企业;
若是,则所述第三模块在执行所述确定所述待判别企业在该舆情文章中的位置的步骤之后,所述第五模块还用于:
判断所确定的位置的前面一个字符和后面一个字符是否为括号;若是,则确定所述待判别企业在舆情文章中担任“指定角色”。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种身份判别方法步骤。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述一种身份判别方法步骤。
本发明实施例提供了一种身份判别方法及装置、计算机可读存储介质、电子设备,摒弃了查找企业名单的方式,采用了通过提取待判别企业在待判别文章中的上下文,由于距离待判别企业较近的词句与待判别企业的关系会更紧密,因此通过分析提取的上下文与用于标识从事媒体行业的企业的共现词的相似性,就可以基于文章内容来判别企业在舆情文章中担任的角色,而非机械的查找现有的媒体企业名单来判断。因此,本实施例提供的方案相较于现有方案能更精准的识别待判别企业在舆情文章中所担任的角色,同时大大降低人工成本。
附图说明
图1为本发明实施例一提供的一种身份判别方法的流程示意图;
图2为本发明实施例二提供的一种身份判别方法的流程示意图;
图3为本发明实施例三提供的一种身份判别方法的流程示意图;
图4为本发明实施例四提供的一种身份判别方法的流程示意图;
图5为本发明实施例六提供的一种媒体标识词组的生成方法的流程示意图;
图6为本发明实施例提供的一种身份判别装置的结构示意图。
具体实施方式
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一:
参见图1,图1为本发明实施例提供的一种身份判别方法的流程示意图,如图所示,该方法包括步骤S110~150:
S110、获取待判别的舆情文章;
S120、从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
S130、确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
S140、针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,并统计满足预设条件的判别因子的数量;
S150、根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色。
其中,步骤S140中预设条件为判别因子与预设的指定标识词组相同,且所述媒体标识词组为从事指定行业的企业的共现词组。如指定标识词组可以是从事媒体行业的企业的共现词组,如媒体标识词组。指定标识词组既可以是由单个字或单个词组成,也可能是由多个词语组成,但无论是哪种组成方式,指定标识词组都必须能够标识出从事指定行业的企业,本公开以指定标识词组是媒体标识词组为例,即媒体标识词组通常与从事媒体行业的企业同时出现,当定位到媒体标识词组时,在定位到的媒体标识词组的上下文附近有从事媒体行业的企业出现。
具体地,根据满足预设条件的判别因子的数量,判断所述待判别企业在舆情文章中担任的角色的一种实现方法可以为:
判断满足预设条件的判别因子的数量是否等于判别因子的总量,若是,则确定待判别企业在舆情文章中担任的是“指定角色”。
本实施例提出一种识别方式,摒弃了查找企业名单的方式,采用了通过提取待判别企业在待判别文章中的上下文,由于距离待判别企业较近的词句与待判别企业的关系会更紧密,因此通过分析提取的上下文与用于标识从事媒体行业的企业的共现词的相似性,就可以基于文章内容来判别企业在舆情文章中担任的角色,而非现有的指定行业企业名单。因此,本实施例提供的方案相较于现有方案能更精准的识别待判别企业在舆情文章中所担任的角色。
实施例二:
参见图2,图2为本发明实施例提供的一种身份判别方法的流程示意图,如图所示,该方法包括步骤S210~250:
S210、获取待判别的舆情文章;
S220、从待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
S230、确定待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
S240、针对每一待判别企业,判断该待判别企业对应的每一判别因子是否与预设的指定标识词组相同,若判断结果为相同,则统计该判别因子在待判别企业对应的所有判别因子中出现的次数以及统计待判别企业在待判别的舆情文章中被提及的次数;下文为表述方便,将上文中该判别因子在待判别企业对应的所有判别因子中出现的次数统称为判别因子统计值,将待判别企业在待判别的舆情文章中被提及的次数统称为待判别企业统计值;
S250、根据判别因子统计值和待判别企业统计值的比值与预设阈值的关系,则确定待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
其中,预设阈值可以设为任意正数,该正数可按照实际需求设置。
具体地,本公开以指定标识词组是媒体标识词组为例,步骤S250的具体实现可以为,若判别因子统计值与待判别企业统计值的比值等于或者小于某个预设阈值,则确定待判别企业在舆情文章中同时担任“媒体角色”和“事件主角”。其中,预设阈值可以设为等于或小于0.5的正数。
本实施例提出一种识别方式中,当确定提取的上下文(判别因子)中有标识从事媒体行业的企业出现的媒体标识词组时,再继续判断与预设的媒体标识词组相同的判别因子的个数与待判别企业在所述待判别的舆情文章中被提及的次数的占比,来进一步判别企业在舆情文章中担任的角色,例如,当判别因子统计值小于待判别企业统计值的一半时,确定待判别企业在舆情文章中同时担任“媒体角色”和“事件主角”;当判别因子统计值大于或者等于待判别企业统计值的一半时,确定待判别企业在舆情文章中担任“媒体角色”。此外,本实施例还首次提出了待判别企业在舆情文章中同时担任“媒体角色”和“事件主角”两个角色这一概念,从而在判别出舆情文章中出现的待判别企业是否为媒体角色的同时,保留了待判别企业的其他属性,以丰富待判别企业的信息。
实施例三:
参见图3,图3为本发明实施例提供的一种身份判别方法的流程示意图,如图所示,该方法包括步骤S310~330:
S310、获取待判别的舆情文章;
S320、从待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
S330、若判断待判别企业与舆情文章的发布来源所属企业相同,则确定该企业在舆情文章中担任“指定角色”。
本实施例仍以指定标识词组是媒体标识词组为例,提出一种识别方式,基于待判别企业与舆情文章的发布来源是否相同,直接确定待判别企业在舆情文章中担任的角色,从而能够迅速准确的判别企业是否在舆情文章中担任“媒体角色”,最大程度上提升判别效率。而且,在判断待判别企业与舆情文章的发布来源不相同时,可继续执行实施例一中的步骤S130或继续执行实施例二中的步骤S230,继续判别企业是否在舆情文章中担任“媒体角色”。
实施例四:
参见图4,图4为本发明实施例提供的一种身份判别方法的流程示意图,如图所示,该方法包括步骤S410~450:
S410、获取待判别的舆情文章;
S420、从待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
S430、判断待判别企业是否为从事指定行业的企业;
S440、若确定待判别企业为从事指定行业的企业,则确定待判别企业在该舆情文章中的位置;
S450、判断所确定的位置的前面一个字符和后面一个字符是否为括号;若是,则确定待判别企业在舆情文章中担任“指定角色”。
本实施例仍以指定标识词组是媒体标识词组,指定行业为媒体行业,指定角色为媒体角色为例,提出一种识别方式,基于对舆情文章的书写***时舆情文章的书写习惯,从而直接能够迅速准确的判别企业是否在舆情文章中担任“媒体角色”,在一定程度上提升判别效率。
此外,由于本实施例的前两个步骤与实施例三中前两个步骤相同,因此本实施例也可以在实施例三的判断待判别企业与舆情文章的发布来源不相同的步骤时,执行本实施例的步骤S430-S450。而且,若本实施例中确定待判别企业不是从事媒体行业的企业,则可继续执行实施例一中的步骤S130或继续执行实施例二中的步骤S230,继续判别企业是否在舆情文章中担任“媒体角色”。另外,若本实施例中确定待判别企业在该舆情文章中的位置的前面一个字符和后面一个字符不是括号,则也可以继续执行实施例一中的步骤S130或继续执行实施例二中的步骤S230,继续判别企业是否在舆情文章中担任“媒体角色”,以完成判别企业在舆情文章中担任的角色的任务。
实施例五:
为提升判别的准确性,本实施例在上述实施例一的基础上,提供了提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子这一步骤的具体实现方式:
若待判别企业为从事媒体行业的企业,则提取所确定的位置的前面m个字词和所确定的位置的后面m个字词为判别因子;
若待判别企业不是从事媒体行业的企业,则提取所确定的位置的前面n个字词和所确定的位置的后面n个字词为判别因子;
其中,m和n都是正整数,且m大于n,所述字词为单个字或单个词。
本实施例仍以指定标识词组是媒体标识词组,指定行业为媒体行业,指定角色为媒体角色为例,提出一种识别方式中,先对待判别企业做了预判,若待判别企业为从事媒体行业的企业,则需提取更多的字符作为判别因子。由于若待判别企业从事媒体行业,则该待判别企业的上下文中与预设的媒体标识词组相同的概率就更高,为减少误判所以需要在保证效率的基础上,增加该待判别企业的提取的字符量,以提升判别的准确度。
实施例六:
本实施例在上述实施例的基础上,提供了一种媒体标识词组的生成方法,参见图5,图5为本发明实施例提供的一种媒体标识词组的生成方法的流程示意图,如图所示,该方法包括步骤S510~550:
S510、获取从事指定行业的企业的名单,确定从事指定行业的企业为样本企业,并获取提及样本企业的舆情文章为样本文章;
S520、从样本文章中,提取提及样本企业的句子;
S530、对提取的句子进行分词,得到分词结果;
S540、对分词结果中的每一分词计算词频;
S550、基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词,确定筛选得到的标识词为指定标识词组。
本实施例仍以指定标识词组是媒体标识词组,指定行业为媒体行业,指定角色为媒体角色为例,具体地,提取提及样本企业的句子,可以为提取提及样本企业的企业全称的句子,或提取提及样本企业的企业简称的句子、提及样本企业的企业品牌的句子或提及样本企业的企业产品的句子任一种或多种的组合。此处提取句子的方式为,定位到提及样本企业的位置,向前搜索直到搜到标点符号为止,并向后搜索直到搜到标点符号为止,至此提取到的内容即为提取提及样本企业的句子。
具体地,对提取的句子进行分词的步骤,可以为,采用分词工具如jieba、HanLP、THULAC等对提取的句子进行切词。
具体地,基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词的步骤,可以为,基于计算得到的词频,通过使用采用TF-IDF算法和/或信息熵算法筛选出具有标识性的共现词,当然在算法筛选后还可通过人工干预的方式对算法进行微调,以确保筛选出的共现词有较高的标识性。
实施例七:
本实施例中提供了一种身份判别方法,仍以指定标识词组是媒体标识词组,指定行业为媒体行业,指定角色为媒体角色为例,该身份判别方法中综合了上述实施例的判断条件,具体地,该方法包括步骤一~七:
步骤一、获取从事媒体行业的企业的名单,其中,该名单中包括有企业全称、企业简称、企业品牌和企业产品等可标识企业的信息;为论述方便下文统称该名单中从事媒体行业的企业为样本企业。
步骤二、获取提及样本企业的舆情文章并取样,从样本文章中提取提及样本企业的句子,得到句子候选集[S1,S2,……,Sn];为论述方便下文统称取样后的提及样本企业的舆情文章为样本文章。
步骤三、对于句子候选集中的每一个句子,采用分词工具进行切词,得到分词集[W1,W2,……,Wn]并计算词频,其中,每一个词W均对应一个词频C,得到词频列表[(W1,C2),(W2,C2),(W3,C3),……,(Wn,Cn)]。
步骤四、基于步骤S630得到的词频列表,通过使用TF-IDF、信息熵和人工干预等筛选该样本企业在舆情文章中出现时的有标志性意义的标识词。
执行至此,本实施例中确定了从事媒体行业的企业的名单,以及用于定位从事媒体行业的企业出现的标识词。
步骤五、获取待判别的舆情文章、待判别的舆情文章的发布来源以及该舆情文章中提及的企业;为论述方便下文统称该舆情文章中提及的企业为待判别企业。
步骤六、为每一待判别企业,赋予初始状态值对(m,n),并按照如下规则,对待判别企业的状态值对进行更新;其中,第一个元素为表示企业在舆情文章中担任“媒体角色”,第2个元素表示企业在舆情文章中担任“事件主角”;0代表否,1代表是。初始状态值对可以为(0,0)。
规则一:如果待判别企业与舆情文章的发布来源相同,则状态值对的第一个元素加一;
规则二:如果待判别企业为样本企业,且待判别企业在该舆情文章中的位置前面一个字符和后面一个字符为双括号,则状态值对的第一个元素加一;
规则三:如果待判别企业的每个判决因子都有S640中确定的某个标识词的存在,则状态值对的第一个元素加一;
规则四:如果S640中确定的某个标识词在待判别企业的某个判决因子中出现过,但出现次数小于该判别企业在舆情文章中被提及的次数的一半,则状态值对中的每一个元素都加一;
规则五:若上述规则均不满足,则状态值对的第二个元素加一。
其中,规则三和规则四中的判别因子的提取步骤为,先判断待判别企业是否为样本企业,若为样本企业,则提取待判别企业在该舆情文章中的位置的前面10个字和后面10个字,作为判别因子;若不是样本企业,则只需提取待判别企业在该舆情文章中的位置的前面5个字和后面5个字,作为判别因子即可。
或者,
规则三和规则四中的判别因子的提取步骤为,先判断待判别企业是否为样本企业,若为样本企业,则提取待判别企业在该舆情文章中的位置的前面10个词和后面10个词,作为判别因子;若不是样本企业,则只需提取待判别企业在该舆情文章中的位置的前面5个词和后面5个词,作为判别因子即可。
步骤七、针对每一待判别企业更新后的状态值对进行分析,如果状态值对的第一个元素不为0,则认为企业在舆情文章中担任“媒体角色”;如果状态值的第二个元素不为0,则认为企业在舆情文章中担任“事件主角”。
本实施例中采用了共现词和规则组合的方式进行判别,但本申请并不局限与此实施例,例如结合命名实体进行识别和/或通过文本分类技术自动识别都是可行的,在此就不再过多赘述。
参见图6,本发明实施例提供了一种身份判别装置,该装置包括:
第一模块610,用于获取待判别的舆情文章;
第二模块620,用于从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
第三模块630,用于确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
第四模块640,用于针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,并统计满足预设条件的判别因子的数量;其中,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;
第五模块650,用于根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色。
具体地,第五模块650,具体用于:
若满足预设条件的判别因子的数量等于所述判别因子的总量,则确定所述待判别企业在舆情文章中担任“指定角色”。
具体地,第五模块650,具体用于:
若该判别因子满足预设条件,则统计该判别因子在待判别企业对应的判别因子中出现的次数,并确定该次数为判别因子统计值;统计所述待判别企业在所述待判别的舆情文章中被提及的次数,并确定该次数为待判别企业统计值;
根据所述判别因子统计值和所述待判别企业统计值的比值与预设阈值的关系,则确定所述待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
具体地,第三模块650,具体用于:
若所述待判别企业为所述从事指定行业的企业,则提取所确定的位置的前面m个字词和所确定的位置的后面m个字词为判别因子;
若所述待判别企业不是所述从事指定行业的企业,则提取所确定的位置的前面n个字词和所确定的位置的后面n个字词为判别因子;
其中,m和n都是正整数,且m大于n。此处的字词为单个字或单个词。
具体地,第一模块610,还用于:
获取从事指定行业的企业的名单,确定所述从事指定行业的企业为样本企业,并获取提及所述样本企业的舆情文章为样本文章;
从所述样本文章中,提取提及所述样本企业的句子,并对该句子进行分词,得到分词结果,对分词结果中的每一分词计算词频,然后基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词,最终确定筛选得到的标识词为指定标识词组。
具体地,第五模块650,还用于:
确定所述舆情文章的发布来源;
若所述待判别企业与舆情文章的发布来源所属企业相同,则确定该企业在舆情文章中担任“指定角色”。
具体地,第五模块650,还用于:
判断所述待判别企业是否为从事指定行业的企业;
若是,则第三模块630在执行所述确定所述待判别企业在该舆情文章中的位置的步骤之后,所述第五模块还用于:
判断所确定的位置的前面一个字符和后面一个字符是否为括号;若是,则确定所述待判别企业在舆情文章中担任“指定角色”。
本发明实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明实施例提供的身份判别方法。
也就是说,本发明实施例提供的方法即可依附于服务器中的处理器运行,也可以在独立于服务器的数据匹配装置中运行。当在数据匹配装置中运行时,也就降低了在各自***中转换所带来的工作量,提升了转换效率。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现本发明实施例提供的身份判别方法中的步骤。
综上所述,本发明实施例提供了一种身份判别方法及装置、计算机可读存储介质、电子设备,摒弃了查找企业名单的方式,采用了通过提取待判别企业在待判别文章中的上下文,由于距离待判别企业较近的词句与待判别企业的关系会更紧密,因此通过分析提取的上下文与用于标识从事媒体行业的企业的共现词的相似性,就可以基于文章内容来判别企业在舆情文章中担任的角色,而非机械的查找现有的媒体企业名单来判断。因此,本实施例提供的方案相较于现有方案能更精准的识别待判别企业在舆情文章中所担任的角色。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种身份判别方法,其特征在于,该方法包括:
获取待判别的舆情文章;
从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,若该判别因子满足预设条件,则统计该判别因子在待判别企业对应的判别因子中出现的次数,并确定该次数为判别因子统计值;统计所述待判别企业在所述待判别的舆情文章中被提及的次数,并确定该次数为待判别企业统计值,并统计满足预设条件的判别因子的数量;
根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色,包括:
如果所述判别因子统计值和所述待判别企业统计值的比值低于预设阈值,确定所述待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
2.根据权利要求1所述的方法,其特征在于,所述根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色的步骤,包括:
若满足预设条件的判别因子的数量等于所述判别因子的总量,则确定所述待判别企业在舆情文章中担任指定角色。
3.根据权利要求1所述的方法,其特征在于,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;所述提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子的步骤,包括:
若所述待判别企业为所述从事指定行业的企业,则提取所确定的位置的前面m个字词和所确定的位置的后面m个字词为判别因子;
若所述待判别企业不是所述从事指定行业的企业,则提取所确定的位置的前面n个字词和所确定的位置的后面n个字词为判别因子;
其中,m和n都是正整数,且m大于n,所述字词为单个字或单个词。
4.根据权利要求1-3任一所述的方法,其特征在于,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;所述指定标识词组的生成方法,包括:
获取从事指定行业的企业的名单,确定所述从事指定行业的企业为样本企业,并获取提及所述样本企业的舆情文章为样本文章;
从所述样本文章中,提取提及所述样本企业的句子,并对该句子进行分词,得到分词结果,对分词结果中的每一分词计算词频,然后基于计算得到的词频,从分词结果中筛选该样本企业在舆情文章中出现时的标识词,最终确定筛选得到的标识词为指定标识词组。
5.根据权利要求1所述的方法,其特征在于,在所述提取该舆情文章中提及的企业为待判别企业的步骤之后,该方法还包括:
确定所述舆情文章的发布来源;
若所述待判别企业与舆情文章的发布来源所属企业相同,则确定该企业在舆情文章中担任指定角色。
6.根据权利要求1所述的方法,其特征在于,在所述提取该舆情文章中提及的企业为待判别企业的步骤之后,该方法还包括:
判断所述待判别企业是否为从事指定行业的企业;
若是,则在所述确定所述待判别企业在该舆情文章中的位置的步骤之后,该方法还包括:
判断所确定的位置的前面一个字符和后面一个字符是否为括号;若是,则确定所述待判别企业在舆情文章中担任指定角色。
7.一种身份判别装置,其特征在于,该装置包括:
第一模块,用于获取待判别的舆情文章;
第二模块,用于从所述待判别的舆情文章中,提取该舆情文章中提及的企业为待判别企业;
第三模块,用于确定所述待判别企业在该舆情文章中的位置,并提取所确定的位置的前面的信息和所确定的位置的后面的信息为判别因子;
第四模块,用于针对每一所述待判别企业,确定该待判别企业对应的每一判别因子是否满足预设条件,若该判别因子满足预设条件,则统计该判别因子在待判别企业对应的判别因子中出现的次数,并确定该次数为判别因子统计值;统计所述待判别企业在所述待判别的舆情文章中被提及的次数,并确定该次数为待判别企业统计值,并统计满足预设条件的判别因子的数量;其中,所述预设条件为判别因子与预设的指定标识词组相同,且所述指定标识词组为从事指定行业的企业的共现词组;
第五模块,用于根据所统计的数量,判断所述待判别企业在舆情文章中担任的角色,包括:
如果所述判别因子统计值和所述待判别企业统计值的比值低于预设阈值,确定所述待判别企业在舆情文章中同时担任“指定角色”和“事件主角”。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421276.2A CN111651987B (zh) | 2020-05-18 | 2020-05-18 | 身份判别方法及装置、计算机可读存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010421276.2A CN111651987B (zh) | 2020-05-18 | 2020-05-18 | 身份判别方法及装置、计算机可读存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651987A CN111651987A (zh) | 2020-09-11 |
CN111651987B true CN111651987B (zh) | 2023-10-20 |
Family
ID=72346704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010421276.2A Active CN111651987B (zh) | 2020-05-18 | 2020-05-18 | 身份判别方法及装置、计算机可读存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651987B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609853A (zh) * | 2021-07-30 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 一种企业主体属性识别方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
WO2013154502A1 (en) * | 2012-04-11 | 2013-10-17 | National University Of Singapore | Methods, apparatuses and computer-readable mediums for organizing data relating to a product |
CN104951447A (zh) * | 2014-03-25 | 2015-09-30 | 上海市玻森数据科技有限公司 | 全网舆情监控*** |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-05-18 CN CN202010421276.2A patent/CN111651987B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
WO2013154502A1 (en) * | 2012-04-11 | 2013-10-17 | National University Of Singapore | Methods, apparatuses and computer-readable mediums for organizing data relating to a product |
CN104951447A (zh) * | 2014-03-25 | 2015-09-30 | 上海市玻森数据科技有限公司 | 全网舆情监控*** |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
李彪 ; .社交网络时代舆情预警的挑战、模式及趋势研究.编辑之友.2018,(11),全文. * |
蒋姣姣 ; .新媒体时代企业秘书对网络舆情危机的预防与应对.秘书.2018,(02),全文. * |
辜丽琼 ; 夏志杰 ; 宋祖康 ; 王诣铭 ; .基于在线网民评论情感追踪分析的企业危机舆情应对研究.情报理论与实践.(12),全文. * |
郭韧 ; 陈福集 ; 杨琛璐 ; .面向网络舆情的动态知识需求分析.情报杂志.2015,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111651987A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8527436B2 (en) | Automated parsing of e-mail messages | |
CN112329836A (zh) | 基于深度学习的文本分类方法、装置、服务器及存储介质 | |
EP3832488A2 (en) | Method and apparatus for generating event theme, device and storage medium | |
CN111079029B (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN106951530B (zh) | 一种事件类型抽取方法和装置 | |
CN106547875B (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN109885597B (zh) | 基于机器学习的用户分群处理方法、装置及电子终端 | |
CN111083141A (zh) | 一种仿冒账号的识别方法、装置、服务器和存储介质 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及*** | |
KR20190107832A (ko) | 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 | |
CN112163072A (zh) | 基于多数据源的数据处理方法以及装置 | |
CN114818643A (zh) | 一种保留特定业务信息的日志模板提取方法 | |
CN116841779A (zh) | 异常日志检测方法、装置、电子设备和可读存储介质 | |
CN111651987B (zh) | 身份判别方法及装置、计算机可读存储介质、电子设备 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN109918638B (zh) | 一种网络数据监测方法 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN112632284A (zh) | 用于未标注文本数据集的信息抽取方法及*** | |
CN112597295A (zh) | 摘要提取方法、装置、计算机设备和存储介质 | |
US10120652B2 (en) | System and method for representing software development requirements into standard diagrams | |
CN114860673B (zh) | 基于动静结合的日志特征识别方法及装置 | |
JP4057587B2 (ja) | 特徴パターン出力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |