CN113420946B - 一种新闻媒体的评价方法 - Google Patents
一种新闻媒体的评价方法 Download PDFInfo
- Publication number
- CN113420946B CN113420946B CN202110076250.3A CN202110076250A CN113420946B CN 113420946 B CN113420946 B CN 113420946B CN 202110076250 A CN202110076250 A CN 202110076250A CN 113420946 B CN113420946 B CN 113420946B
- Authority
- CN
- China
- Prior art keywords
- index
- news
- evaluation
- indexes
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000013139 quantization Methods 0.000 claims abstract description 40
- 238000013179 statistical model Methods 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000013178 mathematical model Methods 0.000 claims abstract description 21
- 238000011002 quantification Methods 0.000 claims abstract description 12
- 238000007619 statistical method Methods 0.000 claims abstract description 12
- 238000011835 investigation Methods 0.000 claims description 19
- 238000003058 natural language processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 230000009897 systematic effect Effects 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 11
- 238000009954 braiding Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000005452 bending Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Mathematical Optimization (AREA)
- Strategic Management (AREA)
- Pure & Applied Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新闻媒体的评价方法,相较于现有方案,本方法首先从电子媒体上获取新闻报道以及若干互动参数,通过构建多个专业的新闻报道数学模型对获取的数据进行处理,得到单篇新闻报道的指标量表;然后通过构建采编人员评价统计模型对单篇新闻报道的指标量表进行统计学分析和量化处理,得到采编人员的指标量表;最后通过构建媒体机构评价统计模型对采编人员的指标量表进行统计学分析和量化处理,得到媒体机构的指标量表,从而实现对媒体机构的评价。本方法实现对媒体机构多维度、完整和***性的评价,而且评价结果的准确度较于现有方法更优。本方法可用于主流新闻媒体进行业绩考核,能够针对媒体从业人员进行精准的筛查与甄选。
Description
技术领域
本发明涉及媒体信息处理技术领域,特别涉及一种新闻媒体的评价方法。
背景技术
在纸媒时代,报纸的发行的互动属性缺失,导致新闻媒体从业人员的作品无法得到真实有效的阅读统计与评论反馈,针对新闻媒体从业人员的业绩考核主要靠新闻阅评人员进行稿件文本质量评价。随着2010年后全球纸媒全面融媒体化,通过网站与移动客户端等新型电子媒体,可以获得相对真实有效的阅读统计与评论反馈,目前,对新闻媒体从业人员的职业状态的评价方法较少,多数还停留在新闻阅评人员进行对稿件文本质量评价的阶段,这样不仅评价效率较为低下,而且评价结果相对主观,因此研发一种具有***性、完整性、全面性和准确性的新闻媒体从业人员的评价方法和***是目前亟待解决的问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种新闻媒体的评价方法,能够实现对媒体机构多维度、完整和***性的评价。
本发明提供了一种新闻媒体的评价方法,包括以下步骤:
获取单位时间内于电子媒体上发布的多篇新闻报道以及与每篇所述新闻报道对应的若干互动参数;
构建多个新闻报道评价数学模型,其中每一个所述新闻报道评价数学模型对应一个评价指标,根据所述多个新闻报道评价数学模型从每篇所述新闻报道和对应的所述若干互动参数中获取每篇所述新闻报道对应的第一指标量表;
构建采编人员评价统计模型,通过所述采编人员评价统计模型对采编人员全部的所述新闻报道对应的第一指标量表进行指标量化和统计,得到采编人员对应的第二指标量表;
构建媒体机构评价统计模型,通过所述媒体机构评价统计模型对每个采编人员对应的第二指标量表进行指标量化和统计,得到媒体机构的第三指标量表,通过所述第三指标量表实现对所述媒体机构的评价。
根据本发明的实施例,至少具有如下技术效果:
相较于现有通过新闻阅评人员进行稿件文本的质量评价方案,本方法首先在单位时间内从电子媒体上获取新闻报道以及与新闻报道对应的若干互动参数作为对单篇新闻报道评价的基础数据,通过构建多个专业的新闻报道数学模型对选取出的全部单篇新闻报道的基础数据进行处理,得到多个指标量化指数,构成单篇新闻报道的指标量表;然后通过构建采编人员评价统计模型对采编人员的全部单篇新闻报道的指标量表进行统计学分析和量化处理,得到采编人员的指标量化指数,构成采编人员的指标量表;最后通过构建媒体机构评价统计模型对全部采编人员的指标量表进行统计学分析和量化处理,得到媒体机构的指标量化指数,构成媒体机构的指标量表,从而实现对媒体机构的评价。本方法实现对媒体机构多维度、完整和***性的评价,而且评价结果的准确度较于现有方法更优,更加客观。本方法可用于主流新闻媒体进行业绩考核,亦可广泛用于有传播需求及报道需求的单位与个人,能够针对媒体从业人员进行精准的筛查与甄选。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种新闻媒体的评价方法的流程示意图;
图2为本发明实施例提供的热门话题的示意图;
图3为本发明实施例提供的一种新闻媒体的评价设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照图1,本发明的一个实施例,提供了一种新闻媒体的评价方法,包括以下步骤:
S100、获取单位时间内于电子媒体上发布的多篇新闻报道以及与每篇新闻报道对应的若干互动参数。
S200、构建多个新闻报道评价数学模型,其中每一个新闻报道评价数学模型对应一个评价指标,根据多个新闻报道评价数学模型从每篇新闻报道和对应的若干互动参数中获取每篇新闻报道对应的第一指标量表。
S300、构建采编人员评价统计模型,通过采编人员评价统计模型对采编人员全部的新闻报道对应的第一指标量表进行指标量化和统计,得到采编人员对应的第二指标量表。
S400、构建媒体机构评价统计模型,通过媒体机构评价统计模型对每个采编人员对应的第二指标量表进行指标量化和统计,得到媒体机构的第三指标量表,通过第三指标量表实现对媒体机构的评价。
相较于现有通过新闻阅评人员进行稿件文本的质量评价方案,本方法首先在单位时间内从电子媒体上获取新闻报道以及与新闻报道对应的若干互动参数作为对单篇新闻报道评价的基础数据,其中电子媒体可以是各大网站(例如:微信公众号、微博、今日头条、企鹅号、百家号、网易号、搜狐号、大鱼号、大风号、新浪网等自媒体资讯平台及各类主流媒体官方网站)或移动客户端,互动参数包括但不仅限于电子媒体上的阅读数、点赞数、评论数以及互动率,通过构建多个专业的新闻报道数学模型对选取出的全部单篇新闻报道的基础数据进行处理,得到多个指标量化指数,构成单篇新闻报道的指标量表;然后通过构建采编人员评价统计模型对采编人员的全部单篇新闻报道的指标量表进行统计学分析和量化处理,得到采编人员的指标量化指数,构成采编人员的指标量表;最后通过构建媒体机构评价统计模型对全部采编人员的指标量表进行统计学分析和量化处理,得到媒体机构的指标量化指数,构成媒体机构的指标量表,从而实现对媒体机构的评价。本方法实现对媒体机构多维度(多个评价指标)、完整和***性的评价,而且评价结果的准确度较于现有方法更优,更加客观。本方法可用于主流新闻媒体进行业绩考核,亦可广泛用于有传播需求及报道需求的单位与个人,能够针对媒体从业人员进行精准的筛查与甄选。
作为一种可选的实施方式,第一指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标以及严肃或活泼倾向指标;第二指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标、严肃或活泼倾向指标、话题集中度指标以及线口专注度指标;第三指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标、严肃或活泼倾向指标、话题集中度指标、线口专注度指标、采编人员稳定性指标以及热点追踪度指标。如下表1 所示:
指标名 | 新闻报道 | 采编人员 | 媒体机构 | |
1 | 影响力 | 函数计算→ | 函数推导→ | 统计模型 |
2 | 深浅度 | 统计NLP→ | 统计模型→ | 统计模型 |
3 | 可读性 | NLP→ | 统计模型→ | 统计模型 |
4 | 故事性 | NLP→ | 统计模型→ | 统计模型 |
5 | 调查或价值倾向 | NLP→ | 统计模型→ | 统计模型 |
6 | 严肃或活泼倾向 | NLP→ | 统计模型→ | 统计模型 |
7 | 话题集中度 | 统计NLP→ | 统计模型 | |
8 | 线口专注度 | 统计NLP→ | 统计模型 | |
9 | 采编人员稳定性 | 统计模型 | ||
10 | 热点追踪度 | 统计模型 |
表1
NLP(Natural Language Processing,自然语言处理)。相较于现有仅通过新闻阅评人员对新闻报道的质量进行评价的技术方案,本实施例方法首先通过获取多个维度的量化指数对单位时间的所有单篇新闻报道进行评价,评价维度既包括表征单篇新闻报道水平与能力的指标维度(即影响力指标),也包括表征单篇新闻报道特征指标维度(即深浅度、可读性、故事性、调查或价值倾向和严肃或活泼倾向等指标),这样使得对单篇新闻报道的评价更加精准和客观,更有实际应用价值。本实施例方法通过专业的数学模型对全部的单篇新闻报道完成相应的评价之后,得到单篇新闻报道指标量表,然后将单篇新闻报道指标量表作为基础数据,归集到对应的采编人员名下进行统计学计算,并增加话题集中度指标和线口专注度指标,综合建模计算,得到采编人员的评价指标量表,增加的话题集中度指标和线口专注度指标,能够使得对采编人员的评价更加精准和客观。最后对采编人员的评价指标量表,经过专业的评价模型进行指标量化,得到媒体机构的评价量表,同时在模型生成媒体机构的评价量表的过程中,还增加采编人员稳定性和热点追踪度两个指标,用以增加评价的准确性。
其中,采编人员稳定性指标和热点追踪度指标包括:
采编人员稳定性指标:按照分时间区间内的人员保留数,参考人员总数及变化值,进行加权计算人员稳定性;
热点追踪度指标:热点追踪度为在一定的时间区间内,媒体针对热点新闻事件中出具报道的跟踪指数,进行统计计算,得到的指数。
以下分别对各个指标的量化过程进行说明:
基于上述实施例,构建特定的新闻报道评价数学模型对影响力指标的量化包括以下步骤:
S1011、对若干互动参数进行标准化处理,得到若干互动参数的标准值。
互动参数包括电子媒体上对于单篇新闻报道的阅读数、点赞数、评论数以及互动率。对各项互动参数进行标准化处理的目的在于去除各项互动参数的不一致性,使得各项互动参数能够进行相互比较和计算。
S1012、获取若干互动参数的信息熵,并根据若干互动参数的信息熵计算若干互动参数的权重。
S1013、根据若干互动参数的标准值和若干互动参数的权重,计算影响力指标的量化指数。
基于本实施例,还可在影响力指标的量化计算过程中加入周期性因素,需要注意的是,这里的周期性因素与上述实施例步骤S100中所述的单位时间不同。加入周期性因素优势在于,不仅可以反映出该单篇新闻报道在相应周期内的影响力情况,也可以用于其自身影响力情况的跨周期比较。
为了便于本领域技术人员理解上述步骤S1011至S1013,以下列出一组实例,需注意本实例中加入了周期性因素:
(1)将k项指标参数标准化;
假设选定了k项指标参数:X1,X2,...,Xk,其中Xi={X1,X2,...,Xk}。设 n=1,7,30,356,...,分别对应每日、每星期、每月、每年等周期。
假设k项指标参数的基数为:建立基数对比,基数如同指标的标尺,可直观展示的k项指标参数的相对位置,对k项指标参数标准化处理,得到的标准值为:Y1,Y2,...,Yk,其中Yi={Y1,Y2,...,Yk}。
那么:
设立标准化值上限为1000,得到:
Yi=(Yi>1000)?1000:Yi。
(2)求取k项指标参数的信息熵;
根据信息论中信息熵的定义,信息熵为:
其中,如果pi=0,则定义:/>
(3)求取k项指标参数的权重;
根据信息熵的计算公式,计算出各个指标的信息熵为:E1,E2,...,Ek,其中 Ei={E1,E2,…,Ek}。
通过信息熵计算各指标的权重:
(4)得到影响力维度的量化指数;
其中,NI表示影响力维度的量化指数。
基于上述实施例,构建特定的新闻报道评价数学模型对深浅度指标的量化包括以下步骤:
S1021、从新闻报道中计算逻辑复杂度指数和篇幅指数。
(1)新闻报道的逻辑复杂度指数;
采用NLP对新闻报道的文本进行分词、词性判断等处理,再加上下文分析,抽取出消息源主体,统计总主体量T、主体总频数P,分析并统计数据库所有新闻报道的平均消息源主体量AT,以其作为该新闻总主体量T的评判基数,对主体量的比值进行平方,以增大主体量大的新闻对指数的影响,同时降低主体量小的新闻带来的影响。设立最高主体总频数Pm。同时,分段统计文本中各主体的分布情况,用主体分布指数D来表征新闻报道的主体分布情况,如设每500字为一段,该新闻共被分为n段,每段主体量为Tn:
其中L表示新闻报道的逻辑复杂度指数。
(2)篇幅指数;
新闻报道的字数W是评判新闻报道深浅度指标的核心要素之一。数据库新闻报道数据经消除异常值等处理后,从高到低按字数排序,取金字塔顶般的前1000 篇新闻报道的平均字数作为最高新闻字数常数Wm:
其中S表示篇幅指数。
(3)深浅度指标的量化指数;
通过上述影响力指标的量化提到的熵权法,求得逻辑复杂度指数权重Wl和篇幅指数权重Ws,最后通过下式求取深浅度指标的量化指数H:
H=L*Wl+S*Ws
基于上述实施例,构建特定的新闻报道评价数学模型对可读性指标的量化包括以下步骤:
S1031、对新闻报道进行专业术语词库撞库,并使用自然语言处理方法进行长短句划分。
S1032、基于撞库和长短句划分后的结果,计算可读性指标的量化指数。
例如,新闻报道文中提及专业术语较多,超出设定的阈值(可自由设定),其可读性指标数为低值,否则文章为通俗易懂型。长短句划分是指判断文章段落和句子结构长短,例如段长、长句多则代表可读性差,其可读性指标数为低值。
作为一种可选的实施方式,构建特定的新闻报道评价数学模型对故事性指标的量化包括以下步骤:
S1041、通过自然语言处理方法和统计方法,从新闻报道中获取时空转换次数、人物出现频率、矛盾冲突频率、曲折频率以及动词的分布频率。
其中,参与故事性指标的变量包括:
时空转换次数:时间与地点在新闻报道文中出现的次数及其文本距离的分布值,次数、分布均匀度;时空转换次数与故事性指标呈正相关;
人物(主角)出现频率:不同的人物名出现数量,每人出现的次数,以及出现的分布变换数,按照不同的权重形成正相关,可采用函数计算法进行参数加权计算;
矛盾冲突频率:在新闻报道文中,以转折连词的出现频率、否定词出现频率进行加权计算,代表冲突程度不同的连词权重分别赋值,如然而,但是,不过,却,等等,代表否定的词权重,如禁止,不许,不准,不予,不让,不要,否则,等等。加权计算亦可采用复合函数。
曲折频率:以时空与主角的不同组合数量来衡量曲折感,当一个时空表述出现,距离最近的人物出现的情况,其组合的不同数量,构成人物的时空曲折组合,曲折频率与故事性指标呈正相关;
动词的分布频率:在新闻报道文中动词出现的次数与动词的差异性分布,两个数值与故事性指标呈正相关。
S1042、基于获取的时空转换次数、人物出现频率、矛盾冲突频率、曲折频率以及动词的分布频率,计算故事性指标的量化指数。
可通过加权运算得到故事性指标的量化指数。
基于上述实施例,构建特定的新闻报道评价数学模型对调查或价值倾向指标的量化包括以下步骤:
S1051、将新闻报道划分为调查类文章和价值类文章。
S1052、根据词频统计法分别获取调查类文章和价值类文章对应的调查类词库和价值类词库。
S1053、基于调查类词库和价值类词库,通过自然语言处理方法对调查类文章和价值类文章进行调查度评分和价值度评分。
S1054、根据调查度评分和价值度评分,计算调查或价值倾向指标的量化指数。
以下列出一组实例:
分别挑选出500篇调查类文章和价值类文章,其中两类文章是通过进行人工评分得来。通过分词,词性过滤及相关处理,建立调查类和价值类词库。
以下仅以价值类词库为例,下表2示出了一个价值类词库:
词名 | 词性 | 权重汇总 | 加权平均分 |
收益 | n | [{次数:2,权重:9},...] | 8.5 |
利润 | n | [{次数:1,权重:8},...] | 7.9 |
… | … | … | … |
表2
基于价值类词库,确定一个最高分阈值,以该值作为评判标准,若高于该值则满分,价值指数100%,反之,逐渐递减:
例如:
形式说明:词名:次数:权重
价值词库:收益:1:8.5;利润:1:7.9
设最高分阈值为20,则:
最后由价值指数和调查指数(本实施例未示出调查指数)汇总,得到调查或价值倾向指标的量化指数。
基于上述实施例,构建特定的新闻报道评价数学模型对严肃或活泼倾向指标的量化包括以下步骤:
S1061、将新闻报道划分为严肃类文章和活泼类文章。
S1062、根据词频统计法分别获取全部严肃类文章和全部活泼类文章对应的严肃类词库和活泼类词库。
S1063、基于严肃类词库和活泼类词库,通过自然语言处理方法对严肃类文章和活泼类文章对应的严肃度评分和活泼度评分。
S1064、根据严肃度评分和活泼度评分,计算严肃或活泼倾向指标的量化指数。
以下列出一组实例:
与上述类似调查或价值倾向指标的量化过程相类似,分别挑选严肃类(即时政类)与活泼类(即娱乐类)文章各500篇,通过分词,词性过滤及相关处理,建立严肃类和活泼类词库。
以下仅以严肃类词库为例,下表3示出了一个严肃类词库:
词名 | 词性 | 权重汇总 | 加权平均分 |
政治 | n | [{次数:2,权重:9},...] | 8.5 |
... | ... | ... | ... |
... | ... | ... | ... |
表3
基于严肃类和活泼类词库,分别对单篇新闻报道进行严肃度评分和活泼度评分,再根据两极打分计算出严肃或活泼倾向维度的量化指数。其中严肃或活泼倾向维度的量化指数是基于严肃度评分和活泼度评分的,这里是根据这两个得分来构建两极模型,以严肃类为左极点=0,活泼类为右极点=1,指数越靠近0,则越倾向于严肃类,反之,则越倾向于活泼类。
例如:
形式说明:词名:次数:权重
新闻报道的评分情况为:
严肃度评分=1*9+1*7=16
活泼度评分=1*8=8
指数靠近0,该新闻报道属于严肃类文章。
最后汇总得出该篇新闻报道的严肃或活泼倾向指标的量化指数。
基于上述实施例,如上表1,采编人员评价统计模型对话题集中度指标和线口专注度指标的量化包括以下步骤:
S2071、对话题集中度指标的量化。
从该采编人员的新闻报道中获取多个话题进行聚类并统计每一个话题的次数;
选取出次数排名靠前的多个话题,并将选取出的次数排名靠前的多个话题于全部话题中的占比作为话题集中度指标的量化指数。
S2072、对线口专注度指标的量化。
从该采编人员的新闻报道中获取各个线口对应的占比;
根据最大的线口占比以及各个线口的占比的方差,计算线口专注度指标的量化指数。
S2073、将获取的话题集中度和线口专注度进行加权运算,并结合上述求取的各项指标量化指数进行加权运算,得到针对于采编人员的指标量表。
以下列出一组实例:
(1)参照图2,提取某个采编人员前20至30个热门话题进行聚类并合并统计话题次数。其中本实例使用的聚类的方法是词距离聚类。这里也可以使用 k-means聚类方法进行优化。
(2)抽取前三类话题计算话题集中度:
例如:
采编人员的话题集中度的量化指数=(283+42+30)/566=62.72%,其中283、 42和30分别是前三类话题的次数;566是新闻报道的话题总数。
(3)统计该采编人员在各个线口上的新闻报道数量,以及新闻报道总数量,其中:
得到该采编人员在各线口下的新闻报道占比。
(4)以最大的线口占比作为主要指标,加上方差(表明数据稳定性)来综合判断线口专注度:
例如下表4给出了采编人员A至F的线口专注度量化指数的数据:
时政占比 | 军事占比 | 娱乐占比 | 农业占比 | 线口专注度 | |
采编人员A | 25% | 25% | 25% | 25% | 25.00% |
采编人员B | 50% | 20% | 20% | 10% | 50.23% |
采编人员C | 70% | 10% | 10% | 10% | 70.67% |
采编人员D | 70% | 20% | 10% | \ | 70.69% |
采编人员E | 90% | 10% | \ | \ | 91.60% |
采编人员F | 100% | \ | \ | \ | 100.00% |
表4
(5)对计算的话题集中度指标的量化指数、线口专注度指标的量化指数和上述求取的各项指标量化指数进行加权运算,得到针对于采编人员的指标量表。
基于上述全部实施例,上述的各个模型(包括多个新闻报道评价数学模型、采编人员评价统计模型以及媒体机构评价统计模型)均通过深度学习的方法实现函数的调参。还可以同时引入人工专家进行后验调参,目的是为了对函数的不断修正,用以提高模型的拟合度,从而使模型具备不断改进的功能,从而实现根据实际情况的自适应调整,保证评价的准确性。
参照图3,本发明的一个实施例,提供了一种新闻媒体的评价设备,该设备可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。具体地,该新闻媒体的评价设备包括:一个或多个控制处理器和存储器,这里以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接,这里以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的新闻媒体的评价设备对应的程序指令/模块。控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而实现上述实施例所述的新闻媒体的评价方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该新闻媒体的评价设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个控制处理器执行时,执行上述实施例所述的新闻媒体的评价方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行上述实施例所述的新闻媒体的评价方法。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种新闻媒体的评价方法,其特征在于,包括以下步骤:
获取单位时间内于电子媒体上发布的多篇新闻报道以及与每篇所述新闻报道对应的若干互动参数;
构建多个新闻报道评价数学模型,其中每一个所述新闻报道评价数学模型对应一个评价指标,根据所述多个新闻报道评价数学模型从每篇所述新闻报道和对应的所述若干互动参数中获取每篇所述新闻报道对应的第一指标量表;
构建采编人员评价统计模型,通过所述采编人员评价统计模型对采编人员全部的所述新闻报道对应的第一指标量表进行指标量化和统计,得到采编人员对应的第二指标量表;
构建媒体机构评价统计模型,通过所述媒体机构评价统计模型对每个采编人员对应的第二指标量表进行指标量化和统计,得到媒体机构的第三指标量表,通过所述第三指标量表实现对所述媒体机构的评价;
所述多个新闻报道评价数学模型、所述采编人员评价统计模型以及所述媒体机构评价统计模型均通过深度学习的方法实现函数的调参或同时引入人工专家进行后验调参;
所述第一指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标以及严肃或活泼倾向指标;所述第二指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标、严肃或活泼倾向指标、话题集中度指标以及线口专注度指标;所述第三指标量表中的评价指标包括影响力指标、深浅度指标、可读性指标、故事性指标、调查或价值倾向指标、严肃或活泼倾向指标、话题集中度指标、线口专注度指标、采编人员稳定性指标以及热点追踪度指标;
其中,对所述影响力指标的量化包括以下步骤:
对相应周期内若干互动参数进行标准化处理,得到所述若干互动参数的标准值;
获取所述若干互动参数的信息熵,并根据所述若干互动参数的信息熵计算所述若干互动参数的权重;
根据所述若干互动参数的标准值和所述若干互动参数的权重,计算影响力指标的量化指数。
2.根据权利要求1所述的新闻媒体的评价方法,其特征在于,对所述深浅度指标的量化包括以下步骤:
从新闻报道中计算逻辑复杂度指数和篇幅指数;
根据计算的所述逻辑复杂度指数和所述篇幅指数,计算深浅度指标的量化指数。
3.根据权利要求1所述的新闻媒体的评价方法,其特征在于,对所述可读性指标的量化包括以下步骤:
对新闻报道进行专业术语词库撞库,并使用自然语言处理方法进行长短句划分;
基于撞库和长短句划分后的结果,计算可读性指标的量化指数。
4.根据权利要求1所述的新闻媒体的评价方法,其特征在于,对所述故事性指标的量化包括以下步骤:
通过自然语言处理方法和统计方法,从新闻报道中获取时空转换次数、人物出现频率、矛盾冲突频率、曲折频率以及动词的分布频率;
基于获取的所述时空转换次数、所述人物出现频率、所述矛盾冲突频率、所述曲折频率以及所述动词的分布频率,计算故事性指标的量化指数。
5.根据权利要求1所述的新闻媒体的评价方法,其特征在于,对所述调查或价值倾向指标的量化包括以下步骤:
将新闻报道划分为调查类文章和价值类文章;
根据词频统计法分别获取所述调查类文章和所述价值类文章对应的调查类词库和价值类词库;
基于所述调查类词库和所述价值类词库,通过自然语言处理方法对所述调查类文章和所述价值类文章进行调查度评分和价值度评分;
根据所述调查度评分和所述价值度评分,计算调查或价值倾向指标的量化指数。
6.根据权利要求1所述的新闻媒体的评价方法,其特征在于,对所述严肃或活泼倾向指标的量化包括以下步骤:
将新闻报道划分为严肃类文章和活泼类文章;
根据词频统计法分别获取全部所述严肃类文章和全部所述活泼类文章对应的严肃类词库和活泼类词库;
基于所述严肃类词库和所述活泼类词库,通过自然语言处理方法对所述严肃类文章和所述活泼类文章对应的严肃度评分和活泼度评分;
根据所述严肃度评分和所述活泼度评分,计算严肃或活泼倾向指标的量化指数。
7.根据权利要求1所述的新闻媒体的评价方法,其特征在于,所述采编人员评价统计模型对所述话题集中度指标和线口专注度指标的量化包括以下步骤:
对话题集中度指标的量化:
从新闻报道中获取多个话题进行聚类并统计每一个话题的次数;选取出次数排名靠前的多个话题,并将选取出的次数排名靠前的多个话题于全部话题中的占比作为话题集中度指标的量化指数;
对线口专注度指标的量化:
从获取的新闻报道中获取各个线口对应的占比;
根据最大的线口占比以及各个线口的占比的方差,计算线口专注度指标的量化指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076250.3A CN113420946B (zh) | 2021-01-20 | 2021-01-20 | 一种新闻媒体的评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110076250.3A CN113420946B (zh) | 2021-01-20 | 2021-01-20 | 一种新闻媒体的评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420946A CN113420946A (zh) | 2021-09-21 |
CN113420946B true CN113420946B (zh) | 2024-02-09 |
Family
ID=77711649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110076250.3A Active CN113420946B (zh) | 2021-01-20 | 2021-01-20 | 一种新闻媒体的评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420946B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036221A (zh) * | 2021-09-24 | 2022-02-11 | 国务院国有资产监督管理委员会研究中心 | 一种专题事件分析方法 |
CN115658887B (zh) * | 2022-09-28 | 2024-04-26 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346425A (zh) * | 2014-07-28 | 2015-02-11 | 中国科学院计算技术研究所 | 一种层次化的互联网舆情指标体系的方法及*** |
CN106294334A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博舆情指标体系的计算方法及装置 |
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN109800349A (zh) * | 2018-12-17 | 2019-05-24 | 北京邮电大学 | 基于用户发布内容量化新闻价值的数据处理方法和装置 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及*** |
CN111552882A (zh) * | 2020-05-09 | 2020-08-18 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
-
2021
- 2021-01-20 CN CN202110076250.3A patent/CN113420946B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346425A (zh) * | 2014-07-28 | 2015-02-11 | 中国科学院计算技术研究所 | 一种层次化的互联网舆情指标体系的方法及*** |
CN106294334A (zh) * | 2015-05-11 | 2017-01-04 | 国家计算机网络与信息安全管理中心 | 一种微博舆情指标体系的计算方法及装置 |
WO2020000847A1 (zh) * | 2018-06-25 | 2020-01-02 | 中译语通科技股份有限公司 | 一种基于新闻大数据的恐慌指数监测分析方法及*** |
CN109359857A (zh) * | 2018-10-12 | 2019-02-19 | 网智天元科技集团股份有限公司 | 一种媒体影响力评估方法、装置及电子设备 |
CN109800349A (zh) * | 2018-12-17 | 2019-05-24 | 北京邮电大学 | 基于用户发布内容量化新闻价值的数据处理方法和装置 |
CN111552882A (zh) * | 2020-05-09 | 2020-08-18 | 重庆邮电大学 | 一种新闻影响力计算方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于AHP 法的个人博客影响力评价方法研究;朱丽等;《数学的实践与认识》;20080831;第38卷(第15期);第109-117页 * |
新媒体环境下新闻传播效果评估的指标和权重;刘建明等;《新闻与传播评论》;20180930;第71卷(第4期);第41-57页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113420946A (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878004B2 (en) | Keyword extraction method, apparatus and server | |
Gilbert et al. | Widespread worry and the stock market | |
WO2017067153A1 (zh) | 基于文本分析的信用风险评估方法及装置、存储介质 | |
CN106933806A (zh) | 医疗同义词的确定方法和装置 | |
CN108133418A (zh) | 实时信用风险管理*** | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
WO2018184518A1 (zh) | 微博数据处理方法、装置、计算机设备及存储介质 | |
CN113420946B (zh) | 一种新闻媒体的评价方法 | |
CN109979568B (zh) | 心理健康预警方法、服务器、家属终端与*** | |
CN108363699A (zh) | 一种基于百度贴吧的网民学业情绪分析方法 | |
CN112244772A (zh) | 一种基于深度学习的睡眠阶段预测方法、存储介质及终端设备 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN117421491A (zh) | 社交媒体账号运行数据的量化方法、装置及电子设备 | |
CN109979592A (zh) | 心理健康预警方法、用户终端、服务器与*** | |
Hantke et al. | Trustability-based dynamic active learning for crowdsourced labelling of emotional audio data | |
Sun | Intelligent data mining based on market circulation of production factors | |
CN116307792B (zh) | 一种面向城市体检主题场景的评估方法及装置 | |
CN116756373A (zh) | 基于知识图谱更新的项目评审专家筛选方法、***及介质 | |
CN115738285A (zh) | 一种游戏质量评价反馈方法及*** | |
Zhu et al. | Research on data mining of college students’ physical health for physical education reform | |
Anbu et al. | Machine learning approach for predicting womens health risk | |
CN114077977A (zh) | 基于大数据的楼宇智慧管理方法、***及可读存储介质 | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及*** | |
CN113760918A (zh) | 一种确定数据血缘关系的方法、装置、计算机设备和介质 | |
CN105975792A (zh) | 一种基于大数据的皮纹分析处理装置、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |