RU2012123216A - Способ и устройство определения и оценки значимости слов - Google Patents

Способ и устройство определения и оценки значимости слов Download PDF

Info

Publication number
RU2012123216A
RU2012123216A RU2012123216/08A RU2012123216A RU2012123216A RU 2012123216 A RU2012123216 A RU 2012123216A RU 2012123216/08 A RU2012123216/08 A RU 2012123216/08A RU 2012123216 A RU2012123216 A RU 2012123216A RU 2012123216 A RU2012123216 A RU 2012123216A
Authority
RU
Russia
Prior art keywords
word
importance
words
module
classified data
Prior art date
Application number
RU2012123216/08A
Other languages
English (en)
Other versions
RU2517368C2 (ru
Inventor
Хуайцзюнь ЛЮ
Чжунбо ЦЗЯН
Гаолинь ФАН
Original Assignee
Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед filed Critical Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед
Publication of RU2012123216A publication Critical patent/RU2012123216A/ru
Application granted granted Critical
Publication of RU2517368C2 publication Critical patent/RU2517368C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ определения и оценки значимости слов, включающий в себя следующие этапы:вычисляют Документную Частоту ДЧ (DF) слова в классифицированных данных большого объема;выполняют совокупность одноаспектных оценок слова согласно ДЧ (DF) слова;выполняют многоаспектную оценку слова по результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.2. Способ по п.1, при котором на этапе вычисления ДЧ (DF) слова в классифицированных данных большого объема выполняют следующие действия:рассчитывают вектор ДЧ (DF) слова в каждой категории классифицированных данных большого объема;применяют сумму векторов ДЧ (DF) слова во всех категориях в качестве ДЧ (DF) слова во всех категориях.3. Способ по п.1, при котором одноаспектная оценка предусматривает определение одного или нескольких из следующих показателей: Инверсной Документной Частоты ИДЧ (IDF), Средней Инверсной Документной Частоты СИДЧ (AVAIDF), хи-квадрата, Прироста Информации ПИ (IG), Взаимной Информации ВИ (MI), Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), Энтропии ЭНТ (ENT) и Выборочного Предпочтения ВП (SELPRE).4. Способ по п.3, при котором при одноаспектной оценке слова используют показатель ПИ (IG) и выполняют следующие действия:распределяют все слова-кандидаты по диапазонам в соответствии со значениями ДЧ (DF) указанных слов;вычисляют значение ПИ (IG) слова на основе классифицированных данных, соответствующих диапазону слова.5. Способ по п.1, при котором на этапе многоаспектной оценки слова согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова выполняют следующие действия:распределяют слова-кандидат

Claims (16)

1. Способ определения и оценки значимости слов, включающий в себя следующие этапы:
вычисляют Документную Частоту ДЧ (DF) слова в классифицированных данных большого объема;
выполняют совокупность одноаспектных оценок слова согласно ДЧ (DF) слова;
выполняют многоаспектную оценку слова по результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.
2. Способ по п.1, при котором на этапе вычисления ДЧ (DF) слова в классифицированных данных большого объема выполняют следующие действия:
рассчитывают вектор ДЧ (DF) слова в каждой категории классифицированных данных большого объема;
применяют сумму векторов ДЧ (DF) слова во всех категориях в качестве ДЧ (DF) слова во всех категориях.
3. Способ по п.1, при котором одноаспектная оценка предусматривает определение одного или нескольких из следующих показателей: Инверсной Документной Частоты ИДЧ (IDF), Средней Инверсной Документной Частоты СИДЧ (AVAIDF), хи-квадрата, Прироста Информации ПИ (IG), Взаимной Информации ВИ (MI), Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), Энтропии ЭНТ (ENT) и Выборочного Предпочтения ВП (SELPRE).
4. Способ по п.3, при котором при одноаспектной оценке слова используют показатель ПИ (IG) и выполняют следующие действия:
распределяют все слова-кандидаты по диапазонам в соответствии со значениями ДЧ (DF) указанных слов;
вычисляют значение ПИ (IG) слова на основе классифицированных данных, соответствующих диапазону слова.
5. Способ по п.1, при котором на этапе многоаспектной оценки слова согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова выполняют следующие действия:
распределяют слова-кандидаты по уровням согласно значениям ДЧ (DF) указанных слов;
выполняют многоаспектную оценку слова в соответствии с его уровнем для получения весового коэффициента важности слова на этом уровне.
6. Способ по п.5, при котором при распределении слов-кандидатов по уровням согласно значениям ДЧ (DF) выполняют следующие действия:
определяют уровни согласно ДЧ (DF) каждого слова во всех классифицированных данных;
распределяют каждое слова на соответствующий уровень согласно ДЧ (DF) слова во всех классифицированных данных.
7. Способ по любому из пп.1-6, который также содержит следующие этапы: перед вычислением ДЧ (DF) слова в классифицированных данных большого объема предварительно выполняют обработку указанного слова и (или) после получения весового коэффициента важности слова определяют значимость слова согласно его весовому коэффициенту важности.
8. Способ по п.7, при котором при определении значимости слова по его весовому коэффициенту важности выполняют следующие действия:
задают пороговое значение важности и пороговое значение постоянного использования для каждого уровня, причем уровни определяют согласно значениям ДЧ (DF) слов во всех классифицированных данных; определяют значимость слова на соответствующем уровне согласно отношению между двумя пороговыми значениями и весовым коэффициентом важности слова на этом уровне; выполняют нормализацию весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова; на основе комплексного весового коэффициента важности слова выполняют комплексную классификацию значимости для слов одинаковой значимости на разных уровнях;
или
выполняют нормализацию весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова, причем уровень определяют согласно значениям ДЧ (DF) слов во всех классифицированных данных; задают пороговое значение важности и пороговое значение постоянного использования; выполняют комплексную классификацию значимости слова согласно отношению между двумя пороговыми значениями и комплексным весовым коэффициентом важности.
9. Устройство определения и оценки значимости слов, содержащее:
блок вычисления ДЧ (DF), выполненный с возможностью вычисления ДЧ (DF) слова в классифицированных данных большого объема;
блок одноаспектной оценки, выполненный с возможностью оценки слова по совокупности отдельных аспектов согласно ДЧ (DF) этого слова;
блок многоаспектной оценки, выполненный с возможностью оценки слова по совокупности аспектов согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.
10. Устройство по п.9, в котором блок вычисления ДЧ (DF) содержит:
модуль вычисления вектора ДЧ (DF), выполненный с возможностью вычисления вектора ДЧ (DF) слова в каждой категории классифицированных данных;
модуль вычисления ДЧ (DF), который принимает сумму векторов ДЧ (DF) слова в качестве ДЧ (DF) слова во всех категориях.
11. Устройство по п.9, в котором блок одноаспектной оценки содержит: модуль Инверсной Документной Частоты ИДЧ (IDF), модуль Средней Инверсной Документной Частоты СИДЧ (AVAIDF), модуль "хи-квадрат", модуль Прироста Информации ПИ (IG), модуль Взаимной Информации ВИ (MI), модуль Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), модуль Энтропии ЭНТ (ENT) и модуль Выборочного Предпочтения ВП (SELPRE).
12. Устройство по п.11, в котором модуль ПИ (IG) содержит:
модуль деления на диапазоны, выполненный с возможностью задания диапазонов согласно ДЧ (DF) всех слов-кандидатов; и
модуль вычисления ПИ (IG), выполненный с возможностью вычисления ПИ (IG) слова согласно классифицированным данным, соответствующим диапазону слова.
13. Устройство по п.9, в котором блок многоаспектной оценки содержит:
модуль деления на уровни, выполненный с возможностью задания уровней согласно ДЧ (DF) слов-кандидатов;
модуль многоаспектной оценки, выполненный с возможностью оценки слова по совокупности аспектов в соответствии с уровнем слова для получения весового коэффициента важности слова на указанном уровне.
14. Устройство по п.13, в котором модуль деления на уровни содержит:
модуль деления на ряд уровней, выполненный с возможностью задания уровней согласно ДЧ (DF) слов во всех классифицированных данных;
модуль классификации слов, выполненный с возможностью распределения слова на соответствующий уровень согласно ДЧ (DF) слова во всех классифицированных данных.
15. Устройство по любому из пп.9-14, дополнительно содержащее:
блок предварительной обработки, предназначенный для предварительной обработки слова в классифицированных данных большого объема и (или) блок определения значимости, определяющий значимость слова согласно весовому коэффициенту важности слова.
16. Устройство по п.15, в котором блок определения значимости содержит:
модуль задания пороговых значений, предназначенный для задания порогового значения важности и порогового значения постоянного использования для каждого уровня, причем уровень определяется согласно значениям ДЧ (DF) слов во всех классифицированных данных;
модуль определения значимости на конкретном уровне, предназначенный для определения значимости слова на конкретном уровне согласно отношению между двумя пороговыми значениями и весовым коэффициентом важности слова на соответствующем уровне;
модуль нормализации, предназначенный для нормализации весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова;
модуль комплексной классификации, предназначенный для выполнения комплексной классификации значимости для слов одинаковой значимости на разных уровнях на основе комплексного весового коэффициента важности слова;
или
блок определения значимости содержит:
модуль нормализации, предназначенный для нормализации весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова, причем деление на уровни осуществляется согласно ДЧ (DF) слов во всех классифицированных данных;
модуль задания пороговых значений, предназначенный для задания порогового значения важности и порогового значения постоянного использования;
модуль комплексной классификации, предназначенный для выполнения комплексной классификации значимости для всех слов на основе отношения между двумя пороговыми значениями и комплексным весовым коэффициентом важности слова.
RU2012123216/08A 2009-11-10 2010-06-28 Способ и устройство определения и оценки значимости слов RU2517368C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910237185.7A CN102054006B (zh) 2009-11-10 2009-11-10 一种从海量数据中提取有效信息的方法及装置
CN200910237185.7 2009-11-10
PCT/CN2010/074597 WO2011057497A1 (zh) 2009-11-10 2010-06-28 一种词汇质量挖掘评价方法及装置

Publications (2)

Publication Number Publication Date
RU2012123216A true RU2012123216A (ru) 2013-12-20
RU2517368C2 RU2517368C2 (ru) 2014-05-27

Family

ID=43958340

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012123216/08A RU2517368C2 (ru) 2009-11-10 2010-06-28 Способ и устройство определения и оценки значимости слов

Country Status (5)

Country Link
US (1) US8645418B2 (ru)
CN (1) CN102054006B (ru)
BR (1) BR112012011091B1 (ru)
RU (1) RU2517368C2 (ru)
WO (1) WO2011057497A1 (ru)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186612B (zh) * 2011-12-30 2016-04-27 ***通信集团公司 一种词汇分类的方法、***和实现方法
CN103885976B (zh) * 2012-12-21 2017-08-04 腾讯科技(深圳)有限公司 在网页中配置推荐信息的方法及索引服务器
CN103309984B (zh) * 2013-06-17 2016-12-28 腾讯科技(深圳)有限公司 数据处理的方法和装置
US9959364B2 (en) * 2014-05-22 2018-05-01 Oath Inc. Content recommendations
CN105183784B (zh) * 2015-08-14 2020-04-28 天津大学 一种基于内容的垃圾网页检测方法及其检测装置
CN105975518B (zh) * 2016-04-28 2019-01-29 吴国华 基于信息熵的期望交叉熵特征选择文本分类***及方法
US11347777B2 (en) * 2016-05-12 2022-05-31 International Business Machines Corporation Identifying key words within a plurality of documents
CN107463548B (zh) * 2016-06-02 2021-04-27 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN108073568B (zh) 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN107066441A (zh) * 2016-12-09 2017-08-18 北京锐安科技有限公司 一种计算词性相关性的方法及装置
CN107169523B (zh) * 2017-05-27 2020-07-21 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN107562938B (zh) * 2017-09-21 2020-09-08 重庆工商大学 一种法院智能审判方法
CN108269125B (zh) * 2018-01-15 2020-08-21 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
CN108664470B (zh) * 2018-05-04 2022-06-17 武汉斗鱼网络科技有限公司 视频标题信息量的度量方法、可读存储介质及电子设备
CN109062912B (zh) * 2018-08-08 2023-07-28 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN109255028B (zh) * 2018-08-28 2021-08-13 西安交通大学 基于教学评价数据可信度的教学质量综合评价方法
CN109062905B (zh) * 2018-09-04 2022-06-24 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质
CN110377709B (zh) * 2019-06-03 2021-10-08 广东幽澜机器人科技有限公司 一种减少机器人客服运维复杂度的方法及装置
CN111079426B (zh) * 2019-12-20 2021-06-15 中南大学 一种获取领域文档词项分级权重的方法及装置
CN111090997B (zh) * 2019-12-20 2021-07-20 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN112561500B (zh) * 2021-02-25 2021-05-25 深圳平安智汇企业信息管理有限公司 基于用户数据的薪酬数据生成方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473753B1 (en) * 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
JP4233836B2 (ja) 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
CN1438592A (zh) * 2003-03-21 2003-08-27 清华大学 一种文本自动分类方法
RU2254610C2 (ru) * 2003-09-04 2005-06-20 Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА" Способ автоматической классификации документов
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
US8577884B2 (en) * 2008-05-13 2013-11-05 The Boeing Company Automated analysis and summarization of comments in survey response data
CN100583101C (zh) * 2008-06-12 2010-01-20 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Also Published As

Publication number Publication date
US8645418B2 (en) 2014-02-04
CN102054006A (zh) 2011-05-11
WO2011057497A1 (zh) 2011-05-19
US20120221602A1 (en) 2012-08-30
BR112012011091B1 (pt) 2020-10-13
CN102054006B (zh) 2015-01-14
BR112012011091A2 (pt) 2016-07-05
RU2517368C2 (ru) 2014-05-27

Similar Documents

Publication Publication Date Title
RU2012123216A (ru) Способ и устройство определения и оценки значимости слов
CN108777873B (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
Mäntysaari et al. Interbull validation test for genomic evaluations
CN110477920B (zh) 基于跑步机坡度和速度的次极量心肺耐力测试方法和装置
Almetwally et al. Estimation methods for the new weibull-pareto distribution: simulation and application
US6577996B1 (en) Method and apparatus for objective sound quality measurement using statistical and temporal distribution parameters
Syrjala Critique on the use of the delta distribution for the analysis of trawl survey data
CN114325454A (zh) 一种多特征对电池健康度影响的确定方法、装置、设备及介质
CN109406898A (zh) 一种融合多特征量综合评估油纸绝缘老化程度的方法
CN116224112A (zh) 一种基于XGBoost模型的电池阻抗谱频率重要性分析方法
Zamanzade et al. Some modified mean estimators in ranked set sampling using a covariate
CN104794112A (zh) 时间序列处理方法及装置
CN108229797B (zh) 一种组合倾向得分匹配模型与贝叶斯模型的道路安全评估方法
CN106372454A (zh) 一种评定鸭肉质评定的评估方法
CN102300240A (zh) 一种基于输出性能参数评估两个***相似度的方法
CN107644285A (zh) 售电市场盈利能力评估指标的筛选与权重确定方法及***
CN110491508B (zh) 基于运动风险与年龄的运动心肺耐力测试***和跑步机
CN115778317A (zh) 皮肤测评方法、皮肤测评设备以及存储介质
CN113283300B (zh) 一种抽水蓄能机组轴系劣化评估方法及装置
CN101650941A (zh) 基于音频频谱特征分析的演唱音色明亮度客观评测方法
CN108805458A (zh) 一种企业技术竞争力评估方法及装置
CN111160712B (zh) 一种用户的用电参数调节方法及装置
Dias et al. A new linear regression model for histogram-valued variables
CN104461878A (zh) 一种基于自定义模型的软件质量评价方法
CN114546841A (zh) 基于云计算的软件质量评估方法