RU2012123216A

RU2012123216A - Способ и устройство определения и оценки значимости слов

Info

Publication number: RU2012123216A
Application number: RU2012123216/08A
Authority: RU
Inventors: Хуайцзюнь ЛЮ; Чжунбо ЦЗЯН; Гаолинь ФАН
Original assignee: Тенсент Текнолоджи (Шэньчжэнь) Компани Лимитед
Priority date: 2009-11-10
Filing date: 2010-06-28
Publication date: 2013-12-20
Also published as: US8645418B2; CN102054006A; WO2011057497A1; US20120221602A1; BR112012011091B1; CN102054006B; BR112012011091A2; RU2517368C2

Abstract

1. Способ определения и оценки значимости слов, включающий в себя следующие этапы:вычисляют Документную Частоту ДЧ (DF) слова в классифицированных данных большого объема;выполняют совокупность одноаспектных оценок слова согласно ДЧ (DF) слова;выполняют многоаспектную оценку слова по результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.2. Способ по п.1, при котором на этапе вычисления ДЧ (DF) слова в классифицированных данных большого объема выполняют следующие действия:рассчитывают вектор ДЧ (DF) слова в каждой категории классифицированных данных большого объема;применяют сумму векторов ДЧ (DF) слова во всех категориях в качестве ДЧ (DF) слова во всех категориях.3. Способ по п.1, при котором одноаспектная оценка предусматривает определение одного или нескольких из следующих показателей: Инверсной Документной Частоты ИДЧ (IDF), Средней Инверсной Документной Частоты СИДЧ (AVAIDF), хи-квадрата, Прироста Информации ПИ (IG), Взаимной Информации ВИ (MI), Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), Энтропии ЭНТ (ENT) и Выборочного Предпочтения ВП (SELPRE).4. Способ по п.3, при котором при одноаспектной оценке слова используют показатель ПИ (IG) и выполняют следующие действия:распределяют все слова-кандидаты по диапазонам в соответствии со значениями ДЧ (DF) указанных слов;вычисляют значение ПИ (IG) слова на основе классифицированных данных, соответствующих диапазону слова.5. Способ по п.1, при котором на этапе многоаспектной оценки слова согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова выполняют следующие действия:распределяют слова-кандидат

Claims

1. Способ определения и оценки значимости слов, включающий в себя следующие этапы:

вычисляют Документную Частоту ДЧ (DF) слова в классифицированных данных большого объема;

выполняют совокупность одноаспектных оценок слова согласно ДЧ (DF) слова;

выполняют многоаспектную оценку слова по результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.

2. Способ по п.1, при котором на этапе вычисления ДЧ (DF) слова в классифицированных данных большого объема выполняют следующие действия:

рассчитывают вектор ДЧ (DF) слова в каждой категории классифицированных данных большого объема;

применяют сумму векторов ДЧ (DF) слова во всех категориях в качестве ДЧ (DF) слова во всех категориях.

3. Способ по п.1, при котором одноаспектная оценка предусматривает определение одного или нескольких из следующих показателей: Инверсной Документной Частоты ИДЧ (IDF), Средней Инверсной Документной Частоты СИДЧ (AVAIDF), хи-квадрата, Прироста Информации ПИ (IG), Взаимной Информации ВИ (MI), Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), Энтропии ЭНТ (ENT) и Выборочного Предпочтения ВП (SELPRE).

4. Способ по п.3, при котором при одноаспектной оценке слова используют показатель ПИ (IG) и выполняют следующие действия:

распределяют все слова-кандидаты по диапазонам в соответствии со значениями ДЧ (DF) указанных слов;

вычисляют значение ПИ (IG) слова на основе классифицированных данных, соответствующих диапазону слова.

5. Способ по п.1, при котором на этапе многоаспектной оценки слова согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова выполняют следующие действия:

распределяют слова-кандидаты по уровням согласно значениям ДЧ (DF) указанных слов;

выполняют многоаспектную оценку слова в соответствии с его уровнем для получения весового коэффициента важности слова на этом уровне.

6. Способ по п.5, при котором при распределении слов-кандидатов по уровням согласно значениям ДЧ (DF) выполняют следующие действия:

определяют уровни согласно ДЧ (DF) каждого слова во всех классифицированных данных;

распределяют каждое слова на соответствующий уровень согласно ДЧ (DF) слова во всех классифицированных данных.

7. Способ по любому из пп.1-6, который также содержит следующие этапы: перед вычислением ДЧ (DF) слова в классифицированных данных большого объема предварительно выполняют обработку указанного слова и (или) после получения весового коэффициента важности слова определяют значимость слова согласно его весовому коэффициенту важности.

8. Способ по п.7, при котором при определении значимости слова по его весовому коэффициенту важности выполняют следующие действия:

задают пороговое значение важности и пороговое значение постоянного использования для каждого уровня, причем уровни определяют согласно значениям ДЧ (DF) слов во всех классифицированных данных; определяют значимость слова на соответствующем уровне согласно отношению между двумя пороговыми значениями и весовым коэффициентом важности слова на этом уровне; выполняют нормализацию весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова; на основе комплексного весового коэффициента важности слова выполняют комплексную классификацию значимости для слов одинаковой значимости на разных уровнях;

или

выполняют нормализацию весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова, причем уровень определяют согласно значениям ДЧ (DF) слов во всех классифицированных данных; задают пороговое значение важности и пороговое значение постоянного использования; выполняют комплексную классификацию значимости слова согласно отношению между двумя пороговыми значениями и комплексным весовым коэффициентом важности.

9. Устройство определения и оценки значимости слов, содержащее:

блок вычисления ДЧ (DF), выполненный с возможностью вычисления ДЧ (DF) слова в классифицированных данных большого объема;

блок одноаспектной оценки, выполненный с возможностью оценки слова по совокупности отдельных аспектов согласно ДЧ (DF) этого слова;

блок многоаспектной оценки, выполненный с возможностью оценки слова по совокупности аспектов согласно результатам совокупности одноаспектных оценок для получения весового коэффициента важности слова.

10. Устройство по п.9, в котором блок вычисления ДЧ (DF) содержит:

модуль вычисления вектора ДЧ (DF), выполненный с возможностью вычисления вектора ДЧ (DF) слова в каждой категории классифицированных данных;

модуль вычисления ДЧ (DF), который принимает сумму векторов ДЧ (DF) слова в качестве ДЧ (DF) слова во всех категориях.

11. Устройство по п.9, в котором блок одноаспектной оценки содержит: модуль Инверсной Документной Частоты ИДЧ (IDF), модуль Средней Инверсной Документной Частоты СИДЧ (AVAIDF), модуль "хи-квадрат", модуль Прироста Информации ПИ (IG), модуль Взаимной Информации ВИ (MI), модуль Ожидаемой Перекрестной Энтропии ОПЭ (ЕСЕ), модуль Энтропии ЭНТ (ENT) и модуль Выборочного Предпочтения ВП (SELPRE).

12. Устройство по п.11, в котором модуль ПИ (IG) содержит:

модуль деления на диапазоны, выполненный с возможностью задания диапазонов согласно ДЧ (DF) всех слов-кандидатов; и

модуль вычисления ПИ (IG), выполненный с возможностью вычисления ПИ (IG) слова согласно классифицированным данным, соответствующим диапазону слова.

13. Устройство по п.9, в котором блок многоаспектной оценки содержит:

модуль деления на уровни, выполненный с возможностью задания уровней согласно ДЧ (DF) слов-кандидатов;

модуль многоаспектной оценки, выполненный с возможностью оценки слова по совокупности аспектов в соответствии с уровнем слова для получения весового коэффициента важности слова на указанном уровне.

14. Устройство по п.13, в котором модуль деления на уровни содержит:

модуль деления на ряд уровней, выполненный с возможностью задания уровней согласно ДЧ (DF) слов во всех классифицированных данных;

модуль классификации слов, выполненный с возможностью распределения слова на соответствующий уровень согласно ДЧ (DF) слова во всех классифицированных данных.

15. Устройство по любому из пп.9-14, дополнительно содержащее:

блок предварительной обработки, предназначенный для предварительной обработки слова в классифицированных данных большого объема и (или) блок определения значимости, определяющий значимость слова согласно весовому коэффициенту важности слова.

16. Устройство по п.15, в котором блок определения значимости содержит:

модуль задания пороговых значений, предназначенный для задания порогового значения важности и порогового значения постоянного использования для каждого уровня, причем уровень определяется согласно значениям ДЧ (DF) слов во всех классифицированных данных;

модуль определения значимости на конкретном уровне, предназначенный для определения значимости слова на конкретном уровне согласно отношению между двумя пороговыми значениями и весовым коэффициентом важности слова на соответствующем уровне;

модуль нормализации, предназначенный для нормализации весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова;

модуль комплексной классификации, предназначенный для выполнения комплексной классификации значимости для слов одинаковой значимости на разных уровнях на основе комплексного весового коэффициента важности слова;

или

блок определения значимости содержит:

модуль нормализации, предназначенный для нормализации весового коэффициента важности слова на каждом уровне для получения комплексного весового коэффициента важности слова, причем деление на уровни осуществляется согласно ДЧ (DF) слов во всех классифицированных данных;

модуль задания пороговых значений, предназначенный для задания порогового значения важности и порогового значения постоянного использования;

модуль комплексной классификации, предназначенный для выполнения комплексной классификации значимости для всех слов на основе отношения между двумя пороговыми значениями и комплексным весовым коэффициентом важности слова.