CN113807090B - 一种基于词义加权tf-idf疾病表征词提取方法 - Google Patents

一种基于词义加权tf-idf疾病表征词提取方法 Download PDF

Info

Publication number
CN113807090B
CN113807090B CN202110915839.8A CN202110915839A CN113807090B CN 113807090 B CN113807090 B CN 113807090B CN 202110915839 A CN202110915839 A CN 202110915839A CN 113807090 B CN113807090 B CN 113807090B
Authority
CN
China
Prior art keywords
word
idf
words
weighting
word sense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110915839.8A
Other languages
English (en)
Other versions
CN113807090A (zh
Inventor
余肖生
沈胜
张合欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202110915839.8A priority Critical patent/CN113807090B/zh
Publication of CN113807090A publication Critical patent/CN113807090A/zh
Application granted granted Critical
Publication of CN113807090B publication Critical patent/CN113807090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:(1)数据预处理;(2)结合电子病历特点,构建本地任务词库;(3)计算文本词义特征加权权重值;(4)统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;(5)模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。

Description

一种基于词义加权TF-IDF疾病表征词提取方法
技术领域
本发明涉及疾病表征词提取技术领域,具体为一种基于词义加权TF-IDF疾病表征词提取方法。
背景技术
随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视,近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。从复杂多样的非结构化电子病历文本数据中提取出疾病表证词,已经成为电子病历文本数据处理及后续相关研究的关键。
由于医疗领域数据记录标准不一,电子病历内容形式往往是复杂多样的非结构化文本数据,因此需要一定的数据挖掘手段对这些文本数据进行提取、分析。针对电子病历文本数据的特点,形成的数据提取、分析方法主要分成两类:(1)由专家对医疗文本中的数据进行标注,结合深度学习算法对数据进行训练,进而实现文本关键信息的提取。鉴于电子病历文本标注对专业能力的要求较高,对大量文本数据进行标注的实现难度较大,。(2)基于统计聚类方法实现文本数据的特征降维,进而实现文本关键信息的提取。这类方法常见模型有TF-IDF。TF-IDF是由词频(TF)和逆文档频率(IDF)两部分相乘得到的。其中,词频是文本中词的出现次数,逆文档频率反应了词的“重要性”,在语料库中包含某词的文档数越多,说明该次的“重要性”越小。
在确定目标的文本提取任务中,任务所关注的词是不同的,可能会出现词频低但在任务中却相对重要的词。在任务为电子病历文本数据疾病表征提取时,我们所关注的应是那些与疾病表征相关的词。如文本“患者于昨日开始出现头昏、呼吸不畅、轻微发热等不适症状,今晨出现好转,随来我院就诊。”文本中词频最高的是“出现”(2次),但任务所关注的词应该是“头昏”(1次)、“呼吸不畅”(1次)、“发热”(1次),这样与疾病表征相关的词。面对这样的情况,TF-IDF模型算法很难有效提取出疾病表征词。
发明内容
本发明的目的在于提供一种基于词义加权TF-IDF疾病表征词提取方法,提出一种适用于电子病历文本疾病表征词提取的算法模型以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于词义加权TF-IDF疾病表征词提取方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中词性非动词、名词、形容词和副词的其他词。
(2)结合电子病历特点,构建本地任务词库。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
进一步的,所述步骤(2)中本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词。
进一步的,所述步骤(3)中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1*c1+n2*c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,为c1/c2>3。
进一步的,所述取值分别为c1=1.8、c2=0.2,则词义特征加权计算公式如下:
与现有技术相比,本发明的有益效果是:
1、通过对电子病历文本中疾病表征的数据特征进行分析,形成了词义特征加权计算方法,并将词义加权引入了TF-IDF模型,实现了疾病表征词的有针对性提取;
2、与传统的TF-IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,避免了传统模型对电子病历文本中疾病表征词提取可能产生的忽略。
附图说明
图1为本发明方法流程示意图。
具体实施方式
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于词义加权TF-IDF疾病表征词提取方法,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中词性非动词、名词、形容词和副词的其他词。
(2)结合电子病历特点,构建本地任务词库。
本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词,如“头晕”、“脑涨”等;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词,如“我院”、“早晨”等。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1*c1+n2*c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,应有c1/c2>3。本发明提取任务为电子病历的疾病表征词,在对提取任务特点进行分析实验后,本发明专利对取值分别为c1=1.8、c2=0.2。则词义特征加权计算公式如下:
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,包括以下步骤:
(1)数据预处理;
去除文本中的特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中词性非动词、名词、形容词和副词的其他词;
(2)结合电子病历特点,构建本地任务词库;
(3)计算文本词义特征加权权重值;
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值;
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型;
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型;
(5)模型运行,获取疾病表征词;
所述步骤(3)中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1*c1+n2*c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2的取值是根据提取任务的特点取值的,为c1/c2>3;
所述取值分别为c1=1.8、c2=0.2,则词义特征加权计算公式如下:
2.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述步骤(2)中本地任务词库包括两类:
A、任务相关词库,该词库包括电子病历中与疾病相关的词;
B、非任务相关词库,该词库包括电子病历中可能出现的与疾病无关的词。
CN202110915839.8A 2021-08-10 2021-08-10 一种基于词义加权tf-idf疾病表征词提取方法 Active CN113807090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915839.8A CN113807090B (zh) 2021-08-10 2021-08-10 一种基于词义加权tf-idf疾病表征词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915839.8A CN113807090B (zh) 2021-08-10 2021-08-10 一种基于词义加权tf-idf疾病表征词提取方法

Publications (2)

Publication Number Publication Date
CN113807090A CN113807090A (zh) 2021-12-17
CN113807090B true CN113807090B (zh) 2024-04-30

Family

ID=78943046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915839.8A Active CN113807090B (zh) 2021-08-10 2021-08-10 一种基于词义加权tf-idf疾病表征词提取方法

Country Status (1)

Country Link
CN (1) CN113807090B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893397A (zh) * 2015-06-30 2016-08-24 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108132930A (zh) * 2017-12-27 2018-06-08 曙光信息产业(北京)有限公司 特征词提取方法及装置
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN112949303A (zh) * 2021-03-01 2021-06-11 山东健康医疗大数据有限公司 病历文本数据结构化的文本分词解析方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893397A (zh) * 2015-06-30 2016-08-24 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108132930A (zh) * 2017-12-27 2018-06-08 曙光信息产业(北京)有限公司 特征词提取方法及装置
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN112949303A (zh) * 2021-03-01 2021-06-11 山东健康医疗大数据有限公司 病历文本数据结构化的文本分词解析方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Word2Vec 和TextRank 的时政类新闻关键词抽取方法研究;刘奇飞 等;《情报探索》(第6期);第22-27页 *
基于特征项权重与句子相似度的知识元智能提取技术研究;唐静华;《中国优秀硕士学位论文全文数据库信息科技辑》;第2018年卷(第3期);第I138-2283页 *

Also Published As

Publication number Publication date
CN113807090A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
Weiss et al. Fundamentals of predictive text mining
Weiss et al. Text mining: predictive methods for analyzing unstructured information
US20160335234A1 (en) Systems and Methods for Generating Summaries of Documents
CN110427491B (zh) 一种基于电子病历的医学知识图谱构建方法及装置
Li et al. Extractive summarization using inter-and intra-event relevance
Roy et al. Supervising unsupervised open information extraction models
CN107818815B (zh) 电子病历的检索方法及***
CN106202034B (zh) 一种基于依存约束和知识的形容词词义消歧方法和装置
CN109271524B (zh) 知识库问答***中的实体链接方法
Ismailov et al. A comparative study of stemming algorithms for use with the Uzbek language
CN109471950B (zh) 腹部超声文本数据的结构化知识网络的构建方法
Lakmal et al. Word embedding evaluation for sinhala
Awajan Semantic similarity based approach for reducing Arabic texts dimensionality
CN112257386A (zh) 一种文景转换中场景空间关系信息布局生成的方法
Ando et al. Mostly-unsupervised statistical segmentation of Japanese kanji sequences
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN106126501B (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
CN113807090B (zh) 一种基于词义加权tf-idf疾病表征词提取方法
Humayoun et al. CORPURES: Benchmark corpus for urdu extractive summaries and experiments using supervised learning
Mukherjee et al. Domain cartridge: Unsupervised framework for shallow domain ontology construction from corpus
Séaghdha Annotating and learning compound noun semantics
CN106202033B (zh) 一种基于依存约束和知识的副词词义消歧方法和装置
Al-Lahham Index term selection heuristics for Arabic text retrieval
Ranjan et al. Automatic labelling of important terms and phrases from medical discussions
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant