CN110263226A - 针对药品的数据库更新方法、装置及电子装置 - Google Patents
针对药品的数据库更新方法、装置及电子装置 Download PDFInfo
- Publication number
- CN110263226A CN110263226A CN201910390288.0A CN201910390288A CN110263226A CN 110263226 A CN110263226 A CN 110263226A CN 201910390288 A CN201910390288 A CN 201910390288A CN 110263226 A CN110263226 A CN 110263226A
- Authority
- CN
- China
- Prior art keywords
- drug
- relationship
- drugs
- text information
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 400
- 229940079593 drug Drugs 0.000 title claims abstract description 393
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000014509 gene expression Effects 0.000 claims abstract description 45
- 230000009193 crawling Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000012015 optical character recognition Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000002552 dosage form Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- -1 effect Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种针对药品的数据库更新方法、装置及电子装置,其中,该方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。通过本发明,解决了相关技术中采用关系型数据库不便于存储不同药品之间的关系的问题。
Description
技术领域
本发明涉及数据库领域,具体而言,涉及一种针对药品的数据库更新方法、装置及电子装置。
背景技术
目前的医学药品的文本资料都以关系型数据库的形式进行存储,例如,采用SQL数据库,每种药品作为一个条目,每个药品条目包括药品的各项信息,例如,注册证号、药品名称、功效、剂型、药品类型、规格、生产单位、适应症、禁忌症等等。但是,关系型数据库仅能通过条目列表的形式来展示基于用户检索的关键词搜索到的药品,不便于存储不同药物之间的关系,从而导致展示检索结果的方式单一,不便于用户比对。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种针对药品的数据库更新方法、装置及电子装置,以至少解决现有技术中采用关系型数据库不便于存储不同药品之间的关系的问题。
根据本发明的一个实施例,提供了一种针对药品的数据库更新方法,该方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。
进一步地,在指定网站中爬取针对药品的网页中的文本信息,包括:在网址对应的网页中提取图片;利用光学字符识别方法识别图片中的文字信息;从文本信息中抽取药品名称和药品属性,包括:在图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息。
进一步地,在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,该方法还包括:获取收集的多个用户在指定网站中浏览多个网页的历史浏览行为;根据历史浏览行为,统计任意两种药品的相关程度;在药品图数据库中,对相关程度超过预设阈值的两种药品的节点之间建立对应的关系边。
进一步地,利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,包括:获取预先存储的多个第一类正则表达式,每个第一类正则表达式用于表示一种药物关系;利用多个第一类正则表达式在药品文本信息中进行匹配;在任一第一类正则表达式匹配成功的情况下,得到药品具有对应的第一类正则表达式所表示的药物关系,并得到与药品具有药物关系的其它药品的名称。
进一步地,根据匹配结果建立药品的节点与其它药品的节点的关系边,包括:判断与药品具有药物关系的其它药品在药品图数据库中是否存在对应的节点;如果存在,获取药品和其它药品之间的关系边,并判断是否存在与药物关系对应的关系边;如果不存在,则根据药物关系建立药品与其它药品之间的关系边。
进一步地,药品图数据库中的关系边为单向边,根据药物关系建立药品与其它药品之间的关系边,包括:建立药品指向其它药品的第一向关系边,并根据药物关系确定第一向关系边的名称;建立其它药品指向药品的第二向关系边,并根据药物关系确定第二向关系边的名称。
进一步地,在指定网站中爬取针对药品的网页中的文本信息,包括:在指定网站中爬取符合预设规则的网址,其中,符合预设规则的网址的网页为针对药品的网页;利用符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。
进一步地,从文本信息中抽取药品名称和药品属性,包括:在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称;基于文本信息中的字段属性,确定药品的名称所对应的属性信息。
根据本发明的另一个实施例,提供了一种针对药品的数据库更新装置,包括:爬取模块,用于在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;抽取模块,用于从文本信息中抽取药品名称和药品属性;执行模块,用于根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;匹配模块,用于利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;建立模块,用于如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。
进一步地,爬取模块还用于:在网址对应的网页中提取图片;利用光学字符识别方法识别图片中的文字信息;从文本信息中抽取药品名称和药品属性,包括:在图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息。
进一步地,该装置还包括:获取模块,用于在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,获取收集的多个用户在指定网站中浏览多个网页的历史浏览行为;统计模块,用于根据历史浏览行为,统计任意两种药品的相关程度;建立模块还用于在药品图数据库中,对相关程度超过预设阈值的两种药品的节点之间建立对应的关系边。
进一步地,匹配模块还用于:获取预先存储的多个第一类正则表达式,每个第一类正则表达式用于表示一种药物关系;利用多个第一类正则表达式在药品文本信息中进行匹配;在任一第一类正则表达式匹配成功的情况下,得到药品具有对应的第一类正则表达式所表示的药物关系,并得到与药品具有药物关系的其它药品的名称。
进一步地,建立模块还用于:判断与药品具有药物关系的其它药品在药品图数据库中是否存在对应的节点;如果存在,获取药品和其它药品之间的关系边,并判断是否存在与药物关系对应的关系边;如果不存在,则根据药物关系建立药品与其它药品之间的关系边。
进一步地,药品图数据库中的关系边为单向边,建立模块还用于:建立药品指向其它药品的第一向关系边,并根据药物关系确定第一向关系边的名称;建立其它药品指向药品的第二向关系边,并根据药物关系确定第二向关系边的名称。
进一步地,爬取模块还用于:在指定网站中爬取符合预设规则的网址,其中,符合预设规则的网址的网页为针对药品的网页;利用符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。
进一步地,抽取模块还用于:在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称;基于文本信息中的字段属性,确定药品的名称所对应的属性信息。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边,解决现有技术中采用关系型数据库不便于存储不同药品之间的关系的问题,通过在爬取数据中挖掘出的药品关系,以及图数据库的存储结构,达到了方便的存储药品关系的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的针对药品的数据库更新方法的流程图;
图2是根据本发明实施例的针对药品的数据库更新装置的示意图;
图3是本发明实施例的一种电子装置的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本实施例提供的针对药品的数据库更新方法,可以应用于检索***的服务端,运行在服务器/服务器集群、工作站、个人计算机等类似的运算设备中。需要说明的是,运行在不同的运算设备仅是方案在执行主体上的差异,本领域人员可预见在不同运算设备中运行能够产生相同的技术效果。
本实施例提供的针对药品的数据库更新方法,通过对爬取出的药品文本信息抽取名称、属性和关系,在药品图数据库中建立或更新对应药品的节点、属性、以及与其它药品节点的关系边,从而解决了现有技术中采用关系型数据库不便于存储不同药品之间的关系的问题,通过在爬取数据中挖掘出的药品关系,以及图数据库的存储结构,达到了方便的存储药品关系的技术效果。
如图1所示,本实施例提供的针对药品的数据库更新方法包括如下步骤:
步骤101,在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站。
指定网站是预先设置好的垂直网站,例如,药品电商网站或药品官方网站等等,指定网站中的每个网页为针对一种药品进行介绍的网页。在爬取时,可以基于指定网站的首页网址逐级向下的爬取符合预设规则的网址,其中,针对药品的网页的网址符合预设规则,因此,可以利用是否符合预设规则来判断网页是否是针对一种药品的网页。进而,在爬取到和预设规则的网址之后,利用网址符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。网页中的文本信息是与药品相关的文本信息。在指定网站中提取出的文本信息,包括药品的药品名称、属性信息,例如,属性信息可以包括药品的生产厂家、功效、成分、适应症、禁忌说明等等。
步骤102,从文本信息中抽取药品名称和药品属性。
可选的,可以采用如下步骤抽取药品名称:
在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称。抽取药品命名实体名称可以采用命名实体识别(Named Entity Recognition,简称NER)的方法识别,命名实体识别用于识别文本中具有特定意义的实体,例如,人名、地名、机构名、专有名词等。由于指定网站是垂直网站,网址符合预设规则的网页均采用统一的网页模板,因此,针对该网页的药品名称的字段所对应的字段属性是固定的,可以预先配置,也即为本发明实施例中所述的指定字段属性,进而,在本发明实施例中,可以利用预先训练的用于识别药品实体名称的命名识别模型(例如,基于NLTK的命名实体识别模型等),在指定字段属性的文本信息中,抽取药品命名实体名称,得到网页所针对的药品的名称。并且,由于具有固定的网页模板,可以基于文本信息中的字段属性,确定药品的名称所对应的属性信息。
步骤103,根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性。
药品图数据库是一种图数据库,例如,Neo4j图数据库。图数据库通过节点、属性和关系边来存储数据,关系边连接两个节点,且具有单向性。在药品图数据库中,节点的名称为药品的名称,节点的属性值为药品的属性值,节点的关系边用于表示药品和另一端的药品之间具有该关系边的名称所描述的关系,在被检索之后,检索端可以基于在药品图数据库中所检索到的节点、属性和关系边来展示知识图谱。
在文本信息中抽取出药品名称和药品属性之后,根据抽取出的信息建立或更新对应药品的节点和属性。
步骤104,利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品。
第一类正则表达式是表示至少两种药品具有药物关系的文本模式。例如,如果检索出文本信息中存在与字符串“A是B的替代药物”相匹配的文本,则确定药品A和药品B具有药物关系,其药物关系为“替代药物”。利用正则表达式进行文本模式的匹配可以采用现有的匹配方式或对现有匹配方式的改进,本发明实施例对此不作限定。
可选的,药物关系可以包括多种类型,例如,替代、组合、禁忌、辅助等,本发明实施例不再赘述。可以预先定义多个第一类正则表达式,以尽可能覆盖更多种药物关系的文本模式。
步骤105,如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。
可选的,在根据匹配结果建立药品的节点与其它药品的节点的关系边时,可以对药品图数据库中是否存在对应的药品节点、以及对应的关系边进行判断,可选的步骤为,首先判断是否存在步骤104中匹配到的与该药品(以下简称第一药品)具有药物关系的其它药品(以下简称第二药品)的节点,如果有,则进一步判断是否第一药品和第二药品之间是否存在与步骤104抽取出的药物关系对应的关系边,如果没有,则在第一药品和第二药品之间建立匹配到的药物关系所对应的关系边。
需要说明的是,由于图数据库的特点,两个节点的关系边是单向的,例如,对于节点A和节点B,在建立关系边时,只能建立由节点A指向节点B的关系边,或由节点B指向节点A的关系边。此外,在图数据库中,关系边是可以包括描述属性的文字信息(关系边的名称)的,以用于描述关系边所表示的关系属性。
进而,在建立两个药品之间的关系边时,不仅要建立第一药品指向第二药品的关系边,还要建立第二药品指向第一药品的关系边,并分别为两个关系边赋予用于描述关系边所表示的药物关系名称。
作为一种可选的实施方式,由于网页中可能未采用文本信息描述药品,而是利用预先采集的药品说明书的图片来展示,本发明实施例提供了一种技术方案,以针对图片中的药品相关信息进行识别和提取。具体的,在网址对应的网页中提取图片,并利用光学字符识别方法识别图片中的文字信息,进而,在图片的文字信息中抽取药品命名实体名称,得到药品的名称,并利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息,通过上述步骤,可以得到药品的文本信息,接下来针对图片中提取出的文本信息解析药品名称、属性和药物关系的方式,与在网页的文本信息中进行解析的方式相似,在此不再赘述。
作为一种可选的实施方式,在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,为了丰富药品之间的药物关系,还可以收集大量的检索端的历史浏览行为,并进行分析,以预测用户在查看一个药品时可能会浏览的其它药品,并将预测结果在检索端进行推荐。其原理是用户往往出于特定的原因(如症状)来检索和浏览药品,在查看一种药品之后,往往还会查看针对该症状的其它药品。因此,可以利用大量用户的历史浏览行为,确定出每个用户账户或客户端在浏览一种药品之后,继续浏览其它药品的时间间隔,累计相加后,可以得到每两种药品之间的浏览时间间隔的累计时长,累计时长越长,说明用户认为这两种药品之间的相关性越小,累计时长越短,说明用户认为这两种药品之间的相关性越高,越希望在浏览其中一个药品之后继续浏览另一个药品,这个相关性本发明实施例中用相关程度来表示,相关程度S∝(a/t+b),其中,a、b均为常数,也即,相关程度S与累计时长t的一次函数成反比,具体公式可以根据统计的实际情况设定,例如,将公式直接设置为S=a/t+b,如果两种药品的相关程度超过预设阈值,则在药品图数据库中为两个药品建立关系边,关系边的名称可以被标识为指定的名称,例如,“您可能需要的相关药品”。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种针对药品的数据库更新装置,该装置用于实现上述实施例1及其优选实施方式,对于本实施例中未详述的术语或实现方式,可参见实施例1中的相关说明,已经进行过说明的不再赘述。
如以下所使用的术语“模块”,是可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可以被构想的。
图2是根据本发明实施例的针对药品的数据库更新装置的示意图,如图2所示,该装置包括爬取模块10,抽取模块20,执行模块30,匹配模块40和建立模块50。
其中,爬取模块,用于在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;抽取模块,用于从文本信息中抽取药品名称和药品属性;执行模块,用于根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;匹配模块,用于利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;建立模块,用于如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。
可选的,爬取模块还用于:在网址对应的网页中提取图片;利用光学字符识别方法识别图片中的文字信息;从文本信息中抽取药品名称和药品属性,包括:在图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息。
可选的,该装置还包括:获取模块,用于在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,获取收集的多个用户在指定网站中浏览多个网页的历史浏览行为;统计模块,用于根据历史浏览行为,统计任意两种药品的相关程度;建立模块还用于在药品图数据库中,对相关程度超过预设阈值的两种药品的节点之间建立对应的关系边。
可选的,匹配模块还用于:获取预先存储的多个第一类正则表达式,每个第一类正则表达式用于表示一种药物关系;利用多个第一类正则表达式在药品文本信息中进行匹配;在任一第一类正则表达式匹配成功的情况下,得到药品具有对应的第一类正则表达式所表示的药物关系,并得到与药品具有药物关系的其它药品的名称。
可选的,建立模块还用于:判断与药品具有药物关系的其它药品在药品图数据库中是否存在对应的节点;如果存在,获取药品和其它药品之间的关系边,并判断是否存在与药物关系对应的关系边;如果不存在,则根据药物关系建立药品与其它药品之间的关系边。
可选的,药品图数据库中的关系边为单向边,建立模块还用于:建立药品指向其它药品的第一向关系边,并根据药物关系确定第一向关系边的名称;建立其它药品指向药品的第二向关系边,并根据药物关系确定第二向关系边的名称。
可选的,爬取模块还用于:在指定网站中爬取符合预设规则的网址,其中,符合预设规则的网址的网页为针对药品的网页;利用符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。
可选的,抽取模块还用于:在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称;基于文本信息中的字段属性,确定药品的名称所对应的属性信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。图3是本发明实施例的一种可选的电子装置的硬件结构框图。如图3所示,电子装置可以包括一个或多个(图3中仅示出一个)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器304,可选地,上述电子装置还可以包括用于通信功能的传输设备306以及输入输出设备308。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。
存储器304可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的图像的识别方法对应的计算机程序,处理器302通过运行存储在存储器304内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器304可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器304可进一步包括相对于处理器302远程设置的存储器,这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的无线网络。在一个实例中,传输装置306包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置306可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种针对药品的数据库更新方法,其特征在于,所述方法包括:
在指定网站中爬取针对药品的网页中的文本信息,其中,所述指定网站为预先配置的垂直网站;
从所述文本信息中抽取药品名称和药品属性;
根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;
利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,其中,所述第一类正则表达式是表示至少两种药品具有药物关系的文本模式;
如果存在,在所述药品图数据库中,根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边。
2.根据权利要求1所述的方法,其特征在于,
所述在指定网站中爬取针对药品的网页中的文本信息,包括:在所述网址对应的网页中提取图片;利用光学字符识别方法识别所述图片中的文字信息;
所述从所述文本信息中抽取药品名称和药品属性,包括:在所述图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在所述图片的文字信息中匹配所述药品对应的属性信息。
3.根据权利要求1所述的方法,其特征在于,在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,所述方法还包括:
获取收集的多个用户在所述指定网站中浏览多个网页的历史浏览行为;
根据所述历史浏览行为,统计任意两种药品的相关程度;
在所述药品图数据库中,对所述相关程度超过所述预设阈值的两种药品的节点之间建立对应的关系边。
4.根据权利要求1所述的方法,其特征在于,所述利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,包括:
获取预先存储的多个第一类正则表达式,每个所述第一类正则表达式用于表示一种所述药物关系;
利用所述多个第一类正则表达式在所述药品文本信息中进行匹配;
在任一所述第一类正则表达式匹配成功的情况下,得到所述药品具有对应的所述第一类正则表达式所表示的药物关系,并得到与所述药品具有所述药物关系的所述其它药品的名称。
5.根据权利要求1所述的方法,其特征在于,所述根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边,包括:
判断与所述药品具有所述药物关系的其它药品在所述药品图数据库中是否存在对应的节点;
如果存在,获取所述药品和所述其它药品之间的关系边,并判断是否存在与所述药物关系对应的关系边;
如果不存在,则根据所述药物关系建立所述药品与所述其它药品之间的关系边。
6.根据权利要求5所述的方法,其特征在于,所述药品图数据库中的关系边为单向边,所述根据所述药物关系建立所述药品与所述其它药品之间的关系边,包括:
建立所述药品指向所述其它药品的第一向关系边,并根据所述药物关系确定所述第一向关系边的名称;
建立所述其它药品指向所述药品的第二向关系边,并根据所述药物关系确定所述第二向关系边的名称。
7.根据权利要求1所述的方法,其特征在于,所述在指定网站中爬取针对药品的网页中的文本信息,包括:
在所述指定网站中爬取符合预设规则的网址,其中,符合所述预设规则的网址的网页为所述针对药品的网页;
利用符合所述预设规则的网页所对应的格式化模板,抽取所述网页中的字段以及每个字段对应的字段属性,得到所述网页中的文本信息。
8.根据权利要求7所述的方法,其特征在于,所述从所述文本信息中抽取药品名称和药品属性,包括:
在指定字段属性的文本信息中抽取药品命名实体名称,得到所述网页所针对的药品的名称;
基于所述文本信息中的字段属性,确定所述药品的名称所对应的属性信息。
9.一种针对药品的数据库更新装置,其特征在于,所述装置包括:
爬取模块,用于在指定网站中爬取针对药品的网页中的文本信息,其中,所述指定网站为预先配置的垂直网站;
抽取模块,用于从所述文本信息中抽取药品名称和药品属性;
执行模块,用于根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;
匹配模块,用于利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,其中,所述第一类正则表达式是表示至少两种药品具有药物关系的文本模式;
建立模块,用于如果存在,在所述药品图数据库中,根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390288.0A CN110263226A (zh) | 2019-05-10 | 2019-05-10 | 针对药品的数据库更新方法、装置及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390288.0A CN110263226A (zh) | 2019-05-10 | 2019-05-10 | 针对药品的数据库更新方法、装置及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263226A true CN110263226A (zh) | 2019-09-20 |
Family
ID=67914606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910390288.0A Pending CN110263226A (zh) | 2019-05-10 | 2019-05-10 | 针对药品的数据库更新方法、装置及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263226A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN114943516A (zh) * | 2022-05-27 | 2022-08-26 | 深圳市君润众乐企业管理咨询有限公司 | 企业人才电子简历数据库建立方法、***、装置以及存储介质 |
CN117476141A (zh) * | 2022-07-29 | 2024-01-30 | 重庆博腾药业有限公司 | 药物背景信息数据库构建方法、装置及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750856A (zh) * | 2015-04-16 | 2015-07-01 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的***与方法 |
CN105095347A (zh) * | 2015-06-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种用于对命名实体进行关联的方法和装置 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及*** |
CN106777165A (zh) * | 2016-12-21 | 2017-05-31 | 广东技术师范学院 | 一种基于网络爬虫的药品信息库构建方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
CN109710738A (zh) * | 2018-12-24 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 药物问询方法、装置、***、计算机设备和存储介质 |
-
2019
- 2019-05-10 CN CN201910390288.0A patent/CN110263226A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750856A (zh) * | 2015-04-16 | 2015-07-01 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的***与方法 |
CN105095347A (zh) * | 2015-06-08 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种用于对命名实体进行关联的方法和装置 |
CN106294744A (zh) * | 2016-08-11 | 2017-01-04 | 上海动云信息科技有限公司 | 兴趣识别方法及*** |
CN106777165A (zh) * | 2016-12-21 | 2017-05-31 | 广东技术师范学院 | 一种基于网络爬虫的药品信息库构建方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107133290A (zh) * | 2017-04-19 | 2017-09-05 | 中国人民解放军国防科学技术大学 | 一种个性化信息检索方法与装置 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN108763353A (zh) * | 2018-05-14 | 2018-11-06 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
CN109710738A (zh) * | 2018-12-24 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 药物问询方法、装置、***、计算机设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN111914095B (zh) * | 2020-06-20 | 2024-04-19 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及*** |
CN114943516A (zh) * | 2022-05-27 | 2022-08-26 | 深圳市君润众乐企业管理咨询有限公司 | 企业人才电子简历数据库建立方法、***、装置以及存储介质 |
CN117476141A (zh) * | 2022-07-29 | 2024-01-30 | 重庆博腾药业有限公司 | 药物背景信息数据库构建方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN104217031B (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
CN110263226A (zh) | 针对药品的数据库更新方法、装置及电子装置 | |
CN110134584A (zh) | 一种接口测试用例的生成方法、装置、存储介质和服务器 | |
CN107273409A (zh) | 一种网络数据采集、存储及处理方法及*** | |
KR20190038751A (ko) | 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체 | |
EP2466499A1 (en) | Information processing device, information processing method, program for information processing device, and recording medium | |
CN109120719B (zh) | 信息推送方法、信息展示方法、计算机设备及存储介质 | |
CN109636494A (zh) | 药品推荐方法及*** | |
CN106233279A (zh) | 基于数字杂志中包括的内容向数字杂志服务器用户推荐内容 | |
CN109672582A (zh) | 全路径监测方法、设备、存储介质及装置 | |
CN110245289A (zh) | 一种信息搜索方法以及相关设备 | |
JP6976207B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11308141B2 (en) | Template generation using directed acyclic word graphs | |
CN103365904A (zh) | 一种广告信息搜索方法和*** | |
CN108874802A (zh) | 网页检测方法和装置 | |
CN110191183A (zh) | 精准智能推送方法、***、装置及计算机可读存储介质 | |
CN111241429B (zh) | 一种时空关系的确定方法、装置、电子设备及存储介质 | |
CN108710670A (zh) | 一种日志分析方法、装置、电子设备及可读存储介质 | |
CN110532273A (zh) | 数据表的处理方法及装置、存储介质、电子装置 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN108154024A (zh) | 一种数据检索方法、装置及电子设备 | |
CN109062799A (zh) | 广告场景的回归测试方法、装置及*** | |
CN108280102A (zh) | 上网行为记录方法、装置及用户终端 | |
CN108810577B (zh) | 一种用户画像的构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |