CN107766400A - 文本检索方法及*** - Google Patents

文本检索方法及*** Download PDF

Info

Publication number
CN107766400A
CN107766400A CN201710313524.XA CN201710313524A CN107766400A CN 107766400 A CN107766400 A CN 107766400A CN 201710313524 A CN201710313524 A CN 201710313524A CN 107766400 A CN107766400 A CN 107766400A
Authority
CN
China
Prior art keywords
term
inquisition
content
word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710313524.XA
Other languages
English (en)
Inventor
韦邕
赵清源
吕梓燊
彭煦
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710313524.XA priority Critical patent/CN107766400A/zh
Priority to PCT/CN2017/105005 priority patent/WO2018201668A1/zh
Publication of CN107766400A publication Critical patent/CN107766400A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本检索方法及***,包括:对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;按照排序结果,输出所述问诊内容对应的问诊数据。本发明能够达到互联网在线问诊过程全自动化的目的,节约了宝贵的医疗资源,提高了问诊效率和医疗资源利用率。

Description

文本检索方法及***
技术领域
本发明涉及互联网技术领域,尤其涉及一种文本检索方法及***。
背景技术
近年来,随着互联网技术的高速发展和逐渐普及,互联网也越来越多的参与到人们的工作和生活中来。目前,基于医疗资源紧张、看病贵、看病难等问题的存在,越来越多的用户开始在网上进行健康保健咨询,或者查阅病情等;例如,进行轻微的或者普通的伤病自诊断,比如感冒、扭伤脚等。而互联网在线问诊平台是互联网在医疗领域的新应用,因其高效和便捷,得到了越来越多用户的青睐。
但现有的互联网在线问诊平台中,通常采用如下方式进行互联网在线问诊:患者在问诊平台的一端描述自己的病情症状,由问诊平台另一端的医生根据用户描述的症状做出诊断,并且提供建议给患者。这种问诊方式依然依赖实际中的医生,仅仅是将在病房中的面对面,迁移至了互联网平台上,但并未从根本上对医疗资源紧张这一实质问题进行彻底解决。
发明内容
本发明的目的在于提供一种文本检索方法及***,旨在达到互联网在线问诊过程的全自动化的目的。
为实现上述目的,本发明提供一种文本检索方法,所述文本检索方法包括:
对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
按照排序结果,输出所述问诊内容对应的问诊数据。
优选地,所述对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词,包括:
对用户输入的问诊内容进行中文切词;
按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;
将所述中心词和关联词作为所述问诊内容对应的检索词。
优选地,所述将所述问诊数据按照与所述检索词的关联程度进行排序,包括:
获取所述问诊数据中包含的所述检索词的数量;
参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
优选地,所述文本检索方法还包括:
监测用户基于输出的所述问诊数据执行的操作事件,获取并记录所述操作事件对应的诊断数据。
优选地,所述文本检索方法还包括:
标记所述诊断数据,基于所述索引数据库,动态评估所述诊断数据中包含的所述检索词在所述索引数据库中的权重值。
为实现上述目的,本发明还提供一种文本检索***,所述文本检索***包括:
文字处理模块,用于对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
数据检索模块,用于根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
数据输出模块,用于按照排序结果,输出所述问诊内容对应的问诊数据。
优选地,所述文字处理模块包括:
切词单元,用于对用户输入的问诊内容进行中文切词;
提取单元,用于按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
扩展单元,用于对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;将所述中心词和关联词作为所述问诊内容对应的检索词。
优选地,所述数据检索模块还用于:
获取所述问诊数据中包含的所述检索词的数量;
参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
优选地,所述文本检索***还包括:
操作监测模块,用于监测用户基于输出的所述问诊数据执行的操作事件,获取并记录所述操作事件对应的诊断数据。
优选地,所述文本检索***还包括:
动态评估模块,用于标记所述诊断数据,基于所述索引数据库,动态评估所述诊断数据中包含的所述检索词在所述索引数据库中的权重值。
本发明的有益效果是:通过对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;按照排序结果,输出所述问诊内容对应的问诊数据;达到了互联网在线问诊过程全自动化的目的,节约了宝贵的医疗资源,提高了问诊效率和医疗资源利用率。
附图说明
图1为本发明文本检索方法的一种实施方式的流程示意图;
图2为图1所述实施例中步骤S10的一种实施方式的流程示意图;
图3为图1所述实施例的步骤S20中“将所述问诊数据按照与所述检索词的关联程度进行排序”的一种实施方式的流程示意图;
图4为本发明文本检索方法的另一种实施方式的流程示意图;
图5为本发明文本检索方法的又一种实施方式的流程示意图;
图6为本发明文本检索***100较佳实施例的运行环境示意图;
图7为本发明文本检索***100的一种实施方式的功能模块示意图;
图8为图7所述实施例的数据检索模块110的一种实施方式的功能模块示意图;
图9为本发明文本检索***100中的另一种实施方式的功能模块示意图;
图10为本发明文本检索***100中的又一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供了一种文本检索方法,旨在达到互联网在线问诊过程的全自动化的目的。如图1所示,图1为本发明文本检索方法的一种实施方式的流程示意图,所述文本检索方法可以实施为如下步骤S10-S30:
步骤S10、对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
本发明实施例中,***接收到用户基于在线问诊平台对应的输入控件输入的问诊内容,对用户输入的上述问诊内容进行文字预处理,例如,对用户输入的问诊内容进行中文切词,或者直接提取出用户输入的问诊内容中的关键词,或者,仅仅只是进行单纯的文字处理(比如,修正错别字等);对用户输入的上述问诊数据进行预处理后,得到对应的检索词,以便后续***利用得到的检索词对用户输入的上述问诊内容进行信息检索。
步骤S20、根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
***根据对问诊内容预处理后得到的检索词,查询对应的索引数据库。本发明实施例中,所述的索引数据库是预先建立的;例如,针对疾病问诊这一具体的检索平台,***预先建立索引数据库时,将互联网上开源的医学问诊数据以及***自身积累的问诊数据作为依据,来组建该索引数据库。且该索引数据库基于社会发展以及时事热点进行不断更新和补充,例如,针对季节性流行病和新型病变,不断扩充该索引数据库;另外,***也将会根据用户针对索引平台的具体使用情况,不断调整该索引数据库的存储内容。
***利用检索词查询索引数据库时,其具体的查询方式包括但不限于:直接将索引数据库中包含检索词对应的问诊数据挑选出来,或者,将索引数据库中包含检索词以及检索词对应的近义词的问诊数据挑选出来;或者,将索引数据库中包含检索词以及检索词对应的关联词的问诊数据挑选出来。其中,检索词对应的近义词可以理解为:与检索词词义相近的词语,例如,胳膊和手臂可以理解为二者互为近义词,大腿和腿部可以理解为二者互为近义词。检索词对应的关联词可以理解为:与检索词词义相关联的词语,例如,手指头和脚趾头可以理解为相互关联的词语。
***得到检索词对应的问诊数据后,根据与检索词的关联程度对问诊数据进行排序;比如,按照与检索词关联程度的高低,由先至后的对得到的问诊数据进行排序。本发明实施例中,***得到的问诊数据与检索词的关联程度主要由问诊数据中所包含的检索词的个数来决定,问诊数据中包含的检索词的个数越多,其关联程度将越高。在具体的应用场景中,***可以根据不同的应用场景来确定问诊数据与检索词的关联程度的具体判断方式,本发明实施例对问诊数据与检索词的关联程度的具体确定方式不作具体限定。
步骤S30、按照排序结果,输出所述问诊内容对应的问诊数据。
***根据对问诊数据的排序结果,输出用户输入的问诊内容所对应的问诊数据。本发明实施例中,***输出问诊数据的具体呈现方式包括但不限于:直接将问诊数据显示在用户操作界面上;或者,将问诊数据发送至关联的客户端,例如通过短消息发送至手机号码上或者发送至微信等,便于用户保存等。另外,针对***直接将问诊数据显示在用户操作界面上这一输出方式,在一优选的实施例中,为了便于用户快捷地找出想要的结果,***仅将排在前面的预设数量问诊数据显示出来,比如,根据用户操作界面的大小,仅显示前五条问诊数据,或者前八条问诊数据等。本发明实施例对***输出问诊数据的具体输出方式不进行具体限定。
与现有技术相比,本实施例文本检索方法通过对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;按照排序结果,输出所述问诊内容对应的问诊数据;具有互联网在线问诊过程全自动化的有益效果,节约了宝贵的医疗资源,提高了问诊效率和医疗资源利用率。
在一优选的实施例中,如图2所示,在上述图1的所述实施例的基础上,本发明文本检索方法图1所述实施例中的步骤S10可以实施为如下描述的步骤S11-S14:
步骤S11、对用户输入的问诊内容进行中文切词;
步骤S12、按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
本发明实施例中,***接收用户输入的问诊内容,对用户输入的问诊内容进行中文切词。***从切词后的问诊内容中提取对应的中心词时,可以按照疾病名、药品名、诊断、身体部位、医学名词进行提取;例如,用户输入的问诊内容为“踢球崴了脚”,则***从切词后的问诊内容中,提取出如下中心词“崴”“脚”。
本发明实施例中,中文切词也可以理解为中文分词,指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词);而在本发明文本检索方法这一具体的应用中,索引数据库便具备上述“机器词典”的全部功能。
步骤S13、对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;
步骤S14、将所述中心词和关联词作为所述问诊内容对应的检索词。
***对提取出的中心词进行关联性扩展时,对必要的中心词查询医学关联词,得到与中心词相关联的关联词,达到扩展搜索内容的目的。本发明实施例中,***将疾病名、药品名、诊断、身体部位作为“必要的中心词”,进行关联性扩展。例如,将“胳膊”扩展到“手臂”;将“对乙酰氨基酚”扩展到“美林”、“泰诺林”等。扩展后,将中心词和与中心词相关联的关联词一起作为问诊内容对应的检索词,进行问诊数据的检索,扩大检索范围,避免数据遗漏。
与现有技术相比,本实施例通过扩展中心词进行检索,提高了检索的准确率,避免因数据遗漏造成的检索数据不齐全的问题。
在一优选的实施例中,如图3所示,在上述图1和图2的所述实施例的基础上,本发明文本检索方法图1所述实施例的步骤S20中,“将所述问诊数据按照与所述检索词的关联程度进行排序”可以实施为如下描述的步骤S21-S24:
步骤S21、获取所述问诊数据中包含的所述检索词的数量;
步骤S22、参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
步骤S23、根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
步骤S24、按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
本发明实施例中,***基于得到的每一条问诊数据,获取该问诊数据所包含的检索词的数量,基于用户输入的问诊内容,从索引数据库中查询该问诊数据中所包含的每一个检索词的权重值,将每一个检索词对应的数据量乘以该检索词对应的权重值,得到该检索词在该条问诊数据中的检索分值,将同一条问诊数据中包含的所有检索词对应的检索分值分别相加,得到该条问诊数据对应的总分值,按照每一条问诊数据对应的总分值,对问诊数据进行排序。为了数据处理的便捷性,按照总分值的由大到小,对问诊数据按照由前到后进行排序,得到排序后的问诊数据,以便***输出排序后的问诊数据。
与现有技术相比,本发明实施例通过按照检索词的数量和权重对问诊数据进行排序,提高了排序的智能性。
在一优选的实施例中,如图4所示,在上述图1、图2和图3所述实施例的基础上,本发明文件检索方法在图1所述实施例的步骤S30之后还可以执行如下步骤:
步骤S40、监测用户基于输出的所述问诊数据执行的操作事件,获取并记录所述操作事件对应的诊断数据。
本发明实施例中,***输出问诊内容对应的问诊数据后,监测用户针对该问诊数据所执行的操作事件,例如,用户针对上述问诊数据执行的查看操作事件、基于显示的有限条数的问诊数据执行的翻页操作或者下滑进度条操作等。通过监测用户针对问诊数据所执行的操作事件,***获取并记录上述操作事件对应的诊断数据。本发明实施例所描述的诊断数据可以理解为:用户查看的***所输出的问诊数据。
进一步地,在一优选的实施例中,如图5所示,在上述图1、图2、图3和图4所述实施例的基础上,本发明文本检索方法在图4所述实施例的步骤S40之后还可以执行如下步骤:
步骤S50、标记所述诊断数据,基于所述索引数据库,动态评估所述诊断数据中包含的所述检索词在所述索引数据库中的权重值。
本发明实施例中,***基于监测并获取的诊断数据,将上述诊断数据进行标记后反馈至索引数据库;为了提高文本检索的准确性,***查询用户输入的问诊内容所基于的索引数据库是不断更新变化的,***通过监测用户针对上述问诊数据所执行的操作事件,获取用户查看的诊断数据中所包含的检索词,并动态评估该检索词对应的权重值,更新索引数据库,为后续相同检索词的再次检索查询,提供依据。
与现有技术相比,本发明实施例通过监测用户执行的操作事件并基于用户执行的操作事件动态更新索引数据库中的检索词的权重值,提高了检索效率。
请参阅图6,图6为本发明文本检索***100较佳实施例的运行环境示意图。
基于图1至图5所述实例文本检索方法所公开的内容,在本实施例中,文本检索***100安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图6仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如文本检索***100的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本检索***100等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面,例如问诊内容输入界面等。电子装置1的部件11-13通过***总线相互通信。
请参阅图7,图7为本发明文本检索***100的一种实施方式的功能模块示意图。在本实施例中,文本检索***100可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图7中,文本检索***100可以被分割成:文字处理模块110、数据检索模块120及数据输出模块130。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述文本检索***100在电子装置1中的执行过程,其中:
文字处理模块110,用于对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
数据检索模块120,用于根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
数据输出模块130,用于按照排序结果,输出所述问诊内容对应的问诊数据。
在本发明一优选的实施例中,如图7所示,本发明文本检索***中,所述数据检索模块120还用于:
获取所述问诊数据中包含的所述检索词的数量;
参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
在本发明一优选的实施例中,如图8所示,图7所述实施例中,所述文本检索***100的所述文字处理模块110包括:
切词单元111,用于对用户输入的问诊内容进行中文切词;
提取单元112,用于按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
扩展单元113,用于对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;将所述中心词和关联词作为所述问诊内容对应的检索词。
在本发明一优选的实施例中,如图9所示,本发明文本检索***100还包括:
操作监测模块140,用于监测用户基于输出的所述问诊数据执行的操作事件,获取并记录所述操作事件对应的诊断数据。
在本发明一优选的实施例中,如图10所示,本发明文本检索***100还包括:
动态评估模块150,用于标记所述诊断数据,基于所述索引数据库,动态评估所述诊断数据中包含的所述检索词在所述索引数据库中的权重值。
与现有技术相比,本发明实施例文本检索***通过对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;按照排序结果,输出所述问诊内容对应的问诊数据;具有互联网在线问诊过程全自动化的有益效果,节约了宝贵的医疗资源,提高了问诊效率和医疗资源利用率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本检索方法,其特征在于,所述文本检索方法包括:
对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
按照排序结果,输出所述问诊内容对应的问诊数据。
2.如权利要求1所述的文本检索方法,其特征在于,所述对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词的步骤,包括:
对用户输入的问诊内容进行中文切词;
按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;
将所述中心词和关联词作为所述问诊内容对应的检索词。
3.如权利要求1所述的文本检索方法,其特征在于,所述将所述问诊数据按照与所述检索词的关联程度进行排序,包括:
获取所述问诊数据中包含的所述检索词的数量;
参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
4.如权利要求1所述的文本检索方法,其特征在于,所述文本检索方法还包括:
监测用户基于输出的所述问诊数据执行的操作事件,获取并记录所述操作事件对应的诊断数据。
5.如权利要求4所述的文本检索方法,其特征在于,所述文本检索方法还包括:
标记所述诊断数据,基于所述索引数据库,动态评估所述诊断数据中包含的所述检索词在所述索引数据库中的权重值。
6.一种电子装置,其特征在于,该电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本检索***,所述处理器执行所述文本检索***,可实现如下步骤:
对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
按照排序结果,输出所述问诊内容对应的问诊数据。
7.如权利要求6所述的电子装置,其特征在于,所述对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词的步骤,包括:
对用户输入的问诊内容进行中文切词;
按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;
将所述中心词和关联词作为所述问诊内容对应的检索词。
8.如权利要求6所述的电子装置,其特征在于,所述将所述问诊数据按照与所述检索词的关联程度进行排序的步骤,包括:
获取所述问诊数据中包含的所述检索词的数量;
参照用户输入的所述问诊内容,从所述索引数据库中查询并获取所述检索词对应的权重值;
根据所述检索词在所述问诊数据中的数量以及所述检索词的权重值,计算所述问诊数据对应的得分值;
按照所述问诊数据对应的得分值的大小,由前至后对所述问诊数据进行排序。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有文本检索***,所述文本检索***可被至少一个处理器执行,以实现以下步骤:
对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词;
根据得到的所述检索词,查询索引数据库对所述检索词进行文档匹配,得到对应的问诊数据,将所述问诊数据按照与所述检索词的关联程度进行排序;
按照排序结果,输出所述问诊内容对应的问诊数据。
10.如权利要求9所述的计算机可读存储介质,其特征在于,所述对用户输入的问诊内容进行文字预处理,得到预处理后的用于对所述问诊内容进行信息检索的检索词的步骤,包括:
对用户输入的问诊内容进行中文切词;
按照预设提取规则,从切词后的问诊内容中提取出对应的中心词;
对提取出的中心词进行关联性扩展,得到与所述中心词相关联的关联词;
将所述中心词和关联词作为所述问诊内容对应的检索词。
CN201710313524.XA 2017-05-05 2017-05-05 文本检索方法及*** Pending CN107766400A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710313524.XA CN107766400A (zh) 2017-05-05 2017-05-05 文本检索方法及***
PCT/CN2017/105005 WO2018201668A1 (zh) 2017-05-05 2017-09-30 文本检索方法、电子装置、计算机可读存储介质及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710313524.XA CN107766400A (zh) 2017-05-05 2017-05-05 文本检索方法及***

Publications (1)

Publication Number Publication Date
CN107766400A true CN107766400A (zh) 2018-03-06

Family

ID=61265237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710313524.XA Pending CN107766400A (zh) 2017-05-05 2017-05-05 文本检索方法及***

Country Status (2)

Country Link
CN (1) CN107766400A (zh)
WO (1) WO2018201668A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036506A (zh) * 2018-07-25 2018-12-18 平安科技(深圳)有限公司 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN111341457A (zh) * 2020-02-25 2020-06-26 广州七乐康药业连锁有限公司 一种基于大数据检索的医疗诊断信息可视化方法及装置
CN111966884A (zh) * 2020-10-21 2020-11-20 北京妙医佳健康科技集团有限公司 一种信息推送方法和装置
CN113827274A (zh) * 2021-11-23 2021-12-24 广东恒腾科技有限公司 一种无线彩超设备的自动控制***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
WO2001046838A1 (en) * 1999-12-20 2001-06-28 Answerchase, Inc. Answer retrieval technique
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索***
CN102289436A (zh) * 2010-06-18 2011-12-21 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002090978A1 (en) * 2001-05-04 2002-11-14 Paracel, Inc. Method and apparatus for high-speed approximate sub-string searches
CN100557612C (zh) * 2007-11-15 2009-11-04 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN103309886B (zh) * 2012-03-13 2017-05-10 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
WO2001046838A1 (en) * 1999-12-20 2001-06-28 Answerchase, Inc. Answer retrieval technique
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索***
CN102289436A (zh) * 2010-06-18 2011-12-21 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN103530789A (zh) * 2012-07-03 2014-01-22 百度在线网络技术(北京)有限公司 一种用于确定重点索引词的方法、装置和设备
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036506A (zh) * 2018-07-25 2018-12-18 平安科技(深圳)有限公司 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN111341457A (zh) * 2020-02-25 2020-06-26 广州七乐康药业连锁有限公司 一种基于大数据检索的医疗诊断信息可视化方法及装置
CN111341457B (zh) * 2020-02-25 2024-05-10 广州七乐康药业连锁有限公司 一种基于大数据检索的医疗诊断信息可视化方法及装置
CN111966884A (zh) * 2020-10-21 2020-11-20 北京妙医佳健康科技集团有限公司 一种信息推送方法和装置
CN113827274A (zh) * 2021-11-23 2021-12-24 广东恒腾科技有限公司 一种无线彩超设备的自动控制***

Also Published As

Publication number Publication date
WO2018201668A1 (zh) 2018-11-08

Similar Documents

Publication Publication Date Title
CN107609163B (zh) 医学知识图谱的生成方法、存储介质及服务器
US8285734B2 (en) Comparison of documents based on similarity measures
CN107330613A (zh) 一种舆情监控方法、设备及计算机可读存储介质
CN107766400A (zh) 文本检索方法及***
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
CN113724848A (zh) 基于人工智能的医疗资源推荐方法、装置、服务器及介质
CN112614578B (zh) 医生智能推荐方法、装置、电子设备及存储介质
CN111476029A (zh) 资源推荐方法和装置
CN113345577A (zh) 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质
CN112885478A (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN114860887A (zh) 基于智能联想的疾病内容推送方法、装置、设备及介质
CN111597789A (zh) 一种电子病历文本的评估方法及设备
CN110502622A (zh) 常见医疗问答数据生成方法、装置以及计算机设备
CN116860935A (zh) 基于提示词问答交互的内容管理方法、装置、设备及介质
CN116483976A (zh) 挂号科室推荐方法、装置、设备及存储介质
CN110752027A (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN116702776A (zh) 基于跨中西医的多任务语义划分方法、装置、设备及介质
CN113590845B (zh) 基于知识图谱的文献检索方法、装置、电子设备及介质
Palotti et al. CLEF 2017 task overview: the IR task at the eHealth evaluation lab: evaluating retrieval methods for consumer health search
US20210090691A1 (en) Cognitive System Candidate Response Ranking Based on Personal Medical Condition
Gobeill et al. Machine Learning for Automatic Encoding of French Electronic Medical Records: Is More Data Better?
Zuccon et al. Overview of the CLEF 2018 Consumer Health Search Task
Spenceley et al. The intelligent interface for online electronic medical records using temporal data mining
CN116467418A (zh) 医疗问答知识生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306

RJ01 Rejection of invention patent application after publication