CN101072205A - 一种聊天信息的检索方法及检索*** - Google Patents

一种聊天信息的检索方法及检索*** Download PDF

Info

Publication number
CN101072205A
CN101072205A CNA2007101094487A CN200710109448A CN101072205A CN 101072205 A CN101072205 A CN 101072205A CN A2007101094487 A CNA2007101094487 A CN A2007101094487A CN 200710109448 A CN200710109448 A CN 200710109448A CN 101072205 A CN101072205 A CN 101072205A
Authority
CN
China
Prior art keywords
index
chat message
terms
sequence number
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101094487A
Other languages
English (en)
Inventor
唐年鹏
孙良
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNA2007101094487A priority Critical patent/CN101072205A/zh
Publication of CN101072205A publication Critical patent/CN101072205A/zh
Priority to PCT/CN2008/071151 priority patent/WO2008154832A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种聊天信息的检索方法,包括:将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系;将所述索引词保存到创建的第一索引库;在所述第一索引库中查找与检索关键词相匹配的索引词;获取该索引词对应的序号,并调取该序号对应的聊天信息。同时本发明还公开一种聊天信息的检索***。本发明能够快速在聊天信息中检索到所需信息,减少用户的等待时间,提高用户的体验感。

Description

一种聊天信息的检索方法及检索***
技术领域
本发明涉及即时通讯领域,特别是涉及一种聊天信息的检索方法及检索***。
背景技术
网络即时通讯***是人们在网上进行沟通、联系的重要工具之一。许多用户在固定的客户端使用某一即时通讯***与好友沟通,一段时间后,即时通讯***就积累了相当数量的聊天信息。如果该用户还加入一些人数较多的群组,聊天信息在短时间就可能达到几十万、甚至上百万条。用户有时要在以往的聊天信息中检索所需信息,这就需要一种针对聊天信息的检索方法,能够在数据量庞大的聊天信息中准确、迅速地检索到所需信息。
参阅图1,为现有的聊天信息的检索方法流程图,具体步骤如下所述。
步骤S101、将用户的聊天信息保存到数据库中。
即时通讯***将用户所有的聊天信息保存到一个固定的数据库中,并将该数据库与检索***建立链接。
步骤S102、用户使用关键词进行检索。
用户启动检索***,输入检索关键词,在保存聊天信息的数据库中进行检索。如,用户输入关键词“买房”进行检索。
步骤S103、检索***遍历所有的聊天信息,查找与关键词相匹配的聊天信息。
为不漏掉所需的信息,检索***通常采用模糊匹配法,将与关键词相关的信息都检索出来。
如,关键词是“买房”,检索***将包括“买车”、“买礼品”、“住房”、“租房”等词语的信息都检索出来,显示给用户。
上述方法是在保存全部聊天信息的数据库中进行检索,检索时,需扫描的数据量极其庞大,因此检索速度相对较慢,有时要在10秒以上,造成用户等待时间过长,降低用户的体验感。
发明内容
本发明所要解决的技术问题是提供一种聊天信息的检索方法,该方法能够快速在聊天信息中检索到所需信息,减少用户的等待时间,提高用户的体验感。
本发明的另一个目的是提供一种聊天信息的检索***,该***能够快速在聊天信息中检索到所需信息,减少用户的等待时间,提高用户的体验感。
本发明公开一种聊天信息的检索方法,包括:将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系;将所述索引词保存到创建的第一索引库;在所述第一索引库中查找与检索关键词相匹配的索引词;获取该索引词对应的序号,并调取该序号对应的聊天信息。
优选的,还包括:将达到预置数量的新生成聊天信息处理成索引文件;记录上述索引文件的索引词与聊天信息的序号之间的对应关系;将上述索引词保存到创建的第二索引库。
优选的,还包括:在第二索引库中查找与检索关键词相匹配的索引词。
优选的,还包括:合并第一索引库与第二索引库,作为第一索引库。
优选的,还包括:获取没有建立索引的聊天信息;在上述聊天信息中调取包含检索关键词的聊天信息。
优选的,按下述步骤,将预设数量的聊天信息处理成索引文件:在聊天信息中不重复地提取各个词语,并将上述各个词语与包含该词语的聊天信息的序号建立对应关系。
优选的,调取该序号对应的聊天信息之后,还包括:调取该聊天信息之前及之后设置数量的聊天信息。
优选的,还包括:对索引文件中的索引词进行加密处理。
本发明还公开一种聊天信息的检索***,包括索引文件处理单元、第一索引词保存单元、检索单元、及聊天信息获取单元:
所述索引文件处理单元,用于将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系;
所述第一索引词保存单元,用于将所述索引词保存到创建的第一索引库;
所述检索单元,用于在所述第一索引库中查找与检索关键词相匹配的索引词;
所述聊天信息获取单元,用于获取该索引词对应的序号,并调取该序号对应的聊天信息。
优选的,还包括:
聊天信息发送单元,用于将达到预置数量的、新生成的聊天信息发送到所述索引文件处理单元;
所述第二索引词保存单元,用于将所述索引文件处理单元返回的索引词保存到创建的第二索引库。
与现有技术相比,本发明具有以下优点:
本发明将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系,将索引词保存到创建的第一索引库,在第一索引库中查找与检索关键词相匹配的索引词,获取该索引词对应的序号,并调取该序号对应的聊天信息。检索时,本发明是在第一索引库中查找与检索关键词相匹配的索引词,再根据该索引词对应的聊天信息序号调取聊天信息。相对于现有技术在保存全部聊天信息的数据库中查找包含检索关键词的聊天信息,本发明因第一索引库只保存预设数量聊天信息的索引词,其数据量相对较小,***在检索时所需扫描的数据量相对较少,因此检索时间就相对较短,使用户等待的时间减少,提高用户的体验感。
附图说明
图1为现有的聊天信息的检索方法流程图;
图2为本发明第一实施例提供的聊天信息的检索方法流程图;
图3为本发明第二实施例提供的聊天信息的检索方法流程图;
图4为本发明第三实施例提供的聊天信息的检索方法流程图;
图5为本发明第四实施例提供的聊天信息的检索方法流程图;
图6为本发明第五实施例提供的聊天信息的检索***示意图;
图7为本发明第六实施例提供的聊天信息的检索***示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系,将索引词保存到创建的第一索引库,在第一索引库中查找与检索关键词相匹配的索引词,获取该索引词对应的序号,并调取该序号对应的聊天信息。
参照图2,为本发明第一实施例提供的聊天信息的检索方法流程图,具体步骤如下所述。
步骤S201、将预设数量的聊天信息处理成索引文件。
即时通讯***中的聊天***将预设数量的、生成时间相对靠前的聊天信息发送给索引***,索引***在聊天信息中不重复地提取各个词语,并将上述各个词语与包含该词语的聊天信息的序号建立对应关系。上述各个词语作为索引词,将索引词与聊天信息序号建立对应关系的聊天信息作为索引文件。
聊天信息包括文字记录、生成时间、及发送用户和接收用户,每条聊天信息都对应一个唯一的序号。序号可以按聊天信息的生成时间顺序排列。预设数量为1万条聊天信息。
步骤S202、记录索引文件中索引词与聊天信息的序号之间的对应关系。
每个索引词可能对应一个或多个聊天信息序号。索引***记录各个索引词与聊天信息序号的对应关系,并保存该对应关系。
步骤S203、将索引词保存到创建的第一索引库。
创建一用于保存索引词的数据库,作为第一索引库。将索引词按一定的顺序保存在第一索引库。一定的顺序包括按索引词首个字母的排序、按索引词字数排序、及按索引词的笔画排序等方式。为保证聊天信息的保密性,本发明对索引词进行加密,加密后再保存到第一索引库。
步骤S204、在第一索引库中查找与检索关键词相匹配的索引词。
检索时,***获取检索关键词,在第一索引库中查找与该检索关键词相匹配的索引词。相匹配是指索引词与检索关键词相同。
步骤S205、获取该索引词对应的序号,并调取该序号对应的聊天信息。
获取查找到的索引词对应的聊天信息序号,再调取上述序号对应的聊天信息。
本发明是在第一索引库中查找与检索关键词相匹配的索引词,再根据该索引词对应的聊天信息序号调取聊天信息。因第一索引库只保存预设数量聊天信息的索引词,***在检索时所需扫描的数据量相对较少,因此检索时间就相对较短,使用户等待的时间减少,提高用户的体验感。
本发明即时通讯***中的聊天***在最新生成的聊天信息达到预置数量时,将新生成的聊天信息发送到索引***,索引***将接收到的聊天信息处理成索引文件。
参照图3,为本发明第二实施例提供的聊天信息的检索方法流程图,具体步骤如下所述。
步骤S301、将预设数量的聊天信息处理成索引文件。
如,即时通讯***中的聊天***将序号A1到A10000的1万条聊天信息发送到索引***,索引***在不重复地提取该1万条聊天信息所包含的全部词语,并将各个词语与包含该词语的聊天信息的序号建立对应关系。例如,序号为A1、A16、A520、A634、A1206、A7265等6条聊天信息包含词语“中国”,将“中国”与A1、A16、A520、A634、A1206、A7265等6个序号建立对应关系。
步骤S302、记录索引文件中索引词与聊天信息的序号之间的对应关系。
如,将索引词“中国”与A1、A16、A520、A634、A1206、A7265等6个序号相对应的对应关系记录到保存聊天信息的数据库。
步骤S303、将索引词保存到第一索引库。
如,将上述索引词“中国”保存到创建的第一索引库。
步骤S304、将达到预置数量的新生成的聊天信息处理成索引文件。
即时通讯***在应用时,不断生成聊天信息,当其生成的聊天信息达到预置数量时,聊天***将这些新生成的聊天信息发送到索引***,索引***将上述聊天信息处理成索引文件。预置数量优选为200条聊天信息。
如,即时通讯***中的聊天***将序号B1到B200的200条聊天信息发送到索引***,索引***不重复地提取该200条聊天信息中所包含的全部词语,并将各个词语与包含该词语的聊天信息的序号建立对应关系。例如,序号为B1、B16、B35、B92等4条聊天信息包含词语“中国”,将“中国”与B1、B16、B35、B92等4个序号建立对应关系。
步骤S305、记录上述索引文件中索引词与聊天信息的序号之间的对应关系。
如,将词语“中国”与B1、B16、B35、B92等4个序号相对应的对应关系记录到保存聊天信息的数据库。
步骤S306、将上述索引词保存到创建的第二索引库。
如,将上述索引词“中国”保存到创建的第二索引库。
步骤S307、在第一索引库和第二索引库中查找与检索关键词相匹配的索引词。
如,用户输入检索关键词“中国”,在第一索引库中查找到与其匹配的索引词“中国”;在第二索引库中也查找到与其匹配的索引词“中国”。
步骤S308、依据查找到的索引词对应的序号调取聊天信息。
如,获取第一索引库中的索引词“中国”对应聊天信息的序号为A1、A16、A520、A634、A1206、A7265;获取第二索引库中的索引词“中国”对应聊天信息的序号B1、B16、B35、B92,再将获取的序号合并,在保存聊天信息的数据库中调取序号为A1、A16、A520、A634、A1206、A7265、B1、B16、B35、B92的聊天信息。
当正在运行的即时通讯***生成的聊天信息达到一定数量时,本发明将这些新生成的聊天信息处理成索引文件参与检索,扩大检索范围,保证检索的全面性。
为方便用户从调取的聊天信息中获取到完整的资料,本发明还可在调取该序号对应的聊天信息时,调取该聊天信息之前及之后设置数量的聊天信息。设置数量优选为5条。如,在调取序号为B16的聊天信息时,还调取该序号之前5条聊天信息,既序号为B11、B12、B13、B14、B15的聊天信息,及该序号之后5条聊天信息,既序号为B17、B18、B19、B20、B21的聊天信息。
当正在运行的即时通讯***生成的聊天信息再次达到预置数量时,本发明将这些新生成的聊天信息也处理成索引文件参与检索,将索引词发送到第二索引库,第二索引库更新保存上述索引词。
为防止第二索引库的索引词在更新时与检索程序相冲突,本发明在第二索引库每次更新后,将第一、第二索引库中的内容合并到第一索引库,检索时,只针对第一索引库。
参照图4,为本发明第三实施例提供的聊天信息的检索方法流程图,具体步骤如下所述。
步骤S401、将预设数量的聊天信息处理成索引文件。预设数量为2万条聊天信息。
如,即时通讯***中的聊天***将序号A1到A20000的2万条聊天信息发送到索引***,索引***不重复地提取该2万条聊天信息中所包含的全部词语,并将各个词语与包含该词语的聊天信息的序号建立对应关系。例如,序号为A50、A456、A592、A6634、A12106、A17265等6条聊天信息包含词语“中国”,将“中国”与A50、A456、A592、A6634、A12106、A17265等6个序号建立对应关系。
步骤402、记录索引文件中索引词与聊天信息的序号之间的对应关系。
如,将词语“中国”与A50、A456、A592、A6634、A12106、A17265等6个序号相对应的对应关系记录到保存聊天信息的数据库。
步骤S403、将索引词保存到第一索引库。
索引词按哈希列表的形式排列在第一索引库,记录每个词语在列表中的位置信息,并将该位置信息发送到保存聊天信息的数据库,使索引词的位置信息与聊天信息的序号之间建立对应关系。如,将上述索引词“中国”的位置为“35、36”,第一索引库的“35、36”位置直接对应聊天信息的A50、A456、A592、A6634、A12106、A17265等6个序号。
步骤S404、将达到预置数量的、新生成的聊天信息处理成索引文件,预置数量为300条聊天信息。
即时通讯***正在应用时,当其生成的聊天信息再次达到预置数量时,聊天***将最近生成的聊天信息发送到索引***,索引***将上述聊天信息处理成索引文件。
如,即时通讯***中的聊天***将序号B1到B300的300条聊天信息发送到索引***,索引***不重复地提取该300条聊天信息所包含的全部词语,并将各个词语与包含该词语的聊天信息的序号建立对应关系。例如,序号为B21、B26、B65、B192等4条聊天信息包含词语“北京”,将“北京”与B21、B26、B65、B192等4个序号建立对应关系。
步骤S405、记录该索引文件中索引词与聊天信息的序号之间的对应关系。
如,将词语“北京”与B21、B26、B65、B192等4个序号相对应的对应关系记录到保存聊天信息的数据库。
步骤S406、将上述索引词保存到第二索引库。
索引词按哈希列表的形式排列在第二索引库,记录每个词语在列表中的位置信息,并将该位置信息发送到保存聊天信息的数据库,使索引词的位置信息与聊天信息的序号之间建立对应关系。如,将上述索引词“北京”的位置为“15、16”,第二索引库的“15、16”位置直接对应聊天信息的B21、B26、B65、B192等4个序号。
步骤S407、新生成的聊天信息达到预置数量时,更新上述索引文件。
即时通讯***继续生成新的聊天信息,当聊天信息再次达到预置数量时,索引***更新在步骤S406建立的索引文件,并将更新后的索引词发送到第二索引库,第二索引库更新其保存的索引词。
步骤S408、合并第一索引库与第二索引库,作为第一索引库。
第二索引库更新完成后,合并第一、第二索引库作为第一索引库,第一索引库保存有原第一、第二索引库的索引词。如,合并后,索引词“中国”的位置信息仍为“35、36”;索引词“北京”的位置信息为“15、16”。
步骤S409、在第一索引库中查找与检索关键词相匹配的索引词。
如,用户输入检索关键词“中国OR北京”,在第一索引库中查找到与其匹配的索引词“中国”,其位置信息为“35、36”;索引词“北京”的位置信息为“15、16”。
步骤S410、依据查找到的索引词对应的序号调取聊天信息。
如,位置信息为“35、36”对应聊天信息的序号为A50、A456、A592、A6634、A12106、A17265;位置信息为“15、16”对应聊天信息的序号B21、B26、B65、B192。根据检索要求,将检索到的序号合并,在聊天信息数据库中调取序号为A50、A456、A592、A6634、A12106、A17265、B21、B26、B65、B192的聊天信息。
本发明将使用第一索引库作为检索专用数据库,使用第二索引库接收聊天***最近生成的聊天信息所对应的索引词,并在每次更新时将索引词并入第一索引库。用户在检索时,只需针对第一索引库进行检索,在同一索引库内,有效的避免频繁接收聊天***发送的索引词与检索程序相冲突,保证检索的正常、快速进行。
即时通讯***在运行时,实时生成聊天信息,但实时生成的聊天信息在没有达到预置数量时,还不能将处理成索引文件,这些实时生成的聊天信息就会被遗漏在检索范围之内。为保证能对上述实时生成的聊天信息进行检索,本发明直接在上述聊天信息中查找包含检索关键词的聊天信息。
参照图5,为本发明第四实施例提供的聊天信息的检索方法流程图,具体步骤如下所述。
步骤S501、将预设数量的聊天信息处理成索引文件,记录索引文件中索引词与聊天信息的序号之间的对应关系,并将索引词保存到第一索引库。
步骤S502、将达到预置数量的新生成的聊天信息处理成索引文件,记录该索引文件中索引词与聊天信息的序号之间的对应关系,并将上述索引词保存到第二索引库。
步骤S503、新生成的聊天信息再次达到预置数量时,更新在步骤S502建立的索引文件,同时更新第二索引库。
步骤S504、合并第一索引库与第二索引库,作为第一索引库。
步骤S505、在第一索引库中查找与检索关键词相匹配的索引词。
如,用户输入检索关键词“中国AND北京”,在第一索引库中查找到与其匹配的索引词“中国”和“北京”。
步骤S506、依据查找到的索引词对应的序号调取聊天信息。
如,获取第一索引库中的索引词“中国”对应聊天信息的序号为A50、A456、A592、A6634、A12106、A17265、B21、B26;“北京”对应聊天信息的序号A12106、A17265、B21、B26、B65、B192。根据检索要求,在检索到的序号中取交集部分A12106、A17265、B21、B26,在聊天信息数据库中调取序号为A12106、A17265、B21、B26的聊天信息。
步骤S507、在没有建立索引的聊天信息中检索包含检索关键词的聊天信息。
如,在聊天***实时生成的、还没有建立索引文件的聊天信息中检索同时包含词语“中国”和“北京”的聊天信息。
步骤S508、将上述聊天信息调取出来,与步骤S506中调取的聊天信息合并。
本发明对即时通讯***实时生成的聊天信息进行检索,因实时生成的聊天信息量小于预置数值,在检索时需扫描的数据量很小,并不影响整体的检索速度。因此,本发明在不影响检索速度的前提下,进一步保证检索的实时性和全面型。
基于上述聊天信息的检索方法,本发明还提供一种聊天信息的检索***,该***能够快速在聊天信息中检索到所需信息,减少用户的等待时间,提高用户的体验感。
参照图6,为本发明第五实施例提供的聊天信息的检索***示意图,包括索引文件处理单元61、第一索引词保存单元62、检索单元63、及聊天信息获取单元64。
索引文件处理单元61将预设数量的聊天信息处理成索引文件,记录索引文件中索引词与聊天信息的序号之间的对应关系。聊天***将预设数量的、生成时间相对靠前的聊天信息发送给索引文件处理单元61,索引文件处理单元61在聊天信息中不重复地提取各个词语,并将上述各个词语与包含该词语的聊天信息的序号建立对应关系。预设数量为1万条聊天信息。
第一索引词保存单元62将索引词保存到创建的第一索引库。第一索引词保存单元62创建一用于保存索引词的数据库,作为第一索引库,将索引词按一定的顺序保存在第一索引库。
检索单元63在第一索引库中查找与检索关键词相匹配的索引词。检索时,检索单元63获取检索关键词,在第一索引库中查找与该检索关键词相匹配的索引词。相匹配是指索引词与检索关键词相同。
聊天信息获取单元64获取该索引词对应的序号,并调取该序号对应的聊天信息。
本发明可利用聊天信息发送单元在聊天***最新生成的聊天信息达到预置数量时,将新生成的聊天信息发送到索引文件处理单元61,索引文件处理单元61将接收到的聊天信息处理成索引文件。
参照图7,为本发明第六实施例提供的聊天信息的检索***示意图,包括索引文件处理单元61、第一索引词保存单元62、检索单元63、聊天信息获取单元64、聊天信息发送单元65、及第二索引词保存单元66。
聊天信息发送单元65将达到预置数量的、新生成的聊天信息发送到索引文件处理单元61,索引文件处理单元61将上述聊天信息处理成索引文件,记录索引文件中索引词与聊天信息的序号之间的对应关系,并将索引词发送到第二索引词保存单元66。
第二索引词保存单元66将索引文件处理单元61返回的索引词保存到创建的第二索引库。
当正在运行的即时通讯***生成的聊天信息再次达到预置数量时,聊天信息发送单元65将这些新生成的聊天信息也处理成索引文件参与检索,将索引词发送到第二索引库,第二索引库更新保存上述索引词。
为防止第二索引库的索引词在更新时与检索程序相冲突,本发明在第二索引库每次更新后,利用加设的合并单元将第一、第二索引库中的内容合并到第一索引库,检索时,只针对第一索引库。
以上对本发明所提供的一种聊天信息的检索方法及检索***,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1、一种聊天信息的检索方法,其特征在于,包括:
将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系;
将所述索引词保存到创建的第一索引库;
在所述第一索引库中查找与检索关键词相匹配的索引词;
获取该索引词对应的序号,并调取该序号对应的聊天信息。
2、如权利要求1所述的方法,其特征在于,还包括:
将达到预置数量的新生成聊天信息处理成索引文件;
记录上述索引文件的索引词与聊天信息的序号之间的对应关系;
将上述索引词保存到创建的第二索引库。
3、如权利要求2所述的方法,其特征在于,还包括:
在第二索引库中查找与检索关键词相匹配的索引词。
4、如权利要求2所述的方法,其特征在于,还包括:
合并第一索引库与第二索引库,作为第一索引库。
5、如权利要求1所述的方法,其特征在于,还包括:
获取没有建立索引的聊天信息;
在上述聊天信息中调取包含检索关键词的聊天信息。
6、如权利要求1至5任一项所述的方法,其特征在于,按下述步骤,将预设数量的聊天信息处理成索引文件:
在聊天信息中不重复地提取各个词语,并将上述各个词语与包含该词语的聊天信息的序号建立对应关系。
7、如权利要求1至5任一项所述的方法,其特征在于,调取该序号对应的聊天信息之后,还包括:
调取该聊天信息之前及之后设置数量的聊天信息。
8、如权利要求1至5任一项所述的方法,其特征在于,还包括:
对索引文件中的索引词进行加密处理。
9、一种聊天信息的检索***,其特征在于,包括索引文件处理单元、第一索引词保存单元、检索单元、及聊天信息获取单元:
所述索引文件处理单元,用于将预设数量的聊天信息处理成索引文件,记录所述索引文件中索引词与聊天信息的序号之间的对应关系;
所述第一索引词保存单元,用于将所述索引词保存到创建的第一索引库;
所述检索单元,用于在所述第一索引库中查找与检索关键词相匹配的索引词;
所述聊天信息获取单元,用于获取该索引词对应的序号,并调取该序号对应的聊天信息。
10、如权利要求9所述的***,其特征在于,还包括:
聊天信息发送单元,用于将达到预置数量的、新生成的聊天信息发送到所述索引文件处理单元;
所述第二索引词保存单元,用于将所述索引文件处理单元返回的索引词保存到创建的第二索引库。
CNA2007101094487A 2007-06-21 2007-06-21 一种聊天信息的检索方法及检索*** Pending CN101072205A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2007101094487A CN101072205A (zh) 2007-06-21 2007-06-21 一种聊天信息的检索方法及检索***
PCT/CN2008/071151 WO2008154832A1 (fr) 2007-06-21 2008-05-30 Procédé et dispositif d'extraction d'informations de discussion en ligne

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101094487A CN101072205A (zh) 2007-06-21 2007-06-21 一种聊天信息的检索方法及检索***

Publications (1)

Publication Number Publication Date
CN101072205A true CN101072205A (zh) 2007-11-14

Family

ID=38899198

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101094487A Pending CN101072205A (zh) 2007-06-21 2007-06-21 一种聊天信息的检索方法及检索***

Country Status (2)

Country Link
CN (1) CN101072205A (zh)
WO (1) WO2008154832A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008154832A1 (fr) * 2007-06-21 2008-12-24 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif d'extraction d'informations de discussion en ligne
WO2009070927A1 (en) * 2007-12-03 2009-06-11 Ebay Inc. Live search chat room
CN101833556B (zh) * 2009-03-12 2011-12-14 英业达股份有限公司 文件内容管理***及其方法
CN103117863A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 群组通信关系的建立、以及网页展现方法和相关设备
CN103744857A (zh) * 2013-12-10 2014-04-23 厦门亿联网络技术股份有限公司 一种在即时通讯的聊天记录中搜索关键字的方法
CN103870491A (zh) * 2012-12-13 2014-06-18 联想(北京)有限公司 一种信息匹配方法及电子设备
CN103885975A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 进行推荐信息素引的方法及索引服务器
CN103902572A (zh) * 2012-12-27 2014-07-02 三星电子(中国)研发中心 移动终端及其数据管理方法
CN104104580A (zh) * 2013-04-10 2014-10-15 腾讯科技(深圳)有限公司 一种群组信息的处理方法、群组信息***及相关装置
CN104375997A (zh) * 2013-08-13 2015-02-25 腾讯科技(深圳)有限公司 一种为即时通讯音频信息添加备注信息的方法和装置
CN104598550A (zh) * 2014-12-31 2015-05-06 北京奇艺世纪科技有限公司 一种网络视频索引的更新方法和装置
CN105024906A (zh) * 2014-04-21 2015-11-04 腾讯科技(深圳)有限公司 社交网络中的群消息存储、查询方法和***
CN105095326A (zh) * 2014-05-23 2015-11-25 北京奇虎科技有限公司 一种信息的查找方法和装置
CN105357370A (zh) * 2015-09-30 2016-02-24 努比亚技术有限公司 一种聊天消息定位方法及终端
CN105512860A (zh) * 2015-12-08 2016-04-20 上海新致软件股份有限公司 沟通支持装置、***及沟通方法
CN105608100A (zh) * 2015-08-31 2016-05-25 南京酷派软件技术有限公司 信息提取方法和信息提取装置
CN103117863B (zh) * 2011-11-16 2016-12-14 阿里巴巴集团控股有限公司 群组通信关系的建立、以及网页展现方法和相关设备
CN106326237A (zh) * 2015-06-18 2017-01-11 天脉聚源(北京)科技有限公司 一种微信信息检索方法和***
CN109218169A (zh) * 2018-10-12 2019-01-15 广州酷狗计算机科技有限公司 即时通讯方法、装置及存储介质
CN109597882A (zh) * 2018-12-19 2019-04-09 网易(杭州)网络有限公司 一种场景会话业务处理方法和装置
CN110674112A (zh) * 2019-09-23 2020-01-10 北京百分点信息科技有限公司 一种数据查询的方法、装置及电子设备
CN111143582A (zh) * 2019-12-04 2020-05-12 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN112559521A (zh) * 2020-12-11 2021-03-26 广州海量数据库技术有限公司 话单查找方法及***
CN112579649A (zh) * 2020-12-24 2021-03-30 成都中科大旗软件股份有限公司 一种基于索引技术实现k-v逆转检索方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111427989B (zh) * 2019-01-10 2023-07-04 新方正控股发展有限责任公司 一种全文检索的索引处理方法、索引处理***及存储介质
CN111258468B (zh) * 2020-01-09 2023-02-03 维沃移动通信(杭州)有限公司 一种信息处理方法及电子设备
CN111934987A (zh) * 2020-08-04 2020-11-13 公安部第三研究所 一种针对手机企业微信的数据提取方法,***以及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092707A (ja) * 1999-09-24 2001-04-06 Nec Corp 情報処理システム、構造化文書処理システム、その更新方法及びその更新プログラムを記録した記録媒体
US6606644B1 (en) * 2000-02-24 2003-08-12 International Business Machines Corporation System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool
CN1251120C (zh) * 2002-05-15 2006-04-12 联想(北京)有限公司 对移动通信终端设备实现短消息全记录聊天室的方法
JP2004199144A (ja) * 2002-12-16 2004-07-15 Nissan Motor Co Ltd 掲示板システム、掲示板運用方法、及び掲示板運用プログラム
CN1863058A (zh) * 2005-05-12 2006-11-15 华为技术有限公司 一种用户获取聊天室历史记录的方法和聊天室业务***
CN101072205A (zh) * 2007-06-21 2007-11-14 腾讯科技(深圳)有限公司 一种聊天信息的检索方法及检索***

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008154832A1 (fr) * 2007-06-21 2008-12-24 Tencent Technology (Shenzhen) Company Limited Procédé et dispositif d'extraction d'informations de discussion en ligne
US9003307B2 (en) 2007-12-03 2015-04-07 Ebay Inc. Live search chat room
WO2009070927A1 (en) * 2007-12-03 2009-06-11 Ebay Inc. Live search chat room
CN101884200A (zh) * 2007-12-03 2010-11-10 电子湾有限公司 实况搜索聊天室
US8132112B2 (en) 2007-12-03 2012-03-06 Ebay Inc. Live search chat room
CN101884200B (zh) * 2007-12-03 2014-05-07 电子湾有限公司 实况搜索聊天室
CN101833556B (zh) * 2009-03-12 2011-12-14 英业达股份有限公司 文件内容管理***及其方法
CN103117863A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 群组通信关系的建立、以及网页展现方法和相关设备
CN103117863B (zh) * 2011-11-16 2016-12-14 阿里巴巴集团控股有限公司 群组通信关系的建立、以及网页展现方法和相关设备
CN103870491A (zh) * 2012-12-13 2014-06-18 联想(北京)有限公司 一种信息匹配方法及电子设备
CN103870491B (zh) * 2012-12-13 2017-03-01 联想(北京)有限公司 一种信息匹配方法及电子设备
CN103885975A (zh) * 2012-12-21 2014-06-25 腾讯科技(深圳)有限公司 进行推荐信息素引的方法及索引服务器
CN103885975B (zh) * 2012-12-21 2017-12-15 腾讯科技(深圳)有限公司 进行推荐信息素引的方法及索引服务器
CN103902572A (zh) * 2012-12-27 2014-07-02 三星电子(中国)研发中心 移动终端及其数据管理方法
CN104104580A (zh) * 2013-04-10 2014-10-15 腾讯科技(深圳)有限公司 一种群组信息的处理方法、群组信息***及相关装置
CN104104580B (zh) * 2013-04-10 2018-07-27 腾讯科技(深圳)有限公司 一种群组信息的处理方法、群组信息***及相关装置
CN104375997A (zh) * 2013-08-13 2015-02-25 腾讯科技(深圳)有限公司 一种为即时通讯音频信息添加备注信息的方法和装置
CN103744857A (zh) * 2013-12-10 2014-04-23 厦门亿联网络技术股份有限公司 一种在即时通讯的聊天记录中搜索关键字的方法
CN105024906B (zh) * 2014-04-21 2018-10-02 腾讯科技(深圳)有限公司 社交网络中的群消息存储、查询方法和***
CN105024906A (zh) * 2014-04-21 2015-11-04 腾讯科技(深圳)有限公司 社交网络中的群消息存储、查询方法和***
CN105095326A (zh) * 2014-05-23 2015-11-25 北京奇虎科技有限公司 一种信息的查找方法和装置
CN104598550A (zh) * 2014-12-31 2015-05-06 北京奇艺世纪科技有限公司 一种网络视频索引的更新方法和装置
CN104598550B (zh) * 2014-12-31 2018-09-25 北京奇艺世纪科技有限公司 一种网络视频索引的更新方法和装置
CN106326237A (zh) * 2015-06-18 2017-01-11 天脉聚源(北京)科技有限公司 一种微信信息检索方法和***
WO2017036047A1 (zh) * 2015-08-31 2017-03-09 宇龙计算机通信科技(深圳)有限公司 信息提取方法和信息提取装置
CN105608100A (zh) * 2015-08-31 2016-05-25 南京酷派软件技术有限公司 信息提取方法和信息提取装置
CN105357370A (zh) * 2015-09-30 2016-02-24 努比亚技术有限公司 一种聊天消息定位方法及终端
CN105512860A (zh) * 2015-12-08 2016-04-20 上海新致软件股份有限公司 沟通支持装置、***及沟通方法
CN109218169A (zh) * 2018-10-12 2019-01-15 广州酷狗计算机科技有限公司 即时通讯方法、装置及存储介质
CN109218169B (zh) * 2018-10-12 2020-12-22 广州酷狗计算机科技有限公司 即时通讯方法、装置及存储介质
CN109597882A (zh) * 2018-12-19 2019-04-09 网易(杭州)网络有限公司 一种场景会话业务处理方法和装置
CN110674112A (zh) * 2019-09-23 2020-01-10 北京百分点信息科技有限公司 一种数据查询的方法、装置及电子设备
CN111143582A (zh) * 2019-12-04 2020-05-12 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN111143582B (zh) * 2019-12-04 2023-09-22 青岛聚看云科技有限公司 一种双索引实时更新联想词的多媒体资源推荐方法及装置
CN112559521A (zh) * 2020-12-11 2021-03-26 广州海量数据库技术有限公司 话单查找方法及***
CN112579649A (zh) * 2020-12-24 2021-03-30 成都中科大旗软件股份有限公司 一种基于索引技术实现k-v逆转检索方法

Also Published As

Publication number Publication date
WO2008154832A1 (fr) 2008-12-24

Similar Documents

Publication Publication Date Title
CN101072205A (zh) 一种聊天信息的检索方法及检索***
CN104079538B (zh) 一种支持跨平台互动的微博聚合方法及***
WO2021031607A1 (zh) 一种风险控制方法、计算机设备及可读存储介质
CN105052086B (zh) 为电子邮件自动排序及选择收件人的***和方法
CN107169083A (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN104298785B (zh) 一种众搜资源搜索方法
EP2282289A1 (en) Social community generated answer system with collaboration constraints
CN101374148A (zh) 博客好友权限管理方法及***
CN102037481A (zh) 用于检测行为模式的方法及设备
JP2009199368A (ja) グループ連携システム、グループ連携方法、およびグループ連携プログラム
CN104636477B (zh) 一种信息推送前推送列表的去重方法
CN101242374A (zh) 即时通讯中匹配用户列表的***、方法和即时通讯终端
CN108432200A (zh) 使能够通信的同时限制对用户信息的访问
CN104092770A (zh) 基于云计算的企业内部通讯录管理方法和***
CN103345521A (zh) 一种在哈希表数据库中处理键值的方法和装置
CN107634897B (zh) 群推荐方法和装置
CN104113572A (zh) 用户生成内容的发布方法、***和前端装置
CN100392652C (zh) 检索***和检索方法
US20090276436A1 (en) Method, apparatus, and computer program product for providing service invitations
CN104021191A (zh) 一种提供移动终端相关问题解决方案的方法、***及服务器
CN102325143A (zh) 一种基于云平台的信息收集存储和加密检索***
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
US20170004531A1 (en) Advertisement selection using information retrieval systems
CN117076523A (zh) 一种用于本地的数据时序存储方法
KR101646026B1 (ko) 온라인 게시물의 알림 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20071114