CN113704399A - 大数据金融信息智能识别和存储方法、***及存储介质 - Google Patents

大数据金融信息智能识别和存储方法、***及存储介质 Download PDF

Info

Publication number
CN113704399A
CN113704399A CN202110904059.3A CN202110904059A CN113704399A CN 113704399 A CN113704399 A CN 113704399A CN 202110904059 A CN202110904059 A CN 202110904059A CN 113704399 A CN113704399 A CN 113704399A
Authority
CN
China
Prior art keywords
chat
keywords
chat records
records
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110904059.3A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiang Zhenghao
Original Assignee
Jiang Zhenghao
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiang Zhenghao filed Critical Jiang Zhenghao
Priority to CN202110904059.3A priority Critical patent/CN113704399A/zh
Publication of CN113704399A publication Critical patent/CN113704399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据金融信息智能识别和存储方法及***,通过获得大数据用户与对方用户之间的聊天日志;通过三层贝叶斯概率模型提取出所述聊天记录的关键词;根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;将所述聊天记录存储在与所述重要指数对应的区块中实现了对重要事件进行分区存储,同样重要的事情存储在一个区块中,便于用户查找和管理聊天记录,提高了用户信息存储即管理的有效性和便捷性。

Description

大数据金融信息智能识别和存储方法、***及存储介质
技术领域
本发明涉及信息安全技术领域,具体而言涉及一种大数据金融信息智能识别和存储方法及***。
背景技术
在计算机技术飞速发展的今天,通过网络聊天的方式进行交流已经是人们日常生活交友、工作对接的一种方式,在大数据时代,特别是对于金融、教育领域,这些领域需要人与人之间进行大量的沟通。目前,人们的网络交流主要依赖于各个聊天的软件、网站的聊天界面,这些聊天记录要么不进行存储,要么将所有聊天记录都存储在设备本地中,但是当设备本地的存储空间满了的时候,就必须清除聊天记录,以释放空间来支持新的聊天进程的进行。
无论生活中还是工作中,聊天记录会包含有重要的信息,例如关于某个事件的陈述、关于某个事件的承诺、关于某个事件的金额约定、事件约定等等,如果用户忘记将这些重要信息进行记录,一旦将包含这些信息的聊天记录删除后,对于后续用户需要进行事件复盘的时候,将失去复盘原事件情况的依据,给用户带来了极大的麻烦。但是如果所有聊天记录都进行保存,将占据大量的存储空间。但是当下用户有可能没法确定当下称述的事件是否是以后需要复盘的、用户也有可能在事件发生的当下并没意识到当下所说的话是重要的信息,所以用户并没有及时将这些信息记录下来,直到需要用的时候发现已经删除,以及找不到这些信息,用户才后悔莫及。
为此,一种能够自动识别出用户的重要信息并将所述重要信息进行有效存储的聊天记录的存储方法为人们所需。
发明内容
本发明的目的在于提供了一种大数据金融信息智能识别和存储方法、***及存储介质,用以解决上述存在的问题。
第一方面,本发明实施例提供了一种大数据金融信息智能识别和存储方法,所述方法包括:
获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;
通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;
根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;
将所述聊天记录存储在与所述重要指数对应的区块中。
可选的,在所述将所述聊天记录存储在与所述重要指数对应的区块中之前,所述方法还包括:
对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。
可选的,所述方法还包括:获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
可选的,所述获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,包括:
获得所述聊天记录的前N条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述前置语段;
基于所述三层贝叶斯概率模型提取出所述前置语段的关键词;
获得所述聊天记录的后M条聊天记录构成的后置语段的关键词,包括:
获得所述聊天记录的后M条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述后置语段;
基于所述三层贝叶斯概率模型提取出所述后置语段的关键词。
可选的,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
第二方面,本法实施例提供了一种大数据金融信息智能识别和存储***,所述***包括:
获得模块,用于获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;
提取模块,用于通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;
存储模块,用于根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;将所述聊天记录存储在与所述重要指数对应的区块中。
可选的,在所述将所述聊天记录存储在与所述重要指数对应的区块中之前,所述方法还包括:
对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。
可选的,所述方法还包括:获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
可选的,所述获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,包括:
获得所述聊天记录的前N条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述前置语段;
基于所述三层贝叶斯概率模型提取出所述前置语段的关键词;
获得所述聊天记录的后M条聊天记录构成的后置语段的关键词,包括:
获得所述聊天记录的后M条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述后置语段;
基于所述三层贝叶斯概率模型提取出所述后置语段的关键词。
可选的,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤以及存储所述聊天记录。
相较于现有技术,本发明达到的有益效果是:
本发明实施例提供了一种大数据金融信息智能识别和存储方法及***,通过获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;将所述聊天记录存储在与所述重要指数对应的区块中。根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数,将所述聊天记录存储在与所述重要指数对应的区块中,实现了对重要事件进行分区存储,同样重要的事情存储在一个区块中,便于用户查找和管理聊天记录,提高了用户信息存储即管理的有效性和便捷性。
附图说明
图1是本发明实施例提供的一种大数据金融信息智能识别和存储方法流程图。
图2是本发明实施例提供的一种电子设备的方框结构示意图。
图中标记:总线500;接收器501;处理器502;发送器503;存储器504;总线接口505。
具体实施方式
下面结合附图,对本发明作详细的说明。
实施例
本发明实施例提供了一种大数据金融信息智能识别和存储方法,如图1所示,所述方法包括:
S101:获得大数据用户与对方用户之间的聊天日志。
其中,所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息。每条聊天记录包括说话的对象、说话的时间和说话的内容。大数据用户可以是金融用户、在线教育的用户等这些互联网用户。
S102:通过三层贝叶斯概率模型提取出所述聊天记录的关键词。
其中,所述关键词能够表征所述聊天记录的行为意图。例如,一条聊天记录是“张三:今天售价三千2021年4月5日 16:01”,那么关键词就是“售价三千”。
S103:根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数。
其中,前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度。所述聊天记录的前N条聊天记录指的是发出时间在所述聊天记录之前的N条聊天记录,所述聊天记录的后M条聊天记录指的是发出时间在所述聊天记录之后的M条聊天记录。
S104:将所述聊天记录存储在与所述重要指数对应的区块中。
通过采用以上方案,根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数,将所述聊天记录存储在与所述重要指数对应的区块中,实现了对重要事件进行智能识别并分区存储,同样重要的事情存储在一个区块中,便于用户查找和管理聊天记录,提高了用户信息存储即管理的有效性和便捷性。
这样,当用户需要找某个信息时,就可以直接在该信息(聊天记录)的重要指数丢应的区块中去找。当用户需要删除不重要的信息时,也可以直接删除重要指数低的区块中的数据信息(聊天记录)。除此之外,所述方法还包括定期更新存储区块中的聊天记录(信息),即更新聊天记录的存储位置,即将不再重要的聊天记录(信息)移动到重要指数低(小)的区块中,将变得重要的聊天记录(信息)移动到重要指数高的区块中。具体的,更新聊天记录的存储位置的方式包括:获得存储区块中用户的历史聊天记录的影响度和所述历史聊天记录的重要指数;需要说明的是基于所述影响度和所述重要指数,更新所述历史聊天记录的存储位置。需要说明的是,在将所述聊天记录存储到区块中以后,所述聊天记录就变成了所述用户的历史聊天记录。
其中,所述影响度表示所述历史聊天记录中所陈述的事件当下对所述用户的影响程度;所述重要指数表示在将所述历史聊天记录存储到所述存储区块之前预计的,所述历史聊天记录所陈述的事件,在后续对所述用户的影响程度;所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容。
其中,获得存储区块(上述的区块)中用户的历史聊天记录的影响度,包括:
确定在将所述历史聊天记录存储到所述存储区块的时刻到当前时刻的时间段为考察时间段;可选的,考察时间段可以设置为一周、半个月、一个月、一个季度、半年、一年等时间长度。
获得用户与对方用户在考察时间段内的聊天日志。
所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息。
获得所述聊天日志中每条聊天记录的关键词和所述历史聊天记录的关键词。其中,所述关键词能够表征所述聊天记录的行为意图。
获得所述聊天记录的关键词与所述历史聊天记录的关键词之间的关联度。
所述关联度表示所述历史聊天记录所提及的事件与所述聊天记录所称述的事件之间的关联程度;每条聊天记录与所述历史聊天记录之间存在一个关联度,多条聊天记录对应多个关联度。在本发明实施例中,以获得所述聊天记录的关键词构成的词向量与所述历史聊天记录的关键词构成的词向量之间的夹角的余弦值作为所述关联度。
确定关联度大于预设值的聊天记录为关联聊天记录;可选的,预设值的取值可以是0.5。
以所述关联聊天记录的个数作为所述历史聊天记录的影响度。关联聊天记录有5条,那么所述历史聊天记录的影响度为5。
可选的,所述基于所述影响度和所述重要指数,更新所述历史聊天记录的存储位置,包括:
基于所述影响度和所述聊天日志,预测所述历史聊天记录所陈述的事件在当前时刻之后的后续影响度。
其中,所述后续影响度表示所述历史聊天记录中所陈述的事件在当前时刻之后对所述用户的影响程度。
基于所述后续影响度和所述重要指数,更新所述历史聊天记录的存储位置,具体包括:
获得所述聊天日志中聊天记录的条数;
以所述影响度与所述聊天日志中聊天记录的条数的商作为影响因子;
以所述影响因子与所述影响程度之积作为预测的后续影响度。
可选的,所述基于所述后续影响度和所述重要指数,更新所述历史聊天记录的存储位置,包括:
以所述后续影响度与所述聊天日志中聊天记录的条数的商作为调节因子;例如,后续影响度为h,聊天日志中聊天记录的条数为n,调节因子r=h/n。
以所述调节因子与所述重要指数的乘积作为所述历史聊天记录的新的重要指数;
将所述历史聊天记录存储在于所述新的重要指数对应的存储区块上。假设原来的重要指数是1,新的重要指数是2,那么将历史聊天记录从重要指数为1的存储区块移动到重要指数是2的存储区块中进行存储。这样就实现了对用户信息的智能自动的有效管理,同事提高了***性能。
可选的,在所述将所述聊天记录存储在与所述重要指数对应的区块中之前,所述方法还包括:对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。在本发明实施例中,可以将存储空间分成3个区块,3个区块的重要指数分别是1、2、3。重要指数越大,表示该区块存储的聊天记录(信息)越重要。
可选的,在S103之前,所述方法还包括:获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。可选的,可以通过三层贝叶斯概率模型(Latent Dirichlet Allocation,LDA)获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及通过三层贝叶斯概率模型(LatentDirichlet Allocation,LDA)获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
可选的,所述获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,包括:
获得所述聊天记录的前N条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述前置语段;
基于所述三层贝叶斯概率模型提取出所述前置语段的关键词;
获得所述聊天记录的后M条聊天记录构成的后置语段的关键词,包括:
获得所述聊天记录的后M条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述后置语段;
基于所述三层贝叶斯概率模型提取出所述后置语段的关键词。
例如,例如,聊天日志是“用户A:你多少钱卖这个本子给我2021年8月5日12:00
用户B(对方用户):25块钱一分不少。2021年8月5日12:01
用户A:可不可以少一点2021年8月5日12:02
用户B:那你觉得多少合适2021年8月5日12:03
用户A:5元行不行2021年8月5日12:04
用户B:你可拉倒吧,不行,加一点。2021年8月5日12:05
用户A:那10元,不卖就算了。2021年8月5日12:06
用户B:10元不卖。”
那么聊天日志中包含8 条聊天记录。假设N=4,M=3,所述聊天记录“用户A:5元行不行2021年8月5日12:04”的前N条聊天记录包括“用户A:你多少钱卖这个本子给我2021年8月5日12:00
用户B(对方用户):25块钱一分不少。2021年8月5日12:01
用户A:可不可以少一点2021年8月5日12:02
用户B:那你觉得多少合适2021年8月5日12:03”。
前置语段为“你多少钱卖这个本子给我25块钱一分不少。可不可以少一点那你觉得多少合适”。
所述聊天记录“用户A:5元行不行2021年8月5日12:04”的后M条聊天记录包括“用户B:你可拉倒吧,不行,加一点。2021年8月5日12:05
用户A:那10元,不卖就算了。2021年8月5日12:06
用户B:10元不卖。”。
后置语段就是“5元行不行你可拉倒吧,不行,加一点。那10元,不卖就算了。10元不卖。”。
可选的,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;例如,所述聊天记录的关键词是包括“5元”“行不行”,所述聊天记录的前后聊天记录的关键词包括“本子”“多少钱”。根据这些关键词在所在的上述聊天记录的说话时间,将关键词首尾相连得到的关键词条是“本子多少钱5元行不行”。
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;依照上述的例子,关键词组包括“5元”“行不行” “本子”“多少钱”这些关键词。
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;需要说明的是,标准关键词是用户预先按照个人的言语习惯存入大数据库中,或者是依照大数据技术训练出用户的标准关键词。所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数的获得方式为:多个关键词对应多个第一相关指数。所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;大数据库中的每个标准关键词对应一个重要指数;所述标准关键词是用户预先确认存入大数据库的关键词。
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数包括:
将关键词转换成关键词向量,将标准关键词转换成关键词向量。
获得关键词向量与标准关键词向量之间的夹角的余弦值;每个关键词向量对应多个标准关键词向量,那么每个关键词向量对应多个余弦值;针对每个关键词向量,获得所述关键词向量对应的多个余弦值的余弦值均值和余弦值方差;若所述余弦值方差大于设定值,获得所述余弦值中的最大值,以所述最大值与所述余弦值均值的商,加上所述余弦值方差作为所述第一相关指数,例如,第一相关指数是d1,余弦值中的最大值是max,余弦值均值是p,余弦值方差是t,那么第一相关指数d1=(max/p)+t。
可选的设定值取值为0.5。
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
关键词条只有一个,有多个标准关键词,那么会对应获得多个第二相关指数。第二相关指数的大小表征所述关键词条与所述标准关键词的相似性的大小。获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数具体为:
将所述关键词条转换成词条向量,以所述词条向量与所述标准关键词向量之间的余弦值的均值作为所述第二相关指数。
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
针对上述实施例提供一种大数据金融信息智能识别和存储方法,本申请实施例还对应提供一种用于执行上述的步骤的执行主体,该执行主体可以为大数据金融信息智能识别和存储***。大数据金融信息智能识别和存储***包括:
获得模块,用于获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;
提取模块,用于通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;
存储模块,用于根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;将所述聊天记录存储在与所述重要指数对应的区块中。
可选的,在所述将所述聊天记录存储在与所述重要指数对应的区块中之前,所述方法还包括:
对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。
可选的,所述方法还包括:获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
可选的,所述获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,包括:
获得所述聊天记录的前N条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述前置语段;
基于所述三层贝叶斯概率模型提取出所述前置语段的关键词;
获得所述聊天记录的后M条聊天记录构成的后置语段的关键词,包括:
获得所述聊天记录的后M条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述后置语段;
基于所述三层贝叶斯概率模型提取出所述后置语段的关键词。
可选的,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
关于上述实施例中的***,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种电子设备,如图2所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前文所述大数据金融信息智能识别和存储方法的任一方法的步骤。
其中,在图2中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进进一步描述。总线接口505在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
在本发明实施例中,大数据金融信息智能识别和存储***安装在机器人中,具体的可以软件功能模块的形式存储在存储器中并可以被处理器处理运行。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述大数据金融信息智能识别和存储方法的任一方法的步骤以及上述的历史聊天记录和聊天记录。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种大数据金融信息智能识别和存储方法,其特征在于,所述方法包括:
获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;
通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;
根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;
将所述聊天记录存储在与所述重要指数对应的区块中。
2.根据权利要求1所述的方法,其特征在于,在所述将所述聊天记录存储在与所述重要指数对应的区块中之前,所述方法还包括:
对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
4.根据权利要求1所述的方法,其特征在于,所述获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,包括:
获得所述聊天记录的前N条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述前置语段;
基于所述三层贝叶斯概率模型提取出所述前置语段的关键词;
获得所述聊天记录的后M条聊天记录构成的后置语段的关键词,包括:
获得所述聊天记录的后M条聊天记录的说话的内容,将所述说话的内容按照说话时间的先后顺序首尾相接,构成所述后置语段;
基于所述三层贝叶斯概率模型提取出所述后置语段的关键词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
6.一种大数据金融信息智能识别和存储***,其特征在于,所述***包括:
获得模块,用于获得大数据用户与对方用户之间的聊天日志;所述聊天日志包括多条聊天记录,每条所述聊天记录为在对话框中所述用户或者对方用户每次说话的信息;每条聊天记录包括说话的对象、说话的时间和说话的内容;
提取模块,用于通过三层贝叶斯概率模型提取出所述聊天记录的关键词;所述关键词能够表征所述聊天记录的行为意图;
存储模块,用于根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,识别所述聊天记录的重要指数;前后聊天记录的关键词包括所述聊天记录的前N条聊天记录构成的前置语段的关键词和所述聊天记录的后M条聊天记录构成的后置语段的关键词;所述N、M为0或者正整数;所述重要指数表示预计的所述聊天记录所陈述的事件在后续对所述用户的影响程度;将所述聊天记录存储在与所述重要指数对应的区块中。
7.根据权利要求6所述的***,其特征在于,所述***还包括:
分区模块,用于对聊天记录的存储空间进行分区,得到多个区块,确定每个所述区块的重要指数。
8.根据权利要求6所述的***,其特征在于,所述***还包括:
提取关键词模块,用于获得所述聊天记录的前N条聊天记录构成的前置语段的关键词,以及获得所述聊天记录的后M条聊天记录构成的后置语段的关键词。
9.根据权利要求6所述的***,其特征在于,所述根据所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词,确定所述聊天记录的重要指数,包括:
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词首尾相连,构成关键词条;
将所述聊天记录的关键词以及所述聊天记录的前后聊天记录的关键词构成关键词组;关键词组中包含多个关键词;
获得所述关键词组中的每个关键词与大数据库中的多个标准关键词之间的第一相关指数;
获得所述关键词条与大数据库中的多个标准关键词之间的第二相关指数;
所述第一相关指数的大小表征所述关键词与所述标准关键词的相似性的大小;
以所述第二相关指数与所述第一相关指数之和作为所述聊天记录的重要指数。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤以及存储所述聊天记录。
CN202110904059.3A 2021-08-06 2021-08-06 大数据金融信息智能识别和存储方法、***及存储介质 Pending CN113704399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110904059.3A CN113704399A (zh) 2021-08-06 2021-08-06 大数据金融信息智能识别和存储方法、***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110904059.3A CN113704399A (zh) 2021-08-06 2021-08-06 大数据金融信息智能识别和存储方法、***及存储介质

Publications (1)

Publication Number Publication Date
CN113704399A true CN113704399A (zh) 2021-11-26

Family

ID=78651860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110904059.3A Pending CN113704399A (zh) 2021-08-06 2021-08-06 大数据金融信息智能识别和存储方法、***及存储介质

Country Status (1)

Country Link
CN (1) CN113704399A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812231A (zh) * 2014-12-29 2016-07-27 阿里巴巴集团控股有限公司 聊天记录的快速识别方法及其装置
US20180034763A1 (en) * 2016-07-29 2018-02-01 International Business Machines Corporation Methods and systems to prioritize, manage, and archive chat conversations
CN108920675A (zh) * 2018-07-09 2018-11-30 北京百悟科技有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN112328740A (zh) * 2020-10-30 2021-02-05 浙江同花顺智能科技有限公司 一种聊天记录查询方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812231A (zh) * 2014-12-29 2016-07-27 阿里巴巴集团控股有限公司 聊天记录的快速识别方法及其装置
US20180034763A1 (en) * 2016-07-29 2018-02-01 International Business Machines Corporation Methods and systems to prioritize, manage, and archive chat conversations
CN108920675A (zh) * 2018-07-09 2018-11-30 北京百悟科技有限公司 一种信息处理的方法、装置、计算机存储介质及终端
CN112328740A (zh) * 2020-10-30 2021-02-05 浙江同花顺智能科技有限公司 一种聊天记录查询方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10956518B2 (en) Systems and methods for improved web searching
CN101201843B (zh) 用于搜索的方法和计算机***
US8112436B2 (en) Semantic and text matching techniques for network search
US20050246194A1 (en) System and method for information disclosure statement management
US20160203193A1 (en) Context aware query selection
US8296309B2 (en) System and method for high precision and high recall relevancy searching
CN107256267A (zh) 查询方法和装置
EP3128448A1 (en) Factorized models
WO2014008139A2 (en) Generating search results
CN112885478B (zh) 医疗文献的检索方法、装置、电子设备及存储介质
EP3921760A1 (en) Mapping natural language utterances to operations over a knowledge graph
GB2569858A (en) Constructing content based on multi-sentence compression of source content
US10789606B1 (en) Generation of an advertisement
US10635725B2 (en) Providing app store search results
CN110909120A (zh) 简历搜索/投递方法、装置、***及电子设备
CN111191105A (zh) 政务信息的搜索方法、装置、***、设备及存储介质
CN113010771B (zh) 搜索引擎中的个性化语义向量模型的训练方法及装置
US20070271245A1 (en) System and method for searching a database
US20210311939A1 (en) Query response module and content links user interface
US8423574B2 (en) Method and system for managing tags
US20160307000A1 (en) Index-side diacritical canonicalization
CN102129454A (zh) 一种基于云存储的百科数据处理方法及***
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
CN113704399A (zh) 大数据金融信息智能识别和存储方法、***及存储介质
CN103646034A (zh) 一种基于内容可信的Web搜索引擎***及搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211126