WO2017107010A1

WO2017107010A1 - 基于事件回测的信息分析***及方法

Info

Publication number: WO2017107010A1
Application number: PCT/CN2015/098086
Authority: WO
Inventors: 易峥; 夏炜; 陶志伟; 潘杭平
Original assignee: 浙江核新同花顺网络信息股份有限公司
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2017-06-29

Abstract

本发明一方面涉及一个基于事件回测的信息分析方法。该信息分析方法可以包括收集信息，对信息进行预处理并提取信息中的实体，处理信息并提取信息中的相关属性，判断信息类别并生成细化事件，根据生成的细化事件生成对应的自然语言语句，对生成的自然语言语句进行回测，生成回测报告等。本发明另一方面涉及用户可以选择任何公告或者新闻进行回测，并生成回测报告。本发明另一方面涉及用户可以输入自然语言语句并对输入的自然语言语句进行回测，生成回测报告。本发明另一个方面涉及一种基于事件回测的信息分析***，包括收集模块、***数据库、处理模块、自然语言处理模块和回测模块。

Description

基于事件回测的信息分析***及方法

技术领域

本发明涉及一种信息分析***及方法，尤其是对一个事件获得的相关信息、自然语言语句进行自动分析，从而获得其历史回测信息等。

背景技术

随着互联网的不断普及，人们越来越习惯于使用互联网获取信息或根据数据分析信息。由于互联网覆盖范围的不断扩大与信息的不断增加，数据也在不断增加，当人们试图使用互联网获取某种信息时，经常会遇到信息篇幅长、信息内容多样等特点，需要占用时间去阅读和分析。同时，有的行业领域或用户需要根据当前信息回测历史数据来做出决定。例如在金融行业领域中，研究交易策略或投资策略时，使用回测可以评估该策略在过去一段时间内的表现和有效性，从而帮助投资者进行投资决策的分析。又如在天气预报中，根据实时的温度、湿度风向和气压的数据，可以通过分析同等条件下的历史天气情况以预测未来天气的情况等。

简述

本发明一方面是关于一种信息分析***，根据其中一个实施例，该信息分析***包括一种计算机可读的存储媒介，所述存储媒介存储可执行模块，该存储媒介包括收集模块，所述收集模块能够收集信息；处理模块，所述处理模块能够对收集的信息进行预处理，从预处理后的信息中提取事件；自然语言处理模块，所述自然语言处理模块能够根据提取出的事件生成自然语言语句；回测模块，所述回测模块能够根据生成的自然语言语句结合历史信息生成回测结果。一个处理器，所述处理器能够执行所述计算机可读的存储媒介存储的可执行模块。

根据本发明的另一个实施例，该信息分析***进一步包括一个数据库，所述数据库能够储存所述的收集信息、预处理后的信息、提取的事件、自然语言语句、历史信息、回测结果。

根据本发明的另一个实施例，该数据库包括原始信息数据库、文本数据库、文本预处理数据库、实体数据库、事件属性数据库、关键词数据库、文本分类数据库、历史信息数据库、自然语言处理数据库、事件识别数据库、回测模块数据库、文字模板数据库、词典数据库。

根据本发明的另一个实施例，该信息分析***的处理模块进一步包括格式转换模块、文本处理模块、属性抽取模块、事件识别模块。

根据本发明的另一个实施例，该处理模块进一步包括文本分类模块。

根据本发明的另一个实施例，该处理模块采用的方法包括卡方统计、信息增益、互信息、几率比、交叉熵、类间信息差、关键词统计、决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、最邻近算法、遗传算法、情感分类、最大熵、Generalized Instance Set、同义词配置、布尔关联规则、位置规则、机器学习。

根据本发明的另一个实施例，该自然语言处理模块可以从收集模块接收信息。

根据本发明的另一个实施例，该回测模块进一步包括回测信息判断，所述回测信息判断根据回测结果的情况给出评价。

根据本发明的另一个实施例，该回测结果可以被展示给用户。

本发明的另一方面涉及一种信息分析方法，该信息分析方法包括收集信息；根据所述信息提取事件；根据所述事件生成自然语言语句；对所述自然语言语句进行回测分析。

根据本发明的另一个实施例，该收集信息包括用户输入信息和非用户输入信息，所述非用户输入信息来源包括通信终端和服务器。

根据本发明的另一个实施例，该收集信息包括公告信息和新闻信息。

根据本发明的另一个实施例，该提取事件进一步包括实体识别和属性抽取。

根据本发明的另一个实施例，该实体识别进一步包括格式转换、文本分词、数字及单位归一化处理。

根据本发明的另一个实施例，该属性抽取可以通过***定义的模型实现。

根据本发明的另一个实施例，该自然语言语句可以根据所述的提取事件生成。

根据本发明的另一个实施例，该自然语言语句可以根据用户输入信息生成。

根据本发明的另一个实施例，该自然语言语句进一步根据事件类别扩展。

根据本发明的另一个实施例，该自然语言语句分析包括对所述自然语言语句进行回测。

根据本发明的另一个实施例，该自然语言语句回测可以根据信息类别生成回测结果。

附图描述

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

图1所示的是信息分析***的一种示例***配置的示意图；

图2所示的是信息分析***的模块示意图；

图3所示的是信息分析流程图；

图4所示的是收集模块的结构示意图；

图5所示的是处理模块的结构示意图；

图6所示的是格式转换模块的结构示意图；

图7所示的是文本预处理模块的结构示意图；

图8所示的是文本分类模块的结构示意图；

图9所示的是属性抽取模块的结构示意图；

图10所示的是处理模块的流程图；

图11所示的是自然语言处理模块的结构示意图；

图12所示的是回测模块的结构示意图；

图13所示的是回测流程图；

图14所示的是***数据库的结构示意图；

图15所示的是信息分析流程图；

图16所示的是信息分析***线上工作流程图；

图17所示的是信息分析***针对新闻或公告的一个交互界面示意图；

图18所示的是信息分析***针对用户输入的一个交互界面示意图；

图19所示的是信息分析***所用到的公告文本图。

具体描述

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书所述的信息分析方法是指通过收集信息，处理信息，生成自然语言语句，分析数据提供参考信息等。在一些实施例中，本发明一方面涉及一种信息分析***。该信息分析***可以包括收集模块、***数据库、处理模块、自然语言处理模块和回测模块。本发明另一方面涉及一个基于事件回测的信息分析方法。该信息分析方法可以包括收集信息，对信息进行预处理并提取信息中的实体，处理信息并提取信息中的相关属性，判断信息类别并生成细化事件，根据生成的细化事件生成对应的自然语言语句，对生成的自然语言语句进行回测，生成回测报告等。本发明另一方面涉及用户可以选择任何公告或者新闻进行实时回测，并生成回测报告。本发明另一方面涉及用户可以输入任何自然语言语句并对输入的自然语言语句进行回测，实时地生成回测报告。

本发明的不同实施例可适用于多种领域，包括但不限于金融及其衍生物投资(包括但不限于股票、债券、黄金、纸黄金、白银、外汇、贵金属、期货、货币基金等)、科技(包括但不限于数学、物理、化学及化学工程、生物及生物工程、电子工程、通信***、互联网、物联网等)、政治(包括但不限于政治人物、政治事件、国家)、新闻(从区域而言，包括但不限于地区新闻、国内新闻、国际新闻；从新闻主体而言，包括但不限于政治新闻、体育新闻、科技新闻、经济新闻、生活新闻、气象新闻等)等。依据本发明的至少一个实施例，可以对各种信息资源，如文字、图片、音频、视频的内容进行快速的提炼，并根据相关历史信息，提炼回测策略并生成回测报告，使用户更加方便快捷地了解信息可能的未来影响。本发明的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制***、企业内部分析***、人工智能机器人等一种或多种组合。以上对适用领域的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解一种基于事件回测的信息分析方法和***的基本原理后，可能在不背离这一原理的情况下，对实施上述方法和***的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，在本发明的一个实施例中，回测报告是以统一的文字形式显示给用户的，对于本领域的专业人员来说，回测报告也可以是以统一的音频格式或视频格式显示给用户。与此类似的替换或修正或改变，仍在本发明的保护范围之内。为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构和操作。

图1所示的是信息分析***的一种示例***配置的示意图。示例***配置100可以包含但不限于一个或多个信息分析***101、一个或多个网络102和一个或多个信息源103。信息分析***101可以用于对收集的信息进行分析加工以生成分析结果的***。信息分析***101可以是一个服务器，也可以是一个服务器群组。一个服务器群组可以是集中式的，例如数据中心。一个服务器群组也可以是分布式的，例如一个分布式***。信息分析***101可以是本地的，也可以是远程的。网络102可以提供信息交换的渠道。网络102可以是单一网络，也可以是多种网络组合的。网络102可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等一种或多种组合。网络102可以包括多种网络接入点，如有线或无线接入点、基站或网络交换点，通过以上接入点使数据源连接网络102并通过网络发送信息。信息源103可以提供各种信息。信息源103可以包括但不限于服务器、通信终端。进一步地，服务器可以是web服务器、文件服务器、数据库服务器、FTP服务器、应用程序服务器、代理服务器器等，或者上述服务器的任意组合。通信终端可以是手机、个人电脑、可穿戴设备、平板电脑、智能电视等，或则上述通信终端的任意组合。信息源103可以通过网络102发送或/和收集信息到信息分析***101，信息源103可以是用户输入的信息，也可以是其他数据库或信息源提供的信息。

图2所示的是信息分析***的模块示意图。信息分析***101可以包含但不限于一个或多个收集模块201、一个或多个处理模块202、一个或多个自然语言处理模块203、一个或多个回测模块204、一个或多个***数据库205。上述的模块中部分或全部可以与网络102连接。上述模块可以是集中式的也可以是分布式的。上述模块中的一个或多个模块可以是本地的也可以是远程的。收集模块201可以主要用于以各种方式收集所需要的信息，收集信息的方式可以是直接的(例如直接通过网络102从一个或多个信息源103获取信息)也可以是间接的(例如通过处理模块201、自然语言处理模块202、回测模块204或者***数据库205来获取信息)。处理模块202可以主要用于信息的预处理，信息的预处理可以是人工的，也可以是自动的，信息的预处理可以包括但不限于格式转换、分词处理、实体识别、数字及单位归一化处理、文本分类、事件属性抽取、细化事件识别、加密文档解密等一种或多种组合。自然语言处理模块203可以主要用于生成自然语言语句，也可以接收输入的自然语言语句。自然语言处理模块203处理信息的方式可以是人工的，也可以是自动的。回测模块204可以主要用于分析信息。分析方法可以包括但不限于***定义、用户自定义选择、机器学习等其中的一种或多种组合。信息分析可以是人工实现的，也可以是自动完成的，或者是两者相结合完成的。***数据库205可以泛指具有存储功能的设备。***数据库205主要用于存储从信息源103收集的数据和信息分析***101工作中产生的各种数据。***数据库205可以是本地的，也可以是远程的。***数据库与***其他模块间的连接或通信可以是有线的，也可以是无线的。

收集模块201可以将收集到的信息传输给处理模块202。收集模块201也可以将收集到的信息传输给自然语言处理模块203。收集模块201也可以将收集到的信息传输给回测模块204。收集模块201可以接收处理模块202发送的请求，也可以按照该请求访问***数据库205，以获取需要的数据。需要的数据被获取之后，收集模块201可以将该数据传输给处理模块202。收集模块201可以接收自然语言处理模块203发送的请求，也可以按照该请求访问***数据库205，以获取需要的数据。需要的数据被获取之后，收集模块201可以将该数据传输给自然语言处理模块203。收集模块201可以接收回测模块204发送的请求，也可以按照该请求访问***数据库205，以获取需要的数据。需要的数据被获取之后，收集模块201可以将该数据传输给回测模块204。

收集模块201可以主要用于以各种方式收集所需要的信息。收集模块201可以通过向信息源103发送请求，以获取需要的信息。收集模块201在获取需要的信息后，可以将所获得的信息进行下一步处理或者存储在***数据库205中。收集模块201也可以通过向***数据库205发送请求，以获取存储在***数据库205中的信息。可选择地，***数据库205也可以直接向信息源103发送请求，获取的信息可以被存储在***数据库205中。信息源103可以是服务器、通信终端等。进一步地，服务器可以是web服务器、文件服务器、数据库服务器、FTP服务器、应用程序服务器、代理服务器等，或者上述服务器的任意组合。通信终端可以是手机、个人电脑、可穿戴设备、平板电脑、智能电视等，或者上述通信终端的各种组合。上述需要的信息可以包括但不限于各种新闻、研报、公告、消息、报告、通知、论文、期刊等中的一种或多种。上述需要的信息可以是关于各个行业的信息，包括但不限于体育、娱乐、经济、政治、军事、文化、艺术、科学、工程等中的一种或多种。上述需要的信息的形式可以包括但不限于文字、图片、音频、视频等中的一种或多种。例如某视频网站播放的视频新闻《世界银行下调今年全球经济增长预期至2.8％》、某新闻网站报道的网页新闻《汇丰5月份中国服务业PMI升至53.5》、某证券交易所发布的上市公司公告《A股份有限公司关于签署日常经营重大合同的公告》、某体育赛事直播平台发布的足球赛事预告《本周六切尔西俱乐部将在主场斯坦福桥球场迎战同城死敌阿森纳》。

处理模块202可以与收集模块201进行双向通信。处理模块202可以处理收集模块201传输的信息，信息处理可以包括但不限于格式转换、文本预处理、文本分类、属性抽取和事件识别等中的一种或多种组合。处理模块202也可以向收集模块201发送信息，发送的信息可以包括但不限于经过处理的信息以及控制信息，该控制信息可以包括但不限于信息收集方式的控制信息、信息收集时间的控制信息、信息收集来源的控制信息等。处理模块202可以与自然语言处理模块203进行双向通信。处理模块202可以将经过处理后的信息传输给自然语言处理模块203，也可以接收自然语言处理模块203发送的信息。处理模块202可以与回测模块204进行双向通信。处理模块202可以将经过处理后的信息传输给回测模块204，也可以接收回测模块204发送的信息。处理模块202可以与***数据库205进行双向通信。处理模块202可以将经过处理后的信息传输给***数据库205进行储存，也可以在处理过程中向***数据库205发送请求信息并接收***数据库205发送的信息。

自然语言处理模块203可以向收集模块201发送请求，收集模块201可以根据请求访问***数据库205或从一个或多个信息源103，以获取需要的信息。需要的信息被获取之后，收集模块201将该信息传输给自然语言处理模块203。可选择地，收集模块201在收到从自然语言处理模块203发来的请求之后，也可以将收集模块201中的信息传输给自然语言处理模块203，所述信息可以来自信息源103或***数据库205。自然语言处理模块203可以向处理模块202发送请求，处理模块202可以根据请求访问***数据库205，以获取需要的信息。需要的信息被获取之后，处理模块202将该信息传输给自然语言处理模块203。可选择地，处理模块202在收到从自然语言处理模块203发来的请求之后，也可以将处理模块202中的信息传输给自然语言处理模块203。可选择地，自然语言处理模块203可以直接访问***数据库205，并向***数据库205发送请求以获取需要的信息，该信息可以被传输给自然语言处理模块203。可选择地，***数据库205可以在没有收到请求的情况下向自然语言处理模块203发送信息。在本发明的一种实施例中，自然语言处理模块203可以直接接收来自信息源103的自然语言语句(图中未展示)，该自然语言语句可以是用户使用输入设备输入的，输入设备包括但不限于键盘、鼠标、摄像头、扫描仪、手写输入板、语音输入装置等一种或多种组合。

自然语言处理模块203的输入信息可以是字母、数字、字符、词语、短语、语句、段落、篇章等，或其中的一种或多种，或由任意数量的标识符集合，该标识符集合可以包含一种或多种语义。可选择地，自然语言处理模块203的输入信息可以是自定义的信息类型。在本发明的一些实施例中，自然语言处理模块203的输入信息可以被表征为一个多元组。例如：自然语言处理模块203的输入信息可以被表征为一个四元组{k,c,u,d}。其中，参数k可以被配置为表示信息来源，信息来源可以包括但不限于收集模块201、处理模块202、***数据库205、信息源103(图中未展示)，或者上述信息来源的任意组合。参数c可以被配置为表示通信时间。例如：参数c可以被配置为表示年份、月份、日期等。通过赋予参数c以特定的数值，由参数c指定的特定时间的信息将被输入自然语言处理模块203。参数u可以被配置为表示要使用的用户模型。用户模型为依据不同的用户需求而具有不同功能的数据处理模型。参数u在缺省的情况下表示不应用任何数据模型。参数d可以被配置为表示已产生信息。已产生信息指用户在自然语言处理的过程中已经生成的各种实体和属性等，各种实体和属性将在后续的自然语言处理的过程中被运用。

自然语言处理模块203可以将收集到的信息进行处理，以生成自然语言语句。生成的自然语言语句可以被传输至回测模块204以进行回测。具体地，自然语言处理模块203可以向回测模块204发送回测请求，该请求被获准之后，自然语言处理模块203将生成的自然语言语句输入到回测模块204进行回测。可选择地，自然语言处理模块203也可以不发送回测请求，而是直接将生成的自然语言语句输入到回测模块204进行回测。在本发明的一个实施例中，回测模块204在接收到自然语言处理模块203输入的自然语言语句后，将自然语言语句进一步处理生成数据库标准访问指令，从而访问或调取相应数据库中存储的历史数据。

在本发明的另一种实施例中，自然语言处理模块203可以接收处理模块202生成的事件，自然语言处理模块203可以将接收到的自然语言语句(事件)进行拼装，也可以根据回测的需要，加上额外条件。比如：针对个股事件，则需要加上“个股代码或简称”；针对行业事件回测，则需要加上“个股对应行业”；针对全市场事件(如央行降息)回测则不需要加任何语句。

需要注意的是，上述对自然语言处理模块203输入信息的描述只是为了便于理解发明，不应被视为是本发明唯一可行的实施方案。对于本领域的专业人员来说，在了解所需要的信息的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。比如，自然语言处理模块203的输入信息可以被表征为二元组、三元组、五元组、六元组、N元组等，或上述信息类型的任意组合。

回测模块204可以向收集模块201发送回测条件请求，收集模块201可以根据请求访问***数据库205获取需要的信息。需要的信息被获取之后，收集模块201将该信息传输给回测模块204。可选择地，收集模块201在收到从回测模块204发来的请求之后，也可以将存储在收集模块201中的信息传输给回测模块204。回测模块204可以向处理模块202发送请求，处理模块202可以根据请求访问***数据库205获取需要的信息。需要的信息被获取之后，处理模块202可以将该信息传输给回测模块204。可选择地，处理模块202在收到从回测模块204发来的请求之后，也可以将存储在处理模块202中的信息传输给回测模块204。回测模块204可以向自然语言处理模块203发送请求，自然语言处理模块203可以根据请求访问***数据库205获取需要的信息。需要的信息被获取之后，自然语言处理模块203可以将该信息传输给回测模块204。可选择地，自然语言处理模块203在收到从回测模块204发来的请求之后，也可以将存储在自然语言处理模块203中的信息传输给回测模块204。可选择地，回测模块204可以直接访问***数据库205，并向***数据库205发送请求以获取需要的信息，该信息可以被传输给回测模块204。可选择地，***数据库205可以在没有收到请求的情况下向回测模块204发送信息。回测模块204收到的输入信息可以包括但不限于字母、数字、字符、词语、语句、段落、篇章、自然语言语句等其中的一种或多种组合。输入信息的来源可以包括但不限于收集模块201、处理模块202、自然语言处理模块203、***数据库205、信息源103等其中的一种或多种组合。

***数据库205或***内的其他存储设备泛指所有可以具有读/写功能的媒介。***数据库205或***内其他存储设备可以是***内部的，也可以是***的外接设备。***数据库205或***内其他存储设备的连接方式可以是有线的，也可以是无线的。***数据库205或***内其他存储设备可以包括但不限于层次式数据库、网络式数据库和关系式数据库等其中一种或多种组合。***数据库205或***内其他存储设备可以将信息数字化后再以利用电、磁或光学等方式的存储设备加以存储。***数据库205或***内其他存储设备可以用来存放各种信息例如程序和数据等。***数据库205或***内其他存储设备可以是利用电能方式存储信息的设备，例如各种存储器、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)等。***数据库205或***内其他存储设备可以是利用磁能方式存储信息的设备，例如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘、闪存等。***数据库205或***内其他存储设备可以是利用光学方式存储信息的设备，例如CD或DVD等。***数据库205或***内其他存储设备可以是利用磁光方式存储信息的设备，例如磁光盘等。***数据库205或***内其他存储设备的存取方式可以是随机存储、串行访问存储、只读存储等一种或多种组合。***数据库205或***内其他存储设备可以是非永久记忆存储器，也可以是永久记忆存储器。以上提及的存储设备是列举了一些例子，该***可以使用的存储设备并不局限于此。***数据库205或***内其他存储设备可以是本地的，也可以是远程的，也可以是云服务器上的。

***数据库205或***内其他存储设备对信息的操作可以包括但不限于存储、分类、排序、筛选等一种或多种组合。***数据库205或***内其他存储设备可以与信息源103传递或交换信息。***数据库205或***内其他存储设备可以接收信息源103的信息，将其存储在***数据库205或***内其他存储设备上。根据收到的指令， ***数据库205或***内其他存储设备里面的信息可以被提取，传递给信息源103。该指令可以是直接来自于信息源103，也可以是来自于其他模块，如收集模块201、处理模块202、自然语言处理模块203、回测模块204等。***数据库205或***内其他存储设备可以与收集模块201传递或交换信息。***数据库205或***内其他存储设备可以接收收集模块201收集的信息，将其存储在***数据库205或***内其他存储设备上。根据收到的指令，***数据库205或***内其他存储设备里面的信息可以被提取，传递给收集模块201。该指令可以是直接来自于收集模块201，也可以是来自于其他模块，如处理模块202、自然语言处理模块203、回测模块204、信息源103等。

***数据库205或***内其他存储设备可以与处理模块202传递或交换信息。***数据库205或***内其他存储设备可以接收处理模块202收集的信息，将其存储在***数据库205或***内其他存储设备上。根据收到的指令，***数据库205或***内其他存储设备里面的信息可以被提取，传递给处理模块202。该指令可以是直接来自于处理模块202，也可以是来自于其他模块，如收集模块201、自然语言处理模块203、回测模块204、信息源103等。

***数据库205或***内其他存储设备可以与自然语言处理模块203传递或交换信息。***数据库205或***内其他存储设备可以接收自然语言处理模块203收集的信息，将其存储在***数据库205或***内其他存储设备上。根据收到的指令，***数据库205或***内其他存储设备里面的信息可以被提取，传递给自然语言处理模块203。该指令可以是直接来自于自然语言处理模块203，也可以是来自于其他模块，如收集模块201、处理模块202、回测模块204、信息源103等。

***数据库205发送的信息可以是直接从信息源获取的信息，也可以是经过处理分析后的信息。经过处理分析的信息，可以是经过处理模块202处理后储存在***数据库205的信息，也可以是经过自然语言处理模块203处理后储存的信息。***数据库205或***内其他存储设备与其他模块信息传递的方式可以是有线的也可以是无线的，可以是直接的也可以是间接的，可以是同时进行的也可以是顺序进行的，可以是周期的也可以是非周期的等。

显然，对于本领域的专业人员来说，在了解信息分析***及方法的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子***与其它模块连接，对实施上述方法和***的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，收集模块201、处理模块202、自然语言处理模块203、回测模块204和***数据库205可以是体现在一个***中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能，如处理模块202可以收集信息并生成自然语言语句，该处理模块同时实现了收集模块201和自然语言处理模块203的功能，类似的变形仍在本发明的权利要求保护范围之内。

图3所示的是信息分析流程图。需要的信息在步骤301从信息源103(详见图1)中被收集。信息源103可以包括但不限于服务器、通信终端。进一步地，服务器可以是web服务器、文件服务器、数据库服务器、FTP服务器、应用程序服务器、代理服务器器等，或者上述服务器的任意组合。通信终端可以是手机、个人电脑、可穿戴设备、平板电脑、智能电视等，或者上述通信终端的任意组合。进一步地，在步骤301，用户通过各种通信终端输入的自然语言语句可以被接收。上述需要的信息可以包括但不限于各种新闻、公告、评论、研报、博客、消息、报告、通知、论文、期刊等中的一种或多种。上述需要的信息可以是关于各个行业的信息，包括但不限于体育、娱乐、经济、政治、军事、文化、艺术、科学、工程等中的一种或多种。上述需要的信息的形式可以包括但不限于文字、图片、音频、视频等中的一种或多种。例如，新闻可以是某视频网站播放的视频新闻《世界银行下调今年全球经济增长预期至2.8％》、某新闻网站报道的网页新闻《汇丰5月份中国服务业PMI升至53.5》、某证券交易所发布的上市公司公告《A股份有限公司关于签署日常经营重大合同的公告》、某体育赛事直播平台发布的足球赛事预告《本周六切尔西俱乐部将在主场斯坦福桥球场迎战同城死敌阿森纳》等。步骤301可以由收集模块201完成。

步骤301中收集的信息在步骤302被处理。步骤302可以由处理模块202完成。在本发明的一些实施例中，步骤301收集的信息可以为文字信息。该文字信息可以直接或间接来源于文本、音频、视频或上述来源的任意组合。进一步地，当文字信息来源于音频时，***可通过语音识别或字幕提取将音频转化为文本。当文字信息来源于视频时，***可通过语音识别或字幕文件提取将视频转化为文本。文字信息可以为汉语、英语、德语、西班牙语、***语、法语、日语、韩语、俄语、葡萄牙语等，或上述语言的任意组合。进一步地，文字信息可以是字母、数字、字符、词语、短语、语句、段落、篇章等，或其中的一种或多种，或由任意数量的标识符组成的集合，该标示符集合可以包含一种或多种语义。步骤302执行的信息处理可以包括但不限于格式转换、分词处理、实体识别、数字及单位归一化处理、文本分类、事件属性抽取、细化事件识别等中的一种或多种。格式转换可以将各种格式的文字信息转换为统一的文本格式。文字信息的格式可以包括但不限于：pdf、doc、epub、mobi、caj、kdh、nh等，或上述格式的一种或多种。统一的文本格式可以包括但不限于txt、ASCII、MIME等一种或多种组合。

分词处理可以将文字信息中词语按照词语类型提取出来，词语类型可以包括但不限于名词、动词、形容词、副词、助词、拟声词、数字、专有符号等，或其中的一种或多种。可选择地，文字信息也可以应用一定的分词算法被处理。分词算法可以包括但不限于基于字符串匹配的分词方法(即机械性分词法)、基于理解的分词方法、基于统计的分词方法等，或上述分词方法的一种或多种。分词处理完成之后，对文本信息进行实体识别。实体可以包括但不限于产品、机构名、人名、地名、时间、日期、货币、数字、百分比等中的一种或多种。实体识别方法可以包括但不限于隐马尔科夫模型、最大熵模型、支持向量机、基于规则的识别方法和基于统计的识别方法等，或其中的一种或多种。具体地，***可以总结提炼过往信息中的要素，定义各种事件类别。例如：外交类、金融类、体育类、政治类、科学类、教育类等，或其中的一种或多种。上述类别也可包含若干级别的子类，如金融类可以包括股票、基金、期货等子类。上述类别可以包含实体识别完成之后，***将对经过实体识别的文本信息中的数字和单位进行归一化处理。例如将“项目总投资三万元”转换为“项目总投资30000元”、将“梅西在巴萨主场对阵皇马的比赛中完成了帽子戏法”转换成“梅西在巴萨主场对阵皇马的比赛中打进3球”等。

在完成数字和单位归一化处理之后，***将对文本信息进行分类，以获取文本信息的大类别(如金融类)。在本发明的一个实施例中，***可访问***数据库205(详见图2)，并将文本中出现的存储与数据库205中的类别关键词的数量或预设权值等属性特征通过一定的计算方法进行计算，并通过计算值进行分类。所述类别关键词可以通过特定的方法被提取出来，提取方法可以包括但不限于基于统计学的卡方统计、同义词规则、布尔关联规则、位置规则、信息增益、互信息、几率比、交叉熵、类间信息差等方法中的一种或多种的结合。在本发明的另一个实施例中，，所述***可采用基于机器学***方拟合、最邻近算法kNN、遗传算法、最大熵等方法，或其中的一种或多种。即通过对标注好类别标签的文本的训练学习，得到分类器，从而对新的文本对象进行情感分类。文本信息经过分类可以被分到一个或多个类别中。类别可以是***预定义的类别，并且可以包含若干级别的子类。如在金融领域，文本信息可以被分为包含但不限于公告类、新闻类、研报类、博客类、论坛类、微博类、互动投资类。公告类可以包含但不限于合同类、年报类、情感类等子类。可选择地，公告类又可以包括但不限于定期报告和权益分配公告、交易公告、募集资金公告、重大事项、政策优惠公告、高管***公告、收购回购公告等。***可以根据新闻来源将新闻分为可靠来源和非可靠来源，如官方信息源央视财经频道可认为是可靠信息来源，新闻种类可以包括但不限于财经类、时政类、科教类、政法类、社会类、体育类、军事类、娱乐类等一种或多种组合。需要注意的是，上述对分类的描述只是为了便于理解发明，不应被视为是本发明唯一的实施例。分类步骤在本发明中不是必须的，对于一些文本信息，***可以直接判定其类别，因而可以略过分类步骤。例如：对于某信息的标题显示为《A公司关于签署日常经营重大经营合同的公告》，***可直接判定其为公告类。

完成文本分类之后，文本信息中的属性可以被抽取。属性为关于实体性质和关系的描述。例如，图19所示是《中信证券股份有限公司2014年年度报告》公告的封面和节选图，对于这一公告，抽取的实体可以为“中信证券”，从图19的表格中可以抽取出的属性包括营业收入、净利润同期增减、资产总额、负债总额、股东权益总额等，或其中的一种或多种。完成属性抽取之后，***可以按照一定的规则方法，将实体与属性结合，生成细化事件。例如对于前述的实体“中信证券”，可以将其与其属性之一的“净利润同期增减”相结合可生成“中信证券2014年年报净利润增长116.2％”这一细化事件。得到细化事件之后，***可以根据得到的细化事件生成自然语言语句(步骤303)，比如“中信证券年报净利润增长大于100％”，也可以是针对个股事件、行业事件和全市场事件的自然语言语句，比如“中信证券年报净利润同比增长率大于100％，券商行业年报净利润同比增长率大于100％，年报净利润同比增长率大于100％。”。步骤303可以由自然语言处理模块203完成。生成的自然语言语句可以被输入到分析***(例如，回测模块204)中，以对识别出的事件进行分析(步骤304)。在本发明的一个实施例中，步骤304可以由回测模块204完成。上述分析可以包括但不限于对事件进行回测。回测是指将事件与相关历史事件及数据按照一定的规则组合，生成回测报告，以供用户在投资时参考。

需要注意的是，上述对信息分析***流程的描述只是为了便于理解发明，不应被视为是本发明唯一可行的实施例。***也可以将收集到的信息直接转换为自然语言语句(步骤303)，然后对上述自然语言语句进行分析(步骤304)。可选择地，***也可以直接对收集到的信息进行分析(步骤304)。

图4所示的是收集模块201的结构示意图。收集模块201可以包括但不限于一个采集单元401、一个处理单元402、以及一个存储单元403。采集单元401可以从信息源103(详见图2)，或***中的其他模块(例如，处理模块202、自然语言处理模块203、回测模块204、***数据库205)采集需要的信息。上述需要的信息可以包括但不限于各种新闻、公告、评论、研报、博客、消息、报告、通知、论文、期刊等中的一种或多种。上述需要的信息可以是关于各个行业的信息，包括但不限于体育、娱乐、经济、政治、军事、文化、艺术、科学、工程等中的一种或多种。上述需要的信息的形式可以包括但不限于文字、图片、音频、视频等中的一种或多种例如，新闻可以是某视频网站播放的视频新闻《世界银行下调今年全球经济增长预期至2.8％》、某新闻网站报道的网页新闻《汇丰5月份中国服务业PMI升至53.5》、某证券交易所发布的上市公司公告《A股份有限公司关于签署日常经营重大合同的公告》、某体育赛事直播平台发布的足球赛事预告《本周六切尔西俱乐部将在主场斯坦福桥球场迎战同城死敌阿森纳》等。可选择地，采集单元401也可以直接接收用户输入的信息，该信息可以包括但不限于自然语言语句、程序语言等。

处理单元402可以对采集到的信息进行处理。处理可以包括但不限于将采集到的信息存入存储单元403、将采集到的信息存入***数据库205、从存储单元403中调取信息并将信息发送给其他模块(例如，处理模块202、自然语言处理模块203、回测模块204、***数据库205)、从***数据库205中调取信息并将信息发送给其他模块(例如，处理模块202、自然语言处理模块203、回测模块204)。可选择地，处理单元402也可将采集到的信息直接发送给其他模块，如处理模块202、自然语言处理模块203、回测模块204、***数据库 205。存储单元403可以存储收集模块201收集到的信息。存储单元403可以存储处理单元402处理过的信息。

以上对收集模块的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解所需要的信息的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图5所示的是处理模块202的结构示意图。处理模块202可以包含但不限于一个格式转换模块501、一个文本预处理模块502、一个文本分类模块503、一个属性抽取模块504、以及一个事件识别模块505。上述各个模块可以是独立的，也可以是部分模块合并为一个模块。处理模块202中，格式转换模块501可以将收集模块201收集的信息进行格式转换。格式转换可以是***自动完成的，也可以是人工完成的。格式转换可以是实时进行的，也可以是以固定的时间间隔进行的。可以转换的信息的文件格式包括但不限于pdf、doc、docx、epub、mobi、caj、kdh、nh、bmp、jpg、tiff、gif、pcx、tga、exif、fpx、svg、psd、cdr、pcd、dxf、ufo、eps、ai、raw、mpeg、avi、mov、asf、wmv、navi、3gp、RA、RAM、mkv、flv、rmvb、WebM等一种或多种组合。例如，收集的信息是图片jpg格式，如果该图片中包含文字信息，则可以通过OCR(Optical Character Recognition)识别将图片转换成文本格式，如txt格式。

文本预处理模块502可以对格式转换后的文本进行预处理，预处理可以包括但不限于文本分词、实体识别、归一化处理等中的一种或多种。文本分类模块503可以对预处理后的文本进行分类，预处理后的文本可以被分为包括但不限于公告类、新闻类、研报类、博客类、论坛类、微博类、互动投资类。公告类可以包括但不限于合同类、年报类、等子类。可选择地，公告类又可以包括但不限于重组公告、股权激励公告、重大合同公告、政策优惠公告、高管变动公告、收购回购公告等。***可以根据新闻来源将新闻分为可靠来源和非可靠来源，如官方信息源央视财经频道可认为是可靠信息来源，新闻种类可以包括但不限于财经类、时政类、科教类、政法类、社会类、体育类、军事类、娱乐类等一种或多种组合。属性抽取模块504可以自动匹配抽取事件相关的属性，抽取规则可以是***配置的，也可以是人工配置的。事件识别模块505可以根据属性抽取模块504的结果、文本预处理模块502的结果、***数据库205以及一定的规则得出最终的细化事件。

图6所示的是格式转换模块501的结构示意图。格式转换模块501可以包括但不限于一个控制单元601、一个文本处理单元602、一个图片处理单元603、一个音频处理单元604、以及一个视频处理单元605。控制单元601可以根据收集模块201收集的信息选择相应的处理单元；文本处理单元602可以对收集模块201收集的文本格式的信息进行处理。图片处理单元603可以对收集模块201收集的图片格式的信息进行处理。音频处理单元604可以对收集模块201收集的音频格式的信息进行处理。视频处理单元605可以对收集模块201收集的视频格式的信息进行处理。本说明书所述实施例中上述单元可以是各自独立分布的，但在某些实施例中，上述部分单元可以合并为一个单元，如音频处理单元604可以和视频处理单元605合并为一个音视频处理单元，实现两者的功能。

控制单元601可以对收集模块201收集的信息进行类型判断，并根据类型选择相应的处理单元。例如，控制单元601对收集模块201收集的信息进行判断后，判断是文本格式的信息，则为其选择文本处理单元602进行下一步骤的处理。

文本处理单元602可以对收集模块201收集的文本格式的信息进行处理，转换为统一格式的文本数据。具体来说，收集模块201收集的信息中的文本格式可以包括但不限于超文本标识语言格式(Hypertext Markup Language,html)、可扩展超文本标识语言格式(Extensible Hypertext Markup Language,xhtml)、可扩展标识语言格式(Extensible Markup Language,xml)、pdf格式(Portable Document Format)、doc及docx格式(Microsoft公司的专属格式)等中的一种或多种，文本处理单元602可以将上述格式转换为统一的文本格式，统一的文本格式可以包括但不限于txt格式。例如，收集模块201收集的信息是《中信证券股份有限公司2014年年度报告》，如图19所示，该公告的格式是pdf格式，则文本处理单元602可以将该公告由pdf格式转换为txt格式。

图片处理单元603可以对收集模块201收集的图片格式的信息进行处理，转换为统一的文本格式。具体来说，收集模块201收集的图片格式的信息可以是图书、报纸、杂志、信件等，该类型的图片包含有文本信息在内，图片处理单元603可以利用OCR(Optical Character Recognition)技术将图片信息转换为统一的文本格式。

音频处理单元604可以对收集模块201收集的信息中的音频格式的数据进行处理，转换为统一的文本格式。具体来说，收集模块201收集的信息中音频格式可以包括但不限于CD、WAVE、AIFF、AU、MPEG、MP3、MIDI、WMA、RealAudio、VQF、OggVorbis、AAC、APE等中的一种或多种组合，音频处理单元604可以利用语音识别技术将之转换为文本格式。语音识别技术可以包括但不限于基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络等方法中的一种或多种，或是上述方法的任意组合。

视频处理单元605可以对收集模块201收集的信息中的视频格式的数据进行处理，转换为统一的文本格式。具体来说，收集模块201收集的信息中的视频格式可以包括但不限于Flash Video、AVI、WMV、MPEG、Mastroska、Real Video、QuickTime File Format、Ogg、MOD等中的一种或多种组合，视频处理单元605可以对视频中的字幕部分进行文本导出，字幕包括视频内置字幕和外挂字幕，并且转换为统一的文本格式。视频处理单元605也可以提取视频中的音频部分，并进行语音识别将之转换为统一的文本格式。在具体的实施例中，如果视频没有搭载字幕部分，则视频处理单元605可以提取视频中的音频部分进行语音识别，并转换为统一的文本格式，如果视频搭载有字幕，则将字幕导出并转换为统一的文本格式，也可以选择提取音频部分进行语音识别并转换为统一的文本格式。

上述格式转换模块501包含的四种处理单元即文本处理单元602、图片处理单元603、音频处理单元604和视频处理单元605，在一些实施例中可以不是全部包含的，可以只包含其中的一个单元，也可以是其中的某些单元。在一些实施例中，上述四种处理单元是全部包含的，各处理单元间的执行顺序可以是依次进行的，也可以是同时进行的，也可是任何合适的顺序。格式转换模块501对收集模块201收集的信息进行格式转换后转换为将统一的文本格式，文本预处理模块502对该文本格式的信息进行后续处理。

以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图7所示的是文本预处理模块502的结构示意图。文本预处理模块502可以包括但不限于一个语言识别单元701、一个文本分词单元702、一个实体识别单元703、以及一个归一化单元704。语言识别单元701可以对经过格式转换模块501处理后的文本信息进行语言识别。文本分词单元702可以对文本进行分词处理。实体识别单元703可以对文本中的实体进行识别。归一化单元704可以对文本中包含数字信息的内容及其对应的单位进行统一的归一化处理，形成标准的数字数据形式。上述单元可以是各自独立的，也可以是部分单元合并为一个单元。例如，语言识别单元701可以和文本分词单元702合并为一个单元。

语言识别单元701可以对格式转换模块501处理后的文本进行语言识别。收集模块201收集的信息所用的语言可以包括但不限于汉语、英语、法语、俄语、西班牙语、***语、日语、德语等中的一种或多种，语言识别单元701可以识别收集模块201收集的信息所用的语言。

文本分词单元702可以利用一定的分词算法对语言识别单元701识别后的文本进行分词处理。收集模块201收集的信息所用的语言中，包括以词为单位的语言，如英语、法语、俄语等，这些语言中词与词之间有天然的分隔；还包括以字为单位的语言，词是由字组成的，而词与词之间没有天然分隔，如汉语。因此在进行中文文本的词频统计前首先需要对中文文本进行分词处理，而英文文本则不需要。分词算法可以包括但不限于基于字符串匹配的分词方法(即机械性分词法)、基于理解的分词方法、基于统计的分词方法等，或是上述几种分词方法的任意组合。本发明的一个实施例为基于统计的分词方法和基于词典的分词方法相结合的方法。文本分词单元702可以向***数据库205发送访问词典数据库的请求，***数据库205收到请求时，可以将请求的词典发送给文本分词单元702。词典可以是针对特定领域的词典，例如，可以是针对公告的词典或针对新闻的词典。具体地，该词典可以是针对重组公告的词典、针对激励公告的词典、针对重大合同公告的词典、针对政策优惠公告的词典、针对高管变动公告的词典、针对收购回购公告的词典等。文本分词单元702可以结合统计得到的分词结果和词典匹配得到的分词结果得到最终的文本分词结果。

实体识别单元703可以通过实体识别方法对经过分词处理后的文本进行实体识别，可以将识别后的实体集合存入***数据库205中的实体数据库。实体可以包括但不限于产品、机构名、人名、地名、时间、日期、货币、数字、百分比等中的一种或多种，具体举例来说，《中信证券股份有限公司2014年年度报告》这条标题信息中可识别的实体有“中信证券”、“股份有限公司”、“2014年”、“年度报告”。实体识别方法可以包括但不限于隐马尔科夫模型、最大熵模型、支持向量机、基于布尔关联规则、基于同义词配置规则、基于位置规则的识别方法和基于统计的识别方法等，或是上述几种识别方法的任意组合。

归一化单元704可以对文本中的数字及其单位进行归一化处理，使其具有一致的单位。具体举例来说，归一化单元704可将文本中出现的“上涨概率百分之五”转换为“上涨概率5％”，将“项目总投资三万元”转换为“项目总投资30000元”等。

上述文本预处理模块502包含的四种处理单元执行顺序可以依次是语言识别单元701、文本分词单元702、实体识别单元703和归一化单元704。文本预处理模块502中的处理单元的执行顺序也可以首先是语言识别单元701执行，依据语言识别单元701的识别结果来决定文本分词单元702是否执行。当识别结果是中文文本时，则执行文本分词单元702。当识别结果是其他具有固定的分隔符的语言时，如英语、韩语、俄语等，则文本分词单元702可不执行。后续的实体识别单元703和归一化单元704的执行顺序可以是顺序的，可以是逆序的，也可以是同时进行的。文本预处理模块502可以对经格式转换模块501处理后的文本信息进行预处理，文本分类模块503可以对预处理后的文本进行后续处理。以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图8所示的是文本分类模块503的结构示意图。文本分类模块503可以包括但不限于一个或多个关键词提取单元801、一个或多个分类单元802。关键词提取单元801可以对文本预处理模块502处理后的文本进行关键词提取。分类单元802可以对提取出的关键词按照预先定义的规则对文本进行分类。上述单元可以是各自独立的，也可以是部分单元合并为一个单元。

关键词提取单元801可以对文本预处理模块502处理后的文本进行分析并提取关键词。关键词的提取方法可以包括但不限于基于统计学的卡方统计、同义词规则、布尔关联规则、位置规则、信息增益、互信息、几率比、交叉熵、类间信息差等方法，或者上述方法的任意组合。具体来说，针对《中信证券股份有限公司2014年年度报告》这一公告，关键词提取单元801首先进行关键词提取，提取的关键词可以包括但不限于“中信证券”、“2014年”、“年度报告”、“净利润”、“同期增减”等等。

分类单元802可以利用关键词提取单元801提出的关键词按照一定的分类方法对文本进行分类并贴上类别标签。分类方法可以包括但不限于决策树、Rocchio、朴素贝叶斯、神经网络、隐马尔科夫模型、支持向量机、线性最小平方拟合、最邻近算法kNN、遗传算法、最大熵等方法，或者上述方法的任意组合。分类单元802可以向***数据库205发送关键词数据库访问请求。***数据库205收到请求后，将请求的关键词发送给分类单元802。分类单元802可以依照一定的算法对关键词提取单元801提取的关键词和***数据库205发送的关键词进行匹配，根据匹配结果来对文本分类，并给文本贴上相应的类别标签。具体来说，针对前述的题为《中信证券股份有限公司2014年年度报告》这一全文公告，分类单元将之归为公告大类，年度报告子类，并贴上标签。某个文本根据匹配结果，可同时归属于不同的类别，这时只要给该文本贴上两个标签即可，一个文本可以同时拥有两个以上的标签。

文本分类模块503在某些实施例中是可选的。例如，如果收集模块201收集的信息中信息要素已经很确定，就可以略过文本分类步骤。具体地，如果收集的信息是一则新闻简讯，该新闻简讯的内容是“第18届上海国际电影节于2015年6月21日晚闭幕，主竞赛单元金爵奖揭晓，中国影片《烈日灼心》成最大赢家，邓超、郭涛、段奕宏三人同获影帝，曹保平获最佳导演”。这则简讯的要素如时间、人物、事件等就清晰明了，就可略过文本分类模块503直接传送至下一模块属性抽取模块504进行后续处理。上述文本分类模块503包含的关键词提取单元801和分类单元802的执行顺序可以是顺序的，即关键词提取单元801先执行，分类单元802后执行。以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图9所示的是属性抽取模块504的结构示意图。属性抽取模块504可以包括但不限于一个或多个关键词提取单元901、一个或多个属性抽取模板902、一个或多个属性抽取单元903。关键词提取单元901可以对文本进行关键词提取；属性抽取模板902可以存储能够抽取事件属性的抽取规则；属性抽取单元903可以完成对事件属性的抽取工作。上述单元可以是各自独立的，也可以是部分单元合并为一个单元。

关键词提取单元901可以对文本预处理模块502处理后的文本进行分析并提取关键词，提取方法可以包括但不限于基于统计学的卡方统计、同义词规则、布尔关联规则、位置规则、信息增益、互信息、几率比、交叉熵、类间信息差等方法，或者上述方法的任意组合。关键词提取单元901在某些实施例中是可选的。由于文本分类模块503是可选的，当需要略过文本分类模块503直接由属性抽取模块504对信息进行处理时，关键词提取单元901可以被执行，对预处理后的文本进行关键词的提取。如果文本分类模块503已经执行过，则可略过关键词提取单元901。

属性抽取模板902可以存储能够抽取事件属性的抽取规则。事件是由实体及实体的属性组成的。文本预处理模块502中的实体识别单元703已经对文本进行过实体识别，并形成了实体集合，属性抽取模板902存储的是针对不同实体的不同的属性抽取规则。抽取规则是预先配置的。配置方法可以是人工配置，根据预先设定的文本的种类，为每个种类的文本设定不同的实体属性抽取规则。配置方法也可以是机器学习方法。例如，可以首先选定一批训练文本。该训练文本是通过人工标注的类别清晰的文本。通过对训练文本的训练学习，得到属性抽取器(图中未展示)。该属性抽取器可根据不同的文本类别抽取所需的属性，然后利用该属性抽取器对新的文本进行属性抽取。属性抽取模板902在某些实施例中是可选的。当文本分类模块503没有执行，文本没有分类就没有对应的属性抽取模板。

属性抽取单元903可以完成从文本中抽取属性的工作。当文本分类模块503执行后，属性抽取单元903就可以根据文本分类的结果及文本所贴标签来选择相应的属性抽取模板。当文本贴有两个及以上的标签时，可以同时选取对应数量的属性抽取模板，然后对文本进行属性抽取，将所得结果进行聚类。具体举例来说，对于《中信证券股份有限公司2014年年度报告》这一信息，文本分类模块503赋予它的标签是公告大类年度报告子类。依据该标签，属性抽取单元903选取相应的属性抽取模板，根据选取的模板抽取事件属性。事件属性可以包括但不限于营业收入金额及同比涨幅大小、净利润金额、总资产金额及涨幅大小等等方面的信息。举例来说，对上述公告可抽取其中的“归属于母公司股东的净利润/本期比上年同期增长(％)/116.20％”这条属性信息。以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

回到图5，事件识别模块505可以完成对事件的识别工作，文本预处理模块502中的实体识别单元703已经对文本进行过实体识别，并形成了实体集合。属性抽取模块504从文本中抽取出了所需的属性集合。事件识别模块505可以依据实体识别结果和属性抽取结果，依据一定的事件识别模板，将事件识别出来，并生成细化事件。具体举例来说，对于《中信证券股份有限公司2014年年度报告》，前述文本预处理模块302识别的实体包括“中信证券”，“股份有限公司”，“2014年”，“年度报告”，“净利润”，“同期增减”等等，属性抽取模块304抽取的一条事件属性是：“归属于母公司股东的净利润/本期比上年同期增减(％)/116.20％”，事件识别模块505可以根据实体识别结果和属性抽取结果得到最终的细化事件：“中信证券2014年年度报告公告归属于母公司股东的净利润同比增长率等于116.2％”。

在某些实施例中，当收集模块201收集到用户输入的信息，对该信息进行回测时，可能会存在复杂逻辑，事件识别模块505仅仅根据实体信息和属性信息不能细化地识别出事件。这时需要根据***数据库205中的事件库(事件属性数据库1405或事件识别数据库1411)和一定的规则方法来进行事件的识别。具体举例来说，当用户输入的信息是“中标金额占营业收入50％以上合同的公司”，那么中标公告中很可能不会包含该公司营业收入的数据。这时可以根据数据库的数据(如历史数据)和一定的规则方法来计算得到最终的细化事件类别。以上的描述仅仅是本发明的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内

图10所示的是处理模块的流程图。***对收集模块201传输的信息进行格式转换，将之转换为统一的文本格式(步骤1001)。格式转换可以包括但不限于对文本、图片、音频、视频等中的一种或多种进行格式转换。步骤1001可以由格式转换模块501实现。***对文本格式的信息进行预处理(步骤1002)。预处理可以包括但不限于语言识别、文本分词、实体识别、归一化等中的一种或多种。步骤1002可以由文本预处理模块502实现。***对文本进行分类(步骤1003)。分类步骤可以包括但不限于进行关键词提取和进行分类。步骤1003可以由文本分类模块503实现。***对文本进行属性抽取(步骤1004)。步骤1004可以由属性抽取模块504实现。***对事件进行识别(步骤1005)。步骤1005可以由事件识别模块505实现。可选地，***还可以不经过步骤1001直接进行步骤1002，不经过步骤1003直接进行步骤1004。

图11所示的是自然语言处理模块203的结构示意图。自然语言处理模块203可以包括但不限于一个收集单元1101，以及一个自然语言生成单元1102。收集单元1101可以通过访问***中的其他模块收集需要的信息(例如，收集模块201、处理模块202、回测模块204、***数据库205)。自然语言生成单元1102可以将收集单元1101收集到的信息转化为自然语言语句。在本发明的一些实施例中，收集单元1101可以接收处理模块202输出的细化事件。同时，收集单元1101还可以从收集模块201接收用户输入信息。自然语言生成单元1102可以接收细化事件，并根据用户输入信息，对细化事件进行处理。在本发明的一种实施例中，例如，在股票领域，针对公告，用户可以选择生成针对个股的自然语言语句，或者选择针对行业的自然语言语句，还可以选择针对全市场的自然语言语句，或者其中的一种或多种。例如在新闻领域，针对IPO新股，用户可以选择生成针对大盘的自然语言语句。需要注意的是，上述的自然语言语句也可以在用户不介入的情况下自动生成。例如，针对个股，***可以自动生成针对个股的自然语言语句、针对行业的自然语言语句、针对全市场的自然语言语句，或者其中的一种或多种的结合。在新闻领域，针对IPO新股，***可以自动生成针对大盘的自然语言语句。进一步地，在新闻领域，自然语言生成单元1102可以生成针对商品价格的自然语言语句、针对天气状况的自然语言语句、针对人口统计的自然语言语句。上述自然语言语句中相关的数值可以缺省(在没有数值的情况下只会陈述改事件是否发生)。自然语言生成单元1102生成的自然语言语句可以被输入到回测模块204中，以对该自然语言语句进行回测。在本发明的另一些实施例中，用户输入待回测的自然语言语句到收集模块201，自然语言处理模块203从收集模块201中接收用户输入的自然语言语句。可选择地，用户可以直接将待回测的自然语言语句输入到自然语言处理模块203的查询框中，(图中未展示)。自然语言处理模块203可以对用户输入的自然语言语句进行预处理，得到标准节点序列(节点至少包括指标节点和条件节点)，并根据指标节点和其他节点之间的关系，构造节点树。节点树可以用于表征指标条件组合。根据节点树可以生成数据查询指令。该数据查询指令可以被输入回测模块204中以进行回测分析。用户可以通过自然语言处理模块203调用存储在 ***数据库205中的历史数据，用户可以利用布尔操作符(AND、OR、NOT等)将一定数量的自然语言语句组合到一起。

需要注意的是，以上对自然语言处理模块203的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解所需要的信息的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，自然语言处理模块203也可以接收回测模块204输出的回测结果。

图12所示的是回测模块的结构示意图。回测模块204可以包含一个标准问句单元1201、一个其他问句单元1202、一个优化单元1203、和一个扩展单元1204。标准问句单元1201、其他问句单元1202、优化单元1203和扩展单元1204可以是独立的。上述单元中的一些单元也可以是合并为一个单元工作。

标准问句单元1201可以接收***标准的自然语言语句事件。本发明的一些实施例中，标准问句单元1201可以接收自然语言处理模块203生成的自然语言语句，也可以接收来源于其他模块的自然语言语句。其他模块包括但不限于收集模块201、处理模块202、自然语言处理模块203、和***数据库205等一种或多种组合。其他问句单元1202可以接收非***的自然语言语句。非***的自然语言语句可以包括但不限于用户输入、专家定义、***抽取的结果等一种或多种组合。标准问句单元1201和其他问句单元1202可以合并为一个问句单元，该问句单元可以接收***和用户输入的自然语言语句事件等。

优化单元1203可以根据接收的信息和回测算法优化出策略组合。优化方式可以是自动的，也可以是人工的。例如，在金融领域，上述的回测算法得到的基本回测数据包括但不限于持有期、单次收益平均值、单次收益最大值、单次收益最小值、预期年化收益率、交易次数、盈亏比、成功率、最大回撤率、周战胜率、夏普比率、最大连续无选股结果天数、平均每天选股数等一种或多种组合。优化单元1203进一步还可以根据回测结果给出最优策略，同时还会有报告评级等。扩展单元1204可以配置提供订阅功能，也可以配置提供信息分享功能。订阅功能可以是扩展单元1204根据用户选择订阅包含特定关键词的信息，通过各种方式将经过该***分析后的信息内容推送给用户。分享功能可以是用户通过各种方式把感兴趣的信息分享给朋友等。

图13所示的是回测流程图。步骤1301接收信息。接收的信息来源可以包括但不限于收集模块201、处理模块202、自然语言处理模块203、和***数据库205。接收的信息可以是自然语言语句，也可以是机器语句。步骤1301可以是回测模块204接收到自然语言语句。自然语言语句信息可以是由用户直接输入的，也可以是其他模块生成的。步骤1301可以由标准问句单元1201和/或其他问句单元1203完成。

步骤1302中，将接收到的自然语言语句与历史数据进行回测分析，历史数据可以储存在***数据库205，也可以储存在回测模块204。自然语言语句与历史数据的回测分析可以通过一定的优化方法实现。优化方法可以包括但不限于***定义、用户自定义选择、机器学习等其中的一种或多种组合。

步骤1303中，优化分析的信息结果会与相应的文字模板匹配。文字模板可以是***定义的，也可以是用户自定义的。与模板匹配的结果内容可以包括但不限于回测报告、报告评级、最优策略、走势预测等一种或多种组合。

需要注意的是，上述对信息分析***流程的描述只是为了便于理解发明，不应被视为是本发明唯一可行的实施例。显然，对于本领域的专业人员来说，在了解所需要的基本原理后，可能在不背离这一原理的情况下，对所需要的信息的内容进行各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，步骤1303中，回测的历史信息可以与文字模板匹配，也可以是与语音、视频、图片等模板匹配。又如，回测过程可以由回测模块204完成，也可以由自然语言处理模块203、处理模块202、收集模块201等完成。

回到图12，回测模块204进一步可以包括扩展单元1204。扩展单元1204可以配置提供订阅功能，也可以配置提供信息分享功能。扩展单元可以包括但不限于各种类型的应用程序接口(API)，如面向对象的API、库与框架的API、API与协议、API与设备接口、web API，或其中的一种或多种。订阅功能可以是扩展单元1204根据用户选择订阅包含特定关键词的信息，通过各种方式将经过该***分析后的信息内容推送给用户。分享功能可以是用户通过各种方式把感兴趣的信息分享给朋友。扩展单元1204的订阅功能可以包括但不限于为用户提供推送信息，也可以推荐关注兴趣相似的用户，还可以推荐信息的评论，并且提供信息有无帮助的评分等。扩展单元1204推送的方式可以包含但不限于移动客户端软件、电子邮件、短信、RSS门户网站、在线单用户聚合器、搜索引擎、浏览器、即时通讯软件、社交网络等。扩展单元1204的推送周期可以是***设定的，也可以是用户自定义的。推送周期可以是定期的也可以是不定期的。推送可以是实时的也可以是延时的。扩展单元1204推送的信息内容形式可以包括但不限于文字、语音、图片、动画、视频等中的一种或多种。扩展单元1204推送的信息内容可以包括但不限于用户已浏览的信息内容更新，可以是用户关注的信息，也可以是***根据用户记录推荐的信息，还可以是同类信息关注的热度情况等中的一种或多种。

扩展单元1204的分享功能可以是用户使用的一种发布信息方式，分享到指定的地方，选择哪些人可以看到该信息等。信息分享的内容可以是单条信息也可以是多条信息，可以是部分选取内容的信息也可以是页面整体内容的信息，可以是信息内容分享也可以是信息评论分享，可以是信息的关注度分享也可以是信息的帮助评分分享等。信息分享的方式可以包括但不限于短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、人人、即时通讯软件工具等中的一种或多种。信息分享接收对象可以包括但不限于单个朋友、多个朋友、朋友圈、公共社交圈、论坛、其他用户等中的一个或多个。信息分享的内容格式可以包括但不限于文字、图片、语音、动画、视频、网页链接等中的一种或多种。以上对信息分享模式其所实现功能的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。以上对扩展单元1204的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解扩展单元1204的基本原理后，可能在不背离这一原理的情况下，对实施扩展单元的具体方式与步骤、以及扩展单元所能实现的功能进行形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。

图14所示的是***数据库205的模块示意图。***数据库205可以包括但不限于一个原始信息数据库、一个文本数据库、一个文本预处理数据库、一个实体数据库、一个事件属性数据库、一个关键词数据库、一个文本分类数据库、一个历史信息数据库、一个自然语言处理数据库、一个事件识别数据库、一个回测模块数据库、一个文字模板数据库、一个词典数据库等一种或多种组合。***数据库205可以储存数据及模板，也可以处理数据。例如，历史信息数据库1409收集的历史信息可以在该数据库中进行分类储存。同样地，当信息处理过程中有任何的更新，也会在各数据库中进行信息实时更新，如关键词数据库1406，同义词的更新实现在该数据库。显然，对于本领域的专业人员来说，在了解信息分析***及方法的数据库原理后，可能在不背离这一原理的情况下，对实施上述方法和***的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。例如，***数据库205中的各类数据库可以是在收集模块201、处理模块202、自然语言处理模块203、和回测模块204中分别实现其功能。***数据库205中的各类数据库也可以是一种数据库实现两种及两种以上数据的库功能，如文本预处理数据库1403可以同时储存预处理数据、实体数据、事件属性和关键词等，同时实现实体数据库1404、事件属性数据库1405、和关键词数据库1406的功能。

图15所示的是信息分析流程图。信息分析***在步骤1501对需要的信息进行收集。步骤1501可以由收集模块201完成。上述需要的信息可以包括但不限于各种新闻、公告、评论、研报、博客、消息、报告、通知、论文、期刊等中的一种或多种。上述需要的信息可以是关于各个行业的信息，包括但不限于体育、娱乐、经济、政治、军事、文化、艺术、科学、工程等中的一种或多种。上述需要的信息的形式可以包括但不限于文字、图片、音频、视频等中的一种或多种。在本发明的一些实施例中，***在步骤1501收集的信息可以是文本信息。该文本信息包括但不限于以下格式：pdf、doc、epub、mobi、caj等，或其中的一种或多种。

***在步骤1502对可以对文本信息进行预处理。步骤1502可以由处理模块202完成。文本预处理可以包括但不限于格式转换、分词处理、实体识别、数字及单位归一化处理等其中的一种或多种组合。例如，***在步骤1501收集到的信息为“中信证券股份有限公司2014年年度报告”公告，该公告为PDF文件，可以在上海证券交易所网站下载。***通过格式转换，将该公告转换成txt格式的文本，以方便分词和后续的文本处理。同时对PDF格式内部的表格部分进行分析处理，保留部分格式化信息和上下文信息。格式转换完成后，***将按照一定的方法对该公告进行分词处理。分词处理可以依据一个统计模型以及词典数据库1407进行。可选择地，分词处理也可通过应用一定的规则实现。规则可以包括但不限于，同义词配置、布尔关联规则、位置规则，或其中的一种或多种。完成分词处理之后，***将对公告进行实体识别。实体识别包括但不限于产品、机构名、人名、地名、时间、日期、货币、数字、百分比等。具体地，***可以总结提炼过往信息中的要素，定义各种事件类别。例如：外交类、金融类、体育类、政治类、科学类、教育类等，或其中的一种或多种。上述类别也可包含若干级别的子类，例如，金融类包含国债类、股票类、基金类等。完成识别后，***将对该公告进行数字及单位归一化处理。例如，将“净利润增长百分之三”转换为“净利润增长3％”。

在完成本文预处理之后，***将对该公告进行文本处理(步骤1503)。文本处理可以由处理模块202完成。***对经过预处理后的公告进行关键词匹配。关键词匹配可以与同义词配置、布尔关联规则、位置规则等方法相结合。根据关键词匹配或其它方法处理的结果，***可以对该公告进行类别判断(步骤1504)。例如，图19所示的《中信证券股份有限公司2014年年度报告》，抽取出的关键词可以为“中信证券”“2014年”“年度报告”“净利润”“同期增减”等，则该公告可以被判定为财务报告大类。步骤1504可以由处理模块202完成。

在完成类别判断之后，***可以依据一个规则生成细化事件(步骤1505)。在本发明的一些实施例中，完成类别判断后，文本信息中的属性可以被抽取出来。属性为关于实体性质或关系的描述。例如，对于图19所示的《中信证券股份有限公司2014年年度报告》，抽取出的实体可以为“中信证券”，则从图19的表格中可以抽取出的属性可以是营业收入、净利润同期增减、资产总额、负债总额、股东权益总额等，或其中的一种或多种。完成属性抽取之后，***可以按照一定的规则方法，将实体与属性结合，生成细化事件。步骤1505可以由处理模块202完成。生成细化事件的规则可以包括但不限于，同义词配置、布尔关联规则、位置规则，或其中的一种或多种。对于上述公告所抽取出的实体“中信证券”，可以将其与其属性之一的“净利润同期增减”相结合可生成“中信证券2014年年报净利润增长116.2％”这一细化事件。

生成细化事件后，***可以针对该细化事件生成自然语言语句(步骤1506)。步骤1506可以由自然语言处理模块203完成。对于上述公告，***可以生成3句自然语言语句，“中信证券年报净利润同比增长大于100％”，“券商行业年报净利润同比增长率大于100％”，“年报净利润同比增长率大于100％”，即分别对应个股、行业和整个股票市场等三个层次。***可以针对以上生成的3句自然语言语句，分别进行个股事件回测、行业事件回测、以及全市场回测(步骤1507)。步骤1507可以由回测模块204完成。完成回测之后，***可以将回测结果匹配文字模板，生成回测报告(步骤1508)。步骤1508可以由回测模块204完成。对于上述公告，***生成的一个示例回测报告可以是“近1年，A股所有财务报告公告，次日收盘平均收益0.48％，上涨概率47.77％。其中，证券行业共公布165次同类公告，次日收盘平均收益0.72％，上涨概率46.67％，股价次日下跌概率偏大，获利概率偏低。最优策略：上涨概率最高是持股11天后收盘卖出，平均收益9.40％。”由于上涨概率分布在50％上下，因此判定“无足轻重”。

需要注意的是，上述对信息分析***流程图的描述只是为了便于理解发明，不应被视为唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明的内容和原理之后，都可能在不背离本发明原理和结构的情况下，进行形式和细节上的各种修正和改变，但这些修正和改变仍在本发明的权利要求保护范围之内。例如，在步骤1504，***可以直接收集用户输入的信息，并将该信息转换为自然语言语句(步骤1506)。同样地，***在完成信息收集之后，可以直接进行文本处理(步骤1503)。同样地，***在完成文本处理之后，可以直接依据处理后的文本生成细化事件，步骤1504不是必须的。

图16所示的是信息分析***交互工作流程图。信息分析***在步骤1601接收自然语言语句。该自然语言语句可以是用户直接输入的，也可以是通过处理公告、新闻等文本得到的自然语言语句。具体地，用户可以通过信息分析***提供的交互界面(详见图18)来输入自然语言语句。用户可以输入任何自然语言语句。例如，在金融领域，用户可以输入“000826，签订重大合同”；***可以根据输入的自然语言语句检索代码000826对应的公司签订的重大合同。自然语言语句的数字和日期可以是任意格式的(详见图18)。

信息分析***在步骤1602处理步骤1601中接收的自然语言语句。处理可以包括但不限于，分词处理、实体识别、数字及单位归一化处理、文本分类、事件属性抽取、细化事件识别等一种或多种组合。信息分析***在步骤1603对步骤1602中经过处理的自然语言语句进行回测，然后在步骤1604生成回测报告。关于回测报告的具体内容将在图18中作详细描述。

图17是信息分析***针对新闻或公告的一个交互界面示意图。参考图2，该交互界面可以由回测模块204生成并用来展示回测结果(回测展示)。该交互界面可以在各种电子设备上显示。电子设备可以包括但不限于手机、个人电脑、平板电脑、PDA、智能手表、智能家电、智能交通工具等，或其中的一种或多种。在地址栏中，用户可以输入任意公告或新闻的统一资源定址器(URL)以对该公告或新闻及其分析结果进行阅读。可选择地，用户也可以输入任意公告或新闻的IP(Internet Protocol)地址。

在查询框1701中，用户可以输入公告或新闻的完整名称。可选择地，用户也可以输入公告或新闻中的关键字，以在结果列表中选择指定的新闻或公告。在选定好指定公告或新闻之后，该公告或新闻的标题、正文内容、以及回测报告可以在交互界面上被显示出来。区域1702可以显示公告或新闻的正文内容的全部或部分，用户可以通过鼠标、按键、触摸屏、语音控制或者触摸板来查看正文内容。区域1703可以显示针对选定公告或新闻的回测报告。所述回测报告可以包括但不限于对历史数据的展示，例如，

“近1年，A股所有签订重大合同公告，次日收盘平均收益0.38％，上涨概率47.62％。

其中，XX制药共公布16次同类公告，次日收盘平均收益0.29％，上涨概率68.75％，股价次日上涨概率极大，获利概率较高。”

除了展示历史数据外，对公告或新闻的评级和建议策略也可以被展示在区域1703中。所述建议策略基于回测周期中最晚时间之后的最优历史表现，建议策略可以是，例如，上涨概率最高是持股1天后收盘卖出，平均收益0.29％。报告评级可以是利好、利空或无足轻重等。区域1704可以显示最新公告或新闻以方便用户查看。显示方式可以是列表显示，即只显示最新公告或新闻的标题和时间。区域1705可以显示选定报告或新闻的一些相关信息，如选定报告或新闻的，公告(新闻)类型、发布时间、新闻或公告中涉及的证券名称、证券代码、公告(新闻)编号等。

以上的描述仅仅是本发明分类展示模块的具体实施例，不应被视为是唯一的实施例。显然，对于本领域的专业人员来说，在了解本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些修正和改变仍在本发明的权利要求保护范围之内。

图18是信息分析***针对用户输入的一个交互界面示意图。参考图2，该交互界面可以由回测模块204生成并用来展示回测结果(回测展示)。该交互界面可以在各种电子设备上显示，电子设备可以包括但不限于，手机、个人电脑、平板电脑、PDA、智能手表、智能家电、智能交通工具等，或其中的一种或多种。在地址栏中，用户可以输入任意文本的统一资源定址器(URL)以对该文本及其分析结果进行阅读。可选择地，用户也可以输入任意文本的IP(Internet Protocol)地址。

在区域1801中，用户可以输入任何自然语言语句。如在金融领域，用户可以输入“12月10日20日均线粘合；振幅小于3％；两比从大到小排序”或者“股息率连续两年大于3％；每股收益大于2元；市值小于50亿营业收入同比增长率从小到大”。输入的自然语句中的数字和日期可以是以任意格式表现的数字和日期。日期可以是大前天、上上个星期、上个周末、上周5、上个月、上个季度、大前年、近N天、近N周、近N个交易日等。数字可以是3分之1、1/3、5元、百分之5、5％等。数字也可以是一个范围，如5至10元、5-10％等。输入的自然语言语句中还可以加入排序规则。排序规则可以是，如量比从大到小、量比从小到大、涨跌幅从小到大、涨跌幅从大到小、换手率从大到小、换手率从小到大、资金流向从大到小、流通盘从小到大、DDE从大到小、市值从小到大、基本每股收益从大到小、销售毛利率从大到小、销售毛利率从大到小、净资产(同比增长率)从大到小、资产收益率roe从大到小、已获利息倍数从大到小、营业收入(同比增长率)从大到小等，或其中的一种或多种。

在区域1802，用户可以设置分析策略。例如，用户可以设置时间范围、持仓股票、买入时机、持股周期、止盈条件、止损条件、交易费率等。具体地，用户可以设置买入时机为第二天开盘后买入，也可以设置止盈条件为“大于25％时，回撤5％止盈”。在设置好区域1801以及区域1802中的内容后，用户可以点击查询按钮，关于输入自然语言语句的回测报告将被生成。区域1803可以展示对生成回测报告的评级以及建议的策略。报告评级可以是对最大预期年化收益率及最大成功率的估计等。区域1804可以显示针对输入的自然语言语句的回测报告。回测报告可以包括但不限于回测数据分析、累计收益图、收益分布图、历史交易查询等内容。回测数据可以包括但不限于持有期、单次收益平均值、单次收益最小值、预期年化收益率、交易次数、盈亏比、成功率、最大回撤率、周战胜率、夏普比率、最大连续无选股结果天数、平均每天选股数等

以上对适用领域的描述仅仅是具体的示例，不应被视为是唯一可行的实施方案。显然，对于本领域的专业人员来说，在了解一种信息分析方法和***的基本原理后，可能在不背离这一原理的情况下，对实施上述方法和***的应用领域形式和细节上的各种修正和改变，但是这些修正和改变仍在以上描述的范围之内。凡是能整理成数据的配置***都可以使用本发明描述的***实现信息分析的功能，例如本发明可以作为浏览器插件，当用户浏览网站时，需要对当前网页的新闻或公告进行信息分析，可使用该插件回测该新闻或公告的历史信息，并给予预测；同样地，该***还可以嵌入公司***中对财务报表进行智能数据分析；另外，各种传感器采集数据，如温度传感器、湿度传感器、风力传感器可以读取环境数据，可以通过该***来分析环境历史趋势并预测未来环境变化；医学方面，不同年龄段使用同一药物的效果进行回测，如感冒得病的症状，根据历史数据分析得出多少天痊愈等。

Claims

一种信息分析***，包括：

一种计算机可读的存储媒介，所述存储媒介存储可执行模块，包括：

收集模块，所述收集模块能够收集信息；

处理模块，所述处理模块能够对收集的信息进行预处理，从预处理后的信息中提取事件；

自然语言处理模块，所述自然语言处理模块能够根据提取出的事件生成自然语言语句；

回测模块，所述回测模块能够根据生成的自然语言语句获取历史信息，并结合所述历史信息生成回测结果；

一个处理器，所述处理器能够执行所述计算机可读的存储媒介存储的可执行模块。
根据权利要求1，所述的信息分析***进一步包括一个数据库，所述数据库能够储存所述的收集信息、预处理后的信息、提取的事件、自然语言语句、历史信息、回测结果。
根据权利要求2，所述的数据库包括原始信息数据库、文本数据库、文本预处理数据库、实体数据库、事件属性数据库、关键词数据库、文本分类数据库、历史信息数据库、自然语言处理数据库、事件识别数据库、回测模块数据库、文字模板数据库、词典数据库。
根据权利要求1，所述的处理模块进一步包括格式转换模块、文本处理模块、属性抽取模块、事件识别模块。
根据权利要求4，所述的处理模块进一步包括文本分类模块。
根据权利要求1，所述的处理模块采用的方法包括卡方统计、信息增益、互信息、几率比、交叉熵、类间信息差、关键词统计、决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、最邻近算法kNN、遗传算法、情感分类、最大熵、Generalized Instance Set、同义词配置、布尔关联规则、位置规则、机器学习。
根据权利要求1，所述的自然语言处理模块可以从收集模块接收信息。
根据权利要求1，所述的回测模块进一步包括回测信息判断，所述回测信息判断根据回测结果的情况给出评价。
根据权利要求1，所述的回测结果可以被展示给用户。
一种信息分析方法，包括：

收集信息；

根据所述信息提取事件；

根据所述事件生成自然语言语句；

根据所述自然语言语句获取历史信息；

结合所述历史信息对所述自然语言语句进行回测分析。
根据权利要求10，所述的收集信息包括收集用户输入信息和非用户输入信息，所述非用户输入信息来源包括通信终端和服务器。
根据权利要求11，所述的收集信息包括收集公告信息和新闻信息。
根据权利要求10，所述的提取事件进一步包括实体识别和属性抽取。
根据权利要求13，所述的实体识别进一步包括格式转换、文本分词、数字及单位归一化处理。
根据权利要求13，所述的属性抽取可以通过***定义的模型实现。
根据权利要求10，所述的自然语言语句可以根据用户输入信息生成。
根据权利要求10，所述的自然语言语句可以进一步根据事件类别扩展。
根据权利要求10，所述的自然语言语句回测可以根据信息类别生成回测结果。