WO2021042503A1 - 信息分类抽取方法、装置、计算机设备和存储介质 - Google Patents

信息分类抽取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021042503A1
WO2021042503A1 PCT/CN2019/116142 CN2019116142W WO2021042503A1 WO 2021042503 A1 WO2021042503 A1 WO 2021042503A1 CN 2019116142 W CN2019116142 W CN 2019116142W WO 2021042503 A1 WO2021042503 A1 WO 2021042503A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
information
text
text blocks
classified
Prior art date
Application number
PCT/CN2019/116142
Other languages
English (en)
French (fr)
Inventor
刘康龙
徐国强
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021042503A1 publication Critical patent/WO2021042503A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Definitions

  • This application relates to a method, device, computer equipment and storage medium for information classification and extraction.
  • an information classification extraction method is provided.
  • An information classification extraction method includes:
  • the event atlas data corresponding to the target event category is generated using the multiple event elements and corresponding event element parameters.
  • An information classification extraction device includes:
  • Data acquisition module for acquiring information to be classified
  • the word segmentation processing module is used to perform word segmentation processing on the information to be classified to obtain multiple text blocks corresponding to the information to be classified;
  • the classification extraction module is used to input the plurality of text blocks into the trained classifier, classify the plurality of text blocks, and determine the target event category and the number of the information to be classified according to the categories of the plurality of text blocks.
  • Event elements extract corresponding event element parameters according to the target event category and event element, and output the target event category and multiple event elements and corresponding event element parameters;
  • the event atlas generating module is used to generate event atlas data corresponding to the target event category by using the multiple event elements and corresponding event element parameters.
  • a computer device including a memory and one or more processors, the memory stores computer readable instructions, and when the computer readable instructions are executed by the processor, the one or more processors execute The following steps:
  • the event atlas data corresponding to the target event category is generated using the multiple event elements and corresponding event element parameters.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions.
  • the computer-readable instructions When executed by one or more processors, the one or more processors perform the following steps:
  • the event atlas data corresponding to the target event category is generated using the multiple event elements and corresponding event element parameters.
  • Fig. 1 is an application scenario diagram of an information classification extraction method according to one or more embodiments.
  • Fig. 2 is a schematic flowchart of an information classification extraction method according to one or more embodiments.
  • Fig. 3 is a schematic flowchart of a step of classifying multiple text blocks according to one or more embodiments.
  • Fig. 4 is a schematic flowchart of the step of classifying multiple text blocks in another embodiment.
  • Fig. 5 is a block diagram of a device for information classification and extraction according to one or more embodiments.
  • Figure 6 is a block diagram of a computer device according to one or more embodiments.
  • the information classification and extraction method provided in this application can be applied to the application environment as shown in FIG. 1.
  • the terminal 102 communicates with the server 104 through the network.
  • the terminal 102 may send an information classification request to the server 104.
  • the server 104 obtains the information to be classified from the terminal 102, performs word segmentation processing on the information to be classified, and obtains multiple text blocks; inputs the multiple text blocks to the trained classifier, A text block is classified to determine the target event category and multiple event elements of the information to be classified; the corresponding event element parameters are extracted according to the target event category and event element, and the target event category, multiple event elements and corresponding event element parameters are output ; According to multiple event elements and corresponding event element parameters, generate event graph data corresponding to the target event category.
  • the server 104 can also push the event map data to the terminal 102.
  • the terminal 102 may be, but is not limited to, various personal computers, notebook computers, smart phones, tablet computers, and portable wearable devices.
  • the server 104 may be implemented by an independent server or a server cluster composed of multiple servers.
  • a method for information classification and extraction is provided. Taking the method applied to the server in FIG. 1 as an example for description, the method includes the following steps:
  • Step 202 Obtain information to be classified.
  • the information to be classified may be natural language text information, for example, news information.
  • the server can obtain the information to be classified from the user terminal, and can also obtain the information to be classified from a third-party website or a database of a third-party platform by using web crawling technology.
  • Step 204 Perform word segmentation processing on the information to be classified to obtain multiple text blocks corresponding to the information to be classified.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified. Specifically, the server may first perform part-of-speech tagging on multiple words and punctuation marks in the classification information. The server then obtains a preset corpus vocabulary, which includes common vocabulary and specific vocabulary of the large data and corresponding word vectors. The server matches the text to be classified with multiple words in the corpus, and performs word segmentation on the information to be classified according to the matched words, so as to obtain multiple text information corresponding to the information to be classified.
  • the information to be classified includes some unnecessary punctuation or vocabulary.
  • the server After the server performs word segmentation on the information to be classified, it can also perform data cleaning on the text information after the word segmentation. Specifically, after obtaining multiple pieces of text information, the server filters multiple words according to preset part-of-speech tags, extracts corresponding text words, and obtains multiple text blocks. So as to effectively filter the unclear or unnecessary words and punctuation in the classified information.
  • Step 206 Input multiple text blocks into the trained classifier, classify the multiple text blocks, and determine the target event category and multiple event elements of the information to be classified according to the categories of the multiple text blocks.
  • Step 208 Extract corresponding event element parameters according to the target event category and event element.
  • an event refers to a set of related descriptions about an information topic, and this topic can be formed by classification or clustering.
  • the elements that make up an event can include: trigger word, event category, argument and role of argument.
  • the target event category may indicate the type of information domain to which the information to be classified belongs, and the event element may be event category labels of multiple events contained in the information to be classified.
  • the classifier may be a classification model constructed by the server after training with a large amount of training data in advance.
  • the classifier can be an event classification extraction model based on a self-attention network.
  • the classifier may include multiple network layer structures. For example, it may include an input layer, a relationship analysis network layer, a graph convolutional network layer, a self-attention network layer, a classification layer, and an output layer.
  • the server performs word segmentation processing on the information to be classified, and after obtaining multiple text blocks, it inputs the multiple text blocks into the trained classifier, and extracts the text vectors corresponding to the multiple text blocks and the local features of the text blocks through the classifier. And analyze the upper and lower information of the text vector.
  • the server further extracts the local features of the syntax graph corresponding to the text vector, and analyzes the weights and association relationships of multiple text vectors through the self-attention network, and calculates the corresponding text blocks according to the weights and association relationships of multiple text vectors.
  • category The server further determines the target event category and multiple event elements of the information to be classified according to the categories corresponding to the multiple text blocks.
  • the server then extracts corresponding event element parameters according to the target event category and event element, and outputs the target event category and event element and corresponding event element parameters through the output layer of the classifier.
  • Step 210 Generate an event map corresponding to the target event category by using multiple event elements and corresponding event element parameters.
  • the server After the server identifies and extracts the target event category in the information to be classified through the classifier, as well as multiple event elements and corresponding event element parameters, it can also establish corresponding knowledge graph data based on multiple event elements and corresponding event element parameters. This enables the server to effectively further utilize and process the event information after classification and extraction.
  • the classifier based on the self-attention network is used to perform association relationship analysis and event analysis on the information to be classified, so as to classify and extract the key event information of the text information, which can effectively improve the classification accuracy of the event information.
  • the information to be classified can be news report information
  • the server can obtain a news report information from a web page, such as Trump's launch of a trade war.
  • the server performs word segmentation processing on the news report information according to the title category to obtain multiple text blocks.
  • the server then performs feature extraction on multiple text blocks after word segmentation through the classifier, and performs context analysis and semantic context analysis to perform classification.
  • the result of classification can include target event category and event element.
  • the target event category can be a financial event.
  • the event element can include a variety of event element categories, including but not limited to event trigger, event occurrence time, event occurrence location, and event participant , Event trigger reason, event conclusion, etc., for example, the event trigger is Trump, the event place is the United States, etc.
  • the United States is the event element parameter corresponding to the event element where the event occurred.
  • the server then extracts multiple event elements and corresponding event element parameters.
  • the server performs association relationship analysis and event analysis on the classified information through the classifier, after classifying and extracting the event category and multiple event element information in the text information, and using the extracted multiple event element information to generate the corresponding event map data, by This can effectively extract key event information from text information, so as to effectively further utilize the extracted event element information.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified, which is appropriate for multiple text blocks corresponding to the information to be classified.
  • the server then inputs the multiple text blocks into the trained classifier for classification, so that the target event category of the information to be classified and the multiple event elements contained in the information to be classified can be determined according to the categories of the multiple text blocks.
  • the server further identifies corresponding event element parameters based on multiple event elements, and outputs the target event category, multiple event elements, and corresponding event element parameters, so as to accurately and effectively classify the classification information, and effectively extract the The event information contained in the classification information.
  • the server then generates event graph data corresponding to the target event category according to multiple event elements and corresponding event element parameters, so that the event information after classification and extraction can be further utilized and processed effectively.
  • the association relationship analysis and event analysis of the information to be classified can be used to accurately and effectively identify and extract the event category and event information in the information.
  • the information to be classified includes title information
  • the step of performing word segmentation processing on the information to be classified includes: obtaining a corresponding definition table according to the matching of the title information; performing part-of-speech tagging of the classified information according to the definition table, and word segmentation according to the part-of-speech tags, Obtain multiple text blocks; identify the corresponding importance levels according to the part-of-speech tags of the multiple text blocks, mark the priority levels of the multiple text blocks according to the importance levels; delete text blocks whose priority levels have not reached the preset level value, and use the priority level The text block that reaches the preset level value is the filtered text block.
  • the information to be classified may also include title information, and the title information indicates short sentences indicating the content of information such as articles and works.
  • the news information may also include headline information, that is, news headlines.
  • the definition table stores the corpus of specific domains, and the definition table also defines the importance of various part-of-speech tags.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified, which is appropriate for multiple text blocks. Specifically, the server can identify the information field corresponding to the title information, and obtain a matching definition table according to the field of the subject information. Furthermore, the classification information is segmented according to the domain corpus in the definition table. Specifically, the server can mark multiple text vocabularies and punctuation characters in the classification information according to the domain corpus in the definition table, add corresponding part-of-speech tags to multiple text vocabularies, and perform word segmentation based on the part-of-speech tags, so as to obtain Multiple text blocks.
  • a text block can include one or more words. Among them, vocabulary can include words, vocabulary, phrases, or punctuation marks.
  • the server further marks the priority levels of the multiple text blocks after word segmentation. Specifically, the multiple text blocks may be marked with corresponding priority levels according to the importance degrees corresponding to the pre-defined part-of-speech tags in the definition table.
  • the server further deletes the text blocks whose priority levels have not reached the preset level value, and uses the text blocks whose priority levels reach the preset level value to obtain the filtered text blocks. For example, the server can set a level value in advance. When the priority level of a text block does not reach the preset level value, it means that the text block is an unnecessary vocabulary or unclear vocabulary or text, and the server deletes that does not reach the preset level value. To filter the text and vocabulary, the remaining vocabulary that reaches the preset level value is the filtered text block.
  • the classifier includes multiple network layers, and the step of classifying multiple text blocks specifically includes the following content:
  • Step 302 Input multiple text blocks into the classifier, and extract text vectors corresponding to the multiple text blocks through the input layer of the classifier.
  • Step 304 Use multiple text vectors as input to the relationship analysis network layer, perform feature recognition on the multiple text vectors through the relationship analysis network layer, extract context features of the text vectors, and obtain a first extraction result.
  • Step 306 The first extraction result is used as the input of the graph convolutional network layer, the text vector is converted into a syntactic graph structure through the graph convolutional network layer, and the dependency relationship of multiple text vectors is extracted according to the syntactic graph structure to obtain the second extraction result .
  • step 308 the second extraction result is used as the input of the self-attention network layer, and the association relationship and weight of the multiple event elements are analyzed according to the context feature and dependency relationship of the text vector to generate a third extraction result.
  • Step 310 Input the third extraction result to the classification layer, classify the third extraction result through the classification layer to obtain the corresponding event category, multiple event elements and corresponding event element parameters, generate the classification result, and classify the third extraction result through the output layer
  • the result is output after weighting.
  • the classifier may be a classification model constructed by the server after training using a large amount of training data in advance.
  • the classifier can be an event classification extraction model based on a self-attention network.
  • the classifier may include multiple network layer structures. For example, it may include an input layer, a relationship analysis network layer, a graph convolutional network layer, a self-attention network layer, a classification layer, and an output layer.
  • the input layer is used to extract the feature vector of the input text block;
  • the relationship analysis network layer can be a two-way long and short-term memory network, which is used to extract the context features of multiple text vectors;
  • the graph convolutional network layer is used to convert the text vector It is a syntactic graph structure, and extracts the dependency relationship of the syntactic graph;
  • the self-attention network layer is used to identify multiple event elements and the association relationship between multiple event elements;
  • the classification layer is used to identify the category of the information to be classified and the event elements and Corresponding parameter content.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified, which is appropriate for multiple text blocks.
  • the server then inputs multiple text blocks into the trained classifier for classification. Specifically, the server inputs multiple text blocks into the classifier, and the input layer of the classifier performs feature extraction on the multiple text blocks, and converts the multiple text blocks into corresponding text vectors.
  • the input layer uses multiple text vectors as the input of the relationship analysis network layer, and passes multiple text vectors to the relationship analysis layer.
  • the relationship analysis network layer performs feature recognition on multiple text vectors, analyzes the context relationship between the multiple text vectors, and extracts the context features of the multiple text vectors, and generates the first extraction result according to the extracted context features.
  • the relationship analysis network layer After the relationship analysis network layer obtains the first extraction result, it uses the first extraction result as the input of the graph convolutional network layer, and passes the first extraction result to the graph convolutional network layer.
  • the graph convolutional network layer then converts multiple text vectors into a syntactic graph structure.
  • the syntactic graph structure can be a syntactic graph network based on a grammatical shortcut arc.
  • the graph convolutional network layer further extracts the dependency relationships of multiple text vectors according to the syntactic graph structure, and uses the dependency relationships of the extracted multiple text vectors as the second extraction result.
  • the graph convolutional network layer uses the second extraction result as the input of the self-attention network, and passes the second extraction result to the self-attention network layer.
  • the second extraction result includes the context features and dependencies of multiple text vectors.
  • the self-attention network layer further performs correlation analysis based on the context features and dependencies of multiple text vectors, extracts multiple event elements, and calculates the correlation and weights of multiple event elements.
  • the self-attention network layer uses the analysis to obtain The association relationship and weight of the multiple event elements of the, generate the third extraction result.
  • the self-attention network layer uses the third extraction result as the input of the classification layer, and passes the third extraction result to the classification layer.
  • the classification layer recognizes the event category of the information to be classified according to the association relationship and weight of multiple event elements, and at the same time recognizes the element category of multiple event elements according to the association relationship and weight of multiple event elements, and obtains event elements of multiple categories.
  • Event elements can include element category tags.
  • the classification layer further identifies the content of each event element corresponding to each event element based on the correlation and weight of multiple event elements. Among them, the content of the event element can be expressed as the event element parameter corresponding to the event element.
  • the classification layer then generates classification results from the event category, multiple event elements and corresponding event element parameters, and transmits the classification results to the output layer.
  • the output layer weights the classification results according to a preset method and outputs them.
  • the text vector is converted into a syntactic graph structure through the graph convolutional network layer, and the step of extracting the local features of the text vector according to the syntactic graph structure specifically includes the following content:
  • Step 402 Generate corresponding multiple text block nodes according to the multiple text vectors, and convert the multiple text block nodes into corresponding multiple graph nodes.
  • Step 404 parse out the shortcut arc identifiers corresponding to multiple graph nodes through the dependency parsing tree in the graph convolutional network layer.
  • Step 406 Analyze the semantic features and contextual features of multiple graph nodes through the graph contour network of the graph convolutional network layer.
  • Step 408 Analyze the dependency relationships of multiple text vectors according to the shortcut arc identifiers, semantic features and context features of multiple graph nodes.
  • a dependency parse tree and a graph contour network are deployed in the graph convolutional network layer.
  • the dependency parse tree is used to analyze the dependency relationship between text blocks
  • the graph contour network is used to analyze the dependency relationship between graph nodes.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified, which is appropriate for multiple text blocks.
  • the server then inputs multiple text blocks into the trained classifier for classification. Specifically, the server inputs multiple text blocks into the classifier, and extracts text vectors corresponding to the multiple text blocks through the input layer of the classifier.
  • the multiple text vectors are used as the input of the relationship analysis network layer, and feature recognition is performed on the multiple text vectors through the relationship analysis network layer, and the context features of the text vectors are extracted to obtain the first extraction result.
  • the first extraction result is used as the input of the graph convolutional network layer, the text vector is converted into a syntactic graph structure through the graph convolutional network layer, and the local features of the text vector are extracted according to the syntactic graph structure to obtain the second extraction result.
  • the graph convolutional network layer generates corresponding multiple text block nodes according to multiple text vectors, and uses multiple text block nodes to generate corresponding syntactic graph structures.
  • the shortcut arc identifier corresponding to each text vector is parsed, and the shortcut arc identifier is used to represent the grammatical shortcut arc of the text vector.
  • the graph contour network in the graph convolutional network layer further analyzes the semantic and contextual features of multiple graph nodes, and then analyzes the dependence of multiple text vectors based on the shortcut arc identification, semantic features and contextual features of multiple graph nodes relationship.
  • the graph convolutional network layer can enhance the information flow by introducing syntactic shortcut arcs and the attention-based graph contour network to simulate graph information
  • the graph convolutional network (GCN) can be used to pass the directly adjacent representative vectors in the graph nodes To learn the syntactic context characteristics of each node, and then further learn the context characteristics of each text vector, so as to analyze the dependence of multiple text vectors based on the shortcut arc identification and semantic characteristics of multiple graph nodes and context characteristics.
  • the graph convolutional network layer After the graph convolutional network layer extracts the dependency relationships of multiple text vectors, it uses the dependency relationships of the multiple text vectors to generate a second extraction result.
  • the second extraction result is used as the input of the self-attention network layer, and the self-attention network layer analyzes the association relationship and weight of multiple text vectors according to the local features and context features of the text vector, and generates the third extraction result.
  • Input the third extraction result to the classification layer classify the third extraction result through the classification layer to obtain the corresponding event category, multiple event elements and corresponding event element parameters, generate classification results, and weight the classification results through the output layer After output.
  • the association relationship analysis of the event information is carried out to extract and classify the key information of the event information, which can effectively improve the classification accuracy of the event information.
  • a classifier before classifying multiple text blocks, it is also necessary to construct a classifier in advance, which specifically includes: obtaining multiple sample data, dividing the sample data into a training set and a validation set; obtaining a preset classification model , Use the training sample data in the training set to train the classification model to obtain the initial classifier; input the verification data in the verification set to the initial classifier, and use the verification set to further train and verify the initial classifier to obtain multiple verification data correspondences The category probability; until the number of category probabilities corresponding to the verification data within the preset range reaches the preset threshold, the training is stopped, and the trained classifier is obtained.
  • the server Before the server obtains the information to be classified and classifies the information to be classified, it also needs to pre-train and construct a classifier.
  • the server can obtain a large amount of sample data from a local database or a third-party database in advance, and generate a training set and a validation set from the large amount of sample data.
  • the sample data in the training set may be manually labeled sample data. For example, the sample data has been labeled with event categories, multiple event elements, and corresponding event element parameters.
  • the server first performs data cleaning and data preprocessing on the training sample data in the training set. Specifically, the server vectorizes multiple field data corresponding to the training sample data to obtain feature vectors corresponding to multiple text data, and convert the feature vectors Is the corresponding characteristic variable. The server further derives the characteristic variables to obtain multiple characteristic variables after processing. Such as filling in missing values for characteristic variables, extraction and replacement of outliers, etc.
  • the server uses a preset clustering algorithm to perform cluster analysis on the feature variables corresponding to the training set data.
  • the preset clustering algorithm may be a k-means (k-means algorithm) clustering method.
  • the server obtains multiple clustering results after clustering the characteristic variables multiple times.
  • the server calculates the similarity between the multiple feature variables according to the preset algorithm, and extracts the feature variables whose similarity reaches the preset threshold.
  • the server obtains a preset machine learning model, which may be based on a self-attention network machine learning model, for example.
  • the machine learning model includes multiple neural network models.
  • the neural network model may include a preset input layer, input layer, relational analysis network layer, graph convolutional network layer, self-attention network layer, classification layer, and output layer.
  • the network layer of the neural network model may include an activation function and a deviation loss function.
  • the fully connected artificial neural network output by the LSTM layer also includes the corresponding activation function.
  • the graph convolutional network layer can also introduce grammatical shortcut arcs to enhance the information flow, and adjust the graph conversion network to capture the enhanced representation of the information.
  • the neural network model also includes a calculation method for determining the error, for example, the mean square error algorithm can be used; it also includes an iterative update method for determining the weight parameter, for example, the RMSprop algorithm can be used.
  • the neural network model can also include a common neural network layer for dimensionality reduction of the output result.
  • the server After the server obtains the preset neural network model, it inputs the training sample data in the training set to the neural network model for learning and training. By learning the marked event categories and multiple event elements and the parameters of the event element in the training sample data Dependency and association relations, etc. After the server trains a large number of training sample data in the training set, it can obtain feature dimension values and weights corresponding to multiple feature variables, and then construct an initial classifier according to the feature dimension values and weights corresponding to multiple feature variables.
  • the server After the server obtains the initial classifier, it obtains the verification set, inputs the verification data in the verification set to the initial classifier for further training and verification, and obtains category probabilities corresponding to multiple verification data. Until the number of the validation set data that meets the preset threshold reaches the preset ratio, the training is stopped, and then the trained classifier is obtained. Through training and learning a large amount of sample data, a classifier with higher prediction accuracy can be effectively constructed, which effectively improves the classification accuracy of information, and can accurately and effectively extract event information from the information to be classified.
  • the step of generating event graph data corresponding to the target event category according to multiple event elements and corresponding event element parameters includes: generating multiple corresponding element nodes and node information according to the event elements and event element parameters; Perform correlation analysis on multiple element nodes and corresponding node information to obtain the association relationship of multiple element nodes; map and merge multiple element nodes according to the association relationship, and associate multiple element nodes through node link technology;
  • the event graph data corresponding to the target event category is generated according to multiple connected element nodes and corresponding node information.
  • the server After the server obtains the information to be classified, it performs word segmentation processing on the information to be classified, which is appropriate for multiple text blocks.
  • the server then inputs multiple text blocks into the trained classifier for classification, thereby determining the target event category of the information to be classified and multiple event elements contained in the information to be classified.
  • the server further identifies corresponding event element parameters based on multiple event elements, and outputs the target event category, multiple event elements, and corresponding event element parameters, so as to accurately and effectively classify the classification information, and effectively extract the The event information contained in the classification information.
  • the server then generates event graph data corresponding to the target event category according to the multiple event elements and corresponding event element parameters. Specifically, the server generates multiple corresponding element nodes and node information according to the event element and the event element parameters, and performs correlation analysis on the multiple element nodes and corresponding node information to obtain the correlation relationship of the multiple element nodes.
  • the server further maps and merges multiple element nodes according to the association relationship. For example, the server can map and merge data from different sources with nodes as the main target, describe the nodes to which different data is based through data attributes, and use relationships to describe the association relationship between each element node.
  • the server also associates multiple element nodes through node link technology. The server can effectively generate event graph data corresponding to the target event category according to multiple connected element nodes and corresponding node information.
  • the server can store multiple types of data of nodes through node link technology, use graph database to connect unconnected data, and integrate discrete data; by extracting, transforming, and loading multiple event nodes, etc. Preprocessing, and then convert the element node and node information into corresponding event graph data, thereby effectively generating event graph data corresponding to the event information.
  • the knowledge graph of the network structure is formed through the relevance of different knowledge, which can effectively extract the relevance between events, thereby providing more valuable decision support for effective analysis of related events.
  • an information classification extraction device including: a data acquisition module 502, a word segmentation processing module 504, a classification extraction module 506, and an event graph generation module 508, wherein:
  • the data acquisition module 502 is used to acquire information to be classified
  • the word segmentation processing module 504 is configured to perform word segmentation processing on the information to be classified to obtain multiple text blocks corresponding to the information to be classified;
  • the classification extraction module 506 is used to input multiple text blocks into the trained classifier, classify the multiple text blocks, and determine the target event category and multiple event elements of the information to be classified according to the categories of the multiple text blocks;
  • the target event category and event element extract the corresponding event element parameters, and output the target event category and multiple event elements as well as the corresponding event element parameters;
  • the event atlas generating module 508 is used to generate event atlas data corresponding to the target event category by using multiple event elements and corresponding event element parameters.
  • the information to be classified includes title information
  • the word segmentation processing module 504 is further configured to obtain a corresponding definition table according to the matching of the title information
  • the definition table includes the corpus and the importance of various parts of speech tags; treat according to the definition table Perform part-of-speech tagging on the classification information, and perform word segmentation based on the part-of-speech tags to obtain multiple text blocks; identify the corresponding importance of the multiple text blocks after word segmentation, and mark the priority of multiple text blocks according to the importance; delete priority For text blocks whose levels have not reached the preset level value, use the text blocks whose priority levels reach the preset level value to obtain the filtered text blocks.
  • the classifier includes multiple network layers, and the classification extraction module 506 is also used to input multiple text blocks into the classifier, and extract the text vectors corresponding to the multiple text blocks through the input layer of the classifier; Multiple text vectors are used as the input of the relationship analysis network layer.
  • the relationship analysis network layer performs feature recognition on multiple text vectors, extracts the context features of the text vectors, and obtains the first extraction result; the first extraction result is used as the graph convolutional network layer Convert the text vector into a syntactic graph structure through the graph convolutional network layer, and extract the dependency of multiple text vectors according to the syntactic graph structure to obtain the second extraction result; use the second extraction result as the input of the self-attention network layer Analyze the association relationship and weight of multiple event elements according to the context characteristics and dependencies of the text vector to generate the third extraction result; input the third extraction result to the classification layer, and classify the third extraction result through the classification layer to obtain the corresponding The event category, as well as multiple event elements and corresponding event element parameters, generate classification results, which are output after being weighted by the output layer.
  • the classification extraction module 506 is further configured to generate corresponding multiple text block nodes according to multiple text vectors, and convert the multiple text block nodes into corresponding multiple graph nodes; through the graph convolutional network layer
  • the dependency analysis tree in parses out the shortcut arc identifiers corresponding to multiple graph nodes; analyzes the semantic and contextual features of multiple graph nodes through the graph contour network of the graph convolutional network layer; according to the shortcut arc identifiers of multiple graph nodes Analyze the dependence of multiple text vectors with semantic features and context features.
  • the device further includes a classifier building module for obtaining multiple sample data, dividing the sample data into a training set and a validation set; obtaining a preset neural network model, and using the training sample data in the training set Train the neural network model to obtain the initial classifier; input the verification data in the verification set to the initial classifier, and use the verification set to further train and verify the initial classifier to obtain the category probabilities corresponding to multiple verification data; until the verification data When the number of corresponding category probabilities in the preset range reaches the preset threshold, the training is stopped, and the trained classifier is obtained.
  • a classifier building module for obtaining multiple sample data, dividing the sample data into a training set and a validation set; obtaining a preset neural network model, and using the training sample data in the training set Train the neural network model to obtain the initial classifier; input the verification data in the verification set to the initial classifier, and use the verification set to further train and verify the initial classifier to obtain the category probabilities corresponding to multiple verification data; until the verification data When the
  • the event graph generation module 508 is also used to generate corresponding multiple element nodes and node information according to event elements and event element parameters; perform correlation analysis on multiple element nodes and corresponding node information to obtain multiple The association relationship of each element node; according to the association relationship, multiple element nodes are mapped and merged, and multiple element nodes are associated and connected through node link technology; the target event category correspondence is generated according to the connected multiple element nodes and corresponding node information Event map data.
  • Each module in the above-mentioned information classification and extraction device can be implemented in whole or in part by software, hardware and a combination thereof.
  • the above-mentioned modules can be embedded in the form of hardware or independent of the processor in the computer equipment, or can be stored in the memory of the computer equipment in the form of software, so that the processor can call and execute the corresponding operations of the above-mentioned modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 6.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, computer readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the database of the computer equipment is used to store information to be classified, sample data, event element information, event map data, etc.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • FIG. 6 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more processors perform the following steps:
  • Event elements and corresponding event element parameters are used to generate event graph data corresponding to the target event category.
  • One or more non-volatile computer-readable storage media storing computer-readable instructions.
  • the computer-readable instructions When executed by one or more processors, the one or more processors perform the following steps:
  • Event elements and corresponding event element parameters are used to generate event graph data corresponding to the target event category.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种信息分类抽取方法,所述方法包括:获取待分类信息;对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。

Description

信息分类抽取方法、装置、计算机设备和存储介质
相关申请的交叉引用:
本申请要求于2019年09月06日提交至中国专利局,申请号为2019108445171,申请名称为“信息分类抽取方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及一种信息分类抽取方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的迅速发展,世界各地随时可能会发生一些新闻事件,其中一些新闻事件信息具有重要的研究价值。通过人为去获取事件信息中的一些关键信息带来的工作量太大,因此出现了一些从自然语言文本中提取关键事件信息的方式。
然而,现有的方式大多数利用各种特征引入记忆向量和矩阵,引入更多的过渡弧,使用句子级顺序RNN建模方式和CRF算法来保留更多的上下文信息。还有的方式是采用在文档级中寻求特征。而句子级顺序建模方式在捕获非常远距离依赖效率低下,基于特征的方式需要繁重的人工干预,很大程度上影响了模型的性能,无法准确有效地对事件进行关联建模,事件信息的识别和分类准确性不高。
发明内容
根据本申请公开的各种实施例,提供一种信息分类抽取方法、装置、计算机设备和存储介质。
一种信息分类抽取方法包括:
获取待分类信息;
对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
一种信息分类抽取装置包括:
数据获取模块,用于获取待分类信息;
分词处理模块,用于对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
分类抽取模块,用于将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
事件图谱生成模块,用于利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
获取待分类信息;
对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取待分类信息;
对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中信息分类抽取方法的应用场景图。
图2为根据一个或多个实施例中信息分类抽取方法的流程示意图。
图3为根据一个或多个实施例中对多个文本块进行分类步骤的流程示意图。
图4为另一个实施例中对多个文本块进行分类步骤的流程示意图。
图5为根据一个或多个实施例中信息分类抽取装置的框图。
图6为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的信息分类抽取方法,可以应用于如图1所示的应用环境中。终端102通过网络与服务器104进行通信。终端102可以向服务器104发送信息分类请求,服务器104获取终端102发送的待分类信息,对待分类信息进行分词处理,得到多个文本块;将多个文本块输入至已训练的分类器,对多个文本块进行分类,确定待分类信息的目标事件类别和多个事件元素;根据目标事件类别和事件元素提取对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数;根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。服务器104还可以将事件图谱数据推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,如图2所示,提供了一种信息分类抽取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待分类信息。
其中,待分类信息可以为自然语言文本信息,例如可以是新闻信息。服务器可以获取用户终端发送的待分类信息,也可以利用网络爬虫技术从第三方网站或第三方平台的数据库中获取待分类信息。
步骤204,对待分类信息进行分词处理,得到待分类信息对应的多个文本块。
服务器获取待分类信息后,对待分类信息进行分词处理。具体地,服务器可以首先对待分类信息中的多个词汇和标点符号进行词性标注。服务器进而获取预设的语料词库,语料词库中包括了大料的常用词汇和特定词汇以及相应的词向量。服务器则将待分类文本与语料词库中的多个词汇进行匹配,根据匹配后的词汇对待分类信息进行分词,从而得到待分类信息对应的多个文本信息。
进一步地,待分类信息中包括了一些不必要的标点或词汇等。服务器对待分类信息进行分词后,还可以对分词后的文本信息进行数据清洗。具体地,服务器得到多个文本信息后,根据预设的词性标签对多个词汇进行过滤,提取出相应的文本词汇,得到多个文本块。从而有效地对待分类信息中不清楚或不必要的词汇和标点进行过滤。
步骤206,将多个文本块输入至已训练的分类器,对多个文本块进行分类,根据多个文本块的类别确定待分类信息的目标事件类别和多个事件元素。
步骤208,根据目标事件类别和事件元素提取对应的事件元素参数。
其中,事件是指关于信息主题的一组相关描述,这个主题可以是由分类或聚类形成的。组成事件的各元素可以包括:触发词、事件类别、论元及论元角色。目标事件类别可以表示待分类信息所属的信息领域的类型,事件元素可以为待分类信息中所包含的多个事件的事件类别标签。
其中,分类器可以是服务器预先利用大量训练数据进行训练后构建的分类模型。分类器可以是基于自注意力网络的事件分类抽取模型。分类器可以包括多个网络层结构,例如,可以包括输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。
服务器对待分类信息进行分词处理,得到多个文本块后,则将多个文本块输入至已训练的分类器中,通过分类器提取出多个文本块对应的文本向量以及文本块的局部特征,并分析出文本向量的上下信息。服务器进一步提取文本向量对应的句法图的局部特征,并通过自注意力网络分析出多个文本向量的权重以及关联关系,从而根据多个文本向量的权重以及关联关系计算出多个文本块对应的类别。服务器进而根据多个文本块对应的类别确定待分类信息的目标事件类别和多个事件元素。
服务器进而根据目标事件类别和事件元素提取对应的事件元素参数,并通过分类器的输出层输出目标事件类别和事件元素以及相应的事件元素参数。
步骤210,利用多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱。
服务器通过分类器识别并抽取出待分类信息中的目标事件类别,以及多个事件 元素和相应的事件元素参数后,还可以根据多个事件元素和相应的事件元素参数建立对应的知识图谱数据,从而使得服务器能够有效地对分类抽取后的事件信息进行进一步利用和处理。通过基于自注意力网络的分类器对待分类信息进行关联关系分析和事件分析,从而对文本信息进行关键事件信息分类和抽取,由此能够有效提高事件信息的分类准确性。
举例说明,待分类信息可以为新闻报道信息,服务器可以从网页中获取一个新闻报道信息,例如特朗普发动贸易战事件。服务器根据标题类别对新闻报道信息进行分词处理,得到多个文本块。服务器进而通过分类器对分词后的多个文本块进行特征提取,并进行上下文分析和语义语境分析,进而进行分类。分类的结果可以包括目标事件类别和事件元素,其中目标事件类别可以是金融事件,事件元素可以包括多种事件元素类别,包括但不限于事件触发者、事件发生时间、事件发生地、事件参与者、事件触发原因、事件结论等,例如事件触发者为特朗普,事件发生地为美国等。其中,美国则为事件发生地这个事件元素对应的事件元素参数。服务器进而提取出多个事件元素和相应的事件元素参数。服务器通过分类器对待分类信息进行关联关系分析和事件分析,分类抽取出文本信息中的事件类别和多个事件元素信息后,并利用抽取出的多个事件元素信息生成对应的事件图谱数据,由此能够有效地从文本信息中提取关键的事件信息,以有效地对提取的事件元素信息进一步利用。
上述信息分类抽取方法中,服务器获取待分类信息后,对待分类信息进行分词处理,得当待分类信息对应的多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类,由此可以根据多个文本块的类别确定待分类信息的目标事件类别和待分类信息中包含的多个事件元素。服务器则进一步根据多个事件元素识别出对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数,从而能够准确有效地对待分类信息进行分类,并有效地抽取出待分类信息中包含的事件信息。服务器进而根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据,从而能够有效地对分类抽取后的事件信息进行进一步利用和处理。通过基于自注意力网络的分类器对待分类信息进行关联关系分析和事件分析,从而能够准确有效地识别并抽取出信息中事件类别和事件信息。
在其中一个实施例中,待分类信息包括标题信息,对待分类信息进行分词处理的步骤包括:根据标题信息匹配获取对应的定义表;根据定义表对待分类信息进行词性标注,根据词性标签进行分词,得到多个文本块;根据多个文本块的词性标签识别对应的重要程度,根据所述重要程度标记多个文本块的优先等级;删除优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后 的文本块。
待分类信息中还可以包括标题信息,标题信息指标明文章、作品等信息内容的简短语句。例如,当待分类信息为新闻信息时,新闻信息中还可以包括标题信息,即新闻标题。定义表中存储了特定领域的语料词库,定义表中还定义了多种词性标签的重要程度。
服务器获取待分类信息后,对待分类信息进行分词处理,得当多个文本块。具体地,服务器可以识别标题信息对应的信息领域,根据主题信息的领域获取相匹配的定义表。进而根据定义表中的领域语料词库对待分类信息进行分词。具体地,服务器可以根据定义表中的领域语料词库对待分类信息中的多个文本词汇和标点字符进行词性标注,对多个文本词汇添加相应的词性标签,并根据词性标签进行分词,从而得到多个文本块。文本块可以包括一个或多个词汇。其中,词汇可以包括字、词汇、短语或标点符号等。
服务器进一步根据对分词后的多个文本块标记优先等级,具体地,可以根据定义表中预先定义的词性标签对应的重要程度对多个文本块标记相应的优先等级。服务器进而删除优先等级未达到预设等级值的文本块,并利用优先等级达到预设等级值的文本块得到过滤后的文本块。例如,服务器可以预先设置等级值,当文本块的优先等级没有达到预设的等级值时,表示该文本块是不必要的词汇或不清楚的词汇或文本,服务器则删除未达到预设等级值的文本块,以对文本和词汇进行过滤,剩下的达到了预设等级值的词汇则是过滤后的文本块。由此可以有效地过滤掉不清楚的词汇和与不干涉语义的词汇。由此可以有效地过滤掉待分类信息中不必要的文本,从而能够有效提高对待分类信息分词的准确性,进而能够有效提高待分类信息的分类准确率。
在其中一个实施例中,如图3所示,分类器包括多个网络层,对多个文本块进行分类的步骤,具体包括以下内容:
步骤302,将多个文本块输入至分类器,通过分类器的输入层提取出多个文本块对应的文本向量。
步骤304,将多个文本向量作为关系分析网络层的输入,通过关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果。
步骤306,将第一提取结果作为图卷积网络层的输入,通过图卷积网络层将文本向量转换为句法图结构,根据句法图结构提取多个文本向量的依赖关系,得到第二提取结果。
步骤308,将第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特征和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果。
步骤310,将第三提取结果输入至分类层,通过分类层对第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。
分类器可以是服务器预先利用大量训练数据进行训练后构建的分类模型。分类器可以是基于自注意力网络的事件分类抽取模型。分类器可以包括多个网络层结构,例如,可以包括输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。其中,输入层用于对输入的文本块进行特征向量提取;关系分析网络层可以是双向长短期记忆网络,用于提取多个文本向量的上下文特征;图卷积网络层用于将文本向量转换为句法图结构,并提取句法图的依赖关系;自注意力网络层用于识别多个事件元素和多个事件元素之间的关联关系;分类层用于识别待分类信息的类别以及事件元素和对应的参数内容。
服务器获取待分类信息后,对待分类信息进行分词处理,得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类。具体地,服务器将多个文本块输入至分类器中,分类器的输入层则对多个文本块进行特征提取,将多个文本块转换为对应的文本向量。输入层则将多个文本向量作为关系分析网络层的输入,将多个文本向量传递至关系分析层。关系分析网络层则对多个文本向量进行特征识别,并分析多个文本向量之间的上下文关系,并提取出多个文本向量的上下文特征,根据提取的上下文特征生成第一提取结果。关系分析网络层得到第一提取结果后,则将第一提取结果作为图卷积网络层的输入,将第一提取结果传递至图卷积网络层。
图卷积网络层进而将多个文本向量转换为句法图结构。其中,句法图结构可以是基于语法快捷方式弧的句法图形网络。图卷积网络层进而根据句法图结构提取多个文本向量的依赖关系,并将提取的多个文本向量的依赖关系作为第二提取结果。图卷积网络层则将第二提取结果作为自注意力网络的输入,将第二提取结果传递至自注意力网络层中。
第二提取结果中包括多个文本向量的上下文特征和依赖关系。自注意力网络层则进一步根据多个文本向量的上下文特征和依赖关系进行关联分析,提取出多个事件元素,并计算出多个事件元素的关联关系和权重,自注意力网络层利用分析得到的多个事件元素的关联关系和权重生成第三提取结果。自注意力网络层则将第三提取结果作为分类层的输入,将第三提取结果传递至分类层。
分类层则根据多个事件元素的关联关系和权重识别待分类信息的事件类别,同时根据多个事件元素的关联关系和权重识别出多个事件元素的元素类别,得到多个类别的事件元素。事件元素可以包括元素类别标签。分类层进一步根据多个事件元 素的关联关系和权重识别出每个事件元素对应的事件元素内容。其中,事件元素内容可以表示为事件元素对应的事件元素参数。分类层进而将事件类别,以及多个事件元素和相应的事件元素参数生成分类结果,并将分类结果传递至输出层。输出层对分类结果按照预设方式对分类结果进行加权后输出。通过基于图卷积和自注意力网络的事件分类模型对事件信息进行关联关系分析,从而对事件信息进行关键信息抽取和分类,由此能够有效提高事件信息的分类准确性。
在其中一个实施例中,如图4所示,通过图卷积网络层将文本向量转换为句法图结构,根据句法图结构提取文本向量的局部特征的步骤,具体包括以下内容:
步骤402,根据多个文本向量生成相应的多个文本块节点,并将多个文本块节点转换为相应的多个图节点。
步骤404,通过图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧标识。
步骤406,通过图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征。
步骤408,根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
图卷积网络层中部署了依赖性解析树和图形轮廓网络,依赖性解析树用于解析文本块之间的依赖关系,图形轮廓网络用于分析图节点之间的依赖关系。
服务器获取待分类信息后,对待分类信息进行分词处理,得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类。具体地,服务器将多个文本块输入至分类器中,通过分类器的输入层提取出多个文本块对应的文本向量。将多个文本向量作为关系分析网络层的输入,通过关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果。将第一提取结果作为图卷积网络层的输入,通过图卷积网络层将文本向量转换为句法图结构,根据句法图结构提取文本向量的局部特征,得到第二提取结果。
具体地,图卷积网络层根据多个文本向量生成对应的多个文本块节点,并利用多个文本块节点生成对应的句法图结构。通过图卷积网络层中的依赖性解析树解析出每个文本向量对应的快捷弧标识,快捷弧标识用于表示文本向量的语法快捷方式弧。图卷积网络层中的图形轮廓网络则进一步分析多个图节点的语义特征和语境特征,进而根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
例如,图卷积网络层可以通过引入句法快捷弧来增强信息流和基于注意力的图形轮廓网络来模拟图形信息,可以采用图卷积网络(GCN)来通过图节点中直接相 邻的代表向量来学习每个节点的句法上下文特征,然后进一步学习出每个文本向量的语境特征,从而根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
图卷积网络层提取出多个文本向量的依赖关系后,则利用多个文本向量的依赖关系生成第二提取结果。将第二提取结果作为自注意力网络层的输入,自注意力网络层根据文本向量的局部特征和上下文特征分析多个文本向量的关联关系和权重,生成第三提取结果。将第三提取结果输入至分类层,通过分类层对第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。通过基于图卷积和自注意力网络的事件分类模型对事件信息进行关联关系分析,从而对事件信息进行关键信息抽取和分类,由此能够有效提高事件信息的分类准确性。
在其中一个实施例中,在对多个文本块进行分类之前,还需要预先构建分类器,具体包括:获取多个样本数据,将样本数据分为训练集和验证集;获取预设的分类模型,利用训练集中的训练样本数据对分类模型进行训练,得到初始分类器;将验证集中的验证数据输入至初始分类器,利用验证集对初始分类器进行进一步训练和验证,得到多个验证数据对应的类别概率;直到验证数据对应的类别概率在预设范围内的数量达到预设阈值时,停止训练,得到训练完成的分类器。
服务器在获取待分类信息对待分类信息进行分类之前,还需要预先训练和构建出分类器。服务器可以预先从本地数据库或第三方数据库中获取大量的样本数据,并将大量的样本数据生成训练集和验证集。其中,训练集中的样本数据可以是经过人工标注后的样本数据,例如,样本数据中已经标注了事件类别和多个事件元素以及相应的事件元素参数。
服务器首先对训练集中的训练样本数据进行数据清洗和数据预处理,具体地,服务器对训练样本数据对应的多个字段数据进行向量化,得到多个文本数据对应的特征向量,并将特征向量转换为对应的特征变量。服务器进一步对特征变量进行衍生处理,得到处理后的多个特征变量。如对特征变量进行缺失值填充、异常值抽取更替等。
服务器进而采用预设的聚类算法对训练集数据对应的特征变量进行聚类分析。例如,预设的聚类算法可以为k-means(k-均值算法)聚类的方法。服务器通过对特征变量进行多次聚类后得到多个聚类结果。服务器并根据预设算法计算多个特征变量之间的相似度,提取出相似度达到预设阈值的特征变量。
服务器则获取预设的机器学习模型,例如可以是基于自注意力网络机器学习模型。例如,机器学习模型中包括多个神经网络模型,神经网络模型可以包括预设的 输入层、输入层、关系分析网络层、图卷积网络层、自注意力网络层、分类层和输出层。神经网络模型的网络层可以包括激活函数以及偏差损失函数,例如通过LSTM层输出的完全连接人工神经网络也包括对应的激活函数。图卷积网络层还可以引入语法快捷方式弧以增强信息流,并调整图形转换网络以捕获信息增强的表示。神经网络模型中还包括确定误差的计算方式,例如可以采用均方误差算法;还包括确定权重参数的迭代更新方式,例如可以采用RMSprop算法。神经网络模型中还可以包括一层普通的神经网络层,用于输出结果的降维。
服务器获取预设的神经网络模型后,则将训练集中的训练样本数据输入至神经网络模型中进行学习和训练,通过学习训练样本数据中已标注的事件类别和多个事件元素以及事件元素参数的依赖关系和关联关系等。服务器通过对训练集中的大量训练样本数据进行训练后,可以得到得到多个特征变量对应的特征维度值和权重,进而根据多个特征变量对应的特征维度值和权重构建初始分类器。
服务器得到初始分类器后,获取验证集,将验证集中的验证数据输入至初始分类器进行进一步训练和验证,得到多个验证数据对应的类别概率。直到验证集数据中满足预设阈值的数量达到预设比值时,则停止训练,进而得到训练完成的分类器。通过对大量的样本数据进行训练和学习,进而能够有效构建出预测准确率较高的分类器,从而有效提高了信息的分类准确率,从而能够准确有效地抽取出待分类信息中的事件信息。
在其中一个实施例中,根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据的步骤,包括:根据事件元素和事件元素参数生成对应的多个元素节点和节点信息;对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;根据关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;根据连接的多个元素节点和相应的节点信息生成目标事件类别对应的事件图谱数据。
服务器获取待分类信息后,对待分类信息进行分词处理,得当多个文本块。服务器进而将多个文本块输入至已训练的分类器中进行分类,由此可以确定待分类信息的目标事件类别和待分类信息中包含的多个事件元素。服务器则进一步根据多个事件元素识别出对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数,从而能够准确有效地对待分类信息进行分类,并有效地抽取出待分类信息中包含的事件信息。
服务器进而根据多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。具体地,服务器根据事件元素和事件元素参数生成对应的多个元素节点和节点信息,并对多个元素节点和相应的节点信息进行关联性分析,得到多 个元素节点的关联关系。服务器进而根据关联关系对多个元素节点进行映射与合并。例如,服务器可以节点为主体目标对不同来源的数据进行映射与合并,通过数据属性描述不同数据对于的节点,利用关系描述各个元素节点之间的关联关系。服务器并通过节点链接技术将多个元素节点进行关联连接。服务器则可以根据连接的多个元素节点和相应的节点信息有效地生成目标事件类别对应的事件图谱数据。
例如,服务器可以通过节点链接技术将节点的多种类型数据进行关联存储,利用图数据库将原本没有联系的数据连通,将离散的数据进行整合;通过对多个事件节点进行抽取、转换、加载等预处理,进而将元素节点和节点信息转换为对应的事件图谱数据,由此能够有效地生成事件信息对应的事件图谱数据。通过不同知识的关联性形成网状结构的知识图谱,能够有效地提取出事件之间的关联关系,从而提供更有价值的决策支持,以对相关事件进行有效分析。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图5所示,提供了一种信息分类抽取装置,包括:数据获取模块502、分词处理模块504、分类抽取模块506和事件图谱生成模块508,其中:
数据获取模块502,用于获取待分类信息;
分词处理模块504,用于对待分类信息进行分词处理,得到待分类信息对应的多个文本块;
分类抽取模块506,用于将多个文本块输入至已训练的分类器,对多个文本块进行分类,根据多个文本块的类别确定待分类信息的目标事件类别和多个事件元素;根据目标事件类别和事件元素提取对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数;
事件图谱生成模块508,用于利用多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。
在其中一个实施例中,待分类信息包括标题信息,分词处理模块504还用于根据标题信息匹配获取对应的定义表;定义表包括语料词库和多种词性标签的重要程 度;根据定义表对待分类信息进行词性标注,并根据词性标签进行分词,得到多个文本块;根据分词后的多个文本块的词性标签识别对应的重要程度,根据重要程度标记多个文本块的优先等级;删除优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。
在其中一个实施例中,分类器包括多个网络层,分类抽取模块506还用于将多个文本块输入至分类器,通过分类器的输入层提取出多个文本块对应的文本向量;将多个文本向量作为关系分析网络层的输入,通过关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果;将第一提取结果作为图卷积网络层的输入,通过图卷积网络层将文本向量转换为句法图结构,根据句法图结构提取多个文本向量的依赖关系,得到第二提取结果;将第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;将第三提取结果输入至分类层,通过分类层对第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。
在其中一个实施例中,分类抽取模块506还用于根据多个文本向量生成相应的多个文本块节点,并将多个文本块节点转换为相应的多个图节点;通过图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧标识;通过图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征;根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
在其中一个实施例中,该装置还包括分类器构建模块,用于获取多个样本数据,将样本数据分为训练集和验证集;获取预设的神经网络模型,利用训练集中的训练样本数据对神经网络模型进行训练,得到初始分类器;将验证集中的验证数据输入至初始分类器,利用验证集对初始分类器进行进一步训练和验证,得到多个验证数据对应的类别概率;直到验证数据对应的类别概率在预设范围内的数量达到预设阈值时,停止训练,得到训练完成的分类器。
在其中一个实施例中,事件图谱生成模块508还用于根据事件元素和事件元素参数生成对应的多个元素节点和节点信息;对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;根据关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;根据连接的多个元素节点和相应的节点信息生成目标事件类别对应的事件图谱数据。
关于信息分类抽取装置的具体限定可以参见上文中对于信息分类抽取方法的限定,在此不再赘述。上述信息分类抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处 理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储待分类信息、样本数据、事件元素信息、事件图谱数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现本申请任意一个实施例中提供的信息分类抽取方法的步骤。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
获取待分类信息;
对待分类信息进行分词处理,得到待分类信息对应的多个文本块;
将多个文本块输入至已训练的分类器,对多个文本块进行分类,根据多个文本块的类别确定待分类信息的目标事件类别和多个事件元素;
根据目标事件类别和事件元素提取对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数;及
利用多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取待分类信息;
对待分类信息进行分词处理,得到待分类信息对应的多个文本块;
将多个文本块输入至已训练的分类器,对多个文本块进行分类,根据多个文本块的类别确定待分类信息的目标事件类别和多个事件元素;
根据目标事件类别和事件元素提取对应的事件元素参数,并输出目标事件类别和多个事件元素以及相应的事件元素参数;及
利用多个事件元素和相应的事件元素参数生成目标事件类别对应的事件图谱数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种信息分类抽取方法,所述方法包括:
    获取待分类信息;
    对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
    将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
    根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
    利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
  2. 根据权利要求1所述的方法,其特征在于,所述待分类信息包括标题信息,所述对待分类信息进行分词处理的步骤包括:
    根据所述标题信息匹配获取对应的定义表;所述定义表包括语料词库和多种词性标签的重要程度;
    根据所述定义表对所述待分类信息进行词性标注,根据词性标签进行分词,得到多个文本块;
    根据所述多个文本块的词性标签识别对应的重要程度,根据所述重要程度标记多个文本块的优先等级;及
    删除所述优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。
  3. 根据权利要求1所述的方法,其特征在于,所述分类器包括多个网络层,所述对多个文本块进行分类的步骤包括:
    将所述多个文本块输入至所述分类器,通过所述分类器的输入层提取出多个文本块对应的文本向量;
    将多个文本向量作为关系分析网络层的输入,通过所述关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果;
    将所述第一提取结果作为图卷积网络层的输入,通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取多个文本向量的依赖关系,得到第二提取结果;
    将所述第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;及
    将所述第三提取结果输入至分类层,通过所述分类层对所述第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结 果,通过输出层对分类结果进行加权后输出。
  4. 根据权利要求3所述的方法,其特征在于,所述通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取文本向量的依赖关系的步骤,包括:
    根据所述多个文本向量生成相应的多个文本块节点,将多个文本块节点转换为相应的多个图节点;
    通过所述图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧标识;
    通过所述图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征;及
    根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
  5. 根据权利要求1所述的方法,其特征在于,在对多个文本块进行分类之前,还包括:
    获取多个样本数据,将所述样本数据分为训练集和验证集;
    获取预设的神经网络模型,利用所述训练集中的训练样本数据对所述神经网络模型进行训练,得到初始分类器;
    将所述验证集中的验证数据输入至所述初始分类器,利用验证集对初始分类器进行进一步训练和验证,得到多个验证数据对应的类别概率;及
    直到所述验证数据对应的类别概率在预设范围内的数量达到预设阈值时,停止训练,得到训练完成的分类器。
  6. 根据权利要求1所述的方法,其特征在于,所述根据所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据,包括:
    根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息;
    对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;
    根据所述关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;及
    根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。
  7. 一种信息分类抽取装置,所述装置包括:
    数据获取模块,用于获取待分类信息;
    分词处理模块,用于对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
    分类抽取模块,用于将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
    事件图谱生成模块,用于利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
  8. 根据权利要求7所述的装置,其特征在于,所述分词处理模块还用于根据所述标题信息匹配获取对应的定义表;所述定义表包括语料词库和多种词性标签的重要程度;根据所述定义表对所述待分类信息进行词性标注,根据词性标签进行分词,得到多个文本块;根据所述多个文本块的词性标签识别对应的重要程度,根据所述重要程度标记多个文本块的优先等级;及删除所述优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。
  9. 根据权利要求7所述的装置,其特征在于,所述分类抽取模块还用于将所述多个文本块输入至所述分类器,通过所述分类器的输入层提取出多个文本块对应的文本向量;将多个文本向量作为关系分析网络层的输入,通过所述关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果;将所述第一提取结果作为图卷积网络层的输入,通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取多个文本向量的依赖关系,得到第二提取结果;将所述第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;将所述第三提取结果输入至分类层,通过所述分类层对所述第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。
  10. 根据权利要求9所述的装置,其特征在于,所述分类抽取模块还用于根据所述多个文本向量生成相应的多个文本块节点,将多个文本块节点转换为相应的多个图节点;通过所述图卷积网络层中的依赖性解析树解析出多个图节点对应的快捷弧标识;通过所述图卷积网络层的图形轮廓网络分析多个图节点的语义特征和语境特征;及根据多个图节点的快捷弧标识和语义特征以及语境特征分析出多个文本向量的依赖关系。
  11. 根据权利要求7所述的装置,其特征在于,所述装置还包括分类器训练模块,用于获取多个样本数据,将所述样本数据分为训练集和验证集;获取预设的神 经网络模型,利用所述训练集中的训练样本数据对所述神经网络模型进行训练,得到初始分类器;将所述验证集中的验证数据输入至所述初始分类器,利用验证集对初始分类器进行进一步训练和验证,得到多个验证数据对应的类别概率;及直到所述验证数据对应的类别概率在预设范围内的数量达到预设阈值时,停止训练,得到训练完成的分类器。
  12. 根据权利要求7所述的装置,其特征在于,所述事件图谱生成模块还用于根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息;对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;根据所述关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;及根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。
  13. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器存储有至少一条计算机可读指令,所述计算机可读指令由所述处理器加载并执行以下步骤:
    获取待分类信息;
    对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
    将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
    根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
    利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
  14. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行计算机可读指令时还执行以下步骤:根据所述标题信息匹配获取对应的定义表;所述定义表包括语料词库和多种词性标签的重要程度;根据所述定义表对所述待分类信息进行词性标注,根据词性标签进行分词,得到多个文本块;根据所述多个文本块的词性标签识别对应的重要程度,根据所述重要程度标记多个文本块的优先等级;及删除所述优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。
  15. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行计算机可读指令时还执行以下步骤:将所述多个文本块输入至所述分类器,通过所述分类器的输入层提取出多个文本块对应的文本向量;将多个文本向量作为关系分析网络层的输入,通过所述关系分析网络层对多个文本向量进行特征识别,提取文本向量的上下文特征,得到第一提取结果;将所述第一提取结果作为图卷积网络层的输 入,通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取多个文本向量的依赖关系,得到第二提取结果;将所述第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;及将所述第三提取结果输入至分类层,通过所述分类层对所述第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。
  16. 根据权利要求13所述的计算机设备,其特征在于,所述处理器执行计算机可读指令时还执行以下步骤:根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息;对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;根据所述关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;及根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。
  17. 一种非易失性的计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机可读指令,所述计算机可读指令由处理器加载并执行以下步骤:
    获取待分类信息;
    对待分类信息进行分词处理,得到所述待分类信息对应的多个文本块;
    将所述多个文本块输入至已训练的分类器,对多个文本块进行分类,根据所述多个文本块的类别确定所述待分类信息的目标事件类别和多个事件元素;
    根据所述目标事件类别和事件元素提取对应的事件元素参数,并输出所述目标事件类别和多个事件元素以及相应的事件元素参数;及
    利用所述多个事件元素和相应的事件元素参数生成所述目标事件类别对应的事件图谱数据。
  18. 根据权利要求17所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时还执行以下步骤:根据所述标题信息匹配获取对应的定义表;所述定义表包括语料词库和多种词性标签的重要程度;根据所述定义表对所述待分类信息进行词性标注,根据词性标签进行分词,得到多个文本块;根据所述多个文本块的词性标签识别对应的重要程度,根据所述重要程度标记多个文本块的优先等级;及删除所述优先等级未达到预设等级值的文本块,利用优先等级达到预设等级值的文本块得到过滤后的文本块。
  19. 根据权利要求17所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时还执行以下步骤:将所述多个文本块输入至所述分类器,通过所述分类器的输入层提取出多个文本块对应的文本向量;将多个文本向量作为关系分析网络层的输入,通过所述关系分析网络层对多个文本向量进行特征识别,提取文 本向量的上下文特征,得到第一提取结果;将所述第一提取结果作为图卷积网络层的输入,通过所述图卷积网络层将文本向量转换为句法图结构,根据所述句法图结构提取多个文本向量的依赖关系,得到第二提取结果;将所述第二提取结果作为自注意力网络层的输入,根据文本向量的上下文特和依赖关系分析多个事件元素的关联关系和权重,生成第三提取结果;及将所述第三提取结果输入至分类层,通过所述分类层对所述第三提取结果进行分类得到对应的事件类别,以及多个事件元素和相应的事件元素参数,生成分类结果,通过输出层对分类结果进行加权后输出。
  20. 根据权利要求17所述的存储介质,其特征在于,所述计算机可读指令被所述处理器执行时还执行以下步骤:根据所述事件元素和事件元素参数生成对应的多个元素节点和节点信息;对多个元素节点和相应的节点信息进行关联性分析,得到多个元素节点的关联关系;根据所述关联关系对多个元素节点进行映射与合并,通过节点链接技术将多个元素节点进行关联连接;及根据连接的多个元素节点和相应的节点信息生成所述目标事件类别对应的事件图谱数据。
PCT/CN2019/116142 2019-09-06 2019-11-07 信息分类抽取方法、装置、计算机设备和存储介质 WO2021042503A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910844517.1 2019-09-06
CN201910844517.1A CN110765265B (zh) 2019-09-06 2019-09-06 信息分类抽取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021042503A1 true WO2021042503A1 (zh) 2021-03-11

Family

ID=69330634

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/116142 WO2021042503A1 (zh) 2019-09-06 2019-11-07 信息分类抽取方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN110765265B (zh)
WO (1) WO2021042503A1 (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989066A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 数据处理方法和装置、电子设备、计算机可读介质
CN113111786A (zh) * 2021-04-15 2021-07-13 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113254643A (zh) * 2021-05-28 2021-08-13 北京灵汐科技有限公司 文本分类方法、装置、电子设备和
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113392213A (zh) * 2021-04-19 2021-09-14 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113792808A (zh) * 2021-09-17 2021-12-14 中国平安人寿保险股份有限公司 数据分类方法、装置、电子设备及存储介质
CN113868374A (zh) * 2021-09-15 2021-12-31 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN114002247A (zh) * 2021-11-23 2022-02-01 苏州青云瑞晶生物科技有限公司 对电子束敏感晶体的三维电子衍射数据采集方法及***
CN114357160A (zh) * 2021-12-21 2022-04-15 三峡大学 基于生成传播结构特征的早期谣言检测方法及装置
CN114548060A (zh) * 2022-02-28 2022-05-27 恒为科技(上海)股份有限公司 优化表单生成方法及装置、存储介质及电子设备
CN114722833A (zh) * 2022-04-19 2022-07-08 清华大学 一种语义分类方法及装置
CN115048486A (zh) * 2022-05-24 2022-09-13 支付宝(杭州)信息技术有限公司 事件抽取方法、装置、计算机程序产品、存储介质及设备
CN115146741A (zh) * 2022-08-02 2022-10-04 统信软件技术有限公司 一种操作***层级的特征确定方法、计算设备及存储介质
CN115762667A (zh) * 2022-11-24 2023-03-07 苏州沃时数字科技有限公司 化学反应类型的识别方法、装置、计算机设备
CN115795037A (zh) * 2022-12-26 2023-03-14 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN116303996A (zh) * 2023-05-25 2023-06-23 江西财经大学 基于多焦点图神经网络的主题事件抽取方法
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116629348A (zh) * 2023-07-21 2023-08-22 威海瑞沐精工科技有限公司 一种智能车间数据采集分析方法、装置及计算机设备
CN116657224A (zh) * 2023-07-21 2023-08-29 佛山日克耐热材料有限公司 一种气凝胶粉渗透装置的控制方法及其***
CN117455421A (zh) * 2023-12-25 2024-01-26 杭州青塔科技有限公司 科研项目的学科分类方法、装置、计算机设备及存储介质
CN117935249A (zh) * 2024-03-20 2024-04-26 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444349B (zh) * 2020-03-06 2023-09-12 深圳追一科技有限公司 信息抽取方法、装置、计算机设备和存储介质
CN111444723B (zh) * 2020-03-06 2023-07-28 深圳追一科技有限公司 信息抽取方法、计算机设备和存储介质
CN111382228B (zh) * 2020-03-17 2023-06-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111428049B (zh) * 2020-03-20 2023-07-21 北京百度网讯科技有限公司 一种事件专题的生成方法、装置、设备和存储介质
CN111460831B (zh) * 2020-03-27 2024-04-19 科大讯飞股份有限公司 事件确定方法、相关设备及可读存储介质
CN111461004B (zh) * 2020-03-31 2023-08-22 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN111639500A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 语义角色标注方法、装置、计算机设备及存储介质
CN111858725A (zh) * 2020-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种事件属性确定方法及***
CN111597811B (zh) * 2020-05-09 2021-11-12 北京合众鼎成科技有限公司 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN111680156B (zh) * 2020-05-25 2024-02-09 中国工商银行股份有限公司 数据多标签分类方法及***
CN113990356B (zh) * 2020-07-13 2023-05-16 Tcl科技集团股份有限公司 一种图书生成方法、图书生成设备及存储介质
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN111950297A (zh) * 2020-08-26 2020-11-17 桂林电子科技大学 一种面向异常事件的关系抽取方法
CN112015900B (zh) * 2020-09-07 2024-05-03 平安科技(深圳)有限公司 医学属性知识图谱构建方法、装置、设备及介质
CN114586038A (zh) * 2020-09-28 2022-06-03 京东方科技集团股份有限公司 事件抽取和抽取模型训练的方法和装置、设备、介质
CN112487138A (zh) * 2020-11-19 2021-03-12 华为技术有限公司 带格式文本的信息抽取方法和装置
CN112580348B (zh) * 2020-12-15 2024-05-28 国家工业信息安全发展研究中心 政策文本关联性分析方法及***
CN113160963A (zh) * 2020-12-18 2021-07-23 中电云脑(天津)科技有限公司 一种事件确定方法、装置、电子设备和存储介质
CN112651236B (zh) * 2020-12-28 2021-10-01 中电金信软件有限公司 提取文本信息的方法、装置、计算机设备和存储介质
CN113160997A (zh) * 2021-03-01 2021-07-23 中电云脑(天津)科技有限公司 肿瘤检验报告的处理方法、模型训练方法及相关装置
CN113312916B (zh) * 2021-05-28 2022-05-27 北京航空航天大学 基于触发词语态学习的金融文本事件抽取方法
CN113239128B (zh) * 2021-06-01 2022-03-18 平安科技(深圳)有限公司 基于隐式特征的数据对分类方法、装置、设备和存储介质
CN113761875B (zh) * 2021-07-21 2022-12-06 中国科学院自动化研究所 事件抽取方法、装置、电子设备及存储介质
CN114385795A (zh) * 2021-08-05 2022-04-22 应急管理部通信信息中心 事故信息提取方法、装置及电子设备
CN113868508B (zh) * 2021-09-23 2022-09-27 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
CN114372462A (zh) * 2021-12-15 2022-04-19 城云科技(中国)有限公司 事件陈述文本的关键信息提取方法、装置及应用
CN114706992B (zh) * 2022-02-17 2022-09-30 中科雨辰科技有限公司 一种基于知识图谱的事件信息处理***
CN114722896A (zh) * 2022-03-05 2022-07-08 昆明理工大学 融合近邻标题图的新闻话题发现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取***及方法
CN109800349A (zh) * 2018-12-17 2019-05-24 北京邮电大学 基于用户发布内容量化新闻价值的数据处理方法和装置
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008463B (zh) * 2018-11-15 2023-04-18 创新先进技术有限公司 用于事件抽取的方法、装置和计算机可读介质
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110021439B (zh) * 2019-03-07 2023-01-24 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取***及方法
CN109800349A (zh) * 2018-12-17 2019-05-24 北京邮电大学 基于用户发布内容量化新闻价值的数据处理方法和装置
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PETAR VELIČKOVI, CUCURULL GUILLEM, CASANOVA ARANTXA, ROMERO ADRIANA, PIETROLÌ, BENGIO YOSHUA: "GRAPH ATTENTION NETWORKS", 4 February 2018 (2018-02-04), XP055703475, Retrieved from the Internet <URL:https://arxiv.org/pdf/1710.10903.pdf> [retrieved on 20200610] *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989066A (zh) * 2021-03-25 2021-06-18 北京百度网讯科技有限公司 数据处理方法和装置、电子设备、计算机可读介质
CN112989066B (zh) * 2021-03-25 2023-06-23 北京百度网讯科技有限公司 数据处理方法和装置、电子设备、计算机可读介质
CN113111786A (zh) * 2021-04-15 2021-07-13 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113111786B (zh) * 2021-04-15 2024-02-09 西安电子科技大学 基于小样本训练图卷积网络的水下目标识别方法
CN113392213B (zh) * 2021-04-19 2024-05-31 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113392213A (zh) * 2021-04-19 2021-09-14 合肥讯飞数码科技有限公司 事件抽取方法以及电子设备、存储装置
CN113326371B (zh) * 2021-04-30 2023-12-29 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113326371A (zh) * 2021-04-30 2021-08-31 南京大学 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
CN113254643B (zh) * 2021-05-28 2023-10-27 北京灵汐科技有限公司 文本分类方法、装置、电子设备和
CN113254643A (zh) * 2021-05-28 2021-08-13 北京灵汐科技有限公司 文本分类方法、装置、电子设备和
CN113868374A (zh) * 2021-09-15 2021-12-31 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN113868374B (zh) * 2021-09-15 2024-04-12 西安交通大学 基于多头注意力机制的图卷积网络生物医学信息提取方法
CN113792808A (zh) * 2021-09-17 2021-12-14 中国平安人寿保险股份有限公司 数据分类方法、装置、电子设备及存储介质
CN113792808B (zh) * 2021-09-17 2023-10-24 中国平安人寿保险股份有限公司 数据分类方法、装置、电子设备及存储介质
CN114002247A (zh) * 2021-11-23 2022-02-01 苏州青云瑞晶生物科技有限公司 对电子束敏感晶体的三维电子衍射数据采集方法及***
CN114002247B (zh) * 2021-11-23 2024-05-07 苏州青云瑞晶生物科技有限公司 对电子束敏感晶体的三维电子衍射数据采集方法及***
CN114357160A (zh) * 2021-12-21 2022-04-15 三峡大学 基于生成传播结构特征的早期谣言检测方法及装置
CN114357160B (zh) * 2021-12-21 2024-07-23 三峡大学 基于生成传播结构特征的早期谣言检测方法及装置
CN114548060A (zh) * 2022-02-28 2022-05-27 恒为科技(上海)股份有限公司 优化表单生成方法及装置、存储介质及电子设备
CN114548060B (zh) * 2022-02-28 2024-06-07 上海恒为智能科技有限公司 优化表单生成方法及装置、存储介质及电子设备
CN114722833A (zh) * 2022-04-19 2022-07-08 清华大学 一种语义分类方法及装置
CN115048486A (zh) * 2022-05-24 2022-09-13 支付宝(杭州)信息技术有限公司 事件抽取方法、装置、计算机程序产品、存储介质及设备
CN115048486B (zh) * 2022-05-24 2024-05-31 支付宝(杭州)信息技术有限公司 事件抽取方法、装置、计算机程序产品、存储介质及设备
CN115146741A (zh) * 2022-08-02 2022-10-04 统信软件技术有限公司 一种操作***层级的特征确定方法、计算设备及存储介质
CN115146741B (zh) * 2022-08-02 2024-06-07 统信软件技术有限公司 一种操作***层级的特征确定方法、计算设备及存储介质
CN115841105B (zh) * 2022-09-21 2024-02-27 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN115841105A (zh) * 2022-09-21 2023-03-24 中国人民解放军海军工程大学 一种基于事件类型层级关系的事件抽取方法、***及介质
CN115762667A (zh) * 2022-11-24 2023-03-07 苏州沃时数字科技有限公司 化学反应类型的识别方法、装置、计算机设备
CN115762667B (zh) * 2022-11-24 2024-05-28 苏州沃时数字科技有限公司 化学反应类型的识别方法、装置、计算机设备
CN115795037A (zh) * 2022-12-26 2023-03-14 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN115795037B (zh) * 2022-12-26 2023-10-20 淮阴工学院 一种基于标签感知的多标签文本分类方法
CN116303996A (zh) * 2023-05-25 2023-06-23 江西财经大学 基于多焦点图神经网络的主题事件抽取方法
CN116303996B (zh) * 2023-05-25 2023-08-04 江西财经大学 基于多焦点图神经网络的主题事件抽取方法
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116629348A (zh) * 2023-07-21 2023-08-22 威海瑞沐精工科技有限公司 一种智能车间数据采集分析方法、装置及计算机设备
CN116657224B (zh) * 2023-07-21 2024-02-13 佛山日克耐热材料有限公司 一种气凝胶粉渗透装置的控制方法及其***
CN116629348B (zh) * 2023-07-21 2023-10-10 威海瑞沐精工科技有限公司 一种智能车间数据采集分析方法、装置及计算机设备
CN116657224A (zh) * 2023-07-21 2023-08-29 佛山日克耐热材料有限公司 一种气凝胶粉渗透装置的控制方法及其***
CN117455421B (zh) * 2023-12-25 2024-04-16 杭州青塔科技有限公司 科研项目的学科分类方法、装置、计算机设备及存储介质
CN117455421A (zh) * 2023-12-25 2024-01-26 杭州青塔科技有限公司 科研项目的学科分类方法、装置、计算机设备及存储介质
CN117935249A (zh) * 2024-03-20 2024-04-26 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***
CN117935249B (zh) * 2024-03-20 2024-06-07 南昌工程学院 基于三维激光扫描参数自动提取的围岩等级辨识***

Also Published As

Publication number Publication date
CN110765265B (zh) 2023-04-11
CN110765265A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110909137A (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109960725B (zh) 基于情感的文本分类处理方法、装置和计算机设备
CN109063217B (zh) 电力营销***中的工单分类方法、装置及其相关设备
WO2022142613A1 (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN116483314A (zh) 一种自动化智能活动图生成方法
CN112732423B (zh) 流程迁移方法、装置、设备及介质
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN115238124A (zh) 视频人物检索方法、装置、设备和存储介质
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19944238

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19944238

Country of ref document: EP

Kind code of ref document: A1