WO2023195769A1 - 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 - Google Patents

신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 Download PDF

Info

Publication number
WO2023195769A1
WO2023195769A1 PCT/KR2023/004594 KR2023004594W WO2023195769A1 WO 2023195769 A1 WO2023195769 A1 WO 2023195769A1 KR 2023004594 W KR2023004594 W KR 2023004594W WO 2023195769 A1 WO2023195769 A1 WO 2023195769A1
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
embedding
patent document
similar
model
Prior art date
Application number
PCT/KR2023/004594
Other languages
English (en)
French (fr)
Inventor
최인경
Original Assignee
주식회사 타날리시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220056072A external-priority patent/KR102606352B1/ko
Application filed by 주식회사 타날리시스 filed Critical 주식회사 타날리시스
Publication of WO2023195769A1 publication Critical patent/WO2023195769A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/923Intellectual property
    • Y10S707/93Intellectual property intellectual property analysis
    • Y10S707/931Patent comparison

Definitions

  • the present invention relates to a method and device for extracting similar patent documents using a neural network model.
  • NLP Natural Language Processing
  • natural language processing methods are available to analyze embedded-based structured and unstructured documents. It is being designed (Korea Registered Patent Publication 10-2342055 (2021.12.17)).
  • the purpose of the present invention is to provide a patent analysis method through a neural network model learned from patent data and patent judgment data from the Korean Intellectual Property Office or court.
  • the purpose of the present invention is to provide a method to simplify the cost of patent analysis and support faster decision-making by allowing a neural network model to learn the characteristics of the work performed by existing patent experts.
  • the purpose of the present invention is to provide a method for determining the invalidity of prior art or patents or determining the possibility of patent infringement of a technology by providing analysis results of patent documents similar to the technology provided by querying the patent documents. do.
  • a method for calculating similarity between patent documents based on embedding vectors according to the present invention to solve the above technical problem includes receiving first and second embedding vectors of each of the patent documents; and calculating similarity between the patent documents based on the first and second embedding vectors, wherein the first and second embedding vectors are respectively embedded using first and second embedding models, and It is preferable that the first embedding model generates the first embedding vector based on a greater number of tokens than the maximum tokenized number of the second embedding model.
  • TL1 > N * TL2, where N is a natural number of 2 or more, TL1 is the maximum tokenization number of the first embedding model, and TL2 is the maximum tokenization number of the second embedding model.
  • the patent documents include a first patent document that serves as a standard for determining similarity
  • the second embedding vectors include a 2-1 embedding vector that embeds claims of the first patent document.
  • the claims of the first patent document include a plurality of components, and the 2-1 embedding vector is an embedding vector for each component that is embedded based on at least one of the components.
  • the patent documents include a second patent document that is subject to similarity judgment with the first patent document, and the second embedding vectors include a plurality of 2-2 embedding vectors each embedding sentences of the second patent document.
  • the step of calculating the similarity it is preferable to check the embedding vector that is most similar to the embedding vector for each component among the plurality of 2-2 embedding vectors.
  • the step of calculating the similarity involves calculating the similarity using a similarity judgment model learned using a first label value of a similar document similar to the patent document and a second label value of a similar document that is partially or not similar to the patent document. However, it is preferable that the second label value is smaller than the first label value.
  • the embedding vector-based similar patent document search method to solve the above technical problem is based on the query patent document and the first embedding vectors of each of the patent documents in the first candidate patent document list that satisfies the search conditions. calculating a first similarity; extracting a second candidate patent document list from the first candidate patent document list through the calculated first similarity; calculating a second similarity based on second embedding vectors of the query patent document and each of the patent documents in the second candidate patent document list; and providing similar patent documents in the second candidate patent document list through the calculated second similarity, wherein the first and second embedding vectors are respectively embedded using first and second embedding models.
  • the first embedding model generates the first embedding vector based on a greater number of tokens than the maximum tokenized number of the second embedding model.
  • the claims of the query patent document include a plurality of components, and the 2-1 embedding vector of the query patent document is an embedding vector embedded based on at least one of the components.
  • the step of calculating the second similarity involves calculating the similarity by comparing the 2-1 embedding vector with a plurality of 2-2 embedding vectors that each embed sentences of patent documents in the second candidate patent document list. desirable.
  • a method of learning a similarity judgment model for calculating the similarity of patent documents according to the present invention to solve the above technical problem includes providing a first sample and a second sample to the similarity judgment model; And a step of learning the similarity judgment model by comparing labeling values of the first and second samples with similarity values output based on the first and second samples, wherein the first sample is a target patent document. It includes target patent document information, first document information about similar documents similar to the target patent, and a first label value, and the second sample includes the target patent document information and patent documents that are partially or unsimilar to the target patent. It includes second document information and a second label value, and the second label value is preferably smaller than the first label value.
  • the second sample includes the 2-1 sample, and the 2-1 sample includes the target patent document information, third document information about any patent document belonging to the same technical field as the target patent, and a third label. value, and the third label value is preferably smaller than the second label value.
  • the second sample includes a 2-2 sample, wherein the 2-2 sample includes the target patent document information, fourth document information about an arbitrary patent document belonging to a technical field different from the target patent, and a fourth label. value, and the fourth label value is preferably smaller than the third label value.
  • non-similar patent document is included in the administrative history of the target patent, but is not cited as a basis for a specific reason for rejection or invalidity for the target patent.
  • the similar similar patent document is at least one of the cited documents cited by the Korean Intellectual Property Office, tribunal, or court as a basis for rejection or invalidation of the target patent.
  • the above reasons for rejection or invalidity are preferably at least one of defects in novelty, violation of the originality principle and expanded originality principle, and violation of Article 102 of the U.S. Patent Act.
  • the partially similar patent documents are documents cited when the target patent is rejected or invalidated due to defects in inventive step.
  • the target patent document information is preferably generated based only on one or more independent claims of the target patent.
  • the cost of patent analysis can be simplified and faster decision-making can be supported by allowing a neural network model to learn patent documents and judgment data about patent documents.
  • the learned model can be used to investigate the background technology of a newly developed technology or provide results of examining patent literature that may invalidate the target patent.
  • FIG. 1 is a conceptual diagram showing a similar patent document extraction service according to an embodiment of the present invention.
  • Figure 2 is a flowchart showing a method for extracting similar patent documents according to an embodiment of the present invention.
  • Figure 3 is a block diagram showing the structure of a patent document database according to an embodiment of the present invention.
  • 4 to 8 are block diagrams showing the structure of a patent embedding model according to an embodiment of the present invention.
  • Figure 9 is a flowchart showing a method for extracting similar patent documents according to an embodiment of the present invention.
  • 10 to 14 are block diagrams showing the structure of a patent similarity determination model according to an embodiment of the present invention.
  • Figure 15 is a flowchart showing a method of learning a similarity judgment model according to an embodiment of the present invention.
  • Figure 16 is a block diagram showing the hardware configuration of a similar patent document extraction server according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating a system for calculating similarity between patent documents according to an embodiment of the present invention.
  • the system consists of a user 10 entering query information and a server 300 extracting and providing similar patent document information corresponding to the query information entered by the user 10. It can be.
  • the server 300 may operate including a database (DB) that manages patent documents and a neural network model 200 learned through the DB.
  • DB database
  • the neural network model 200 may have a dual structure of an embedding model that extracts meanings inherent in patent documents and a similarity judgment model that calculates similarity through embedding, which is the output of the embedding model.
  • the neural network model 200 obtains an embedding vector corresponding to a patent document from a database (DB) that stores and manages embedding vectors pre-calculated in the embedding model for the patent documents, and based on the embedding vector,
  • DB database
  • a similarity model can calculate similarity.
  • the embedding vector for each patent document can be calculated in advance and stored in the database, and the similarity judgment model can be extracted and used from the DB without the need to create an embedding vector during each learning and inference, saving server resources and delay. can be reduced.
  • the embedding vectors of the query patent document and prior patent documents extracted from the query information may be calculated from the embedding model in real time (on-the-fly) and input into the similarity model.
  • An embedding vector can be extracted by performing a preprocessing process in real time to divide the query patent documents or prior patent documents differently (e.g., splitting them into sentences) as needed, and inputting the preprocessed tokens into the embedding model. Additionally, the embedding vectors of the upper layer can be extracted by integrating the embedding vectors back into the document or paragraph unit.
  • the embedding model flexibly processes and embeds patent documents in real time according to the characteristics of the input data, the user's intention, or the required input of the similarity model, and the similarity model calculates the similarity based on this. make it possible Therefore, the neural network model can demonstrate adaptive performance.
  • this embodiment illustrates a method of extracting similar prior patent documents based on the query patent document
  • prior patent documents are interpreted as prior documents in a broad sense and are non-patent documents, such as papers or technologies published in academic societies or archives (arxiv). It can include various text documents posted on web communities such as data and GitHub. Therefore, the collected various technical data can be used to extract documents similar to the query patent document by using them as one prior art document based on the date or time of publication and managing them in a database described later.
  • the server 300 may extract query patent document information from query information input by the user (S100).
  • Query patent document information is an identification value of a patent document that serves as a standard for extracting similar patent documents and may include information to identify the patent, such as the patent application, publication, and registration number or the title of the invention. You can.
  • the query information may include date information such as the priority date (application date) of the query patent or information related to the applicant, inventor, or right holder as a condition for searching for a patent. Therefore, the server 300 allows the server 300 to search for patents before that date. You can set search conditions.
  • a patent classification system representing the technical field of the invention, such as IPC (International Patent Classification) or CPC (Cooperative Patent Classification), is input as search conditions and similar patent documents for the conditions are searched. Or, you can compare them first.
  • IPC International Patent Classification
  • CPC Cooperative Patent Classification
  • the server 300 extracts prior patent documents to calculate the degree of similarity with the query patent document using the identification value and search conditions of the patent document extracted from the input query information.
  • the server 300 receives document embedding vectors and sentence embedding vectors of each of the extracted patent documents (S200).
  • the document embedding vector is a value that embeds the meaning of the entire patent document and may have a unique value for each document.
  • it may be an embedding vector obtained by inputting the entire patent document, including the abstract, detailed description, and claims, into an embedding model.
  • a sentence embedding vector is a vector that embeds the meaning of each sub-document unit that makes up the patent document, and can be generated with multiple values depending on the size or composition of the patent document.
  • a sentence embedding vector may be an embedding vector obtained by inputting not only a sentence or paragraph, but also text in units smaller than a sentence or units larger than a paragraph into the embedding model.
  • the server 300 calculates global similarity through the document embedding vector of the query patent document and the document embedding vector of previous patent documents, and simultaneously calculates the similarity between each element of the patent document to the sentence level similarity based on the sentence embedding vector. Allow it to be calculated.
  • the server 300 includes a patent document DB 312 for extracting prior patent documents in text form, a first embedding vector DB 314 that manages document-level first embedding vectors for each patent, and a sentence-level second embedding vector DB 314 for managing document-level first embedding vectors for each patent. It may be configured to include a second embedding vector DB 316 that manages embedding vectors for each patent.
  • the database 310 may be composed of a patent document DB 312, a first embedding vector DB 314, and a second embedding vector DB 316, and the database 310 is
  • the patent's identification information can be managed as a unique index for the values in each DB, and thus each value corresponding to the patent's identification information in the input query information can be extracted and used to determine similarity.
  • identification information or text of specifications of prior patent documents to be compared with the query patent document can also be extracted from the patent document DB 312, and the patent application numbers of the prior patents are used as identification information of the prior patent documents.
  • the first embedding vector of the prior patent documents can be extracted from the first embedding vector DB 314, or the second embedding vector can be extracted from the second embedding vector DB 316.
  • the above embedding vectors can be generated in advance through an embedding model and managed in the DB as described above, or it is also possible to calculate the embedding vectors by dividing the text for each patent document from the patent document DB according to the required input format in real time.
  • the first embedding model 322 which outputs the first embedding vector of the patent documents as a single unit, converts the features inherent in the entire input patent documents into values in the feature space that defines the features of the patent documents. It can be vectorized by embedding. More specifically, the first embedding model 322 may determine the values of the embedding vectors so that the more similar the patent documents are, the closer the embedding vectors of the corresponding patent documents are located in the feature space.
  • the second embedding model 324 which outputs the second embedding vector of the patent documents in sub-document units (e.g., sentence units), inputs sentence texts that divide the patent documents into individual sentences. You can vectorize patent documents sentence by sentence. That is, the second embedding model 324 can extract a plurality of vector values for one patent document and enable a more detailed similarity judgment based on the plurality of vector values between the query patent document and the prior patent document.
  • sub-document units e.g., sentence units
  • a preprocessing process can be performed to divide the patent document into each unit text into sub-document units that can be processed by the second embedding model 324, and the preprocessed unit
  • the features of the patent sentences can be vectorized into values in a feature space where they are defined.
  • the preprocessing process can be performed by splitting the text according to predetermined rules (e.g., the position of periods (.) or semicolons (;)) or semantically.
  • predetermined rules e.g., the position of periods (.) or semicolons (;)
  • the embedding process according to this embodiment is performed according to the hierarchical structure of the document composed of sentences or paragraphs or paragraphs composed of sentences of patent documents with common technical ideas, so the model for extracting the embedding vector is also hierarchical. It can be implemented to have a structure.
  • the first embedding model 322 may be configured to extract a high-dimensional first embedding vector by integrating the output of the second embedding model 324 for sentences in the patent document.
  • patent document texts can be divided into a plurality of first strings in sub-document (e.g., sentence) units through a segmentation pre-processing process, and embedding of the plurality of first strings can be performed.
  • Each may be input to the second embedding model 324 that performs.
  • the second embedding model 324 which performs sentence-level embedding, may output each second embedding vector for the input first string.
  • the output second embedding vectors are integrated through an encoder (e.g., Transformer or another type of neural network), and the encoder can again output a first embedding vector in a form that implies a plurality of second embedding vectors. there is.
  • an encoder e.g., Transformer or another type of neural network
  • the second embedding vectors input to the encoder may additionally include location information within the document so as not to lose the inherent meaning in the context of the entire document by considering the relationship between sentences, and the encoder may input the value of the second embedding vector. And the inherent meaning can be output as a first embedding vector according to the mutual relationship.
  • the second embedding model 324 vectorizes and outputs the meaning of the sentence unit, thereby extracting information from a plurality of second strings in smaller units of sub-documents (e.g., words or word-segmented tokens). It may be configured to output a second embedding vector using a third embedding model 326 that extracts the meaning of the first string.
  • the first string extracted from the patent document can be further divided into a plurality of second strings, and the second strings are input to the third embedding model 326, which outputs an embedding vector in word units, for example. and can be output as each third embedding vector.
  • the third embedding vector contains the position information of each second string within the first string, and therefore, through the position information and the unique value of the vector, the encoder can output a second embedding vector that abbreviates the meaning of the sentence.
  • the embedding models according to this embodiment are the first embedding model that outputs the first embedding vector for the patent document of the highest document unit corresponding to the hierarchical structure of the document, and the first embedding model outputs the first embedding vector for the patent document in smaller units (e.g., It may include a second embedding model that outputs a second embedding vector for text in a smaller unit (e.g., a paragraph).
  • the second embedding model also outputs a second embedding vector for text in smaller units (e.g., a sentence). May include N embedding models.
  • the neural network model of FIG. 8 can embed text at the word, sentence, and paragraph level through a hierarchical structure.
  • the first and second embedding models are similar in terms of structure, but there is a difference in the size of text that can be input.
  • the first embedding model 322 uses a second embedding model (322) to embed text of more than a paragraph.
  • the first embedding vector can be generated based on a number of tokens greater than the maximum number of tokenizations (324).
  • the second embedding model is a base BERT (Bidirectional Encoder Representations from Transformers) model and the maximum tokenized number is 512
  • M sentences containing 512 tokens are used as the second embedding model.
  • N second embedding vectors can be obtained, and these can be input again into the first embedding model.
  • the maximum tokenized numbers of the first and second embedding models can be N * 512 and 512, respectively (N is an integer of 2 or more).
  • N is a natural number of 2 or more
  • TL1 is the maximum tokenization number of the first embedding model
  • TL2 is the maximum tokenization number of the second embedding model.
  • Each embedding model can be trained so that the embedded vector values are similar as the contents of the input texts are similar, and the meaning of the upper layer is more accurately identified by propagating the learning results of the lower layer to the upper layer according to the hierarchical structure. It can be learned to do so.
  • the first embedding model may be independently learned and provided without including the second embedding model.
  • the first embedding model may be a BERT-based model with a large maximum tokenization number (e.g., 4096), such as longformer or BigBird.
  • the server 300 calculates the degree of similarity between patent documents based on the first and second embedding vectors (S300).
  • a first candidate patent document list is generated from the query patent documents extracted from the input query information and prior patent documents that satisfy the search conditions, and the patent documents in the first candidate patent document list are generated.
  • the first similarity is calculated based on each first embedding vector (S1000).
  • the similarity between each document can be calculated based on the first embedding vector of the document unit described above.
  • the first similarity determination model 332 extracts the first embedding vectors of the query patent document and a plurality of prior patent documents in the first candidate patent list from the first embedding DB 314, and extracts the first embedding vector
  • the similarity between the two documents is determined based on the first set of embedding vectors composed of .
  • the first similarity judgment model 332 calculates the Euclidean distance, Manhattan distance, Mahalanobis distance, and correlation coefficient between the first embedding vectors of the query patent document and the prior document. (Correlation)
  • the similarity between two documents can be determined based on at least one of the distances.
  • the similarity determination model can implement a model network that sequentially determines similarity using embedding vectors hierarchically extracted for the document-sentence structure and calculate the similarity, as described above.
  • a prior patent having a similarity greater than a threshold value is determined through the first similarity between the query patent document and the prior patent document in the first candidate patent document list extracted from the patent document DB 312 according to the search conditions in the query information.
  • a second candidate patent list can be extracted from the set of documents (S2000).
  • the second embedding vector for the corresponding patent can be extracted from the second embedding vector DB 316 in order to calculate the sentence-level similarity between the query document and the prior patent documents in the second candidate patent list.
  • a second embedding vector set consisting of second embedding vectors between the query patent document and prior patents in the second candidate patent list is provided to the second similarity judgment model 334, and the second similarity judgment model 334 provides the query patent
  • a second similarity is calculated based on the embedding vector extracted from the sentence in the document and each second embedding vector in sentence units of prior patents (S3000).
  • the second embedding vector of the query patent document used in this embodiment may be an embedding vector for each component that divides the claims of the query patent document into each component.
  • the claims of the query patent document are extracted from the patent document DB 312 ) and input into the second embedding model 322, which extracts sentence-level embedding vectors for the extracted claims.
  • the second embedding model 322 can extract the 2-1 embedding vector by dividing the claims of the query patent document into sentences.
  • the second similarity judgment model 332 is configured with a 2-1 embedding vector for the claims of the query patent document and a 2-2 embedding vector for each sentence of the prior patent document in the second candidate patent list.
  • the second similarity can be calculated based on the embedding vector set.
  • the second similarity determination model 332 identifies the embedding vector that is most similar to the 2-1 embedding vector for the claim among the plurality of 2-2 embedding vectors, and calculates the similarity with the most similar embedding vector as the final similarity. can do.
  • the final similarity as the average of the similarities of the embedding vectors that have a similarity greater than the threshold input by the user.
  • the second similarity judgment model 332 returns the location of the sentence corresponding to the embedding vector used in calculating the final similarity within the prior patent document as mapping information, allowing the user to directly check the content of the text that is the basis for the similarity judgment. It is also possible to do so.
  • the third similarity is based on the keyword defined as a specific word or sentence in the query patent document and its weight, and the number of appearances of the corresponding keywords in each prior patent document in the second candidate patent list. It is also possible to additionally use a third similarity judgment model 336 that determines .
  • keywords can be set in units of not only words but also phrases or clauses composed of two or more words.
  • the number of appearances can be counted based on the set keyword by setting it to a sentence or a paragraph consisting of sentences.
  • the third similarity judgment model 336 inputs the N keywords of the query patent and the weights for the keywords, and the keyword set of the n candidate patents in the second candidate patent list, and determines the literature of candidate patent keywords corresponding to the keywords of the query patent.
  • a third degree of similarity is calculated based on the number of appearances and the weight.
  • the second similarity calculated based on the second embedding vector for each prior document and the third similarity calculated according to the number of appearances of keywords in each prior patent document are reflected in the similarity judgment to finally generate a third candidate patent list.
  • similar patent documents in the third candidate patent list can be provided to the user.
  • the second similarity is corrected by reflecting the weight for each keyword set by the user for the sentence of the query patent document in the second similarity value, and the user's level of similarity is adjusted based on the corrected second similarity. It is also possible to provide intent-based patent documents as a third candidate patent list.
  • similar patent document information may include mapping information that serves as the basis for determining similarity in addition to the identification value of the similar patent document.
  • Mapping information is information about similar sentences that are similar to sentences in the query patent document, for example, the content of the actual sentences together with the location in the patent document of one or N sentences that are most similar to the first configuration of the claim of the query patent document. and may include judgment information about similarity.
  • the similarity judgment model that extracts similar patent documents through a sequential extraction process can also be implemented as an integrated similarity model.
  • one neural network can receive a set of sentence embedding vectors and a set of document embedding vectors of two patent documents and determine the similarity between the two documents based on these.
  • the similarity calculation process between the first and second embedding vector sets between the above-described query patent document and the prior patent document is performed in parallel, and the final similarity is calculated by averaging or weighting each similarity judgment result. It is also possible to calculate and provide similar patent documents to users.
  • the similarity judgment model implemented as a single similarity model can be implemented so that the similarity can be calculated by simultaneously inputting the actual text information of both patent documents in cross-encoding form.
  • the similarity judgment model not only uses the embedding vector values directly to determine the similarity based on vector operations defined in the feature space as the dot product or Euclidean distance between vectors, but also inputs the embedding vectors into a learned neural network. It is also possible to calculate more accurate similarity.
  • the similarity judgment model can be learned using data labeled with the similarity between embedding vectors for learning, and in this embodiment, competitive learning is performed on pairs of learning data with labeled relative similarity values to learn the similarity judgment model. do.
  • a positive sample determined to be similar to a reference patent document and a negative sample determined to be dissimilar can be used as training data in pairs. That is, a positive sample with a first label value for a similar document similar to the patent document and a second label value for a similar document partially or not similar to the patent document are used as a negative sample, but the first label value is greater than the second label value.
  • the label value and sample are provided to the similarity judgment model (S20), and the similarity judgment model can learn based on the positive and negative samples (S30).
  • the similarity judgment model determines the similarity based on the embedding vector of the patent document and the similar document, and learns so that the similarity value calculated for the similar document has a small error with the first label value, but for the non-similar document, the similarity value is learned to be small. Internal layers can be trained so that the error with the label value is reduced.
  • samples can be divided into dolls in stages, and the internal layers of the similarity judgment model can be learned by sequentially configuring label values for each stage.
  • negative samples in addition to positive samples can be divided into four labels such as hard-negative, negative, and extreme-negative, depending on the similarity between two documents/sentences. there is.
  • a positive sample is at least one of the cited documents cited by the Korean Intellectual Property Office, a trial judge, or a court as grounds for rejection or invalidation of a patent, and may be a prior patent document cited in a judgment of identity.
  • the reasons for rejection or invalidation in the administrative history are defects in novelty, violation of the originality doctrine and expanded originality doctrine, and violation of Article 102 of the U.S. Patent Act, and in this case, the cited prior literature can be created as a positive sample.
  • negative samples are some similar patent documents that correspond to hard negative samples and may be documents cited when the target patent is rejected or invalidated due to inventive step defects.
  • negative samples may not be directly cited in the actual reason for rejection/invalidation, but may be documents that the applicant directly referred to in the invention through an Information Disclosure Statement (IDS), etc., or, more broadly, based on the technical field, for example, an IPC code. You can refer to and use any patent literature in the same field as a sample.
  • IDS Information Disclosure Statement
  • the server 300 may be implemented in the form of a computing device.
  • Each module constituting the server 300 is implemented on a general-purpose computing processor, and thus includes a processor 202, an input/output I/O 204, a memory 306, and an interface. It may include 308, storage 312, and bus 314.
  • the processor 202, input/output I/O 304, memory device 306, and/or interface 308 may be coupled to each other through a bus 314.
  • the bus 314 corresponds to a path along which data moves.
  • the processor 302 includes a Central Processing Unit (CPU), a Micro Processor Unit (MPU), a Micro Controller Unit (MCU), a Graphic Processing Unit (GPU), a microprocessor, a digital signal processor, a microcontroller, and an application processor (AP). , application processor) and logic elements capable of performing similar functions.
  • CPU Central Processing Unit
  • MPU Micro Processor Unit
  • MCU Micro Controller Unit
  • GPU Graphic Processing Unit
  • microprocessor a digital signal processor
  • AP application processor
  • AP application processor
  • the input/output I/O device 304 may include at least one of a keypad, keyboard, touch screen, and display device.
  • the memory device 306 may store data and/or programs.
  • the interface 308 may perform the function of transmitting data to or receiving data from a communication network.
  • Interface 308 may be wired or wireless.
  • the interface 308 may include an antenna or a wired or wireless transceiver.
  • the memory device 306 is an operating memory for improving the operation of the processor 302 and may further include high-speed DRAM and/or SRAM.
  • Internal storage 312 stores programming and data configurations that provide the functionality of some or all modules described herein. For example, it may include logic to perform selected aspects of the similarity determination method described above.
  • the memory device 306 loads a program or application with a set of instructions including each step of performing the above-described similarity determination method stored in the storage 312 and allows the processor to perform each step.
  • the cost of patent analysis can be simplified and more rapid decision-making can be supported by allowing the neural network model to learn patent documents and judgment data about the patent documents.
  • the learned model can be used to investigate the background technology of a newly developed technology or provide results of a search for patent literature that may invalidate the target patent.
  • various embodiments described herein may be implemented in a recording medium readable by a computer or similar device, for example, using software, hardware, or a combination thereof.
  • the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and field programmable gate arrays (FPGAs). It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and other electrical units for performing functions. In some cases, as described herein, The described embodiments may be implemented as a control module itself.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • embodiments such as procedures and functions described in this specification may be implemented as separate software modules.
  • Each of the software modules may perform one or more functions and operations described herein.
  • Software code can be implemented as a software application written in an appropriate programming language.
  • the software code may be stored in a memory module and executed by a control module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 신경망 모델을 활용하여 유사 특허 문헌을 추출하는 방법 및 장치에 관한 것이다. 본 발명에 따른 임베딩 벡터 기반의 특허 문헌들간 유사도 산출 방법은 상기 특허 문헌들 각각의 제1 임베딩 벡터들 및 제2 임베딩 벡터들을 입력 받는 단계; 및 상기 제1 및 제2 임베딩 벡터들을 근거로 상기 특허 문헌들간의 유사도를 산출하는 단계를 포함하고, 상기 제1 및 제2 임베딩 벡터들은 제1 및 제2 임베딩 모델들을 이용하여 각각 임베딩 되며, 상기 제1 임베딩 모델은 상기 제2 임베딩 모델의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 상기 제1 임베딩 벡터를 생성하는 것이 바람직하다. 본 발명에 따르면, 신경망 모델이 특허 문헌과 특허 문헌에 대한 판단 자료를 학습하도록 함으로써 특허 분석에 소요되는 비용을 간소화하고 보다 신속한 의사 결정을 지원할 수 있다.

Description

신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
본 발명은 신경망 모델을 활용하여 유사 특허 문헌을 추출하는 방법 및 장치에 관한 것이다.
4차 산업혁명에 따라 지식재산에 대한 중요성은 증대되고 있으며 기업들은 R&D에 적극적인 투자를 통해 다양한 사업 판로들을 개척하고 있다.
R&D의 산물로서 기업들은 국내외 특허를 통해 기술 장벽을 마련하여 자기 기술들을 보호하고자 노력하며 이와 동시에 특허 소송을 통해 사업 영역을 확보하거나 특허 회피 설계를 통해 사업 안정성을 확보하고자 노력하고 있다.
융합 기술들이 발달하는 4차 산업의 특징 상 중첩되는 기술 간 분쟁은 날로 증가하고 있으며, 특허 소송에 이용되는 비용 역시 기업의 영역 이익을 초과할 정도의 높은 수준으로 증가함에 따라 특허의 가치는 점차 증가하고 있다.
그럼에도 불구하고 현재의 높은 R&D 투자 비용 대비 전문성을 요구하는 특허의 활용도는 낮은 실정이며, 실제 산업에 활용되지 못하는 부실특허로 인한 경제적 손실 규모가 연간 약 2조원, 미국은 연간 28조원 정도의 규모로 손실이 발생되고 있다.
최근 급속도로 발달하고 있는 인공지능 기술들은 자연어 처리 분야(NLP(Natural Language Processing))에 대해서도 다양한 분석 알고리즘들이 제공되고 있으며 임베딩 기반의 정형성과 비정형성을 가진 문서들을 분석할 수 있는 다양한 자연어 처리 방법들이 고안되고 있다(한국 등록 특허 공보 10-2342055 (2021.12.17)).
이에 따라 형식적인 요구사항 및 관습적인 표현에 따라 특징적인 구조를 갖는 특허 문헌에 대해서도 보다 전문화된 분석으로 보다 양질의 특허를 확보하고 관리할 수 있는 방법이 요구될 수 있다.
본 발명은 특허 데이터 및 특허청 또는 법원의 특허 판단 자료를 학습한 신경망 모델을 통한 특허 분석 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 기존의 특허 전문가들이 수행하는 업무의 특성을 신경망 모델이 학습하도록 함으로써 특허 분석에 소요되는 비용을 간소화하고 보다 신속한 의사 결정을 지원할 수 있도록 하는 방법을 제공하는 것을 목적으로 한다.
보다 구체적으로 본 발명은 특허 문헌들을 쿼리로 제공된 기술과 유사한 특허 문헌들의 분석 결과를 제공함으로써 선행기술 또는 특허의 무효성을 판단하거나 기술의 특허 침해 가능성을 판단할 수 있는 방법을 제공하는 것을 목적으로 한다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 임베딩 벡터 기반의 특허 문헌들간 유사도 산출 방법은 상기 특허 문헌들 각각의 제1 임베딩 벡터들 및 제2 임베딩 벡터들을 입력 받는 단계; 및 상기 제1 및 제2 임베딩 벡터들을 근거로 상기 특허 문헌들간의 유사도를 산출하는 단계를 포함하고, 상기 제1 및 제2 임베딩 벡터들은 제1 및 제2 임베딩 모델들을 이용하여 각각 임베딩 되며, 상기 제1 임베딩 모델은 상기 제2 임베딩 모델의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 상기 제1 임베딩 벡터를 생성하는 것이 바람직하다.
TL1 > N * TL2이며, 여기서 N은 2이상의 자연수, TL1은 제1 임베딩 모델의 최대 토큰화 개수, TL2는 제2 임베딩 모델의 최대 토큰화 개수인 것이 바람직하다.
상기 특허 문헌들은 유사도 판단의 기준이 되는 제1 특허 문헌을 포함하고, 상기 제2 임베딩 벡터들은 상기 제1 특허 문헌의 청구항을 임베딩한 제2-1 임베딩 벡터를 포함하는 것이 바람직하다.
상기 제1 특허 문헌의 청구항은 복수의 구성 요소들을 포함하고, 상기 제2-1 임베딩 벡터는 상기 구성요소들 중 적어도 어느 하나를 근거로 임베딩한 구성 요소 별 임베딩 벡터인 것이 바람직하다.
상기 특허문헌들은 제1 특허 문헌과 유사도 판단의 대상이 되는 제2 특허 문헌을 포함하고, 상기 제2 임베딩 벡터들은 상기 제2 특허 문헌의 문장들을 각각 임베딩한 복수의 제2-2 임베딩 벡터를 포함하고, 상기 유사도를 산출하는 단계는, 복수의 제2-2 임베딩 벡터와 상기 구성 요소 별 임베딩 벡터를 비교하여 유사도를 산출하는 것이 바람직하다.
상기 유사도를 산출하는 단계는, 상기 복수의 제2-2 임베딩 벡터 중 상기 각 구성 요소 별 임베딩 벡터와 가장 유사한 임베딩 벡터를 확인하는 것이 바람직하다.
상기 유사도를 산출하는 단계는, 상기 특허 문헌과 유사한 유사 문헌의 제1 레이블 값 및 상기 특허 문헌과 일부 또는 비 유사한 유사 문헌에 대한 제2 레이블 값을 이용하여 학습된 유사도 판단 모델을 이용하여 유사도를 산출하되, 상기 제2 레이블 값은 상기 제1 레이블 값 보다 작은 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 임베딩 벡터 기반의 유사 특허 문헌 검색 방법은 쿼리 특허 문헌과, 검색 조건을 만족하는 제1 후보 특허 문헌 리스트 내 특허 문헌들 각각의 제1 임베딩 벡터들을 근거로 제1 유사도를 산출하는 단계; 상기 산출된 제1 유사도를 통하여 제1 후보 특허 문헌 리스트로부터 제2 후보 특허 문헌 리스트를 추출하는 단계; 상기 쿼리 특허 문헌과 상기 제2 후보 특허 문헌 리스트 내 특허 문헌들 각각의 제2 임베딩 벡터들을 근거로 제2 유사도를 산출하는 단계; 및 상기 산출된 제2 유사도를 통하여 상기 제2 후보 특허 문헌 리스트 내 유사 특허 문헌을 제공하는 단계를 포함하고, 상기 제1 및 제2 임베딩 벡터들은 제1 및 제2 임베딩 모델들을 이용하여 각각 임베딩 되며, 상기 제1 임베딩 모델은 상기 제2 임베딩 모델의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 상기 제1 임베딩 벡터를 생성하는 것이 바람직하다.
상기 쿼리 특허 문헌의 청구항은 복수의 구성 요소들을 포함하고 상기 쿼리 특허 문헌의 제2-1 임베딩 벡터는 상기 구성요소들 중 적어도 어느 하나를 근거로 임베딩한 임베딩 벡터인 것이 바람직하다.
상기 제2 유사도를 산출하는 단계는, 상기 제2 후보 특허 문헌 리스트 내 특허 문헌들의 문장을 각각 임베딩한 복수의 제2-2 임베딩 벡터와 상기 제2-1 임베딩 벡터를 비교하여 유사도를 산출하는 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 특허 문헌의 유사도를 산출하는 유사도 판단 모델의 학습 방법은 제1 샘플 및 제2 샘플을 상기 유사도 판단 모델에 제공하는 단계; 및 상기 유사도 판단 모델이 상기 제1 및 제2 샘플을 근거로 출력한 유사도 값과 제1 및 제2 샘플의 레이블링 값을 비교하여 학습하는 단계를 포함하고, 상기 제1 샘플은 타겟 특허 문헌에 대한 타겟 특허 문헌 정보, 상기 타겟 특허와 유사한 유사 문헌에 대한 제1 문헌 정보, 및 제1 레이블 값을 포함하며, 상기 제2 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 일부 또는 비 유사한 특허 문헌에 대한 제2 문헌 정보, 및 제2 레이블 값을 포함하며, 상기 제2 레이블 값은 상기 제1 레이블 값 보다 작은 것이 바람직하다.
제2 샘플은 제2-1 샘플을 포함하고, 상기 제2-1 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 같은 기술분야에 속하는 임의의 특허 문헌에 대한 제3 문헌 정보, 및 제3 레이블 값을 포함하며, 상기 제3 레이블 값은 상기 제2 레이블 값보다 작은 것이 바람직하다.,
제2 샘플은 제2-2 샘플을 포함하고, 상기 제2-2 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 다른 기술분야에 속하는 임의의 특허 문헌에 대한 제4  문헌 정보, 및 제4 레이블 값을 포함하며, 상기 제4 레이블 값은 상기 제3 레이블 값보다 작은 것이 바람직하다.
상기 비 유사한 비 유사 특허 문헌은 상기 타겟 특허의 행정 이력에는 포함되었으나, 상기 타겟 특허에 대한 특정한 거절이유 또는 무효사유의 근거로 인용되지 않은 문헌인 것이 바람직하다.
상기 유사한 유사 특허 문헌은 특허청, 심판원, 또는 법원이 상기 타겟 특허에 대한 거절이유 또는 무효사유의 근거로 인용한 인용 문헌 중 적어도 어느 하나인 것이 바람직하다.
상기 거절이유 또는 무효 사유는 신규성 흠결, 선원주의 및 확대된 선원주의 위반, 및 미국 특허법 102조 위반 중 적어도 어느 것이 바람직하다.
상기 일부 유사한 일부 유사 특허 문헌은 상기 타겟 특허가 진보성 흠결의 이유로 거절 또는 무효된 경우 인용된 문헌인 것이 바람직하다.
상기 일부 유사한 일부 유사 특허 문헌은 IDS(Information Disclosure Statement)에 포함된 문헌인 것이 바람직하다.
상기 타겟 특허 문헌 정보는 상기 타겟 특허의 하나 이상의 독립 청구항만을 근거로 생성된 것이 바람직하다.
본 발명에 따르면, 신경망 모델이 특허 문헌과 특허 문헌에 대한 판단 자료를 학습하도록 함으로써 특허 분석에 소요되는 비용을 간소화하고 보다 신속한 의사 결정을 지원할 수 있다.
구체적으로 학습된 모델을 이용하여 신규 개발 기술의 배경 기술을 조사하거나 또는 대상 특허를 무효 시킬 수 있는 특허 문헌을 조사한 결과를 제공할 수 있다.
또한, 특정 특허를 침해하는 타인의 실시 기술을 조사하거나 또는 특정 기술 사용 시 침해할 위험이 있는 타인의 특허를 조사한 결과를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 유사 특허 문헌 추출 서비스를 나타내는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 유사 특허 문헌 추출 방법을 나타내는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 특허 문헌 데이터베이스의 구조를 나타내는 블록도이다.
도 4 내지 8은 본 발명의 일 실시예에 따른 특허 임베딩 모델의 구조를 나타내는 블록도이다.
도 9는 본 발명의 일 실시예에 따른 유사 특허 문헌 추출 방법을 나타내는 흐름도이다.
도 10 내지 14는 본 발명의 일 실시예에 따른 특허 유사도 판단 모델의 구조를 나타내는 블록도이다.
도 15는 본 발명의 일 실시예에 따른 유사도 판단 모델의 학습 방법을 나타내는 흐름도이다.
도 16는 본 발명의 일 실시예에 따른 유사 특허 문헌 추출 서버의 하드웨어 구성을 나타내는 블록도이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.
또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 특허 문헌 간 유사도 산출을 수행하는 시스템을 나타내는 도이다.
도 1을 참조하면, 본 실시예에 따른 시스템은 쿼리 정보를 입력하는 사용자(10)와 사용자(10)가 입력한 쿼리 정보에 대응하는 유사 특허 문헌 정보를 추출하여 제공하는 서버(300)로 구성될 수 있다.
이를 위해 서버(300)는 특허 문헌들을 관리하는 DB(Database)와 DB를 통해 학습된 신경망 모델 (200)을 포함하여 동작할 수 있다.
본 실시예에 따른 신경망 모델(200)은 특허 문헌들에 내재된 의미들을 추출하는 임베딩 모델과 임베딩 모델의 출력인 임베딩을 통해 유사도를 산출하는 유사도 판단 모델로 이중화된 구조를 가질 수 있다.
본 실시예에서 신경망 모델(200)은 특허 문헌들에 대하여, 임베딩 모델에서 사전 계산된 임베딩 벡터들을 저장 및 관리하는 데이터베이스 (DB) 로부터 특허 문헌에 대응하는 임베딩 벡터를 획득하고, 임베딩 벡터를 근거로 유사도 모델이 유사도를 산출할 수 있다.
따라서 각각의 특허 문헌에 대한 임베딩 벡터는 미리 계산되어 데이터베이스에 저장되어 있을 수 있으며 유사도 판단 모델은 학습 및 추론시마다 임베딩 벡터를 생성할 필요가 없이 DB로부터 추출하여 이용할 수 있으므로 서버의 리소스를 절약하고 지연을 감소될 수 있다.
이와 달리, 쿼리 정보로부터 추출된 쿼리 특허 문헌과 선행 특허 문헌들의 임베딩 벡터는 실시간(on-the-fly)으로 임베딩 모델로부터 계산되어 유사도 모델에 입력될 수도 있다.
실시간으로 쿼리 특허 문헌 또는 선행 특허 문헌들을 필요에 따라 상이하게분할 (예를 들어, 문장 단위로 분할)하는 전처리 과정을 수행하고, 전처리 된 토큰들을 임베딩 모델에 입력함으로써 임베딩 벡터를 추출할 수 있다. 또한 임베딩 벡터들을 다시 문서 또는 문단 단위로 통합함으로써 상위 계층의 임베딩 벡터를 추출할 수 있다.
즉, 이중화된 구조에서 임베딩 벡터를 입력 데이터의 특성, 사용자의 의도, 또는 유사도모델의 요구 입력에 따라 임베딩 모델이 유연하게 실시간으로 특허 문헌들을 처리 및 임베딩 시킴으로써, 이를 바탕으로 유사도 모델이 유사도를 산출할 수 있도록 한다. 따라서, 신경망 모델은 적응적인 성능을 발휘할 수 있다.
나아가 본 실시예에서는 쿼리 특허 문헌을 기준으로 유사한 선행 특허 문헌을 추출하는 방법을 예시하나, 선행 특허 문헌은 광의의 선행 문헌으로 해석되어 비 특허 문헌으로 학회 또는 아카이브(arxiv)에 개제된 논문이나 기술 자료, GitHub 등과 같은 웹 커뮤니티 상에 개제된 다양한 텍스트 문헌들을 포함할 수 있다. 따라서 수집된 다양한 기술 자료들을 개제 일자나 시간을 단위로 하나의 선행 기술 문헌으로 이용하여 후술하는 데이터베이스에서 관리하도록 함으로써 쿼리 특허 문헌과 유사한 문헌을 추출하는데 이용되도록 할 수 있다.
이하 도 2를 참고하여 본 실시예에 따른 유사도 판단 모델을 통한 유사도 산출 방법에 대하여 설명한다.
먼저 서버(300)는 사용자로부터 입력된 쿼리 정보로부터 쿼리 특허 문헌 정보를 추출할 수 있다(S100).
쿼리 특허 문헌 정보는 유사한 유사 특허 문헌들을 추출하기 위한 기준이 되는 특허 문헌의 식별 값으로써, 예를 들어 특허의 출원, 공개, 및 등록 번호 또는 발명의 명칭과 같이 특허를 식별하기 위한 정보를 포함할 수 있다.
또한 쿼리 정보에는 특허의 검색을 위한 조건으로써 쿼리 특허의 우선일(출원일)로 날짜 정보 또는 출원인, 발명자, 또는 권리자 관련 정보를 포함할 수 있으며 따라서 서버(300)는 해당 날짜 이전의 특허들을 검색하도록 검색 조건을 설정할 수 있다.
그 외에도 IPC(International Patent Classification, 국제특허분류), CPC(Cooperative Patent Classification, 협력적 특허분류)와 같이 발명의 기술분야를 나타내는 특허분류체계를 검색 조건으로 입력 받고 해당 조건에 대한 유사 특허 문헌들을 검색 또는 우선하여 비교하도록 할 수 있다.
따라서 서버(300)는 입력된 쿼리 정보로부터 추출된 특허 문헌의 식별 값과 검색 조건을 이용하여 쿼리 특허 문헌과 유사도를 산출할 선행 특허 문헌들을 추출한다.
다음, 서버(300)는 추출된 양 특허 문헌들 각각의 문서 임베딩 벡터들 및 문장 임베딩 벡터들을 입력 받는다(S200).
본 실시예에서 문서 임베딩 벡터는 특허 문헌 전체의 의미를 임베딩 한 값으로서 문헌 별로 고유의 값을 가질 수 있다. 예를 들어, 요약, 상세한 설명, 청구항을 포함한 특허 문헌 전체를 임베딩 모델에 입력하여 얻은 임베딩 벡터일 수 있다.
반면 문장 임베딩 벡터는 특허 문헌을 이루는 하위 문서(sub-document) 단위 별 의미들을 임베딩 한 벡터로 특허 문헌의 크기나 구성에 따라 복수의 값들로 생성될 수 있다. 예를 들어, 문장 임베딩 벡터는 문장 또는 문단 뿐만 아니라, 문장보다 작은 단위나 문단보다 큰 단위의 텍스트를 임베딩 모델에 입력하여 얻은 임베딩 벡터일 수 있다.
서버(300)는 쿼리 특허 문헌의 문서 임베딩 벡터와 선행 특허 문헌들의 문서 임베딩 벡터를 통해 전역적인 유사도를 산출함과 동시에 특허 문헌 각각의 요소들 간의 유사도를 문장 임베딩 벡터를 근거로 문장 레벨의 유사도를 산출할 수 있도록 한다.
따라서 서버(300)는 선행 특허 문헌들을 텍스트 형태로 추출하기 위한 특허 문헌 DB(312)와 함께 문서 단위의 제1 임베딩 벡터들을 특허 별로 관리하는 제1 임베딩 벡터 DB(314)와 문장 단위의 제2 임베딩 벡터들을 특허 별로 관리하는 제2 임베딩 벡터 DB(316)를 포함하여 구성될 수 있다.
도 3을 참고하면 본 실시예에 따른 데이터베이스(310)는 특허 문헌 DB(312), 제1 임베딩 벡터 DB(314) 및 제2 임베딩 벡터 DB(316)로 구성될 수 있으며, 데이터베이스(310)는 각각의 DB 내 값들을 특허의 식별 정보를 고유의 인덱스로 관리할 수 있으며 따라서 입력된 쿼리 정보 내 특허의 식별 정보에 대응되는 각각의 값들을 추출하여 유사도 판단에 이용할 수 있도록 한다.
쿼리 정보 내 검색 조건에 따라 쿼리 특허 문헌과 비교할 선행 특허 문헌들의 식별 정보 또는 명세서의 텍스트 역시 특허 문헌 DB(312)로부터 추출될 수 있으며, 선행 특허 문헌들의 식별 정보로써 선행 특허 들의 특허 출원 번호를 이용하여 선행 특허 문헌들의 제1 임베딩 벡터를 제1 임베딩 벡터 DB(314)로부터 추출하거나, 제2 임베딩 벡터를 제2 임베딩 벡터 DB(316)로부터 추출할 수 있다.
이상의 임베딩 벡터들은 상술한 바와 같이 미리 임베딩 모델을 통하여 생성되어 DB에 관리될 수 있으며 또는 실시간으로 요구된 입력 형식에 따라 특허 문헌 DB로부터 특허 문헌 별 텍스트를 분할함으로써 임베딩 벡터를 산출하는 것도 가능하다.
이하 본 실시예에 따른 임베딩 벡터를 산출하는 임베딩 모델에 대하여 도면을 참조하여 보다 상세히 설명한다.
먼저 도 4를 참조하면 특허 문헌을 하나의 단위로 제1 임베딩 벡터를 출력하는 제1 임베딩 모델(322)은 입력된 특허 문헌 전체에 내재된 특징을 특허 문헌들의 특징들을 정의하는 특징 공간 내의 값으로 임베딩 하여 벡터화 할 수 있다. 보다 구체적으로, 제1 임베딩 모델(322)은 특허 문헌들이 유사할수록 해당 특허문헌들의 임베딩 벡터들이 특징 공간 내에 더 가까이 위치하도록 임베딩 벡터들의 값을 결정할 수 있다.
따라서, 본 실시예에 따른 쿼리 특허 문헌과 선행 특허 문헌 간의 유사 판단은 특허 문헌의 의미를 함축하는 수치 값의 벡터 연산을 통해 직관적으로 수행될 수 있다.
또한, 도 5를 참조하면 특허 문헌을 하위 문서 단위(예를 들어, 문장 단위)로 제2 임베딩 벡터를 출력하는 제2 임베딩 모델(324)은 특허 문헌들을 각각의 문장으로 구분한 문장 텍스트들을 입력으로 특허 문헌을 문장 별로 벡터화할 수 있다. 즉 제2 임베딩 모델(324)은 하나의 특허 문헌에 대하여 복수의 벡터 값들을 추출할 수 있으며 쿼리 특허 문헌과 선행 특허 문헌 간 복수의 벡터값들을 근거로 보다 상세 화된 유사도 판단이 가능하도록 한다.
이때, 제2 임베딩 모델(324)의 입력을 위하여 특허 문헌을 제2 임베딩 모델(324)에서 처리할 수 있는 하위 문서 단위로 각각의 단위 텍스트로 분할하는 전처리 과정을 수행할 수 있으며, 전처리된 단위 텍스트들을제2 임베딩 모델(324)에 각각 입력함으로써 특허 문장들의 특징이 정의되는 특징 공간 내의 값으로 벡터화할 수 있다.
전처리 과정은 미리 결정된 규칙(예를 들어, 마침표 (.) 또는 세미콜론 (;)의 위치)에 따라 또는 의미론적으로 텍스트를 분할하는 방식으로 수행될 수 있다.
이때, 본 실시예에 따른 임베딩 과정은 공통된 기술적 사상을 갖는 특허 문헌의 문장과 문장으로 구성된 문단 또는 문단과 문단으로 구성되는 문서의 계층적인 구조에 따라 각각 수행되므로 임베딩 벡터를 추출하는 모델 역시 계층적인 구조를 가지도록 구현할 수 있다.
예를 들어, 본 실시예에 따른 제1 임베딩 모델(322)은, 특허 문헌 내 문장에 대한 제2 임베딩 모델(324)의 출력을 통합함으로써 고차원의 제1 임베딩 벡터를 추출하도록 구성될 수 있다.
도 6을 참조하면, 상술한 바와 같이 특허 문헌 텍스트 들은 분할하는 전처리 과정을 통해 하위 문서 (예를 들어, 문장)단위의 복수의 제1 스트링으로 구분될 수 있으며 복수의 제1 스트링들에 대한 임베딩을 수행하는 제2 임베딩 모델(324)에 각각 입력될 수 있다.
문장 단위의 임베딩을 수행하는 제2 임베딩 모델(324)은 입력된 제1 스트링에 대한 각각의 제2 임베딩 벡터를 출력할 수 있다. 출력된 제2 임베딩 벡터들은 인코더 (예를 들어, 트랜스포머(Transformer) 또는 다른 형태의 신경망)를 통해 통합되며, 인코더는 다시 복수의 제2 임베딩 벡터들을 함축한 형태의 제1 임베딩 벡터를 출력할 수 있다.
이때, 인코더에 입력되는 제2 임베딩 벡터들은 문장과 문장 간의 관계를 고려하여 전체 문서의 맥락에서 내재된 의미를 잃어버리지 않도록 문서내의 위치 정보들을 추가로 포함할 수 있으며 인코더는 제2 임베딩 벡터의 값 및 상호 관계에 따라 내재된 의미를 제1 임베딩 벡터로 출력할 수 있다.
또한, 제2 임베딩 모델(324)은 상술한 바와 같이 문장 단위의 의미를 벡터화하여 출력함으로써 더 작은 단위의 하위 문서(예를 들어, 단어 또는 단어를 분할한 토큰) 단위의 복수의 제2 스트링으로부터 제1 스트링의 의미를 추출하는 제3 임베딩 모델(326)을 이용하여 제2 임베딩 벡터를 출력하도록 구성될 수 있다.
도 7을 참조하면 특허 문헌에 대하여 추출된 제1 스트링은 다시 복수의 제2 스트링으로 구분될 수 있으며 제2 스트링들은 예를 들어 단어 단위의 임베딩 벡터를 출력하는 제3 임베딩 모델(326)에 입력되어 각각의 제3 임베딩 벡터로 출력될 수 있다.
제3 임베딩 벡터는 제1 스트링 내 각 제2 스트링들의 위치 정보를 포함하고 있으며, 따라서 위치 정보와 벡터 고유의 값을 통하여 인코더는 문장의 의미를 축약한 제2 임베딩 벡터로 출력할 수 있다.
도 8을 참고하면 본 실시예에 따른 임베딩 모델들은 문서의 계층적인 구조에 대응하여 최상위의 문서 단위의 특허 문헌에 대한 제1 임베딩 벡터를 출력하는 제1 임베딩 모델은 보다 작은 단위 (예를 들어, 문단)의 텍스트에 대한 제2 임베딩 벡터를 출력하는 제2 임베딩 모델을 포함할 수 있다.제2 임베딩 모델 역시 보다 작은 단위 (예를 들어, 문장)의 텍스트에 대한 제 N 임베딩 벡터를 출력하는 제N 임베딩 모델을 포함할 수 있다. 이와 같이 도 8의 신경망 모델은계층적 구조를 통해 단어, 문장, 및 문단 단위의 텍스트를 임베딩 시킬 수 있다.
제1 및 제2 임베딩 모델은 구조적인 측면에서 유사하나, 입력될 수 있는 텍스트의 크기에 차이가 있으며, 예를 들어 제1 임베딩 모델(322)은 문단 이상의 텍스트를 임베딩 시키기 위하여 제2 임베딩 모델(324)의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 제1 임베딩 벡터를 생성할 수 있다. 예를 들어, 제2 임베딩 모델이 기본 BERT(Bidirectional Encoder Representations from Transformers) 모델(base BERT model)로써, 최대 토큰화 개수가 512인 경우, 512개의 토큰을 포함하는 M개의 문장을 제2 임베딩 모델을 통과 시켜 N개의 제2 임베딩 벡터를 구하고, 이를 다시 제1 임베딩 모델에 입력시킬 수 있다. 이 경우, 제1 및 제2 임베딩 모델들의 최대 토큰화 개수는 각각 N * 512 및 512 (N은 2이상의 정수)가 될 수 있다.
따라서, 임베딩 모델들의 토큰화 개수 간의 관계는 아래의 수학식으로 표현될 수 있다.
[수학식]
TL1 > N * TL2,
여기서 N은 2이상의 자연수, TL1은 제1 임베딩 모델의 최대 토큰화 개수, TL2는 제2 임베딩 모델의 최대 토큰화 개수이다.
각각의 임베딩 모델은 입력된 텍스트들의 내용이 유사할 수록 임베딩된 벡터 값이 유사하도록 학습될 수 있으며 계층적인 구조에 따라 하위 계층의 학습 결과를 상위 계층으로 전파하도록 함으로써 상위 계층의 의미를 보다 정확히 파악하도록 학습될 수 있다.
또는 제1 임베딩 모델은 제2 임베딩 모델을 포함하지 않고 독립적으로 학습되어 제공될 수 있다. 예를 들어, 제1 임베딩 모델은 최대 토큰화 개수가 큰 롱포머(longformer) 또는 빅버드(BigBird)와 같이 큰 최대 토큰화 개수 (예를 들어, 4096)를 갖는 BERT 기반 모델일 수 있다.
다음 서버(300)는 제1 및 제2 임베딩 벡터들을 근거로 특허 문헌들간의 유사도를 산출한다(S300).
본 실시예에 따른 유사도 산출 방법에 대해서는 도 9 이하를 참고하여 보다 상세히 설명한다.
도 9를 참조하면 상술한 바와 같이 입력된 쿼리 정보로부터 추출된 쿼리 특허 문헌과 검색 조건을 만족하는 선행 특허 문헌들로 제1 후보 특허 문헌 리스트를 생성하고, 제1 후보 특허 문헌 리스트 내 특허 문헌들 각각의 제1 임베딩 벡터들을 근거로 제1 유사도를 산출한다(S1000).
도 10을 참조하면 각 문헌 간의 유사도는 상술한 문서 단위의 제1 임베딩 벡터를 기초로 산출될 수 있다.
본 실시예에 따른 제1 유사도 판단 모델(332)은 쿼리 특허 문헌과 제1 후보 특허 리스트 내 복수의 선행 특허 문헌의 제1 임베딩 벡터들을 제1 임베딩 DB(314)로부터 추출하고, 제1 임베딩 벡터들로 구성된 제1 임베딩 벡터 집합을 근거로 두 문서의 유사도를 판단한다.  예를 들어, 제1 유사도 판단 모델 (332)은 쿼리 특허 문헌 및 선행문헌의 제1 임베딩 벡터들간의 유클리디안(Euclidean) 거리, 맨하탄 (Manhattan)거리, 마할라노비스 (Mahalanobis) 거리, 상관계수 (Correlation) 거리 중 적어도 하나를 근거로 두 문서 간의 유사도를 판단할 수 있다.
또한, 본 실시예에 따른 유사도 판단 모델은 상술한 바와 같이 문서-문장 구조에 대하여 계층적으로 추출된 임베딩 벡터를 이용하여 순차적으로 유사도를 판단하는 모델 네트워크를 구현하고 유사도를 산출하는 것도 가능하다.
도 11을 참고하면, 쿼리 정보 내 검색 조건에 따라 특허 문헌 DB(312)에서 추출된 제1 후보 특허 문헌 리스트 내 선행 특허 문헌과 쿼리 특허 문헌 간의 제1 유사도를 통하여 임계값 이상의 유사도를 갖는 선행 특허 문헌들의 집합으로 제2 후보 특허 리스트를 추출할 수 있다(S2000).
이어서 제2 후보 특허 리스트 내 선행 특허 문헌들과 쿼리 문헌 간의 문장 레벨의 유사도를 산출하기 위하여 해당 특허에 대한 제2 임베딩 벡터를 제2 임베딩 벡터 DB(316)로부터 추출할 수 있다.
쿼리 특허 문헌과 제2 후보 특허 리스트 내 선행 특허들 간의 제2 임베딩 벡터들로 구성된 제2 임베딩 벡터 집합을 제2 유사도 판단 모델(334)에 제공하고, 제2 유사도 판단 모델(334)은 쿼리 특허 문헌의 문장으로부터 추출된 임베딩 벡터와 선행 특허들의 문장 단위의 각각의 제2 임베딩 벡터들을 근거로 제2 유사도를 산출한다(S3000).
이어서 산출된 제2 유사도를 통하여 상기 제2 후보 특허 문헌 리스트 내 유사 특허 문헌을 제3 후보 특허 리스트로 제공할 수 있다(S4000).
다만, 본 실시예에서 문장 단위의 제2 임베딩 벡터 간의 유사도를 산출함에 있어서 쿼리 특허 문헌의 전체 문장 대신 쿼리 특허 문헌의 특정 문장을 유사도 판단 기준으로 이용함으로써 보다 효율적인 비교를 수행할 수 있다.
즉, 본 실시예에서 이용되는 쿼리 특허 문헌의 제2 임베딩 벡터는 쿼리 특허 문헌의 청구항을 각각의 구성으로 분할한 구성 요소 별 임베딩 벡터일 수 있다.
따라서 도 12를 참조하면 상술한 실시예에서 쿼리 특허 문헌의 구성 요소 별 임베딩 벡터로서 제2 임베딩 벡터를 제2 임베딩 벡터 DB(316)로부터 추출하는 대신, 쿼리 특허 문헌의 청구항을 특허 문헌 DB(312)로부터 추출하고 추출된 청구항에 대하여 문장 단위의 임베딩 벡터를 추출하는 제2 임베딩 모델(322)에 입력할 수 있다.
제2 임베딩 모델(322)은 쿼리 특허 문헌의 청구항을 문장 단위로 구분하여 제2-1 임베딩 벡터를 추출할 수 있다.
이어서 제2 유사도 판단 모델(332)은 쿼리 특허 문헌의 청구항에 대한 제2-1 임베딩 벡터와 제2 후보 특허 리스트 내 선행 특허 문헌의 각 문장들에 대한 제2-2 임베딩 벡터 들로 구성된 제2 임베딩 벡터 집합을 근거로 제2 유사도를 산출할 수 있다
구체적으로 제2 유사도 판단 모델(332)은 복수의 제2-2 임베딩 벡터 중 청구항에 대한 제2-1 임베딩 벡터와 가장 유사한 임베딩 벡터를 확인하고, 가장 유사한 임베딩 벡터와의 유사도를 최종 유사도로 산출할 수 있다.
또는 사용자로부터 입력된 임계값 이상의 유사도를 갖는 임베딩 벡터들의 유사도의 평균을 최종 유사도로 산출하는 것도 가능하다.
이때 제2 유사도 판단 모델(332)은 최종 유사도 산출에 이용된 임베딩 벡터에 대응하는 문장의 선행 특허 문헌 내 위치를 매핑 정보로 리턴 함으로써 사용자에게 유사도 판단의 근거가 되는 텍스트의 내용을 직접 확인할 수 있도록 하는 것도 가능하다.
또한, 해당 문장을 포함하는 문단 전체를 단위로 사용자에게 제공함으로써 사용자는 문단 내 문장의 의미를 맥락을 통해 더욱 정확히 판단할 수 있도록 하는 것도 가능하다.특허 문헌의 분석 목적상 쿼리 특허의 무효 가능성 또는 등록 가능성을 판단하는 경우 청구항을 기초로 유사한 선행 특허 문헌들을 검색하여 추출할 필요가 있으므로 본 실시예에서는 쿼리 특허 문헌의 청구항에 대한 제2-1 임베딩 벡터를 근거로 유사한 선행 특허 문헌들의 텍스트들을 확인 및 추출함으로써 보다 효율적인 특허 분석을 수행할 수 있도록 한다. 특히, 실무상 청구항의 모든 구성요소별로 클레임 차트를 작성하고, 이를 바탕으로 특허법상 신규성 및 침해 판단을 수행하므로, 제2-1 임베딩 벡터를 통해 실제 특허법적인 판단에 가까운 추론이 수행될 수 있다.
나아가, 본 실시예에서는 유사 특허 문헌의 추출의 기준이 되는 쿼리 특허의 청구항의 구성과 같은 키워드에 대하여 사용자로부터 중요도나 가중치와 같은 정보를 추가적으로 입력 받고 제2 유사도의 산출에 이용하는 것도 가능하다.
도 13을 참고하면, 본 실시예에서는 쿼리 특허 문헌의 특정 단어 또는 문장으로 정의되는 키워드 및 이의 가중치와 제2 후보 특허 리스트 내 각 선행 특허 문헌 내에서 대응되는 키워드들의 등장 횟수를 근거로 제3 유사도를 판단하는 제3 유사도 판단 모델(336)을 추가적으로 이용하는 것도 가능하다.
본 실시예에서 키워드는 단어 뿐만 아니라 두개 이상의 단어로 구성된 구(phrase) 또는 절(clause)을 단위로 설정될 수 있다. 또는 문장이나 문장으로 구성된 단락으로 설정되어 설정된 키워드를 기준으로 등장 횟수를 카운팅할 수 있다.
제3 유사도 판단 모델(336)은 쿼리 특허의 N개의 키워드 및 키워드에 대한 가중치와, 제2 후보 특허 리스트 내 n개의 후보 특허들의 키워드 집합을 입력으로 쿼리 특허의 키워드에 대응하는 후보 특허 키워드의 문헌 내 등장 횟수와 가중치에 근거한 제3 유사도를 산출한다.
따라서, 선행문헌 별로 제2 임베딩 벡터를 기초로 산출된 제2 유사도와 각 선행 특허 문헌 내에서 키워드의 등장 횟수에 따라 산출된 제3 유사도를 유사도 판단에 반영함으로써 최종적으로 제3 후보 특허 리스트를 생성하고 제3 후보 특허 리스트 내 유사 특허 문헌들을 사용자에게 제공할 수 있다.
또는 사용자의 의도를 반영하는 다른 실시예로 쿼리 특허 문헌의 문장에 대하여 사용자가 설정한 키워드 별 가중치를 제2 유사도 값에 반영함으로써 제2 유사도를 보정하고, 보정된 제2 유사도를 근거로 사용자의 의도에 기반한 특허 문헌 들을 제3 후보 특허 리스트로 제공하는 것도 가능하다.
나아가, 본 실시예에서 유사 특허 문헌 정보에는 유사 특허 문헌의 식별 값 외에도 유사도 판단의 근거가 된 매핑 정보도 포함할 수 있다. 매핑 정보는 쿼리 특허 문헌의 문장들과 유사한 유사문장들에 관한 정보로서 예를 들어 쿼리 특허 문헌의 청구항의 제1 구성과 가장 유사한한 개 또는 N개의 문장의 특허 문헌 내 위치와 함께 실제 문장의 내용 및 유사도에 대한 판단 정보를 포함할 수 있다.
또한, 본 실시예에 따라 순차적인 추출 과정으로 유사 특허 문헌을 추출하는 유사도 판단 모델은 하나의 통합된 유사도 모델로 구현되는 것도 가능하다.
즉, 하나의 신경망 네트워크가 두 특허 문헌의 문장 임베딩 벡터들의 집합 및 문서 임베딩 벡터들의 집합을 입력 받고 이들을 근거로 두 문헌 간의 유사도를 판단할 수 있다.
도 14를 참고하면, 상술한 쿼리 특허 문헌 및 선행 특허 문헌 간의 제1 임베딩 벡터 집합과 제2 임베딩 벡터 집합 간의 유사도 산출과정을 병렬적으로 수행하고 각각의 유사도 판단 결과를 평균 또는 가중합 함으로써 최종 유사도를 산출하여 유사 특허 문헌을 사용자에게 제공하는 것도 가능하다.
이때, 하나의 유사도 모델로 구현된 유사도 판단 모델의 입력에는 양 특허 문헌의 실제 텍스트 정보들을 동시에 크로스 인코딩(cross-encoding) 형태로 입력함으로써 유사도를 산출할 수 있도록 구현될 수 있다.
이하, 본 실시예에 따른 유사도 판단 모델의 학습 방법에 대하여 설명한다.
본 실시예에 따른 유사도 판단 모델은 임베딩 벡터 값을 직접 이용하여 벡터 간의 내적이나 유클리디안 거리로써 특징 공간 내에서 정의되는 벡터 연산 기반의 유사도를 판단하는 것 외에 임베딩 벡터들을 학습된 신경망에 입력함으로써 보다 정확한 유사도를 산출하는 것도 가능하다.
따라서 유사도 판단 모델은 학습을 위해 임베딩 벡터 간의 유사도가 레이블링된 데이터를 이용하여 학습될 수 있으며 본 실시예에서는 유사도 판단 모델의 학습을 위하여 상대적인 유사도 값이 레이블링된 학습 데이터를 쌍으로 경쟁적인 학습을 수행한다.
도 15를 참고하면 본 실시예에서 학습 데이터로 기준 특허 문헌과 유사한 것으로 판단된 포지티브(Positive) 샘플과 비 유사한 것으로 판단된 네거티브(Negative) 샘플을 쌍으로 이용할 수 있다. 즉, 특허 문헌과 유사한 유사 문헌에 대한 제1 레이블 값을 갖는 포지티브 샘플과 특허 문헌과 일부 또는 비 유사한 유사 문헌에 대한 제2 레이블 값을 네거티브 샘플로 이용하되 제1 레이블 값이 제2 레이블 값보다 크도록 레이블링함으로써 학습 데이터를 생성한다(S10)
이어서 레이블 값과 샘플을 유사도 판단 모델에 제공하고(S20) 유사도 판단 모델이 포지티브 및 네거티브 샘플을 근거로 학습할 수 있도록 한다(S30).
구체적으로 유사도 판단 모델은 특허 문헌과 유사 문헌의 임베딩 벡터를 기초로 유사도를 판단하되, 유사 문헌에 대하여 산출되는 유사도 값이 제1 레이블 값과의 오차가 작아지도록 학습하되 비 유사 문헌에 대하여는 제2 레이블 값과의 오차가 작아지도록 내부 레이어들을 학습시킬 수 있다
또한, 본 실시예에서는 보다 정확한 유사도의 판단을 위해 샘플을 단계적으로 인형태로 구분할 수 있으며 각 단계에 따라 레이블 값을 순차적으로 구성함으로써 유사도 판단 모델의 내부 레이어들을 학습시킬 수 있다.
이때, 학습을 위한 샘플의 구분을 위하여 본 실시예에서는 특허 문헌의 행정적인 행정 이력을 참조하여 이용할 수 있다.
특허 기술의 경우 문헌에 기재된 내용을 기초로 각 국의 특허청의 심사관을 통해 특허성을 심사하며 이와 같은 과정에서 심사관으로부터 유사/비유사한 것으로 판단을 받은 문헌들을 포지티브/네거티브 샘플로 이용함으로써 보다 공적인 판단 결과를 유사도 판단 모델이 학습하도록 할 수 있다.
또한, 심사과정 외에도 특허 문헌이 등록된 이후의 무효 심판(소송)에 따라 무효되는 경우에 인용된 선행 특허 문헌들을 포지티브 샘플로 이용하는 것도 가능하다.그 외에도 학습 데이터의 생성을 위해 레이블링되는 레이블 값들은 심사/소송 결과 외에도 특허를 출원함에 있어서 발명자가 제출한 선행 특허 문헌 정보(미국의 IDS(Information Disclosure Statement))를 별도로 그룹화함으로써 생성될 수 있으며, 이와 함께 심사관의 특허성 판단에 이용된 특허 요건을 참고하여 예를 들어 한국 특허의 진보성(특허법 제29조제2항 또는 미국 특허법 제103조 등의 위반)인 경우와 신규성(한국 특허법 제29조제1항 또는 미국 특허법 제102조 등의 위반)인 경우를 구분하여 레이블링 하는 것도 가능하다.따라서, 특허의 관련 기록으로서 출원 과정의 포대 정보, 심판 기록, 소송기록 등을 모두 포함하는 행정 이력을 토대로 설계된 샘플들의 설계 행렬(Design Matrix)은 이원화된 포지티브 및 네거티브의 레이블 뿐만 아니라 유사도에 따라 3개 이상의 레이블로 나뉘어 질 수 있다.
예를 들어, 설계 행렬은 두 문서/문장의 유사도에 따라 포지티브 샘플 외 네거티브 샘플을 하드-네거티브(hard-negative), 네거티브, 익스트림 네거티브(extreme-negative)와 같은 형태의 4개의 레이블로 구분될 수 있다.
포지티브 샘플은 특허청, 심판원, 또는 법원이 특허에 대한 거절이유 또는 무효사유의 근거로 인용한 인용 문헌 중 적어도 어느 하나인 것으로 동일성 판단으로 인용된 선행 특허 문헌일 수 있다.
구체적으로 행정 이력 상 거절이유 또는 무효 사유가 신규성 흠결, 선원주의 및 확대된 선원주의 위반, 및 미국 특허법 102조 위반이며, 이때 인용된 선행 문헌을 포지티브 샘플로 생성할 수 있다.
반면 네거티브 샘플의 경우 일부 유사한 일부 유사 특허 문헌으로 하드 네그티브 샘플에 해당하는 것으로 타겟 특허가 진보성 흠결의 이유로 거절 또는 무효된 경우 인용된 문헌일 수 있다.
나아가 네거티브 샘플은 실제 거절/무효 사유에 직접적인 인용은 없으나, 출원인이 IDS(Information Disclosure Statement) 등을 통해 직접 발명에 참고한 문헌들일 수 있으며, 또는 보다 확장하여 기술 분야를 기준으로 예를 들어 IPC 코드를 참고하여 동일한 분야의 임의의 특허 문헌을 샘플로 이용할 수 있다.
반면, 익스트림 네거티브 샘플은 기술 분야가 전혀 상이한 특허 문헌을 이용할 수 있다.
또한, 본 실시예에서는 다양한 학습 데이터의 확보를 위하여 동일 특허 문헌 내의 문장들을 기초로 학습 데이터를 생성하는 것도 가능하다. 예를 들어 동일 특허 문헌에서 동일한 문단 내의 문장들 간은 상호 포지티브 샘플로써 이용하도록 하며 다른 문단 내의 문장들에 비하여 높은 유사도를 산출하도록 학습될 수 있다.
또는, 특허 문헌의 특성상 동일 실시예로 판단되는 청구항의 독립항 그룹별로 독립항과 종속항의 구성들을 포지티브 샘플로 이용하여 학습 시키는 것도 가능하다.
또한, 학습 데이터의 증강으로 동일 문장에 대하여 원본 문장과 일부 의도적인 손실(Drop-out)을 통하여 포지티브 샘플을 생성하는 것도 가능하다.
이상 본 발명의 일 실시예에 따른 유사도 판단 방법을 수행하는 서버(300)의 구체적인 하드웨어 구현에 대하여 설명한다.
도 16을 참조하면, 본 발명의 몇몇 실시예들에 서버(300)는 컴퓨팅 장치의 형태로 구현될 수 있다. 서버(300)를 구성하는 각각의 모듈 중 하나 이상은 범용 컴퓨팅 프로세서 상에서 구현되며 따라서 프로세서(processor)(202), 입출력 I/O(204), 메모리 장치(memory)(306), 인터페이스(interface)(308), 스토리지(312) 및 버스(314, bus)를 포함할 수 있다. 프로세서(202), 입출력 I/O(304), 메모리 장치(306) 및/또는 인터페이스(308)는 버스(314)를 통하여 서로 결합될 수 있다. 버스(314)는 데이터들이 이동되는 통로(path)에 해당한다.
구체적으로, 프로세서(302)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), 마이크로프로세서, 디지털 신호 프로세스, 마이크로컨트롤러, 어플리케이션 프로세서(AP, application processor) 및 이들과 유사한 기능을 수행할 수 있는 논리 소자들 중에서 적어도 하나를 포함할 수 있다.
입출력 I/O 장치(304)는 키패드(keypad), 키보드, 터치스크린 및 디스플레이 장치 중 적어도 하나를 포함할 수 있다. 메모리 장치(306)는 데이터 및/또는 프로그램 등을 저장할 수 있다.
인터페이스(308)는 통신 네트워크로 데이터를 전송하거나 통신 네트워크로부터 데이터를 수신하는 기능을 수행할 수 있다. 인터페이스(308)는 유선 또는 무선 형태일 수 있다. 예컨대, 인터페이스(308)는 안테나 또는 유무선 트랜시버 등을 포함할 수 있다. 도시하지 않았지만, 메모리 장치(306)는 프로세서(302)의 동작을 향상시키기 위한 동작 메모리로서, 고속의 디램 및/또는 에스램 등을 더 포함할 수도 있다.
내부의 스토리지(312)는 여기에 설명된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 상술한 유사도 판단 방법의 선택된 양태들을 수행하도록 하는 로직을 포함할 수 있다.
메모리 장치(306)는 스토리지(312)에 저장된 상술한 유사도 판단 방법을 수행하는 각 단계를 포함하는 명령어들의 집합으로 프로그램 또는 어플리케이션을 로드하고 프로세서가 각 단계를 수행할 수 있도록 한다.
이상 본 발명에 따르면, 신경망 모델이 특허 문헌과 특허 문헌에 대한 판단 자료를 학습하도록 함으로써 특허 분석에 소요되는 비용을 간소화하고 보다 신속한 의사 결정을 지원할 수 있다.
구체적으로 학습된 모델을 이용하여 신규 개발 기술의 배경 기술을 조사하거나 또는 대상 특허를 무효시킬 수 있는 특허 문헌을 조사한 결과를 제공할 수 있다.
또한, 특정 특허를 침해하는 타인의 실시 기술을 조사하거나 또는 특정 기술 사용 시 침해할 위험이 있는 타인의 특허를 조사한 결과를 제공할 수 있다.
나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (19)

  1. 임베딩 벡터 기반의 특허 문헌들간 유사도 산출 방법에 있어서,
    상기 특허 문헌들 각각의 제1 임베딩 벡터들 및 제2 임베딩 벡터들을 입력 받는 단계; 및
    상기 제1 및 제2 임베딩 벡터들을 근거로 상기 특허 문헌들간의 유사도를 산출하는 단계를 포함하고,
    상기 제1 및 제2 임베딩 벡터들은 제1 및 제2 임베딩 모델들을 이용하여 각각 임베딩 되며,
    상기 제1 임베딩 모델은 상기 제2 임베딩 모델의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 상기 제1 임베딩 벡터를 생성하는 것을 특징으로 하는 유사도 산출 방법.
  2. 제 1 항에 있어서,
    TL1 > N * TL2이며,
    여기서 N은 2이상의 자연수, TL1은 제1 임베딩 모델의 최대 토큰화 개수, TL2는 제2 임베딩 모델의 최대 토큰화 개수인 것을 특징으로 하는 유사도 산출 방법.
  3. 제 1 항에 있어서,
    상기 특허 문헌들은 유사도 판단의 기준이 되는 제1 특허 문헌을 포함하고,
    상기 제2 임베딩 벡터들은 상기 제1 특허 문헌의 청구항을 임베딩한 제2-1 임베딩 벡터를 포함하는 것을 특징으로 하는 유사도 산출방법.
  4. 제 3 항에 있어서,
    상기 제1 특허 문헌의 청구항은 복수의 구성 요소들을 포함하고
    상기 제2-1 임베딩 벡터는 상기 구성 요소들 중 적어도 어느 하나를 근거로 임베딩한 구성 요소 별 임베딩 벡터인 것을 특징으로 하는 유사도 산출 방법.
  5. 제 4 항에 있어서,
    상기 특허문헌들은 제1 특허 문헌과 유사도 판단의 대상이 되는 제2 특허 문헌을 포함하고,
    상기 제2 임베딩 벡터들은 상기 제2 특허 문헌의 문장들을 각각 임베딩한 복수의 제2-2 임베딩 벡터를 포함하고,
    상기 유사도를 산출하는 단계는,
    복수의 제2-2 임베딩 벡터와 상기 구성 요소 별 임베딩 벡터를 비교하여 유사도를 산출하는 것을 특징으로 하는 유사도 산출 방법.
  6. 제5 항에 있어서,
    상기 유사도를 산출하는 단계는,
    상기 복수의 제2-2 임베딩 벡터 중 상기 각 구성 요소 별 임베딩 벡터와 가장 유사한 임베딩 벡터를 확인하는 것을 특징으로 하는 유사도 산출 방법.
  7. 제 5 항에 있어서,
    상기 유사도를 산출하는 단계는,
    상기 특허 문헌과 유사한 유사 문헌의 제1 레이블 값 및 상기 특허 문헌과 일부 또는 비 유사한 유사 문헌에 대한 제2 레이블 값을 이용하여 학습된 유사도 판단 모델을 이용하여 유사도를 산출하되,
    상기 제2 레이블 값은 상기 제1 레이블 값 보다 작은 것을 특징으로 하는 유사도 산출 방법.
  8. 임베딩 벡터 기반의 유사 특허 문헌 검색 방법에 있어서,
    쿼리 특허 문헌과, 검색 조건을 만족하는 제1 후보 특허 문헌 리스트 내 특허 문헌들 각각의 제1 임베딩 벡터들을 근거로 제1 유사도를 산출하는 단계;
    상기 산출된 제1 유사도를 통하여 제1 후보 특허 문헌 리스트로부터 제2 후보 특허 문헌 리스트를 추출하는 단계;
    상기 쿼리 특허 문헌과 상기 제2 후보 특허 문헌 리스트 내 특허 문헌들 각각의 제2 임베딩 벡터들을 근거로 제2 유사도를 산출하는 단계; 및
    상기 산출된 제2 유사도를 통하여 상기 제2 후보 특허 문헌 리스트 내 유사 특허 문헌을 제공하는 단계를 포함하고,
    상기 제1 및 제2 임베딩 벡터들은 제1 및 제2 임베딩 모델들을 이용하여 각각 임베딩 되며,
    상기 제1 임베딩 모델은 상기 제2 임베딩 모델의 최대 토큰화 개수보다 많은 개수의 토큰을 근거로 상기 제1 임베딩 벡터를 생성하는 것을 특징으로 하는 유사 특허 문헌 검색 방법.
  9. 제 8 항에 있어서,
    상기 쿼리 특허 문헌의 청구항은 복수의 구성 요소들을 포함하고
    상기 쿼리 특허 문헌의 제2-1 임베딩 벡터는 상기 구성 요소들 중 적어도 어느 하나를 근거로 임베딩한 임베딩 벡터인 것을 특징으로 하는 유사 특허 문헌 검색 방법.
  10. 제 9 항에 있어서,
    상기 제2 유사도를 산출하는 단계는,
    상기 제2 후보 특허 문헌 리스트 내 특허 문헌들의 문장을 각각 임베딩한 복수의 제2-2 임베딩 벡터와 상기 제2-1 임베딩 벡터를 비교하여 유사도를 산출하는 것을 특징으로 하는 유사도 산출 방법.
  11. 특허 문헌의 유사도를 산출하는 유사도 판단 모델의 학습 방법에 있어서,
    제1 샘플 및 제2 샘플을 상기 유사도 판단 모델에 제공하는 단계; 및
    상기 유사도 판단 모델이 상기 제1 및 제2 샘플을 근거로 출력한 유사도 값과 제1 및 제2 샘플의 레이블링 값을 비교하여 학습하는 단계를 포함하고,
    상기 제1 샘플은 타겟 특허 문헌에 대한 타겟 특허 문헌 정보, 상기 타겟 특허와 유사한 유사 문헌에 대한 제1 문헌 정보, 및 제1 레이블 값을 포함하며,
    상기 제2 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 일부 또는 비 유사한 특허 문헌에 대한 제2 문헌 정보, 및 제2 레이블 값을 포함하며,
    상기 제2 레이블 값은 상기 제1 레이블 값 보다 작은 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  12. 제 11 항에 있어서,
    제2 샘플은 제2-1 샘플을 포함하고,
    상기 제2-1 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 같은 기술분야에 속하는 임의의 특허 문헌에 대한 제3 문헌 정보, 및 제3 레이블 값을 포함하며,
    상기 제3 레이블 값은 상기 제2 레이블 값보다 작은 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  13. 제 12 항에 있어서,
    제2 샘플은 제2-2 샘플을 포함하고,
    상기 제2-2 샘플은 상기 타겟 특허 문헌 정보, 상기 타겟 특허와 다른 기술분야에 속하는 임의의 특허 문헌에 대한 제4  문헌 정보, 및 제4 레이블 값을 포함하며,
    상기 제4 레이블 값은 상기 제3 레이블 값보다 작은 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  14. 제 11 항에 있어서,
    상기 비 유사한 비 유사 특허 문헌은 상기 타겟 특허의 행정 이력에는 포함되었으나,
    상기 타겟 특허에 대한 특정한 거절이유 또는 무효사유의 근거로 인용되지 않은 문헌인 것을 특징으로 하는 유사도 판단 모델의 학습 방법
  15. 제 11 항에 있어서,
    상기 유사한 유사 특허 문헌은 특허청, 심판원, 또는 법원이 상기 타겟 특허에 대한 거절이유 또는 무효사유의 근거로 인용한 인용 문헌 중 적어도 어느 하나인 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  16. 제 15 항에 있어서,
    상기 거절이유 또는 무효 사유는 신규성 흠결, 선원주의 및 확대된 선원주의 위반, 및 미국 특허법 102조 위반 중 적어도 어느 하나인 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  17. 제 11 항에 있어서,
    상기 일부 유사한 일부 유사 특허 문헌은 상기 타겟 특허가 진보성 흠결의 이유로 거절 또는 무효된 경우 인용된 문헌인 것을 특징으로 하는 유사도 판단 모델의 학습 방법. 
  18. 제 11 항에 있어서,
    상기 일부 유사한 일부 유사 특허 문헌은 IDS(Information Disclosure Statement)에 포함된 문헌인 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
  19. 제 11 항에 있어서,
    상기 타겟 특허 문헌 정보는 상기 타겟 특허의 하나 이상의 독립 청구항만을 근거로 생성된 것을 특징으로 하는 유사도 판단 모델의 학습 방법.
PCT/KR2023/004594 2022-04-05 2023-04-05 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 WO2023195769A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2022-0042194 2022-04-05
KR20220042194 2022-04-05
KR10-2022-0042213 2022-04-05
KR20220042213 2022-04-05
KR10-2022-0056072 2022-05-06
KR1020220056072A KR102606352B1 (ko) 2022-04-05 2022-05-06 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치

Publications (1)

Publication Number Publication Date
WO2023195769A1 true WO2023195769A1 (ko) 2023-10-12

Family

ID=88243215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/004594 WO2023195769A1 (ko) 2022-04-05 2023-04-05 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치

Country Status (2)

Country Link
KR (1) KR20230163983A (ko)
WO (1) WO2023195769A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316371A (zh) * 2023-11-29 2023-12-29 杭州未名信科科技有限公司 病例报告表的生成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040402A (ja) * 2017-08-25 2019-03-14 和之 白井 特許要件適否予測装置および特許要件適否予測プログラム
KR20200106108A (ko) * 2019-02-25 2020-09-11 이진원 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템
KR20210039917A (ko) * 2020-03-20 2021-04-12 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템
KR20210053539A (ko) * 2019-11-04 2021-05-12 한국전자통신연구원 특허 신규성 판단 시스템 및 방법
KR102330190B1 (ko) * 2019-07-02 2021-11-23 국민대학교산학협력단 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040402A (ja) * 2017-08-25 2019-03-14 和之 白井 特許要件適否予測装置および特許要件適否予測プログラム
KR20200106108A (ko) * 2019-02-25 2020-09-11 이진원 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템
KR102330190B1 (ko) * 2019-07-02 2021-11-23 국민대학교산학협력단 복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 장치 및 방법
KR20210053539A (ko) * 2019-11-04 2021-05-12 한국전자통신연구원 특허 신규성 판단 시스템 및 방법
KR20210039917A (ko) * 2020-03-20 2021-04-12 (주)디앤아이파비스 인공지능 모델을 이용한 특허문서의 유사도 판단 방법, 장치 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316371A (zh) * 2023-11-29 2023-12-29 杭州未名信科科技有限公司 病例报告表的生成方法、装置、电子设备和存储介质
CN117316371B (zh) * 2023-11-29 2024-04-16 杭州未名信科科技有限公司 病例报告表的生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
KR20230163983A (ko) 2023-12-01

Similar Documents

Publication Publication Date Title
Dehkharghani et al. SentiTurkNet: a Turkish polarity lexicon for sentiment analysis
JP5356197B2 (ja) 単語意味関係抽出装置
WO2010036013A2 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
WO2023195769A1 (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
WO2013002436A1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
Golshan et al. A study of recent contributions on information extraction
WO2018131955A1 (ko) 디지털 컨텐츠를 분석하는 방법
WO2021107449A1 (ko) 음역 전환 신조어를 이용한 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
WO2019098454A1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
CN112052424A (zh) 一种内容审核方法及装置
Wang et al. Automatic tagging of cyber threat intelligence unstructured data using semantics extraction
WO2022191368A1 (ko) 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치
WO2021107445A1 (ko) 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치
WO2024019226A1 (ko) 유해 url 탐지 방법
Leung et al. Counting protests in news articles: A dataset and semi-automated data collection pipeline
Zhong et al. Domain-specific language models pre-trained on construction management systems corpora
Zheng et al. Constructing bi-order-transformer-crf with neural cosine similarity function for power metering entity recognition
KR102606352B1 (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
WO2024136504A1 (en) Artificial intelligence-based creative phrase generation system and method
WO2024029966A1 (ko) 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버
WO2024071568A1 (ko) 고객 선호도 예측에 기반한 상품 마케팅 방법
WO2022114325A1 (ko) 자연어 대화에서 질문의 유사성을 분석하기 위한 질의 자질 추출 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23784993

Country of ref document: EP

Kind code of ref document: A1