KR20210105315A - 데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램 - Google Patents

데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20210105315A
KR20210105315A KR1020210102898A KR20210102898A KR20210105315A KR 20210105315 A KR20210105315 A KR 20210105315A KR 1020210102898 A KR1020210102898 A KR 1020210102898A KR 20210102898 A KR20210102898 A KR 20210102898A KR 20210105315 A KR20210105315 A KR 20210105315A
Authority
KR
South Korea
Prior art keywords
data
annotation
annotated
accuracy rate
process monitoring
Prior art date
Application number
KR1020210102898A
Other languages
English (en)
Other versions
KR102555607B1 (ko
Inventor
슈에 양
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210105315A publication Critical patent/KR20210105315A/ko
Application granted granted Critical
Publication of KR102555607B1 publication Critical patent/KR102555607B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 출원의 실시예는 데이터 주석 방법, 장치, 전자기기, 컴퓨터 판독가능 저장매체 및 컴퓨터 프로그램을 개시하는바, 컴퓨터 비전, 자연어 처리, 클라우드 서비스 등 인공지능 기술 분야에 관한 것이다. 해당 방법의 일 구체적인 실시방식은, 주석할 데이터에 대한 주석 정확률 요구를 취득하는 단계; 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 단계; 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하는 단계; 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력하는 단계를 포함한다. 해당 실시방식을 응용하면, 종합 정확률에 의해 실제 주석 상황을 더 정확하게 서술할 수 있을 뿐만 아니라, 또한 종합 정확률에 대한 관리에 기반하여 무효 주석 작업이 발생되는 것을 적시에 회피할 수 있고 주석 효율을 향상할 수 있다.

Description

데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR ANNOTATING DATA, DEVICE, STORAGE MEDIUM AND COMPUTER PROGRAM}
본 출원은 데이터 처리 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전, 자연어 처리, 클라우드 서비스 등 인공지능 기술 분야에 관한 것이고, 특히 데이터 주석 방법, 장치, 전자기기, 컴퓨터 판독가능 저장매체 및 컴퓨터 프로그램에 관한 것이다.
인공지능 알고리즘이 차차 나타나게 되면서, 알고리즘의 정밀도를 향상시키고자 점점 더 많은 데이터가 필요하게 되는데, 데이터의 품질은 알고리즘의 정밀도에 직접적으로 영향준다.
각 데이터 공급자는 더 높은 품질의 데이터를 제출하기 위해서는 모두 상응한 정확률 관리 방안을 제정함으로써 클라이언트가 제기하는 다양한 정확률 요구를 충족시키는 것이 필요하다. 데이터 품질을 향상시키고 제출하는 데이터의 정확도를 향상시키는 것은 여러 주석 업체가 경쟁에서 이기는 관건으로 되었다.
종래의 정확률 관리 방안은 대다수가 단지 클라이언트로부터 제공되는 정확률 요구 파라미터에 의해 결과 관리를 하는바, 여전히 통상의 주석 방식을 적용한다.
본 출원의 실시예는 데이터 주석 방법, 장치, 전자기기, 컴퓨터 판독가능 저장매체 및 컴퓨터 프로그램을 제시한다.
첫 번째 측면으로, 본 출원의 실시예는 데이터 주석 방법을 제시하는바, 이는, 주석할 데이터에 대한 주석 정확률 요구를 취득하는 단계; 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 단계 - 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ; 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하는 단계; 및 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력하는 단계를 포함한다.
두 번째 측면으로, 본 출원의 실시예는 데이터 주석 장치를 제시하는바, 이는, 주석할 데이터에 대한 주석 정확률 요구를 취득하는 요구 취득 유닛; 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 과정 모니터링 파라미터 결정 유닛 - 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ; 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하는 주석 내용 가중 유닛; 및 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력하는 요구 부합 출력 유닛을 포함한다.
세 번째 측면으로, 본 출원의 실시예는 전자기기를 제공하는바, 해당 전자기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고, 메모리에는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 해당 명령은 적어도 하나의 프로세서에 의해 실행됨으로써, 적어도 하나의 프로세서가 제1 측면의 어느 한 구현방식에 따른 데이터 주석 방법을 구현할 수 있도록 한다.
네 번째 측면으로, 본 출원의 실시예는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체를 제공하는바, 해당 컴퓨터 명령은 컴퓨터에 의해 실행되는 경우, 제1 측면의 어느 한 구현방식에 따른 데이터 주석 방법을 구현할 수 있다.
다섯 번째 측면으로, 본 출원의 실시예는 매체에 저장된 컴퓨터 프로그램을 제공하는바, 해당 컴퓨터 프로그램은 프로세서에 의해 실행되는 경우, 제1 측면의 어느 한 구현방식에 따른 데이터 주석 방법을 구현할 수 있다.
본 출원의 실시예에 의해 제공되는 데이터 주석 방법, 장치, 전자기기, 컴퓨터 판독가능 저장매체 및 컴퓨터 프로그램은, 우선, 주석할 데이터에 대한 주석 정확률 요구를 취득하고; 다음, 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하고 - 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ; 다음, 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하고; 마지막으로, 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력한다.
본 출원에 의해 제공되는 기술방안은 우선 적합한 과정 모니터링 파라미터를 결정하여 주석 과정을 모니터링하고 주석 과정의 모니터링에 주석할 데이터의 서로 다른 내용 간의 인과 및 의존 관계를 결부시키고 인과 및 의존 관계에 부합되는 가중 계수를 설정함으로써, 가중하여 취득하는 종합 정확률이 실제 주석 상황을 더욱 정확하게 서술할 수 있도록 하는바, 이로써 종합 정확률에 대한 관리에 기반하여 무효 주석 작업이 발생되는 것을 회피하고 주석 효율을 향상할 수 있다.
여기서 서술되는 내용은 본 출원의 실시예의 핵심적이거나 또는 중요한 특징을 표시하기 위한 것이 아니며, 본 출원의 범위를 한정하기 위한 것도 아님을 이해하여야 한다. 본 출원의 다른 특징은 하기한 발명의 설명에 의해 이해하기 수월해질 것이다.
아래 첨부도면을 참조한 비한정적인 실시예에 대한 상세한 서술을 읽어보면, 본 출원의 다른 특징, 목적 및 이점이 더욱 분명해질 것이다.
도 1은 본 출원이 응용될 수 있는 예시적인 시스템 아키텍처이고;
도 2는 본 출원의 실시예에 의해 제공되는 데이터 주석 방법의 흐름도이고;
도 3은 본 출원의 실시예에 의해 제공되는 다른 데이터 주석 방법의 흐름도이고;
도 4는 본 출원의 실시예에 의해 제공되는 데이터 주석 장치의 구조 블록도이고;
도 5는 본 출원의 실시예에 의해 제공되는 데이터 주석 방법을 수행하기에 적합한 전자기기의 구조 개략도이다.
아래, 첨부도면을 결부하여 본 출원의 예시적인 실시예를 설명하고자 하는데, 여기에는 본 출원의 실시예의 다양한 세부사항이 이해를 돕기 위해 포함되는바, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서 당업자라면, 본 출원의 범위 및 사상에 위배되지 않으면서 여기서 서술되는 실시예에 대한 다양한 변경 및 수정이 가능하다는 것을 인지하여야 한다. 마찬가지로, 명확함과 간결함을 위해, 아래 서술에서는 공지된 기능 및 구조에 대한 서술은 생략한다. 부연하면, 상충되지 않은 한, 본 출원의 실시예 및 실시예 중의 특징은 상호 결합될 수 있다.
본 개시의 기술방안에서, 관련되는 사용자 개인 정보의 취득, 저장 및 응용 등은 모두 관련 법률법규의 규정에 부합되는 것으로, 필요한 기밀유지 조치를 적용하였고 공서양속에 위배되지 않는다.
도 1은 본 출원의 데이터 주석 방법, 장치, 전자기기 및 컴퓨터 판독가능 저장매체의 실시예가 응용될 수 있는 예시적인 시스템 아키텍처(100)를 도시한다.
도 1에 도시한 바와 같이, 시스템 아키텍처(100)는 단말기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기기(101, 102, 103) 및 서버(105) 사이에서 통신 링크를 제공하는 매체로 사용된다. 네트워크(104)는 다양한 연결 유형, 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블 등을 포함할 수 있다.
사용자는 단말기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션함으로써 메세지 등을 수신하거나 송신할 수 있다. 단말기기(101, 102, 103) 및 서버(105)에는 양자 간의 정보 통신을 구현하는 다양한 앱이 설치되어 있을 수 있는바, 예를 들어 주석 태스크 할당 앱, 주석 과정 모니터링 앱, 인스턴스 메시징 앱 등일 수 있다.
단말기기(101, 102, 103) 및 서버(105)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말기기(101, 102, 103)가 하드웨어인 경우, 표시 스크린을 가지는 다양한 전자기기일 수 있는바, 스마트폰, 태블릿 컴퓨터, 휴대형 랩톱 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않으며; 단말기기(101, 102, 103)가 소프트웨어인 경우, 앞서 예를 든 전자 기기에 설치할 수 있다, 이는 복수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있고 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있는바, 여기서는 구체적으로 한정하지 않는다. 서버(105)가 하드웨어인 경우, 복수의 서버로 구성되는 분산 서버 클러스터로 구현될 수도 있고 단일한 서버로 구현될 수도 있으며; 서버가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있고 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있는바, 여기서는 구체적으로 한정하지 않는다.
서버(105)는 내장된 다양한 앱에 의해 다양한 서비스를 제공할 수 있는데, 주석할 데이터에 대한 주석 정확률 관리 서비스를 제공할 수 있는 주석 관리 앱을 예로 들면, 서버(105)는 해당 주석 관리 앱을 실행하는 경우, 하기한 바와 같은 효과를 구현할 수 있다. 우선, 주석할 데이터의 주석 정확률 요구를 취득하고; 다음, 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하고 - 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ; 다음, 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하고; 마지막으로, 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력한다.
주석 과정의 모니터링과 관리가 보다 많은 연산 리소스와 보다 강한 연산 능력을 소요하므로, 따라서 본 출원에서 후속의 각 실시예에 의해 제공되는 데이터 주석 방법은 일반적으로 보다 강한 연산 능력, 보다 많은 연산 리소스를 가지는 서버(105)에 의해 수행되며, 상응하게, 데이터 주석 장치도 일반적으로 서버(105)에 설치된다.
도 1에서의 단말기기, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해하여야 한다. 구현의 필요에 따라 임의 수량의 단말기기, 네트워크 및 서버를 가질 수 있다.
도 2를 참조하면, 도 2는 본 출원의 실시예에 의해 제공되는 데이터 주석 방법의 흐름도이고, 여기서 흐름(200)은 하기 단계를 포함한다.
단계(201)에서, 주석할 데이터에 대한 주석 정확률 요구를 취득한다.
본 단계는 데이터 주석 방법의 수행주체(예를 들어 도 1에 도시한 서버(105))에 의해 주석할 데이터에 대한 주석 정확률 요구를 취득하고자 하는 것이다. 여기서, 해당 주석 정확률 요구는 통상적으로 최종 결과에 대한 요구인바, 예를 들어 전반적인 주석 정확률은 90% 이상이어야 하고, 물론, 일부 중간 주석 파라미터 정확률의 요구나 또는 일부 중간의 과정 데이터를 포함할 수도 있다.
구체적으로, 주석할 데이터 및 주석할 데이터에 대한 주석 정확률 요구는 상술한 수행주체에 의해 직접적으로 로컬의 저장기기로부터 취득될 수도 있고 로컬이 아닌 저장기기(예를 들어 도 1에 도시되지 않은 주석 수요 단말)로부터 취득될 수도 있다. 로컬의 저장기기는 상술한 수행주체 내에 설치된 데이터 저장 모듈일 수 있는바, 예를 들어 서버 하드웨어일 수 있고, 이러한 경우, 주석할 데이터 및 주석할 데이터에 대한 주석 정확률은 로컬에서 빠르게 읽을 수 있고; 로컬이 아닌 저장기기는 데이터 저장을 위해 설치되는 다른 임의의 전자기기일 수도 있는바, 예를 들어 일부 사용자 단말일 수 있고, 이러한 경우, 상술한 수행주체는 해당 전자기기에 취득 명령어를 송신함으로써 필요한 주석할 데이터 및 주석할 데이터에 대한 주석 정확률을 취득할 수 있다. 또한, 주석할 데이터 및 주석 정확률은 서로 다른 위치에 각각 저장될 수도 있다.
단계(202)에서, 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정한다.
단계(201)에 기초하여, 본 단계는 상술한 수행주체에 의해 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하고자 하는 것이다. 여기서, 과정 모니터링 파라미터는 주석할 데이터에 대해 주석하는 과정에서 정확률 모니터링을 수행하는 파라미터를 가리키고, 해당 과정 모니터링 파라미터는 서로 다른 계층으로 주석할 데이터를 서술함으로써 각 계층의 중간 모니터링 파라미터를 형성고자 하는 것이다. 그리고, 매칭의 과정은 주석할 데이터의 실제 상황(예를 들어 유형, 요구, 특성, 실제 최대 계층 차이 등)에 따라 몇 개를 선택하고 어떤 것을 선택하여 실제의 과정 모니터링 파라미터로 할지를 결정하여 중간 주석 과정을 충분히 서술하고, 이로써 중간 주석 과정에 대한 관리를 구현한다.
구체적으로, 과정 모니터링 파라미터는 계층이 점차 상승하는 요소 차원 정확률, 데이터 차원 정확률, 타이틀 차원 정확률, 페이지 차원 정확률 및 뱃치(batch) 차원 정확률 중의 적어도 하나를 포함할 수 있고; 여기서, 요소 차원은 최소단위의 주석 정보를 가리키고, 바로 뒤의 하나의 차원은 모두, 복수의 바로 앞의 차원의 집계이고, 바로 뒤의 차원이 바로 앞의 차원의 집계라고 이해할 수도 있다.
예를 들어, 요소 차원을 주석할 데이터 중의 최저층으로 하고, 마킹 박스를 예로 들면, 요소 차원은 마킹 박스의 하나의 변일 수도 있고 마킹 박스 자체일 수도 있고, 데이터 차원은 해당 픽처에 포함된 모든 마킹 박스일 수 있고, 타이틀 차원은 해당 타이틀이 포함하는 모든 픽처일 수 있고, 페이지 차원은 해당 페이지에 포함되는 모든 타이틀일 수도 있고, 뱃치 차원은 해당 뱃치에 의해 제공되는 모든 페이지일 수 있다. 나아가 한계층 한계층 집계된 차원 정확률을 형성한다.
단계(203)에서, 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득한다.
단계(202)에 기초하여, 본 단계는 상술한 수행주체에 의해 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하고자 하는 것으로, 이로써 객관적이고 효과적이게 정확률을 서술할 수 있는 종합 정확률을 취득한다.
"인과(因果) "관계에 있어서의 "인(因)"인 하나의 주석할 데이터의 주석에 착오가 존재하는 경우, 그 뒤의 모든 해당 "인(因)"에 따라 후속의 주석이 수행된 "과(果)"인 주석할 데이터는 전부 참조적 의의를 상실하게 된다는 점을 이해하여야 한다.
단계(204)에서, 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력한다.
단계(203)에 기초하여, 본 단계는 종합 정확률이 주석 정확률 요구를 충족시키는 경우에 있어서, 주석완료된 데이터가 이미 제출 요구를 충족시키며 따라서 주석완료된 데이터를 출력할 수 있다고 인지하고자 한다.
본 출원에 의해 제공되는 기술방안은 우선 적합한 과정 모니터링 파라미터를 결정하여 주석 과정을 모니터링하고 주석 과정의 모니터링에 주석할 데이터의 서로 다른 내용 간의 인과 및 의존 관계를 결부시키고 인과 및 의존 관계에 부합되는 가중 계수를 설정함으로써, 가중하여 취득하는 종합 정확률이 실제 주석 상황을 더욱 정확하게 서술할 수 있도록 하는바, 이로써 종합 정확률에 대한 관리에 기반하여 무효 주석 작업이 발생되는 것을 회피하고 주석 효율을 향상할 수 있다.
도 3을 참조하면, 도 3은 본 출원의 실시예에 의해 제공되는 다른 데이터 주석 방법의 흐름도이고, 여기서 흐름(300)은 하기 단계를 포함한다.
단계(301)에서, 주석할 데이터에 대한 주석 정확률 요구를 취득한다.
위의 단계(301)는 도 2에 도시한 단계(201)와 일치한바, 같은 부분의 내용은 위의 실시예의 상응한 부분을 참조할 수 있는바, 이에 대한 상세한 설명은 생략하기로 한다.
단계(302)에서, 주석할 데이터와 같은 유형인 주석된 데이터가 존재하는지 여부를 판단하고, 그러한 경우, 단계(303)을 수행하고, 아닌 경우, 단계(304)를 수행한다.
단계(303)에서, 주석할 데이터와 같은 유형인 주석된 데이터에 대한 주석 정확률에 따라 목표 주석 대상을 결정한다.
본 단계는 상술한 수행주체에 의해 주석 정확률 요구에 기반하여 적합한 주석할 데이터에 대해 주석하는 목표 주석 대상을 결정하고자 하는 것이다. 주석할 데이터는 주석되지 않았으므로 주석할 데이터에 대한 각 주석 대상의 주석 정확률을 직접 취득할 수 없는바, 따라서 본 단계는 데이터 유형에 착수함으로써, 같은 유형의 주석된 데이터를 찾아내어 어떠한 주석 대상(들)이 과거에 같은 유형 데이터에 있어서 주석 정확률을 충족시키는 실제 주석 정확률을 가지는지를 결정한다. 여기서, 주석 대상은 주석인원일 수도 있고 서로 다른 주석 능력을 가지는 주석 모델일 수도 있고, 또는 주석 능력을 가지는 다양한 존재 형식일 수 있다.
단계(304)에서, 주석할 데이터와의 유형 유사도가 사전설정된 유사도를 초과하는 다른 주석된 데이터를 선택하고, 다른 주석된 데이터의 주석 정확률에 대하여 유형 유사도에 반비례하는 손실 계수를 사용하여 가중한다.
단계(303)와는 다르게, 본 단계는 주석할 데이터와 같은 유형인 주석된 데이터가 존재하지 않은 경우에 수행되는바, 이러한 경우에 있어서, 본 단계는 주석할 데이터와의 유형 유사도가 사전설정된 유사도를 초과하는 다른 주석된 데이터를 선택하는 대안적인 방안을 제공하는바, 다른 주석된 데이터의 주석 정확률에 대하여 손실 계수를 사용하여 가중한다.
여기서, 본 단계에서 사용되는 손실 계수의 크기는 유형 유사도에 반비례하는바, 즉 다른 주석된 데이터와 주석할 데이터 간의 유형 유사도가 높을수록, 해당 손실 계수가 더 작고, 반대인 경우에는 더 크다. 손실 계수가 작을수록, 이를 사용하여 가중한 후의 결과가 원래의 주석 정확률에 더 근접하다는 것을 의미하고, 반대인 경우, 차이가 더 크다는 것을 의미한다.
유형 유사도가 80%인 경우를 예로 들면, 그 손실 계수는 10%일 수 있고, 실제로 가중 방식을 계산하는 경우, 다른 주석된 데이터의 주석 정확률이 90%이면, 손실 계수에 의해 가중된 후의 참조 주석 정확률은 90%×(1-10%)=81%이다.
단계(305)에서, 가중된 후의 참조 주석 정확률에 기반하여 목표 주석 대상을 결정한다.
단계(304)에 기초하여, 본 단계는 상술한 수행주체에 의해 가중된 후의 참조 주석 정확률에 기반하여 목표 주석 대상을 결정하고자 하는 것이다. 주석 정확률 요구를 80%로 가정하면, 단계(304)를 뒤따르는 예를 살펴보면, 다른 주석된 데이터에 대한 주석 정확률이 89% 보다 큰 주석 대상만이 목표 주석 대상으로 선택될 수 있다.
단계(306)에서, 주석할 데이터에 포함되는 서로 다른 주석할 대상 간의 최대 계층 차이를 결정한다.
단계(307)에서, 최대 계층 차이와 수량이 일치되는 복수의 차원 정확률을 과정 모니터링 파라미터로 선택한다.
도 2에 도시한 실시예에서의 단계(202)에 의해 제공되는 상위개념에 기초하여, 본 실시예는 단계(306) 내지 단계(307)을 통해 주석할 데이터에 포함되는 서로 다른 주석할 대상 간의 최대 계층 차이에 의해 과정 모니터링 파라미터를 구체적으로 결정하는 방안을 제공하는바, 즉, 최대 계층 차이와 수량이 일치되는 복수의 차원 정확률을 과정 모니터링 파라미터로 선택한다.
여기서, 서로 다른 주석할 대상 간의 최대 계층 차이는 주석 대상 간의 계층 관계를 가리키는 파라미터인바, 예를 들어 최소 주석할 대상이 냉장고 안의 한 가지 식품이고 해당 식품은 구체적으로 해당 냉장고 하반부의 냉동구역 중의 두번째 칸에 위치하는데, 따라서 최소 주석할 대상과 최대 주석할 대상 간의 계층 차이는 바로 4층이다. 이때 최저층의 식품의 차원은 요소 차원 정확률에 대응되는바, 따라서 이러한 4층은 각각 요소 차원 정확률, 데이터 차원 정확률, 타이틀 차원 정확률 및 페이지 차원 정확률로 설정할 수 있다.
단계(308)에서, 각각의 목표 주석 대상에 할당되는 일부 주석할 데이터에 대하여, 일부 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득한다.
여기 포함되나 이에 한정되지 않는 일 구현방식은, 인과 또는 의존 관계를 나타내는 적어도 2개의 주석 결과 중의 앞선 주석 결과가 착오인 데 응답하여, 뒤의 주석 결과의 계수를 0으로 설정하는 것일 수 있다. 즉, "인과(因果)" 관계의 "인(因)"의 하나의 주석할 데이터에 주석 착오가 존재하는 경우, 그 뒤의 모든 해당 "인(因)"에 따라 후속으로 주석된 "과(果)"인 주석할 데이터는 전부 참조적 의의를 상실하게 된다.
단계(309)에서, 종합 정확률이 주석 정확률 요구를 충족시키지 않는 데 응답하여, 개인의 종합 정확률이 최저인 목표 주석 대상을 이상 주석 대상으로 결정한다.
단계(310)에서, 이상 주석 대상을 제어하여 이에 할당되는 일부 주석할 데이터에 대해 다시 주석한다.
도 2에 도시한 실시예에 있어서의 종합 정확률이 주석 정확률 요구를 충족시키는 경우와는 다르게, 본 실시예는 단계(309) 내지 단계(310)를 통하여 종합 정확률이 주석 정확률 요구를 충족시키지 않는 경우에 대하여 보충하여 서술하고자 하는 것인바, 즉, 우선, 종합 정확률이 가장 낮은 목표 주석 대상을 이상 주석 대상으로 결정하고, 다음, 이상 주석 대상을 제어하여 이에 할당되는 일부 주석할 데이터에 대해 다시 주석할 것을 고려한다. 이로써 가급적이면 이러한 방식으로 종합 정확률이 제출 요구를 충족시키도록 보장한다. 다시 주석해도 여전히 보다 좋은 효과를 얻지 못하는 경우, 해당 이상 주석 대상을 교체하는 것을 고려할 수도 있는바, 예를 들어 대안적인 주석 대상으로 교체하여 다시 주석해야 하는 일부 데이터에 대해 주석을 반복한다.
본 실시예에서 단계(302) 내지 단계(305)를 통해 적합한 주석 대상을 선택하여 후속의 주석을 수행하는 방안을 제공하고; 또한, 단계(306) 내지 단계(307)를 통해 주석할 데이터에 있어서의 실제의 최대 계층 차이에 기반하여 적합한 과정 모니터링 파라미터를 결정하는 구체적인 구현방식을 제공하고; 이와 동시에, 또한 단계(308) 내지 단계(310)을 통해 도 2에 도시한 실시예와는 다른, 다른 경우를 제공하는바, 즉, 종합 정확률이 제출 요구를 충족시키지 않는 경우를 제공한다.
본 실시예에 의해 제공되는 바로 전의 실시예와는 다른, 3개의 구체적인/분기 보충 방안 간에는 의존 및 인과 관계가 존재하지 않는바, 얼마든지 도 2에 도시한 실시예와 각각 결합하여 독립적인 복수의 실시예를 형성할 수 있으며, 본 실시예는 다만 3개의 구체적인/분기 보충 방안을 포함하는 바람직한 실시예로서 존재할 뿐임을 이해하여야 한다.
이해를 심화시키고자, 본 출원은 또한 구체적인 응용 시나리오를 결부하여 구체적인 구현방안을 제공한다.
1) 클라우드 서버는 클라이언트로부터 송신되는 주석할 데이터, 및 이에 대한 전반적인 주석 정확률이 90%보다 낮지 않은 주석 정확률 요구를 수신한다.
2) 클라우드 서버는 자연어 처리 기술에 의해 해당 텍스트 타입의 주석할 데이터가 속하는 기술 분야를 분석하여 이는 A기술 분야의 기술 텍스트에 속한다는 결론을 얻는다.
3) 클라우드 서버는 A기술 분야에 있어서, 전에 기술 텍스트를 행하였던 바가 있는지 여부를 쿼리하고, 행한 바가 있음을 발견하고, 따라서 전에 A분야에 대해 주석한 바가 있는 복수의 주석 대상의 히스토리컬 주석 정확률을 사용한다.
4) 클라우드 서버는 히스토리컬 주석 정확률에 있어서 90%보다 큰 6개의 주석 대상을 모두 후보 주석 대상으로 선택하고 주석률의 내림차순에 따라 이 중의 3개의 주석 대상을 목표 주석 대상(각각A1, A2, A3)으로 선택한다.
5)클라우드 서버는 주석할 데이터를 3부분으로 나눈 후 A1, A2, A3이 각각 위치하는 단말기기에 각각 할당하고, 이와 동시에 계층이 3인 과정 모니터링 파라미터 요구, 및 내용 인과 관계에 기반하는 가중 논리를 송출하고;
6)단말기기는 수신된 주석할 데이터, 요구, 가중 논리에 따라 주석 결과를 분석하고 처리하고, 이상이 있는 경우, 클라우드 서버에 리포팅하고;
7)클라우드 서버는 A3의 주석 대상에 있어서 일부 표현(express)할 데이터의 주석 정확률이 0이고 종합 정확률이 90%보다 낮아지게 된다는 것을 발견하고, 따라서 이를 인과 관계를 가지는 서로 다른 주석할 데이터의 "인(因)" 부분에 있어서 중대한 주석 착오가 발생한 것으로 판정하고 다시 주석할 기회를 한번 주고;
8)클라우드 서버는 A3의 다시 주석한 결과를 분석하고, 금회의 주석한 종합 정확률이 93%이고 A1과 A2 사이임을 발견하고 전반적으로 제출 요구에 부합되는 것으로 인정하고 주석완료된 데이터를 클라이언트한테 출력한다.
나아가 도 4를 참조하면, 위의 각 도면에 도시한 방법에 대한 구현으로, 본 출원은 데이터 주석 장치의 일 실시예를 제공하고, 해당 장치 실시예는 도 2에 도시한 방법 실시예에 대응되고, 해당 장치는 구체적으로 다양한 전자기기에 응용될 수 있다.
도 4에 도시한 바와 같이, 본 실시예의 데이터 주석 장치(400)는 요구 취득 유닛(401), 과정 모니터링 파라미터 결정 유닛(402), 주석 내용 가중 유닛(403) 및 요구 부합 출력 유닛(404)을 포함할 수 있다. 여기서, 요구 취득 유닛(401)은, 주석할 데이터에 대한 주석 정확률 요구를 취득하고; 과정 모니터링 파라미터 결정 유닛(402)은, 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하고 - 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ; 주석 내용 가중 유닛(403)은, 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하고; 요구 부합 출력 유닛(404)은, 종합 정확률이 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력한다.
본 실시예에서, 데이터 주석 장치(400)에서 요구 취득 유닛(401), 과정 모니터링 파라미터 결정 유닛(402), 주석 내용 가중 유닛(403) 및 요구 부합 출력 유닛(404)의 구체적인 처리 및 이에 따른 기술 효과는 도 2에 대응되는 실시예 중의 단계(201) 내지 단계(204)의 관련 설명을 각각 참조할 수 있는바, 이에 대한 상세한 설명은 생략하기로 한다.
본 실시예의 일부 대안적인 구현방식에서, 주석 내용 가중 유닛(403)은,
인과 또는 의존 관계를 나타내는 적어도 2개의 주석 결과 중의 앞선 주석 결과가 착오인 데 응답하여, 뒤의 주석 결과의 계수를 0으로 설정할 수 있다.
본 실시예의 일부 대안적인 구현방식에서, 데이터 주석 장치(400)는
서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중하기 전에, 주석할 데이터와 같은 유형인 주석된 데이터를 선택하고, 주석된 데이터에 대한 주석 정확률에 따라 목표 주석 대상을 결정하는 목표 주석 대상 결정 유닛을 더 포함할 수 있고,
주석 내용 가중 유닛(403)은 나아가,
각각의 목표 주석 대상에 할당되는 일부 주석할 데이터에 대하여, 일부 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 과정 모니터링 파라미터에 대해 가중할 수 있다.
본 실시예의 일부 대안적인 구현방식에서, 과정 모니터링 파라미터는 계층이 점차 상승하는 요소 차원 정확률, 데이터 차원 정확률, 타이틀 차원 정확률, 페이지 차원 정확률 및 뱃치 차원 정확률 중의 적어도 하나를 포함하고; 상기 요소 차원은 최소단위의 주석 정보를 가리키고, 바로 뒤의 하나의 차원은 모두, 복수의 바로 앞의 차원의 집계이다.
본 실시예의 일부 대안적인 구현방식에서, 과정 모니터링 파라미터 결정 유닛(402)은 나아가,
주석할 데이터에 포함되는 서로 다른 주석할 대상 간의 최대 계층 차이를 결정하고;
최대 계층 차이와 수량이 일치되는 복수의 차원 정확률을 과정 모니터링 파라미터로 선택할 수 있다.
본 실시예의 일부 대안적인 구현방식에서, 데이터 주석 장치(400)는
종합 정확률이 주석 정확률 요구를 충족시키지 않는 데 응답하여, 개인의 종합 정확률이 최저인 목표 주석 대상을 이상 주석 대상으로 결정하는 이상 주석 대상 결정 유닛; 및
이상 주석 대상을 제어하여 이에 할당되는 일부 주석할 데이터에 대해 다시 주석하는 이상 처리 장치 유닛을 더 포함할 수 있다.
본 실시예는 상술한 방법 실시예에 대응되는 장치 실시예로서 존재하는바, 본 실시예에 의해 제공되는 데이터 주석 장치는 우선, 적합한 과정 모니터링 파라미터를 결정하여 주석 과정을 모니터링하고, 주석 과정의 모니터링에 있어서 주석할 데이터의 서로 다른 내용 간의 인과 및 의존 관계를 결부하고, 인과 및 의존 관계에 부합되는 가중 계수를 설정하는데, 가중하여 취득하는 종합 정확률이 실제 주석 상황을 더욱 정확하게 서술할 수 있도록 하는바, 이로써 종합 정확률에 대한 관리에 기반하여 무효 주석 작업이 발생되는 것을 회피하고 주석 효율을 향상할 수 있다.
본 출원의 실시예에 따르면, 본 출원은 전자기기, 판독가능 저장매체 및 컴퓨터 프로그램을 더 제공한다.
도 5는 본 출원의 실시예를 실시할 수 있는 예시적인 전자기기(500)의 개략적인 블록도를 도시한다. 전자기기는 다양한 형식의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터를 가리킨다. 전자기기는 또한 다양한 형식의 이동 장치, 예컨대, 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치를 가리킬 수 있다. 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 서술한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 하는 것이 아니다.
도 5에 도시한 바와 같이, 기기(500)는 컴퓨팅 유닛(501)을 포함하는바, 이는 읽기 전용 메모리(ROM)(502)에 저장된 컴퓨터 프로그램 또는 저장 유닛(508)에서 랜덤 액세스 메모리(RAM)(503)로 로딩된 컴퓨터 프로그램에 따라 여러 가지 적당한 동작과 처리를 수행할 수 있다. RAM(503)에서, 기기(500) 조작에 필요한 여러 가지 프로그램과 데이터를 저장할 수도 있다. 컴퓨팅 유닛(501), ROM(502) 및 RAM(503)은 버스(504)에 의해 서로 연결된다. I/O 인터페이스(505)도 버스(504)에 연결된다.
기기(500) 중의 복수의 부재가 I/O 인터페이스(505)에 연결되는바, 입력 유닛(506), 예를 들어 키보드, 마우스 등; 출력 유닛507, 예를 들어 다양한 유형의 표시장치, 스피커 등; 저장 유닛(508), 예를 들어 자기 디스크, 광 디스크 등; 및 통신 유닛(509), 예를 들어 네트워크 인터페이스 카드, 모뎀, 무선 통신 송수신기 등을 포함한다. 통신 유닛(509)은 기기(500)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전기통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하도록 허락한다.
컴퓨팅 유닛(501) 처리 및 계산 능력을 가지는 다양한 범용의 및/또는 전용의 처리 어셈블리일 수 있다. 컴퓨팅 유닛(501)의 일부 예시는 중앙처리장치(CPU), 그래픽 처리 장치(GPU), 다양한 전용의 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적당한 프로세서, 제어기, 마이크로제어기 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(501)은 상술한 각각의 방법과 처리를 수행하는바, 예를 들어 데이터 주석 방법. 예를 들어, 일부 실시예에서, 데이터 주석 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 기계 판독가능 매체, 예를 들어 저장 유닛(508)에 유형으로(tangibly) 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(502) 및/또는 통신 유닛(509)에 의해 기기(500)로 로딩되거나 설치될 수 있다. 컴퓨터 프로그램이 RAM(503)에 로딩되어 컴퓨팅 유닛(501)에 의해 실행되는 경우, 상술한 데이터 주석 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안으로, 다른 실시예에서, 컴퓨팅 유닛(501)은 다른 임의의 적당한 방식(예를 들어 펌웨어에 의해) 을 수행할 수 있다데이터 주석 방법.
본 명세서의 상술한 시스템 및 기술의 다양한 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그램가능 게이트 어레이(FPGA), 주문형 집적회로(ASIC), 주문형 표준제품(ASSP), 시스템온칩(SOC), 복잡한 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합 중에서 구현될 수 있다. 이러한 다양한 실시방식은 하기한 바를 포함할 수 있다. 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 해당 프로그램가능 프로세서는 전용의 또는 범용의 프로그램가능 프로세서이고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있고 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치에 전송할 수 있다.
본 출원의 방법을 구현하는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어, 프로그램 코드가 프로세서 또는 제어기에 의해 실행되는 경우, 흐름도 및/또는 블록도에서 규정하는 기능/조작이 수행되도록 한다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고 부분적으로 기계에서 실행될 수도 있고, 독립적인 소프트웨어 패키지로서 부분적으로는 기계에서 실행되고 부분적으로는 원격 기계에서 실행되거나 또는 완전히 원격 기계 도는 서버에서 실행될 수 있다.
본 출원의 문맥 상으로, 기계 판독가능 매체는 유형의(tangible) 매체일 수 있는바, 이는, 명령 실행 시스템, 장치 또는 기기에 의해 사용되도록 또는 명령 실행 시스템, 장치 또는 기기에 결합되어 사용되도록 프로그램을 포함하거나 또는 저장할 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장 매체일 수 있다. 기계 판독가능 매체는 전자의, 자기의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기거나, 또는 상술한 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독가능 저장매체의 더 구체적인 예시로 하나 또는 복수의 선에 기반하는 전기연결, 휴대형 컴퓨터 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대형 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있다.
사용자와의 인터랙션을 제공하기 위하여, 여기서 서술하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 해당 컴퓨터는, 사용자한테 정보를 표시하는 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정표시장치) 모니터); 및 키보드와 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)을 가지며, 사용자는 해당 키보드와 해당 포인팅 장치에 의해 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 장치 또한 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바; 예를 들어, 사용자한테 제공하는 피드백은 임의 형식의 감각 피드백(예를 들면 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의 형식(사운드 입력, 음성 입력 또는 , 촉각 입력)으로 사용자의 입력을 수신할 수 있다.
여기서 서술하는 시스템과 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어 데이터 서버로서), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어 애플리케이션 서버로서), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 가지는 사용자 컴퓨터인바, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통해 여기서 서술하는 시스템 및 기술의 실시방식과 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재 또는 프론트 엔드 부재의 임의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)으로 시스템의 부재를 상호 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 원거리 통신망(WAN) 및 인터넷을 포함할 수 있다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고는 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 실행함으로써 클라이언트와 서버의 관계를 발생시킨다. 서버는 클라우드 서버일 수 있는바, 클라우드 컴퓨팅 서버 또는 클라우드 호스팅으로 지칭되기도 하며, 클라우드 컴퓨팅 서비스 체계에서의 호스팅 제품으로, 전통적인 물리적 호스팅과 가상 사설 서버(VPS, Virtual Private Server) 서비스에 존재하는, 관리 난이도가 크고 업무 상 확장성이 약한 결함을 해결한다.
본 실시예에 의해 제공되는 기술방안은 우선 적합한 과정 모니터링 파라미터를 결정하여 주석 과정을 모니터링하고 주석 과정의 모니터링에 주석할 데이터의 서로 다른 내용 간의 인과 및 의존 관계를 결부시키고 인과 및 의존 관계에 부합되는 가중 계수를 설정함으로써, 가중하여 취득하는 종합 정확률이 실제 주석 상황을 더욱 정확하게 서술할 수 있도록 하는바, 이로써 종합 정확률에 대한 관리에 기반하여 무효 주석 작업이 발생되는 것을 회피하고 주석 효율을 향상할 수 있다.
위에서 제시한 다양한 형식의 흐름을 사용하여 단계에 대해 재정렬하거나, 증가 또는 삭제할 수 있다는 것을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병렬로 수행될 수도 있고 순차로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있는바, 본 출원에서 개시한 기술방안의 기대 결과를 구현할 수 있기만 하면 되는 것으로, 본 명세서에서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시방식은 본 출원의 보호범위를 한정하지 않는다. 당업자라면, 설계 요구 및 다른 요소에 따른 다양한 수정, 조합, 서브조합 및 치환이 가능하다는 것을 알아야 한다. 본 출원의 사상 및 원칙 이내에서 행한 임의의 수정, 균등 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims (15)

  1. 데이터 주석 방법으로서,
    주석할 데이터에 대한 주석 정확률 요구를 취득하는 단계;
    상기 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 단계 - 상기 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ;
    서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하는 단계; 및
    상기 종합 정확률이 상기 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력하는 단계를 포함하는,
    데이터 주석 방법.
  2. 제1항에 있어서,
    상기 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하는 단계는,
    인과 또는 의존 관계를 나타내는 적어도 2개의 주석 결과 중의 앞선 주석 결과가 착오인 데 응답하여, 뒤의 주석 결과의 계수를 0으로 설정하는 단계를 포함하는,
    데이터 주석 방법.
  3. 제1항에 있어서,
    서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하는 단계 전에,
    상기 주석할 데이터와 같은 유형인 주석된 데이터를 선택하고, 상기 주석된 데이터에 대한 주석 정확률에 따라 목표 주석 대상을 결정하는 단계를 더 포함하고,
    상기 서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하는 단계는,
    각각의 상기 목표 주석 대상에 할당되는 일부 주석할 데이터에 대하여, 상기 일부 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하는 단계를 포함하는,
    데이터 주석 방법.
  4. 제1항에 있어서,
    상기 과정 모니터링 파라미터는 계층이 점차 상승하는 요소 차원 정확률, 데이터 차원 정확률, 타이틀 차원 정확률, 페이지 차원 정확률 및 뱃치 차원 정확률 중의 적어도 하나를 포함하고; 상기 요소 차원은 최소단위의 주석 정보를 가리키고, 바로 뒤의 하나의 차원은 모두, 복수의 바로 앞의 차원의 집계인,
    데이터 주석 방법.
  5. 제4항에 있어서,
    상기 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 단계는,
    상기 주석할 데이터에 포함되는 서로 다른 주석할 대상 간의 최대 계층 차이를 결정하는 단계; 및
    상기 최대 계층 차이와 수량이 일치되는 복수의 차원 정확률을 상기 과정 모니터링 파라미터로 선택하는 단계를 포함하는,
    데이터 주석 방법.
  6. 제1항 내지 제5항에 중 어느 한 항에 있어서,
    상기 방법은
    상기 종합 정확률이 상기 주석 정확률 요구를 충족시키지 않는 데 응답하여, 개인의 종합 정확률이 최저인 목표 주석 대상을 이상 주석 대상으로 결정하는 단계; 및
    상기 이상 주석 대상을 제어하여 이에 할당되는 일부 주석할 데이터에 대해 다시 주석하는 단계를 더 포함하는,
    데이터 주석 방법.
  7. 데이터 주석 장치로서,
    주석할 데이터에 대한 주석 정확률 요구를 취득하는 요구 취득 유닛;
    상기 주석할 데이터에 매칭되는 과정 모니터링 파라미터를 결정하는 과정 모니터링 파라미터 결정 유닛 - 상기 과정 모니터링 파라미터는 계층이 점차 상승하는 복수의 차원 정확률 중의 적어도 하나를 포함함 - ;
    서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하여 종합 정확률을 취득하는 주석 내용 가중 유닛; 및
    상기 종합 정확률이 상기 주석 정확률 요구를 충족시키는 데 응답하여, 주석완료된 데이터를 출력하는 요구 부합 출력 유닛을 포함하는,
    데이터 주석 장치.
  8. 제7항에 있어서,
    상기 주석 내용 가중 유닛은 나아가,
    인과 또는 의존 관계를 나타내는 적어도 2개의 주석 결과 중의 앞선 주석 결과가 착오인 데 응답하여, 뒤의 주석 결과의 계수를 0으로 설정하는,
    데이터 주석 장치.
  9. 제7항에 있어서,
    상기 장치는,
    서로 다른 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하기 전에, 상기 주석할 데이터와 같은 유형인 주석된 데이터를 선택하고, 상기 주석된 데이터에 대한 주석 정확률에 따라 목표 주석 대상을 결정하는 목표 주석 대상 결정 유닛을 더 포함하고,
    상기 주석 내용 가중 유닛은 나아가,
    각각의 상기 목표 주석 대상에 할당되는 일부 주석할 데이터에 대하여, 상기 일부 주석할 데이터의 내용에 존재하는 의존 및 인과 관계에 따라 상응한 크기의 계수를 적용하여 상기 과정 모니터링 파라미터에 대해 가중하는,
    데이터 주석 장치.
  10. 제7항에 있어서,
    상기 과정 모니터링 파라미터는 계층이 점차 상승하는 요소 차원 정확률, 데이터 차원 정확률, 타이틀 차원 정확률, 페이지 차원 정확률 및 뱃치 차원 정확률 중의 적어도 하나를 포함하고; 상기 요소 차원은 최소단위의 주석 정보를 가리키고, 바로 뒤의 하나의 차원은 모두, 복수의 바로 앞의 차원의 집계인,
    데이터 주석 장치.
  11. 제10항에 있어서,
    상기 과정 모니터링 파라미터 결정 유닛은 나아가,
    상기 주석할 데이터에 포함되는 서로 다른 주석할 대상 간의 최대 계층 차이를 결정하고;
    상기 최대 계층 차이와 수량이 일치되는 복수의 차원 정확률을 상기 과정 모니터링 파라미터로 선택하는,
    데이터 주석 장치.
  12. 제7항 내지 제11항 중 어느 한 항에 있어서,
    상기 장치는,
    상기 종합 정확률이 상기 주석 정확률 요구를 충족시키지 않는 데 응답하여, 개인의 종합 정확률이 최저인 목표 주석 대상을 이상 주석 대상으로 결정하는 이상 주석 대상 결정 유닛; 및
    상기 이상 주석 대상을 제어하여 이에 할당되는 일부 주석할 데이터에 대해 다시 주석하는 이상 처리 장치 유닛을 더 포함하는,
    데이터 주석 장치.
  13. 전자기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항의 데이터 주석 방법을 수행하도록 하는,
    전자기기.
  14. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 데이터 주석 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독가능 저장매체.
  15. 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행되는 경우, 제1항 내지 제6항 중 어느 한 항의 데이터 주석 방법을 구현하는,
    컴퓨터 프로그램.
KR1020210102898A 2021-03-25 2021-08-05 데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램 KR102555607B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110319604.2A CN112988727B (zh) 2021-03-25 2021-03-25 数据标注方法、装置、设备、存储介质及计算机程序产品
CN202110319604.2 2021-03-25

Publications (2)

Publication Number Publication Date
KR20210105315A true KR20210105315A (ko) 2021-08-26
KR102555607B1 KR102555607B1 (ko) 2023-07-13

Family

ID=76334518

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210102898A KR102555607B1 (ko) 2021-03-25 2021-08-05 데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US11604766B2 (ko)
EP (1) EP3933719A3 (ko)
JP (1) JP7270691B2 (ko)
KR (1) KR102555607B1 (ko)
CN (1) CN112988727B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408633B (zh) * 2021-06-29 2023-04-18 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN113449142A (zh) * 2021-06-30 2021-09-28 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质及产品
CN115934675B (zh) * 2022-12-01 2023-10-03 深圳市云积分科技有限公司 动态标签的输出方法及装置、存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170069271A (ko) * 2014-10-13 2017-06-20 알리바바 그룹 홀딩 리미티드 서비스 동작의 보안을 검증하는 방법, 장치, 단말기 및 서버
KR20200060245A (ko) * 2018-11-21 2020-05-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 액세스 방법, 장치, 기기 및 저장 매체
CN111898489A (zh) * 2020-07-15 2020-11-06 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN112270533A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176423B2 (en) * 2016-10-24 2021-11-16 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
JP6946081B2 (ja) * 2016-12-22 2021-10-06 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
CN108898162B (zh) * 2018-06-08 2021-03-30 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN110210624A (zh) * 2018-07-05 2019-09-06 第四范式(北京)技术有限公司 执行机器学习过程的方法、装置、设备以及存储介质
US11023785B2 (en) * 2018-07-23 2021-06-01 International Business Machines Corporation Sparse MRI data collection and classification using machine learning
CN109190674B (zh) * 2018-08-03 2021-07-20 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
JP2020042386A (ja) * 2018-09-07 2020-03-19 株式会社日立製作所 対象データに対して関連付けるラベルを決定する計算機システム
US11003859B2 (en) * 2018-11-30 2021-05-11 International Business Machines Corporation Machine-learning automated structural quality analysis
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN109978356A (zh) * 2019-03-15 2019-07-05 平安普惠企业管理有限公司 标注任务分配方法、装置、介质和计算机设备
CN111797653B (zh) * 2019-04-09 2024-04-26 华为技术有限公司 基于高维图像的图像标注方法和装置
CN110147852A (zh) * 2019-05-29 2019-08-20 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
US11562172B2 (en) * 2019-08-08 2023-01-24 Alegion, Inc. Confidence-driven workflow orchestrator for data labeling
CN111080092B (zh) * 2019-11-29 2023-04-18 北京云聚智慧科技有限公司 数据标注管理方法及装置、电子设备和可读存储介质
CN111274821B (zh) * 2020-02-25 2024-04-26 北京明略软件***有限公司 一种命名实体识别数据标注质量评估方法及装置
CN111507405A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 图片标注方法、装置、电子设备及计算机可读存储介质
CN111966674B (zh) * 2020-08-25 2024-03-15 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
US20220147864A1 (en) * 2020-11-11 2022-05-12 International Business Machines Corporation Game-theoretic invariant rationalization of machine-learning results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170069271A (ko) * 2014-10-13 2017-06-20 알리바바 그룹 홀딩 리미티드 서비스 동작의 보안을 검증하는 방법, 장치, 단말기 및 서버
KR20200060245A (ko) * 2018-11-21 2020-05-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 데이터 액세스 방법, 장치, 기기 및 저장 매체
CN111898489A (zh) * 2020-07-15 2020-11-06 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN112270533A (zh) * 2020-11-12 2021-01-26 北京百度网讯科技有限公司 一种数据处理方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
EP3933719A3 (en) 2022-04-06
JP7270691B2 (ja) 2023-05-10
US20210406220A1 (en) 2021-12-30
US11604766B2 (en) 2023-03-14
JP2022002099A (ja) 2022-01-06
CN112988727B (zh) 2022-09-16
CN112988727A (zh) 2021-06-18
KR102555607B1 (ko) 2023-07-13
EP3933719A2 (en) 2022-01-05

Similar Documents

Publication Publication Date Title
KR102555607B1 (ko) 데이터 주석 방법, 장치, 기기, 저장매체 및 컴퓨터 프로그램
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
WO2023221416A1 (zh) 信息生成方法、装置、设备以及存储介质
US20220398834A1 (en) Method and apparatus for transfer learning
JP2023036681A (ja) タスク処理方法、処理装置、電子機器、記憶媒体及びコンピュータプログラム
CN114266937A (zh) 模型训练、图像处理方法,装置,设备以及存储介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN116524165B (zh) 三维表情模型的迁移方法、装置、设备和存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
WO2023015942A1 (zh) 确定图像特征的方法、装置、电子设备和存储介质
CN116401372A (zh) 知识图谱表示学习方法、装置、电子设备及可读存储介质
CN116011955A (zh) 一种机器人流程自动化需求实现方法、装置、设备和存储介质
CN113344074B (zh) 模型训练方法、装置、设备及存储介质
CN115187821A (zh) 验证模型转换前后正确性的方法、相关装置及程序产品
CN114048863A (zh) 数据处理方法、装置、电子设备以及存储介质
CN117272970B (zh) 一种文档生成方法、装置、设备以及存储介质
CN113362428B (zh) 用于配置颜色的方法、装置、设备、介质和产品
US20220383626A1 (en) Image processing method, model training method, relevant devices and electronic device
CN117539954A (zh) 数据同步方法、装置、存储介质以及终端
CN117411939A (zh) 序列化数据解析方法、装置、设备及存储介质
CN116860751A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116186051A (zh) 一种数据更新方法、装置、设备及存储介质
CN116502095A (zh) 一种模型相似度的计算方法和模型更新方法
KR20220030966A (ko) 어노테이션 능력 정보 결정 방법, 장치 및 전자 기기, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램
CN114970724A (zh) 数据标注的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant