KR20180056677A - 유니버셜 번역 - Google Patents

유니버셜 번역 Download PDF

Info

Publication number
KR20180056677A
KR20180056677A KR1020187010359A KR20187010359A KR20180056677A KR 20180056677 A KR20180056677 A KR 20180056677A KR 1020187010359 A KR1020187010359 A KR 1020187010359A KR 20187010359 A KR20187010359 A KR 20187010359A KR 20180056677 A KR20180056677 A KR 20180056677A
Authority
KR
South Korea
Prior art keywords
snippet
language
source language
source
translation
Prior art date
Application number
KR1020187010359A
Other languages
English (en)
Other versions
KR102364163B1 (ko
Inventor
페이 후앙
Original Assignee
페이스북, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북, 인크. filed Critical 페이스북, 인크.
Publication of KR20180056677A publication Critical patent/KR20180056677A/ko
Application granted granted Critical
Publication of KR102364163B1 publication Critical patent/KR102364163B1/ko

Links

Images

Classifications

    • G06F17/275
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • G06F17/218
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

미디어 아이템의 가능성이 높은 소스 언어가 내인성 또는 외인성 인자, 가령 미디어 아이템 내의 단어 및 미디어 아이템 작성자에 의해 알려진 언어에 기반하여 미디어 아이템의 초기 언어 식별을 시도함으로써 식별될 수 있다. 이러한 초기 식별은 대응하는 가능성 인자를 갖는 가장 가능성이 높은 소스 언어들의 리스트를 생성할 수 있다. 번역이 이후 각각의 가장 가능성이 높은 소스 언어를 추정하여 수행될 수 있다. 번역은 다수의 출력 언어들에 대해 수행될 수 있다. 각각의 발생된 번역은 다수의 인자에 기반하여 대응하는 점수를 수신할 수 있다. 점수는 그들이 공통의 소스 언어를 가지는 경우 조합될 수 있다. 이러한 조합된 점수가 미디어 아이템의 소스 언어에 대해 이전에 식별된 가능성 인자에 가중치를 부여하는데 사용될 수 있다.

Description

유니버셜 번역
본 출원은 본 명세서에 전체가 참조로 통합되는 2015년 9월 22일에 출원된 미국 특허출원 제14/861,747호에 대한 우선권을 주장한다.
인터넷은 이전에 상상하지 못했던 방식으로 사람들이 연결하고 글로벌하게 정보를 공유하는 것을 가능하게 만들었다. 예컨대, 소셜 미디어 플랫폼은 세상의 반대측에 있는 사람들이 아이디어 대해 협력하거나, 현재의 이벤트를 논의하거나, 또는 그들이 점심에 무엇을 먹었는지에 관해 공유하는 것을 가능하게 하였다. 과거에는, 이러한 훌륭한 리소스는 공통의 자연어("언어")를 가지는 사용자들 사이에서의 의사소통으로 다소 제한되어 왔다. 추가로, 사용자들은 그들의 언어로 되어 있거나, 또는 컨텐츠 제공자가 시스템 설정이나 네트워크 위치(예컨대, 인터넷 프로토콜("IP") 주소나 언어 식별자)에 기반하여 적절한 번역을 결정할 수 있는 컨텐츠만을 소비할 수 있었다.
세계 전역에서 사용되는 다수의 상이한 언어를 통한 의사소통은 특정한 도전과제로 남아 있지만, 기계 번역 서비스는 이러한 우려를 해결하려고 시도해왔다. 이러한 서비스는 사용자가 웹 양식을 사용하여 텍스트를 제공하고, 하나 이상의 언어를 선택하며, 선택된 언어로 텍스트의 번역을 수신하기 위한 메커니즘을 제공한다. 이러한 서비스가 언어 장벽을 가로질러 의사소통하는 사람들의 능력을 상당히 증가시켰지만, 그들은 사용자들이 분리된 웹사이트를 열고, 그들이 번역을 원하는 언어를 표시하며, 소스 문서의 언어를 식별할 것을 요구할 수 있다. 결과물 번역이 이후 그 분리된 웹사이트에 보여지고, 이는 원래의 소스에 의해 제공되는 컨텍스트로부터 컨텐츠를 제거한다. 일부의 경우 번역 서비스는 번역할 소스 페이지의 부분을 찾지 못할 수 있거나 또는 번역으로부터 발생하는 포맷 변경으로 인해 소스 웹사이트의 판독불가한 버전을 제공할 수 있다. 많은 경우, 사용자들은 이러한 프로세스를 너무 번거롭다고 여기고 인내심을 잃고 다른 웹사이트로 탐색하거나 또는 그들이 이해하지 못하는 텍스트를 단순히 스킵하여 컨텐츠를 수신할 기회를 놓칠 수 있다.
본 발명의 내용 중에 포함되어 있다.
본 발명의 내용 중에 포함되어 있다.
도 1은 개시된 기술의 일부 구현이 동작할 수 있는 장치의 개요를 도시하는 블록도이다.
도 2는 개시된 기술의 일부 구현이 동작할 수 있는 환경의 개요를 도시하는 블록도이다.
도 3은 일부 구현에서, 개시된 기술을 이용하는 시스템에서 사용될 수 있는 컴포넌트를 도시하는 블록도이다.
도 4는 스니펫 소스 언어에 대한 신뢰성 점수를 계산하기 위해 일부 구현에서 사용되는 프로세스를 도시하는 흐름도이다.
도 5a는 스니펫의 점수화된 번역을 생성하기 위해 일부 구현에서 사용되는 하나의 프로세스를 도시하는 흐름도이다.
도 5b는 스니펫의 점수화된 번역을 생성하기 위한 일부 추가 구현에서 사용되는 프로세스를 도시하는 흐름도이다.
도 6은 스니펫 소스 언어에 대한 신뢰성 점수의 계산을 도시하는 예시이다.
본 명세서에서 소개되는 기술은 유사한 참조 번호가 동일하거나 기술적으로 유사한 구성요소를 표시하는 첨부 도면들과 함께 이하의 상세한 설명을 참조함으로써 더 명확히 이해될 수 있다.
본 명세서의 다양한 실시예는 스니펫의 가장 가능성이 높은 소스 언어를 식별하기 위한 방법, 컴퓨터-판독가능한 저장 매체 및 시스템을 포함할 수 있다. 스니펫의 표시가 수신될 수 있다. 스니펫에 대한 둘 이상의 가능한 소스 언어가 결정될 수 있다. 스니펫의 둘 이상의 번역이 생성될 수 있고, 각각은 특정된 번역을 가진다. 스니펫의 둘 이상의 번역 중 적어도 하나는 특정된 번역 소스 언어로서 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성될 수 있고, 스니펫의 둘 이상의 번역 중 적어도 다른 하나는 특정된 번역 소스언어로서 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성될 수 있다. 스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수가 계산될 수 있다. 스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자가 생성될 수 있고, 각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 갖는 하나 이상의 계산된 정확성 점수에 기반하여 생성될 수 있다. 가장 높은 신뢰성 인자와 연관된 스니펫에 대한 가능한 소스 언어가 가장 가능성이 높은 소스 언어로 선택될 수 있다.
일실시예로, 하나 이상의 컴퓨터-판독가능한 비-일시적 저장 매체는 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하도록 실행시 동작하는 소프트웨어를 수록한다.
일실시예로, 시스템은 하나 이상의 프로세서 및 프로세서에 의해 실행가능한 명령어를 포함하고, 프로세서에 결합된 적어도 하나의 메모리를 포함하며, 상기 프로세서는 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하는 명령어를 실행시 동작한다.
일실시예로, 바람직하게는 컴퓨터-판독가능한 비-일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품은 데이터 프로세싱 시스템 상에서 실행될 때 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하도록 동작한다.
본 발명에 따른 실시예는 특히 하나의 청구항 카테고리, 예컨대 방법에서 기재된 임의의 특징이 다른 청구항 카테고리, 예컨대, 시스템에서 또한, 청구될 수 있는, 방법, 저장 매체, 시스템 및 컴퓨터 프로그램 제품에 관한 첨부되는 청구범위에서 개시된다. 첨부된 청구범위에서 인용 또는 되돌아가 참조하는 것은 오로지 형식적인 이유로 선택된 것이다. 하지만, 임의의 이전의 청구항에 대한 의도적인 참조(특히, 다중 인용항)로부터 발생하는 임의의 발명의 대상이 또한, 청구될 수 있어서 첨부되는 청구범위에서 선택된 인용항과 무관하게 청구항과 이들의 특징의 임의의 조합이 개시되고 청구되도록 할 수 있다. 청구될 수 있는 발명의 대상은 첨부된 청구범위에 기재된 특징들의 조합뿐만 아니라 청구항들에서의 특징들의 임의의 다른 조합을 포함함, 청구항에서 언급된 각각의 특징은 청구항에서 임의의 다른 특징이나 다른 특징의 조합과 조합될 수 있다. 게다가, 본 명세서에 기술되거나 도시된 임의의 실시예 및 특징은 본 명세서에 기술되거나 도시된 임의의 실시예 또는 특징을 가지거나 또는 첨부된 청구항의 임의의 특징을 갖는 임의의 조합 및/또는 별도의 청구항에서 청구될 수 있다.
다수의 언어 번역을 점수화함에 기반하는 소스 언어 식별이 개시된다. 가령 기계 번역 엔진을 적용하거나, 스펠링 보정이나 문법 보정을 수행하는 것과 같이 미디어 아이템에 대해 언어 프로세싱을 수행할 때, 미디어 아이템의 소스 언어는 프로세싱 엔진을 위한 파라미터로 제공될 수 있다. 미디어 아이템의 소스 언어를 식별하는 것은, 특히 미디어 아이템의 언어 컨텐츠가 짧거나, 속어 또는 특정 언어와 연관되지 않는 다른 단어를 사용하거나, 식별되지 않는 부분을 가지거나, 또는 에러를 포함하는 경우 어려울 수 있다.
미디어 아이템의 소스 언어 식별은 인자, 가령 그것의 컨텐츠와 컨텍스트에 기반하여 미디어 아이템의 초기 분석을 수행함으로써 달성될 수 있다. 이러한 초기 분석은 하나 이상의 가능성이 높은 소스 언어 및 대응하는 신뢰성 점수를 식별할 수 있다. 미디어 아이템의 다수의 번역이 이후 각각의 최고 점수 소스 언어에 대하여, 미디어 아이템을 다수의 출력 언어로 변환하도록 기계 번역 엔진을 사용하여 수행될 수 있다. 점수는 그 번역의 품질을 나타내는 각각의 번역에 대해 계산될 수 있다. 각 소스 언어에 대응하는 점수들의 세트가 조합되어서 소스 언어에 대응하는 가중 인자를 형성할 수 있다. 이러한 가중 인자는 이후 각 소스 언어에 대응하는 신뢰성 점수를 조정하는데 사용될 수 있다. 가장 높은 조정된 점수를 갖는 소스 언어가 가장 가능성이 높은 소스 언어로 선택될 수 있다.
본 명세서에 사용되는 "소스 언어"는 미디어 아이템이 쓰여졌거나 현재 존재하는 자연어를 지칭한다. 본 명세서에 사용되는 "미디어 아이템"은 텍스트, 오디오, 비디오 등을 포함하는 언어를 이용하는 임의의 컨텐츠일 수 있다. 본 명세서에 사용되는 "언어"는, 인간이 쓰거나, 말하거나 혹은 서명한 언어, 예컨대, 영어, 불어, 중국어 또는 미국 수화(sign language)인 자연어이다. 언어는 국가의 언어, 예컨대, 영어일 필요는 없지만 특정 자연어의 방언이나 변형일 수 있거나, 또는 언어의 별개의 표현, 예컨대, 병음(Pinyin)일 수 있다.
예로서, San Diego Padres에 관한 소셜 미디어 게시물인 미디어 아이템은 스니펫: "Mi Padres r playing on television."을 포함할 수 있다. 단어를 대응하는 언어로만 매칭하는 알고리즘을 사용하는 이러한 스니펫의 초기 분석은, "mi"가 스페인어로 "my"를 의미하지만, 영어로 "my"의 오타일 수 있고; "Padres"가 스페인어로 "fathers"를 의미하지만 특히, 문장의 가운데에서 대문자로 사용될 때 Padres 스포츠팀을 지칭하도록 영어에서 통상적으로 사용되며; "r"은 어떠한 언어와도 맵핑되지 않을 수 있거나 또는 "are"에 대한 대체물 "r"에 대한 공통의 비속어이기 때문에 영어를 약하게 나타낼 수 있고; "television"은 엑센트 없이는 철자가 양 언어에서 동일하므로 영어와 스페인어 사이에서 모호할 수 있기 때문에, .87 점을 갖는 영어와 .91점을 갖는 스페인어를 2개의 최고 점수 소스 언어로 표시할 수 있다.
이 예시로 계속하면, 스니펫의 다수의 번역이 이후 기계 언어 엔진을 사용하여 수행될 수 있다. 번역의 제1 세트가 스니펫을 다수의 출력 언어로 변환하여 수행될 수 있고, 소스 언어를 영어로 설정한다. 번역의 제2 세트가 스니펫을 다수의 출력 언어로 변환하여 수행될 수 있고, 소스 언어를 스페인어로 설정한다. 제1 세트 내의 발생된 번역 각각이 점수화될 수 있고, 이들 점수는 이 예시에서 1.12인 영어 가중 인자로 조합될 수 있다. 제2 세트 내의 발생된 번역 각각이 또한, 점수화될 수 있고, 이들 점수는 이 예시에서 .80인 스페인어 가중 인자로 조합될 수 있다. 영어 가중 인자는, .97의 업데이트된 영어 신뢰성 인자를 받기 위해 그들을 곱함으로써 영어 신뢰성 점수에 적용될 수 있다. 스페인어 가중 인자는, .73의 업데이트된 스페인어 신뢰성 인자를 받기 위해 그들을 곱함으로써 스페인어 신뢰성 점수에 적용될 수 있다. 업데이트된 신뢰성 인자에 기반하여, 영어가 가장 가능성이 높은 소스 언어로 결정될 수 있다.
설명된 기술의 몇몇 구현이 도면을 참조하여 더 상세히 아래에서 논의된다. 이제 도면으로 전환하면, 도 1은 개시된 기술의 일부 구현이 동작할 수 있는 장치(100)의 개관을 도시하는 블록도이다. 장치는 다수의 번역에 기반하여 미디어 아이템 소스 언어를 식별할 수 있는 장치(100)의 하드웨어 컴포넌트를 포함할 수 있다. 장치(100)는 CPU(프로세서)(110)로 입력을 제공하는 하나 이상의 입력 장치(120)를 포함할 수 있고, 이는 그것에게 행위를 알린다. 행위는 입력 장치로부터 수신된 신호를 해석하고 정보를 통신 프로토콜을 사용하여 CPU(110)로 통신하는 하드웨어 컨트롤러에 의해 전형적으로 중재된다. 입력 장치(120)는 예컨대, 마우스, 키보드, 터치스크린, 적외선 센서, 터치패드, 웨어러블 입력 장치, 카메라 또는 이미지-기반 입력 장치, 마이크, 또는 다른 사용자 입력 장치를 포함한다.
CPU(110)는 하나의 장치 내에 또는 다수의 장치에 걸쳐 분산된 단일 프로세싱 유닛 또는 다수의 프로세싱 유닛일 수 있다. CPU(110)는 예컨대, 버스, 가령 PCI 버스나 SCSI 버스를 사용하여 다른 하드웨어 장치에 결합될 수 있다. CPU(110)는 장치, 가령 디스플레이(130)를 위한 하드웨어 컨트롤러와 통신할 수 있다. 디스플레이(130)는 텍스트 및 그래픽을 디스플레이하는데 사용될 수 있다. 일부 예시에서, 디스플레이(130)는 사용자에게 그래픽과 텍스트 시각적 피드백을 제공한다. 일부 구현에서, 디스플레이(130)는 가령, 입력 장치가 터치스크린이거나 안구 방향 모니터링 시스템으로 장착되는 경우에 디스플레이의 일부로서 입력 장치를 포함한다. 일부 구현에서, 디스플레이는 입력 장치로부터 분리된다. 디스플레이 장치의 예시는: LCD 디스플레이 스크린, LED 디스플레이 스크린, 프로젝션된 디스플레이(가령 헤즈-업 디스플레이 장치 또는 헤드-마운트 장치) 등이다. 다른 I/O 장치(140), 가령 네트워크 카드, 비디오 카드, 오디오 카드, USB, 파이어와이어(firewire) 또는 다른 외부 장치, 카메라, 프린터, 스피커, CD-ROM 드라이브, DVD 드라이브, 디스크 드라이브 또는 블루레이 장치가 또한, 프로세서에 결합될 수 있다.
일부 구현에서, 장치(100)는 또한, 네트워크 노드로 무선 또는 유선-기반 통신이 가능한 통신 장치를 포함한다. 통신 장치는 예컨대, TCP/IP 프로토콜을 사용하여 네트워크를 통해 다른 장치나 서버와 통신할 수 있다. 장치(100)는 동작을 다수의 네트워크 장치에 걸쳐 분산하기 위해 통신 장치를 이용할 수 있다.
CPU(100)는 메모리(150)로의 액세스를 가진다. 메모리는 휘발성 및 비-휘발성 저장소를 위한 하나 이상의 다양한 하드웨어 장치를 포함하고, ROM(read-only memory) 및 쓰기가능한 메모리 모두를 포함한다. 예컨대, 메모리는 RAM(random access memory), CPU 레지스터, ROM 및 쓰기가능한 비-휘발성 메모리, 가령 플래시 메모리, 하드 드라이브, 플로피 디스크, CDs, DVDs, 자기 저장 장치, 테이프 드라이브, 장치 버퍼 등을 포함할 수 있다. 메모리는 밑에 놓여진 하드웨어로부터 분리된 전파 신호가 아니고; 따라서, 메모리는 비-일시적이다. 메모리(150)는, 가령 운영 시스템(162), 언어 분류기(164) 및 임의의 다른 애플리케이션 프로그램(166)과 같은 프로그램 및 소프트웨어를 저장하는 프로그램 메모리(160)를 포함할 수 있다. 메모리(150)는 또한, 미디어 아이템; 미디어 아이템 번역 및 번역 엔진; 번역 점수, 조합된 번역 점수 및 점수화 모델; 소스 언어로의 미디어 아이템 맵핑 또는 신뢰성 점수; 구성 데이터; 설정; 및 장치(100)의 임의의 요소나 프로그램 메모리(160)로 제공될 수 있는 사용자 옵션이나 선호도를 포함할 수 있는 데이터 메모리(170)를 또한, 포함할 수 있다.
개시된 기술은 다수의 다른 범용 또는 특수 목적용 컴퓨팅 시스템 환경이나 구성으로 동작한다. 기술과 함께 사용하기 위해 적절할 수 있는 잘-알려진 컴퓨팅 시스템, 환경 및/또는 구성은, 개인용 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 셀룰러 전화, 웨어러블 전자기기, 태블릿 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 세톱 박스, 프로그램가능한 소비자 가전, 네트워크 PCs, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산형 컴퓨팅 환경 등을 포함하지만 이들로 제한되지 않는다.
도 2는 개시된 기술의 일부 구현이 동작할 수 있는 환경(200)의 개관을 도시하는 블록도이다. 환경(200)은 하나 이상의 클라이언트 컴퓨팅 장치들(205A-D)을 포함할 수 있고, 이들의 예시는 장치(100)를 포함할 수 있다. 클라이언트 컴퓨팅 장치(205)는 가령 서버 컴퓨팅 장치와 같은 하나 이상의 원격 컴퓨터로의 네트워크(230)를 통한 로직 연결(210)을 사용하여 네트워킹된 환경에서 동작할 수 있다.
일부 구현에서, 서버(210)는 클라이언트 요청을 수신하고 다른 서버, 가령 서버들(220A-C)을 통해 이러한 요청의 달성을 조정하는 에지 서버일 수 있다. 서버 컴퓨팅 장치(210, 220)는 컴퓨팅 시스템, 가령 장치(100)를 포함할 수 있다. 각 서버 컴퓨팅 장치(210, 220)는 단일 서버로 논리적으로 디스플레이되지만, 서버 컴퓨팅 장치는 각각 동일하거나 지리적으로 별개인 물리적 위치들에 위치한 다수의 컴퓨팅 장치를 포괄하는 분산형 컴퓨팅 환경일 수 있다. 일부 구현에서, 각 서버(220)는 서버들의 그룹에 대응한다.
클라이언트 컴퓨팅 장치(205) 및 서버 컴퓨팅 장치(210, 220)는 각각 다른 서버/클라이언트 장치에 대해 서버 또는 클라이언트로서 역할을 할 수 있다. 서버(210)는 데이터베이스(215)에 연결할 수 있다. 서버들(220A-C)은 각각 대응하는 데이터베이스(225A-C)에 연결할 수 있다. 전술한 바와 같이, 각 서버(220)는 서버들의 그룹에 대응할 수 있고, 이들 서버 각각은 데이터베이스를 공유하거나 그들 자신의 데이터베이스를 가질 수 있다. 데이터베이스(215, 225)는 정보, 가령 미디어 아이템, 미디어 아이템 번역 및 번역 엔진, 번역 점수, 조합된 번역 점수 및 점수화 모델; 또는 미디어 아이템-대-소스 언어 맵핑이나 신뢰성 점수를 웨어하우스(예컨대, 저장)할 수 있다. 데이터베이스(215, 225)는 단일 유닛으로 논리적으로 디스플레이되지만, 데이터베이스(215, 225) 각각은 다수의 컴퓨팅 장치를 포괄하는 분산형 컴퓨팅 환경일 수 있거나, 그들의 대응하는 서버 내에 위치할 수 있거나, 또는 동일한 물리적 위치 또는 지리적으로 별개인 물리적 위치들에 위치할 수 있다.
네트워크(230)는 LAN(local area network) 또는 WAN(wide area network)일 수 있지만, 다른 유선 또는 무선 네트워크일 수도 있다. 네트워크(230)는 인터넷이거나 임의의 다른 공용 또는 사설 네트워크일 수 있다. 클라이언트 컴퓨팅 장치(205)는 네트워크 인터페이스를 통해, 가령 유선이나 무선 통신에 의해 네트워크(230)로 연결될 수 있다. 서버(210)와 서버들(220) 사이의 연결이 분리된 연결들로 도시되지만, 이들 연결은 네트워크(230) 또는 분리된 공용 또는 사설 네트워크를 포함하는 임의의 종류의 로컬, 광역, 유선 또는 무선 네트워크일 수 있다.
본 명세서에 사용되는 "언어 스니펫" 또는 "스니펫"은 하나 이상의 단어 또는 문자 그룹의 디지털 표현이다. 스니펫은 미디어 아이템 또는 미디어 아이템으로부터의 언어의 표현일 수 있다. 이하의 설명은 미디어 아이템에 대해 소스 언어 분류를 수행할 때 스니펫을 지칭하지만, 다른 언어 포맷, 가령 오디오나 비디오 언어 표현이 사용될 수 있다.
도 3은 일부 구현에서, 개시된 기술을 구현하는 시스템에서 사용될 수 있는 컴포넌트들(300)을 도시하는 블록도이다. 컴포넌트(300)는 하드웨어(302), 범용 소프트웨어(320) 및 특수목적용 컴포넌트(340)를 포함한다. 전술한 바와 같이, 개시된 기술을 구현하는 시스템은 중앙 처리 유닛(304), 작업 메모리(306), 저장 메모리(308) 및 입력 및 출력 장치(310)를 포함하는 다양한 하드웨어를 사용할 수 있다. 컴포넌트(300)는 가령 서버 컴퓨팅 장치(210 또는 220)와 같은 서버 컴퓨팅 장치 상에서 또는 클라이언트 컴퓨팅 장치(205)와 같은 클라이언트 컴퓨팅 장치에서 구현될 수 있다.
범용 소프트웨어(320)는 운영 시스템(322), 로컬 프로그램(324) 및 BIOS(326)를 포함하는 다양한 애플리케이션을 포함할 수 있다. 특수목적용 컴포넌트(340)는 가령 로컬 프로그램(324)과 같은 범용 소프트웨어 애플리케이션(320)의 서브컴포넌트일 수 있다. 특수목적용 컴포넌트(340)는 번역-전 언어 식별자(344), 번역기(346), 번역 점수화 모델(348), 신뢰성 점수 생성기(350) 및 가령 인터페이스(342)와 같은 특수목적용 컴포넌트로부터 데이터를 수신하고 제어하기 위해 사용될 수 있는 컴포넌트를 포함할 수 있다. 일부 구현에서, 컴포넌트(300)는 다수의 컴퓨팅 장치들에 걸쳐 분산된 컴퓨팅 시스템 내에 있을 수 있거나 서버-기반 애플리케이션으로의 인터페이스를 포함할 수 있다.
번역-전 언어 식별자(344)는 스니펫, 가령 인터페이스(342)를 통해 수신된 스니펫의 초기 소스 언어 분류를 수행하도록 구성될 수 있다. 이러한 초기 소스 언어 분류는 대응하는 신뢰성 점수를 갖는 스니펫의 하나 이상의 언어를 식별할 수 있다. 식별된 언어는 그들의 신뢰성 값에 기반하여 분류될 수 있고, 임계 레벨보다 높은 신뢰성 점수를 갖는 언어들이 추가 분석을 위해 선택될 수 있다. 예컨대, 임계 레벨은 1, 3, 5, 또는 10개의 잠재 소스 언어일 수 있고, 상위 1, 3, 5, 10, 25 또는 50% 임계 소스 언어; 50%, 60%, 75%, 80% 또는 90%보다 높은 신뢰성 값을 갖는 모든 잠재 소스 언어; 또는 모든 잠재 소스 언어가 추가 분석을 위해 선택될 수 있다. 초기 소스 언어 분류는 스니펫의 컨텐츠의 분석, 가령 어떤 단어가 사용되는지, 스니펫에서의 구조 및 문법, 사용된 비속어 용어, 구두법 등에 기반할 수 있다. 초기 소스 언어 분류는 또한, 스니펫의 컨텍스트의 분석, 가령 작성자가 누구인지와 그들에 관해 무엇이 알려지는지, 그들의 친구가 누구인지, 언제 스니펫이 생성되었는지, 어디서 스니펫이 게시되었는지 및 어떤 다른 정보가 그 위치에서 다른 아이템들에 관해 이용가능한지 등에 기반할 수 있다. 이러한 방식으로 미디어 아이템을 분류하는 예시는 본 명세서에 참조로 통합되는 미국 특허출원 제14/302,032호에 더 상세히 논의된다.
번역기(346)는 하나 이상의 기계 번역 엔진일 수 있다. 기계 번역 생성 엔진은 스니펫을 입력으로 취하는 프로그램일 수 있고, 다른 언어나 방언으로 스니펫의 버전을 생성할 수 있다. 일부 구현에서, 번역기(346) 중 하나는 특정 소스 언어, 출력 언어 또는 둘 모두에 대한 번역을 수행하기 위한 설정일 수 있다. 일부 구현에서, 번역기(346)가 다수의 소스 언어로부터 또는 번역기로 제공되는 파라미터에 의해 정의되는 다수의 출력 언어로의 번역을 수행하기 위한 설정일 수 있다. 번역기(346)는 소스 언어로부터 출력 언어로의 스니펫의 변환을 수행하기 위해 다양한 언어 모델, 규칙들의 세트 또는 다른 알고리즘을 사용할 수 있다. 다양한 소스/출력 언어 또는 소스/출력 언어 파라미터에 대한 번역이 임계 레벨보다 높은 신뢰성 값을 갖는 언어에 기반하여 번역-전 언어 식별자(344)에 의한 추가 분석을 위해 선택될 수 있다.
번역 점수화 모델(348)은 번역기(346)로부터 번역을 수신할 수 있고, 번역의 품질의 추정을 제공하도록 구성될 수 있다. 일부 구현에서, 번역 점수화 모델(348)은 번역에 대한 점수를 제공할 수 있는 가령 뉴럴 네트워크와 같은 하나 이상의 트레이닝된 모델일 수 있다. 일부 구현에서, 번역 점수화 모델(348) 중 하나가 특정 소스 언어, 출력 언어 또는 둘 모두에 대한 번역의 분석을 수행하기 위한 설정일 수 있다. 일부 구현에서, 번역 점수화 모델(348) 중 하나는 다수의 소스 언어 또는 다수의 출력 언어로의 분석을 수행하기 위한 설정일 수 있다. 번역 점수화 모델(348)은 각 번역에 대한 점수를 제공할 수 있다. 일부 구현에서, 번역기(346)는 동일한 소스 언어 및 다수의 상이한 출력 언어를 적용하는 스니펫의 다수의 번역을 생성하도록 선택 또는 구성될 수 있다. 이러한 경우, 소스 언어에 대한 조합된 점수가, 가령 소스 언어를 공유하는 번역에 대한 다양한 점수를 평균화함으로써 생성될 수 있다. 점수는 번역-전 언어 식별자(344)에 의해 생성된 신뢰성 점수에 대한 가중 인자가 되도록 구성될 수 있다. 예컨대, 1의 점수는 중립 점수일 수 있고, .9의 점수는 신뢰성 값을 10% 감소시킬 수 있고, 1.1의 점수는 신뢰성 값을 10% 증가시킬 수 있다.
신뢰성 점수 생성기(350)는 번역 점수화 모델(348)로부터 가중 인자를 수신하고 번역-전 언어 식별자(344)로부터 식별된 가능한 소스 언어에 대한 신뢰성 점수를 수신할 수 있다. 신뢰성 점수 생성기(350)는 이후 가중 인자를 사용하여 식별된 가능한 소스 언어의 신뢰성 점수를 업데이트할 수 있다. 가장 높은 업데이트된 신뢰성 값을 갖는 발생된 식별된 가능한 소스 언어가 스니펫에 대해 가장 가능성이 높은 소스 언어로 선택될 수 있다. 이러한 식별은 인터페이스(342)를 통해 리턴될 수 있다.
통상의 기술자는 전술한 도 1 내지 3에 도시되고, 이하에서 논의되는 흐름도 각각에서의 컴포넌트가 다양한 방식으로 변경될 수 있음을 인식할 것이다. 예컨대, 논리의 순서는 재정렬될 수 있고, 서브단계들은 병렬로 수행될 수 있으며, 도시된 논리는 생략될 수 있고, 다른 논리가 포함될 수 있는 등이 가능하다.
도 4는 스니펫 소스 언어에 대한 신뢰성 점수를 계산하기 위해 일부 구현에서 사용되는 프로세스(400)를 도시하는 흐름도이다. 프로세스(400)는 블록(402)에서 시작되어 블록(404)으로 계속된다. 블록(404)에서, 프로세스(400)는 소스 언어가 결정될 스니펫을 수신할 수 있다. 다양한 구현에서, 스니펫은 낮은 신뢰성 점수를 갖는 스니펫에 대한 식별된 소스 언어 또는 가령 작성자가 유명인이거나 다수의 사람들에 의해 통상적으로 보여지거나/공유되는 스니펫을 생성하는 사람이거나, 스니펫의 토픽이 다수의 사람들의 관심을 끄는 인기있는 이슈에 관한 것이거나 또는 스니펫이 그것의 생성 이후에 짧은 시간 동안 많은 참여를 가진 경우와 같은 스니펫이 중요하거나 또는 거대한 독자층을 가진다는 표시에 기반하여 프로세스(400)를 위해 선택될 수 있다.
블록(406)에서, 프로세스(400)는 블록(404)에서 수신된 스니펫에 대해 초기 소스 언어 식별을 수행할 수 있다. 스니펫의 초기 소스 언어 식별의 수행은 스니펫의 컨텐츠 및/또는 컨텍스트를 분석하는 것을 포함할 수 있다. 스니펫의 컨텐츠의 분석은 스니펫의 어떤 단어들이 어떤 언어로 매치업되는지; 스니펫 내의 문법이 특정 언어를 표시하는지 여부; 스니펫 내의 언어의 구조가 특정 언어를 표시하는지 여부; 엑센트 표시와 같은 구두법이 사용되는지 여부; 어떤 타입의 문자가 사용되는지 여부 등의 결정을 포함할 수 있다. 스니펫의 컨텍스트의 분석은 스니펫이 생성된 시간이 특정 언어나 지역을 표시하는지 여부의 결정; 스니펫이 게시된 가상 위치 또는 그 위치에서의 다른 미디어 아이템이 특정 언어를 표시하는지 여부; 또는 스니펫의 작성자에 관해 이용가능한 정보가 특정 언어를 표시하는지 여부의 결정을 포함할 수 있다. 예컨대, 스니펫은 그것의 작성자나 작성자의 친구들에 의해 알려진 언어로 쓰여질 가능성이 높다. 초기 소스 언어 식별의 수행에 관한 추가적인 세부사항은 미국 특허출원 제14/302,032호에서 찾을 수 있다. 일부 구현에서, 초기 소스 언어의 식별은 신뢰성 값을 포함할 수 있다. 신뢰성 값은 컨텐츠로부터의 타입이나 인자, 소스 언어 식별을 양산한 컨텍스트 분석 또는 얼마나 강하게 하나 이상의 인자가 특정 언어를 표시하는지에 기반할 수 있다.
블록(408)에서, 하나 이상의 상위 가장 가능성이 높은 소스 언어가 식별될 수 있다. 이는 예컨대, 임계치보다 높은 신뢰성 값을 갖는 잠재 소스 언어를 선택함으로써 달성될 수 있다. 일부 구현에서, 상위 가장 가능성이 높은 소스 언어의 선택은 모든 잠재 소스 언어를 선택하는 것을 포함할 수 있다.
블록(410)에서 프로세스(400)는 블록(408)에서 결정된 상위 가장 가능성이 높은 소스 언어에 대한 점수화된 번역을 생성할 수 있다. 점수화된 번역을 생성하는 것은, 상이한 소스 또는 출력 언어를 위해 구성된 번역기를 스니펫에 적용하는 것; 발생된 번역에 점수화 모델을 적용하는 것; 및 다수의 번역이 동일한 소스 언어를 위해 생성된 경우, 동일한 소스 언어를 갖는 번역에 대한 점수를 조합하는 것을 포함할 수 있다. 점수화된 번역의 생성과 관련된 추가적인 세부사항이 특징 5A 및 5B와 관련하여 아래에서 논의된다. 일부 구현에서, 블록(406, 408)은 스킵될 수 있거나, 오로지 단순화된 가장 가능성이 높은 언어 분석만이 수행될 수 있다. 블록(406, 408)이 스킵된다면, 블록(410)이 모든 가능한 소스 언어에 대해 또는 공통 소스 언어의 특정된 세트에 대해 수행될 수 있다.
블록(412)에서, 프로세스(400)는 블록(406)에서 식별된 가능한 소스 언어 중 하나 이상에 대한 신뢰성 인자를 조정할 수 있다. 일부 구현에서, 블록(410)으로부터의 점수는 가중 인자일 수 있다. 일부 구현에서, 신뢰성 값의 조정은 블록(410)으로부터의 가중 인자에 블록(406)에서 결정된 신뢰성 값을 곱하는 것을 포함할 수 있다. 일부 구현에서, 블록(410)에서 결정된 특정 소스 언어에 대응하는 점수는 블록(406)에서 결정된 값들을 대체함으로써 업데이트된 신뢰성 값으로 사용될 수 있다. 가장 높은 조정된 신뢰성 값을 갖는 잠재 소스 언어가 수신된 스니펫에 대한 가장 가능성 높은 소스 언어로 선택될 수 있다. 이러한 가장 가능성 높은 소스 언어에 대응하는 하나 이상의 번역 또는 가장 가능성 높은 소스 언어의 식별이 리턴될 수 있다. 프로세스(400)는 그것이 종료되는 블록(414)으로 계속된다.
도 5a는 스니펫의 점수화된 번역을 생성하기 위해 일부 구현에서 사용되는 프로세스(500)를 도시하는 흐름도이다. 아래에서 논의되는 것처럼, 일부 구현에서, 프로세스(500)는 다수의 잠재 소스 언어 각각에 대해 상이한 출력 언어를 갖는 번역들을 생성할 수 있다. 이것은 계산적으로 집중적인 절차일 수 있고, 따라서 가령 게시물이 디스플레이되도록 선택되기 전에 소셜 미디어 사이트로의 게시물의 생성하는 시간에 "오프라인"으로 수행될 수 있다. 프로세스(500)는 블록(502)에서 시작되어 블록(504)으로 계속된다. 블록(504)에서 프로세스(500)는 스니펫을 수신할 수 있다. 일부 구현에서, 스니펫은 블록(404)에서 프로세스(400)에 의해 수신된 것일 수 있다.
블록(506)에서, 프로세스(500)는 하나 이상의 번역기를 획득할 수 있다. 일부 구현에서, 획득된 번역은 하나 이상의 기계 번역 엔진일 수 있다. 번역기가 아래에서 특정 소스 또는 출력 언어를 위해 개별적으로 구성되는 것으로 논의되지만, 일부 구현에서, 동일한 번역기가 소스 또는 출력 언어가 적용될 파라미터를 설정함으로써 다수의 소스 또는 출력 언어를 위해 사용될 수 있다. 다양한 구현에서, 번역기는 특정 출력 언어를 위해 구성될 수 있거나 다수의 출력 언어를 위해 구성될 수 있다. 일부 구현에서, 획득된 번역기는 블록(406)에서 프로세스에 의해 결정될 수 있는 것처럼 수신된 스니펫에 대해 가능성이 높은 소스 언어로 결정된 소스 언어에 대응할 수 있다.
블록(508)에서, 제1 획득된 번역기가 선택된 번역기로 설정된다. 블록(510)에서, 특정 소스 언어를 추정하고 특정 출력 언어를 생성하는 선택된 번역기가 수신된 스니펫에 적용될 수 있고, 스니펫의 번역을 생성한다. 블록(512)에서, 프로세스(510)는 블록(510)에서 생성된 번역에 대한 점수를 계산할 수 있다. 일부 구현에서, 모델은 소스 및 출력 언어가 주어지면 번역의 신뢰성 점수를 계산할 수 있다. 일부 구현에서, 점수화 모델이 가령 뉴럴 네트워크와 같은 구성으로 트레이닝될 수 있거나, 다른 분석 기술, 가령 문법 분석 및 결정 트리를 사용할 수 있다.
블록(514)에서, 프로세스(500)는 블록(506)에서 획득된 번역기 중 임의의 것이 수신된 스니펫에 적용되지 않았는지 여부를 결정할 수 있다. 그렇다면, 프로세스(500)는 블록(516)으로 계속된다. 그렇지 않다면, 프로세스(500)는 블록(518)으로 계속된다. 블록(516)에서 프로세스(500)는 블록(506)에서 수신된 번역기로부터 선택된 번역기로서 다음의 사용되지 않은 번역기를 설정한다. 블록(510) 내지 블록(516) 사이의 루프는 블록(506)에서 보류된 각각의 번역기에 대응하는 점수화된 번역이 획득될 때까지 계속될 것이다.
블록(518)에서, 동일한 소스 언어를 갖지만 상이한 출력 언어를 갖는 다수의 번역이 있다면, 동일한 소스 언어를 갖는 번역에 대한 점수가 가령 평균을 냄으로써 조합될 수 있다. 블록(520)에서, 블록(518)에서 계산된 조합된 점수 또는 블록(512)에서 계산된 점수가 리턴될 수 있다. 일부 구현에서, 대응하는 번역이 또한, 리턴될 수 있다. 프로세스(500)는 이후 그것이 종료되는 블록(522)으로 진행된다.
도 5b는 스니펫의 점수화된 번역을 생성하기 위한 일부 추가적인 구현에서 사용되는 프로세스(550)를 도시하는 흐름도이다. 프로세스(550)는 프로세스(500)보다 덜 계산적으로 비용이 들 수 있다. 따라서, 프로세스(558)는, 가령 스니펫에 대한 요청이 이루어진 후와 같이 신속함이 필수적인 때에 사용될 수 있다. 프로세스(550)는 블록(552)에서 시작되어 블록(554)으로 계속된다. 블록(554)에서 프로세스(550)는 스니펫을 수신할 수 있다. 일부 구현에서, 수신된 스니펫은 블록(404)에서 수신된 것일 수 있다.
블록(556)에서, 스니펫을 포함하는 컨텐츠를 요청한 사용자의 신원이 수신될 수 있다. 블록(558)에서, 블록(556)에서 식별된 사용자와 연관된 언어가 식별될 수 있다. 사용자와 연관된 언어의 식별은, 사용자에 대해 명시된 설정, 예컨대, 브라우저 설정이나 프로필 설정; 사용자가 생성한 컨텐츠 아이템과 연관된 언어의 이력; 사용자가 상호작용하는 경향을 갖는 컨텐츠 아이템; 사용자의 친구들과 연관된 언어 등과 같은 인자에 기반할 수 있다. 사용자와 연관된 언어의 식별에 관한 추가적인 세부사항은 미국 특허출원 제14/302,032호에서 찾을 수 있다.
블록(560)에서, 프로세스(550)는 번역기, 예컨대, 블록(558)에서 식별된 언어에 대응하는 출력 언어로 다양한 소스 언어에 대한 번역을 생성하는 기계 번역 엔진을 획득할 수 있다. 일부 구현에서, 획득된 번역기는 블록(408)에서 식별된 상위 가장 가능성 높은 소스 언어 중 하나에 대응하는 소스 언어를 명시하는 것들로 제한될 수 있다.
블록(562)에서, 블록(560)에서 획득된 번역이 수신된 스니펫의 하나 이상의 번역을 획득하기 위해 블록(552)에서 수신된 스니펫에 적용될 수 있다. 각각의 적용된 번역기는 특정 소스 언어를 추정할 수 있고, 블록(558)에서 식별된 언어로 번역을 생성할 수 있다. 블록(564)에서, 프로세스(550)는 블록(562)에서 생성된 번역을 점수화할 수 있다. 블록(512)과 관련하여 위에서 논의한 바와 같이, 번역 결과의 점수화는 점수화 모델을 적용하는 것을 포함할 수 있다. 점수화 모델은 번역 및 소스 스니펫을 취할 수 있고, 가령 명시된 소스나 출력 언어와 같은 파라미터에 기반할 수 있는 번역에 대한 품질 점수를 계산할 수 있다.
블록(566)에서, 프로세스(550)는 번역 점수를 리턴할 수 있다. 일부 구현에서, 프로세스(550)는 또한, 대응하는 번역을 리턴할 수 있다. 프로세스(550)는 이후 그것이 종료되는 블록(568)으로 계속될 수 있다.
도 6은 스니펫의 가능한 소스 언어들에 대한 신뢰성 점수의 계산을 도시하는 예시(600)이다. 예시(600)는 스니펫(602), 언어 식별자(604), 초기 소스 언어 점수(606), 번역기(608), 번역 점수화 모델(610), 번역 점수(612), 점수 업데이터(614) 및 업데이트된 소스 언어 점수(616)를 포함한다. 스니펫(602)은 블록(404)과 관련하여 위에서 논의된 스니펫에 대응할 수 있다. 언어 식별자(604)는 블록(344)과 관련하여 위에서 논의된 번역-전 언어 식별자에 대응할 수 있다. 번역기(608)는 블록(346)과 관련하여 위에서 논의된 번역기에 대응할 수 있다. 번역 점수화 모델(610)은 블록(348)과 관련하여 위에서 논의된 번역 점수화 모델에 대응할 수 있다. 점수 업데이터(614)는 블록(350)과 관련하여 위에서 논의된 신뢰성 점수 생성기에 대응할 수 있다.
예시(600)에서, 스니펫이 단계(650)에서 언어 식별자(604)로 제공된다. 이 예시에서, 스니펫은 "Check it: sto imparando un nouveau langua!"를 포함한다. 이 스니펫은 몇몇 언어의 특징을 가진다: "Check it"(영어); sto imparando (이탈리아어); un(불어, 이탈리아어 또는 스페인어의 잘못된 철자); nouveau(불어); langua(불어, 이탈리아어 또는 스페인어 중 임의의 것에서의 가까운 잘못된 철자). 또한, 이 스니펫은 일반적으로 스페인어를 말하는 것으로 알려졌지만, 다수의 불어를 사용하는 친구들을 가진 사용자에 의해 불어로 쓰여진 기사에 대한 소셜 미디어 웹사이트 상의 코멘트 섹션에 게시되었고, 대부분 영어 사용자를 갖는 미국에서의 위치와 연관된 IP 주소로부터 게시되었다. 예시(600)의 단계(652)에서, 언어 식별자(604)는 초기 소스 언어 점수(606)를 식별할 수 있다. 단계(652)에서 초기 소스 언어 점수(606)를 식별하는 것은 블록(406)에 대응할 수 있다. 위의 요소에 기반하여, 예시(600)에서 불어가 최고 점수를 갖는 가장 가능성이 높은 소스 언어이며, 스페인어가 가까운 2등이며, 이탈리아어가 또한, 75%가 넘는 가능성을 가진다.
예시(600)에서, 이 스니펫은 상위 점수의 가능한 소스 언어들의 근접성으로 인해 그리고 작성자가 다수의 다른 사용자들이 소셜 미디어 사이트로의 그녀의 게시물을 본 이력을 가진 유명인이기 때문에 추가 분석을 위해 선택된다. 따라서, 단계(654a-654e)에서, 스니펫은 스니펫의 다수의 번역을 수행하도록 번역기(608)로 제공되고, 각각은 소스 언어 및 출력 언어의 상이한 조합을 사용한다. 예시(600)에서, 50%의 임계 초기 신뢰성 인자가 설정되어서 잠재 소스 언어: 불어, 스페인어, 이탈리아어, 영어 및 독일어에 대해, 이들이 예시(600)에서 50% 넘는 초기 신뢰성 점수를 갖는 가능한 소스 언어이기 때문에 번역이 수행되도록 한다. 단계(654a)에서, 예컨대, 스니펫은, 불어를 소스 언어로 가정하고 스페인어, 중국어, 일본어 및 다른 언어를 포함하는 출력 언어로 번역을 생성하여 번역된다. 상이한 소스 및 출력 언어에 대해 번역을 생성하기 위해 번역기를 사용하는 것은 블록(508-510)에 대응할 수 있다.
단계(656)에서, 발생된 번역은 번역 점수화 모델(610)로 제공될 수 있다. 단계(658)에서, 번역 점수화 모델(610)은 각각의 번역을 점수화하고, 공통 소스 언어를 가지는 번역에 대해 조합된 점수를 결정할 수 있다. 예시(600)에서, 이탈리아어의 소스 언어를 갖는 번역은 출력 언어에 대해 점수를 수신하였다: 스페인어 1.12, 중국어 1.32, 일본어 .87, 영어 .99, 불어 1.21 및 다른 점수들. 이탈리아 소스 언어에 대한 이들 점수의 조합은, 예컨대 1.09이다. 점수 및 소스 언어에 대한 조합 점수를 결정하는 것은 블록(512, 518)에 대응할 수 있다.
단계(660, 662)에서, 초기 소스 언어 점수(606) 및 조합된 번역 점수(612)가 점수 업데이터(614)로 제공된다. 단계(664)에서, 점수 업데이터(614)는 상위 점수 초기 소스 언어 점수(606)에 대한 가중 인자로서 조합된 번역 점수(612)를 사용함으로써 업데이트된 소스 언어 점수(616)를 제공할 수 있다. 예컨대, 이탈리아어는 그것의 조합된 번역 점수 1.09를 곱한 그것의 초기 소스 언어 점수 .78의 곱셈에 기반하여 가장 가능성이 높은 소스 언어로 결정된다. 업데이트된 소스 언어 신뢰성 점수를 결정하기 위해 초기 소스 언어 점수를 업데이트하는 것은 블록(412)에 대응할 수 있다. 예시(600)에서, 이탈리아어가 가장 높은 업데이트된 소스 언어 신뢰성 점수를 갖기 때문에 스니펫(602)에 대해 가장 가능성이 높은 소스 언어로서 이제 선택될 수 있다.
개시된 기술에 대한 몇몇 구현이 도면을 참조하여 위에서 설명된다. 설명된 기술이 구현될 수 있는 컴퓨팅 장치는 하나 이상의 중앙 처리 유닛, 메모리, 입력 장치(예컨대, 키보드와 포인팅 장치), 출력 장치(예컨대, 디스플레이 장치), 저장 장치(예컨대, 디스크 드라이브), 및 네트워크 장치(예컨대, 네트워크 인터페이스)를 포함할 수 있다. 메모리와 저장 장치는 설명된 기술의 부분들을 적어도 구현하는 명령어를 저장할 수 있는 컴퓨터-판독가능한 저장 매체다. 추가로, 데이터 구조 및 메시지 구조가 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 송신되거나 저장될 수 있다. 다양한 통신 링크, 가령 인터넷, LAN, WAN, 또는 점대점 다이얼업 연결이 사용될 수 있다. 따라서, 컴퓨터-판독가능한 매체는 컴퓨터-판독가능한 저장 매체(예컨대, "비-일시적" 매체)와 컴퓨터-판독가능한 전송 매체를 포함할 수 있다.
본 명세서에 사용되는 것처럼, 임계치보다 높다는 것은 비교되는 아이템에 대한 값이 명시된 다른 값보다 높거나, 비교되는 아이템이 가장 큰 값을 갖는 특정 명시된 개수의 아이템 사이에 있거나, 또는 비교되는 아이템이 명시된 상위 퍼센티지 값 내의 값을 가진다는 것을 의미한다. 본 명세서에 사용되는 것처럼, 임계치보다 낮다는 것은 비교되는 아이템에 대한 값이 명시된 다른 값보다 낮거나, 비교되는 아이템이 가장 작은 값을 갖는 특정 명시된 개수의 아이템들 중에 있거나, 비교되는 아이템이 명시된 하위 퍼센티지 값 내의 값을 가진다는 것을 의미한다. 본 명세서에 사용되는 것처럼, 임계치 내에 있다는 것은 비교되는 아이템에 대한 값이 2개의 명시된 다른 값들 사이에 있거나, 비교되는 아이템이 중앙의 명시된 개수의 아이템들 사이에 있거나, 비교되는 아이템이 중앙의 명시된 퍼센티지 범위 내의 값을 가진다는 것을 의미한다.
본 명세서에 사용되는 것처럼, 단어 "or"은 아이템들의 세트의 임의의 가능한 순열을 지칭한다. 예컨대, 구절 "A, B 또는 C"는, A, B, C 또는 이들의 임의의 조합 중 적어도 하나, 가령: A; B; C; A 및 B; A 및 C; B 및 C; A, B, 및 C를 지칭하거나; 또는 임의의 아이템들의 배수, 가령 A 및 A; B, B 및 C; A, A, B, C 및 C 등을 지칭한다.
비록 발명의 대상이 구조적 특징 및/또는 방법론적 행위들에 특정되는 언어로 설명되었지만, 첨부되는 청구범위에서 정의된 발명의 대상은 위에서 기술된 특정 특징이나 행위들로 필수적으로 제한되는 것이 아니라는 것이 이해될 것이다. 특정 실시예 및 구현이 예시의 목적으로 본 명세서에 기술되었지만, 다양한 수정이 실시예 및 구현의 범위로부터 벗어남이 없이 이루어질 수 있다. 위에서 기술된 특정 특징 및 행위는 후속하는 청구항들을 구현하는 예시적인 형태로 개시된다. 따라서, 실시예 및 구현은 예외적으로 첨부된 청구항들에 의하지 않고서는 제한되지 않는다.
위에서 언급된 임의의 특허권, 특허출원 및 다른 참조문헌이 본 명세서에 참조로 통합된다. 필요하다면, 더 추가적인 구현을 제공하기 위해 전술한 다양한 참조문헌의 시스템, 기능 및 개념을 이용하도록 양태가 수정될 수 있다. 참조로 통합된 문서에서의 서술이나 발명의 대상이 본 출원의 서술이나 발명의 대상과 상충된다면, 이후 본 출원이 통제할 것이다.

Claims (35)

  1. 스니펫(snippet)의 가장 가능성이 높은 소스 언어를 식별하는 방법으로서,
    스니펫의 표시를 수신하는 단계;
    스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하는 단계;
    각각 명시된 번역 소스 언어를 가지는 스니펫의 둘 이상의 번역을 생성하는 단계;
    스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하는 단계;
    스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하는 단계; 및
    가장 높은 신뢰성 인자와 연관된 스니펫에 대한 가능한 소스 언어를 가장 가능성이 높은 소스 언어로 선택하는 단계를 포함하고,
    스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되는 소스 언어를 식별하는 방법.
  2. 제 1 항에 있어서,
    스니펫의 둘 이상의 번역 중 적어도 하나는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역을 포함하고;
    정확성 점수를 계산하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수를 계산하는 단계를 포함하고,
    각각의 조합된 정확성 점수를 계산하는 것은 공통의 명시된 번역 소스 언어를 가지는 다수의 번역 각각에 대응하는 개별 정확성 점수를 조합함으로써 수행되며, 및
    공통의 명시된 번역 소스 언어에 대한 신뢰성 인자를 생성하는 것은 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수에 기반하는 소스 언어를 식별하는 방법.
  3. 제 2 항에 있어서,
    스니펫에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
    스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며,
    각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하고, 및
    가능한 소스 언어 중 적어도 선택된 하나에 대한 신뢰성 인자를 생성하는 것은 가능한 소스 언어 중 선택된 하나에 대응하는 조합된 정확성 점수를 사용하여 가능한 소스 언어 중 선택된 하나에 대한 초기 신뢰성 값을 업데이트하는 것을 포함하는 소스 언어를 식별하는 방법.
  4. 제 2 항에 있어서,
    공통의 명시된 번역 소스 언어에 대한 신뢰성 인자는 조합된 정확성 점수인 소스 언어를 식별하는 방법.
  5. 제 1 항에 있어서,
    스니펫에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
    스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
    각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하는 소스 언어를 식별하는 방법.
  6. 제 5 항에 있어서,
    둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 소스 언어를 식별하는 방법.
  7. 제 5 항에 있어서,
    스니펫에 대한 초기 소스 언어 식별을 수행하는 것은 스니펫의 컨텍스트의 분석을 포함하는 소스 언어를 식별하는 방법.
  8. 제 7 항에 있어서,
    스니펫의 컨텍스트의 분석은:
    스니펫의 작성자(author)에게 쉬운 것으로 알려진 언어;
    스니펫의 작성자의 친구로 식별된 사용자와 연관된 언어;
    스니펫이 생성된 때;
    스니펫이 게시된 가상의 위치에 대한 정보; 또는
    이들의 임의의 조합 중 하나 이상을 사용하는 소스 언어를 식별하는 방법.
  9. 제 1 항에 있어서,
    스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 스니펫의 가장 가능성이 높은 소스 언어로 선택된 언어인 번역을 스니펫의 번역으로 선택하는 단계를 더 포함하는 소스 언어를 식별하는 방법.
  10. 제 1 항에 있어서,
    스니펫의 열람 사용자의 표시를 수신하는 단계; 및
    스니펫의 열람 사용자와 연관된 출력 언어를 결정하는 단계를 더 포함하고,
    스니펫의 생성된 둘 이상의 번역은 각각 스니펫의 열람 사용자와 연관된 출력 언어에 매칭하는 출력 언어로 되어 있는 소스 언어를 식별하는 방법.
  11. 제 1 항에 있어서,
    정확성 점수를 계산하는 것은 입력 스니펫, 출력 스니펫 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수를 생성하도록 트레이닝되는 번역 점수화 모델에 의해 수행되는 소스 언어를 식별하는 방법.
  12. 제 1 항에 있어서,
    방법은 스니펫의 번역을 요구하는 요청에 응답하여 수행되는 소스 언어를 식별하는 방법.
  13. 제 1 항에 있어서,
    방법은 스니펫의 생성 또는 소셜 미디어 웹사이트로 스니펫을 게시하는 것에 응답하여 수행되는 소스 언어를 식별하는 방법.
  14. 컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템으로 하여금 스니펫 소스 언어에 대한 신뢰성 인자를 식별하기 위한 동작을 수행하도록 야기하는 명령어를 포함하고, 상기 동작은:
    스니펫의 표시를 수신하는 것;
    스니펫의 열람자의 표시를 수신하는 것;
    스니펫의 열람자와 연관된 출력 언어를 결정하는 것;
    명시된 번역 소스 언어를 각각 가지고 스니펫의 열람자와 연관된 출력 언어와 매칭하는 출력 언어로 각각 되어 있는 둘 이상의 번역의 스니펫의 둘 이상의 번역을 생성하는 것;
    스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하는 것; 및
    스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하는 것을 포함하고,
    스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되는 컴퓨터-판독가능한 저장 매체.
  15. 제 14 항에 있어서,
    동작은:
    스니펫에 대한 초기 소스 언어 식별을 수행하는 것을 더 포함하고,
    스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
    각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하는 컴퓨터-판독가능한 저장 매체.
  16. 제 15 항에 있어서,
    둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 컴퓨터-판독가능한 저장 매체.
  17. 제 14 항에 있어서,
    동작은:
    스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자를 갖는 언어인 번역을 스니펫의 번역으로 선택하는 것을 더 포함하는 컴퓨터-판독가능한 저장 매체.
  18. 제 14 항에 있어서,
    정확성 점수를 계산하는 것은 입력 스니펫, 출력 스니펫 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수를 생성하도록 트레이닝되는 번역 점수화 모델에 의해 수행되는 컴퓨터-판독가능한 저장 매체.
  19. 스니펫의 번역을 생성하기 위한 시스템으로서,
    메모리;
    하나 이상의 프로세서;
    스니펫의 표시를 수신하도록 구성되는 인터페이스;
    스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되는 번역-전 언어 식별자;
    각각 명시된 번역 소스 언어를 가지는 스니펫의 둘 이상의 번역을 생성하도록 구성되는 번역기;
    스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하도록 구성되는 번역 점수화 모델; 및
    스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하도록 구성되는 신뢰성 점수 생성기를 포함하고,
    스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 갖는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되고,
    인터페이스는 스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자를 갖는 가능한 소스 언어인 번역을 스니펫의 번역으로 제공하도록 더 구성되는 스니펫의 번역을 생성하기 위한 시스템.
  20. 제 19 항에 있어서,
    번역-전 언어 식별자는:
    스니펫에 대한 초기 소스 언어 식별을 수행함으로써, 스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되고,
    스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 가능한 소스 언어 중 하나 이상을 식별하고,
    각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하고; 및
    둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 스니펫의 번역을 생성하기 위한 시스템.
  21. 스니펫(602)의 가장 가능성이 높은 소스 언어를 식별하는 컴퓨터-구현 방법으로서,
    스니펫(602)의 표시를 수신하는 단계;
    스니펫(602)에 대한 둘 이상의 가능한 소스 언어를 결정하는 단계;
    기계 번역 엔진을 사용하여, 명시된 번역 소스 언어를 각각 가지는 스니펫(602)의 둘 이상의 번역을 생성하는 단계;
    스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하는 단계;
    스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하는 단계; 및
    가장 높은 신뢰성 인자(616)와 연관된 스니펫(602)에 대한 가능한 소스 언어를 가장 가능성이 높은 소스 언어로 선택하는 단계를 포함하고,
    스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되는 소스 언어를 식별하는 컴퓨터-구현 방법.
  22. 제 21 항에 있어서,
    스니펫(602)의 둘 이상의 번역 중 적어도 하나는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역을 포함하고;
    정확성 점수(612)를 계산하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수(612)를 계산하는 단계를 포함하고,
    각각의 조합된 정확성 점수(612)를 계산하는 것은 공통의 명시된 번역 소스 언어를 가지는 다수의 번역 각각에 대응하는 개별 정확성 점수(612)를 조합함으로써 수행되며, 및
    공통의 명시된 번역 소스 언어에 대한 신뢰성 인자(616)를 생성하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수(612)에 기반하는 소스 언어를 식별하는 컴퓨터-구현 방법.
  23. 제 22 항에 있어서,
    스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
    스니펫(602)에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값(606)을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며,
    각각의 초기 신뢰성 값(606)은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫(602)의 언어라는 신뢰성을 표시하고, 및
    가능한 소스 언어 중 적어도 선택된 하나에 대한 신뢰성 인자(616)를 생성하는 것은 가능한 소스 언어 중 선택된 하나에 대응하는 조합된 정확성 점수(612)를 사용하여 가능한 소스 언어 중 선택된 하나에 대한 초기 신뢰성 값(606)을 업데이트하는 것을 포함하는 소스 언어를 식별하는 컴퓨터-구현 방법.
  24. 제 22 항 또는 제 23 항에 있어서,
    공통의 명시된 번역 소스 언어에 대한 신뢰성 인자는 조합된 정확성 점수(612)인 소스 언어를 식별하는 컴퓨터-구현 방법.
  25. 제 21 항 또는 제 24 항 중 어느 한 항에 있어서,
    스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
    스니펫(602)에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
    각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫(602)의 언어라는 신뢰성을 표시하고,
    선택적으로, 둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값(606)이 임계 값보다 높다는 것에 기반하여 선택되는 소스 언어를 식별하는 컴퓨터-구현 방법.
  26. 제 25 항에 있어서,
    스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 것은 스니펫(602)의 컨텍스트의 분석을 포함하고,
    선택적으로, 스니펫(602)의 컨텍스트의 분석은:
    스니펫(602)의 작성자에게 쉬운 것으로 알려진 언어;
    스니펫(602)의 작성자의 친구로 식별된 사용자와 연관된 언어;
    스니펫(602)이 생성된 때;
    스니펫(602)이 게시된 가상의 위치에 대한 정보; 또는
    이들의 임의의 조합 중 하나 이상을 사용하는 소스 언어를 식별하는 컴퓨터-구현 방법.
  27. 제 21 항 또는 제 26 항 중 어느 한 항에 있어서,
    스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 스니펫(602)의 가장 가능성이 높은 소스 언어로 선택된 언어인 번역을 스니펫(602)의 번역으로 선택하는 단계를 더 포함하는 소스 언어를 식별하는 컴퓨터-구현 방법.
  28. 제 21 항 또는 제 27 항 중 어느 한 항에 있어서,
    스니펫(602)의 열람 사용자의 표시를 수신하는 단계; 및
    스니펫(602)의 열람 사용자와 연관된 출력 언어를 결정하는 단계를 더 포함하고,
    스니펫(602)의 생성된 둘 이상의 번역은 각각 스니펫(602)의 열람 사용자와 연관된 출력 언어에 매칭하는 출력 언어로 되어 있는 소스 언어를 식별하는 컴퓨터-구현 방법.
  29. 제 21 항 또는 제 28 항 중 어느 한 항에 있어서,
    정확성 점수(612)를 계산하는 것은 입력 스니펫(602), 출력 스니펫(602) 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수(612)를 생성하도록 트레이닝되는 번역 점수화 모델(348; 610)에 의해 수행되는 소스 언어를 식별하는 방법.
  30. 제 21 항 또는 제 29 항 중 어느 한 항에 있어서,
    방법은 스니펫(602)의 번역을 요구하는 요청에 응답하여 수행되거나, 또는
    방법은 스니펫(602)의 생성 또는 소셜 미디어 웹사이트로 스니펫(602)을 게시하는 것에 응답하여 수행되는 소스 언어를 식별하는 컴퓨터-구현 방법.
  31. 제 21 항 내지 제 30 항 중 어느 한 항에 있어서,
    가장 가능성이 높은 소스 언어는:
    기계 번역 엔진을 적용하는 것;
    스펠링 교정을 수행하는 것; 및
    문법 교정을 수행하는 것 중 적어도 하나를 위한 프로세싱 엔진에 파라미터로 제공되는 소스 언어를 식별하는 컴퓨터-구현 방법.
  32. 컴퓨팅 시스템(100; 200; 300)에 의해 실행될 때, 컴퓨팅 시스템(100; 200; 300)으로 하여금 스니펫 소스 언어에 대한 신뢰성 인자를 식별하기 위한 동작을 수행하도록 야기하는 명령어를 저장하고, 상기 동작은:
    스니펫(602)의 표시를 수신하는 것;
    스니펫(602)의 열람자의 표시를 수신하는 것;
    스니펫(602)의 열람자와 연관된 출력 언어를 결정하는 것;
    명시된 번역 소스 언어를 각각 가지고 스니펫(602)의 열람자와 연관된 출력 언어와 매칭하는 출력 언어로 각각 되어 있는 둘 이상의 번역의 스니펫(602)의 둘 이상의 번역을 생성하는 것;
    스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하는 것; 및
    스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하는 것을 포함하고,
    스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되는 컴퓨터-판독가능한 저장 매체.
  33. 제 32 항에 있어서,
    동작은:
    스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자(616)를 가지는 언어인 번역을 스니펫(602)의 번역으로 선택하는 것을 더 포함하는 컴퓨터-판독가능한 저장 매체.
  34. 제 32 항 또는 제 33 항에 있어서,
    명령어는, 컴퓨팅 시스템(100; 200; 300)에 의해 실행될 때, 컴퓨팅 시스템(100; 200; 300)으로 하여금 제 21 항 내지 제 31 항 중 어느 한 항에 따른 방법을 수행하도록 야기하는 컴퓨터-판독가능한 저장 매체.
  35. 예컨대, 제 21 항 내지 제 31 항 중 어느 한 항에 따른 방법을 수행하도록 배치되는, 스니펫(602)의 번역을 생성하기 위한 시스템으로서,
    메모리(150; 306; 308);
    하나 이상의 프로세서(110; 304);
    스니펫(602)의 표시를 수신하도록 구성되는 인터페이스(342);
    스니펫(602)에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되는 번역-전 언어 식별자(344);
    각각 명시된 번역 소스 언어를 가지는 스니펫(602)의 둘 이상의 번역을 생성하도록 구성되는 번역기(346; 608);
    스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하도록 구성되는 번역 점수화 모델(348; 610); 및
    스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하도록 구성되는 신뢰성 점수 생성기(350)를 포함하고,
    스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
    스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
    각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되고,
    인터페이스(342)는 스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자(616)를 가지는 가능한 소스 언어인 번역을 스니펫(602)의 번역으로 제공하도록 더 구성되는 스니펫(602)의 번역을 생성하기 위한 시스템.
KR1020187010359A 2015-09-22 2015-09-23 유니버셜 번역 KR102364163B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/861,747 2015-09-22
US14/861,747 US9734142B2 (en) 2015-09-22 2015-09-22 Universal translation
PCT/US2015/051737 WO2017052538A1 (en) 2015-09-22 2015-09-23 Universal translation

Publications (2)

Publication Number Publication Date
KR20180056677A true KR20180056677A (ko) 2018-05-29
KR102364163B1 KR102364163B1 (ko) 2022-02-18

Family

ID=58282418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187010359A KR102364163B1 (ko) 2015-09-22 2015-09-23 유니버셜 번역

Country Status (9)

Country Link
US (2) US9734142B2 (ko)
JP (1) JP6754426B2 (ko)
KR (1) KR102364163B1 (ko)
CN (1) CN108351871B (ko)
AU (1) AU2015409645A1 (ko)
CA (1) CA2999244A1 (ko)
IL (1) IL257988A (ko)
MX (1) MX2018003490A (ko)
WO (1) WO2017052538A1 (ko)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113744733B (zh) 2013-02-07 2022-10-25 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
DE102016114265A1 (de) * 2016-08-02 2018-02-08 Claas Selbstfahrende Erntemaschinen Gmbh Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10180935B2 (en) 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102056329B1 (ko) * 2017-09-12 2019-12-16 (주)한컴인터프리 통역방법
KR102056330B1 (ko) * 2017-09-12 2019-12-16 (주)한컴인터프리 통역장치 및 그 방법
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11120224B2 (en) * 2018-09-14 2021-09-14 International Business Machines Corporation Efficient translating of social media posts
US11087098B2 (en) * 2018-09-18 2021-08-10 Sap Se Computer systems for classifying multilingual text
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11093720B2 (en) * 2019-03-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for converting multiple language variations
CN111031232B (zh) * 2019-04-24 2022-01-28 广东小天才科技有限公司 一种听写实时检测的方法及电子设备
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP6856277B1 (ja) * 2019-11-28 2021-04-07 ゆり 柴田 音声入力で翻訳言語を設定する自動音声翻訳システム、自動音声翻訳方法及びそのプログラム
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
JP7502761B2 (ja) * 2021-06-10 2024-06-19 Scalably株式会社 情報処理装置及び情報処理プログラム
US20230351123A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing multistream machine translation during virtual conferences
US11908446B1 (en) * 2023-10-05 2024-02-20 Eunice Jia Min Yong Wearable audiovisual translation system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text

Family Cites Families (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5293581A (en) 1993-04-16 1994-03-08 Alcoa Fujikura Ltd. Flexible connector assembly for fiber optics
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US5799193A (en) 1996-04-29 1998-08-25 Siemens Corporate Research, Inc. Scenario based iterative method for development of an object oriented system model
GB9625284D0 (en) 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
US6629095B1 (en) 1997-10-14 2003-09-30 International Business Machines Corporation System and method for integrating data mining into a relational database management system
US6161082A (en) 1997-11-18 2000-12-12 At&T Corp Network based language translation system
CN1119760C (zh) * 1998-08-31 2003-08-27 索尼株式会社 自然语言处理装置及方法
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US7110938B1 (en) 1999-09-17 2006-09-19 Trados, Inc. E-services translation portal system
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6377925B1 (en) 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
GB0004095D0 (en) 2000-02-22 2000-04-12 Domain Dynamics Ltd Waveform shape descriptors for statistical modelling
US7289911B1 (en) 2000-08-23 2007-10-30 David Roth Rigney System, methods, and computer program product for analyzing microarray data
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US6996518B2 (en) * 2001-01-03 2006-02-07 International Business Machines Corporation Method and apparatus for automated measurement of quality for machine translation
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7035804B2 (en) 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US20020169592A1 (en) * 2001-05-11 2002-11-14 Aityan Sergey Khachatur Open environment for real-time multilingual communication
US7359861B2 (en) 2002-04-24 2008-04-15 Polyglot Systems, Inc. Inter-language translation device
US7054804B2 (en) 2002-05-20 2006-05-30 International Buisness Machines Corporation Method and apparatus for performing real-time subtitles translation
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US20040049374A1 (en) 2002-09-05 2004-03-11 International Business Machines Corporation Translation aid for multilingual Web sites
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
US8127405B2 (en) 2003-06-18 2012-03-06 Suburban Machine Co., Inc. Reusable hose bundling sleeve
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US20050055630A1 (en) * 2003-09-04 2005-03-10 Philip Scanlan Seamless translation system
US7533019B1 (en) 2003-12-23 2009-05-12 At&T Intellectual Property Ii, L.P. System and method for unsupervised and active learning for automatic speech recognition
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
US7996208B2 (en) 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US7698124B2 (en) * 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework
US7827026B2 (en) * 2004-12-21 2010-11-02 Xerox Corporation Bilingual authoring assistant for the “tip of the tongue” problem
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US8249854B2 (en) * 2005-05-26 2012-08-21 Microsoft Corporation Integrated native language translation
WO2006133571A1 (en) * 2005-06-17 2006-12-21 National Research Council Of Canada Means and method for adapted language translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US7664629B2 (en) 2005-07-19 2010-02-16 Xerox Corporation Second language writing advisor
US7813918B2 (en) 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US7672865B2 (en) 2005-10-21 2010-03-02 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
US20070136222A1 (en) 2005-12-09 2007-06-14 Microsoft Corporation Question and answer architecture for reasoning and clarifying intentions, goals, and needs from contextual clues and content
WO2007124109A2 (en) 2006-04-21 2007-11-01 Scomm, Inc. Interactive conversational speech communicator method and system
US20080046231A1 (en) 2006-05-26 2008-02-21 Srk Ventures, Llc System and Method of Language Translation
EP1870804A1 (en) * 2006-06-22 2007-12-26 Microsoft Corporation Dynamic software localization
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US20080077384A1 (en) * 2006-09-22 2008-03-27 International Business Machines Corporation Dynamically translating a software application to a user selected target language that is not natively provided by the software application
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
WO2008070877A2 (en) * 2006-12-08 2008-06-12 Hall Patrick J Online computer-aided translation
US8073850B1 (en) 2007-01-19 2011-12-06 Wordnetworks, Inc. Selecting key phrases for serving contextually relevant content
US7895030B2 (en) 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US7877251B2 (en) * 2007-05-07 2011-01-25 Microsoft Corporation Document translation system
US8897423B2 (en) 2007-06-01 2014-11-25 Cisco Technology, Inc. Calling party's language selection based on called party's phone number
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US7983903B2 (en) 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
JP5374515B2 (ja) * 2007-12-05 2013-12-25 フェイスブック,インク. ソーシャルネットワークにおけるコミュニティー翻訳
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
US8473276B2 (en) * 2008-02-19 2013-06-25 Google Inc. Universal language input
WO2009129315A1 (en) * 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US20100042928A1 (en) 2008-08-12 2010-02-18 Peter Rinearson Systems and methods for calculating and presenting a user-contributor rating index
CN101714136B (zh) * 2008-10-06 2012-04-11 株式会社东芝 将基于语料库的机器翻译***适应到新领域的方法和装置
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US8330864B2 (en) 2008-11-02 2012-12-11 Xorbit, Inc. Multi-lingual transmission and delay of closed caption content through a delivery system
US8145484B2 (en) 2008-11-11 2012-03-27 Microsoft Corporation Speech processing with predictive language modeling
US8543580B2 (en) 2008-12-23 2013-09-24 Microsoft Corporation Mining translations of web queries from web click-through data
US9195739B2 (en) 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US8843359B2 (en) * 2009-02-27 2014-09-23 Andrew Nelthropp Lauder Language translation employing a combination of machine and human translations
US9262403B2 (en) * 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US8275604B2 (en) 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
WO2010125736A1 (ja) 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
US20100283829A1 (en) 2009-05-11 2010-11-11 Cisco Technology, Inc. System and method for translating communications between participants in a conferencing environment
US20100299132A1 (en) 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
WO2010144618A1 (en) 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
US9189254B2 (en) 2009-10-02 2015-11-17 Massachusetts Institute Of Technology Translating text to, merging, and optimizing graphical user interface tasks
US8554537B2 (en) * 2009-10-23 2013-10-08 Samsung Electronics Co., Ltd Method and device for transliteration
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US8731901B2 (en) 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
JP2011128260A (ja) * 2009-12-16 2011-06-30 Nec Corp 外国語会話支援装置、方法、プログラム、および電話端末装置
US8825759B1 (en) 2010-02-08 2014-09-02 Google Inc. Recommending posts to non-subscribing users
US8606792B1 (en) 2010-02-08 2013-12-10 Google Inc. Scoring authors of posts
US20110246172A1 (en) 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US8666979B2 (en) 2010-04-09 2014-03-04 Palo Alto Research Center Incorporated Recommending interesting content using messages containing URLs
US8265923B2 (en) 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training
US8768686B2 (en) 2010-05-13 2014-07-01 International Business Machines Corporation Machine translation with side information
US9183270B2 (en) 2010-05-17 2015-11-10 Wal-Mart Stores, Inc. Social genome
US9710555B2 (en) 2010-05-28 2017-07-18 Adobe Systems Incorporated User profile stitching
US8386235B2 (en) 2010-05-20 2013-02-26 Acosys Limited Collaborative translation system and method
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US9177346B2 (en) 2010-07-01 2015-11-03 Facebook, Inc. Facilitating interaction among users of a social network
US8775156B2 (en) 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
WO2012027262A1 (en) * 2010-08-23 2012-03-01 Google Inc. Parallel document mining
US8880403B2 (en) 2010-09-03 2014-11-04 Canyon Ip Holdings Llc Methods and systems for obtaining language models for transcribing communications
US8756050B1 (en) * 2010-09-14 2014-06-17 Amazon Technologies, Inc. Techniques for translating content
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
US20120109649A1 (en) 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US8635059B2 (en) * 2010-11-15 2014-01-21 Google Inc. Providing alternative translations
US8645289B2 (en) 2010-12-16 2014-02-04 Microsoft Corporation Structured cross-lingual relevance feedback for enhancing search results
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
CN102650987A (zh) * 2011-02-25 2012-08-29 北京百度网讯科技有限公司 一种基于源语言复述资源的机器翻译方法及装置
US9098488B2 (en) * 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US20130246063A1 (en) 2011-04-07 2013-09-19 Google Inc. System and Methods for Providing Animated Video Content with a Spoken Language Segment
US9015030B2 (en) * 2011-04-15 2015-04-21 International Business Machines Corporation Translating prompt and user input
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9104661B1 (en) * 2011-06-29 2015-08-11 Amazon Technologies, Inc. Translation of applications
US8928591B2 (en) 2011-06-30 2015-01-06 Google Inc. Techniques for providing a user interface having bi-directional writing tools
US9104744B2 (en) 2011-06-30 2015-08-11 Google Inc. Cluster-based language detection
US9298698B2 (en) 2011-06-30 2016-03-29 Google Inc. Language detection based upon a social graph
US20150161114A1 (en) 2011-06-30 2015-06-11 Google Inc. Rules-based language detection
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
US8175244B1 (en) 2011-07-22 2012-05-08 Frankel David P Method and system for tele-conferencing with simultaneous interpretation and automatic floor control
US8812295B1 (en) * 2011-07-26 2014-08-19 Google Inc. Techniques for performing language detection and translation for multi-language content feeds
US8838434B1 (en) * 2011-07-29 2014-09-16 Nuance Communications, Inc. Bootstrap call router to other languages using selected N-best translations
US8332206B1 (en) * 2011-08-31 2012-12-11 Google Inc. Dictionary and translation lookup
US20130060769A1 (en) 2011-09-01 2013-03-07 Oren Pereg System and method for identifying social media interactions
US20130084976A1 (en) * 2011-10-01 2013-04-04 Microsoft Corporation Game paradigm for language learning and linguistic data generation
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US20130144619A1 (en) 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US9009025B1 (en) 2011-12-27 2015-04-14 Amazon Technologies, Inc. Context-based utterance recognition
US9613026B2 (en) * 2011-12-28 2017-04-04 Bloomberg Finance L.P. System and method for interactive automatic translation
US9116885B2 (en) 2012-01-16 2015-08-25 Google Inc. Techniques for a gender weighted pinyin input method editor
US8942973B2 (en) * 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
AU2013245215A1 (en) 2012-04-02 2014-11-20 Dixilang Ltd. A client-server architecture for automatic speech recognition applications
US20150161112A1 (en) 2012-04-13 2015-06-11 Google Inc. One click localization techniques
US8874429B1 (en) 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
US20130317808A1 (en) 2012-05-24 2013-11-28 About, Inc. System for and method of analyzing and responding to user generated content
US20140195884A1 (en) * 2012-06-11 2014-07-10 International Business Machines Corporation System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
US9779080B2 (en) 2012-07-09 2017-10-03 International Business Machines Corporation Text auto-correction via N-grams
US20140025734A1 (en) 2012-07-18 2014-01-23 Cisco Technology, Inc. Dynamic Community Generation Based Upon Determined Trends Within a Social Software Environment
US9519641B2 (en) * 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
US10275521B2 (en) 2012-10-13 2019-04-30 John Angwin System and method for displaying changes in trending topics to a user
US9190057B2 (en) 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9195644B2 (en) * 2012-12-18 2015-11-24 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Short phrase language identification
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US8996353B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8990068B2 (en) * 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9544381B2 (en) 2013-03-13 2017-01-10 Arizona Board Of Regents On Behalf Of Arizona State University User identification across social media
US20140280295A1 (en) 2013-03-14 2014-09-18 Microsoft Corporation Multi-language information retrieval and advertising
US9424354B2 (en) 2013-03-15 2016-08-23 Microsoft Technology Licensing, Llc Providing crowdsourced answers to information needs presented by search engine and social networking application users
US9183198B2 (en) 2013-03-19 2015-11-10 International Business Machines Corporation Customizable and low-latency interactive computer-aided translation
US8949865B1 (en) 2013-03-29 2015-02-03 Intuit Inc. Unified usage tracking mechanism for application
US20140335483A1 (en) 2013-05-13 2014-11-13 Google Inc. Language proficiency detection in social applications
US9430465B2 (en) 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US20140358519A1 (en) * 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
US9684723B2 (en) 2013-06-10 2017-06-20 Microsoft Technology Licensing, Llc Adaptable real-time feed for site population
US20150006148A1 (en) 2013-06-27 2015-01-01 Microsoft Corporation Automatically Creating Training Data For Language Identifiers
US10599765B2 (en) 2013-06-27 2020-03-24 Avaya Inc. Semantic translation model training
US9864974B2 (en) 2013-06-28 2018-01-09 Microsoft Technology Licensing, Llc Serendipitous issue reminder system
US9411790B2 (en) * 2013-07-26 2016-08-09 Metrodigi, Inc. Systems, methods, and media for generating structured documents
US9922351B2 (en) 2013-08-29 2018-03-20 Intuit Inc. Location-based adaptation of financial management system
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
GB201319856D0 (en) 2013-11-11 2013-12-25 Univ Manchester Transforming natural language specifications of software requirements into analysis models
US10162813B2 (en) * 2013-11-21 2018-12-25 Microsoft Technology Licensing, Llc Dialogue evaluation via multiple hypothesis ranking
JP2017504876A (ja) * 2013-12-09 2017-02-09 グーグル インコーポレイテッド テキストのコンテキストベースの定義および翻訳を提供するためのシステムおよび方法
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US20160041986A1 (en) 2014-08-08 2016-02-11 Cuong Duc Nguyen Smart Search Engine
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10031939B2 (en) 2014-09-30 2018-07-24 Microsoft Technology Licensing, Llc Automated supplementation of data model
US9569430B2 (en) * 2014-10-24 2017-02-14 International Business Machines Corporation Language translation and work assignment optimization in a customer support environment
US10248653B2 (en) 2014-11-25 2019-04-02 Lionbridge Technologies, Inc. Information technology platform for language translation and task management
US9864744B2 (en) * 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US20160162473A1 (en) * 2014-12-08 2016-06-09 Microsoft Technology Licensing, Llc Localization complexity of arbitrary language assets and resources
US10452786B2 (en) 2014-12-29 2019-10-22 Paypal, Inc. Use of statistical flow data for machine translations between different languages
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9767091B2 (en) 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US20160357519A1 (en) * 2015-06-05 2016-12-08 Microsoft Technology Licensing, Llc Natural Language Engine for Coding and Debugging
CN104899193B (zh) * 2015-06-15 2017-10-17 南京大学 一种计算机中限定翻译片段的交互式翻译方法
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text

Also Published As

Publication number Publication date
MX2018003490A (es) 2018-06-06
JP6754426B2 (ja) 2020-09-09
US10346537B2 (en) 2019-07-09
US20170083504A1 (en) 2017-03-23
US20180113851A1 (en) 2018-04-26
AU2015409645A1 (en) 2018-04-12
KR102364163B1 (ko) 2022-02-18
US9734142B2 (en) 2017-08-15
IL257988A (en) 2018-05-31
CA2999244A1 (en) 2017-03-30
WO2017052538A1 (en) 2017-03-30
JP2018533786A (ja) 2018-11-15
CN108351871A (zh) 2018-07-31
CN108351871B (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
KR102364163B1 (ko) 유니버셜 번역
US10133738B2 (en) Translation confidence scores
US10089299B2 (en) Multi-media context language processing
US20180089178A1 (en) Mining multi-lingual data
US10002125B2 (en) Language model personalization
US9514121B2 (en) Custom dictionaries for E-books
US20140114642A1 (en) Statistical linguistic analysis of source content
US20130246042A1 (en) Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration method
US20150370895A1 (en) Generating contextual search presentations
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
CN111414122A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
JP6553180B2 (ja) 言語検出を行うためのシステムおよび方法
US10664664B2 (en) User feedback for low-confidence translations
JP2017045196A (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
EP3147796B1 (en) Language identification
JP2023155158A (ja) スマート翻訳システム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant