KR20180056677A

KR20180056677A - 유니버셜 번역

Info

Publication number: KR20180056677A
Application number: KR1020187010359A
Authority: KR
Inventors: 페이 후앙
Original assignee: 페이스북, 인크.
Priority date: 2015-09-22
Filing date: 2015-09-23
Publication date: 2018-05-29
Also published as: MX2018003490A; JP6754426B2; US10346537B2; US20170083504A1; US20180113851A1; AU2015409645A1; KR102364163B1; US9734142B2; IL257988A; CA2999244A1; WO2017052538A1; JP2018533786A; CN108351871A; CN108351871B

Abstract

미디어 아이템의 가능성이 높은 소스 언어가 내인성 또는 외인성 인자, 가령 미디어 아이템 내의 단어 및 미디어 아이템 작성자에 의해 알려진 언어에 기반하여 미디어 아이템의 초기 언어 식별을 시도함으로써 식별될 수 있다. 이러한 초기 식별은 대응하는 가능성 인자를 갖는 가장 가능성이 높은 소스 언어들의 리스트를 생성할 수 있다. 번역이 이후 각각의 가장 가능성이 높은 소스 언어를 추정하여 수행될 수 있다. 번역은 다수의 출력 언어들에 대해 수행될 수 있다. 각각의 발생된 번역은 다수의 인자에 기반하여 대응하는 점수를 수신할 수 있다. 점수는 그들이 공통의 소스 언어를 가지는 경우 조합될 수 있다. 이러한 조합된 점수가 미디어 아이템의 소스 언어에 대해 이전에 식별된 가능성 인자에 가중치를 부여하는데 사용될 수 있다.

Description

유니버셜 번역

본 출원은 본 명세서에 전체가 참조로 통합되는 2015년 9월 22일에 출원된 미국 특허출원 제14/861,747호에 대한 우선권을 주장한다.

인터넷은 이전에 상상하지 못했던 방식으로 사람들이 연결하고 글로벌하게 정보를 공유하는 것을 가능하게 만들었다. 예컨대, 소셜 미디어 플랫폼은 세상의 반대측에 있는 사람들이 아이디어 대해 협력하거나, 현재의 이벤트를 논의하거나, 또는 그들이 점심에 무엇을 먹었는지에 관해 공유하는 것을 가능하게 하였다. 과거에는, 이러한 훌륭한 리소스는 공통의 자연어("언어")를 가지는 사용자들 사이에서의 의사소통으로 다소 제한되어 왔다. 추가로, 사용자들은 그들의 언어로 되어 있거나, 또는 컨텐츠 제공자가 시스템 설정이나 네트워크 위치(예컨대, 인터넷 프로토콜("IP") 주소나 언어 식별자)에 기반하여 적절한 번역을 결정할 수 있는 컨텐츠만을 소비할 수 있었다.

세계 전역에서 사용되는 다수의 상이한 언어를 통한 의사소통은 특정한 도전과제로 남아 있지만, 기계 번역 서비스는 이러한 우려를 해결하려고 시도해왔다. 이러한 서비스는 사용자가 웹 양식을 사용하여 텍스트를 제공하고, 하나 이상의 언어를 선택하며, 선택된 언어로 텍스트의 번역을 수신하기 위한 메커니즘을 제공한다. 이러한 서비스가 언어 장벽을 가로질러 의사소통하는 사람들의 능력을 상당히 증가시켰지만, 그들은 사용자들이 분리된 웹사이트를 열고, 그들이 번역을 원하는 언어를 표시하며, 소스 문서의 언어를 식별할 것을 요구할 수 있다. 결과물 번역이 이후 그 분리된 웹사이트에 보여지고, 이는 원래의 소스에 의해 제공되는 컨텍스트로부터 컨텐츠를 제거한다. 일부의 경우 번역 서비스는 번역할 소스 페이지의 부분을 찾지 못할 수 있거나 또는 번역으로부터 발생하는 포맷 변경으로 인해 소스 웹사이트의 판독불가한 버전을 제공할 수 있다. 많은 경우, 사용자들은 이러한 프로세스를 너무 번거롭다고 여기고 인내심을 잃고 다른 웹사이트로 탐색하거나 또는 그들이 이해하지 못하는 텍스트를 단순히 스킵하여 컨텐츠를 수신할 기회를 놓칠 수 있다.

본 발명의 내용 중에 포함되어 있다.

도 1은 개시된 기술의 일부 구현이 동작할 수 있는 장치의 개요를 도시하는 블록도이다.
도 2는 개시된 기술의 일부 구현이 동작할 수 있는 환경의 개요를 도시하는 블록도이다.
도 3은 일부 구현에서, 개시된 기술을 이용하는 시스템에서 사용될 수 있는 컴포넌트를 도시하는 블록도이다.
도 4는 스니펫 소스 언어에 대한 신뢰성 점수를 계산하기 위해 일부 구현에서 사용되는 프로세스를 도시하는 흐름도이다.
도 5a는 스니펫의 점수화된 번역을 생성하기 위해 일부 구현에서 사용되는 하나의 프로세스를 도시하는 흐름도이다.
도 5b는 스니펫의 점수화된 번역을 생성하기 위한 일부 추가 구현에서 사용되는 프로세스를 도시하는 흐름도이다.
도 6은 스니펫 소스 언어에 대한 신뢰성 점수의 계산을 도시하는 예시이다.
본 명세서에서 소개되는 기술은 유사한 참조 번호가 동일하거나 기술적으로 유사한 구성요소를 표시하는 첨부 도면들과 함께 이하의 상세한 설명을 참조함으로써 더 명확히 이해될 수 있다.

본 명세서의 다양한 실시예는 스니펫의 가장 가능성이 높은 소스 언어를 식별하기 위한 방법, 컴퓨터-판독가능한 저장 매체 및 시스템을 포함할 수 있다. 스니펫의 표시가 수신될 수 있다. 스니펫에 대한 둘 이상의 가능한 소스 언어가 결정될 수 있다. 스니펫의 둘 이상의 번역이 생성될 수 있고, 각각은 특정된 번역을 가진다. 스니펫의 둘 이상의 번역 중 적어도 하나는 특정된 번역 소스 언어로서 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성될 수 있고, 스니펫의 둘 이상의 번역 중 적어도 다른 하나는 특정된 번역 소스언어로서 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성될 수 있다. 스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수가 계산될 수 있다. 스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자가 생성될 수 있고, 각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 갖는 하나 이상의 계산된 정확성 점수에 기반하여 생성될 수 있다. 가장 높은 신뢰성 인자와 연관된 스니펫에 대한 가능한 소스 언어가 가장 가능성이 높은 소스 언어로 선택될 수 있다.

일실시예로, 하나 이상의 컴퓨터-판독가능한 비-일시적 저장 매체는 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하도록 실행시 동작하는 소프트웨어를 수록한다.

일실시예로, 시스템은 하나 이상의 프로세서 및 프로세서에 의해 실행가능한 명령어를 포함하고, 프로세서에 결합된 적어도 하나의 메모리를 포함하며, 상기 프로세서는 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하는 명령어를 실행시 동작한다.

일실시예로, 바람직하게는 컴퓨터-판독가능한 비-일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품은 데이터 프로세싱 시스템 상에서 실행될 때 본 발명 또는 그것의 임의의 실시예에 따른 방법을 수행하도록 동작한다.

본 발명에 따른 실시예는 특히 하나의 청구항 카테고리, 예컨대 방법에서 기재된 임의의 특징이 다른 청구항 카테고리, 예컨대, 시스템에서 또한, 청구될 수 있는, 방법, 저장 매체, 시스템 및 컴퓨터 프로그램 제품에 관한 첨부되는 청구범위에서 개시된다. 첨부된 청구범위에서 인용 또는 되돌아가 참조하는 것은 오로지 형식적인 이유로 선택된 것이다. 하지만, 임의의 이전의 청구항에 대한 의도적인 참조(특히, 다중 인용항)로부터 발생하는 임의의 발명의 대상이 또한, 청구될 수 있어서 첨부되는 청구범위에서 선택된 인용항과 무관하게 청구항과 이들의 특징의 임의의 조합이 개시되고 청구되도록 할 수 있다. 청구될 수 있는 발명의 대상은 첨부된 청구범위에 기재된 특징들의 조합뿐만 아니라 청구항들에서의 특징들의 임의의 다른 조합을 포함함, 청구항에서 언급된 각각의 특징은 청구항에서 임의의 다른 특징이나 다른 특징의 조합과 조합될 수 있다. 게다가, 본 명세서에 기술되거나 도시된 임의의 실시예 및 특징은 본 명세서에 기술되거나 도시된 임의의 실시예 또는 특징을 가지거나 또는 첨부된 청구항의 임의의 특징을 갖는 임의의 조합 및/또는 별도의 청구항에서 청구될 수 있다.

다수의 언어 번역을 점수화함에 기반하는 소스 언어 식별이 개시된다. 가령 기계 번역 엔진을 적용하거나, 스펠링 보정이나 문법 보정을 수행하는 것과 같이 미디어 아이템에 대해 언어 프로세싱을 수행할 때, 미디어 아이템의 소스 언어는 프로세싱 엔진을 위한 파라미터로 제공될 수 있다. 미디어 아이템의 소스 언어를 식별하는 것은, 특히 미디어 아이템의 언어 컨텐츠가 짧거나, 속어 또는 특정 언어와 연관되지 않는 다른 단어를 사용하거나, 식별되지 않는 부분을 가지거나, 또는 에러를 포함하는 경우 어려울 수 있다.

미디어 아이템의 소스 언어 식별은 인자, 가령 그것의 컨텐츠와 컨텍스트에 기반하여 미디어 아이템의 초기 분석을 수행함으로써 달성될 수 있다. 이러한 초기 분석은 하나 이상의 가능성이 높은 소스 언어 및 대응하는 신뢰성 점수를 식별할 수 있다. 미디어 아이템의 다수의 번역이 이후 각각의 최고 점수 소스 언어에 대하여, 미디어 아이템을 다수의 출력 언어로 변환하도록 기계 번역 엔진을 사용하여 수행될 수 있다. 점수는 그 번역의 품질을 나타내는 각각의 번역에 대해 계산될 수 있다. 각 소스 언어에 대응하는 점수들의 세트가 조합되어서 소스 언어에 대응하는 가중 인자를 형성할 수 있다. 이러한 가중 인자는 이후 각 소스 언어에 대응하는 신뢰성 점수를 조정하는데 사용될 수 있다. 가장 높은 조정된 점수를 갖는 소스 언어가 가장 가능성이 높은 소스 언어로 선택될 수 있다.

본 명세서에 사용되는 "소스 언어"는 미디어 아이템이 쓰여졌거나 현재 존재하는 자연어를 지칭한다. 본 명세서에 사용되는 "미디어 아이템"은 텍스트, 오디오, 비디오 등을 포함하는 언어를 이용하는 임의의 컨텐츠일 수 있다. 본 명세서에 사용되는 "언어"는, 인간이 쓰거나, 말하거나 혹은 서명한 언어, 예컨대, 영어, 불어, 중국어 또는 미국 수화(sign language)인 자연어이다. 언어는 국가의 언어, 예컨대, 영어일 필요는 없지만 특정 자연어의 방언이나 변형일 수 있거나, 또는 언어의 별개의 표현, 예컨대, 병음(Pinyin)일 수 있다.

예로서, San Diego Padres에 관한 소셜 미디어 게시물인 미디어 아이템은 스니펫: "Mi Padres r playing on television."을 포함할 수 있다. 단어를 대응하는 언어로만 매칭하는 알고리즘을 사용하는 이러한 스니펫의 초기 분석은, "mi"가 스페인어로 "my"를 의미하지만, 영어로 "my"의 오타일 수 있고; "Padres"가 스페인어로 "fathers"를 의미하지만 특히, 문장의 가운데에서 대문자로 사용될 때 Padres 스포츠팀을 지칭하도록 영어에서 통상적으로 사용되며; "r"은 어떠한 언어와도 맵핑되지 않을 수 있거나 또는 "are"에 대한 대체물 "r"에 대한 공통의 비속어이기 때문에 영어를 약하게 나타낼 수 있고; "television"은 엑센트 없이는 철자가 양 언어에서 동일하므로 영어와 스페인어 사이에서 모호할 수 있기 때문에, .87 점을 갖는 영어와 .91점을 갖는 스페인어를 2개의 최고 점수 소스 언어로 표시할 수 있다.

이 예시로 계속하면, 스니펫의 다수의 번역이 이후 기계 언어 엔진을 사용하여 수행될 수 있다. 번역의 제1 세트가 스니펫을 다수의 출력 언어로 변환하여 수행될 수 있고, 소스 언어를 영어로 설정한다. 번역의 제2 세트가 스니펫을 다수의 출력 언어로 변환하여 수행될 수 있고, 소스 언어를 스페인어로 설정한다. 제1 세트 내의 발생된 번역 각각이 점수화될 수 있고, 이들 점수는 이 예시에서 1.12인 영어 가중 인자로 조합될 수 있다. 제2 세트 내의 발생된 번역 각각이 또한, 점수화될 수 있고, 이들 점수는 이 예시에서 .80인 스페인어 가중 인자로 조합될 수 있다. 영어 가중 인자는, .97의 업데이트된 영어 신뢰성 인자를 받기 위해 그들을 곱함으로써 영어 신뢰성 점수에 적용될 수 있다. 스페인어 가중 인자는, .73의 업데이트된 스페인어 신뢰성 인자를 받기 위해 그들을 곱함으로써 스페인어 신뢰성 점수에 적용될 수 있다. 업데이트된 신뢰성 인자에 기반하여, 영어가 가장 가능성이 높은 소스 언어로 결정될 수 있다.

설명된 기술의 몇몇 구현이 도면을 참조하여 더 상세히 아래에서 논의된다. 이제 도면으로 전환하면, 도 1은 개시된 기술의 일부 구현이 동작할 수 있는 장치(100)의 개관을 도시하는 블록도이다. 장치는 다수의 번역에 기반하여 미디어 아이템 소스 언어를 식별할 수 있는 장치(100)의 하드웨어 컴포넌트를 포함할 수 있다. 장치(100)는 CPU(프로세서)(110)로 입력을 제공하는 하나 이상의 입력 장치(120)를 포함할 수 있고, 이는 그것에게 행위를 알린다. 행위는 입력 장치로부터 수신된 신호를 해석하고 정보를 통신 프로토콜을 사용하여 CPU(110)로 통신하는 하드웨어 컨트롤러에 의해 전형적으로 중재된다. 입력 장치(120)는 예컨대, 마우스, 키보드, 터치스크린, 적외선 센서, 터치패드, 웨어러블 입력 장치, 카메라 또는 이미지-기반 입력 장치, 마이크, 또는 다른 사용자 입력 장치를 포함한다.

CPU(110)는 하나의 장치 내에 또는 다수의 장치에 걸쳐 분산된 단일 프로세싱 유닛 또는 다수의 프로세싱 유닛일 수 있다. CPU(110)는 예컨대, 버스, 가령 PCI 버스나 SCSI 버스를 사용하여 다른 하드웨어 장치에 결합될 수 있다. CPU(110)는 장치, 가령 디스플레이(130)를 위한 하드웨어 컨트롤러와 통신할 수 있다. 디스플레이(130)는 텍스트 및 그래픽을 디스플레이하는데 사용될 수 있다. 일부 예시에서, 디스플레이(130)는 사용자에게 그래픽과 텍스트 시각적 피드백을 제공한다. 일부 구현에서, 디스플레이(130)는 가령, 입력 장치가 터치스크린이거나 안구 방향 모니터링 시스템으로 장착되는 경우에 디스플레이의 일부로서 입력 장치를 포함한다. 일부 구현에서, 디스플레이는 입력 장치로부터 분리된다. 디스플레이 장치의 예시는: LCD 디스플레이 스크린, LED 디스플레이 스크린, 프로젝션된 디스플레이(가령 헤즈-업 디스플레이 장치 또는 헤드-마운트 장치) 등이다. 다른 I/O 장치(140), 가령 네트워크 카드, 비디오 카드, 오디오 카드, USB, 파이어와이어(firewire) 또는 다른 외부 장치, 카메라, 프린터, 스피커, CD-ROM 드라이브, DVD 드라이브, 디스크 드라이브 또는 블루레이 장치가 또한, 프로세서에 결합될 수 있다.

일부 구현에서, 장치(100)는 또한, 네트워크 노드로 무선 또는 유선-기반 통신이 가능한 통신 장치를 포함한다. 통신 장치는 예컨대, TCP/IP 프로토콜을 사용하여 네트워크를 통해 다른 장치나 서버와 통신할 수 있다. 장치(100)는 동작을 다수의 네트워크 장치에 걸쳐 분산하기 위해 통신 장치를 이용할 수 있다.

CPU(100)는 메모리(150)로의 액세스를 가진다. 메모리는 휘발성 및 비-휘발성 저장소를 위한 하나 이상의 다양한 하드웨어 장치를 포함하고, ROM(read-only memory) 및 쓰기가능한 메모리 모두를 포함한다. 예컨대, 메모리는 RAM(random access memory), CPU 레지스터, ROM 및 쓰기가능한 비-휘발성 메모리, 가령 플래시 메모리, 하드 드라이브, 플로피 디스크, CDs, DVDs, 자기 저장 장치, 테이프 드라이브, 장치 버퍼 등을 포함할 수 있다. 메모리는 밑에 놓여진 하드웨어로부터 분리된 전파 신호가 아니고; 따라서, 메모리는 비-일시적이다. 메모리(150)는, 가령 운영 시스템(162), 언어 분류기(164) 및 임의의 다른 애플리케이션 프로그램(166)과 같은 프로그램 및 소프트웨어를 저장하는 프로그램 메모리(160)를 포함할 수 있다. 메모리(150)는 또한, 미디어 아이템; 미디어 아이템 번역 및 번역 엔진; 번역 점수, 조합된 번역 점수 및 점수화 모델; 소스 언어로의 미디어 아이템 맵핑 또는 신뢰성 점수; 구성 데이터; 설정; 및 장치(100)의 임의의 요소나 프로그램 메모리(160)로 제공될 수 있는 사용자 옵션이나 선호도를 포함할 수 있는 데이터 메모리(170)를 또한, 포함할 수 있다.

개시된 기술은 다수의 다른 범용 또는 특수 목적용 컴퓨팅 시스템 환경이나 구성으로 동작한다. 기술과 함께 사용하기 위해 적절할 수 있는 잘-알려진 컴퓨팅 시스템, 환경 및/또는 구성은, 개인용 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 셀룰러 전화, 웨어러블 전자기기, 태블릿 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 세톱 박스, 프로그램가능한 소비자 가전, 네트워크 PCs, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산형 컴퓨팅 환경 등을 포함하지만 이들로 제한되지 않는다.

도 2는 개시된 기술의 일부 구현이 동작할 수 있는 환경(200)의 개관을 도시하는 블록도이다. 환경(200)은 하나 이상의 클라이언트 컴퓨팅 장치들(205A-D)을 포함할 수 있고, 이들의 예시는 장치(100)를 포함할 수 있다. 클라이언트 컴퓨팅 장치(205)는 가령 서버 컴퓨팅 장치와 같은 하나 이상의 원격 컴퓨터로의 네트워크(230)를 통한 로직 연결(210)을 사용하여 네트워킹된 환경에서 동작할 수 있다.

일부 구현에서, 서버(210)는 클라이언트 요청을 수신하고 다른 서버, 가령 서버들(220A-C)을 통해 이러한 요청의 달성을 조정하는 에지 서버일 수 있다. 서버 컴퓨팅 장치(210, 220)는 컴퓨팅 시스템, 가령 장치(100)를 포함할 수 있다. 각 서버 컴퓨팅 장치(210, 220)는 단일 서버로 논리적으로 디스플레이되지만, 서버 컴퓨팅 장치는 각각 동일하거나 지리적으로 별개인 물리적 위치들에 위치한 다수의 컴퓨팅 장치를 포괄하는 분산형 컴퓨팅 환경일 수 있다. 일부 구현에서, 각 서버(220)는 서버들의 그룹에 대응한다.

클라이언트 컴퓨팅 장치(205) 및 서버 컴퓨팅 장치(210, 220)는 각각 다른 서버/클라이언트 장치에 대해 서버 또는 클라이언트로서 역할을 할 수 있다. 서버(210)는 데이터베이스(215)에 연결할 수 있다. 서버들(220A-C)은 각각 대응하는 데이터베이스(225A-C)에 연결할 수 있다. 전술한 바와 같이, 각 서버(220)는 서버들의 그룹에 대응할 수 있고, 이들 서버 각각은 데이터베이스를 공유하거나 그들 자신의 데이터베이스를 가질 수 있다. 데이터베이스(215, 225)는 정보, 가령 미디어 아이템, 미디어 아이템 번역 및 번역 엔진, 번역 점수, 조합된 번역 점수 및 점수화 모델; 또는 미디어 아이템-대-소스 언어 맵핑이나 신뢰성 점수를 웨어하우스(예컨대, 저장)할 수 있다. 데이터베이스(215, 225)는 단일 유닛으로 논리적으로 디스플레이되지만, 데이터베이스(215, 225) 각각은 다수의 컴퓨팅 장치를 포괄하는 분산형 컴퓨팅 환경일 수 있거나, 그들의 대응하는 서버 내에 위치할 수 있거나, 또는 동일한 물리적 위치 또는 지리적으로 별개인 물리적 위치들에 위치할 수 있다.

네트워크(230)는 LAN(local area network) 또는 WAN(wide area network)일 수 있지만, 다른 유선 또는 무선 네트워크일 수도 있다. 네트워크(230)는 인터넷이거나 임의의 다른 공용 또는 사설 네트워크일 수 있다. 클라이언트 컴퓨팅 장치(205)는 네트워크 인터페이스를 통해, 가령 유선이나 무선 통신에 의해 네트워크(230)로 연결될 수 있다. 서버(210)와 서버들(220) 사이의 연결이 분리된 연결들로 도시되지만, 이들 연결은 네트워크(230) 또는 분리된 공용 또는 사설 네트워크를 포함하는 임의의 종류의 로컬, 광역, 유선 또는 무선 네트워크일 수 있다.

본 명세서에 사용되는 "언어 스니펫" 또는 "스니펫"은 하나 이상의 단어 또는 문자 그룹의 디지털 표현이다. 스니펫은 미디어 아이템 또는 미디어 아이템으로부터의 언어의 표현일 수 있다. 이하의 설명은 미디어 아이템에 대해 소스 언어 분류를 수행할 때 스니펫을 지칭하지만, 다른 언어 포맷, 가령 오디오나 비디오 언어 표현이 사용될 수 있다.

도 3은 일부 구현에서, 개시된 기술을 구현하는 시스템에서 사용될 수 있는 컴포넌트들(300)을 도시하는 블록도이다. 컴포넌트(300)는 하드웨어(302), 범용 소프트웨어(320) 및 특수목적용 컴포넌트(340)를 포함한다. 전술한 바와 같이, 개시된 기술을 구현하는 시스템은 중앙 처리 유닛(304), 작업 메모리(306), 저장 메모리(308) 및 입력 및 출력 장치(310)를 포함하는 다양한 하드웨어를 사용할 수 있다. 컴포넌트(300)는 가령 서버 컴퓨팅 장치(210 또는 220)와 같은 서버 컴퓨팅 장치 상에서 또는 클라이언트 컴퓨팅 장치(205)와 같은 클라이언트 컴퓨팅 장치에서 구현될 수 있다.

범용 소프트웨어(320)는 운영 시스템(322), 로컬 프로그램(324) 및 BIOS(326)를 포함하는 다양한 애플리케이션을 포함할 수 있다. 특수목적용 컴포넌트(340)는 가령 로컬 프로그램(324)과 같은 범용 소프트웨어 애플리케이션(320)의 서브컴포넌트일 수 있다. 특수목적용 컴포넌트(340)는 번역-전 언어 식별자(344), 번역기(346), 번역 점수화 모델(348), 신뢰성 점수 생성기(350) 및 가령 인터페이스(342)와 같은 특수목적용 컴포넌트로부터 데이터를 수신하고 제어하기 위해 사용될 수 있는 컴포넌트를 포함할 수 있다. 일부 구현에서, 컴포넌트(300)는 다수의 컴퓨팅 장치들에 걸쳐 분산된 컴퓨팅 시스템 내에 있을 수 있거나 서버-기반 애플리케이션으로의 인터페이스를 포함할 수 있다.

번역-전 언어 식별자(344)는 스니펫, 가령 인터페이스(342)를 통해 수신된 스니펫의 초기 소스 언어 분류를 수행하도록 구성될 수 있다. 이러한 초기 소스 언어 분류는 대응하는 신뢰성 점수를 갖는 스니펫의 하나 이상의 언어를 식별할 수 있다. 식별된 언어는 그들의 신뢰성 값에 기반하여 분류될 수 있고, 임계 레벨보다 높은 신뢰성 점수를 갖는 언어들이 추가 분석을 위해 선택될 수 있다. 예컨대, 임계 레벨은 1, 3, 5, 또는 10개의 잠재 소스 언어일 수 있고, 상위 1, 3, 5, 10, 25 또는 50% 임계 소스 언어; 50%, 60%, 75%, 80% 또는 90%보다 높은 신뢰성 값을 갖는 모든 잠재 소스 언어; 또는 모든 잠재 소스 언어가 추가 분석을 위해 선택될 수 있다. 초기 소스 언어 분류는 스니펫의 컨텐츠의 분석, 가령 어떤 단어가 사용되는지, 스니펫에서의 구조 및 문법, 사용된 비속어 용어, 구두법 등에 기반할 수 있다. 초기 소스 언어 분류는 또한, 스니펫의 컨텍스트의 분석, 가령 작성자가 누구인지와 그들에 관해 무엇이 알려지는지, 그들의 친구가 누구인지, 언제 스니펫이 생성되었는지, 어디서 스니펫이 게시되었는지 및 어떤 다른 정보가 그 위치에서 다른 아이템들에 관해 이용가능한지 등에 기반할 수 있다. 이러한 방식으로 미디어 아이템을 분류하는 예시는 본 명세서에 참조로 통합되는 미국 특허출원 제14/302,032호에 더 상세히 논의된다.

번역기(346)는 하나 이상의 기계 번역 엔진일 수 있다. 기계 번역 생성 엔진은 스니펫을 입력으로 취하는 프로그램일 수 있고, 다른 언어나 방언으로 스니펫의 버전을 생성할 수 있다. 일부 구현에서, 번역기(346) 중 하나는 특정 소스 언어, 출력 언어 또는 둘 모두에 대한 번역을 수행하기 위한 설정일 수 있다. 일부 구현에서, 번역기(346)가 다수의 소스 언어로부터 또는 번역기로 제공되는 파라미터에 의해 정의되는 다수의 출력 언어로의 번역을 수행하기 위한 설정일 수 있다. 번역기(346)는 소스 언어로부터 출력 언어로의 스니펫의 변환을 수행하기 위해 다양한 언어 모델, 규칙들의 세트 또는 다른 알고리즘을 사용할 수 있다. 다양한 소스/출력 언어 또는 소스/출력 언어 파라미터에 대한 번역이 임계 레벨보다 높은 신뢰성 값을 갖는 언어에 기반하여 번역-전 언어 식별자(344)에 의한 추가 분석을 위해 선택될 수 있다.

번역 점수화 모델(348)은 번역기(346)로부터 번역을 수신할 수 있고, 번역의 품질의 추정을 제공하도록 구성될 수 있다. 일부 구현에서, 번역 점수화 모델(348)은 번역에 대한 점수를 제공할 수 있는 가령 뉴럴 네트워크와 같은 하나 이상의 트레이닝된 모델일 수 있다. 일부 구현에서, 번역 점수화 모델(348) 중 하나가 특정 소스 언어, 출력 언어 또는 둘 모두에 대한 번역의 분석을 수행하기 위한 설정일 수 있다. 일부 구현에서, 번역 점수화 모델(348) 중 하나는 다수의 소스 언어 또는 다수의 출력 언어로의 분석을 수행하기 위한 설정일 수 있다. 번역 점수화 모델(348)은 각 번역에 대한 점수를 제공할 수 있다. 일부 구현에서, 번역기(346)는 동일한 소스 언어 및 다수의 상이한 출력 언어를 적용하는 스니펫의 다수의 번역을 생성하도록 선택 또는 구성될 수 있다. 이러한 경우, 소스 언어에 대한 조합된 점수가, 가령 소스 언어를 공유하는 번역에 대한 다양한 점수를 평균화함으로써 생성될 수 있다. 점수는 번역-전 언어 식별자(344)에 의해 생성된 신뢰성 점수에 대한 가중 인자가 되도록 구성될 수 있다. 예컨대, 1의 점수는 중립 점수일 수 있고, .9의 점수는 신뢰성 값을 10% 감소시킬 수 있고, 1.1의 점수는 신뢰성 값을 10% 증가시킬 수 있다.

신뢰성 점수 생성기(350)는 번역 점수화 모델(348)로부터 가중 인자를 수신하고 번역-전 언어 식별자(344)로부터 식별된 가능한 소스 언어에 대한 신뢰성 점수를 수신할 수 있다. 신뢰성 점수 생성기(350)는 이후 가중 인자를 사용하여 식별된 가능한 소스 언어의 신뢰성 점수를 업데이트할 수 있다. 가장 높은 업데이트된 신뢰성 값을 갖는 발생된 식별된 가능한 소스 언어가 스니펫에 대해 가장 가능성이 높은 소스 언어로 선택될 수 있다. 이러한 식별은 인터페이스(342)를 통해 리턴될 수 있다.

통상의 기술자는 전술한 도 1 내지 3에 도시되고, 이하에서 논의되는 흐름도 각각에서의 컴포넌트가 다양한 방식으로 변경될 수 있음을 인식할 것이다. 예컨대, 논리의 순서는 재정렬될 수 있고, 서브단계들은 병렬로 수행될 수 있으며, 도시된 논리는 생략될 수 있고, 다른 논리가 포함될 수 있는 등이 가능하다.

도 4는 스니펫 소스 언어에 대한 신뢰성 점수를 계산하기 위해 일부 구현에서 사용되는 프로세스(400)를 도시하는 흐름도이다. 프로세스(400)는 블록(402)에서 시작되어 블록(404)으로 계속된다. 블록(404)에서, 프로세스(400)는 소스 언어가 결정될 스니펫을 수신할 수 있다. 다양한 구현에서, 스니펫은 낮은 신뢰성 점수를 갖는 스니펫에 대한 식별된 소스 언어 또는 가령 작성자가 유명인이거나 다수의 사람들에 의해 통상적으로 보여지거나/공유되는 스니펫을 생성하는 사람이거나, 스니펫의 토픽이 다수의 사람들의 관심을 끄는 인기있는 이슈에 관한 것이거나 또는 스니펫이 그것의 생성 이후에 짧은 시간 동안 많은 참여를 가진 경우와 같은 스니펫이 중요하거나 또는 거대한 독자층을 가진다는 표시에 기반하여 프로세스(400)를 위해 선택될 수 있다.

블록(406)에서, 프로세스(400)는 블록(404)에서 수신된 스니펫에 대해 초기 소스 언어 식별을 수행할 수 있다. 스니펫의 초기 소스 언어 식별의 수행은 스니펫의 컨텐츠 및/또는 컨텍스트를 분석하는 것을 포함할 수 있다. 스니펫의 컨텐츠의 분석은 스니펫의 어떤 단어들이 어떤 언어로 매치업되는지; 스니펫 내의 문법이 특정 언어를 표시하는지 여부; 스니펫 내의 언어의 구조가 특정 언어를 표시하는지 여부; 엑센트 표시와 같은 구두법이 사용되는지 여부; 어떤 타입의 문자가 사용되는지 여부 등의 결정을 포함할 수 있다. 스니펫의 컨텍스트의 분석은 스니펫이 생성된 시간이 특정 언어나 지역을 표시하는지 여부의 결정; 스니펫이 게시된 가상 위치 또는 그 위치에서의 다른 미디어 아이템이 특정 언어를 표시하는지 여부; 또는 스니펫의 작성자에 관해 이용가능한 정보가 특정 언어를 표시하는지 여부의 결정을 포함할 수 있다. 예컨대, 스니펫은 그것의 작성자나 작성자의 친구들에 의해 알려진 언어로 쓰여질 가능성이 높다. 초기 소스 언어 식별의 수행에 관한 추가적인 세부사항은 미국 특허출원 제14/302,032호에서 찾을 수 있다. 일부 구현에서, 초기 소스 언어의 식별은 신뢰성 값을 포함할 수 있다. 신뢰성 값은 컨텐츠로부터의 타입이나 인자, 소스 언어 식별을 양산한 컨텍스트 분석 또는 얼마나 강하게 하나 이상의 인자가 특정 언어를 표시하는지에 기반할 수 있다.

블록(408)에서, 하나 이상의 상위 가장 가능성이 높은 소스 언어가 식별될 수 있다. 이는 예컨대, 임계치보다 높은 신뢰성 값을 갖는 잠재 소스 언어를 선택함으로써 달성될 수 있다. 일부 구현에서, 상위 가장 가능성이 높은 소스 언어의 선택은 모든 잠재 소스 언어를 선택하는 것을 포함할 수 있다.

블록(410)에서 프로세스(400)는 블록(408)에서 결정된 상위 가장 가능성이 높은 소스 언어에 대한 점수화된 번역을 생성할 수 있다. 점수화된 번역을 생성하는 것은, 상이한 소스 또는 출력 언어를 위해 구성된 번역기를 스니펫에 적용하는 것; 발생된 번역에 점수화 모델을 적용하는 것; 및 다수의 번역이 동일한 소스 언어를 위해 생성된 경우, 동일한 소스 언어를 갖는 번역에 대한 점수를 조합하는 것을 포함할 수 있다. 점수화된 번역의 생성과 관련된 추가적인 세부사항이 특징 5A 및 5B와 관련하여 아래에서 논의된다. 일부 구현에서, 블록(406, 408)은 스킵될 수 있거나, 오로지 단순화된 가장 가능성이 높은 언어 분석만이 수행될 수 있다. 블록(406, 408)이 스킵된다면, 블록(410)이 모든 가능한 소스 언어에 대해 또는 공통 소스 언어의 특정된 세트에 대해 수행될 수 있다.

블록(412)에서, 프로세스(400)는 블록(406)에서 식별된 가능한 소스 언어 중 하나 이상에 대한 신뢰성 인자를 조정할 수 있다. 일부 구현에서, 블록(410)으로부터의 점수는 가중 인자일 수 있다. 일부 구현에서, 신뢰성 값의 조정은 블록(410)으로부터의 가중 인자에 블록(406)에서 결정된 신뢰성 값을 곱하는 것을 포함할 수 있다. 일부 구현에서, 블록(410)에서 결정된 특정 소스 언어에 대응하는 점수는 블록(406)에서 결정된 값들을 대체함으로써 업데이트된 신뢰성 값으로 사용될 수 있다. 가장 높은 조정된 신뢰성 값을 갖는 잠재 소스 언어가 수신된 스니펫에 대한 가장 가능성 높은 소스 언어로 선택될 수 있다. 이러한 가장 가능성 높은 소스 언어에 대응하는 하나 이상의 번역 또는 가장 가능성 높은 소스 언어의 식별이 리턴될 수 있다. 프로세스(400)는 그것이 종료되는 블록(414)으로 계속된다.

도 5a는 스니펫의 점수화된 번역을 생성하기 위해 일부 구현에서 사용되는 프로세스(500)를 도시하는 흐름도이다. 아래에서 논의되는 것처럼, 일부 구현에서, 프로세스(500)는 다수의 잠재 소스 언어 각각에 대해 상이한 출력 언어를 갖는 번역들을 생성할 수 있다. 이것은 계산적으로 집중적인 절차일 수 있고, 따라서 가령 게시물이 디스플레이되도록 선택되기 전에 소셜 미디어 사이트로의 게시물의 생성하는 시간에 "오프라인"으로 수행될 수 있다. 프로세스(500)는 블록(502)에서 시작되어 블록(504)으로 계속된다. 블록(504)에서 프로세스(500)는 스니펫을 수신할 수 있다. 일부 구현에서, 스니펫은 블록(404)에서 프로세스(400)에 의해 수신된 것일 수 있다.

블록(506)에서, 프로세스(500)는 하나 이상의 번역기를 획득할 수 있다. 일부 구현에서, 획득된 번역은 하나 이상의 기계 번역 엔진일 수 있다. 번역기가 아래에서 특정 소스 또는 출력 언어를 위해 개별적으로 구성되는 것으로 논의되지만, 일부 구현에서, 동일한 번역기가 소스 또는 출력 언어가 적용될 파라미터를 설정함으로써 다수의 소스 또는 출력 언어를 위해 사용될 수 있다. 다양한 구현에서, 번역기는 특정 출력 언어를 위해 구성될 수 있거나 다수의 출력 언어를 위해 구성될 수 있다. 일부 구현에서, 획득된 번역기는 블록(406)에서 프로세스에 의해 결정될 수 있는 것처럼 수신된 스니펫에 대해 가능성이 높은 소스 언어로 결정된 소스 언어에 대응할 수 있다.

블록(508)에서, 제1 획득된 번역기가 선택된 번역기로 설정된다. 블록(510)에서, 특정 소스 언어를 추정하고 특정 출력 언어를 생성하는 선택된 번역기가 수신된 스니펫에 적용될 수 있고, 스니펫의 번역을 생성한다. 블록(512)에서, 프로세스(510)는 블록(510)에서 생성된 번역에 대한 점수를 계산할 수 있다. 일부 구현에서, 모델은 소스 및 출력 언어가 주어지면 번역의 신뢰성 점수를 계산할 수 있다. 일부 구현에서, 점수화 모델이 가령 뉴럴 네트워크와 같은 구성으로 트레이닝될 수 있거나, 다른 분석 기술, 가령 문법 분석 및 결정 트리를 사용할 수 있다.

블록(514)에서, 프로세스(500)는 블록(506)에서 획득된 번역기 중 임의의 것이 수신된 스니펫에 적용되지 않았는지 여부를 결정할 수 있다. 그렇다면, 프로세스(500)는 블록(516)으로 계속된다. 그렇지 않다면, 프로세스(500)는 블록(518)으로 계속된다. 블록(516)에서 프로세스(500)는 블록(506)에서 수신된 번역기로부터 선택된 번역기로서 다음의 사용되지 않은 번역기를 설정한다. 블록(510) 내지 블록(516) 사이의 루프는 블록(506)에서 보류된 각각의 번역기에 대응하는 점수화된 번역이 획득될 때까지 계속될 것이다.

블록(518)에서, 동일한 소스 언어를 갖지만 상이한 출력 언어를 갖는 다수의 번역이 있다면, 동일한 소스 언어를 갖는 번역에 대한 점수가 가령 평균을 냄으로써 조합될 수 있다. 블록(520)에서, 블록(518)에서 계산된 조합된 점수 또는 블록(512)에서 계산된 점수가 리턴될 수 있다. 일부 구현에서, 대응하는 번역이 또한, 리턴될 수 있다. 프로세스(500)는 이후 그것이 종료되는 블록(522)으로 진행된다.

도 5b는 스니펫의 점수화된 번역을 생성하기 위한 일부 추가적인 구현에서 사용되는 프로세스(550)를 도시하는 흐름도이다. 프로세스(550)는 프로세스(500)보다 덜 계산적으로 비용이 들 수 있다. 따라서, 프로세스(558)는, 가령 스니펫에 대한 요청이 이루어진 후와 같이 신속함이 필수적인 때에 사용될 수 있다. 프로세스(550)는 블록(552)에서 시작되어 블록(554)으로 계속된다. 블록(554)에서 프로세스(550)는 스니펫을 수신할 수 있다. 일부 구현에서, 수신된 스니펫은 블록(404)에서 수신된 것일 수 있다.

블록(556)에서, 스니펫을 포함하는 컨텐츠를 요청한 사용자의 신원이 수신될 수 있다. 블록(558)에서, 블록(556)에서 식별된 사용자와 연관된 언어가 식별될 수 있다. 사용자와 연관된 언어의 식별은, 사용자에 대해 명시된 설정, 예컨대, 브라우저 설정이나 프로필 설정; 사용자가 생성한 컨텐츠 아이템과 연관된 언어의 이력; 사용자가 상호작용하는 경향을 갖는 컨텐츠 아이템; 사용자의 친구들과 연관된 언어 등과 같은 인자에 기반할 수 있다. 사용자와 연관된 언어의 식별에 관한 추가적인 세부사항은 미국 특허출원 제14/302,032호에서 찾을 수 있다.

블록(560)에서, 프로세스(550)는 번역기, 예컨대, 블록(558)에서 식별된 언어에 대응하는 출력 언어로 다양한 소스 언어에 대한 번역을 생성하는 기계 번역 엔진을 획득할 수 있다. 일부 구현에서, 획득된 번역기는 블록(408)에서 식별된 상위 가장 가능성 높은 소스 언어 중 하나에 대응하는 소스 언어를 명시하는 것들로 제한될 수 있다.

블록(562)에서, 블록(560)에서 획득된 번역이 수신된 스니펫의 하나 이상의 번역을 획득하기 위해 블록(552)에서 수신된 스니펫에 적용될 수 있다. 각각의 적용된 번역기는 특정 소스 언어를 추정할 수 있고, 블록(558)에서 식별된 언어로 번역을 생성할 수 있다. 블록(564)에서, 프로세스(550)는 블록(562)에서 생성된 번역을 점수화할 수 있다. 블록(512)과 관련하여 위에서 논의한 바와 같이, 번역 결과의 점수화는 점수화 모델을 적용하는 것을 포함할 수 있다. 점수화 모델은 번역 및 소스 스니펫을 취할 수 있고, 가령 명시된 소스나 출력 언어와 같은 파라미터에 기반할 수 있는 번역에 대한 품질 점수를 계산할 수 있다.

블록(566)에서, 프로세스(550)는 번역 점수를 리턴할 수 있다. 일부 구현에서, 프로세스(550)는 또한, 대응하는 번역을 리턴할 수 있다. 프로세스(550)는 이후 그것이 종료되는 블록(568)으로 계속될 수 있다.

도 6은 스니펫의 가능한 소스 언어들에 대한 신뢰성 점수의 계산을 도시하는 예시(600)이다. 예시(600)는 스니펫(602), 언어 식별자(604), 초기 소스 언어 점수(606), 번역기(608), 번역 점수화 모델(610), 번역 점수(612), 점수 업데이터(614) 및 업데이트된 소스 언어 점수(616)를 포함한다. 스니펫(602)은 블록(404)과 관련하여 위에서 논의된 스니펫에 대응할 수 있다. 언어 식별자(604)는 블록(344)과 관련하여 위에서 논의된 번역-전 언어 식별자에 대응할 수 있다. 번역기(608)는 블록(346)과 관련하여 위에서 논의된 번역기에 대응할 수 있다. 번역 점수화 모델(610)은 블록(348)과 관련하여 위에서 논의된 번역 점수화 모델에 대응할 수 있다. 점수 업데이터(614)는 블록(350)과 관련하여 위에서 논의된 신뢰성 점수 생성기에 대응할 수 있다.

예시(600)에서, 스니펫이 단계(650)에서 언어 식별자(604)로 제공된다. 이 예시에서, 스니펫은 "Check it: sto imparando un nouveau langua!"를 포함한다. 이 스니펫은 몇몇 언어의 특징을 가진다: "Check it"(영어); sto imparando (이탈리아어); un(불어, 이탈리아어 또는 스페인어의 잘못된 철자); nouveau(불어); langua(불어, 이탈리아어 또는 스페인어 중 임의의 것에서의 가까운 잘못된 철자). 또한, 이 스니펫은 일반적으로 스페인어를 말하는 것으로 알려졌지만, 다수의 불어를 사용하는 친구들을 가진 사용자에 의해 불어로 쓰여진 기사에 대한 소셜 미디어 웹사이트 상의 코멘트 섹션에 게시되었고, 대부분 영어 사용자를 갖는 미국에서의 위치와 연관된 IP 주소로부터 게시되었다. 예시(600)의 단계(652)에서, 언어 식별자(604)는 초기 소스 언어 점수(606)를 식별할 수 있다. 단계(652)에서 초기 소스 언어 점수(606)를 식별하는 것은 블록(406)에 대응할 수 있다. 위의 요소에 기반하여, 예시(600)에서 불어가 최고 점수를 갖는 가장 가능성이 높은 소스 언어이며, 스페인어가 가까운 2등이며, 이탈리아어가 또한, 75%가 넘는 가능성을 가진다.

예시(600)에서, 이 스니펫은 상위 점수의 가능한 소스 언어들의 근접성으로 인해 그리고 작성자가 다수의 다른 사용자들이 소셜 미디어 사이트로의 그녀의 게시물을 본 이력을 가진 유명인이기 때문에 추가 분석을 위해 선택된다. 따라서, 단계(654a-654e)에서, 스니펫은 스니펫의 다수의 번역을 수행하도록 번역기(608)로 제공되고, 각각은 소스 언어 및 출력 언어의 상이한 조합을 사용한다. 예시(600)에서, 50%의 임계 초기 신뢰성 인자가 설정되어서 잠재 소스 언어: 불어, 스페인어, 이탈리아어, 영어 및 독일어에 대해, 이들이 예시(600)에서 50% 넘는 초기 신뢰성 점수를 갖는 가능한 소스 언어이기 때문에 번역이 수행되도록 한다. 단계(654a)에서, 예컨대, 스니펫은, 불어를 소스 언어로 가정하고 스페인어, 중국어, 일본어 및 다른 언어를 포함하는 출력 언어로 번역을 생성하여 번역된다. 상이한 소스 및 출력 언어에 대해 번역을 생성하기 위해 번역기를 사용하는 것은 블록(508-510)에 대응할 수 있다.

단계(656)에서, 발생된 번역은 번역 점수화 모델(610)로 제공될 수 있다. 단계(658)에서, 번역 점수화 모델(610)은 각각의 번역을 점수화하고, 공통 소스 언어를 가지는 번역에 대해 조합된 점수를 결정할 수 있다. 예시(600)에서, 이탈리아어의 소스 언어를 갖는 번역은 출력 언어에 대해 점수를 수신하였다: 스페인어 1.12, 중국어 1.32, 일본어 .87, 영어 .99, 불어 1.21 및 다른 점수들. 이탈리아 소스 언어에 대한 이들 점수의 조합은, 예컨대 1.09이다. 점수 및 소스 언어에 대한 조합 점수를 결정하는 것은 블록(512, 518)에 대응할 수 있다.

단계(660, 662)에서, 초기 소스 언어 점수(606) 및 조합된 번역 점수(612)가 점수 업데이터(614)로 제공된다. 단계(664)에서, 점수 업데이터(614)는 상위 점수 초기 소스 언어 점수(606)에 대한 가중 인자로서 조합된 번역 점수(612)를 사용함으로써 업데이트된 소스 언어 점수(616)를 제공할 수 있다. 예컨대, 이탈리아어는 그것의 조합된 번역 점수 1.09를 곱한 그것의 초기 소스 언어 점수 .78의 곱셈에 기반하여 가장 가능성이 높은 소스 언어로 결정된다. 업데이트된 소스 언어 신뢰성 점수를 결정하기 위해 초기 소스 언어 점수를 업데이트하는 것은 블록(412)에 대응할 수 있다. 예시(600)에서, 이탈리아어가 가장 높은 업데이트된 소스 언어 신뢰성 점수를 갖기 때문에 스니펫(602)에 대해 가장 가능성이 높은 소스 언어로서 이제 선택될 수 있다.

개시된 기술에 대한 몇몇 구현이 도면을 참조하여 위에서 설명된다. 설명된 기술이 구현될 수 있는 컴퓨팅 장치는 하나 이상의 중앙 처리 유닛, 메모리, 입력 장치(예컨대, 키보드와 포인팅 장치), 출력 장치(예컨대, 디스플레이 장치), 저장 장치(예컨대, 디스크 드라이브), 및 네트워크 장치(예컨대, 네트워크 인터페이스)를 포함할 수 있다. 메모리와 저장 장치는 설명된 기술의 부분들을 적어도 구현하는 명령어를 저장할 수 있는 컴퓨터-판독가능한 저장 매체다. 추가로, 데이터 구조 및 메시지 구조가 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 송신되거나 저장될 수 있다. 다양한 통신 링크, 가령 인터넷, LAN, WAN, 또는 점대점 다이얼업 연결이 사용될 수 있다. 따라서, 컴퓨터-판독가능한 매체는 컴퓨터-판독가능한 저장 매체(예컨대, "비-일시적" 매체)와 컴퓨터-판독가능한 전송 매체를 포함할 수 있다.

본 명세서에 사용되는 것처럼, 임계치보다 높다는 것은 비교되는 아이템에 대한 값이 명시된 다른 값보다 높거나, 비교되는 아이템이 가장 큰 값을 갖는 특정 명시된 개수의 아이템 사이에 있거나, 또는 비교되는 아이템이 명시된 상위 퍼센티지 값 내의 값을 가진다는 것을 의미한다. 본 명세서에 사용되는 것처럼, 임계치보다 낮다는 것은 비교되는 아이템에 대한 값이 명시된 다른 값보다 낮거나, 비교되는 아이템이 가장 작은 값을 갖는 특정 명시된 개수의 아이템들 중에 있거나, 비교되는 아이템이 명시된 하위 퍼센티지 값 내의 값을 가진다는 것을 의미한다. 본 명세서에 사용되는 것처럼, 임계치 내에 있다는 것은 비교되는 아이템에 대한 값이 2개의 명시된 다른 값들 사이에 있거나, 비교되는 아이템이 중앙의 명시된 개수의 아이템들 사이에 있거나, 비교되는 아이템이 중앙의 명시된 퍼센티지 범위 내의 값을 가진다는 것을 의미한다.

본 명세서에 사용되는 것처럼, 단어 "or"은 아이템들의 세트의 임의의 가능한 순열을 지칭한다. 예컨대, 구절 "A, B 또는 C"는, A, B, C 또는 이들의 임의의 조합 중 적어도 하나, 가령: A; B; C; A 및 B; A 및 C; B 및 C; A, B, 및 C를 지칭하거나; 또는 임의의 아이템들의 배수, 가령 A 및 A; B, B 및 C; A, A, B, C 및 C 등을 지칭한다.

비록 발명의 대상이 구조적 특징 및/또는 방법론적 행위들에 특정되는 언어로 설명되었지만, 첨부되는 청구범위에서 정의된 발명의 대상은 위에서 기술된 특정 특징이나 행위들로 필수적으로 제한되는 것이 아니라는 것이 이해될 것이다. 특정 실시예 및 구현이 예시의 목적으로 본 명세서에 기술되었지만, 다양한 수정이 실시예 및 구현의 범위로부터 벗어남이 없이 이루어질 수 있다. 위에서 기술된 특정 특징 및 행위는 후속하는 청구항들을 구현하는 예시적인 형태로 개시된다. 따라서, 실시예 및 구현은 예외적으로 첨부된 청구항들에 의하지 않고서는 제한되지 않는다.

위에서 언급된 임의의 특허권, 특허출원 및 다른 참조문헌이 본 명세서에 참조로 통합된다. 필요하다면, 더 추가적인 구현을 제공하기 위해 전술한 다양한 참조문헌의 시스템, 기능 및 개념을 이용하도록 양태가 수정될 수 있다. 참조로 통합된 문서에서의 서술이나 발명의 대상이 본 출원의 서술이나 발명의 대상과 상충된다면, 이후 본 출원이 통제할 것이다.

Claims

스니펫(snippet)의 가장 가능성이 높은 소스 언어를 식별하는 방법으로서,
스니펫의 표시를 수신하는 단계;
스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하는 단계;
각각 명시된 번역 소스 언어를 가지는 스니펫의 둘 이상의 번역을 생성하는 단계;
스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하는 단계;
스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하는 단계; 및
가장 높은 신뢰성 인자와 연관된 스니펫에 대한 가능한 소스 언어를 가장 가능성이 높은 소스 언어로 선택하는 단계를 포함하고,
스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
스니펫의 둘 이상의 번역 중 적어도 하나는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역을 포함하고;
정확성 점수를 계산하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수를 계산하는 단계를 포함하고,
각각의 조합된 정확성 점수를 계산하는 것은 공통의 명시된 번역 소스 언어를 가지는 다수의 번역 각각에 대응하는 개별 정확성 점수를 조합함으로써 수행되며, 및
공통의 명시된 번역 소스 언어에 대한 신뢰성 인자를 생성하는 것은 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수에 기반하는 소스 언어를 식별하는 방법.
제 2 항에 있어서,
스니펫에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며,
각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하고, 및
가능한 소스 언어 중 적어도 선택된 하나에 대한 신뢰성 인자를 생성하는 것은 가능한 소스 언어 중 선택된 하나에 대응하는 조합된 정확성 점수를 사용하여 가능한 소스 언어 중 선택된 하나에 대한 초기 신뢰성 값을 업데이트하는 것을 포함하는 소스 언어를 식별하는 방법.
제 2 항에 있어서,
공통의 명시된 번역 소스 언어에 대한 신뢰성 인자는 조합된 정확성 점수인 소스 언어를 식별하는 방법.
제 1 항에 있어서,
스니펫에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하는 소스 언어를 식별하는 방법.
제 5 항에 있어서,
둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 소스 언어를 식별하는 방법.
제 5 항에 있어서,
스니펫에 대한 초기 소스 언어 식별을 수행하는 것은 스니펫의 컨텍스트의 분석을 포함하는 소스 언어를 식별하는 방법.
제 7 항에 있어서,
스니펫의 컨텍스트의 분석은:
스니펫의 작성자(author)에게 쉬운 것으로 알려진 언어;
스니펫의 작성자의 친구로 식별된 사용자와 연관된 언어;
스니펫이 생성된 때;
스니펫이 게시된 가상의 위치에 대한 정보; 또는
이들의 임의의 조합 중 하나 이상을 사용하는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 스니펫의 가장 가능성이 높은 소스 언어로 선택된 언어인 번역을 스니펫의 번역으로 선택하는 단계를 더 포함하는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
스니펫의 열람 사용자의 표시를 수신하는 단계; 및
스니펫의 열람 사용자와 연관된 출력 언어를 결정하는 단계를 더 포함하고,
스니펫의 생성된 둘 이상의 번역은 각각 스니펫의 열람 사용자와 연관된 출력 언어에 매칭하는 출력 언어로 되어 있는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
정확성 점수를 계산하는 것은 입력 스니펫, 출력 스니펫 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수를 생성하도록 트레이닝되는 번역 점수화 모델에 의해 수행되는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
방법은 스니펫의 번역을 요구하는 요청에 응답하여 수행되는 소스 언어를 식별하는 방법.
제 1 항에 있어서,
방법은 스니펫의 생성 또는 소셜 미디어 웹사이트로 스니펫을 게시하는 것에 응답하여 수행되는 소스 언어를 식별하는 방법.
컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템으로 하여금 스니펫 소스 언어에 대한 신뢰성 인자를 식별하기 위한 동작을 수행하도록 야기하는 명령어를 포함하고, 상기 동작은:
스니펫의 표시를 수신하는 것;
스니펫의 열람자의 표시를 수신하는 것;
스니펫의 열람자와 연관된 출력 언어를 결정하는 것;
명시된 번역 소스 언어를 각각 가지고 스니펫의 열람자와 연관된 출력 언어와 매칭하는 출력 언어로 각각 되어 있는 둘 이상의 번역의 스니펫의 둘 이상의 번역을 생성하는 것;
스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하는 것; 및
스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하는 것을 포함하고,
스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되는 컴퓨터-판독가능한 저장 매체.
제 14 항에 있어서,
동작은:
스니펫에 대한 초기 소스 언어 식별을 수행하는 것을 더 포함하고,
스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하는 컴퓨터-판독가능한 저장 매체.
제 15 항에 있어서,
둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 컴퓨터-판독가능한 저장 매체.
제 14 항에 있어서,
동작은:
스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자를 갖는 언어인 번역을 스니펫의 번역으로 선택하는 것을 더 포함하는 컴퓨터-판독가능한 저장 매체.
제 14 항에 있어서,
정확성 점수를 계산하는 것은 입력 스니펫, 출력 스니펫 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수를 생성하도록 트레이닝되는 번역 점수화 모델에 의해 수행되는 컴퓨터-판독가능한 저장 매체.
스니펫의 번역을 생성하기 위한 시스템으로서,
메모리;
하나 이상의 프로세서;
스니펫의 표시를 수신하도록 구성되는 인터페이스;
스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되는 번역-전 언어 식별자;
각각 명시된 번역 소스 언어를 가지는 스니펫의 둘 이상의 번역을 생성하도록 구성되는 번역기;
스니펫의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수를 계산하도록 구성되는 번역 점수화 모델; 및
스니펫에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자를 생성하도록 구성되는 신뢰성 점수 생성기를 포함하고,
스니펫의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자는 선택된 가능한 소스 언어에 대응하는 소스 언어를 갖는 계산된 정확성 점수 중 하나 이상에 기반하여 생성되고,
인터페이스는 스니펫의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자를 갖는 가능한 소스 언어인 번역을 스니펫의 번역으로 제공하도록 더 구성되는 스니펫의 번역을 생성하기 위한 시스템.
제 19 항에 있어서,
번역-전 언어 식별자는:
스니펫에 대한 초기 소스 언어 식별을 수행함으로써, 스니펫에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되고,
스니펫에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 가능한 소스 언어 중 하나 이상을 식별하고,
각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫의 언어라는 신뢰성을 표시하고; 및
둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값이 임계 값보다 높다는 것에 기반하여 선택되는 스니펫의 번역을 생성하기 위한 시스템.
스니펫(602)의 가장 가능성이 높은 소스 언어를 식별하는 컴퓨터-구현 방법으로서,
스니펫(602)의 표시를 수신하는 단계;
스니펫(602)에 대한 둘 이상의 가능한 소스 언어를 결정하는 단계;
기계 번역 엔진을 사용하여, 명시된 번역 소스 언어를 각각 가지는 스니펫(602)의 둘 이상의 번역을 생성하는 단계;
스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하는 단계;
스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하는 단계; 및
가장 높은 신뢰성 인자(616)와 연관된 스니펫(602)에 대한 가능한 소스 언어를 가장 가능성이 높은 소스 언어로 선택하는 단계를 포함하고,
스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항에 있어서,
스니펫(602)의 둘 이상의 번역 중 적어도 하나는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역을 포함하고;
정확성 점수(612)를 계산하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수(612)를 계산하는 단계를 포함하고,
각각의 조합된 정확성 점수(612)를 계산하는 것은 공통의 명시된 번역 소스 언어를 가지는 다수의 번역 각각에 대응하는 개별 정확성 점수(612)를 조합함으로써 수행되며, 및
공통의 명시된 번역 소스 언어에 대한 신뢰성 인자(616)를 생성하는 단계는 공통의 명시된 번역 소스 언어를 각각 가지는 다수의 번역에 대한 조합된 정확성 점수(612)에 기반하는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 22 항에 있어서,
스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
스니펫(602)에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값(606)을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며,
각각의 초기 신뢰성 값(606)은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫(602)의 언어라는 신뢰성을 표시하고, 및
가능한 소스 언어 중 적어도 선택된 하나에 대한 신뢰성 인자(616)를 생성하는 것은 가능한 소스 언어 중 선택된 하나에 대응하는 조합된 정확성 점수(612)를 사용하여 가능한 소스 언어 중 선택된 하나에 대한 초기 신뢰성 값(606)을 업데이트하는 것을 포함하는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 22 항 또는 제 23 항에 있어서,
공통의 명시된 번역 소스 언어에 대한 신뢰성 인자는 조합된 정확성 점수(612)인 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항 또는 제 24 항 중 어느 한 항에 있어서,
스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 단계를 더 포함하고,
스니펫(602)에 대한 초기 소스 언어 식별은 대응하는 초기 신뢰성 값을 각각 가지는 하나 이상의 가능한 소스 언어를 식별하며, 및
각각의 초기 신뢰성 값은, 대응하는 가능한 소스 언어에 대해, 대응하는 가능한 소스 언어가 스니펫(602)의 언어라는 신뢰성을 표시하고,
선택적으로, 둘 이상의 가능한 소스 언어 중 제1 소스 언어는 둘 이상의 가능한 소스 언어 중 제1 소스 언어에 대한 대응하는 초기 신뢰성 값(606)이 임계 값보다 높다는 것에 기반하여 선택되는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 25 항에 있어서,
스니펫(602)에 대한 초기 소스 언어 식별을 수행하는 것은 스니펫(602)의 컨텍스트의 분석을 포함하고,
선택적으로, 스니펫(602)의 컨텍스트의 분석은:
스니펫(602)의 작성자에게 쉬운 것으로 알려진 언어;
스니펫(602)의 작성자의 친구로 식별된 사용자와 연관된 언어;
스니펫(602)이 생성된 때;
스니펫(602)이 게시된 가상의 위치에 대한 정보; 또는
이들의 임의의 조합 중 하나 이상을 사용하는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항 또는 제 26 항 중 어느 한 항에 있어서,
스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 스니펫(602)의 가장 가능성이 높은 소스 언어로 선택된 언어인 번역을 스니펫(602)의 번역으로 선택하는 단계를 더 포함하는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항 또는 제 27 항 중 어느 한 항에 있어서,
스니펫(602)의 열람 사용자의 표시를 수신하는 단계; 및
스니펫(602)의 열람 사용자와 연관된 출력 언어를 결정하는 단계를 더 포함하고,
스니펫(602)의 생성된 둘 이상의 번역은 각각 스니펫(602)의 열람 사용자와 연관된 출력 언어에 매칭하는 출력 언어로 되어 있는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항 또는 제 28 항 중 어느 한 항에 있어서,
정확성 점수(612)를 계산하는 것은 입력 스니펫(602), 출력 스니펫(602) 및 점수를 각각 포함하는 데이터 포인트를 포함하는 트레이닝 데이터로 번역 점수(612)를 생성하도록 트레이닝되는 번역 점수화 모델(348; 610)에 의해 수행되는 소스 언어를 식별하는 방법.
제 21 항 또는 제 29 항 중 어느 한 항에 있어서,
방법은 스니펫(602)의 번역을 요구하는 요청에 응답하여 수행되거나, 또는
방법은 스니펫(602)의 생성 또는 소셜 미디어 웹사이트로 스니펫(602)을 게시하는 것에 응답하여 수행되는 소스 언어를 식별하는 컴퓨터-구현 방법.
제 21 항 내지 제 30 항 중 어느 한 항에 있어서,
가장 가능성이 높은 소스 언어는:
기계 번역 엔진을 적용하는 것;
스펠링 교정을 수행하는 것; 및
문법 교정을 수행하는 것 중 적어도 하나를 위한 프로세싱 엔진에 파라미터로 제공되는 소스 언어를 식별하는 컴퓨터-구현 방법.
컴퓨팅 시스템(100; 200; 300)에 의해 실행될 때, 컴퓨팅 시스템(100; 200; 300)으로 하여금 스니펫 소스 언어에 대한 신뢰성 인자를 식별하기 위한 동작을 수행하도록 야기하는 명령어를 저장하고, 상기 동작은:
스니펫(602)의 표시를 수신하는 것;
스니펫(602)의 열람자의 표시를 수신하는 것;
스니펫(602)의 열람자와 연관된 출력 언어를 결정하는 것;
명시된 번역 소스 언어를 각각 가지고 스니펫(602)의 열람자와 연관된 출력 언어와 매칭하는 출력 언어로 각각 되어 있는 둘 이상의 번역의 스니펫(602)의 둘 이상의 번역을 생성하는 것;
스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하는 것; 및
스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하는 것을 포함하고,
스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되는 컴퓨터-판독가능한 저장 매체.
제 32 항에 있어서,
동작은:
스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자(616)를 가지는 언어인 번역을 스니펫(602)의 번역으로 선택하는 것을 더 포함하는 컴퓨터-판독가능한 저장 매체.
제 32 항 또는 제 33 항에 있어서,
명령어는, 컴퓨팅 시스템(100; 200; 300)에 의해 실행될 때, 컴퓨팅 시스템(100; 200; 300)으로 하여금 제 21 항 내지 제 31 항 중 어느 한 항에 따른 방법을 수행하도록 야기하는 컴퓨터-판독가능한 저장 매체.
예컨대, 제 21 항 내지 제 31 항 중 어느 한 항에 따른 방법을 수행하도록 배치되는, 스니펫(602)의 번역을 생성하기 위한 시스템으로서,
메모리(150; 306; 308);
하나 이상의 프로세서(110; 304);
스니펫(602)의 표시를 수신하도록 구성되는 인터페이스(342);
스니펫(602)에 대한 둘 이상의 가능한 소스 언어를 결정하도록 구성되는 번역-전 언어 식별자(344);
각각 명시된 번역 소스 언어를 가지는 스니펫(602)의 둘 이상의 번역을 생성하도록 구성되는 번역기(346; 608);
스니펫(602)의 생성된 둘 이상의 번역 중 적어도 둘에 대한 정확성 점수(612)를 계산하도록 구성되는 번역 점수화 모델(348; 610); 및
스니펫(602)에 대한 적어도 2개의 선택된 가능한 소스 언어 각각에 대한 신뢰성 인자(616)를 생성하도록 구성되는 신뢰성 점수 생성기(350)를 포함하고,
스니펫(602)의 둘 이상의 번역 중 적어도 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어를 갖도록 생성되고, 및
스니펫(602)의 둘 이상의 번역 중 적어도 다른 하나는 명시된 번역 소스 언어로 설정된 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제1 소스 언어가 아닌 스니펫(602)에 대한 둘 이상의 가능한 소스 언어 중 제2 소스 언어를 갖도록 생성되며,
각각의 선택된 가능한 소스 언어에 대한 신뢰성 인자(616)는 선택된 가능한 소스 언어에 대응하는 소스 언어를 가지는 계산된 정확성 점수(612) 중 하나 이상에 기반하여 생성되고,
인터페이스(342)는 스니펫(602)의 생성된 둘 이상의 번역으로부터, 명시된 번역 소스 언어가 가장 높은 신뢰성 인자(616)를 가지는 가능한 소스 언어인 번역을 스니펫(602)의 번역으로 제공하도록 더 구성되는 스니펫(602)의 번역을 생성하기 위한 시스템.