RU2812952C1

RU2812952C1 - Method and device and computing device and data carrier for placement of language marks

Info

Publication number: RU2812952C1
Application number: RU2023119195A
Authority: RU
Inventors: Чжицян ТУ
Original assignee: Биго Текнолоджи Пте. Лтд.
Priority date: 2020-12-31
Filing date: 2021-12-28
Publication date: 2024-02-06

Abstract

FIELD: analysing video information.

SUBSTANCE: invention relates to methods for analysing video information, in particular to methods for determining the language of video information. The technical result is achieved due to the fact that the method involves the following stages: determining a language classifier; collecting a plurality of information items associated with the video data, and defining the plurality of information items as a plurality of video information items; dividing multiple elements of video information into target information and reference information; identifying languages that are used in the plurality of video information elements by inputting the plurality of video information elements into a language classifier; and checking the reliability level of the target language using reference languages, the target language being a language that is used in the target information, and the reference languages being a plurality of languages that are used in the reference information.

EFFECT: increasing the accuracy of language identification in video while reducing time.

16 cl, 6 dwg

Description

[0001] Согласно настоящей заявке испрашивается приоритет в соответствии с заявкой на выдачу патента Китая № 202011630350.8, поданной 31 декабря 2020 г., которая ссылкой полностью включена в настоящий документ.[0001] The present application claims priority to Chinese Patent Application No. 202011630350.8, filed on December 31, 2020, which is incorporated by reference in its entirety herein.

Область техники, к которой относится настоящее изобретениеField of technology to which the present invention relates

[0002] Настоящее изобретение относится к области обработки естественного языка и, в частности, относится к способу и устройству, вычислительному устройству для расстановки меток языка и носителю данных для расстановки меток языка.[0002] The present invention relates to the field of natural language processing and, in particular, relates to a method and apparatus, a language tagging computing device, and a language tagging storage medium.

Предшествующий уровень техники настоящего изобретенияBACKGROUND OF THE INVENTION

[0003] Некоторые платформы видеоданных получают отправленные пользователями видеоданные, например, короткие видеоролики, которые обычно содержат текстовую информацию, и предоставляют для пользователей связанные с языком услуги, например, поиск видеоданных с некоторым языком. Во время обработки видеоданных для расстановки меток с указанием языка в текстовой информации типично используется классификатор.[0003] Some video platforms receive user-submitted video data, such as short videos that typically contain textual information, and provide language-related services to users, such as searching for video data in a certain language. When processing video data, a classifier is typically used to place language labels on text information.

Краткое описание настоящего изобретенияBrief Description of the Present Invention

[0004] В настоящем раскрытии предложены способ и устройство для расстановки меток языка, и вычислительное устройство для расстановки меток языка и носитель данных для решения проблемы низкой эффективности ручной расстановки меток языка в текстовой информации.[0004] The present disclosure provides a method and apparatus for placing language marks, and a computing device for placing language marks, and a storage medium for solving the problem of low efficiency of manually placing language marks in text information.

[0005] Согласно некоторым вариантам осуществления настоящего раскрытия предложен способ расстановки меток языка. Способ расстановки меток языка предусматривает следующие стадии:[0005] According to some embodiments of the present disclosure, a method for arranging language marks is provided. The method of placing language marks involves the following stages:

[0006] определение классификатора языка;[0006] defining a language classifier;

[0007] сбор множества элементов информации, относящихся к видеоданным, и определение множества элементов информации в качестве множества элементов видеоинформации;[0007] collecting a plurality of information elements related to the video data, and defining the plurality of information elements as a plurality of video information elements;

[0008] разделение множества элементов видеоинформации на целевую информацию и справочную информацию;[0008] dividing a plurality of video information elements into target information and reference information;

[0009] идентификация языков, которые применяются во множестве элементов видеоинформации, с помощью ввода множества элементов видеоинформации в классификатор языка; и[0009] identifying languages that are used in the plurality of video information elements by inputting the plurality of video information elements into a language classifier; And

[0010] проверка уровня достоверности целевого языка с помощью справочных языков, причем целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации.[0010] checking the confidence level of the target language using reference languages, the target language being a language that is used for target information, and the reference languages being a plurality of languages that are used for reference information.

[0011] Согласно некоторым вариантам осуществления настоящего раскрытия предложено устройство для расстановки меток языка. Устройство для расстановки меток языка включает в себя:[0011] According to some embodiments of the present disclosure, a tongue marking apparatus is provided. The tongue marking device includes:

[0012] модуль определения классификатора языка, выполненный с возможностью определить классификатор языка;[0012] a language classifier determination module configured to determine a language classifier;

[0013] модуль сбора видеоинформации, выполненный с возможностью проводить сбор множества элементов информации, относящихся к видеоданным, и определять множество элементов информации в качестве множества элементов видеоинформации;[0013] a video information acquisition module configured to collect a plurality of information items related to video data, and define the plurality of information items as a plurality of video information items;

[0014] модуль разделения видеоинформации, выполненный с возможностью разделять множество элементов видеоинформации на целевую информацию и справочную информацию;[0014] a video information separating module configured to divide a plurality of video information elements into target information and reference information;

[0015] модуль классификации видеоинформации, выполненный с возможностью идентифицировать языки, которые применяются во множестве элементов видеоинформации, с помощью ввода множества элементов видеоинформации в классификатор языка; и[0015] a video information classification module configured to identify languages that are used in a plurality of video information elements by inputting the plurality of video information elements into a language classifier; And

[0016] модуль проверки уровня достоверности, выполненный с возможностью проверить уровень достоверности целевого языка с помощью справочных языков, причем целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации.[0016] a confidence level checking module configured to check the confidence level of a target language using reference languages, the target language being a language that is used for target information, and the reference languages being a plurality of languages that are used for reference information.

[0017] Согласно некоторым вариантам осуществления настоящего раскрытия предложено вычислительное устройство для расстановки меток языка. Вычислительное устройство для расстановки меток языка содержит в своем составе:[0017] According to some embodiments of the present disclosure, a computing device for placing language marks is provided. The computing device for placing language marks contains:

[0018] по меньшей мере, один процессор;[0018] at least one processor;

[0019] память, выполненную с возможностью хранить, по меньшей мере, одну программу;[0019] a memory configured to store at least one program;

[0020] причем, по меньшей мере, один процессор после загрузки и выполнения, по меньшей мере, одной программы, заставляется выполнять способ расстановки меток языка, как описано выше.[0020] wherein the at least one processor, after loading and executing the at least one program, is caused to execute the language marking method as described above.

[0021] Согласно некоторым вариантам осуществления настоящего раскрытия предложен машиночитаемый носитель данных. В машиночитаемом носителе данных хранится одна или несколько компьютерных программ, причем одна или несколько компьютерных программ, будучи загруженными и выполняемыми процессором, заставляют процессор выполнить способ расстановки меток языка, как описано выше.[0021] According to some embodiments of the present disclosure, a computer-readable storage medium is provided. Stored in a computer-readable storage medium are one or more computer programs, wherein the one or more computer programs, when loaded and executed by the processor, cause the processor to execute the language tagging method as described above.

Краткое описание фигурBrief description of the figures

[0022] На фиг. 1 показана блок-схема алгоритма способа расстановки меток языка согласно первому варианту осуществления настоящего раскрытия;[0022] In FIG. 1 is a flowchart of a method for arranging language marks according to the first embodiment of the present disclosure;

[0023] На фиг. 2 показана блок-схема алгоритма способа расстановки меток языка согласно второму варианту осуществления настоящего раскрытия;[0023] In FIG. 2 is a flowchart of a method for arranging language marks according to a second embodiment of the present disclosure;

[0024] На фиг. 3 показана общая блок-схема алгоритма обучения классификатора языка на основе полуконтролируемого обучения согласно второму варианту осуществления настоящего раскрытия;[0024] In FIG. 3 is a general flowchart of a semi-supervised learning-based language classifier training algorithm according to the second embodiment of the present disclosure;

[0025] На фиг. 4 показана часть блок-схемы алгоритма обучения классификатора языка на основе полуконтролируемого обучения согласно второму варианту осуществления настоящего раскрытия;[0025] In FIG. 4 is a partial flowchart view of a semi-supervised learning-based language classifier training algorithm according to the second embodiment of the present disclosure;

[0026] На фиг. 5 показана упрощенная блок-схема устройства для расстановки меток языка согласно третьему варианту осуществления настоящего раскрытия; и[0026] In FIG. 5 is a simplified block diagram of a tongue marking apparatus according to a third embodiment of the present disclosure; And

[0027] На фиг. 6 показана упрощенная блок-схема вычислительного устройства согласно четвертому варианту осуществления настоящего раскрытия.[0027] In FIG. 6 is a simplified block diagram of a computing device according to a fourth embodiment of the present disclosure.

Подробное раскрытие настоящего изобретенияDetailed Disclosure of the Present Invention

[0028] Настоящее раскрытие подробно описано далее в настоящем документе со ссылками на прилагаемые фигуры и варианты осуществления. Описанные в настоящем документе конкретные варианты осуществления используются только для объяснения настоящего раскрытия. Для упрощения описания на прилагаемых фигурах показаны только части, существенные для настоящего раскрытия.[0028] The present disclosure is described in detail later herein with reference to the accompanying figures and embodiments. The specific embodiments described herein are used only to explain the present disclosure. For simplicity of description, only parts essential to the present disclosure are shown in the accompanying figures.

[0029] Во время обработки видеоданных для расстановки меток с указанием языка в текстовой информации типично используется классификатор. Так как текстовая информация в видеоданных в основном имеет созданный пользователем контент, в ней имеются текстовые несоответствия, например, орфографические ошибки, сокращения, транслитерация, изменение кодировки и тому подобное, что негативно влияет на эффективность работы классификатора.[0029] During video data processing, a classifier is typically used to place language tags on text information. Since the text information in video data mainly has user-generated content, there are text inconsistencies in it, such as spelling errors, abbreviations, transliteration, encoding changes, and the like, which negatively affects the performance of the classifier.

[0030] Для устранения текстовых несоответствий и обучения классификаторов до уровня высокой точности необходим большой объем текстовой информации с размеченными языками, эта задача в основном возложена на технических специалистов, которые должны вручную расставлять метки языка в текстовой информации. Для каждого языка требуется, по меньшей мере, один технический специалист, знакомый с этим языком. Хороший уровень владения языком приводит к высоким техническим требованиям, а низкая скорость и небольшое количество меток при ручной расстановке меток приводят к низкой эффективности расстановки меток.[0030] To resolve textual inconsistencies and train classifiers to high accuracy levels, a large amount of textual information with tagged languages is required, a task primarily assigned to technicians who must manually assign language labels to the textual information. Each language requires at least one technician familiar with that language. A good level of language proficiency leads to high technical requirements, and low speed and a small number of tags during manual tagging lead to low tagging efficiency.

[0031] Кроме того, служебные данные содержат сотни различных языков, и классификатор с высокой точностью работы можно получить только за счет обучения, при котором количество выборок для каждого языка достигает определенного количества. В случае редких языков (то есть языков этнических меньшинств) получение высококачественных выборок занимает много времени.[0031] In addition, the overhead data contains hundreds of different languages, and a classifier with high performance accuracy can only be obtained through training in which the number of samples for each language reaches a certain number. In the case of rare languages (that is, ethnic minority languages), obtaining high-quality samples takes a long time.

[0032] Первый вариант осуществления[0032] First embodiment

[0033] На фиг. 1 показана блок-схема алгоритма способа расстановки меток языка согласно первому варианту осуществления настоящего раскрытия. Этот вариант осуществления применяется в случае, когда для тех же самых видеоданных конкретная текстовая информация снабжена метками языка с помощью части текстовой информации. Этот способ выполняется с помощью устройства для расстановки меток языка, которое реализовано программными и/или аппаратными средствами и выполнено в виде вычислительного устройства, например, сервера, рабочей станции или персонального компьютера. В способе предусмотрены следующие стадии.[0033] In FIG. 1 is a flowchart of a method for arranging language marks according to the first embodiment of the present disclosure. This embodiment is applied in the case where, for the same video data, specific text information is provided with language tags using a portion of the text information. This method is performed using a language tagging device that is implemented in software and/or hardware and is configured as a computing device, such as a server, workstation, or personal computer. The method includes the following stages.

[0034] На стадии 101 определяется классификатор языка.[0034] At step 101, a language classifier is determined.

[0035] Согласно некоторым вариантам осуществления предложен классификатор языка, который выполнен с возможностью идентифицировать язык, который применяется для текстовой информации. Классификатор языка является классификатором, основанном на машинном обучении, например, на методе опорных векторов (SVM) или на байесовской модели; или классификатором, основанном на глубоком обучении, например, классификатор на библиотеке fastText или сверточная нейронная сеть для классификации текста (Text-CNN), классификатор никак не ограничивается в настоящем раскрытии.[0035] According to some embodiments, a language classifier is provided that is configured to identify a language that is applied to textual information. A language classifier is a classifier based on machine learning, such as a support vector machine (SVM) or a Bayesian model; or a deep learning based classifier, such as a classifier based on the fastText library or a text classification convolutional neural network (Text-CNN), the classifier is not limited in any way in the present disclosure.

[0036] В целом, на вход классификатора языка вводится текстовая информация, и классификатор языка выдает на своем выходе язык и вероятность того, что этот язык применяется для текстовой информации.[0036] In general, text information is input to a language classifier, and the language classifier outputs a language and the probability that that language is applied to the text information.

[0037] На практике классификатор языка предварительно обучается контролируемым образом. Другими словами, создается учебный набор, и учебный набор является набором данных с тегами.[0037] In practice, a language classifier is pre-trained in a supervised manner. In other words, a training set is created, and the training set is a tagged data set.

[0038] Учебный набор включает в себя множество элементов текстовой информации, снабженных метками применяемых языков, или учебный набор включает в себя множество голосовых сигналов, снабженных метками применяемых языков.[0038] The training set includes a plurality of text information elements labeled with applied languages, or the training set includes a plurality of voice signals labeled with applied languages.

[0039] Текстовая информация связана или не связана с видеоданными. Например, некоторые учебные наборы с метками языка с открытым исходным кодом адаптированы для просматривания текстовой информации с веб-страниц и ручной разметки применяемых языков, или для вручную размеченной текстовой информации, связанной с видеоданными с применяемыми языками, это никак не ограничивается в настоящем раскрытии.[0039] Text information is associated or not associated with video data. For example, some open source language tagged training sets are adapted for crawling text information from web pages and manually tagging the languages used, or for manually tagging text information associated with video data with the languages being used, this is not limited in any way in this disclosure.

[0040] Классификатор языка тренируется с помощью функции потерь перекрестной энтропии и градиентного спуска с использованием текстовой информации из учебного набора в качестве тренировочных выборок и языков в качестве тренировочных тегов.[0040] The language classifier is trained using cross entropy loss and gradient descent using text information from the training set as training samples and languages as training tags.

[0041] Классификатор языка является начальной версией классификатора языка, и он итерационно обновляется в будущем, таким образом, обучение останавливается после i (i является положительным целым числом) сеансов итерационной тренировки, и при этом подтверждается завершение обучение классификатора языка.[0041] The language classifier is the initial version of the language classifier, and it is iteratively updated in the future, so that training stops after i (i is a positive integer) iteration training sessions, and the completion of training of the language classifier is confirmed.

[0042] Во время процесса обучения классификатора языка параметры оценки, например, точность, проценты запоминаемости и значения F1 используются в качестве условий для остановки процесса обучения, это никак не ограничивается в настоящем раскрытии.[0042] During the training process of a language classifier, evaluation parameters such as accuracy, memorability percentages and F1 values are used as conditions for stopping the training process, this is not limited in any way in the present disclosure.

[0043] На стадии 102 выполняется сбор множества элементов информации, относящихся к видеоданным, и множество элементов информации определяется в качестве множества элементов видеоинформации.[0043] At step 102, a plurality of information elements related to the video data is collected, and the plurality of information elements is determined as a plurality of video information elements.

[0044] Согласно некоторым вариантам осуществления, предварительно создается пул видеоданных, в котором хранится множество элементов видеоданных, текстовую информацию которых необходимо снабдить метками языка. Видеоданные имеют формат коротких видеороликов, прямой трансляции, теледрам, фильмов, короткометражек и тому подобного.[0044] According to some embodiments, a video data pool is pre-created in which a plurality of video data elements are stored whose text information needs to be language tagged. Video data is in the format of short videos, live broadcasts, TV dramas, films, short films and the like.

[0045] Соответствующие видеоданные отбираются согласно потребностям службы и заносятся в пул видеоданных. Например, в случае, когда необходимо оптимизировать результат внесения видеоданных в некотором регионе, отбираются отправленные из указанного региона видеоданные, или в случае, когда необходимо оптимизировать результат внесения видеоданных за некоторый период времени, отбираются отправленные в указанный период времени видеоданные, это никак не ограничивается в настоящем раскрытии.[0045] Relevant video data is selected according to the needs of the service and entered into the video data pool. For example, in the case when it is necessary to optimize the result of entering video data in a certain region, the video data sent from the specified region is selected, or in the case when it is necessary to optimize the result of entering video data for a certain period of time, the video data sent in a specified period of time is selected, this is not limited in any way to this disclosure.

[0046] Для каждого экземпляра видеоданных в пуле видеоданных из контекста видеоданных собирается множество элементов (то есть два или более) информации, связанных с видеоданными, и собранная информация рассматривается в качестве видеоинформации.[0046] For each instance of video data in the video data pool, a plurality of items (ie, two or more) of information associated with the video data are collected from the video data context, and the collected information is considered as video information.

[0047] Обычно видеоинформация и тренировочные выборки в учебном наборе имеют одинаковый тип. Другими словами, в случае, когда тренировочная выборка в учебном наборе является текстовой информацией, видеоинформация является текстовой информацией; а в случае, когда тренировочная выборка в учебном наборе является голосовым сигналом, видеоинформация является голосовым сигналом.[0047] Typically, the video information and training samples in the training set are of the same type. In other words, in the case where the training set in the training set is text information, the video information is text information; and in the case where the training sample in the training set is a voice signal, the video information is a voice signal.

[0048] Для обновления классификатора языка видеоинформация является набором данных без тегов (то есть она не снабжена метками языка).[0048] For updating the language classifier, the video information is an untagged dataset (that is, it is not provided with language tags).

[0049] Согласно некоторым примерам, видеоинформация содержит, по меньшей мере, один из следующих элементов.[0049] According to some examples, the video information contains at least one of the following elements.

[0050] 1. Информация описания[0050] 1. Description information

[0051] Информация описания обычно является рекламно-маркетинговой информацией с описанием контента видеоданных, введенной создавшим видеоданные пользователем для ознакомления публики с видеоданными.[0051] The description information is generally promotional and marketing information describing the content of the video data entered by the user who created the video data to introduce the video data to the public.

[0052] 2. Рекламно-маркетинговая информация, согласованная с заставкой[0052] 2. Advertising and marketing information consistent with the splash screen

[0053] Создавший видеоданные пользователь выбирает кадр изображения видеоданных в качестве заставки к видеоданным и вводит рекламно-маркетинговую информацию в заставку.[0053] The user who created the video data selects an image frame of the video data as a screensaver for the video data and enters advertising and marketing information into the screensaver.

[0054] 3. Информация субтитров[0054] 3. Subtitle information

[0055] Информацией субтитров обычно является текст, набранный создавшим видеоданные пользователем, этот текст присутствует в видеоданных согласно нужной заказчику функции.[0055] The subtitle information is typically text typed by the user who created the video data, this text is present in the video data according to the function desired by the customer.

[0056] 4. Информация первого признака[0056] 4. First feature information

[0057] Информацией первого признака обычно является текстовая информация, извлеченная из заставки с помощью оптического распознавания символов (OCR).[0057] The first feature information is typically text information extracted from the splash page using optical character recognition (OCR).

[0058] 5. Информация второго признака[0058] 5. Second feature information

[0059] Информацией второго признака обычно является текстовая информация, извлеченная из множества кадров изображений видеоданных с помощью функции OCR.[0059] The second feature information is typically text information extracted from a plurality of image frames of video data using an OCR function.

[0060] 6. Информация комментария[0060] 6. Comment information

[0061] Информацией комментария обычно является сообщение, опубликованное выступившим в качестве зрителя пользователем, после просмотра им видеоданных.[0061] Comment information is typically a message posted by a viewer user after viewing the video data.

[0062] Приведенные выше элементы видеоинформации являются только примером. На практике согласно фактическим потребностям создаются другие элементы видеоинформации, например, заголовки и голосовые сигналы, это никак не ограничивается в настоящем раскрытии. Более того, в дополнение к описанным выше элементам видеоинформации, специалисты в этой области техники могут использовать другие элементы видеоинформации согласно их фактическим потребностям, это никак не ограничивается в настоящем раскрытии.[0062] The above video information elements are only an example. In practice, other video information elements such as titles and voice signals are created according to actual needs, this is not limited in any way in the present disclosure. Moreover, in addition to the video information elements described above, those skilled in the art may use other video information elements according to their actual needs, this is not limited in any way in the present disclosure.

[0063] Каждые видеоданные включают в себя значения атрибутов видеоинформации и идентификатор (ID) видеоданных, который упрощает последующий поиск соответствующих видеоданных и видеоинформации.[0063] Each video data includes video information attribute values and a video data identifier (ID), which facilitates subsequent retrieval of corresponding video data and video information.

[0064] На стадии 103 множество элементов видеоинформации разделяется на целевую информацию и справочную информацию.[0064] At step 103, the plurality of video information elements is divided into target information and reference information.

[0065] В каждой видеоинформации содержится одно или несколько предложений. Для упрощения обработки каждая видеоинформация рассматривается в качестве одного предложения согласно вариантам осуществления во время процесса расстановки меток с языком в видеоинформации, что соответствует соглашениям обработки естественного языка.[0065] Each video information contains one or more sentences. To simplify processing, each video information is considered as one sentence according to embodiments during the language tagging process of the video information, which is consistent with natural language processing conventions.

[0066] Для каждого предложения (то есть для каждой видеоинформации) следующие операции очистки и фильтрации надлежащим образом выполняются для потребностей процесса расстановки меток с языком.[0066] For each sentence (ie, for each video information), the following cleaning and filtering operations are suitably performed for the needs of the language tagging process.

[0067] 1. Обработка сегментации слов[0067] 1. Word segmentation processing

[0068] Предложение (то есть видеоинформация) сегментируется согласно определенным правилам из непрерывной последовательности в независимые слова с помощью сопоставления символов, методов языкового восприятия и статистических методов.[0068] A sentence (ie, video information) is segmented according to certain rules from a continuous sequence into independent words using character matching, language perception methods, and statistical methods.

[0069] 2. Удаление значков эмоций[0069] 2. Removing emotion icons

[0070] Удаляются значки эмоций, например, и тому подобные, которые не помогают идентифицировать тип языка.[0070] Emotion icons are removed, e.g. and the like, which do not help identify the type of language.

[0071] 3. Отбрасывание предложений, которые являются слишком короткими[0071] 3. Discarding sentences that are too short

[0072] Удаляется предложение (то есть видеоинформация), число слов в котором меньше заранее определенного порога слов MIN_WORD_COUNT.[0072] A sentence (ie, video information) whose number of words is less than a predetermined word threshold MIN_WORD_COUNT is deleted.

[0073] Указанные выше методы очистки и фильтрации приведены только в качестве примеров. На практике согласно фактическим потребностям используются другие методы очистки и фильтрации, это никак не ограничивается в настоящем раскрытии. Более того, в дополнение к описанным выше методам очистки и фильтрации специалисты в этой области техники могут использовать другие методы очистки и фильтрации согласно их фактическим потребностям, это никак не ограничивается в настоящем раскрытии.[0073] The above purification and filtration methods are provided as examples only. In practice, other purification and filtration methods are used according to actual needs, this is not limited in any way in the present disclosure. Moreover, in addition to the above-described purification and filtration methods, those skilled in the art may use other purification and filtration methods according to their actual needs, this is not limited in any way in the present disclosure.

[0074] Согласно некоторым вариантам осуществления, для множества элементов видеоинформации тех же самых видеоданных множество элементов видеоинформации согласно потребностям службы разделяется на целевую информацию и справочную информацию. Целевая информация является видеоинформацией для языка, метки которого необходимо расставить для обновления классификатора языка, а справочная информация является другой видеоинформацией, которая помогает проверить уровень достоверности языка целевой информации.[0074] According to some embodiments, for a plurality of video information elements of the same video data, the plurality of video information elements are divided into target information and reference information according to the needs of the service. The target information is video information for the language that needs to be tagged to update the language classifier, and the reference information is other video information that helps verify the language confidence level of the target information.

[0075] Для видеоданных определяются корреляции множества элементов видеоинформации с видеоданными, они определяются согласно свойствам самой видеоинформации. Видеоинформация с наивысшей степенью корреляции настраивается в качестве целевой информации, а отличающаяся от целевой информации видеоинформация настраивается в качестве справочной информации.[0075] For video data, correlations of a plurality of video information elements with the video data are determined according to the properties of the video information itself. The video information with the highest degree of correlation is set as the target information, and the video information different from the target information is set as the reference information.

[0076] Согласно некоторым примерам, в предположении, что множество элементов видеоинформации включает в себя информацию описания, согласованную с заставкой рекламно-маркетинговую информацию, информацию субтитров, информацию первого признака, информацию второго признака и информацию комментария, информация описания в основном используется для ознакомления с контентом видеоданных, и она имеет наивысшую степень корреляции с видеоданными, и поэтому информация описания настраивается в качестве целевой информации, а справочная информация настраивается для включения в себя, по меньшей мере, одной из:[0076] According to some examples, under the assumption that the plurality of video information includes description information, splash screen-matched advertising and marketing information, subtitle information, first feature information, second feature information and commentary information, the description information is mainly used to introduce content of the video data, and it has the highest degree of correlation with the video data, and therefore the description information is configured as the target information, and the reference information is configured to include at least one of:

[0077] согласованной с заставкой рекламно-маркетинговой информации, информации субтитров, информации первого признака, информации второго признака или информации комментария.[0077] advertising and marketing information, subtitle information, first feature information, second feature information or comment information consistent with the splash screen.

[0078] Согласно другому примеру, в предположении, что множество элементов видеоинформации включает в себя голосовой сигнал, информацию описания, согласованную с заставкой рекламно-маркетинговую информацию, информацию субтитров, информацию первого признака, информацию второго признака и информацию комментария, при этом голосовой сигнал в основном включает в себя языковый контент видеоданных и он имеет наивысшую степень корреляции с видеоданными, и поэтому голосовой сигнал настраивается в качестве целевой информации, а справочная информация настраивается для включения в себя, по меньшей мере, одной из:[0078] According to another example, assuming that the plurality of video information elements includes a voice signal, description information, splash screen-matched advertising and marketing information, subtitle information, first feature information, second feature information and commentary information, wherein the voice signal in generally includes the language content of the video data and it has the highest degree of correlation with the video data, and therefore the voice signal is configured as the target information and the reference information is configured to include at least one of:

[0079] информации описания, согласованной с заставкой рекламно-маркетинговой информации, информации субтитров, информации первого признака, информации второго признака и информации комментария.[0079] description information consistent with the advertising and marketing information header, subtitle information, first feature information, second feature information, and comment information.

[0080] На стадии 104 множество элементов видеоинформации вводится в классификатор языка для идентификации языков, которые применяются для множества элементов видеоинформации.[0080] At step 104, the plurality of video information elements is input into a language classifier to identify languages that apply to the plurality of video information elements.

[0081] Множество элементов видеоинформации (включая целевую информацию и справочную информацию), принадлежащих тем же самым видеоданным, вводится в классификатор языка в том же самом пакете для обработки, и классификатор выводит языки, которые применяются для видеоинформации.[0081] A plurality of video information elements (including target information and reference information) belonging to the same video data are input to a language classifier in the same processing batch, and the classifier outputs languages that are applied to the video information.

[0082] На стадии 105 с помощью справочных языков проверяется уровень достоверности целевого языка.[0082] At step 105, the confidence level of the target language is checked using reference languages.

[0083] Обычно классификатор языка принадлежит к модели многократной классификации, и поэтому классификатор языка способен выводить множество языков, которые применяются для каждых видеоданных, и для каждого языка приводится уровень правдоподобия.[0083] Typically, the language classifier belongs to a multiple classification model, and therefore the language classifier is capable of outputting multiple languages that are applied to each video data, and a likelihood level is given for each language.

[0084] Целевая информация в основном используется для создания меток языка, и язык является уникальным. Следовательно, язык с наивысшим уровнем правдоподобия из множества языков, выведенных классификатором языка, определяется как язык, применяемый для целевой информации, и игнорируются другие языки, которые с некоторой вероятностью могут применяться для целевой информации. Для упрощения различения этот язык называется целевым языком. Таким образом, целевой язык является языком, который применяется для целевой информации.[0084] The target information is mainly used to create language tags, and the language is unique. Therefore, the language with the highest likelihood level from the set of languages output by the language classifier is determined to be the language applied to the target information, and other languages that are likely to be applied to the target information are ignored. To make it easier to distinguish, this language is called the target language. Thus, the target language is the language that is used for the target information.

[0085] Справочная информация в основном используется для помощи проверки уровня достоверности размеченного языка в целевой информации, и язык с наивысшим уровнем правдоподобия, применяемый в справочной информации, не обязательно должен совпадать с целевым языком. Следовательно, множество языков и их уровни правдоподобия, выводимые классификатором языка, определяются как множество языков, применяемых для справочной информации, и как их уровни правдоподобия. Для упрощения различения эти языки называются справочными языками. Другими словами, справочными языками является множество языков, которое применяется для справочной информации.[0085] The reference information is primarily used to help verify the confidence level of the tagged language in the target information, and the highest confidence level language applied in the reference information does not necessarily have to be the same as the target language. Therefore, the set of languages and their likelihood levels output by the language classifier are defined as the set of languages used for reference information and their likelihood levels. To make it easier to distinguish, these languages are called reference languages. In other words, reference languages are a set of languages that are used for reference information.

[0086] Учитывая, что для тех же самых видеоданных пользователь, который создал видеоданные, является единственным, обычно это отдельный человек или группа, видеоданные в основном выражены как изображения и звуки, которые связаны с культурой и языком, аудитория для видеоданных является единственной, в основном из того же самого региона, как и пользователь, который создал видеоданные, и поэтому обычно в видеоданных используется единственный язык, и связанная с видеоданными видеоинформация в большинстве случаев использует тот же самый язык. Следовательно, уровень достоверности того, что язык целевой информации является целевым языком, проверяется с помощью того факта, что в справочной информации применяется справочный язык (то есть множество справочных языков и их уровни правдоподобия).[0086] Considering that for the same video data, the user who created the video data is the only one, usually an individual or a group, the video data is mainly expressed as images and sounds that are associated with culture and language, the audience for the video data is the only one, in generally from the same region as the user who created the video data, and therefore typically a single language is used in the video data, and video information associated with the video data generally uses the same language. Therefore, the level of confidence that the language of the target information is the target language is verified by the fact that the reference information uses a reference language (that is, multiple reference languages and their credibility levels).

[0087] Например, в случае, когда видеоданные являются повседневной сценой, включающей в себя разговор на английском языке, создавший видеоданные пользователь пишет информацию описания на английском языке и добавляет заголовок на английском языке, а пользователь, который просматривает видеоданные и понимает их контент, в большинстве случаев публикует информацию комментария на английском языке.[0087] For example, in the case where the video data is an everyday scene including a conversation in English, the user who created the video data writes description information in English and adds a title in English, and the user who views the video data and understands its content In most cases, it publishes commentary information in English.

[0088] На практике диапазон достоверности заранее настроен смещенным к среднему уровню (то есть уровень достоверности является большим). Конечным значением диапазона достоверности является первый порог правдоподобия MIN_PROB_1, а другим конечным значением диапазона является второй порог правдоподобия MIN_PROB_2. Второй порог правдоподобия MIN_PROB_2 больше первого порога правдоподобия MIN_PROB_1.[0088] In practice, the confidence range is preset to be biased toward the average level (ie, the confidence level is large). The end value of the confidence range is the first likelihood threshold MIN_PROB_1, and the other end value of the range is the second likelihood threshold MIN_PROB_2. The second likelihood threshold MIN_PROB_2 is greater than the first likelihood threshold MIN_PROB_1.

[0089] Величина вероятности того, что язык целевой информации является целевым языком, определяется из выходных результатов классификатора языка для целевой информации, и эта величина вероятности определяется в качестве целевой вероятности Р_S.[0089] The probability value that the language of the target information is the target language is determined from the output of the language classifier for the target information, and this probability value is determined as the target probability P_S.

[0090] Целевая вероятность Р_S сравнивается с диапазоном достоверности.[0090] The target probability P_S is compared with the confidence range.

[0091] В случае, когда целевая вероятность Р_S. находится внутри диапазона достоверности, то есть, целевая вероятность Р_S. не меньше первого заранее настроенного порога правдоподобия MIN_PROB_1 и не больше второго заранее настроенного порога правдоподобия MIN_PROB_2, уровень достоверности того, что язык целевой информации является целевым языком, является большим, и язык целевой информации является целевым языком или язык цели не является целевым языком. В каком случае просматривается вся справочная информация, определяется вероятность того, что справочный язык идентичен целевому языку, и эта величина вероятности определяется как справочная вероятность.[0091] In the case where the target probability is P_S. is within the confidence range, that is, the target probability P_S. is not less than the first preset likelihood threshold MIN_PROB_1 and is not greater than the second preset likelihood threshold MIN_PROB_2, the confidence level that the language of the target information is the target language is large, and the language of the target information is the target language or the target language is not the target language. In which case all reference information is viewed, the probability that the reference language is identical to the target language is determined, and this probability value is defined as the reference probability.

[0092] С помощью суммирования, умножения, усреднения и усреднения после применения весовых множителей, уровень достоверности Score того, что целевая информация применяется с целевым языком, вычисляется с помощью объединения с целевой вероятностью и со справочной вероятностью, что позволяет охарактеризовать уровень того, что справочная информация подтверждает, что язык целевой информации является целевым языком.[0092] By summing, multiplying, averaging, and averaging after applying weighting factors, the level of confidence Score that the target information applies to the target language is calculated by combining the target probability and the reference probability, thereby characterizing the level that the reference the information confirms that the language of the target information is the target language.

[0093] Согласно некоторым вариантам осуществления, проверка уровня достоверности выполняется с помощью соответствующей целевой информации, отобранной на основании диапазона достоверности, так что количество элементов целевой информации снижается и благодаря этому объем вычислений снижается и эффективность улучшается.[0093] According to some embodiments, the confidence level check is performed using corresponding target information selected based on the confidence range, so that the number of target information items is reduced, thereby reducing the computational effort and improving efficiency.

[0094] Например, язык (то есть целевой язык) с наивысшим уровнем правдоподобия информации описания видеоданных является английским языком, и вероятность английского языка является большой (например, 0,6). Ранее в случае низкой величины вероятности уровень достоверности предсказания обычно определялся как недостаточный, и было возможно, что предсказание не является правильным, и информация описания и целевой язык не использовались в качестве тренировочной выборки для обновления классификатора языка. В случае, когда в тех же самых видеоданных соответствующая заставке рекламно-маркетинговая информация с высокой вероятностью (например, 0,8) предсказывается как имеющая английский язык, такая инкрементальная информация используется для подтверждения, что предсказание о том, что информация описания применяет английский язык, является правильным. В этом случае информация описания, соответствующая заставке рекламно-маркетинговая информация и целевой язык используются в качестве тренировочной выборки для обновления классификатора языка, и поэтому размер стандартной выборки увеличивается.[0094] For example, the language (ie, target language) with the highest likelihood level of video data description information is English, and the likelihood of English is large (eg, 0.6). Previously, in the case of a low probability value, the prediction confidence level was usually determined to be insufficient, and it was possible that the prediction was not correct, and the description information and the target language were not used as the training set to update the language classifier. In the case where, in the same video data, the promotional marketing information corresponding to the splash screen is predicted to be in English with a high probability (eg, 0.8), such incremental information is used to confirm that the prediction that the description information is in English is is correct. In this case, the description information, the corresponding advertising and marketing information and the target language are used as a training set to update the language classifier, and therefore the size of the standard sample is increased.

[0095] В случае, когда целевая вероятность Р_S находится за пределами диапазона достоверности, возможны два следующих случая.[0095] In the case where the target probability P_S is outside the confidence range, the following two cases are possible.

[0096] 1. В случае, когда целевая вероятность Р_S. меньше первого порога правдоподобия MIN_PROB_1, уровень достоверности того, что язык целевой информации является целевым языком, является низким. Другими словами, уровень достоверности недостаточный и язык целевой информации, возможно, не является нормальным языком. Текущие видеоданные и их видеоинформация игнорируются в текущем сеансе итерационного обновления классификатора языка.[0096] 1. In the case where the target probability is P_S. is less than the first likelihood threshold MIN_PROB_1, the confidence level that the language of the target information is the target language is low. In other words, the level of confidence is insufficient and the language of the target information may not be a normal language. The current video data and its video information are ignored in the current language classifier iterative update session.

[0097] Текущие видеоданные и их видеоинформация в этом сеансе игнорируются и не удаляются. В случае, когда классификатор языка обновляется в последующих итерациях, качество работы классификатора языка улучшается, и целевая вероятность Р_S, возможно, становится не меньше первого порога правдоподобия MIN_PROB_1.[0097] The current video data and its video information in this session are ignored and not deleted. In the case where the language classifier is updated in subsequent iterations, the performance of the language classifier improves, and the target probability P_S may become no less than the first likelihood threshold MIN_PROB_1.

[0098] 2. В случае, когда целевая вероятность Р_S. больше второго порога правдоподобия MIN_PROB_2, уровень достоверности того, что язык целевой информации является целевым языком, является высоким, и язык целевой информации непосредственно идентифицируется в качестве целевого языка без необходимости проверять уровень достоверности того, что язык целевой информации является целевым языком с помощью того факта, что справочная информация использует справочной язык.[0098] 2. In the case where the target probability is P_S. greater than the second likelihood threshold MIN_PROB_2, the confidence level that the language of the target information is the target language is high, and the language of the target information is directly identified as the target language without having to check the confidence level that the language of the target information is the target language by the fact that that reference information uses reference language.

[0099] Согласно некоторым вариантам осуществления, проводится определение классификатора языка; сбор множества элементов информации, относящихся к видеоданным; множество элементов информации используется в качестве множества элементов видеоинформации; множество элементов видеоинформации разделяется на целевую информацию и справочную информацию; языки, которые используются для множества элементов видеоинформации, определяются с помощью ввода множества элементов видеоинформации в классификатор языка; и уровень достоверности целевого языка проверяется с помощью справочного языка. Целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации. Для тех же самых видеоданных пользователь, который создал видеоданные, является единственным, аудитория для видеоданных является единственной, применяемый в видеоданных язык также является единственным, и связанная с видеоданными видеоинформация в большинстве случаев применяет тот же самый язык. Следовательно, в случае ситуации, когда справочная информация и применяемый справочный язык используются в качестве помощи, проверяется уровень достоверности того, что язык целевой информации является целевым языком, так что точность предсказания языков улучшается.[0099] According to some embodiments, a language classifier is determined; collecting a plurality of information items related to the video data; a plurality of information elements is used as a plurality of video information elements; a plurality of video information elements are divided into target information and reference information; languages that are used for the plurality of video information elements are determined by inputting the plurality of video information elements into a language classifier; and the level of validity of the target language is checked using the reference language. A target language is a language that is used for target information, and reference languages are a set of languages that are used for reference information. For the same video data, the user who created the video data is unique, the audience for the video data is unique, the language used in the video data is also unique, and the video information associated with the video data uses the same language in most cases. Therefore, in the case of a situation where reference information and an applied reference language are used as an aid, the confidence level that the language of the target information is the target language is checked, so that the accuracy of language prediction is improved.

[00100] Второй вариант осуществления[00100] Second embodiment

[00101] На фиг. 2 показана блок-схема алгоритма способа расстановки меток языка согласно второму варианту осуществления настоящего раскрытия. Второй вариант осуществления на основании предыдущего варианта осуществления демонстрирует выполнение итерационного обновления классификатора языка на основании полуконтролируемого обучения. В способе предусмотрены следующие стадии.[00101] In FIG. 2 is a flowchart of a method for arranging language marks according to a second embodiment of the present disclosure. The second embodiment, based on the previous embodiment, demonstrates performing iterative updating of a language classifier based on semi-supervised learning. The method includes the following stages.

[00102] На стадии 201 определяется классификатор языка.[00102] At step 201, a language classifier is determined.

[00103] На стадии 202 выполняется сбор множества элементов информации, относящихся к видеоданным, и множество элементов информации определяется в качестве множества элементов видеоинформации.[00103] At step 202, a plurality of information elements related to the video data is collected, and the plurality of information elements is determined as a plurality of video information elements.

[00104] На стадии 203 множество элементов видеоинформации разделяется на целевую информацию и справочную информацию.[00104] At step 203, the plurality of video information elements are divided into target information and reference information.

[00105] На стадии 204 множество элементов видеоинформации вводится в классификатор языка для идентификации языков, которые применяются для множества элементов видеоинформации.[00105] At step 204, the plurality of video information elements are entered into a language classifier to identify languages that apply to the plurality of video information elements.

[00106] На стадии 205 с помощью справочных языков проверяется уровень достоверности целевого языка.[00106] At step 205, the confidence level of the target language is checked using reference languages.

[00107] Целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации.[00107] A target language is a language that is used for target information, and reference languages are a plurality of languages that are used for reference information.

[00108] На стадии 206 в случае, когда уровень достоверности не меньше заранее настроенного порога достоверности, информация, подобная видеоинформации, создается при использовании видеоинформации в качестве образца, и информация используется в качестве инкрементальной информации.[00108] At step 206, in the case where the confidence level is not less than a preset confidence threshold, information similar to the video information is created by using the video information as a sample, and the information is used as incremental information.

[00109] Согласно некоторым вариантам осуществления, величина уровня достоверности Score сравнивается с заранее настроенным порогом достоверности MIN_SCORE. В случае, когда величина уровня достоверности Score не меньше заранее настроенного порога достоверности MIN_SCORE, величина уровня достоверности Score является высокой и справочная информация имеет высокую степень подтверждения целевой информации. В этом случае информация, подобная видеоинформации, создается при использовании видеоинформации в качестве образца. Для упрощения различения текстовая информация определяется как инкрементальная информация.[00109] In some embodiments, the confidence level value Score is compared to a preconfigured confidence threshold MIN_SCORE. In the case where the Score confidence level value is not less than the preset confidence threshold MIN_SCORE, the Score confidence level value is high and the reference information has a high degree of confirmation of the target information. In this case, information similar to the video information is created by using the video information as a sample. To make it easier to distinguish, textual information is defined as incremental information.

[00110] Поскольку инкрементальная информация создается на основании видеоинформации, инкрементальная информация обрабатывается как предложение.[00110] Since the incremental information is created based on the video information, the incremental information is processed as a sentence.

[00111] Согласно некоторым примерам, инкрементальная информация получается при произвольном удалении неполных слов из видеоинформации при условии соблюдения количественного условия.[00111] According to some examples, incremental information is obtained by randomly removing partial words from video information, subject to a quantitative condition.

[00112] Количественное условие заключается в том, что процентное отношение числа слов в инкрементальной информации к числу слов в видеоинформации превышает первый заранее настроенный порог процентного отношения MIN_PERCENT_1.[00112] The quantitative condition is that the percentage ratio of the number of words in the incremental information to the number of words in the video information exceeds the first preset percentage threshold MIN_PERCENT_1.

[00113] Согласно другим примерам, инкрементальная информация получается при преобразовании форматов всех или некоторых слов в видеоинформации с использованием только прописных букв.[00113] According to other examples, incremental information is obtained by converting the formats of all or some of the words in the video information using only capital letters.

[00114] Согласно другим примерам, инкрементальная информация получается при преобразовании форматов всех или некоторых слов в видеоинформации с использованием только строчных букв.[00114] In other examples, incremental information is obtained by converting the formats of all or some of the words into video information using only lowercase letters.

[00115] Согласно другим примерам, инкрементальная информация получается при удалении всех или некоторых знаков препинания в видеоинформации.[00115] According to other examples, incremental information is obtained by removing all or some of the punctuation marks in the video information.

[00116] Согласно другим примерам, инкрементальная информация получается при удалении N (N является целым положительным числом, и N < М) слов в диапазоне из М (М является целым положительным числом) слов в видеоинформации.[00116] According to other examples, incremental information is obtained by removing N (N is a positive integer and N < M) words in a range of M (M is a positive integer) words in the video information.

[00117] Вышеупомянутые методы создания инкрементальной информации являются только примерами и используются по отдельности или в любой комбинации. На практике согласно фактическим потребностям используются другие методы создания инкрементальной информации, это никак не ограничивается в настоящем раскрытии. Более того, в дополнение к описанным выше методам создания инкрементальной информации специалисты в этой области техники могут использовать другие способы создания инкрементальной информации согласно их фактическим потребностям, это никак не ограничивается в настоящем раскрытии.[00117] The above methods for creating incremental information are examples only and are used individually or in any combination. In practice, according to actual needs, other methods for creating incremental information are used, this is not limited in any way in this disclosure. Moreover, in addition to the above-described methods for creating incremental information, those skilled in the art may use other methods for creating incremental information according to their actual needs, this is not limited in any way in the present disclosure.

[00118] На стадии 207 запускается классификатор языка для обнаружения пригодности инкрементальной информации для идентификации целевого языка.[00118] At step 207, the language classifier is run to detect the suitability of the incremental information for identifying the target language.

[00119] На практике пользователи в некоторых регионах привыкли к использованию двух или более языков, и поэтому в видеоинформации имеются слова на двух или более языках, что влияет на правильную идентификацию языка классификатором языка.[00119] In practice, users in some regions are accustomed to using two or more languages, and therefore there are words in two or more languages in the video information, which affects the correct identification of the language by the language classifier.

[00120] В этом случае язык, предсказанный классификатором языка, является языком с большим количеством тренировочных выборок в учебном наборе, что приводит к неправильному предсказанию.[00120] In this case, the language predicted by the language classifier is a language with a large number of training samples in the training set, resulting in an incorrect prediction.

[00121] Например, в видеоинформации содержится 10 слов, и правильный язык этой видеоинформации является языком хинди. Из этих 10 слов 7 слов являются словами на языке хинди, введенными с помощью транслитерации, а остальные 3 слова являются словами на английском языке Поскольку тренировочные выборки со словами на английском языке являются большими, а тренировочные выборки с введенными с помощью транслитерации словами на языке хинди являются редкими, классификатор языка, вероятно, может неправильно предсказать, что язык видеоинформации является английским языком из-за более сильных признаков 3 слов на английском языков.[00121] For example, the video information contains 10 words, and the correct language of this video information is Hindi language. Out of these 10 words, 7 words are Hindi words entered through transliteration and the remaining 3 words are English words. Because the training sets with English words are large and the training sets with Hindi words entered through transliteration are rare, the language classifier is likely to incorrectly predict that the language of the video information is English due to the stronger features of the 3 words in English languages.

[00122] Согласно некоторым вариантам осуществления, видеоинформация проверяется с помощью создания нового предложения (то есть инкрементальной информации). Другими словами, запускается классификатор языка для проверки, допустима ли (пригодна ли) инкрементальная информация для идентификации целевого языка, так что точность предсказания языков улучшается.[00122] According to some embodiments, the video information is verified by creating a new sentence (ie, incremental information). In other words, a language classifier is run to check whether the incremental information is valid (suitable) for identifying the target language, so that the accuracy of language prediction is improved.

[00123] На практике язык, который применяется в инкрементальной информации, идентифицируется с помощью ввода инкрементальной информации в классификатор языка для обработки.[00123] In practice, the language that is applied to the incremental information is identified by entering the incremental information into a language classifier for processing.

[00124] Инкрементальная информация в основном используется для проверки достоверности размеченного языка, и язык является уникальным. Следовательно, язык с наивысшим уровнем правдоподобия из множества языков, выведенных классификатором языка, определяется как язык, применяемый для инкрементальной информации, и игнорируются другие языки, которые с некоторой вероятностью могут применяться для инкрементальной информации. Для упрощения различения этот язык называется инкрементальным языком. Таким образом, инкрементальный язык является языком, который применяется для инкрементальной информации.[00124] Incremental information is mainly used to check whether the tagged language is valid and the language is unique. Therefore, the language with the highest likelihood level from the set of languages output by the language classifier is identified as the language used for incremental information, and other languages that are likely to be used for incremental information are ignored. To make it easier to distinguish, this language is called an incremental language. Thus, an incremental language is a language that is used for incremental information.

[00125] Подсчитывается процентное отношение инкрементальных языков, когда инкрементальные языки идентичны целевым языкам. Другими словами, подсчитывается первое число как число инкрементальных языков, идентичных целевым языкам, и подсчитывается второе число как число всех инкрементальных языков, и отношение первого числа ко второму числу подсчитывается как процентное отношение.[00125] The percentage of incremental languages is calculated when the incremental languages are identical to the target languages. In other words, the first number is counted as the number of incremental languages identical to the target languages, and the second number is counted as the number of all incremental languages, and the ratio of the first number to the second number is calculated as a percentage.

[00126] В случае, когда процентное отношение не меньше второго заранее настроенного порога процентного отношения MIN_PERCENT_2 (например, 80%), сомнения в том, что инкрементальный язык является целевым языком, малы, и инкрементальная информация является допустимой для идентификации языка.[00126] In the case where the percentage is not less than the second preconfigured percentage threshold MIN_PERCENT_2 (for example, 80%), there is little doubt that the incremental language is the target language, and the incremental information is valid for identifying the language.

[00127] В случае, когда процентное отношение меньше второго заранее настроенного порога процентного отношения MIN_PERCENT_2 (например, 80%), сомнения в том, что инкрементальный язык является целевым языком, велики, и инкрементальная информация является недопустимой для идентификации языка.[00127] In the case where the percentage is less than the second preconfigured percentage threshold MIN_PERCENT_2 (eg, 80%), doubt that the incremental language is the target language is high, and the incremental information is invalid for identifying the language.

[00128] На стадии 208 в случае, когда инкрементальная информация является допустимой для идентификации целевого языка, классификатор языка обновляется на основе целевого языка и, по меньшей мере, одной из видеоинформации или инкрементальной информации.[00128] At step 208, in the case where the incremental information is valid for identifying the target language, the language classifier is updated based on the target language and at least one of the video information or the incremental information.

[00129] Для автоматического сбора новых данных (видеоинформации, инкрементальной информации) с правильно размеченным языком, и для одновременного улучшения качества работы классификатора языка с помощью использования новых данных в качестве тренировочных выборок (текстовая информация или голосовой сигнал), собранные данные обычно соответствуют следующим двум правилам.[00129] To automatically collect new data (video information, incremental information) with correctly tagged language, and to simultaneously improve the quality of the language classifier by using new data as training samples (text information or voice signal), the collected data usually corresponds to the following two rules.

[00130] 1. Новые данные не подобны имеющимся тренировочным выборкам в текущем учебном наборе, так что классификатор языка способен обучиться новым признакам.[00130] 1. The new data is not similar to the existing training samples in the current training set, so that the language classifier is able to learn the new features.

[00131] Одним индикатором для определения того, подобны ли новые данные имеющимся тренировочным выборкам, является предсказание величины вероятности языка, который применяется в новых данных, с помощью использования текущего классификатора языка. Другими словами, в случае, когда величина вероятности низкая, классификатор языка не проходил какой тип данных в своем учебном наборе и поэтому предсказана низкая величина вероятности. Следовательно, единственным вариантом является добавление в учебный набор новых данных с низкой величиной вероятности.[00131] One indicator for determining whether new data is similar to existing training samples is to predict the probability value of the language that is applied in the new data by using the current language classifier. In other words, in the case where the probability value is low, the language classifier did not go through what type of data in its training set and therefore a low probability value is predicted. Therefore, the only option is to add new data with a low probability value to the training set.

[00132] 2. Тег (языка) новых данных является точным, так что классификатор языка обучен для хороших показателей работы.[00132] 2. The (language) tag of the new data is accurate so that the language classifier is trained to perform well.

[00133] Общепринятой практикой для обеспечения наличия точного тега является ручная расстановка меток в новых данных. Для соблюдения требования автоматического сбора, автоматический алгоритм предназначен для обработки языка с высокой величиной вероятности (например, более 0,95) расстановкой правильного тега. Высокая величина вероятности означает, что классификатор языка считает, что применение этого языка в новых данных является правильным. Следовательно, единственным вариантом является добавление в учебный набор новых данных с высокой величиной вероятности[00133] A common practice to ensure an accurate tag is to manually label new data. To meet the requirement of automatic collection, the automatic algorithm is designed to process language with a high probability value (for example, more than 0.95) of placing the correct tag. A high probability value means that the language classifier believes that the application of that language to the new data is correct. Therefore, the only option is to add new data to the training set with a high probability value

[00134] Используемые в двух вышеупомянутых правилах варианты ранее находились в состоянии конфликта друг с другом. Другими словами, обычно невозможно одновременно добавить в учебный набор данные с низкой величиной вероятности и данные с высокой величиной вероятности.[00134] The variants used in the above two rules were previously in conflict with each other. In other words, it is usually not possible to add low probability data and high probability data to the training set at the same time.

[00135] Для решения проблемы конфликта между этими двумя вариантами в настоящем раскрытии предложено определить, был ли язык с низкой величиной вероятности правильно предсказан для целевой информации с помощью использования предсказания справочной информации видеоданных в качестве элемента подтверждающего доказательства. В случае, когда предсказанный язык с низкой величиной вероятности был определен как правильный, два вышеупомянутых правила соблюдены, и целевая информация добавляется в учебный набор. Таким образом, в ходе процесса добавления новых признаков, которые ранее не входили или незначительно входили в учебный набор, качество работы классификатора языка улучшается, так что точность предсказания и расстановки меток языков улучшается, и, следовательно, реализована интеграция полуконтролируемого обучения классификатора языка и автоматическая расстановка тегов.[00135] To solve the problem of conflict between these two options, the present disclosure proposes to determine whether a language with a low probability value has been correctly predicted for the target information by using the video data reference information prediction as a supporting evidence element. In the case where the predicted language with a low probability value is determined to be correct, the above two rules are followed and the target information is added to the training set. Thus, during the process of adding new features that were not previously included or were only slightly included in the training set, the performance quality of the language classifier is improved, so that the accuracy of prediction and placement of language labels is improved, and therefore the integration of semi-supervised learning of the language classifier and automatic placement is realized tags

[00136] В случае, когда инкрементальная информация является допустимой для идентификации целевого языка, язык, предсказанный для заново созданной инкрементальной информации, является согласованным с языком видеоинформации. В этом случае предсказание языка видеоинформации определяется как являющееся непротиворечивым, и видеоинформация и ее целевой язык используются для обновления классификатора языка.[00136] In the case where the incremental information is valid for identifying the target language, the language predicted for the newly created incremental information is consistent with the language of the video information. In this case, the language prediction of the video information is determined to be consistent, and the video information and its target language are used to update the language classifier.

[00137] В случае, когда инкрементальная информация является недопустимой для идентификации целевого языка, язык, предсказанный для заново созданной инкрементальной информации, является несогласованным с языком видеоинформации, возможно, вследствие того, что видеоинформации содержит слова на других языках или некоторые слова имеют более сильные признаки. В этом случае, предсказание языка видеоинформации определяется как являющееся противоречивым, и видеоинформация и ее целевой язык не используются для обновления классификатора языка.[00137] In the case where the incremental information is not valid for identifying the target language, the language predicted for the newly created incremental information is inconsistent with the language of the video information, possibly due to the fact that the video information contains words in other languages or some words have stronger features . In this case, the language prediction of the video information is determined to be inconsistent, and the video information and its target language are not used to update the language classifier.

[00138] На практике, получается учебный набор для классификатора языка. Учебный набор включает в себя множество элементов текстовой информации (или голосовых сигналов), причем текстовая информация (или голосовые сигналы) в учебном наборе были снабжены метками применяемых языков. Текстовая информация (или голосовые сигналы) в учебном наборе является текстовой информацией (или голосовыми сигналами), которые первоначально были снабжены метками применяемых языков, или видеоинформация и/или инкрементальная информация были впоследствии снабжены метками применяемых языков с помощью классификатора языка, это никак не ограничивается в настоящем документе.[00138] In practice, a training set for a language classifier is obtained. The training set includes a plurality of pieces of text information (or voice signals), wherein the text information (or voice signals) in the training set have been labeled with the languages used. Text information (or voice signals) in the training set is text information (or voice signals) that was initially tagged with applicable languages, or video information and/or incremental information was subsequently tagged with applied languages using a language classifier, it is in no way limited to this document.

[00139] В процессе обновления классификатора языка с помощью использования видеоинформации и ее целевого языка, видеоинформация добавляется в учебный набор и добавленная видеоинформация используется в качестве текстовой информации (или голосового сигнала) в учебном наборе, и целевая информация снабжается метками языка в качестве языка, который применяется в видеоинформации.[00139] In the process of updating a language classifier using video information and its target language, the video information is added to the training set and the added video information is used as text information (or voice signal) in the training set, and the target information is tagged with the language as the language that used in video information.

[00140] Более того, в случае, когда инкрементальная информация является допустимой для идентификации целевого языка, надлежащая инкрементальная информация и ее целевой язык используются для обновления классификатора языка.[00140] Moreover, in the case where the incremental information is valid for identifying a target language, the appropriate incremental information and its target language are used to update the language classifier.

[00141] Отбирается инкрементальная информация, которая допустима для обновления классификатора языка, и отобранная инкрементальная информация добавляется в учебный набор и используется в качестве текстовой информации (или голосового сигнала) в учебном наборе, и расставляются метки целевого языка как языка, который применяется в инкрементальной информации.[00141] Incremental information that is valid for updating the language classifier is selected, and the selected incremental information is added to the training set and used as text information (or voice signal) in the training set, and the target language is labeled as the language that is used in the incremental information .

[00142] В качестве примера, величина вероятности того, что в видеоинформации применяется целевой язык, определяется как равная указанному отношению MIN_RATIO (0<MIN RATIO<1), и указанное отношение используется в качестве третьего порога правдоподобия MIN_PROB_3 для инкрементальной информации.[00142] As an example, the probability value that the target language is used in the video information is determined to be equal to the specified ratio MIN_RATIO (0<MIN RATIO<1), and the specified ratio is used as the third likelihood threshold MIN_PROB_3 for the incremental information.

[00143] Величина вероятности того, что целевой язык применяется в инкрементальной информации (она выражена как величина вероятности того, что инкрементальный язык, который используется в инкрементальной информации, идентичен целевому языку), сравнивается с первым заранее настроенным порогом правдоподобия MIN_PROB_1 и с третьим порогом правдоподобия MIN_PROB_3.[00143] The probability value that the target language is used in the incremental information (this is expressed as the probability value that the incremental language that is used in the incremental information is identical to the target language) is compared with the first preset likelihood threshold MIN_PROB_1 and with the third likelihood threshold MIN_PROB_3.

[00144] В случае, когда величина вероятности того, что целевой язык применяется в инкрементальной информации, не меньше первого заранее настроенного порога правдоподобия MIN_PROB_1 и не больше третьего порога правдоподобия MIN_PROB_3, инкрементальная информация допустима для обновления классификатора языка. Величина вероятности того, что целевой язык применяется в инкрементальной информации, не меньше первого порога правдоподобия MIN_PROB_1.[00144] In the case where the probability value that the target language is applied in the incremental information is not less than the first preset likelihood threshold MIN_PROB_1 and not more than the third likelihood threshold MIN_PROB_3, the incremental information is valid for updating the language classifier. The probability that the target language is used in incremental information is not less than the first likelihood threshold MIN_PROB_1.

[00145] Согласно этому примеру, величина вероятности того, что целевой язык применяется в инкрементальной информации, является большой, и она меньше, чем величина вероятности того, что целевой язык применяется в видеоинформации, это указывает, что инкрементальная информация отличается от видеоинформации тем, что имеются некоторые преобразования инкрементальной информации (например, в инкрементальной информации отсутствуют некоторые слова), что приводит к уменьшению предсказанной величины вероятности, это обусловлено тем фактом, что такие преобразования (например, отсутствующие слова) являются более сильными признаками для классификатора языка в процессе предсказания, а первоначальная информация (например, остальные слова и их комбинации) менее знакомы классификатору языка (например, они не присутствовали в текущем учебном наборе), и поэтому добавление инкрементальной информации помогает улучшить качество работы классификатора языка.[00145] According to this example, the probability value that the target language is applied in the incremental information is large, and it is smaller than the probability value that the target language is applied in the video information, which indicates that the incremental information is different from the video information in that there are some transformations of incremental information (for example, some words are missing in the incremental information), which leads to a decrease in the predicted probability value, this is due to the fact that such transformations (for example, missing words) are stronger features for the language classifier in the prediction process, and The initial information (for example, the remaining words and their combinations) is less familiar to the language classifier (for example, they were not present in the current training set), and therefore adding incremental information helps improve the performance of the language classifier.

[00146] В дополнение к этому, классификатор языка более чувствителен к тренировочным выборкам из первых h (h является положительным целым числом) сеансов итерационных обновлений, и ошибки при расстановке меток влияют на качество работы классификатора языка и ведут к накоплению большего числа ошибок в последующих итерациях. Следовательно, в первых h сеансах итераций, для итераций использовалась видеоинформация, которая была предварительно снабжена метками языков, и предварительно указанный в метках язык был определен по результатам, выведенным классификатором языка для видеоинформации и инкрементальной информации, и язык определен как фактический язык (то есть фактически язык видеоинформации), и фактический язык сравнивается с целевым языком.[00146] In addition, the language classifier is more sensitive to the training samples from the first h (h is a positive integer) iterations of iterative updates, and errors in labeling affect the performance of the language classifier and lead to the accumulation of more errors in subsequent iterations . Therefore, in the first h iteration sessions, video information was used for iterations, which was pre-labeled with languages, and the pre-labeled language was determined from the results output by the language classifier for video information and incremental information, and the language was determined to be the actual language (i.e., actually language of the video information), and the actual language is compared with the target language.

[00147] В случае, когда фактический язык является точно таким же, как целевой язык, видеоинформацию разрешено добавлять в учебный набор и использовать в качестве текстовой информации в учебном наборе, и целевой язык разрешено снабжать метками языка в качестве языка, который применяется в видеоинформации. И/или, инкрементальную информацию разрешено добавлять в учебный набор и использовать в качестве текстовой информации в учебном наборе, и целевой язык разрешено снабжать метками языка в качестве языка, который применяется в инкрементальной информации.[00147] In the case where the actual language is exactly the same as the target language, video information is allowed to be added to the training set and used as text information in the training set, and the target language is allowed to be tagged with the language as the language that is used in the video information. And/or, the incremental information is allowed to be added to the training set and used as text information in the training set, and the target language is allowed to be tagged with a language as the language that is used in the incremental information.

[00148] В случае, когда фактический язык отличается от целевого языка, игнорируются целевой язык и, по меньшей мере, одна из видеоинформации или инкрементальной информации. Другими словами, видеоинформацию запрещено добавлять в учебный набор и использовать в качестве текстовой информации в учебном наборе, и целевой язык запрещено снабжать метками языка в качестве языка, который применяется в видеоинформации. И/или, инкрементальную информацию запрещено добавлять в учебный набор и использовать в качестве текстовой информации в учебном наборе, и целевой язык запрещено снабжать метками языка в качестве языка, который применяется в инкрементальной информации.[00148] In the case where the actual language is different from the target language, the target language and at least one of the video information or incremental information are ignored. In other words, video information is prohibited from being added to the training set and used as text information in the training set, and the target language is prohibited from being tagged with a language as the language that is used in the video information. And/or, the incremental information is prohibited from being added to the training set and used as text information in the training set, and the target language is prohibited from being tagged with a language as the language that is used in the incremental information.

[00149] В случае, когда классификатор языка обновляется с использованием целевого языка и, по меньшей мере, одной из видеоинформации или инкрементальной информации, обнаруживается, выполнено ли заранее настроенное условие обучения. В случае, когда заранее настроенное условие обучения выполнено, классификатор языка обновляется с использованием текстовой информации из учебного набора в качестве тренировочной выборки и с использованием размеченных языков в качестве тренировочных тегов. В случае, когда заранее настроенное условие обучения не выполнено, другая видеоинформация и инкрементальная информация будут продолжать добавляться.[00149] In the case where the language classifier is updated using the target language and at least one of the video information or incremental information, it is detected whether the preset training condition is satisfied. In case the pre-configured training condition is met, the language classifier is updated using the text information from the training set as the training set and using the labeled languages as the training tags. In the case where the preset learning condition is not met, other video information and incremental information will continue to be added.

[00150] В качестве примера, в ходе процесса обнаружения выполнения условия обучения, подсчитывается полное количество видеоинформации, добавленной к учебному набору после последнего обновления классификатора языка, и это полное количество сравнивается с заранее настроенным порогом количества MAX_SENT_COUNT.[00150] As an example, during the learning condition fulfillment detection process, the total amount of video information added to the training set since the last update of the language classifier is counted, and this total amount is compared with a preconfigured amount threshold MAX_SENT_COUNT.

[00151] В случае, когда полное количество больше заранее настроенного порога количества MAX_SENT_COUNT, заранее настроенное условие обучения определяется как выполненное.[00151] In the case where the total quantity is greater than the preconfigured quantity threshold MAX_SENT_COUNT, the preconfigured learning condition is determined to be satisfied.

[00152] Приведенное выше условие обучения является только примером. На практике согласно фактическим потребностям используются другие условия обучения. Например, с момента последнего обновления классификатора языка игнорируется тот факт, что полное количество видеоинформации превышает другой порог количества, а в случае, когда классификатор языка, возможно, имеет дефекты, проводится ожидание как можно более скорого обновления для улучшения его работы. Условия обучения никак не ограничиваются в настоящем документе. Более того, в дополнение к описанным выше условия обучения, специалисты в этой области техники могут использовать другие условия обучения согласно их фактическим потребностям, это никак не ограничивается в настоящем раскрытии.[00152] The above training condition is only an example. In practice, other teaching conditions are used according to actual needs. For example, since the last update of the language classifier, the fact that the total amount of video information exceeds another quantity threshold is ignored, and in the case where the language classifier may have defects, it is waited for as soon as possible to update it to improve its performance. The training conditions are not limited in any way in this document. Moreover, in addition to the training conditions described above, those skilled in the art may use other training conditions according to their actual needs, this is not limited in any way in the present disclosure.

[00153] Для упрощения понимания вариантов осуществления настоящего раскрытия специалистами в этой области техники, способ расстановки меток языка, основанный на полу контролируемом обучении согласно некоторым вариантом осуществления настоящего раскрытия, описан далее в данном документе с помощью примеров.[00153] To facilitate the understanding of embodiments of the present disclosure by those skilled in the art, a semi-supervised learning based language tagging method according to some embodiments of the present disclosure is described later herein by way of examples.

[00154] Как показано на фиг. 3, количество сеансов итераций i определено как равное 0. На стадии S301 подготавливается размеченный учебный набор L. Учебный набор L содержит в себе предложения (текстовая информация или голосовые сигналы), которые были снабжены метками языка, и неразмеченный набор данных U. Набор данных U содержит в себе предложения (текстовые информация или голосовые сигналы), которые не были снабжены метками языка.[00154] As shown in FIG. 3, the number of iteration sessions i is determined to be 0. In step S301, a labeled training set L is prepared. The training set L contains sentences (text information or voice signals) that have been tagged with language and an unlabeled data set U. Data set U contains sentences (text information or voice signals) that have not been provided with language tags.

[00155] На стадии S302 классификатор языка Ci тренируется с помощью использования предложений в учебном наборе L и их размеченных языков.[00155] In step S302, the language classifier Ci is trained by using the sentences in the training set L and their labeled languages.

[00156] На стадии S303 определяется, превышает ли значение i порог I. В случае, когда значение i превышает порог I, процесс заканчивается. В случае, когда значение i не превышает порог I, выполняется стадия S304.[00156] In step S303, it is determined whether the value i exceeds the threshold I. In the case where the value i exceeds the threshold I, the process ends. In the case where the value of i does not exceed the threshold I, step S304 is executed.

[00157] На стадии S304 классификатор языка Ci предсказывает язык, который применяется в каждом предложении S набора данных U, при этом каждому языку указывается величина вероятности.[00157] In step S304, the language classifier Ci predicts the language that is used in each sentence S of the data set U, and each language is given a probability value.

[00158] На стадии S305 предложения S набора данных снабжаются метками языка, и такие размеченные предложения добавляются в учебный набор L.[00158] In step S305, sentences S of the data set are provided with language labels, and such labeled sentences are added to the training set L.

[00159] На стадии S306 предложения S, добавленные в учебный набор L, удаляются из набора данных U. В этот момент счетчик итераций увеличивается на единицу (то есть i=i+1) и процесс возвращается на стадию S302.[00159] In step S306, the sentences S added to the training set L are removed from the data set U. At this point, the iteration counter is incremented by one (ie, i=i+1) and the process returns to step S302.

[00160] Для реализации стадии S304, смотрите фиг. 4, на стадии S401 некоторые предложения S1 (целевая информация) получаются из набора данных U в качестве поднабора V. Наибольшая величина вероятности, среди языков, которые применяются в предложениях S1, лежит между первым порогом правдоподобия MIN_PROB_1 и вторым порогом правдоподобия MIN_PROB_2.[00160] To implement step S304, see FIG. 4, in step S401, some sentences S1 (target information) are obtained from the data set U as a subset of V. The largest probability value, among the languages that are applied in the sentences S1, lies between the first likelihood threshold MIN_PROB_1 and the second likelihood threshold MIN_PROB_2.

[00161] На стадии S402 предложение S1 случайным образом выбирается из поднабора V, подтверждается идентификатор ID видео видеоданных, в которых расположено предложение S, подтверждается, что предсказанный язык А с наибольшей величиной вероятности применяется в предложении S1, и подтверждается величина вероятности Р_S1 того, что в предложении S1 применяется язык А.[00161] In step S402, sentence S1 is randomly selected from the subset V, the ID of the video video data in which sentence S is located is confirmed, it is confirmed that the predicted language A is most likely to be applied in sentence S1, and the probability value P_S1 is confirmed that Sentence S1 uses language A.

[00162] На стадии S403 другие предложения S2 из видеоданных получаются с помощью использования идентификатора ID видео, и уровень достоверности Score для предложения S1 вычисляется с помощью использования величины вероятности Р_S2 того, что для других предложений предсказано, что в них применяется язык A. Score=f1 (P_S1, Р_S2), где f1 является функцией слияния, например, функцией суммирования, умножения, усреднения, усреднения после применения весовых множителей и тому подобного.[00162] In step S403, the other sentences S2 from the video data are obtained by using the video ID, and the confidence level Score for the sentence S1 is calculated by using the probability value P_S2 that the other sentences are predicted to use language A. Score= f1 (P_S1, P_S2), where f1 is a fusion function, for example, a summation, multiplication, averaging, averaging after applying weighting factors, and the like.

[00163] На стадии S404 определяется, меньше ли уровень достоверности Score порога достоверности MIN_SCORE. В случае, когда уровень достоверности Score меньше порога достоверности MIN_SCORE, предложения S (включая предложения S1 и S2) не выбираются, и процесс возвращается к выполнению стадии S402. В случае, когда уровень достоверности Score не меньше порога достоверности MIN_SCORE, выполняется стадия S405.[00163] In step S404, it is determined whether the confidence level Score is less than the confidence threshold MIN_SCORE. In the case where the confidence level Score is less than the confidence threshold MIN_SCORE, sentences S (including sentences S1 and S2) are not selected and the process returns to step S402. In the case where the confidence level Score is not less than the confidence threshold MIN_SCORE, step S405 is executed.

[00164] На стадии S405 создается множество новых предложений Т (инкрементальная информация), причем предложения Т подобны предложениям S.[00164] In step S405, a plurality of new T sentences (incremental information) are created, the T sentences being similar to the S sentences.

[00165] В качестве примера, предложение Т получается с помощью удаления неполных слов из предложения S. Процентное отношение числа слов в предложении Т к числу слов в предложении S превышает первый порог процентного отношения MIN_PERCENT_1.[00165] As an example, sentence T is obtained by removing partial words from sentence S. The percentage of the number of words in sentence T to the number of words in sentence S exceeds the first percentage threshold MIN_PERCENT_1.

[00166] На стадии S406 запускается классификатор языка Ci для соответствующего предсказания множества языков, которые применяются во множестве предложений Т. В случае, когда предсказанным языком является язык А, величина вероятности языка А составляет Р_Т. Вычисляется процентное отношение А_Р языка А ко всем языкам.[00166] In step S406, a language classifier Ci is started to correspondingly predict a plurality of languages that are used in a plurality of sentences T. In the case where the predicted language is language A, the probability value of language A is P_T. The percentage ratio A_P of language A to all languages is calculated.

[00167] На стадии S407 определяется, меньше ли процентное отношение А_Р второго порога процентного отношения MIN_PERCENT_2. В случае, когда процентное отношение А_Р меньше второго порога процентного отношения MIN_PERCENT_2, предложение S не выбирается и процесс возвращается к выполнению стадии S402. В случае, когда процентное отношение А Р не меньше второго порога процентного отношения MIN_PERCENT_2, выполняется стадия S408.[00167] In step S407, it is determined whether the percentage A_P is less than the second percentage threshold MIN_PERCENT_2. In the case where the percentage A_P is less than the second percentage threshold MIN_PERCENT_2, proposal S is not selected and the process returns to step S402. In the case where the percentage ratio AP is not less than the second percentage threshold MIN_PERCENT_2, step S408 is executed.

[00168] На стадии S408 предложения S (включая предложения S1 и S2) снабжаются метками языка А и добавляются в учебный набор L.[00168] In step S408, sentences S (including sentences S1 and S2) are labeled with language A and added to the training set L.

[00169] На стадии S409 третий порог правдоподобия MIN_PROB_3 определяется как равный величине P_S*MIN_RATIO. P_S=f2 (P_S1, P_S2), и функция f2 является функцией выбора, например, функцией выбора максимального значения, выбора среднего значения и тому подобного, и 0<MIN_RATIO<l.[00169] In step S409, the third likelihood threshold MIN_PROB_3 is determined to be equal to the value P_S*MIN_RATIO. P_S=f2 (P_S1, P_S2), and the function f2 is a selection function, such as a maximum value selection function, an average value selection function and the like, and 0<MIN_RATIO<l.

[00170] В случае, когда в предложении Т с величиной вероятности MIN_PROB_1≤P_T≤MIN_PROB_3 применяется язык А, предложение Т снабжается меткой языка А и добавляется в учебный набор L.[00170] In the case where language A is used in sentence T with probability value MIN_PROB_1≤P_T≤MIN_PROB_3, sentence T is tagged with language A and added to the training set L.

[00171] На стадии S410 подсчитывается полное количество предложений S и Т, добавленных в учебный набор L, и определяется, превышает ли полное количество величину порога количества MAX_SENT_COUNT. В случае, когда полное количество предложений превышает величину порога количества MAX_SENT_COUNT, процесс останавливается и классификатор языка Ci ожидает обновления с помощью использования учебного набора L. В противном случае процесс возвращается к выполнению стадии S402.[00171] In step S410, the total number of sentences S and T added to the training set L is counted, and it is determined whether the total number exceeds the quantity threshold value MAX_SENT_COUNT. In the case where the total number of sentences exceeds the quantity threshold value MAX_SENT_COUNT, the process is stopped and the language classifier Ci waits for updating by using the training set L. Otherwise, the process returns to step S402.

[00172] Для упрощения описания варианты осуществления способа описаны в виде последовательности действий, однако специалисты в этой области техники будут осознавать, что варианты осуществления настоящего раскрытия не ограничены описанной выше последовательностью действий, так как некоторые стадии могут быть выполнены в другой последовательности или одновременно согласно вариантам осуществления настоящего раскрытия. Во-вторых, специалисты в этой области техники также будут осознавать, что описанные в настоящем документе варианты осуществления принадлежат к возможным вариантам осуществления, и выполняемые действия не являются обязательными для вариантов осуществления настоящего раскрытия.[00172] To simplify the description, embodiments of the method are described in sequence form, however, those skilled in the art will appreciate that embodiments of the present disclosure are not limited to the sequence of actions described above, as some steps may be performed in a different sequence or simultaneously according to the embodiments implementation of this disclosure. Secondly, those skilled in the art will also appreciate that the embodiments described herein are among possible embodiments, and the actions performed are not mandatory for the embodiments of the present disclosure.

[00173] Третий вариант осуществления[00173] Third embodiment

[00174] На фиг. 5 показана упрощенная блок-схема устройства для расстановки меток языка согласно третьему варианту осуществления настоящего раскрытия. Устройство включает в себя:[00174] In FIG. 5 is a simplified block diagram of a language marking apparatus according to a third embodiment of the present disclosure. The device includes:

[00175] модуль 501 определения классификатора языка, выполненный с возможностью определить классификатор языка; модуль 502 сбора видеоинформации, выполненный с возможностью собирать множество элементов информации, связанной с видеоданными, и определить множество элементов информации в качестве множества элементов видеоинформации; модуль 503 разделения видеоинформации, выполненный с возможностью разделять множество элементов видеоинформации на целевую информацию и справочную информацию; модуль 504 классификации видеоинформации, выполненный с возможностью идентифицировать языки, которые применяются во множестве элементов видеоинформации, с помощью ввода множества элементов видеоинформации в классификатор языка; и модуль 505 проверки уровня достоверности, выполненный с возможностью проверить уровень достоверности целевого языка с помощью справочных языков, причем целевой язык является языком, который применяется в целевой информации, а справочные языки являются множеством языков, которые применяются в справочной информации.[00175] a language classifier determination module 501, configured to determine a language classifier; a video information collecting module 502, configured to collect a plurality of information items associated with video data, and define the plurality of information items as a plurality of video information items; a video information separating module 503, configured to divide a plurality of video information elements into target information and reference information; a video information classification module 504, configured to identify languages that are used in a plurality of video information items by inputting the plurality of video information items into a language classifier; and a confidence level checking unit 505 configured to check the confidence level of a target language using reference languages, the target language being a language that is used in the target information, and the reference languages being a plurality of languages that are used in the reference information.

[00176] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль 501 определения классификатора языка включает в себя:[00176] According to some embodiments of the present disclosure, language classifier determination module 501 includes:

[00177] модуль создания учебного набора, выполненный с возможностью создавать учебный набор, причем учебный набор включает в себя множество элементов текстовой информации, и каждый элемент текстовой информации был снабжен меткой примененного языка; и модуль обучения классификатора языка, выполнена с возможностью тренировать классификатор языка с помощью использования каждого элемента текстовой информации в учебном наборе в качестве тренировочной выборки и использования языка, меткой которого была снабжена текстовая информация, в качестве тренировочного тега.[00177] a training set creation module, configured to create a training set, wherein the training set includes a plurality of text information items, and each text information item has been provided with an applied language tag; and a language classifier training module, configured to train the language classifier by using each element of textual information in the training set as a training set and using the language that has been tagged with the textual information as a training tag.

[00178] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль 503 разделения видеоинформации включает в себя:[00178] According to some embodiments of the present disclosure, video information separating module 503 includes:

[00179] модуль определения корреляции, выполненный с возможностью определять корреляции множества элементов видеоинформации с видеоданными; модуль настройки целевой информации, выполненный с возможностью настроить видеоинформацию с наивысшей степенью корреляции в качестве целевой информации; и модуль настройки справочной информации, выполненный с возможностью настроить видеоинформацию, отличающуюся от целевой информации во множестве элементов видеоинформации, в качестве справочной информации.[00179] a correlation determination module configured to determine correlations of a plurality of video information elements with the video data; a target information setting module configured to set video information with the highest degree of correlation as target information; and a reference information setting module configured to set video information different from the target information in the plurality of video information elements as reference information.

[00180] Согласно некоторым вариантам осуществления настоящего раскрытия, видеоинформация содержит, по меньшей мере, одну из следующих информаций:[00180] According to some embodiments of the present disclosure, the video information comprises at least one of the following information:

[00181] информация описания, согласованная с заставкой рекламно-маркетинговая информация, информация субтитров, информация первого признака, информация второго признака или информация комментария, причем информация первого признака является текстовой информацией, извлеченной из заставки, а информация второго признака является текстовой информацией, извлеченной из множества элементов кадров изображений видеоданных.[00181] description information, splash screen-matched advertising and marketing information, subtitle information, first feature information, second feature information, or comment information, wherein the first feature information is text information extracted from the splash screen, and the second feature information is text information extracted from a plurality of video data image frame elements.

[00182] Целевая информация является информацией описания, а справочная информация включает в себя, по меньшей мере, одну из следующих информаций:[00182] The target information is description information, and the reference information includes at least one of the following information:

[00183] согласованная с заставкой рекламно-маркетинговая информация, информация субтитров, информация первого признака, информация второго признака или информация комментария.[00183] advertising and marketing information, subtitle information, first feature information, second feature information, or comment information consistent with the splash screen.

[00184] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль 505 проверки уровня достоверности включает в себя:[00184] According to some embodiments of the present disclosure, confidence level checking module 505 includes:

[00185] модуль запроса целевой вероятности, выполненный с возможностью запрашивать вероятность целевого языка и определять вероятность целевого языка в качестве целевой вероятности; модуль запроса справочной вероятности, выполненный с возможностью запрашивать, в случае, когда целевая вероятность не меньше первого заранее настроенного порога правдоподобия и не больше второго заранее настроенного порога правдоподобия, вероятность того, что справочные языки идентичны целевому языку, и использовать вероятность справочных языков в качестве справочной вероятности; модуль слияния вероятности, выполненный с возможностью вычислять уровень достоверности того, что целевой язык назначен целевой информации с помощью комбинирования целевой вероятности со справочной вероятностью.[00185] a target probability requesting module, configured to request the probability of a target language and determine the probability of the target language as the target probability; a reference probability request module configured to request, in the case where the target probability is not less than a first preconfigured likelihood threshold and not greater than a second preconfigured likelihood threshold, the probability that the reference languages are identical to the target language, and use the probability of the reference languages as a reference probabilities; a probability fusion module configured to calculate a confidence level that a target language is assigned to the target information by combining the target probability with the reference probability.

[00186] Согласно некоторым вариантам осуществления настоящего раскрытия, устройство дополнительно включает в себя:[00186] According to some embodiments of the present disclosure, the device further includes:

[00187] модуль создания инкрементальной информации, выполненный с возможностью создавать, в случае, когда уровень достоверности не меньше заранее настроенного порога достоверности, информацию, подобную видеоинформации, для применения в качестве инкрементальной информации; модуль обнаружения пригодности инкрементальной информации для идентификации целевого языка; модуль обновления классификатора языка, выполненный с возможностью обновлять классификатор языка на основе целевого языка и, по меньшей мере, одной из видеоинформации или инкрементальной информации в случае, когда инкрементальная информация допустима для идентификации целевого языка.[00187] an incremental information creation module configured to create, in the case where the confidence level is not less than a preset confidence threshold, information like video information for use as incremental information; module for detecting the suitability of incremental information for identifying the target language; a language classifier update module configured to update the language classifier based on the target language and at least one of video information or incremental information in the case where the incremental information is valid for identifying the target language.

[00188] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль создания инкрементальной информации включает в себя:[00188] According to some embodiments of the present disclosure, the incremental information creation module includes:

[00189] первый модуль удаления слов, выполненный с возможностью, в случае соблюдения количественного условия, получать инкрементальную информацию с помощью удаления неполных слов из видеоинформации, причем количественное условие заключается в том, что процентное отношение числа слов в инкрементальной информации к числу слов в видеоинформации превышает первый заранее настроенный порог процентного отношения; и/или первый модуль преобразования букв, выполненный с возможностью получать инкрементальную информацию с помощью преобразования форматов слов в видеоинформации с использованием только прописных букв; и/или второй модуль преобразования букв, выполненный с возможностью получать инкрементальную информацию с помощью преобразования форматов слов в видеоинформации с использованием только строчных букв; и/или модуль удаления знаков пунктуации, выполненный с возможностью получать инкрементальную информацию с помощью удаления знаков пунктуации в видеоинформации; и/или второй модуль удаления слов, выполненный с возможностью получать инкрементальную информацию с помощью удаления N слов, внутри диапазона из М слов, в видеоинформации.[00189] a first word removal module configured to, if a quantitative condition is met, obtain incremental information by removing partial words from the video information, wherein the quantitative condition is that the percentage of the number of words in the incremental information to the number of words in the video information exceeds the first pre-configured percentage threshold; and/or a first letter conversion module configured to obtain incremental information by converting word formats into video information using only uppercase letters; and/or a second letter conversion module configured to obtain incremental information by converting word formats into video information using only lowercase letters; and/or a punctuation removal module configured to obtain incremental information by removing punctuation marks in the video information; and/or a second word removal module configured to obtain incremental information by removing N words, within a range of M words, in the video information.

[00190] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль обнаружения пригодности включает в себя:[00190] According to some embodiments of the present disclosure, the suitability detection module includes:

[00191] модуль классификации инкрементальной информации, выполненный с возможностью идентифицировать язык, который применяется в инкрементальной информации, при помощи ввода инкрементальной информации в классификатор языка, и использовать этот язык в качестве инкрементального языка; модуль подсчета процентного отношения, выполненный с возможностью подсчитывать процентное отношение инкрементальных языков, которые идентичны целевому языку; и модуль определения пригодности, выполненный с возможностью определить, что инкрементальная информация пригодна для идентификация языков в случае, когда процентное отношение не меньше второго заранее настроенного порога процентного отношения.[00191] an incremental information classification module, configured to identify a language that is used in the incremental information by inputting the incremental information into the language classifier, and use the language as the incremental language; a percentage counting module configured to count the percentage of incremental languages that are identical to the target language; and a suitability determining module configured to determine that the incremental information is suitable for identifying languages in a case where the percentage is not less than a second preset percentage threshold.

[00192] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль обновления классификатора языка включает в себя:[00192] According to some embodiments of the present disclosure, a language classifier update module includes:

[00193] модуль получения учебного набора, выполненный с возможностью получать учебный набор для классификатора языка, причем учебный набор включает в себя множество элементов текстовой информации, и каждый элемент текстовой информации был снабжен меткой языка, примененного в текстовой информации; модуль добавления видеоинформации, выполненный с возможностью добавлять видеоинформацию в учебный набор для использования в качестве текстовой информации в учебном наборе; модуль расстановки меток в видеоинформации, выполненный с возможностью расставлять метки целевого языка в качестве языка, который применен в видеоинформации; модуль обнаружения условия обучения, выполненный с возможностью обнаруживать, выполняется ли заранее настроенное условие обучения, в случае, когда заранее настроенное условие обучения выполнено, запускается модуль итерационного обучения; модуль итерационного обучения, выполненный с возможностью обновить классификатор языка с помощью использования текстовой информации в учебном наборе в качестве тренировочной выборки и использования указанного в метках языка в качестве тренировочного тега.[00193] a training set obtaining module, configured to obtain a training set for a language classifier, wherein the training set includes a plurality of text information items, and each text information item has been provided with a language label applied to the text information; a video information adding module configured to add video information to the training set for use as text information in the training set; a module for placing labels in video information, configured to place labels of the target language as the language that is used in the video information; a learning condition detection module configured to detect whether a preset learning condition is satisfied, in the case where the preset learning condition is satisfied, the iterative learning module is started; an iterative learning module configured to update the language classifier by using text information in the training set as a training sample and using the language specified in the tags as a training tag.

[00194] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль обнаружения условия обучения включает в себя:[00194] According to some embodiments of the present disclosure, a learning condition detection module includes:

[00195] модуль подсчета полного количества, выполненный с возможностью подсчитывать полное количество видеоинформации, добавленной к учебному набору после последнего обновления классификатора языка; и модуль определения выполнения, выполненный с возможностью определить, что заранее настроенное условие обучения выполнено в случае, когда полное количество больше заранее настроенного порога количества.[00195] a total counting module configured to count the total amount of video information added to the training set since the last update of the language classifier; and a fulfillment determination unit configured to determine that the preset learning condition is satisfied in a case where the total quantity is greater than the preset quantity threshold.

[00196] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль обновления классификатора языка дополнительно включает в себя:[00196] According to some embodiments of the present disclosure, the language classifier update module further includes:

[00197] модуль отбора инкрементальной информации, выполненный с возможностью отбирать инкрементальную информацию, которая пригодна для обновления классификатора языка; модуль добавления инкрементальной информации, выполненный с возможностью добавлять отобранную инкрементальную информацию в учебной набор для использования в качестве текстовой информации в учебном наборе; и модуля расстановки меток в инкрементальной информации, выполненный с возможностью расставлять метки целевого языка как языка, который применяется в инкрементальной информации.[00197] an incremental information selection module configured to select incremental information that is suitable for updating the language classifier; an incremental information adding module configured to add selected incremental information to the training set for use as text information in the training set; and an incremental information labeling module configured to label the target language as a language that is used in the incremental information.

[00198] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль отбора инкрементальной информации включает в себя:[00198] According to some embodiments of the present disclosure, the incremental information selection module includes:

[00199] модуль настройки порога правдоподобия, выполненный с возможностью получать указанную процентную долю вероятности того, что целевой язык применяется в видеоинформации, использовать ее в качестве третьего порога правдоподобия для инкрементальной информации; и модуль определения пригодности, выполненный с возможностью определять пригодность инкрементальной информации для обновления классификатора языка в случае, когда величина вероятности того, что целевой язык применяется в инкрементальной информации, не меньше первого заранее настроенного порога правдоподобия и не больше третьего порога правдоподобия, причем величина вероятности того, что целевой язык применяется в целевой информации, не меньше первого порога правдоподобия.[00199] a likelihood threshold setting module configured to obtain a specified percentage of the probability that the target language is applied in the video information, use it as a third likelihood threshold for the incremental information; and a suitability determination module configured to determine the suitability of the incremental information for updating the language classifier in a case where the probability value that the target language is used in the incremental information is not less than a first preset likelihood threshold and not more than a third likelihood threshold, wherein the probability value that that the target language is used in the target information is not less than the first likelihood threshold.

[00200] Согласно некоторым вариантам осуществления настоящего раскрытия, модуль обновления классификатора языка дополнительно включает в себя:[00200] According to some embodiments of the present disclosure, the language classifier update module further includes:

[00201] модуль определения фактического языка, выполненный с возможностью определить язык, метки которого расставлены в видеоинформации, и использовать определенный язык в качестве фактического языка; и модуль игнорирования выборки, выполненный с возможностью игнорировать целевой язык и, по меньшей мере, одну из видеоинформации или инкрементальной информации в случае, когда фактический язык отличается от целевого языка. Устройство для расстановки меток языка согласно некоторым вариантам осуществления настоящего раскрытия способно выполнить способ расстановки меток согласно любому варианту осуществления настоящего раскрытия, и имеет функциональные модули и действия, необходимые для выполнения способа.[00201] an actual language determining module, configured to determine a language whose marks are placed in the video information, and use the determined language as the actual language; and a sample ignoring module configured to ignore the target language and at least one of the video information or incremental information in a case where the actual language is different from the target language. A tongue marking apparatus according to some embodiments of the present disclosure is capable of performing the marking method according to any embodiment of the present disclosure, and has functional modules and actions necessary to perform the method.

[00202] Четвертый вариант осуществления[00202] Fourth embodiment

[00203] На фиг. 6 показана упрощенная блок-схема вычислительного устройства согласно четвертому варианту осуществления настоящего раскрытия. На фиг. 6 показана блок-схема приведенного в качестве примера вычислительного устройства 12, пригодного для реализации вариантов осуществления настоящего раскрытия. Показанное на фиг. 6 вычислительное устройство 12 является только примером и оно не накладывает никаких ограничений на функции или область применения вариантов осуществления настоящего раскрытия.[00203] In FIG. 6 is a simplified block diagram of a computing device according to a fourth embodiment of the present disclosure. In fig. 6 is a block diagram of an exemplary computing device 12 suitable for implementing embodiments of the present disclosure. Shown in FIG. 6, the computing device 12 is an example only and does not impose any limitations on the functions or scope of the embodiments of the present disclosure.

[00204] Как показано на фиг. 6, вычислительное устройство 12 представлено в виде общего вычислительного устройства. Компоненты вычислительного устройства 12 включают в себя, помимо прочего, один или несколько процессоров или процессорных блоков 16, системную память 28 и шину 18, которая соединяет различные компоненты системы (включая системную память 28 и процессорные блоки 16).[00204] As shown in FIG. 6, the computing device 12 is represented as a general computing device. Components of the computing device 12 include, but are not limited to, one or more processors or processing units 16, system memory 28, and a bus 18 that connects various system components (including system memory 28 and processing units 16).

[00205] Системная память 28 включает в себя машиночитаемый носитель данных в виде энергозависимой памяти, например оперативного запоминающего устройства (ОЗУ) 30 и/или кэш-памяти 32. Например, система хранения данных 34 подготовлена для считывания и записи данных на несъемный долговременный энергонезависимый магнитный носитель (не показан на фиг. 6, обычно называется «накопитель на жестком магнитном диске»). В памяти 28 хранится, по меньшей мере, один программный продукт, включающий в себя набор (например, по меньшей мере, один) программных модулей. Программные модули выполнены с возможностью реализовать функции вариантов осуществления настоящего раскрытия.[00205] System memory 28 includes computer-readable storage media in the form of volatile memory, such as random access memory (RAM) 30 and/or cache memory 32. For example, storage system 34 is configured to read and write data to a non-removable, non-volatile magnetic storage media (not shown in FIG. 6, usually called a “hard disk drive”). Memory 28 stores at least one software product including a set of (eg, at least one) software modules. The software modules are configured to implement the functions of the embodiments of the present disclosure.

[00206] Программный продукт/сервисная программа 40 содержит в себе набор (например, по меньшей мере, один) программных модулей 42, и хранится, например, в памяти 28. Программный модуль 42 обычно выполняет функции и/или способы вариантов осуществления, описанных в настоящем раскрытии.[00206] Software product/service 40 includes a set (e.g., at least one) of software modules 42, and is stored, for example, in memory 28. Software module 42 typically performs the functions and/or methods of the embodiments described in this disclosure.

Вычислительное устройство 12 также обменивается данными с одним или несколькими периферийными устройствами 14 (например, клавиатура, указывающее устройство, дисплей 24 и тому подобное). Такая передача данных выполняется с помощью интерфейса 22 ввода - вывода (В-В) 22. Вычислительное устройство 12 также обменивается данными с одной или несколькими сетями (например, локальная вычислительная сеть (ЛВС), глобальная вычислительная сеть (ГВС) и/или сети общего пользования, например, Интернет) с помощью сетевого интерфейса 20.Computing device 12 also communicates with one or more peripheral devices 14 (eg, keyboard, pointing device, display 24, and the like). This data transfer is accomplished using input/output (I/O) interface 22 22. Computing device 12 also communicates with one or more networks (e.g., local area network (LAN), wide area network (WAN), and/or public utility networks). use, for example, the Internet) using network interface 20.

[00208] Процессорный блок 16 выполняет множество функциональных приложений и обработку данных, например, реализацию способа расстановки меток языка согласно некоторым вариантам осуществления настоящего раскрытия, с помощью выполнения одной или нескольких программ, хранящихся в системной памяти 28.[00208] Processing unit 16 performs a variety of functional applications and data processing, such as implementing a language tagging method according to some embodiments of the present disclosure, by executing one or more programs stored in system memory 28.

[00209] Седьмой вариант осуществления[00209] Seventh embodiment

[00210] Согласно седьмому варианту осуществления настоящего раскрытия дополнительно предложен машиночитаемый носитель данных, в котором хранится одна или несколько компьютерных программ. Одна или несколько компьютерных программ, будучи загруженными и выполняемыми процессором, заставляют процессор выполнить множество процессов вышеуказанного способа расстановки меток языка, и при этом достигается тот же самый технический результат, который не повторяется в настоящем описании.[00210] According to a seventh embodiment of the present disclosure, there is further provided a computer-readable storage medium in which one or more computer programs are stored. The one or more computer programs, when downloaded and executed by the processor, cause the processor to perform a plurality of processes of the above language marking method, and thereby achieves the same technical result, which is not repeated herein.

[00211] Машиночитаемый носитель данных включает в себя, помимо прочего, например, электрические, магнитные, оптические, электромагнитные, инфракрасные или полупроводниковые системы, аппаратуру, устройства или их любые комбинации. Примеры машиночитаемого носителя данных включают в себя (неисчерпывающий список) электрическое подключение с помощью одного или нескольких проводов, переносной компьютерный диск, накопитель на жестком магнитном диске, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), стираемое программируемое постоянное запоминающее устройство (СППЗУ), флэш-память, оптическое волокно, постоянное запоминающее устройство на компакт-диске (CD-ROM), оптическое запоминающее устройство, магнитное запоминающее устройство или их любую пригодную комбинацию. Согласно настоящему раскрытию машиночитаемый носитель данных является любым материальным носителем, содержащим или хранящим одну или несколько программ, причем одна или несколько программ используются системой выполнения команд, аппаратурой или устройством или совместно с ними.[00211] A computer readable storage medium includes, but is not limited to, for example, electrical, magnetic, optical, electromagnetic, infrared or semiconductor systems, apparatus, devices, or any combination thereof. Examples of computer-readable storage media include (non-exhaustive) an electrical connection using one or more wires, a portable computer disk, a hard disk drive, a random access memory (RAM), a read-only memory (ROM), an erasable programmable read-only memory (EPR). EPROM), flash memory, optical fiber, compact disc read only memory (CD-ROM), optical storage, magnetic storage, or any suitable combination thereof. According to the present disclosure, a computer-readable storage medium is any tangible medium containing or storing one or more programs, wherein one or more programs are used by or in conjunction with an instruction execution system, hardware, or device.

Claims

1. Способ расстановки меток языка, предусматривающий следующие стадии:1. A method for arranging language marks, involving the following stages:

определение классификатора языка;definition of a language classifier;

сбор множества элементов информации, относящихся к видеоданным, и определение множества элементов информации в качестве множества элементов видеоинформации;collecting a plurality of information items related to the video data, and defining the plurality of information items as a plurality of video information items;

разделение множества элементов видеоинформации на целевую информацию и справочную информацию;dividing multiple elements of video information into target information and reference information;

идентификация языков, которые применяются во множестве элементов видеоинформации, с помощью ввода множества элементов видеоинформации в классификатор языка; иidentifying languages that are used in the plurality of video information elements by inputting the plurality of video information elements into a language classifier; And

проверка уровня достоверности целевого языка с помощью справочных языков, причем целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации.checking the level of reliability of the target language using reference languages, the target language being a language that is used for target information, and the reference languages being a plurality of languages that are used for reference information.

2. Способ по п. 1, отличающийся тем, что классификатор языка предусматривает следующие стадии:2. The method according to claim 1, characterized in that the language classifier provides the following stages:

создание учебного набора, причем учебный набор включает в себя множество элементов текстовой информации, и каждый элемент текстовой информации был снабжен меткой языка, примененного в текстовой информации; иcreating a training set, wherein the training set includes a plurality of textual information items, and each textual information item has been labeled with a language applied to the textual information; And

тренировка классификатора языка с помощью использования каждого элемента текстовой информации в учебном наборе в качестве тренировочной выборки и использования языка, меткой которого была снабжена текстовая информация, в качестве тренировочного тега.training a language classifier by using each piece of textual information in the training set as a training set and using the language that was tagged with the textual information as a training tag.

3. Способ по п. 1, отличающийся тем, что разделение множества элементов видеоинформации на целевую информацию и справочную информацию предусматривает следующие стадии:3. The method according to claim 1, characterized in that the division of multiple elements of video information into target information and reference information involves the following stages:

определение корреляций множества элементов видеоинформации с видеоданными;determining correlations of multiple elements of video information with video data;

настройка видеоинформации с наивысшей степенью корреляции в качестве целевой информации; иsetting video information with the highest degree of correlation as target information; And

настройка видеоинформации, отличающейся от целевой информации во множестве элементов видеоинформации, в качестве справочной информации.setting video information different from the target information in the plurality of video information elements as reference information.

4. Способ по п. 3, отличающийся тем, что видеоинформация содержит по меньшей мере одну из следующих информаций: информация описания, согласованная с заставкой рекламно-маркетинговая информация, информация субтитров, информация первого признака, информация второго признака или информация комментария, причем информация первого признака является текстовой информацией, извлеченной из заставки, а информация второго признака является текстовой информацией, извлеченной из множества кадров изображений видеоданных; и4. The method according to claim 3, characterized in that the video information contains at least one of the following information: description information, advertising and marketing information consistent with the splash screen, subtitle information, first attribute information, second attribute information or commentary information, wherein the information of the first the attribute information is text information extracted from the screensaver, and the second attribute information is text information extracted from a plurality of image frames of video data; And

в случае, когда целевая информация является информацией описания, справочная информация включает в себя по меньшей мере одну из следующих информаций: согласованная с заставкой рекламно-маркетинговая информация, информация субтитров, информация первого признака, информация второго признака или информация комментария.in the case where the target information is description information, the reference information includes at least one of the following information: splash-screen advertising and marketing information, subtitle information, first feature information, second feature information, or comment information.

5. Способ по любому из пп. 1-4, отличающийся тем, что проверка уровня достоверности целевого языка с помощью справочных языков предусматривает следующие стадии:5. Method according to any one of paragraphs. 1-4, characterized in that checking the level of reliability of the target language using reference languages involves the following stages:

запрашивание вероятности целевого языка и определение вероятности целевого языка в качестве целевой вероятности;requesting the probability of the target language and defining the probability of the target language as the target probability;

запрашивание, в случае, когда целевая вероятность не меньше первого заранее настроенного порога правдоподобия и не больше второго заранее настроенного порога правдоподобия, вероятности того, что справочные языки идентичны целевому языку, и определение вероятности справочных языков в качестве справочной вероятности; иrequesting, in the case where the target probability is not less than a first preconfigured likelihood threshold and not greater than a second preconfigured likelihood threshold, the probability that the reference languages are identical to the target language, and determining the probability of the reference languages as the reference probability; And

вычисление, с помощью объединения с целевой вероятностью и со справочной вероятностью, уровня достоверности того, что целевая информация применяется с целевым языком.calculating, by combining with the target probability and the reference probability, the level of confidence that the target information applies to the target language.

6. Способ по любому из пп. 1-4, в котором дополнительно предусмотрены следующие стадии:6. Method according to any one of paragraphs. 1-4, which additionally provides the following stages:

в случае, когда уровень достоверности не меньше заранее настроенного порога достоверности, создание информации, подобной видеоинформации, для использования в качестве инкрементальной информации;in the case where the confidence level is not less than a preset confidence threshold, creating information like video information for use as incremental information;

запуск классификатора языка для обнаружения пригодности инкрементальной информации для идентификации целевого языка; иrunning a language classifier to detect the suitability of the incremental information for identifying the target language; And

в случае, когда инкрементальная информация является допустимой для идентификации целевого языка, обновление классификатора языка на основе целевого языка и по меньшей мере одной из видеоинформации или инкрементальной информации.in the case where the incremental information is valid for identifying the target language, updating the language classifier based on the target language and at least one of the video information or the incremental information.

7. Способ по п. 6, отличающийся тем, что создание информации, подобной видеоинформации, для применения в качестве инкрементальной информации, предусматривает по меньшей мере одну из следующих стадий:7. The method according to claim 6, characterized in that creating information like video information for use as incremental information involves at least one of the following stages:

получение инкрементальной информации с помощью удаления неполных слов из видеоинформации при соблюдении количественного условия, причем количественное условие заключается в том, что процентное отношение числа слов в инкрементальной информации к числу слов в видеоинформации превышает первый заранее настроенный порог процентного отношения;obtaining incremental information by removing partial words from the video information while satisfying a quantitative condition, wherein the quantitative condition is that the percentage ratio of the number of words in the incremental information to the number of words in the video information exceeds a first preset percentage threshold;

получение инкрементальной информации с помощью преобразования форматов слов в видеоинформации с использованием только прописных букв;obtaining incremental information by converting word formats into video information using only capital letters;

получение инкрементальной информации с помощью преобразования форматов слов в видеоинформации с использованием только строчных букв;obtaining incremental information by converting word formats into video information using only lowercase letters;

получение инкрементальной информации с помощью удаления знаков препинания в видеоинформации; илиobtaining incremental information by removing punctuation marks in video information; or

получение инкрементальной информации с помощью удаления N слов внутри диапазона из М слов в видеоинформации, причем М больше N, и оба числа М и N являются положительными целыми числами.obtaining incremental information by removing N words within a range of M words in the video information, where M is greater than N and both M and N are positive integers.

8. Способ по п. 6, отличающийся тем, что запуск классификатора языка для обнаружения пригодности инкрементальной информации для идентификации целевого языка предусматривает следующие стадии:8. The method according to claim 6, characterized in that running a language classifier to detect the suitability of incremental information for identifying the target language involves the following stages:

идентификация языка, который применяется в инкрементальной информации, с помощью ввода инкрементальной информации в классификатор языка, и определение языка как инкрементального языка;identifying a language that is used in the incremental information by inputting the incremental information into the language classifier, and determining the language as an incremental language;

подсчитывание процентного отношения инкрементальных языков, которые идентичны целевому языку; иcalculating the percentage of incremental languages that are identical to the target language; And

в случае, когда процентное отношение не меньше второго заранее настроенного порога процентного отношения, определение, что инкрементальная информация является допустимой для идентификации языков.in the case where the percentage is not less than a second preset percentage threshold, determining that the incremental information is valid for identifying languages.

9. Способ по п. 6, отличающийся тем, что обновление классификатора языка, которое основано на целевом языке и по меньшей мере одной из видеоинформации или инкрементальной информации, предусматривает следующие стадии:9. The method according to claim 6, characterized in that updating the language classifier, which is based on the target language and at least one of video information or incremental information, comprises the following steps:

получение учебного набора для классификатора языка, причем учебный набор включает в себя множество элементов текстовой информации, и каждый элемент текстовой информации был снабжен меткой языка, примененного в текстовой информации;obtaining a training set for a language classifier, wherein the training set includes a plurality of text information items, and each text information item has been provided with a language label applied to the text information;

добавление видеоинформации в учебный набор для использования в качестве текстовой информации в учебном наборе;adding video information to the training set for use as text information in the training set;

расстановка меток целевого языка в качестве языка, который применяется для целевой информации;placing target language labels as the language that is used for the target information;

определение, выполняется ли заранее настроенное условие обучения; и determining whether a preset training condition is satisfied; And

в случае выполнения заранее настроенного условия обучения, обновление классификатора языка с использованием текстовой информации из учебного набора в качестве тренировочной выборки и с использованием размеченного языка в качестве тренировочного тега.if a pre-configured training condition is met, updating the language classifier using text information from the training set as the training set and using the tagged language as the training tag.

10. Способ по п. 9, отличающийся тем, что обнаружение того, удовлетворяет ли учебный набор заранее настроенному условию обучения, предусматривает следующие стадии:10. The method according to claim 9, characterized in that detecting whether the training set satisfies a preset training condition involves the following steps:

подсчитывание полного количества видеоинформации, добавленной к учебному набору после последнего обновления классификатора языка; иcounting the total amount of video information added to the training set since the last update of the language classifier; And

определение, что заранее настроенное условие обучения выполнено в случае, когда полное количество больше заранее настроенного порога количества.determining that the preset learning condition is satisfied in the case where the total quantity is greater than the preset quantity threshold.

11. Способ по п. 9, отличающийся тем, что обновление классификатора языка, которое основано на целевом языке и по меньшей мере одной из видеоинформации или инкрементальной информации, дополнительно предусматривает следующие стадии:11. The method of claim 9, wherein updating the language classifier, which is based on the target language and at least one of video information or incremental information, further comprises the following steps:

проведение отбора инкрементальной информации, которая допустима для обновления классификатора языка;carrying out the selection of incremental information that is acceptable for updating the language classifier;

добавление отобранной инкрементальной информации в учебный набор для использования в качестве текстовой информации в учебном наборе; иadding the selected incremental information to the training set for use as text information in the training set; And

расстановка меток целевого языка в качестве языка, который применяется в инкрементальной информации.tagging the target language as the language that is used in incremental information.

12. Способ по п. 11, отличающийся тем, что проведение отбора инкрементальной информации, которая допустима для обновления классификатора языка, предусматривает следующие стадии:12. The method according to claim 11, characterized in that the selection of incremental information that is acceptable for updating the language classifier involves the following stages:

получение указанного процентного отношения вероятности того, что целевой язык применяется в видеоинформации для использования в качестве третьего порога правдоподобия для инкрементальной информации;obtaining said percentage probability that the target language is used in the video information for use as a third likelihood threshold for the incremental information;

в случае, когда величина вероятности того, что целевой язык применяется в инкрементальной информации, не меньше первого заранее настроенного порога правдоподобия и не больше третьего порога правдоподобия, определение, что инкрементальная информация пригодна для обновления классификатора языка, причем величина вероятности того, что целевой язык применяется в целевой информации, не меньше первого порога.in the case where the probability value that the target language is applied in the incremental information is not less than the first preconfigured likelihood threshold and is not greater than the third likelihood threshold, determining that the incremental information is suitable for updating the language classifier, wherein the probability value that the target language is applied in the target information, not less than the first threshold.

13. Способ по п. 9 или 11, отличающийся тем, что обновление классификатора языка, которое основано на целевом языке и по меньшей мере одной из видеоинформации или инкрементальной информации, дополнительно предусматривает следующие стадии:13. The method according to claim 9 or 11, characterized in that updating the language classifier, which is based on the target language and at least one of video information or incremental information, further comprises the following steps:

определение языка, указанного в метках видеоинформации, для использования в качестве фактического языка; иdetermining the language specified in the video information tags to be used as the actual language; And

игнорирование целевого языка и по меньшей мере одной из видеоинформации или инкрементальной информации в случае, когда фактический язык отличается от целевого языка.ignoring the target language and at least one of the video information or incremental information in the case where the actual language differs from the target language.

14. Устройство для расстановки меток языка, включающее в себя:14. A device for placing tongue marks, including:

модуль определения классификатора языка, выполненный с возможностью определить классификатор языка;a language classifier determination module configured to determine a language classifier;

модуль сбора видеоинформации, выполненный с возможностью проводить сбор множества элементов информации, относящихся к видеоданным, и определять множество элементов информации в качестве множества элементов видеоинформации;a video information acquisition module configured to collect a plurality of information items related to the video data, and define the plurality of information items as a plurality of video information items;

модуль разделения видеоинформации, выполненный с возможностью разделять множество элементов видеоинформации на целевую информацию и справочную информацию;a video information separating module configured to separate a plurality of video information elements into target information and reference information;

модуль классификации видеоинформации, выполненный с возможностью идентифицировать языки, которые применяются во множестве элементов видеоинформации, с помощью ввода множества элементов видеоинформации в классификатор языка; иa video information classification module configured to identify languages that are used in a plurality of video information elements by inputting the plurality of video information elements into a language classifier; And

модуль проверки уровня достоверности, выполненный с возможностью проверить уровень достоверности целевого языка с помощью справочных языков, причем целевой язык является языком, который применяется для целевой информации, а справочные языки являются множеством языков, которые применяются для справочной информации.a confidence level checking module configured to check the confidence level of a target language using reference languages, the target language being a language that is used for target information, and the reference languages being a plurality of languages that are used for reference information.

15. Вычислительное устройство для расстановки меток языка, включающее в себя:15. A computing device for placing language marks, including:

по меньшей мере один процессор;at least one processor;

память, выполненную с возможностью хранить по меньшей мере одну программу;a memory configured to store at least one program;

причем по меньшей мере один процессор после загрузки и выполнения по меньшей мере одной программы заставлен выполнять способ расстановки меток языка, как определено согласно любому из пп. 1-13.wherein the at least one processor, after downloading and executing the at least one program, is caused to execute a method for arranging language marks as determined according to any one of paragraphs. 1-13.

16. Машиночитаемый носитель данных, в котором хранится одна или несколько компьютерных программ, причем одна или несколько компьютерных программ, будучи загруженными и выполняемыми процессором, заставляют процессор выполнить способ расстановки меток языка, как определено согласно любому из пп. 1-13.16. A computer-readable storage medium in which one or more computer programs are stored, wherein the one or more computer programs, when loaded and executed by the processor, causes the processor to execute a language marking method as defined in any one of claims. 1-13.