WO2012116561A1 - 一种跨语言搜索中的网页排序方法和*** - Google Patents

一种跨语言搜索中的网页排序方法和*** Download PDF

Info

Publication number
WO2012116561A1
WO2012116561A1 PCT/CN2011/083411 CN2011083411W WO2012116561A1 WO 2012116561 A1 WO2012116561 A1 WO 2012116561A1 CN 2011083411 W CN2011083411 W CN 2011083411W WO 2012116561 A1 WO2012116561 A1 WO 2012116561A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
webpage
translation
sorting
cross
Prior art date
Application number
PCT/CN2011/083411
Other languages
English (en)
French (fr)
Inventor
吴华
王海峰
Original Assignee
北京百度网讯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京百度网讯科技有限公司 filed Critical 北京百度网讯科技有限公司
Publication of WO2012116561A1 publication Critical patent/WO2012116561A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to the field of Internet, and in particular, to a web page sorting method and system in cross-language search. Background technique
  • cross-language search technology has emerged to overcome the language barriers of users.
  • a cross-language search for example, searching for English web pages in Chinese
  • a Chinese search request is input, and a Chinese search request is translated into an English search request, and an English search request is used to search for an English web page.
  • the content of the searched English webpage is translated into Chinese and presented to the reader.
  • the ranking is mainly based on the relevance of the English search request to the English web page.
  • the results of poor translation quality may be ranked first, resulting in poor user experience. Summary of the invention
  • the technical problem to be solved by the present invention is to provide a method and system for sorting web pages in cross-language search to improve user experience.
  • the technical solution adopted by the present invention to solve the technical problem is as follows: A method for sorting web pages in a cross-language search is provided, and the method for sorting web pages in the cross-language search includes:
  • the step e includes:
  • the language model is generated using a source language corpus in a bilingual corpus used in translating the second language web page.
  • the translation confusion is calculated by the following formula:
  • is the degree of translation confusion
  • X, ⁇ is the first sentence in the second language webpage
  • the language model is an n-gram language model.
  • the step e includes:
  • the step e includes:
  • E31 Calculating, respectively, a maximum similarity of each of the second language web pages and the plurality of documents obtained by clustering the source language corpus in the bilingual corpus used when translating the second language webpage; e32. corresponding to the first language webpage
  • the maximum similarity of the second language web page sorts the plurality of first language web pages.
  • a plurality of topics are acquired from the plurality of documents, and a probability that each of the documents belongs to each of the topics is calculated to form a plurality of first vectors; Calculating a probability that the second language webpage belongs to each of the topics, to form a second vector, calculating a similarity between the plurality of first vectors and the second vector, and selecting a maximum of the similarities The maximum similarity.
  • step e31 the maximum similarity is calculated according to the following formula: i
  • the step e includes:
  • E41 The number of unregistered words included in the translation process of the second language webpage is calculated; e42. the number of the unregistered words according to the second language webpage corresponding to the first language webpage Sort a language page.
  • the step e includes:
  • E52 Sort the plurality of first language webpages according to the average translation score of the second language webpage corresponding to the first language webpage.
  • the step e includes:
  • E61 Counting the number of translation rule usage times of the second language webpage in the translation process; e62. sorting the plurality of first language webpages according to the number of translation rule usage times of the second language webpage corresponding to the first language webpage .
  • the technical solution adopted by the present invention to solve the technical problem is: providing a webpage ranking system in a cross-language search, wherein the webpage ranking system in the cross-language search comprises:
  • a search request obtaining unit configured to acquire a first language search request
  • a first translation unit configured to translate the first language search request into a second language search request
  • a searching unit configured to search for a plurality of second language webpages by using the second language search request
  • a second translation unit configured to translate the plurality of second language webpages into a plurality of first language webpages
  • a sorting unit configured to perform, according to the translation confidence of the plurality of second language webpages First language pages are sorted.
  • the sorting unit includes:
  • a source language corpus obtaining module configured to obtain a source language corpus in a bilingual corpus used when translating the second language webpage
  • a language model generating module configured to generate a language model by using the source language corpus
  • a confusion degree calculation module configured to calculate a translation confusion degree of the second language webpage by using the language model
  • the first sorting module is configured to sort the plurality of first language webpages according to the translation confusion degree of the second language webpage corresponding to the first language webpage.
  • the confusion calculation module calculates the translation confusion by the following formula:
  • is the degree of translation confusion
  • X, ⁇ is the first sentence in the second language webpage
  • ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ , / is the number of sentences in the second language web page, which is the probability of occurrence of X, ⁇ obtained by the language model calculation.
  • the language model is an n-gram language model.
  • the sorting unit includes:
  • a sequence number counting module configured to count the number of times of the second language webpage in the translation process
  • a second sorting module configured to: according to the second language webpage corresponding to the first language webpage The number of times of sequencing sorts the plurality of first language web pages.
  • the sorting unit includes:
  • a source language corpus obtaining module configured to obtain a source language corpus in a bilingual corpus used when translating the second language webpage
  • a clustering module configured to cluster the source language corpus into multiple documents
  • a similarity calculation module configured to calculate a maximum similarity between the second language webpage and the multiple documents
  • a third sorting module configured to sort the plurality of first language webpages according to the maximum similarity of the second language webpage corresponding to the first language webpage.
  • the clustering module acquires a plurality of topics from the plurality of documents, and calculates a probability that each of the documents belongs to each of the topics to form a plurality of first vectors.
  • the similarity calculation module calculates a probability that the second language webpage belongs to each of the topics, to form a second vector, calculates a similarity between the plurality of first vectors and the second vector, and selects the The largest of the similarities is the maximum similarity.
  • the similarity calculation module calculates the maximum similarity according to the following formula:
  • H is the maximum similarity
  • N is the number of the topics
  • is the Mth document
  • M is the number of documents
  • is the probability that ⁇ belongs to, for the second language web page
  • ⁇ ⁇ is the probability of belonging.
  • the sorting unit includes:
  • the unregistered word statistics module is configured to count the number of unregistered words included in the translation process of the second language webpage;
  • the fourth sorting module is configured to sort the plurality of first language webpages according to the number of the unregistered words of the second language webpage corresponding to the first language webpage.
  • the sorting unit includes:
  • a translation score calculation module configured to calculate an average translation score of a sentence included in the second language webpage during translation
  • a fifth sorting module configured to sort the plurality of first language webpages according to the average translation score of the second language webpage corresponding to the first language webpage.
  • the sorting unit includes:
  • a rule usage count statistic module configured to count the number of times the translation rule is used in the translation process of the second language webpage
  • a sixth sorting module configured to sort the plurality of first language webpages according to the number of times of using the translation rule of the second language webpage corresponding to the first language webpage.
  • the webpage ranking method and system in the cross-language search provided by the present invention sorts the translated search results according to the translation confidence, thereby improving the user experience.
  • FIG. 1 is a schematic flowchart of a method for sorting webpages in a cross-language search according to an embodiment of the present invention
  • FIG. 2 is a schematic flowchart of a first embodiment of a sorting process of a webpage sorting method in cross-language search shown in FIG.
  • FIG. 3 is a second sequence of the sorting process of the web page sorting method in the cross-language search shown in FIG. Schematic diagram of the flow of the embodiment
  • FIG. 4 is a flow chart showing a third embodiment of a sorting process of a web page sorting method in the cross-language search shown in FIG. 1;
  • FIG. 5 is a flow chart showing a fourth embodiment of a sorting process of a web page sorting method in the cross-language search shown in FIG. 1;
  • FIG. 6 is a schematic flowchart of a fifth embodiment of a sorting process of a web page sorting method in the cross-language search shown in FIG. 1;
  • FIG. 7 is a flow chart showing a sixth embodiment of a sorting process of a web page sorting method in the cross-language search shown in FIG. 1;
  • FIG. 8 is a schematic block diagram of a web page sorting system in a cross-language search according to an embodiment of the present invention
  • FIG. 9 is a schematic block diagram of a first embodiment of a sorting unit of a web page sorting system in the cross-language search shown in FIG. 8;
  • FIG. 10 is a schematic block diagram of a second embodiment of a sorting unit of a web page sorting system in the cross-language search shown in FIG. 8;
  • FIG. 1 is a schematic block diagram of a third embodiment of a sorting unit of a web page sorting system in the cross-language search shown in FIG. 8;
  • Figure 12 is a schematic block diagram of a fourth embodiment of a sorting unit of the web page sorting system in the cross-language search shown in Figure 8;
  • Figure 13 is a schematic block diagram of a fifth embodiment of a sorting unit of the web page sorting system in the cross-language search shown in Figure 8;
  • FIG. 14 is a schematic block diagram of a sixth embodiment of a sorting unit of the web page sorting system in the cross-language search shown in FIG. detailed description
  • FIG. 1 is a schematic flowchart of a method for sorting webpages in a cross-language search according to an embodiment of the present invention.
  • the method for sorting web pages in the cross-language search mainly includes the following steps:
  • a first language search request is obtained.
  • the user can input a first language search request (Query), such as a Chinese search request, in the search box of the browser, and click the search button.
  • Query such as a Chinese search request
  • the first language search request is transmitted to the search engine via the Internet and is obtained by the search engine.
  • the first language search request is translated into a second language search request.
  • the first language search request can be translated into a second language search request by various machine translation means known in the art, for example, when searching for an English webpage in Chinese, the Chinese search request is translated into an English search. request.
  • Specific machine translation means may include word machine based, phrase or syntactic based statistical machine translation, and the like.
  • step S103 a plurality of second language web pages are searched for using the second language search request.
  • the search engine searches for a plurality of second language web pages related to the second language search request, such as an English web page.
  • step S104 a plurality of second language webpages are translated into a plurality of first language webpages.
  • the webpage content in the second language webpage can be translated into a first language, such as Chinese, by various machine translation means mentioned above, thereby implementing cross-language search.
  • step S105 the plurality of first language webpages are sorted according to the translation confidence of the plurality of second language webpages.
  • the higher the translation confidence level the higher the position of the first language webpage, so that the webpage result with good translation quality is obtained.
  • the webpage result with good translation quality is obtained.
  • Various embodiments for obtaining translation confidence for a second language web page will be described in detail below, and those skilled in the art will fully appreciate the application of other translation confidence acquisition methods known in the art to step S105.
  • FIG. 2 is a schematic flowchart of a first embodiment of a sorting process of a webpage sorting method in the cross-language search shown in FIG. 1. This embodiment mainly includes the following steps:
  • step S201 the source language corpus in the bilingual corpus used in translating the second language web page is obtained.
  • bilingual corpora are generally used to train translation models.
  • the bilingual corpus includes a plurality of bilingual example sentences, each of which includes a source language example sentence and a target language example sentence corresponding to the source language example sentence.
  • the source language is the second language and the target language is the first language.
  • Bilingual corpora are commonly used in the field of machine translation and can be obtained in various ways, and will not be described here.
  • a language model is generated using the source language corpus, such as an n-gram language model.
  • step S203 the translation confusion of the second language webpage is calculated using the language model. Specifically, for a sentence composed of L words, the probability of occurrence of the sentence can be calculated by the language model:
  • / ⁇ ! ⁇ ,...,! ⁇ indicates the probability of occurrence of the word ⁇ with the preceding n words ⁇ W w , "is a positive integer.
  • the translational confusion of the second language web page can be calculated by the following formula: i
  • X is the first sentence in the second language webpage
  • l ⁇ t ⁇ I which is the number of sentences in the second language webpage
  • ⁇ ( ⁇ , ) is through the above language model Calculate the probability of occurrence of the obtained sentence X.
  • step S204 a plurality of first language web pages are sorted according to translation confusion. Among them, in the sorted first language webpages, the higher the translation confusion level, the lower the position of the first language webpage.
  • FIG. 3 is a schematic flowchart of a second embodiment of a sorting process of a webpage sorting method in the cross-language search shown in FIG. 1. This embodiment mainly includes the following steps:
  • step S301 the number of times of the second language webpage in the translation process is counted.
  • the order of translation of words or phrases in the source language sentence needs to be adjusted. This adjustment is the order. The more the number of sequences, the higher the translation complexity, and the lower the translation confidence.
  • step S302 a plurality of first language webpages are sorted according to the number of times of sequence. Wherein, in the plurality of first language webpages after sorting, the position of the first language webpage whose number of times of the order is higher is later.
  • FIG. 4 is a schematic flowchart diagram of a third embodiment of a sorting process of a webpage sorting method in the cross-language search shown in FIG. 1. This embodiment mainly includes the following steps:
  • step S401 a source language corpus in a bilingual corpus used in translating a second language web page is obtained.
  • the source language corpus is clustered into a plurality of documents. Specifically, the clustering algorithm is used to cluster the sentences in the source language corpus, and then the sentences of each class are collected into one document to form a plurality of documents. Subsequently, Probabilistic Latent Semantic Analysis (PLSA) or other algorithm is used to obtain multiple topics from the plurality of documents, and the probability that each document belongs to each topic is calculated to form a plurality of first vectors:
  • PLSA Probabilistic Latent Semantic Analysis
  • Vec ⁇ d m ( ⁇ ( ⁇ , I d m ⁇ p ⁇ t 2 I d m ⁇ ...p ⁇ t n
  • step S403 a maximum similarity between the second language web page and the plurality of documents is calculated. Specifically, calculating the probability that the second language web page belongs to each topic to form a second vector:
  • ⁇ ( wh ⁇ ) is the probability that the second language webpage ⁇ belongs to the theme.
  • the specific similarity calculation formula can be:
  • H the maximum similarity. The higher the maximum similarity, the higher the translation quality, and the higher the translation confidence.
  • step S404 a plurality of first language web pages are sorted according to the maximum similarity. Wherein, in the plurality of first language webpages after sorting, the position of the first language webpage with the highest maximum similarity is higher.
  • FIG. 5 is a row of the webpage sorting method in the cross-language search shown in FIG. Schematic diagram of the fourth embodiment of the sequence process. This embodiment mainly includes the following steps:
  • step S501 the number of unregistered words included in the translation process of the second language webpage is counted.
  • Unregistered words are words that are not included in the source language corpus, including various types of proprietary names (personal names, place names, institution names, etc.), abbreviations, new words, and so on. In the machine translation process, the more unregistered words, the worse the translation quality is, and the lower the translation confidence.
  • step S502 a plurality of first language web pages are sorted according to the number of unregistered words. Wherein, in the plurality of first language web pages after sorting, the more the number of unregistered words, the lower the position of the first language webpage.
  • FIG. 6 is a schematic flowchart diagram of a fifth implementation manner of the sorting process of the webpage sorting method in the cross-language search shown in FIG. This embodiment mainly includes the following steps:
  • step S601 an average translation score of the second language webpage during the translation process is calculated.
  • the average translation score of the second language web page is calculated according to the following formula:
  • A 2 ⁇ score k IK
  • is the average translation score of the second language webpage, which is the A of the second language webpage
  • the translation score of the sentences, i ⁇ k ⁇ K, f is the second language webpage
  • the translation score of each sentence can be determined by a translation evaluation method well known in the art, such as a normalized sentence translation probability and the like. The higher the average translation score, the higher the quality of the translation, the higher the confidence in translation.
  • FIG. 7 is a schematic flowchart diagram of a sixth implementation manner of a sorting process of a webpage sorting method in the cross-language search shown in FIG. 1. This embodiment mainly includes the following steps:
  • step S701 the number of rule usages of the second language webpage during the translation process is counted.
  • certain translation rules are often formulated, such as translation rules for specific phrases.
  • step S702 a plurality of first language webpages are sorted according to the number of rule usages. Wherein, in the sorted first language webpages, the more the number of rule usages, the lower the position of the first language webpage.
  • the above first to fourth embodiments acquire the feature indicating the translation confidence from the source language side of the second language webpage
  • the fifth to sixth embodiments obtain the translation confidence from the translation model or the translation result of the second language webpage.
  • Characteristics Of course, those skilled in the art can obtain other features representing the degree of translation confidence by other means.
  • the translation confidence can be combined as a feature with the other 4 unordered methods of the subject i or the public, for example, the learning to rank or PageRank method.
  • FIG. 8 is a webpage sorting system in cross-language search according to an embodiment of the present invention.
  • the webpage ranking system in the cross-language search mainly includes a search request acquisition unit 801, a first translation unit 802, a search unit 803, a second translation unit 804, and a sorting unit 805.
  • the search request acquisition unit 801 is configured to acquire a first language search request.
  • the user can enter a first language search request (Query), such as a Chinese search request, in the search box of the browser, and click the search button.
  • Query such as a Chinese search request
  • the first language search request is transmitted to the search request acquisition unit 801 via the Internet, and is acquired by the search request acquisition unit 801.
  • the first translation unit 802 is for translating the first language search request into a second language search request.
  • the first translation unit 802 can translate the first language search request into a second language search request by various machine translation means known in the art, for example, when searching for an English webpage in Chinese, translating the Chinese search request into an English search. request.
  • Specific machine translation means may include statistical machine translation based on words, phrases or syntax, and the like.
  • the search unit 803 is configured to search for a plurality of second language web pages using the second language search request.
  • the search unit 803 searches for a plurality of second language web pages related to the second language search request, such as English web pages, by various search engine techniques known in the art.
  • the second translation unit 804 is configured to translate the plurality of second language web pages into a plurality of first language web pages.
  • the second translation unit 804 can translate the webpage content in the second language webpage into a single language, such as Chinese, by various machine translation means mentioned above, thereby implementing cross-language search.
  • the first translation unit 802 and the second translation unit 804 can be implemented by the same translation unit or different translation units.
  • the sorting unit 805 is configured to sort the plurality of first language webpages according to the translation confidence of the plurality of second language webpages.
  • the results are prioritized to the user, thereby improving the user experience.
  • Various embodiments for obtaining translation confidence for a second language web page will be described in detail below, and those skilled in the art will fully appreciate the application of other translation confidence acquisition methods known in the art to the ranking unit 805.
  • FIG. 9 is a schematic block diagram of a first embodiment of the sorting unit 805 of the web page sorting system in the cross-language search shown in FIG.
  • the sorting unit 805 of the present embodiment mainly includes a source language corpus obtaining module 901, a language model generating module 902, a confusion degree calculating module 903, and a sorting module 904.
  • the source language corpus acquisition module 901 is configured to obtain a source language corpus in a bilingual corpus used in translating a second language web page.
  • bilingual corpora are generally used to train translation models.
  • the bilingual corpus includes a plurality of bilingual example sentences, each of which includes a source language example sentence and a target language example sentence corresponding to the source language example sentence.
  • the source language is the second language and the target language is the first language.
  • the bilingual corpus is widely used in the field of machine translation and can be obtained in various ways, and will not be described here.
  • the language model generation module 902 is for generating a language model using a source language corpus, such as an n-gram language model.
  • the confusion calculation module 903 is for calculating the translation difficulty of the second language webpage using the language model. Specifically, for a sentence XI composed of L words ⁇ , ⁇ , ..., ⁇ , the probability of occurrence of the sentence can be calculated by the language model:
  • the translation of the second-language webpage is sleepy.
  • the ambiguity can be calculated by the following formula:
  • i 3 is the translation confusion of the second language webpage
  • xi is the i-th sentence in the second language webpage
  • 1 ⁇ ⁇ / is the number of sentences in the second language webpage
  • ⁇ ' is through the above language
  • the model calculates the probability of occurrence of the sentence xi. In the translation process, if the translation is more confused, the higher the translation complexity, the lower the translation confidence.
  • the sorting module 904 is configured to sort the plurality of first language webpages according to the degree of translation confusion. The position of the first language webpage with higher translation confusion is lower in the plurality of first language webpages sorted by the sorting module 904. Referring to FIG. 10, FIG. 10, FIG.
  • the sorting unit 805 of the present embodiment mainly includes a sequence number counting module 1001 and a sorting module 1002.
  • the sequence number counting module 1001 is configured to count the number of times the second language web page is in the process of translation. In the translation process, the order of translation of words or phrases in the source language sentence needs to be adjusted. This adjustment is the order. The more the number of sequences, the higher the translation complexity, and the lower the translation confidence.
  • the sorting module 1002 is configured to sort the plurality of first language webpages according to the number of times of the sequence.
  • FIG. 11 is a schematic block diagram of a third embodiment of the sorting unit 805 of the web page sorting system in the cross-language search shown in FIG.
  • the sorting unit 805 of the present embodiment mainly includes a source language corpus acquiring module 101, a clustering module 1102, a similarity calculating module 1103, and a sorting module 1104.
  • the source language corpus acquisition module 1101 is configured to acquire a source language corpus in a bilingual corpus used when translating a second language webpage.
  • the clustering module 1102 is configured to cluster the source language corpus into a plurality of documents. Specifically, the clustering module 1102 clusters sentences in the source language corpus using a clustering algorithm, and then aggregates the sentences of each class into one document to form a plurality of documents. Subsequently, the clustering module 1102 obtains a plurality of topics from the plurality of documents by using Probabilistic Latent Semantic Analysis (PLSA) or other algorithms, and calculates a probability that each document belongs to each topic to form a plurality of a vector:
  • PLSA Probabilistic Latent Semantic Analysis
  • Vec ⁇ d m ) (pit, I d m ),p(t 2 I
  • the similarity calculation module 1103 calculates the maximum similarity between the second language web page and the plurality of documents. Specifically, the similarity calculation module 1103 calculates the probability that the second language web page belongs to each topic to form a second vector:
  • the similarity calculation module 1103 calculates the similarity between the plurality of first vectors and the second vector, and selects the largest of the similarities as the maximum similarity.
  • the specific similarity calculation formula can be:
  • the sorting module 1104 is configured to sort the plurality of first language webpages according to the maximum similarity. Wherein, in the plurality of first language webpages sorted by the sorting module 1104, the position of the first language webpage with the highest maximum similarity is higher.
  • FIG. 12 is a schematic block diagram of a fourth embodiment of the sorting unit 805 of the web page sorting system in the cross-language search shown in FIG.
  • the sorting unit 805 of the present embodiment mainly includes an unregistered word statistic module 1201 and a sorting module 1202.
  • the unregistered word statistics module 1201 is used to count the number of unregistered words included in the translation process of the second language webpage.
  • Unregistered words are words that are not included in the source language corpus, including various proper nouns (personal names, place names, institution names, etc.), abbreviations, new words, and so on. In the machine translation process, the more unregistered words, the worse the translation quality is, and the lower the translation confidence.
  • the sorting module 1202 is configured to sort the plurality of first language web pages according to the number of unregistered words. In the plurality of first language web pages sorted by the sorting module 1202, the more the number of unregistered words, the lower the position of the first language webpage.
  • FIG. 13 is a schematic block diagram of a fifth embodiment of the sorting unit 805 of the web page sorting system in the cross-language search shown in FIG.
  • the sorting unit 805 of the present embodiment mainly includes a translation score calculation module 1301 and a sorting module 1302.
  • the translation score calculation module 1301 is for calculating an average translation score of the second language web page during the translation process. Specifically, the translation score calculation module 1301 calculates an average translation score of the second language web page according to the following formula:
  • the translation score calculation module 1301 can determine a translation score for each sentence by a translation evaluation method well known in the art, such as a normalized sentence translation probability and the like. The higher the average translation score, the higher the quality of the translation, the higher the confidence in translation.
  • the ranking module 1302 is for sorting a plurality of first language web pages based on the average translation score. Wherein, in the plurality of first language webpages sorted by the sorting module 1302, the higher the average translation score is, the higher the position of the first language webpage is.
  • FIG. 14 is a schematic block diagram of a sixth embodiment of the sorting unit 805 of the web page sorting system in the cross-language search shown in FIG.
  • the sorting unit 805 of the present embodiment mainly includes a rule usage count module 1401 and a sorting module 1402.
  • the rule usage count module 1401 is used to count the number of rule usages of the second language web page during the translation process.
  • certain translation rules are often formulated, such as translation rules for specific phrases.
  • the sorting module 1402 is for sorting a plurality of first language web pages according to the number of rule usages. In the plurality of first language webpages sorted by the sorting module 1402, the position of the first language webpage whose number of rule usages is higher is later.
  • the above first to fourth embodiments acquire the feature indicating the translation confidence from the source language side of the second language webpage
  • the fifth to sixth embodiments obtain the translation confidence from the translation model or the translation result of the second language webpage.
  • Characteristics Of course, those skilled in the art can obtain other features representing the degree of translation confidence by other means.
  • translation confidence can also be combined as a feature with other ranking methods known in the art, such as the learning to rank or PageRank methods.
  • the webpage ranking method and system in the cross-language search provided by the present invention sorts the translated search results according to the translation confidence, thereby improving the user experience.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Description

一种跨语言搜索中的网页排序方法和*** 本申请要求了申请日为 201 1年 03月 02日,申请号为 2011 10049883.1 , 发明名称为"一种跨语言搜索中的网页排序方法和***"的中国专利申请 的优先权, 其全部内容通过引用结合在本申请中。 技术领域
本发明涉及互联网领域, 特别涉及一种跨语言搜索中的网页排序方 法及***。 背景技术
随着网络搜索技术的不断发展, 为克服用户的语言障碍, 跨语言搜 索技术应运而生。在跨语言搜索(比如用中文搜索英文网页)时, 首先, 输入中文的搜索请求, 并将中文的搜索请求翻译成英文的搜索请求, 再 利用英文的搜索请求搜索英文网页。 然后, 将搜索到的英文网页的内容 翻译成中文呈现给读者。在搜索结果呈现的过程中,一般需要进行排序。 在现有的跨语言搜索技术, 主要通过英文的搜索请求与英文网页的相关 度来进行排序。 然而, 由于跨语言搜索进行了翻译过程, 因此可能导致 翻译质量较差的结果排在前面, 导致用户体验不佳。 发明内容
有鉴于此, 本发明所要解决的技术问题是提供一种跨语言搜索中的网 页排序方法及***, 以提高用户体验。 本发明为解决技术问题而采用的技术方案是: 提供一种跨语言搜索 中的网页排序方法, 所述跨语言搜索中的网页排序方法包括:
a. 获取第一语言搜索请求;
b. 将所述第一语言搜索请求翻译成第二语言搜索请求;
c 利用所述第二语言搜索请求搜索得到多个第二语言网页;
d. 将所述多个第二语言网页翻译成多个第一语言网页;
e. 根据所述多个第二语言网页的翻译置信度对所述多个第一语言 网页进行排序。
根据本发明之一优选实施例, 在所述步骤 e中, 在排序后的所述多 个第一语言网页中, 所述翻译置信度越高的所述第一语言网页的位置越 靠前。
根据本发明之一优选实施例, 所述步骤 e包括:
el l . 利用语言模型计算所述第二语言网页的翻译困惑度;
el2. 根据第一语言网页所对应第二语言网页的所述翻译困惑度对 所述多个第一语言网页进行排序;
其中所述语言模型是利用翻译所述第二语言网页时使用的双语语料 库中的源语言语料生成的。
根据本发明之一优选实施例, 在所述步骤 el l 中, 通过以下公式计 算所述翻译困惑度:
I
Ρ = 2
其中, Ρ为所述翻译困惑度, X,·为所述第二语言网页中的第 ζ个句子,
\ < ι≤Ι , /为所述第二语言网页中的句子数量, 为通过所述语言模 型计算获得的 的出现概率。 根据本发明之一优选实施例, 所述语言模型为 n-gram语言模型。 根据本发明之一优选实施例, 所述步骤 e包括:
e21. 统计所述第二语言网页在翻译过程中的调序次数;
e22. 根据第一语言网页所对应第二语言网页的所述调序次数对所 述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述步骤 e包括:
e31. 分别计算各第二语言网页与利用翻译所述第二语言网页时使 用的双语语料库中的源语言语料进行聚类得到的多个文档的最大相似度; e32. 根据第一语言网页所对应第二语言网页的所述最大相似度对 所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 在步骤 e31 中, 从所述多个文档中获 取多个主题, 并计算每一所述文档属于每一所述主题的概率, 以形成多 个第一向量; 计算所述第二语言网页属于每一所述主题的概率, 以形成 第二向量, 计算所述多个第一向量与所述第二向量的相似度, 并选择所 述相似度中最大的作为所述最大相似度。
根据本发明之一优选实施例, 在步骤 e31 中, 根据如下公式计算所 述最大相似度: i
Figure imgf000005_0001
其中, H为所述最大相似度, 为第 "个主题, \ < n≤N , N为所述 主题的数量, ^为第 M个文档, \ < m≤M, M为所述文档的数量, W J 为 d m属于 的概率, 为所述第二语言网页, ρ( „ | )为 d s属于 的概 率。 根据本发明之一优选实施例, 所述步骤 e包括:
e41. 统计所述第二语言网页在翻译过程中包含的未登录词的个数; e42. 根据第一语言网页所对应第二语言网页的所述未登录词的个 数对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述步骤 e包括:
e51. 计算所述第二语言网页所包含句子在翻译过程中的平均翻译 评分;
e52. 根据第一语言网页所对应第二语言网页的所述平均翻译评分 对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述步骤 e包括:
e61. 统计所述第二语言网页在翻译过程中的翻译规则使用次数; e62. 根据第一语言网页所对应第二语言网页的所述翻译规则使用 次数对所述多个第一语言网页进行排序。
本发明为解决技术问题而采用的技术方案是: 提供一种跨语言搜索 中的网页排序***, 所述跨语言搜索中的网页排序***包括:
搜索请求获取单元, 用于获取第一语言搜索请求;
第一翻译单元, 用于将所述第一语言搜索请求翻译成第二语言搜索 请求;
搜索单元, 用于利用所述第二语言搜索请求搜索得到多个第二语言 网页;
第二翻译单元, 用于将所述多个第二语言网页翻译成多个第一语言 网页;
排序单元, 用于根据所述多个第二语言网页的翻译置信度对所述多 个第一语言网页进行排序。
根据本发明之一优选实施例, 在经所述排序单元排序后的所述多个 第一语言网页中, 所述翻译置信度越高的所述第一语言网页的位置越靠 前。
根据本发明之一优选实施例, 所述排序单元包括:
源语言语料获取模块, 用于获取翻译所述第二语言网页时使用的双 语语料库中的源语言语料;
语言模型生成模块, 用于利用所述源语言语料生成语言模型; 困惑度计算模块, 用于利用所述语言模型计算所述第二语言网页的 翻译困惑度;
第一排序模块, 用于根据第一语言网页所对应第二语言网页的所述 翻译困惑度对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述困惑度计算模块通过以下公式计 算所述翻译困惑度:
1
Ρ = 2 ':1
其中, Ρ为所述翻译困惑度, X,·为所述第二语言网页中的第 ζ·个句子,
\ < ι≤Ι , /为所述第二语言网页中的句子数量, 为通过所述语言模 型计算获得的 X,·的出现概率。
根据本发明之一优选实施例, 所述语言模型为 n-gram语言模型。 根据本发明之一优选实施例, 所述排序单元包括:
调序次数统计模块, 用于统计所述第二语言网页在翻译过程中的调 序次数;
第二排序模块, 用于根据第一语言网页所对应第二语言网页的所述 调序次数对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述排序单元包括:
源语言语料获取模块, 用于获取翻译所述第二语言网页时使用的双 语语料库中的源语言语料;
聚类模块, 用于将所述源语言语料聚类成多个文档;
相似度计算模块, 用于计算所述第二语言网页与所述多个文档的最 大相似度;
第三排序模块, 用于根据第一语言网页所对应第二语言网页的所述 最大相似度对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述聚类模块从所述多个文档中获取 多个主题, 并计算每一所述文档属于每一所述主题的概率, 以形成多个 第一向量, 所述相似度计算模块计算所述第二语言网页属于每一所述主 题的概率, 以形成第二向量, 计算所述多个第一向量与所述第二向量的 相似度, 并选择所述相似度中最大的作为所述最大相似度。
根据本发明之一优选实施例, 所述相似度计算模块根据如下公式计 算所述最大相似度:
Figure imgf000008_0001
其中, H为所述最大相似度, 为第 "个主题, 1 < « < N , N为所述 主题的数量, ^为第 M个文档, \ < m≤M, M为所述文档的数量,;^„| ) 为 ^属于 的概率, 为所述第二语言网页, ^ Ι )为 属于 的概 率。
根据本发明之一优选实施例, 所述排序单元包括: 未登录词统计模块, 用于统计所述第二语言网页在翻译过程中包含 的未登录词的个数;
第四排序模块 , 用于根据第一语言网页所对应第二语言网页的所述 未登录词的个数对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述排序单元包括:
翻译评分计算模块, 用于计算所述第二语言网页所包含句子在翻译 过程中的平均翻译评分;
第五排序模块, 用于根据第一语言网页所对应第二语言网页的所述 平均翻译评分对所述多个第一语言网页进行排序。
根据本发明之一优选实施例, 所述排序单元包括:
规则使用次数统计模块, 用于统计所述第二语言网页在翻译过程中 的翻译规则使用次数;
第六排序模块, 用于才艮据第一语言网页所对应第二语言网页的所述翻 译规则使用次数对所述多个第一语言网页进行排序。
由以上技术方案可以看出, 本发明提供的跨语言搜索中的网页排序 方法及***根据翻译置信度对翻译后的搜索结果进行排序, 进而提高了 用户体验。 附图说明
图 1是本发明实施例的跨语言搜索中的网页排序方法的流程示意图; 图 2是图 1所示的跨语言搜索中的网页排序方法的排序过程的第一 实施方式的流程示意图;
图 3是图 1所示的跨语言搜索中的网页排序方法的排序过程的第二 实施方式的流程示意图;
图 4是图 1所示的跨语言搜索中的网页排序方法的排序过程的第三 实施方式的流程示意图;
图 5是图 1所示的跨语言搜索中的网页排序方法的排序过程的第四 实施方式的流程示意图;
图 6是图 1所示的跨语言搜索中的网页排序方法的排序过程的第五 实施方式的流程示意图;
图 7是图 1所示的跨语言搜索中的网页排序方法的排序过程的第六 实施方式的流程示意图;
图 8是本发明实施例的跨语言搜索中的网页排序***的示意框图; 图 9是图 8所示的跨语言搜索中的网页排序***的排序单元的第一 实施方式的示意框图;
图 10是图 8所示的跨语言搜索中的网页排序***的排序单元的第二 实施方式的示意框图;
图 1 1是图 8所示的跨语言搜索中的网页排序***的排序单元的第三 实施方式的示意框图;
图 12是图 8所示的跨语言搜索中的网页排序***的排序单元的第四 实施方式的示意框图;
图 13是图 8所示的跨语言搜索中的网页排序***的排序单元的第五 实施方式的示意框图;
图 14是图 8所示的跨语言搜索中的网页排序***的排序单元的第六 实施方式的示意框图。 具体实施方式
下面结合附图和实施例对本发明进行详细说明。
请参阅图 1 , 图 1是本发明实施例的跨语言搜索中的网页排序方法 的流程示意图。 在本实施例中, 该跨语言搜索中的网页排序方法主要包 括以下几个步骤:
在步骤 S101 中, 获取第一语言搜索请求。 在本步骤中, 用户可通过 在浏览器的搜索框内输入想要搜索的第一语言搜索请求(Query ) , 例如 中文的搜索请求, 并点击搜索按钮。 该第一语言搜索请求经互联网传输 至搜索引擎, 并被搜索引擎所获取。
在步骤 S102中, 将第一语言搜索请求翻译成第二语言搜索请求。 在 本步骤中, 可通过本领域公知的各种机器翻译手段将第一语言搜索请求 翻译成第二语言搜索请求, 例如, 在利用中文搜索英文网页时, 将中文 的搜索请求翻译成英文的搜索请求。 具体的机器翻译手段可包括基于单 词、 基于短语或句法的统计机器翻译等等。
在步骤 S103中, 利用第二语言搜索请求搜索多个第二语言网页。 在 本步骤中, 通过搜索引擎搜索与第二语言搜索请求相关的多个第二语言 网页, 例如英文网页。
在步骤 S104中, 将多个第二语言网页翻译成多个第一语言网页。 在 本步骤中, 可通过上文提到的各种机器翻译手段将第二语言网页中的网 页内容翻译成第一语言, 例如中文, 进而实现跨语言搜索。
在步骤 S105中,根据多个第二语言网页的翻译置信度对多个第一语 言网页进行排序。 在本步骤中, 在排序后的多个第一语言网页中, 翻译 置信度越高的第一语言网页的位置越靠前, 以将翻译质量好的网页结果 优先提供给用户, 进而提高用户体验。 在下文中将详细描述获得第二语 言网页的翻译置信度的多种实施方式, 本领域技术人员完全可以想到将 本领域公知的其他翻译置信度获取方法应用到步骤 S105。
请参阅图 2 , 图 2是图 1所示的跨语言搜索中的网页排序方法的排 序过程的第一实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S201 中,获取翻译第二语言网页时使用的双语语料库中的源 语言语料。在机器翻译过程中,一般都利用双语语料库来训练翻译模型。 该双语语料库包括多个双语例句对, 每一双语例句对包括源语言例句以 及与源语言例句对应的目标语言例句。 在第二语言网页的翻译过程中, 源语言为第二语言, 目标语言为第一语言。 双语语料库在机器翻译领域 中被普遍使用, 并可通过各种方式获得, 在此不再赘述。
在步骤 S202中, 利用源语言语料生成语言模型, 例如 n-gram语言 模型。
在步骤 S203中, 利用语言模型计算第二语言网页的翻译困惑度。 具 体来说, 对于由 L个词 组成一个句子, 通过语言模型可以计算 出该句子的出现概率:
L 1=1
其中, /^^!^^,…,!^^表示词^与前面的 n个词^ Ww搭配的出现 概率, "为一正整数。 例如, 在 2-gram语言模型中, " = 2 , 在 3 -gram 语言模型中 " = 3。
对于包含有 个句子的第二语言网页来说, 第二语言网页的翻译困 惑度可通过如下公式计算: i
P = 2 !:1
其中, 为第二语言网页的翻译困惑度, X为第二语言网页中的第 个句子, l≤t≤I , 为第二语言网页中的句子数量, ρ(χ, )为通过上述语 言模型计算获得的句子 X的出现概率。 在翻译过程中, 如果翻译困惑度 i
越高, 表示翻译复杂度越高, 其翻译置信度越低。
在步骤 S204中, 根据翻译困惑度对多个第一语言网页进行排序。 其 中, 在排序后的多个第一语言网页中, 翻译困惑度越高的第一语言网页 的位置越靠后。
请参阅图 3, 图 3是图 1所示的跨语言搜索中的网页排序方法的排 序过程的第二实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S301 中, 统计第二语言网页在翻译过程中的调序次数。 在翻 译过程中, 需要对源语言句子中的词或短语的翻译顺序进行调整, 这种 调整即为调序。 调序次数越多, 表示翻译复杂度越高, 其翻译置信度就 越低。
在步骤 S302中,根据调序次数对多个第一语言网页进行排序。其中, 在排序后的多个第一语言网页中, 调序次数越多的第一语言网页的位置 越靠后。
请参阅图 4 , 图 4是图 1所示的跨语言搜索中的网页排序方法的排 序过程的第三实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S401 中,获取翻译第二语言网页时使用的双语语料库中的源 语言语料。 在步骤 S402中, 将源语言语料聚类成多个文档。 具体来说, 利用聚 类算法对源语言语料中的句子进行聚类, 然后把每个类的句子集合到一 个文档 ,进而形成多个文档。 随后 , 利用概率潜在语义分析( Probabilistic Latent Semantic Analysis, PLSA )或其他算法从该多个文档中获取多个主 题, 并计算每一文档属于每一主题的概率, 以形成多个第一向量:
Vec{dm ) = (ρ(ί, I dm \ p{t2 I dm\...p{tn | dm …處 | d ) , 其中, 为第 "个主题, i≤"≤w , w为主题的数量, ^为第 /„个 文档 , \≤m≤M , Μ为文档的数量, p(tn I dm)为文档 d m属于主题 的概率。
在步骤 S403中, 计算第二语言网页与多个文档的最大相似度。 具体 来说, 计算第二语言网页属于每一主题的概率, 以形成第二向量:
Figure imgf000014_0001
其中, 为第二语言网页, ^(„Κ)为第二语言网页 ^属于主题 的 概率。
随后, 计算多个第一向量与第二向量的相似度, 并选择相似度中最 大的作为最大相似度。 具体相似度计算公式可以是:
Figure imgf000014_0002
其中, H为最大相似度。 最大相似度越高, 代表翻译质量越高, 表 示翻译置信度就越高。
在步骤 S404中, 根据最大相似度 对多个第一语言网页进行排序。 其中, 在排序后的多个第一语言网页中, 最大相似度越高的第一语言网 页的位置越靠前。
请参阅图 5 , 图 5是图 1所示的跨语言搜索中的网页排序方法的排 序过程的第四实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S501 中,统计第二语言网页在翻译过程中包含的未登录词的 个数。 未登录词是指没有被收录在源语言语料中的词, 包括各类专有名 词 (人名、 地名、 机构名等) 、 缩写词、 新增词汇等等。 在机器翻译过 程中, 未登录词越多, 代表翻译质量越差, 其翻译置信度就越低。
在步骤 S502中,根据未登录词的个数对多个第一语言网页进行排序。 其中, 在排序后的多个第一语言网页中, 未登录词的个数越多的第一语 言网页的位置越靠后。
请参阅图 6 , 图 6是图 1所示的跨语言搜索中的网页排序方法的排 序过程的笫五实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S601 中, 计算第二语言网页在翻译过程中的平均翻译评分。 具体来说, 根据如下公式计算第二语言网页的平均翻译评分:
A = 2^ score k IK 其中, ^为第二语言网页的平均翻译评分, 为第二语言网页中 的第 A;个句子的翻译评分, ik≤K , f为第二语言网页中的句子数量。 在本步骤中, 可通过本领域公知的翻译评价方法来确定每个句子的翻译 评分,例如归一化的句子翻译概率等自动评价方法。平均翻译评分越高, 代表翻译质量越高, 表示翻译置信度就越高。
在步骤 S602中, 根据平均翻译评分对多个第一语言网页进行排序。 其中, 在排序后的多个第一语言网页中, 平均翻译评分越高的第一语言 网页的位置越靠前。 请参阅图 7 , 图 7是图 1所示的跨语言搜索中的网页排序方法的排 序过程的第六实施方式的流程示意图。 本实施方式主要包括以下几个步 骤:
在步骤 S701 中, 统计第二语言网页在翻译过程中的规则使用次数。 在机器翻译领域中往往会制定一定的翻译规则, 例如针对特定短语的翻 译规则。在机器翻译过程中,使用规则的次数越多,代表翻译质量越差, 其翻译置信度就越低。
在步骤 S702中, 根据规则使用次数对多个第一语言网页进行排序。 其中, 在排序后的多个第一语言网页中, 规则使用次数越多的第一语言 网页的位置越靠后。
上述第一至第四实施方式是从第二语言网页的源语言端获取表示翻 译置信度的特征, 第五至第六实施例是从第二语言网页的翻译模型或翻 译结果获取表示翻译置信度的特征。 当然, 本领域技术人员完全可以通 过其他方式获取表示翻译置信度的其他特征。
进一步, 本领域技术人员阅读上述内容后完全可以想到将上文描述 的表示翻译置信度的各种特征进行结合, 例如使用回归学习 (regression learning )方法将包括上述多个特征的特征向量映射成一个实数, 进而形 成一个综合上述特征的翻译置信度。 上述过程可使用公知的工具实现, 例如, SVM-light工具。
此外, 在获得翻译置信度后, 还可以把翻译置信度作为一个特征与 本领 i或公 口的其他 4非序方法进行结合, 例 ¾口 learning to rank或 PageRank 方法。
请参阅图 8 , 图 8是本发明实施例的跨语言搜索中的网页排序*** 的示意框图。 在本实施例中, 该跨语言搜索中的网页排序***主要包括 搜索请求获取单元 801、 第一翻译单元 802、 搜索单元 803、 第二翻译单 元 804以及排序单元 805。
搜索请求获取单元 801用于获取第一语言搜索请求。 用户可通过在 浏览器的搜索框内输入想要搜索的第一语言搜索请求(Query ), 例如中 文的搜索请求, 并点击搜索按钮。 该第一语言搜索请求经互联网传输至 搜索请求获取单元 801 , 并被搜索请求获取单元 801所获取。
第一翻译单元 802用于将第一语言搜索请求翻译成第二语言搜索请 求。 第一翻译单元 802可通过本领域公知的各种机器翻译手段将第一语 言搜索请求翻译成第二语言搜索请求, 例如, 在利用中文搜索英文网页 时, 将中文的搜索请求翻译成英文的搜索请求。 具体的机器翻译手段可 包括基于单词、 基于短语或句法的统计机器翻译等等。
搜索单元 803用于利用第二语言搜索请求搜索多个第二语言网页。 搜索单元 803通过本领域公知的各种搜索引擎技术搜索与第二语言搜索 请求相关的多个第二语言网页, 例如英文网页。
第二翻译单元 804用于将多个第二语言网页翻译成多个第一语言网 页。 第二翻译单元 804可通过上文提到的各种机器翻译手段将第二语言 网页中的网页内容翻译成笫一语言, 例如中文, 进而实现跨语言搜索。 在本实施方式中, 第一翻译单元 802和第二翻译单元 804可由同一翻译 单元或不同的翻译单元实现。
排序单元 805用于根据多个第二语言网页的翻译置信度对多个第一 语言网页进行排序。 在经排序单元 805排序后的多个第一语言网页中, 翻译置信度越高的第一语言网页的位置越靠前, 以将翻译质量好的网页 结果优先提供给用户, 进而提高用户体验。 在下文中将详细描述获得第 二语言网页的翻译置信度的多种实施方式, 本领域技术人员完全可以想 到将本领域公知的其他翻译置信度获取方法应用到排序单元 805
请参阅图 9 , 图 9是图 8所示的跨语言搜索中的网页排序***的排 序单元 805的第一实施方式的示意框图。 本实施方式的排序单元 805主 要包括源语言语料获取模块 901、语言模型生成模块 902、 困惑度计算模 块 903以及排序模块 904
源语言语料获取模块 901用于获取翻译第二语言网页时使用的双语 语料库中的源语言语料。 在机器翻译过程中, 一般都利用双语语料库来 训练翻译模型。 该双语语料库包括多个双语例句对, 每一双语例句对包 括源语言例句以及与源语言例句对应的目标语言例句。 在第二语言网页 的翻译过程中, 源语言为第二语言, 目标语言为第一语言。 双语语料库 在机器翻译领域中被普遍使用,并可通过各种方式获得,在此不再赘述。
语言模型生成模块 902用于利用源语言语料生成语言模型, 例如 n-gram语言模型。
困惑度计算模块 903用于利用语言模型计算第二语言网页的翻译困 惑度。 具体来说, 对于由 L个词 ^,^,…,^组成一个句子 XI , 通过语言模 型可以计算出该句子的出现概率:
L
p(xi ) = p(w w2 ,...,wL ) = Y[ p(wl \ wl_n ,...,wl_{ )
1
其中, Ρ ^ Ι ^-^Ί)表示词 w'与前面的 n个词1 ^"••Ί 1搭配的出现 概率, "为一正整数。 例如, 在 2-gram语言模型中, " = 2 , 在 3-gram 语言模型中 " = 3
对于包含有 个句子的第二语言网页来说, 第二语言网页的翻译困 惑度可通过如下公式计算:
Figure imgf000019_0001
其中, i3为第二语言网页的翻译困惑度, xi为第二语言网页中的第 i 个句子, 1≤ ≤/ , /为第二语言网页中的句子数量, ^')为通过上述语 言模型计算获得的句子 xi的出现概率。 在翻译过程中, 如果翻译困惑度 越高, 表示翻译复杂度越高, 其翻译置信度越低。 排序模块 904用于根据翻译困惑度对多个第一语言网页进行排序。 其中, 在经排序模块 904排序后的多个第一语言网页中, 翻译困惑度越 高的第一语言网页的位置越靠后。 请参阅图 10 , 图 10是图 8所示的跨语言搜索中的网页排序***的 排序单元 805的第二实施方式的示意框图。 本实施方式的排序单元 805 主要包括调序次数统计模块 1001以及排序模块 1002。 调序次数统计模块 1001用于统计第二语言网页在翻译过程中的调 序次数。 在翻译过程中, 需要对源语言句子中的词或短语的翻译顺序进 行调整, 这种调整即为调序。 调序次数越多, 表示翻译复杂度越高, 其 翻译置信度就越低。 排序模块 1002用于根据调序次数对多个第一语言网页进行排序。其 中, 在经排序模块 1002排序后的多个第一语言网页中, 调序次数越多的 第一语言网页的位置越靠后。 请参阅图 11 , 图 11是图 8所示的跨语言搜索中的网页排序***的 排序单元 805的第三实施方式的示意框图。 本实施方式的排序单元 805 主要包括源语言语料获取模块 1 101、 聚类模块 1 102、 相似度计算模块 1103以及排序模块 1 104。 源语言语料获取模块 1101用于获取翻译第二语言网页时使用的双 语语料库中的源语言语料。
聚类模块 1102用于将源语言语料聚类成多个文档。 具体来说, 聚类 模块 1102利用聚类算法对源语言语料中的句子进行聚类,然后把每个类 的句子集合到一个文档, 进而形成多个文档。 随后, 聚类模块 1102利用 概率潜在语义分析 ( Probabilistic Latent Semantic Analysis, PLSA ) 或其 他算法从该多个文档中获取多个主题, 并计算每一文档属于每一主题的 概率, 以形成多个第一向量:
Vec{dm) = (pit, I dm),p(t2 I
Figure imgf000020_0001
| dm),...,p(tN | d ) , 其中, 为第 "个主题, i≤"≤w, w为主题的数量, ^为第 w个 文档 , l≤m≤M ,Μ为文档的数量, p{tn I d 为文档 d m属于主题 的概率。
相似度计算模块 1103计算第二语言网页与多个文档的最大相似度。 具体来说,相似度计算模块 1103计算第二语言网页属于每一主题的概率, 以形成第二向量:
KeC( ) = (^! | ), (ί2 ! ),·· Ι^ ···, ^ 1 ))
其中, 为第二语言网页, „κ)为第二语言网页 ^属于主题 的 概率。
随后,相似度计算模块 1103计算多个第一向量与第二向量的相似度, 并选择相似度中最大的作为最大相似度。 具体相似度计算公式可以是:
Figure imgf000020_0002
其中, H为最大相似度。 最大相似度越高, 代表翻译质量越高, 表 示翻译置信度就越高。 排序模块 1104用于根据最大相似度 对多个第一语言网页进行排 序。 其中, 在经排序模块 1 104排序后的多个第一语言网页中, 最大相似 度越高的第一语言网页的位置越靠前。
请参阅图 12 , 图 12是图 8所示的跨语言搜索中的网页排序***的 排序单元 805的第四实施方式的示意框图。 本实施方式的排序单元 805 主要包括未登录词统计模块 1201以及排序模块 1202。
未登录词统计模块 1201用于统计第二语言网页在翻译过程中包含 的未登录词的个数。 未登录词是指没有被收录在源语言语料中的词, 包 括各类专有名词 (人名、 地名、 机构名等) 、 缩写词、 新增词汇等等。 在机器翻译过程中, 未登录词越多, 代表翻译质量越差, 其翻译置信度 就越低。
排序模块 1202用于根据未登录词的个数对多个第一语言网页进行 排序。 其中, 在经排序模块 1202排序后的多个第一语言网页中, 未登录 词的个数越多的第一语言网页的位置越靠后。
请参阅图 13, 图 13是图 8所示的跨语言搜索中的网页排序***的 排序单元 805的第五实施方式的示意框图。 本实施方式的排序单元 805 主要包括翻译评分计算模块 1301以及排序模块 1302。
翻译评分计算模块 1301用于计算第二语言网页在翻译过程中的平 均翻译评分。 具体来说, 翻译评分计算模块 1301根据如下公式计算第二 语言网页的平均翻译评分:
A = ^ score k IK 其中, ^为第二语言网页的平均翻译评分, 为第二语言网页中 的第 个句子的翻译评分, i≤k≤i , :为第二语言网页中的句子数量。 翻译评分计算模块 1301可通过本领域公知的翻译评价方法来确定每个 句子的翻译评分, 例如归一化的句子翻译概率等自动评价方法。 平均翻 译评分越高, 代表翻译质量越高, 表示翻译置信度就越高。
排序模块 1302用于根据平均翻译评分对多个第一语言网页进行排 序。 其中, 在经排序模块 1302排序后的多个第一语言网页中, 平均翻译 评分越高的第一语言网页的位置越靠前。
请参阅图 14 , 图 14是图 8所示的跨语言搜索中的网页排序***的 排序单元 805的第六实施方式的示意框图。 本实施方式的排序单元 805 主要包括规则使用次数统计模块 1401以及排序模块 1402。
规则使用次数统计模块 1401用于统计第二语言网页在翻译过程中 的规则使用次数。 在机器翻译领域中往往会制定一定的翻译规则, 例如 针对特定短语的翻译规则。 在机器翻译过程中, 使用规则的次数越多, 代表翻译质量越差, 其翻译置信度就越低。
排序模块 1402用于根据规则使用次数对多个第一语言网页进行排 序。 其中, 在经排序模块 1402排序后的多个第一语言网页中, 规则使用 次数越多的第一语言网页的位置越靠后。
上述第一至第四实施方式是从第二语言网页的源语言端获取表示翻 译置信度的特征, 第五至第六实施例是从第二语言网页的翻译模型或翻 译结果获取表示翻译置信度的特征。 当然, 本领域技术人员完全可以通 过其他方式获取表示翻译置信度的其他特征。
进一步, 本领域技术人员阅读上述内容后完全可以想到将上文描述 的表示翻译置信度的各种特征进行结合, 例如使用回归学习 (regression learning )方法将包括上述多个特征的特征向量映射成一个实数, 进而形 成一个综合上述特征的翻译置信度。 上述过程可使用公知的工具实现, 例如, SVM-light工具。
此外, 在获得翻译置信度后, 还可以把翻译置信度作为一个特征与 本领域公知的其他排序方法进行结合, 例如 learning to rank或 PageRank 方法。
由以上技术方案可以看出, 本发明提供的跨语言搜索中的网页排序 方法及***根据翻译置信度对翻译后的搜索结果进行排序, 进而提高了 用户体验。
在上述实施例中, 仅对本发明进行了示范性描述, 但是本领域技术 人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对 本发明进行各种修改。

Claims

权 利 要 求 书
1、 一种跨语言搜索中的网页排序方法, 其特征在于, 所述跨语言搜 索中的网页排序方法包括:
a. 获取第一语言搜索请求;
b. 将所述第一语言搜索请求翻译成第二语言搜索请求;
c 利用所述第二语言搜索请求搜索得到多个第二语言网页;
d. 将所述多个第二语言网页翻译成多个第一语言网页;
e. 根据所述多个第二语言网页的翻译置信度对所述多个第一语言 网页进行排序。
2、如权利要求 1所述的跨语言搜索中的网页排序方法,其特征在于, 在所述步骤 e中, 在排序后的所述多个第一语言网页中, 所述翻译置信 度越高的所述第一语言网页的位置越靠前。
3、如权利要求 1所述的跨语言搜索中的网页排序方法,其特征在于, 所述步骤 e包括:
el l . 利用语言模型计算所述第二语言网页的翻译困惑度;
el2. 根据第一语言网页所对应第二语言网页的所述翻译困惑度对 所述多个第一语言网页进行排序;
其中所述语言模型是利用翻译所述第二语言网页时使用的双语语料 库中的源语言语料生成的。
4、如权利要求 3所述的跨语言搜索中的网页排序方法,其特征在于, 在所述步骤 el l中, 通过以下公式计算所述翻译困惑度:
1
Ρ = 2 :1
其中, Ρ为所述翻译困惑度, JC,为所述第二语言网页中的第 个句子, \ < ι < 1 , /为所述第二语言网页中的句子数量, Ρ( )为通过所述语言模 型计算获得的 Χ!的出现概率。
5、如权利要求 4所述的跨语言搜索中的网页排序方法,其特征在于, 所述语言模型为 n-gram语言模型。
6、如权利要求 1所述的跨语言搜索中的网页排序方法,其特征在于, 所述步骤 e包括:
e21. 统计所述第二语言网页在翻译过程中的调序次数;
e22. 根据第一语言网页所对应第二语言网页的所述调序次数对所 述多个第一语言网页进行排序。
7、 如权利要求 1所述的跨语言搜索方法, 其特征在于, 所述步骤 e 包括:
e31. 分别计算各第二语言网页与利用翻译所述第二语言网页时使 用的双语语料库中的源语言语料进行聚类得到的多个文档的最大相似度; e32. 根据第一语言网页所对应第二语言网页的所述最大相似度对 所述多个第一语言网页进行排序。
8、如权利要求 7所述的跨语言搜索中的网页排序方法,其特征在于, 在步骤 e31中, 从所述多个文档中获取多个主题, 并计算每一所述文档 属于每一所述主题的概率, 以形成多个第一向量; 计算所述第二语言网 页属于每一所述主题的概率, 以形成第二向量, 计算所述多个第一向量 与所述第二向量的相似度, 并选择所述相似度中最大的作为所述最大相 似度。
9、如权利要求 8所述的跨语言搜索中的网页排序方法,其特征在于, 在步骤 e31中, 根据如下公式计算所述最大相似度:
Figure imgf000026_0001
其中, H为所述最大相似度, 为第 "个主题, l≤w≤N, N为所述 主题的数量, ^为第 个文档, \ < m≤M, Λ 为所述文档的数量, („ μ„) 为 d m属于 的概率, 为所述第二语言网页, ρ(„ | )为 d s属于 的概 率。
10、 如权利要求 1所述的跨语言搜索中的网页排序方法, 其特征在 于, 所述步骤 e包括:
e 41. 统计所述第二语言网页在翻译过程中包含的未登录词的个数; e42. 根据第一语言网页所对应第二语言网页的所述未登录词的个 数对所述多个第一语言网页进行排序。
11、 如权利要求 1所述的跨语言搜索方法, 其特征在于, 所述步骤 e包括:
e51. 计算所述第二语言网页所包含句子在翻译过程中的平均翻译 评分;
e52. 根据第一语言网页所对应第二语言网页的所述平均翻译评分 对所述多个第一语言网页进行排序。
12、 如权利要求 1所述的跨语言搜索中的网页排序方法, 其特征在 于, 所述步骤 e包括:
e61. 统计所述第二语言网页在翻译过程中的翻译规则使用次数; e62. 根据第一语言网页所对应第二语言网页的所述翻译规则使用 次数对所述多个第一语言网页进行排序。
13、 一种跨语言搜索中的网页排序***, 其特征在于, 所述跨语言 搜索中的网页排序***包括:
搜索请求获取单元, 用于获取第一语言搜索请求;
第一翻译单元, 用于将所述第一语言搜索请求翻译成第二语言搜索 请求;
搜索单元, 用于利用所述第二语言搜索请求搜索得到多个第二语言 网页;
第二翻译单元, 用于将所述多个第二语言网页翻译成多个第一语言 网页;
排序单元, 用于根据所述多个第二语言网页的翻译置信度对所述多 个第一语言网页进行排序。
14、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 在经所述排序单元排序后的所述多个第一语言网页中, 所述翻译置 信度越高的所述第一语言网页的位置越靠前。
15、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
源语言语料获取模块, 用于获取翻译所述第二语言网页时使用的双 语语料库中的源语言语料;
语言模型生成模块, 用于利用所述源语言语料生成语言模型; 困惑度计算模块, 用于利用所述语言模型计算所述第二语言网页的 翻译困惑度;
第一排序模块, 用于根据第一语言网页所对应第二语言网页的所述 翻译困惑度对所述多个第一语言网页进行排序。
16、 如权利要求 15所述的跨语言搜索中的网页排序***, 其特征在 于, 所述困惑度计算模块通过以下公式计算所述翻译困惑度:
I
Figure imgf000028_0001
其中, Ρ为所述翻译困惑度, X,·为所述第二语言网页中的第 ζ·个句子,
\ < ι≤ι , /为所述第二语言网页中的句子数量, P )为通过所述语言模 型计算获得的 Xi的出现概率。
17、 如权利要求 16所述的跨语言搜索中的网页排序***, 其特征在 于, 所述语言模型为 n-gram语言模型。
18、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
调序次数统计模块, 用于统计所述第二语言网页在翻译过程中的调 序次数;
第二排序模块 , 用于根据第一语言网页所对应第二语言网页的所述 调序次数对所述多个第一语言网页进行排序。
19、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
源语言语料获取模块, 用于获取翻译所述第二语言网页时使用的双 语语料库中的源语言语料;
聚类模块, 用于将所述源语言语料聚类成多个文档;
相似度计算模块, 用于计算所述第二语言网页与所述多个文档的最 大相似度;
第三排序模块, 用于根据第一语言网页所对应第二语言网页的所述 最大相似度对所述多个第一语言网页进行排序。
20、 如权利要求 19所述的跨语言搜索中的网页排序***, 其特征在 于, 所述聚类模块从所述多个文档中获取多个主题, 并计算每一所述文 档属于每一所述主题的概率, 以形成多个第一向量, 所述相似度计算模 块计算所述第二语言网页属于每一所述主题的概率, 以形成第二向量, 计算所述多个第一向量与所述第二向量的相似度, 并选择所述相似度中 最大的作为所述最大相似度。
21、 如权利要求 20所述的跨语言搜索中的网页排序***, 其特征在 于, 所述相似度计算模块根据如下公式计算所述最大相似度:
#
Figure imgf000029_0001
其中, H为所述最大相似度, 为第 "个主题, \ < n≤N , N为所述 主题的数量, ^为第 w个文档, \ < m≤M , M为所述文档的数量, | ) 为 ^属于 的概率, 为所述第二语言网页, /^„| )为 属于 的概 率。
22、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
未登录词统计模块, 用于统计所述第二语言网页在翻译过程中包含 的未登录词的个数;
第四排序模块, 用于根据第一语言网页所对应第二语言网页的所述 未登录词的个数对所述多个第一语言网页进行排序。
23、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
翻译评分计算模块, 用于计算所述第二语言网页所包含句子在翻译 过程中的平均翻译评分; 第五排序模块, 用于根据第一语言网页所对应第二语言网页的所述 平均翻译评分对所述多个第一语言网页进行排序。
24、 如权利要求 13所述的跨语言搜索中的网页排序***, 其特征在 于, 所述排序单元包括:
规则使用次数统计模块, 用于统计所述第二语言网页在翻译过程中 的翻译规则使用次数;
第六排序模块, 用于根据第一语言网页所对应第二语言网页的所述 翻译规则使用次数对所述多个第一语言网页进行排序。
PCT/CN2011/083411 2011-03-02 2011-12-03 一种跨语言搜索中的网页排序方法和*** WO2012116561A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2011100498831A CN102654867B (zh) 2011-03-02 2011-03-02 一种跨语言搜索中的网页排序方法和***
CN201110049883.1 2011-03-02

Publications (1)

Publication Number Publication Date
WO2012116561A1 true WO2012116561A1 (zh) 2012-09-07

Family

ID=46730493

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/083411 WO2012116561A1 (zh) 2011-03-02 2011-12-03 一种跨语言搜索中的网页排序方法和***

Country Status (2)

Country Link
CN (1) CN102654867B (zh)
WO (1) WO2012116561A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930208A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 对象搜索方法及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070303B2 (en) * 2012-06-01 2015-06-30 Microsoft Technology Licensing, Llc Language learning opportunities and general search engines
CN102955853B (zh) * 2012-11-02 2019-05-28 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
CN104573019B (zh) * 2015-01-12 2019-04-02 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104850545A (zh) * 2015-04-29 2015-08-19 均康(上海)信息科技有限公司 一种进行网络资源翻译的在线协作***及方法
CN104850610A (zh) * 2015-05-11 2015-08-19 均康(上海)信息科技有限公司 一种网络搜索引擎***
CN105095512A (zh) * 2015-09-09 2015-11-25 四川省科技交流中心 基于桥梁语的跨语种专用数据检索***及方法
CN107273372A (zh) * 2016-04-06 2017-10-20 北京搜狗科技发展有限公司 一种搜索方法、装置和设备
CN107798386B (zh) * 2016-09-01 2022-02-15 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN106919642B (zh) * 2017-01-13 2021-04-16 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN111444730A (zh) * 2020-03-27 2020-07-24 新疆大学 基于Transformer模型的数据增强维汉机器翻译***训练方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271461A (zh) * 2007-03-19 2008-09-24 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和***
CN101743544A (zh) * 2007-05-16 2010-06-16 谷歌公司 跨语言信息检索
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271461A (zh) * 2007-03-19 2008-09-24 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和***
CN101743544A (zh) * 2007-05-16 2010-06-16 谷歌公司 跨语言信息检索
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索
CN101763402A (zh) * 2009-12-30 2010-06-30 哈尔滨工业大学 多语言信息检索一体化检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930208A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 对象搜索方法及装置
CN110930208B (zh) * 2018-09-19 2023-05-05 阿里巴巴集团控股有限公司 对象搜索方法及装置

Also Published As

Publication number Publication date
CN102654867A (zh) 2012-09-05
CN102654867B (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
WO2012116561A1 (zh) 一种跨语言搜索中的网页排序方法和***
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
Ahn et al. Using Wikipedia at the TREC QA Track.
US7917488B2 (en) Cross-lingual search re-ranking
US8977624B2 (en) Enhancing search-result relevance ranking using uniform resource locators for queries containing non-encoding characters
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
WO2012116562A1 (zh) 一种跨语言搜索的方法和装置
KR20160007040A (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
Gao et al. Learning semantic representations for the phrase translation model
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
Yarmohammadi et al. Robust document representations for cross-lingual information retrieval in low-resource settings
CN111194457A (zh) 专利评估判定方法、专利评估判定装置以及专利评估判定程序
CN102799586B (zh) 一种用于搜索结果排序的转义度确定方法和装置
Galuščáková et al. Cross-language information retrieval
Nair et al. Combining contextualized and non-contextualized query translations to improve CLIR
Liu et al. Chinese-Portuguese machine translation: a study on building parallel corpora from comparable texts
Cuong et al. Latent domain phrase-based models for adaptation
Li et al. Computational linguistics literature and citations oriented citation linkage, classification and summarization
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
Billerbeck Efficient query expansion
Agirre et al. Stanford-UBC at TAC-KBP.
Saleh et al. CUNI team: CLEF eHealth Consumer Health Search Task 2018.
StefanKazalski et al. Saarland university spoken language systems at the slot filling task of tac kbp 2010
Shen et al. Topic aspect analysis for multi-document summarization
Abderrahim et al. Arabic word sense disambiguation with conceptual density for information retrieval

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11859932

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11859932

Country of ref document: EP

Kind code of ref document: A1