WO2014029173A1 - 一种用于对搜索结果进行排序的方法、装置与设备 - Google Patents

一种用于对搜索结果进行排序的方法、装置与设备 Download PDF

Info

Publication number
WO2014029173A1
WO2014029173A1 PCT/CN2012/085464 CN2012085464W WO2014029173A1 WO 2014029173 A1 WO2014029173 A1 WO 2014029173A1 CN 2012085464 W CN2012085464 W CN 2012085464W WO 2014029173 A1 WO2014029173 A1 WO 2014029173A1
Authority
WO
WIPO (PCT)
Prior art keywords
page
type
search result
information
search results
Prior art date
Application number
PCT/CN2012/085464
Other languages
English (en)
French (fr)
Inventor
林冠辰
Original Assignee
百度在线网络技术(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 百度在线网络技术(北京)有限公司 filed Critical 百度在线网络技术(北京)有限公司
Priority to US14/412,372 priority Critical patent/US20150234827A1/en
Publication of WO2014029173A1 publication Critical patent/WO2014029173A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Definitions

  • the present invention relates to the field of search result ranking techniques, and more particularly to a method, apparatus and apparatus for sorting search results. Background technique
  • the mobile terminal generally presents to the user a plurality of search result items that are obtained and sorted by the search engine based on the query sequence and provided to the mobile terminal according to the query sequence input by the user.
  • a method for ordering search results comprising the steps of:
  • the method further includes:
  • each of the at least one search result points to a first type of page and a second type of page having a page correspondence relationship, wherein the second type of page is a page suitable for display on a mobile terminal;
  • a sorting apparatus for sorting search results comprising:
  • a search result obtaining device configured to perform a matching query according to a query sequence from the mobile terminal, obtain a plurality of search results that match the query sequence, and relevance information of the query sequence and the plurality of search results;
  • the sorting device further includes:
  • a search result determining device configured to determine at least one of the plurality of search results, wherein each of the at least one search result points to a first type of page and a second type of page having a page correspondence relationship,
  • the second type of page is a page suitable for display on a mobile terminal;
  • the adjustment information determining means is configured to determine, according to the feature degree of the second type of page pointed to by each of the at least one search result, the sorting adjustment information corresponding to the at least one search result respectively;
  • a first sorting device configured to sort the plurality of search results according to the relevance information of the query sequence and the plurality of search results and the sorting adjustment information respectively corresponding to the at least one search result, To get multiple search results after sorting.
  • the present invention has the following advantages: the plurality of search results are performed according to the ranking adjustment information corresponding to each search result and the query sequence relevance information and the at least one search result having the page correspondence relationship respectively. Sorting processing so that the ranking of multiple search results is not only related to the degree of matching of the query sequence entered by the user, but also The sorting manner is also associated with whether the search result page is suitable for presentation on the mobile terminal, realizing a search result corresponding to the second type of page with higher page quality suitable for presentation on the mobile terminal and suitable for the mobile terminal.
  • the search results of the second type of page with higher page similarity information presented on the first type of page can be ranked higher in the search result page, and the user can click and sort in the visual area where the information is most easily available. With a higher number of search results, a search result webpage suitable for browsing on the mobile terminal can be obtained, thereby improving the browsing experience of the user.
  • FIG. 1 shows a schematic structural diagram of a sorting apparatus for sorting search results according to an aspect of the present invention
  • FIG. 2 is a block diagram showing the structure of a sorting apparatus for determining page similarity information of a first type of page and a second type of page pointed by each of the search results according to a preferred embodiment of the present invention
  • FIG. 3 shows a flowchart of a method for sorting search results in accordance with another aspect of the present invention
  • FIG. 4 is a flow chart showing a method for determining page similarity information of a first type of page and a second type of page pointed by each of the search results, in accordance with a preferred embodiment of the present invention.
  • FIG. 1 is a block diagram showing the structure of a sorting apparatus for sorting search results according to an aspect of the present invention.
  • the sorting apparatus of the present embodiment is included in the network device; the sorting means includes the search result obtaining means 1, the search result determining means 2, the adjustment information determining means 3, and the first sorting means 4.
  • the network device includes but is not limited to a single network server, multiple network server groups A server group or a Cloud Computing-based cloud consisting of a large number of computers or network servers, where cloud computing is a type of distributed computing, a super-virtual computer composed of a group of loosely coupled computers.
  • the search result obtaining means 1 performs a matching query based on the query sequence from the mobile terminal, and acquires a plurality of search results matching the query sequence and relevance information of the query sequence and the plurality of search results.
  • the mobile terminal includes, but is not limited to, any mobile electronic product capable of interacting with a user through a keyboard, a touch screen or the like, such as a mobile phone, a PDA, a palmtop computer (PPC), a game console (PSP), etc., which is applicable to the present invention.
  • the network device and the mobile terminal each include an electronic device capable of automatically performing numerical calculation and information processing according to an instruction set or stored in advance, and the hardware thereof may include but is not limited to a microprocessor and an application specific integrated circuit ( ASIC), programmable gate array (FPGA), digital processor (DSP), embedded devices, etc.
  • ASIC application specific integrated circuit
  • FPGA programmable gate array
  • DSP digital processor
  • the communication between the mobile terminal and the network device may be implemented by any communication means, including but not limited to, mobile communication based on 3GPP, LTE, WIMAX, computer network communication based on TCP/IP, UDP protocol, and based on Bluetooth, infrared transmission standard short-range wireless transmission.
  • the network connected between the mobile terminal and the network device includes, but is not limited to, the Internet, a wide area network, a metropolitan area network, a local area network, a VPN network, a wireless ad hoc network (Ad Hoc network), and the like.
  • the search result obtaining means 1 performs a matching query based on the query sequence input by the user from the mobile terminal, and performs a search based on the received query sequence.
  • the search process is as follows:
  • the query sequence includes one or more keywords, and preferably includes related words between the keywords, and the search result obtaining means 1 extracts the keywords, preferably, also extracts the related words, and Performing a matching query according to the keyword or the keyword and the related word in the network index library to obtain a plurality of search results, wherein the relevance information of each search result and the query sequence may be determined according to various search algorithms, for example, according to a traditional Click rate algorithm to determine the relevance information, according to Google's "PageRank" search algorithm (see beauty US Patent No.
  • the search result obtaining means 1 obtains each search based on the above search algorithm.
  • the result is the relevance information to the query sequence.
  • the correlation information refers to a matching degree score between the search result and the query sequence determined by a basic search algorithm such as "PageRank” or "Super Chain”.
  • the search result determining means 2 determines at least one of the plurality of search results that have been acquired, wherein each of the at least one search result points to a first type of page and a second type of page having a page correspondence relationship, wherein The second type of page is a page suitable for display on a mobile terminal.
  • the first type of page means a page suitable for display on a computer device, for example, a WEB page, that is, a file based on HTML, XML, XHTML, etc. on the World Wide Web, when the user performs information inquiry through the World Wide Web.
  • a WEB page that is, a file based on HTML, XML, XHTML, etc. on the World Wide Web, when the user performs information inquiry through the World Wide Web.
  • an information page it can include information such as graphics, text, sound, and video.
  • the second type of page means a page suitable for display on a mobile terminal, for example, a WAP page, that is, a file based on a wireless markup language (WML), which can be accessed by the mobile terminal based on a wireless application protocol (WAP).
  • WML wireless markup language
  • WAP wireless application protocol
  • the file is suitable for display on a mobile terminal with a small screen.
  • the manner in which the search result determining apparatus 2 determines at least one of the plurality of search results includes, but is not limited to:
  • the search result determining device 2 sets the link information of each search result at Performing a matching query in the predetermined page correspondence list to determine whether each search result points to the first type of page and the second type of page having the page correspondence relationship; wherein the page corresponding list includes the first point corresponding to the page correspondence relationship
  • the plurality of search result link information of the class page and the second type of page preferably, whether the plurality of search results point to the first type of page and the second type of page having the page correspondence relationship can be pre-paired in the massive internet by the network device The page is mined to determine.
  • the search result determining apparatus 2 includes a label extracting apparatus (not shown), and the label extracting apparatus determines the plurality of labels by extracting predetermined labels in the markup language files of the first type of pages respectively corresponding to the plurality of search results. At least one search result having a page correspondence in the search results.
  • the label extracting device extracts a predetermined label in the markup language file of the first type of page corresponding to the plurality of search results respectively; and then, by reading the predetermined attribute information in the predetermined label, determining that the plurality of search results have the page corresponding At least one search result of the relationship.
  • the markup language file includes but is not limited to: 1) HTML (Hypertext Markup Language) file; 2) XML (Extensible Markup Language) file; 3) XHTML (Extensible Hypertext Markup Language) file; 4) XAML (Extensible Application Markup Language) files, etc.
  • the first type of page corresponding to a search result such as the HTML file of the WEB page, is:
  • each of the at least one search result points to a first type of page and a second type of page having a page correspondence, wherein the second type of page is adapted to be on the mobile terminal The page that is displayed.
  • the adjustment information determining means 3 determines the sorting adjustment information corresponding to the at least one search result, respectively, based on the feature degrees of the second type of pages pointed to by each of the at least one search result.
  • the feature degree of the second type of page includes at least one of the following:
  • the manner in which the adjustment information determining means 3 determines the sorting adjustment information of each search result includes, but is not limited to:
  • the adjustment information base includes but is not limited to a relational database, a Key-Value storage system, or File system And so on.
  • the at least one search result is Al, A2, and the adjustment information determining device 3 performs a matching query in the preset feature degree database according to the link information of A1 and A2 to obtain the pre-stored WAP pointed to by A1 and A2 respectively.
  • the page quality score of the page is (3 ⁇ 4 ⁇ and Q A2 , and the scores of the page similarity information of the WAP page and the WEB page pointed to by A1 and A2 respectively are S A1 and S A2 .
  • the page quality of the second type of page respectively pointed by the at least one search result is determined according to at least one of the following:
  • the manner of determining the page richness of the second type of page includes but is not limited to:
  • the page content block in the markup language file includes a content area identified by one or more tags in the markup language file, which corresponds to a specific content displayed in the page, for example, with a title, a picture, The contents of the text correspond to each other. 2) extracting a page content block in the markup language file of the second type of page, and determining a page richness of the second type of page based on the second predetermined richness rule according to the number of types of the page content block; for example, the second type of page
  • the more types of page content blocks included in the page such as the body content block, the title content block, the picture content block, the message content block, etc., the higher the page richness.
  • the sorting device determines that the WAP page pointed to by A1 includes 4 kinds by analyzing the XHTML file.
  • a type of page content block which is a body content block, a title content block, a directory content block, and a picture content block, based on the second predetermined abundance
  • the score of the page richness of the second type of page is increased by 1, that is, the page richness of the WAP page pointed to by A1.
  • value! ⁇ is 2.
  • the manner of determining the relevance information of the title information of the second type of page and the content information of the second type of page includes, but is not limited to:
  • TF-IDF is a statistical method for evaluating a word The degree of importance for a file set or one of the files in a corpus.
  • header information sort means the search results A1 directed WAP page "flower delivery” for word processing, to obtain two word fragment "flower” and p 2 "Express”; and then, at a preset corpus Query to determine the two segmentation fragments
  • the appearance frequency TP in the preset corpus is 100 times and 200 times, and the reciprocal of the appearance frequency is used as the inverse text frequency IDF of each segment segment of 0.01 and 0.005; and the two segmentation segments are determined in the WAP
  • the appearance frequency TF of the text information of the body block of the page is 10 times and 20 times respectively; subsequently, the calculation is performed by the formula 1):
  • pn is a score of the relevance information of each segment segment and the content information of the WAP page
  • TF n is the frequency of occurrence of each word segment in the text information of the body block of the WAP page
  • IDF n is the reciprocal of the frequency of occurrence of each segmentation segment in the preset corpus; the score of the correlation information for determining the content information of each segmentation segment and the WAP page is:
  • the scores of the relevance information of the two segmentation segments and the content information of the WAP page are added and calculated to obtain the score of the correlation information of the title information of the WAP page pointed to by the search result A1 and the content information of the WAP page.
  • the score of the page richness r An of the second type of page pointed to by each search result and the score CA of the relevance information of the second type of page and the content information of the second type of page are simply added. And or weighting calculations, etc., for example by the following formula 2):
  • QAn is the score of the page quality of the second type of page
  • r An is the page richness score of the second type of page
  • CAn is the score of the page richness of the second type of page
  • a score QAn of the page quality of the second type of page pointed to by each search result in at least one search result is obtained.
  • the first sorting device 4 sorts the plurality of search results according to the relevance information of the query sequence and the plurality of search results and the sorting adjustment information respectively corresponding to the at least one search result. To get multiple search results after sorting.
  • the manner in which the first sorting device 4 sorts the plurality of search results to obtain the plurality of sorted search results includes but is not limited to:
  • the plurality of search results are Al, A2, A3, and A4, and the scores of the correlation information of the four search results and the query sequence acquired by the search result obtaining apparatus 1 are respectively R A1 : 10 , R A2 : 5 , R A3 : 4, R A4 : 3, among the four search results, A1 and A4 are search results having a page correspondence relationship, and the page quality of the second type page pointed by A1 and A4 respectively obtained by the adjustment information determining device 3
  • the scores of the points are Q A1 : 1 and Q A4 : 4, and the scores of the page similarity information of the second type page and the first type page respectively pointed out by A1 and A4 respectively obtained by the adjustment information acquiring device 3 are S A1 : 0.5, and S A4 : 0.9; the first sorting device 4 compares the relevance information of A1 and A4, the score of the page quality of the second type of page, and the score of the page similarity information of the second type of page and the first type of page. Perform the summation calculation
  • RAn is the score of the relevance information of each search result and query sequence.
  • QAn is the score of the page quality of the second type of page pointed to by each search result.
  • SAn is the score of the page similarity information of the second type of page pointed to by each search result and the first type of page;
  • the first sorting device 4 sorts the four search results according to the correlation information of A2 and A3 and the summation results, and obtains the sorted four search results as A1, A4, A2, and A3.
  • the search result corresponding to the class page and the corresponding search result of the second type of page and the first type of page suitable for presentation on the mobile terminal can be arranged at a higher position of the search result page, and the user can By clicking on a plurality of sorted search results in the visual area where the information is most easily available, a search result webpage suitable for browsing on the mobile terminal can be obtained, thereby improving the browsing experience of the user.
  • the first sorting means 4 further comprises a weighting means (not shown) and a second sorting means (not shown). And a weighting device according to the relevance information of the query sequence and the plurality of search results and the at least one search result respectively, and combining the relevance information and the predetermined weight of the sorting adjustment information Performing a weighting calculation to determine a weighted ranking result of each search result; the second sorting means sorting the plurality of search results according to the weighted sorting result of each of the search results to obtain a plurality of sorted results search results.
  • the plurality of search results are Al, A2, A3, and A4, and the scores of the correlation information of the four search results and the query sequence acquired by the search result obtaining apparatus 1 are respectively R A1 : 10 , R A2 : 5 , R A3 : 4, R A4 : 3, among the four search results, A1 and A4 have pages Corresponding to the search result of the relationship, and the scores of the page quality of the second type of pages pointed to by A1 and A4 respectively obtained by the adjustment information determining device 3 are Q A1 : 1 and Q A4 : 4 respectively, and the A1 acquired by the information acquiring device 3 is adjusted.
  • the scores of the page similarity information of the second type page and the first type page respectively pointed to by A4 are S A1 : 0.5, and S A4 : 0.9; respectively, the predetermined weight of the relevance information is W1 : 1 ;
  • the second sorting device sorts the four search results according to the correlation information of A2 and A3 and the weighted results, and obtains the sorted four search results as Al, A2, A4, and A3.
  • FIG. 2 illustrates a structure of a sorting apparatus for determining page similarity information of a first type of page and a second type of page pointed by each search result according to a preferred embodiment of the present invention.
  • the sorting means includes a search result obtaining means 1, a search result determining means 2, an adjustment information determining means 3, a first sorting means 4, an extracting means 5, and a similarity determining means 6.
  • the search result obtaining means 1, the search result determining means 2, the adjustment information determining means 3 and the first sorting means 4 have been described in detail with reference to the embodiment shown in Fig. 1, and will not be described again.
  • the extracting means 5 extracts a first type of page pointed to by each of the at least one search result and a main page content block of the second type of page.
  • the page content block identification information is stored in an XHTML file comment, such as ⁇ !-- tc block-begin: ⁇ type: "TITLE” ⁇ --> ⁇ !-- tc block-end -->;
  • the extracting means 5 determines the comment for labeling the title content block in the XHTML file by parsing the XHTML file, thereby the comment ⁇ !-- tc block_begin: ⁇ type: "TITLE” ⁇ -> and ⁇ !
  • the portion of the HTML file between tc block—end ⁇ > is extracted to extract the title content block of the page;
  • the JSON format is a lightweight data exchange format, which generally adopts a “name/value” pair. The way represents data, separated by a ":" between the name and the value.
  • the page content block identification information is stored in the custom tag ⁇ tc> ⁇ /tc> of the XHTML file, and the extracting device 5 determines the custom tag for labeling the image content block in the XHTML file by parsing the XHTML file.
  • the page content block identification information is stored in the tag attribute of the XHTML file, such as the tag attribute of the paragraph tag ⁇ p>, and the extracting device 5 determines the block for the body content in the XHTML file by parsing the XHTML file.
  • the search result having the page correspondence is A5, and the extracting device 5 extracts in the markup language file of the first type page and the second type page of each search result to extract the first class of the A5.
  • the page and the second type of page respectively include a title content block and a body content block as the main page content blocks of the two pages.
  • the similarity determining means 6 performs a text similarity calculation on the first type of page of each search result and the main page content block of the second type of page to determine the first type of page and the second type to which each search result points. Page similarity information for the page.
  • the manner of determining the similarity between the first type of pages pointed by each search result and the pages of the second type of pages includes but is not limited to:
  • any one of the at least one search result is pointed out.
  • a class page and a main page content block of the second type of page and then performing a text similarity calculation on the first page of each search result and the main page content block of the second type of page to determine the point of each search result
  • the first type of page with The implementation of the page similarity information of the second type of page should be included in the scope of the present invention.
  • Figure 3 illustrates a method flow diagram for sorting search results in accordance with another aspect of the present invention.
  • the method of the present invention is mainly implemented by a network device; wherein the method according to the preferred embodiment comprises the step S1, the step S2, the step S3 and the step S4.
  • the network device includes, but is not limited to, a single network server, a server group composed of multiple network servers, or a cloud computing system consisting of a large number of computers or network servers, wherein cloud computing is a kind of distributed computing. , a super virtual computer consisting of a group of loosely coupled computers.
  • step S1 the network device performs a matching query according to the query sequence from the mobile terminal, and obtains a plurality of search results that match the query sequence and relevance information of the query sequence and the plurality of search results.
  • the mobile terminal includes, but is not limited to, any mobile electronic product capable of interacting with a user through a keyboard, a touch screen or the like, such as a mobile phone, a PDA, a palmtop computer (PPC), a game console (PSP), etc., which is applicable to the present invention.
  • the network device and the mobile terminal each include an electronic device capable of automatically performing numerical calculation and information processing according to an instruction set or stored in advance, and the hardware thereof may include but is not limited to a microprocessor and an application specific integrated circuit ( ASIC), programmable gate array (FPGA), digital processor (DSP), embedded devices, etc.
  • ASIC application specific integrated circuit
  • FPGA programmable gate array
  • DSP digital processor
  • the communication between the mobile terminal and the network device may be implemented by any communication means, including but not limited to, mobile communication based on 3GPP, LTE, WIMAX, computer network communication based on TCP/IP, UDP protocol, and based on Bluetooth, infrared transmission standard short-range wireless transmission.
  • the network connected between the mobile terminal and the network device includes, but is not limited to, the Internet, a wide area network, a metropolitan area network, a local area network, a VPN network, a wireless ad hoc network (Ad Hoc network), and the like.
  • the network device performs a matching query according to a query sequence input by the user from the mobile terminal, and performs a search based on the received query sequence.
  • the search process is as follows:
  • the query sequence contains one or more keywords, preferably, also includes related words between the keywords, the network device will extract the keywords, preferably, also extract the related words, and according to the network index library
  • the keyword, or the keyword is matched with the related word to obtain a plurality of search results, wherein the relevance information of each search result and the query sequence may be determined according to various search algorithms, for example, determining the correlation according to a conventional click rate algorithm.
  • Degree information according to Google's "PageRank” search algorithm (see US Patent US6285699, “Method for node ranking in a linked database”) to determine the relevance information, according to Baidu's "super-chain” search algorithm to determine the relevance information, the network
  • the device obtains relevance information of each search result and the query sequence based on the above search algorithm.
  • the correlation information refers to a matching degree score between the search result and the query sequence determined by a basic search algorithm such as "PageRank” or "Super Chain”.
  • step S2 the network device determines at least one of the plurality of search results that have been acquired, wherein each of the at least one search result points to a first type of page and a second type of page having a page correspondence relationship
  • the second type of page is a page suitable for display on a mobile terminal.
  • the first type of page means a page suitable for display on a computer device, for example, a WEB page, that is, a file based on HTML, XML, XHTML, etc. on the World Wide Web, when the user performs information inquiry through the World Wide Web.
  • a WEB page that is, a file based on HTML, XML, XHTML, etc. on the World Wide Web, when the user performs information inquiry through the World Wide Web.
  • an information page it can include information such as graphics, text, sound, and video.
  • the second type of page means a page suitable for display on a mobile terminal, for example, a WAP page, that is, a file based on a wireless markup language (WML), which can be accessed by the mobile terminal based on a wireless application protocol (WAP).
  • WML wireless markup language
  • WAP wireless application protocol
  • the file is suitable for display on a mobile terminal with a small screen.
  • step S2 the network device determines to determine at least one of the plurality of search results Search results include but are not limited to:
  • step S2 the network device performs a matching query on the link information of each search result in a predetermined page correspondence list to determine whether each search result points to the first type of page and the page having the page correspondence relationship.
  • a second type of page wherein, the page correspondence list includes a plurality of search result link information that points to the first type of page and the second type of page having the page correspondence relationship; preferably, whether the plurality of search results point to the page corresponding
  • the first type of page and the second type of page of the relationship can be determined by pre-excavating pages in the massive internet through the network device.
  • the method further includes a step S7 (not shown), in step S7, the network device determines, by extracting a predetermined label in the markup language file of the first type of page corresponding to the plurality of search results respectively. At least one search result having a page correspondence relationship among the plurality of search results.
  • step S7 the network device extracts a predetermined label in the markup language file of the first type of page respectively corresponding to the plurality of search results; and then, determines the plurality of search results by reading the predetermined attribute information in the predetermined label. At least one search result having a page correspondence.
  • the markup language file includes but is not limited to: 1) HTML (Hypertext Markup Language) file; 2) XML (Extensible Markup Language) file; 3) XHTML (Extensible Hypertext Markup Language) file; 4) XAML (Extensible Application Markup Language) files, etc.
  • the first type of page corresponding to a search result such as the HTML file of the WEB page, is:
  • the result is a search result with a page correspondence.
  • each of the at least one search result points to a first type of page and a second type of page having a page correspondence, wherein the second type of page is adapted to be on the mobile terminal The page that is displayed.
  • step S3 the network device determines, according to the feature degree of the second type of page pointed to by each search result in the determined at least one search result, the sorting adjustment information corresponding to the at least one search result respectively.
  • the feature degree of the second type of page includes at least one of the following:
  • step S3 the network device determines the order adjustment information of each search result. Ways include but are not limited to:
  • the adjustment information base includes but is not limited to a relational database, a Key-Value storage system, or File system, etc.
  • the at least one search result is Al, A2.
  • the network device performs a matching query in the preset feature degree database according to the link information of A1 and A2, to obtain the pre-stored A1 and A2 respectively.
  • the page quality scores of the WAP pages are Q A1 and Q A2
  • the scores of the page similarity information of the WAP page and the WEB page respectively pointed to by A1 and A2 are S A1 and S A2 .
  • the page quality of the second type of page respectively pointed by the at least one search result is determined according to at least one of the following:
  • the manner of determining the page richness of the second type of page includes but is not limited to:
  • the page content block in the markup language file includes a content area identified by one or more tags in the markup language file, which corresponds to a specific content displayed in the page, for example, with a title, a picture, The contents of the text correspond to each other.
  • the page content block identification information is stored in the tag attribute of the markup language file XHTML file of the WAP page pointed to by the search result A1, and in the tag attribute of the paragraph tag ⁇ p>, the network device parses the XHTML file.
  • the score of the page richness of the WAP page is increased by one; at the same time, the network device parses the XHTML file to determine that the WAP page pointed to by A1 includes four types. a type of page content block, which is a body content block, a title content block, a directory content block, and a picture content block, based on the second predetermined abundance
  • the score of the page richness of the second type of page is increased by 1, that is, the page richness of the WAP page pointed to by A1.
  • value! ⁇ is 2.
  • the manner of determining the relevance information of the title information of the second type of page and the content information of the second type of page includes, but is not limited to:
  • TF-IDF is a statistical method for evaluating the importance of a word for a file set or one of the files in a corpus.
  • the header information of the network device search results A1 directed WAP page "flower delivery” for word processing, to obtain two word fragment "flower” and p 2 "Express”; and then, at a preset corpus The query is performed to determine that the appearance frequency TP of the two segmentation segments in the preset corpus is 100 and 200 times, and the reciprocal of the appearance frequency is used as the inverse text frequency IDF of each segment segment of 0.01 and 0.005. And determining that the two segmentation segments have a frequency TF of 10 times and 20 times respectively in the text information of the body content block of the WAP page; subsequently, the calculation is performed by the formula 1):
  • pn is a score of the relevance information of each segment segment and the content information of the WAP page
  • TF n is the frequency of occurrence of each word segment in the text information of the body block of the WAP page
  • IDF n is the reciprocal of the frequency of occurrence of each segmentation segment in the preset corpus; the score of the correlation information for determining the content information of each segmentation segment and the WAP page is:
  • the scores of the relevance information of the two segmentation segments and the content information of the WAP page are added and calculated to obtain the score of the correlation information of the title information of the WAP page pointed to by the search result A1 and the content information of the WAP page.
  • the score of the page richness r An of the second type of page pointed to by each search result and the score CA of the relevance information of the second type of page and the content information of the second type of page are simply added. And or weighting calculations, etc., for example by the following formula 2):
  • QAn is the score of the page quality of the second type of page
  • r An is the page richness score of the second type of page
  • CAn is the score of the page richness of the second type of page
  • a score QAn of the page quality of the second type of page pointed to by each search result in at least one search result is obtained.
  • step S4 the network device sorts the plurality of search results according to the relevance information of the query sequence and the plurality of search results and the ranking adjustment information respectively corresponding to the at least one search result. Processed to get multiple search results after sorting.
  • the manner in which the network device performs the sorting process on the multiple search results to obtain the plurality of sorted search results includes, but is not limited to:
  • the plurality of search results are Al, A2, A3, and A4, and the scores of the acquired search results of the four search results and the query sequence are respectively R A1 : 10, RA2: 5, R A3 : 4 , R A4 : 3, in the four search results, Al and A4 are search results with page correspondence, and the scores of the page quality of the second type of pages respectively pointed to by A1 and A4 are respectively Q A1 : 1 And Q A4 : 4, the scores of the page similarity information of the second type page and the first type page respectively obtained by the acquired Al and A4 are S A1 : 0.5, and S A4 : 0.9 respectively; in step S4, The network device adds the correlation information of A1 and A4, the score of the page quality of the second type of page, and the score of the page similarity information of the second type of page and the first type of page, that is, by formula 3):
  • RAn is the score of the relevance information of each search result and query sequence.
  • QAn is the score of the page quality of the second type of page pointed to by each search result.
  • SAn is the score of the page similarity information of the second type of page pointed to by each search result and the first type of page;
  • the network device sorts the four search results according to the correlation information of A2 and A3 and the summation result, and obtains the sorted four search results as Al, A4, A2, and A3.
  • the search result corresponding to the class page and the corresponding search result of the second type of page and the first type of page suitable for presentation on the mobile terminal can be arranged at a higher position of the search result page, and the user can By clicking on a plurality of sorted search results in the visual area where the information is most easily available, a search result webpage suitable for browsing on the mobile terminal can be obtained, thereby improving the browsing experience of the user.
  • the method further comprises a step S41 (not shown) and a step S42 (not shown).
  • step S41 the network device performs the sorting adjustment information corresponding to the correlation information of the query sequence and the plurality of search results and the at least one search result respectively, and combines the relevance information and the sorting. Adjust the predetermined weight of the information, perform a weighted calculation to determine each The weighted sorting result of the search results; in step S42, the network device sorts the plurality of search results according to the weighted sorting result of each search result to obtain the sorted plurality of search results.
  • the plurality of search results are Al, A2, A3, and A4, and the scores of the acquired search results of the four search results and the query sequence are respectively R A1 : 10, RA2: 5, R A3 : 4 , R A4 : 3, in the four search results, Al and A4 are search results with page correspondence, and the scores of the page quality of the second type of pages respectively pointed to by A1 and A4 are respectively Q A1 : 1 And Q A4 : 4, the scores of the page similarity information of the second type page and the first type page respectively pointed out by Al and A4 are S A1 : 0.5, and S A4 : 0.9 respectively;
  • the predetermined weight of the page is W1:1;
  • the predetermined weight of the page quality of the second type of page pointed to by the search result is W2:0.4
  • the predetermined weight of the page similarity information of the second type page and the first type page of the search result is W3 :0.3;
  • the network device weights the relevance information of A1 and A4, the score
  • step S42 the network device sorts the four search results according to the correlation information of A2 and A3 and the weighting results, and obtains the sorted four search results as Al, A2, A4, and A3.
  • FIG. 4 shows a method flow for determining page similarity information of a first type of page and a second type of page pointed by each search result according to a preferred embodiment of the present invention.
  • the method according to the preferred embodiment includes the step S1, the step S2, the step S3, the step S4, the step S5 and the step S6.
  • step S5 the network device extracts a first type of page pointed to by each of the at least one search result and a main page content block of the second type of page.
  • the page content block identification information is stored in an XHTML file comment, such as ⁇ ! — tc block—begin: ⁇ type: "TITLE” ⁇ --> ⁇ !-- tc block-end -- >;
  • the network device determines the XHTML file by parsing the XHTML file. Comment on the title block of the content, so that the comment ⁇ ! -- tc block—begin: ⁇ type: "TITLE” ⁇ > and ⁇ !
  • JSON format is a lightweight data exchange format, which generally adopts a “name/value” pair The way to represent data, the name and value are separated by ":”.
  • the page content block identification information is stored in the tag attribute of the XHTML file, such as the tag attribute of the paragraph tag ⁇ p>
  • the search result with the page correspondence is A5.
  • the network device extracts in the markup language file of the first type page and the second type page of each search result, to extract and obtain A5.
  • the first type of page and the second type of page respectively include a title content block and a body content block as main page content blocks of the two pages.
  • step S6 the network device performs a text similarity calculation on the first type of page of each search result and the main page content block of the second type of page to determine the first type of page and the first Page similarity information for the second type of page.
  • the manner of determining the similarity between the first type of pages pointed by each search result and the pages of the second type of pages includes but is not limited to:
  • any one of the first page of the at least one search result and the main page of the second type of page are extracted, and then the first page of each search result is extracted.
  • the text similarity calculation is performed on the main page content block of the first type of page and the second type of page to determine the implementation manner of the page similarity information of the first type of page and the second type of page pointed to by each search result, which should include It is within the scope of the invention.
  • the present invention can be implemented in software and/or a combination of software and hardware, for example, an application specific integrated circuit (ASIC) or any other similar hardware device can be used to implement the apparatus of the present invention.
  • the software program of the present invention may be executed by a processor to implement the steps or functions described above.
  • the software program (including related data structures) of the present invention can be stored in a computer readable recording medium such as a RAM memory, a magnetic or optical drive or a floppy disk and the like.
  • some of the steps or functions of the present invention may be implemented in hardware, for example, as a circuit that cooperates with a processor to perform various steps or functions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于对搜索结果进行排序的方法、装置与设备。其中网络设备根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面;根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。

Description

一种用于对搜索结果进行排序的方法、 装置与设备
技术领域
本发明涉及搜索结果排序技术领域, 尤其涉及一种用于对搜索结 果进行排序的方法、 装置与设备。 背景技术
当今, 移动互联网在人们的生活中扮演越来越重要的角色, 人们 可随时随地通过移动终端在互联网中进行信息搜索。 现有技术中, 移 动终端一般根据用户输入的查询序列, 向用户呈现搜索引擎基于查询 序列获得并排序后提供给移动终端的多个搜索结果项。
然而, 用户无法知晓大量的搜索结果项中哪些搜索结果项对应的 搜索结果页面能够以较优的展现效果在移动终端上呈现、 用户通过浏 览该搜索结果页面是否能够得到较好浏览体验, 故其需要通过点击每 一搜索结果中的页面链接进入搜索结果页面, 分别浏览每一搜索结果 网页以进行判断, 因此, 用户在此过程中操作繁瑣, 影响用户浏览体 验; 同时, 由于访问了相当数量的不适于在移动终端屏幕中展示的搜 索结果页面, 不仅降低了用户信息获取效率, 也带来了很多不必要的 通信流量。 发明内容
本发明的目的是提供一种用于对搜索结果进行排序的方法、 装置与 设备。
根据本发明的一个方面, 提供了一种用于对搜索结果进行排序的方 法, 该方法包括以下步骤:
a才艮据来自移动终端的查询序列进行匹配查询, 获取与所述查询序 列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相 关度信息; 其中, 该方法还包括:
W确定所述多个搜索结果中至少一个搜索结果, 其中, 所述至少一 个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与 第二类页面, 其中第二类页面为适于在移动终端上显示的页面;
X根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的 特征度, 来确定所述至少一个搜索结果分别对应的排序调整信息;
y根据所述查询序列与所述多个搜索结果的相关度信息以及所述 至少一个搜索结果分别对应的排序调整信息, 对所述多个搜索结果进行 排序处理, 以获取排序后的多个搜索结果。
根据本发明的另一方面, 还提供了一种用于对搜索结果进行排序 的排序装置, 该排序装置包括:
搜索结果获取装置, 用于才艮据来自移动终端的查询序列进行匹配查 询, 获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所 述多个搜索结果的相关度信息;
其中, 该排序装置还包括:
搜索结果确定装置, 用于确定所述多个搜索结果中至少一个搜索结 果, 其中, 所述至少一个搜索结果中的每个搜索结果指向具有页面对应 关系的第一类页面与第二类页面, 其中第二类页面为适于在移动终端上 显示的页面;
调整信息确定装置, 用于根据所述至少一个搜索结果中每个搜索结 果指向的第二类页面的特征度, 来确定所述至少一个搜索结果分别对应 的排序调整信息;
第一排序装置, 用于才艮据所述查询序列与所述多个搜索结果的相关 度信息以及所述至少一个搜索结果分别对应的排序调整信息, 对所述多 个搜索结果进行排序处理, 以获取排序后的多个搜索结果。
与现有技术相比, 本发明具有以下优点: 通过根据每个搜索结果 与查询序列的相关度信息及具有页面对应关系的至少一个搜索结果分 别对应的排序调整信息, 对该多个搜索结果进行排序处理, 以使得多个 搜索结果的排序方式不仅与用户输入的查询序列的匹配程度相关, 而且 该排序方式也与搜索结果页面是否适于在移动终端上呈现相关联, 实现 了将适于在移动终端上呈现的具有较高页面质量的第二类页面对应的 搜索结果以及适于在移动终端上呈现的具有较高页面相似度信息的第 二类页面与第一类页面的对应的搜索结果能够排于搜索结果页的较高 位置, 用户可在其最易获取信息的视觉区域内点击排序较高的几个搜索 结果, 就可获取适于其在移动终端浏览的搜索结果网页, 从而提高用户 浏览体验。 附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它特征、 目的和优点将会变得更明显:
图 1示出根据本发明一个方面的用于对搜索结果进行排序的排序 装置的结构示意图;
图 2示出根据本发明一个优选实施例的确定所述每个搜索结果指 向的第一类页面与第二类页面的页面相似度信息的排序装置的结构示 意图;
图 3示出根据本发明另一个方面的用于对搜索结果进行排序的方 法流程图;
图 4示出根据本发明一个优选实施例的确定所述每个搜索结果指 向的第一类页面与第二类页面的页面相似度信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。 具体实施方式
下面结合附图对本发明作进一步详细描述。
图 1示出根据本发明一个方面的用于对搜索结果进行排序的排序 装置的结构示意图。 本实施例的排序装置包含于网络设备中; 该排序 装置包括搜索结果获取装置 1、 搜索结果确定装置 2、 调整信息确定装 置 3和第一排序装置 4。
所述网络设备包括但不限于单个网络服务器、 多个网络服务器组 成的服务器组或基于云计算( Cloud Computing )的由大量计算机或网 络服务器构成的云, 其中, 云计算是分布式计算的一种, 由一群松散 耦合的计算机集组成的一个超级虚拟计算机。
首先, 搜索结果获取装置 1根据来自移动终端的查询序列进行匹配 查询, 获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与 所述多个搜索结果的相关度信息。
其中, 所述移动终端包括但不限于任何可适用于本发明的能够通过 键盘、 触摸屏等与用户进行交互的移动式电子产品, 诸如手机、 PDA、 掌上电脑 (PPC )、 游戏机(PSP ) 等。 在此, 所述网络设备和移动终端 均包括一种能够按照事先设定或存储的指令, 自动进行数值计算和信息 处理的电子设备, 其硬件可包括但不限于微处理器、 专用集成电路 (ASIC), 可编程门阵列 (FPGA )、 数字处理器(DSP )、 嵌入式设备等。
本领域技术人员应能理解上述移动终端以及网络设备仅为举例, 其 他现有的或今后可能出现的移动终端以及网络设备如可适用于本发明, 也应包含在本发明保护范围以内, 并以引用方式包含于此。
在此, 所述移动终端与所述网络设备之间可通过任何通信方式实现 通信, 包括但不限于, 基于 3GPP、 LTE、 WIMAX 的移动通信、 基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、 红外传输标准的近 距无线传输方式。 所述移动终端与所述网络设备之间连接的网络包括但 不限于: 互联网、 广域网、 城域网、 局域网、 VPN网络、 无线自组织网 络(Ad Hoc网络) 等。
具体地, 搜索结果获取装置 1才艮据来自移动终端的用户输入的查询 序列进行匹配查询, 并基于接收到的查询序列进行搜索。 一般地, 搜 索过程如下: 查询序列中包含一个或多个关键词, 优选地, 还包括关 键词之间的关联词, 搜索结果获取装置 1将提取这些关键词, 优选地, 还提取关联词, 并在网络索引库中根据所述关键词、 或关键词与关联 词进行匹配查询从而获得多个搜索结果, 其中每个搜索结果与该查询 序列的相关度信息可根据各种搜索算法确定, 例如根据传统的点击率 算法确定该相关度信息、根据 Google的" PageRank"搜索算法(参见美 国专利 US6285699, "Method for node ranking in a linked database" ) 确 定该相关度信息、 根据百度的"超链"搜索算法确定该相关度信息, 搜 索结果获取装置 1 基于上述搜索算法来获得每个搜索结果与该查询序 列的相关度信息。 其中, 所述相关度信息指通过" PageRank"、 "超链" 等基本搜索算法确定的搜索结果与查询序列的匹配程度分值。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据来自移动终端的 查询序列进行匹配查询, 来获取与所述查询序列相匹配的多个搜索结果 及每个搜索结果与所述查询序列的相关度信息的实现方式, 均应包含在 本发明的范围内。
搜索结果确定装置 2确定已获取的多个搜索结果中至少一个搜索结 果, 其中, 所述至少一个搜索结果中的每个搜索结果指向具有页面对应 关系的第一类页面与第二类页面, 其中第二类页面为适于在移动终端上 显示的页面。
其中, 所述第一类页面意指适于在计算机设备上显示的页面, 例 如, WEB 页面, 也即在万维网上的基于 HTML、 XML, XHTML等标识 语言的文件, 当用户通过万维网进行信息查询时, 以信息页面的形式出现, 可包括图形、 文字、 声音和视像等信息。
其中,所述第二类页面意指适于在移动终端上显示的页面,例如, WAP页面, 也即基于无线标识语言 (WML)的文件, 可由移动终端基 于无线应用协议 (WAP)访问 WAP网站, 该文件适于在屏幕较小的移 动终端上显示。
其中, 搜索结果确定装置 2所述确定多个搜索结果中至少一个搜 索结果方式包括但不限于:
- 根据每个搜索结果的链接信息, 在页面对应列表中进行匹配查 询, 来确定多个搜索结果中至少一个搜索结果, 其中, 所述至少一个搜 索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二 类页面。
在一示例中, 搜索结果确定装置 2将每个搜索结果的链接信息在 预定的页面对应列表中进行匹配查询, 来确定每个搜索结果是否指向 具有页面对应关系的第一类页面与第二类页面; 其中, 所述页面对应列 表中包括指向具有页面对应关系的第一类页面与第二类页面的多个搜 索结果链接信息; 优选地, 所述多个搜索结果是否指向具有页面对应 关系的第一类页面与第二类页面可通过网络设备预先对海量互联网中 的页面进行挖掘来确定。
优选地, 搜索结果确定装置 2包括标签提取装置(图未示) , 标签 提取装置通过提取所述多个搜索结果分别对应的第一类页面的标记 语言文件中的预定标签, 来确定所述多个搜索结果中的具有页面对应 关系的至少一个搜索结果。
具体地, 标签提取装置提取多个搜索结果分别对应的第一类页面 的标记语言文件中的预定标签; 接着, 通过读取预定标签中的预定属 性信息来确定多个搜索结果中的具有页面对应关系的至少一个搜索 结果。
其中, 所述标记语言文件包括但不限于: 1 ) HTML (超文本标记 语言) 文件; 2 ) XML (可扩展标记语言) 文件; 3 ) XHTML (可扩展 超文本标记语言)文件; 4 ) XAML (可扩展应用程序标记语言)文件等。
在一示例中, 一个搜索结果对应的第一类页面, 如 WEB页面的 HTML文件为:
<head>
<meta name="mobile-agent" content=" f ormat=html 5; url=http: //3 g . a bc.com.cn/">
</head>;
标签提取装置提取该 HTML文件的预定的 <meta>标签, 接着读取 该 <meta> 标 签 中 的 content 的 属 性 值 为 " format=html5 ;url=http ://3 g. abc . com. cn/" , 来确定该搜索结果对应的 WAP页面的对应的链接信息为 "http:〃3g.abc.com.cn/,, 且该 WAP页 面的标记语言文件为 HTML5 , 即确定该搜索结果为具有页面对应关 系的搜索结果。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解,任何通过提取所述多个搜 索结果分别对应的第一类页面的标记语言文件中的预定标签, 来确定 所述多个搜索结果中的具有页面对应关系的至少一个搜索结果的实 现方式, 均应包含在本发明的范围内。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何确定多个搜索结果中 至少一个搜索结果的实现方式, 均应包含在本发明的范围内, 其中, 所 述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一 类页面与第二类页面, 其中第二类页面为适于在移动终端上显示的页 面。
接着, 调整信息确定装置 3根据已确定的至少一个搜索结果中每个 搜索结果指向的第二类页面的特征度, 来确定所述至少一个搜索结果分 别对应的排序调整信息。
其中, 所述第二类页面的特征度包括以下至少任一项:
1 )每个搜索结果指向的第二类页面的页面质量;
2 )每个搜索结果指向的第二类页面与第一类页面的页面相似度信 息。
本领域技术人员应能理解上述第二类页面的特征度仅为举例, 其他 现有的或今后可能出现的第二类页面的特征度如可适用于本发明, 也应 包含在本发明保护范围以内, 并以引用方式包含于此。
具体地, 调整信息确定装置 3确定每个搜索结果的排序调整信息的 方式包括但不限于:
1 )首先, 从预置的特征度数据库中获取预存的每个搜索结果指向的 第二类页面的页面质量及该搜索结果指向的第二类页面与第一类页面 的页面相似度信息; 接着, 根据该页面质量和页面相似度信息, 通过简 单加和或加权计算等方式, 确定该搜索结果的排序调整信息; 其中, 所 述调整信息库包括但不限于关系数据库、 Key-Value存储***或文件系 统等。
在一示例中, 至少一个搜索结果为 Al、 A2, 调整信息确定装置 3 根据 A1及 A2的链接信息,在预置的特征度数据库中进行匹配查询, 以 获取预存的 A1及 A2分别指向的 WAP页面的页面质量的分值为(¾^及 QA2,且 A1及 A2分别指向的 WAP页面与 WEB页面的页面相似度信息 的分值为 SA1及 SA2
2 )首先,提取所述至少一个搜索结果中每个搜索结果指向的第一类 页面与第二类页面的主要页面内容块; 接着, 对每个搜索结果的第一类 页面与第二类页面的主要页面内容块进行文本相似度计算, 以确定所述 每个搜索结果指向的第一类页面与第二类页面的页面相似度信息; 该方 式将在图 2所示的实施例中给予详述。
其中,根据以下至少任一项来确定所述至少一个搜索结果分别指 向的第二类页面的页面质量:
a第二类页面的页面丰富度;
b第二类页面的标题信息与第二类页面的内容信息的相关性信息。 本领域技术人员应能理解上述确定至少一个搜索结果分别指向的 第二类页面的页面质量的方式仅为举例, 其他现有的或今后可能出现 的确定至少一个搜索结果分别指向的第二类页面的页面质量的方式 如可适用于本发明, 也应包含在本发明保护范围以内, 并以引用方式包 含于此。
具体地, 确定第二类页面的页面丰富度的方式包括但不限于:
1 )提取搜索结果指向的第二类页面的标记语言文件中的页面内容 块, 例如正文内容块, 并对正文内容块中的文本信息长度进行计算, 根 据正文内容块中的文本信息的字符数, 基于第一预定丰富度规则, 确定 该第二类页面的页面丰富度; 例如, 第二类页面中正文内容块中的文本 信息的字符数越多, 该第二类页面的页面丰富度越高;
其中, 所述的标记语言文件中的页面内容块包括该的标记语言文件 中的由一个或多个标签标识的内容区域, 其与页面中显示的特定内容相 对应, 例如, 与标题、 图片、 正文内容等相对应。 2 )提取第二类页面的标记语言文件中的页面内容块, 根据页面内 容块的类型数量, 基于第二预定丰富度规则, 确定该第二类页面的页 面丰富度; 例如, 第二类页面中包括的页面内容块的类型数越多, 如 正文内容块、 标题内容块、 图片内容块、 留言内容块等, 其页面丰富 度越高。
在一示例中,页面内容块标识信息存储于搜索结果 A1指向的 WAP 页面的标记语言文件 XHTML文件的标签属性中, 如段落标签 <p>的标 签属性中, 排序装置通过对该 XHTML文件进行解析, 在该 XHTML 文件中确定用于标注正文内容块的段落标签属性 <p tc_type= "TEXT" >, 则对该段落标签< tc_type= "TEXT" >与</ >之间的 XHTML文件部分进行提取, 以获取该页面的正文内容块, 接着对正 文内容块中的文本信息的字符数进行计算, 以获取文本信息的字符数 为 100个字符,基于第一预定丰富度规则示出的当正文内容块中的文 本信息的字符数大于 100个字符时, 对该 WAP页面的页面丰富度的 分值加 1 ; 同时, 排序装置通过对该 XHTML文件进行解析, 确定 A1 指向的 WAP页面中包括 4种类型的页面内容块, 分别为正文内容块、 标题内容块、 目录内容块和图片内容块, 基于第二预定丰富度规则示 出的当第二类页面中包括 4种类型以上的页面内容块时, 对该第二类 页面的页面丰富度的分值加 1 , 即 A1指向的 WAP页面的页面丰富度 的分值!^为 2。
具体地, 确定第二类页面的标题信息与第二类页面的内容信息的相 关性信息的方式包括但不限于:
- 根据第二类页面的标题信息以及第二类页面的内容信息, 通过 TF-IDF算法, 来确定该两者的相关性信息; 其中, TF-IDF是一种统计 方法, 用以评估一个词对于一个文件集或一个语料库中的其中一份文件 的重要程度。
在一示例中, 排序装置对搜索结果 A1指向的 WAP页面的标题信 息 "鲜花快递" 进行分词处理, 以获取两个分词片段为 "鲜花" 及 p2 "快递" ; 接着, 在预置的语料库中进行查询, 以确定该两个分词片段 在该预置的语料库中的出现频次 TP为 100次和 200次, 并将该出现 频次的倒数作为每个分词片段的逆向文本频率 IDF为 0.01和 0.005; 并 确定该两个分词片段在该 WAP页面的正文内容块的文本信息中分别的 出现频率 TF为 10次和 20次; 随后, 通过公式 1 )进行计算:
Figure imgf000012_0001
其中, pn为每个分词片段与 WAP页面的内容信息的相关性信息的 分值,
TFn为每个分词片段在 WAP 页面的正文内容块的文本信息中分别 的出现频率,
IDFn为每个分词片段在预置的语料库中的出现频次的倒数; 以确定每个分词片段与 WAP页面的内容信息的相关性信息的分值 为:
Figure imgf000012_0002
p2: 0.005 x 20=0.1 ;
将两个分词片段与 WAP页面的内容信息的相关性信息的分值进行 加和计算, 以获取搜索结果 A1指向的 WAP页面的标题信息与该 WAP 页面的内容信息的相关性信息的分值 cA1 ( = p! +p2 ) 为 0.2。
优选地, 将每个搜索结果指向的第二类页面的页面丰富度的分值 rAn与第二类页面的标题信息与第二类页面的内容信息的相关性信息的 分值 CAn进行简单加和或加权计算等, 例如通过下式 2 ) :
Figure imgf000012_0003
其中, QAn为第二类页面的页面质量的分值,
rAn为第二类页面的页面丰富度的分值,
CAn为第二类页面的页面丰富度的分值;
以获取至少一个搜索结果中每个搜索结果指向的第二类页面的 页面质量的分值 QAn。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据已确定的至少一 个搜索结果中每个搜索结果指向的第二类页面的特征度, 来确定所述至 少一个搜索结果分别对应的排序调整信息的实现方式, 均应包含在本发 明的范围内。
随后, 第一排序装置 4才艮据所述查询序列与所述多个搜索结果的相 关度信息以及所述至少一个搜索结果分别对应的排序调整信息, 对所述 多个搜索结果进行排序处理, 以获取排序后的多个搜索结果。
其中, 第一排序装置 4对多个搜索结果进行排序处理以获取排序后 的多个搜索结果的方式包括但不限于:
-根据每个搜索结果与查询序列的相关度信息的分值、 具有页面对 应关系的至少一个搜索结果分别指向的第二类页面的页面质量的分值 及具有页面对应关系的至少一个搜索结果分别指向的第二类页面与第 一类页面的页面相似度信息的分值, 简单进行加和计算, 并根据加和结 果进行排序操作。
在一示例中, 多个搜索结果为 Al、 A2、 A3和 A4, 搜索结果获取 装置 1获取的四个搜索结果与查询序列的相关度信息的分值分别为 RA1: 10、 RA2: 5、 RA3: 4、 RA4: 3, 该四个搜索结果中 A1与 A4为具有页面 对应关系的搜索结果,且调整信息确定装置 3获取的 A1与 A4分别指向 的第二类页面的页面质量的分值分别为 QA1: 1及 QA4: 4, 调整信息获 取装置 3获取的 A1与 A4分别指向的第二类页面与第一类页面的页面相 似度信息的分值分别为 SA1: 0.5、 及 SA4: 0.9; 第一排序装置 4将 A1 和 A4的相关度信息、 第二类页面的页面质量的分值和第二类页面与第 一类页面的页面相似度信息的分值进行加和计算, 即通过公式 3 ):
Figure imgf000013_0001
其中, sn为加和结果,
RAn为每个搜索结果与查询序列的相关度信息的分值,
QAn为每个搜索结果指向的第二类页面的页面质量的分值,
SAn为每个搜索结果指向的第二类页面与第一类页面的页面相似度 信息的分值;
获取的加和结果为:
sl : =10+1+0.5=11.5: s4: =3+4+0.9=7.9;
则第一排序装置 4根据 A2、 A3的相关度信息以及该等加和结果, 对该四个所述搜索结果进行排序获得排序后的该四个搜索结果为 A1、 A4、 A2和 A3。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据所述查询序列与 所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应 的排序调整信息, 对所述多个搜索结果进行排序处理, 以获取排序后的 多个搜索结果的实现方式, 均应包含在本发明的范围内。
通过根据每个搜索结果与查询序列的相关度信息及具有页面对应 关系的至少一个搜索结果分别对应的排序调整信息, 对该多个搜索结果 进行排序处理, 以使得多个搜索结果的排序方式不仅与用户输入的查询 序列的匹配程度相关, 而且该排序方式也与搜索结果页面是否适于在移 动终端上呈现相关联, 实现了将适于在移动终端上呈现的具有较高页面 质量的第二类页面对应的搜索结果以及适于在移动终端上呈现的具有 较高页面相似度信息的第二类页面与第一类页面的对应的搜索结果能 够排于搜索结果页的较高位置, 用户可在其最易获取信息的视觉区域内 点击排序较高的几个搜索结果, 就可获取适于其在移动终端浏览的搜索 结果网页, 从而提高用户浏览体验。
优选地, 第一排序装置 4还包括加权装置 (图未示)和第二排序装 置 (图未示) 。 加权装置才艮据所述查询序列与所述多个搜索结果的相关 度信息及所述至少一个搜索结果分别对应的排序调整信息, 并结合所述 相关度信息及所述排序调整信息的预定权重, 进行加权计算, 以确定每 个搜索结果的加权排序结果; 第二排序装置根据所述每个搜索结果的加 权排序结果, 对所述多个搜索结果进行排序处理, 以获取排序后的多个 搜索结果。
在一示例中, 多个搜索结果为 Al、 A2、 A3和 A4, 搜索结果获取 装置 1获取的四个搜索结果与查询序列的相关度信息的分值分别为 RA1: 10、 RA2: 5、 RA3: 4、 RA4: 3, 该四个搜索结果中 A1与 A4为具有页面 对应关系的搜索结果,且调整信息确定装置 3获取的 A1与 A4分别指向 的第二类页面的页面质量的分值分别为 QA1: 1及 QA4: 4, 调整信息获 取装置 3获取的 A1与 A4分别指向的第二类页面与第一类页面的页面相 似度信息的分值分别为 SA1: 0.5、 及 SA4: 0.9; 同时, 相关度信息的预 定权重为 W1 : 1 ; 搜索结果指向的第二类页面的页面质量的预定权重为 W2:0.4, 搜索结果指向的第二类页面与第一类页面的页面相似度信息的 预定权重为 W3:0.3; 则加权确定装置将 A1与 A4的相关度信息、 第二 类页面的页面质量的分值和第二类页面与第一类页面的页面相似度信 息的分值进行加权计算, 即通过公式 4 ):
Sl = RAnXWl + QAn><W2 +SAnXW3 4 )
以获取的加权结果为:
S1 : =10x1+1 x0.4+0.5x0.3=10.55;
S4: =3x1+4x0.4+0.9x0.3=4.87;
则第二排序装置根据 A2和 A3的相关度信息及该等加权结果,对该 四个所述搜索结果进行排序获得排序后的该四个搜索结果为 Al、 A2、 A4和 A3。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据所述查询序列与 所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的 排序调整信息, 并结合所述相关度信息及所述排序调整信息的预定权 重, 进行加权计算, 以确定每个搜索结果的加权排序结果, 接着根据所 述每个搜索结果的加权排序结果, 对所述多个搜索结果进行排序处理, 以获取排序后的多个搜索结果的实现方式, 均应包含在本发明的范围 内。
由于对具有页面对应关系的至少一个搜索结果进行排序的不同排 序维度对搜索结果在适于在移动终端上呈现的影响程度不同, 因此根据 各个排序维度的重要程度对其分别赋予不同权重, 从而使得最终获取的 排序后的多个搜索结果对应的搜索结果页面既与查询序列具有较高匹 配度又适于在移动终端上呈现, 使得用户能够获得同时符合其查询需求 及其浏览体验的排序后的多个搜索结果。
作为本实施例的优选方案之一, 图 2示出根据本发明一个优选实施 例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相 似度信息的排序装置的结构示意图。 其中, 该排序装置包括搜索结果获 取装置 1、搜索结果确定装置 2、调整信息确定装置 3、第一排序装置 4、 提取装置 5和相似度确定装置 6。
其中, 搜索结果获取装置 1、 搜索结果确定装置 2、 调整信息确定 装置 3和第一排序装置 4已在参照图 1所示实施例中予以详述, 在此不 再赘述。
提取装置 5提取所述至少一个搜索结果中每个搜索结果指向的第一 类页面与第二类页面的主要页面内容块。
其中, 所述页面内容块标注信息在搜索结果指向的第一类页面与 项方式:
1 )存储于标记语言文件的注释中;
例如, 利用 JSON格式, 页面内容块标识信息存储于 XHTML文 件注释中 , 如<!-- tc block—begin: {type: "TITLE"} --><!-- tc block—end -- >; 提取装置 5通过对该 XHTML文件进行解析, 在该 XHTML文件 中确定用于标注标题内容块的注释,从而将该注释 <!-- tc block_begin: {type: "TITLE"} ―〉及〈!— tc block—end―〉之间的 HTML文件部分进 行提取, 以提取该页面的标题内容块; 其中, JSON格式是一种轻量 级的数据交换格式, 其一般采用 "名称 /值"对的方式表示数据, 名称 和值之间使用 ": " 隔开。
2 )存储于标记语言文件的定制标签中;
例如, 页面内容块标识信息存储于 XHTML 文件的定制标签 <tc></tc>中,提取装置 5通过对该 XHTML文件进行解析,在该 XHTML 文件中确定用于标注图片内容块的定制标签 <tc type= "photo" >, 从而 <tc type= "photo" >与</ >之间的 HTML文件部分进行提取, 以获 取该页面的图片内容块。 3 )存储于标记语言文件的标签属性中;
例如, 页面内容块标识信息存储于 XHTML文件的标签属性中, 如 段落标签 <p>的标签属性中,提取装置 5通过对该 XHTML文件进行解 析, 在该 XHTML文件中确定用于标注正文内容块的段落标签属性 <p tc_type= "TEXT" >, 则对该段落标签< tc_type= "TEXT" >^ </p> 之间的 XHTML文件部分进行提取, 以获取该页面的正文内容块。
在一示例中,具有页面对应关系的搜索结果为 A5,提取装置 5在每 个搜索结果指向的第一类页面与第二类页面的标记语言文件中进行提 取, 以提取获得 A5的第一类页面及第二类页面中分别包括标题内容块 及正文内容块作为该两个页面的主要页面内容块。
随后, 相似度确定装置 6对每个搜索结果的第一类页面与第二类页 面的主要页面内容块进行文本相似度计算, 以确定该每个搜索结果指向 的第一类页面与第二类页面的页面相似度信息。
其中, 确定每个搜索结果指向的第一类页面与第二类页面的页面相 似度的方式包括但不限于:
1 )通过 TF-IDF算法进行计算以确定; 例如提取第一类页面的主要 页面内容块中的多个关键词, 接着确定该多个关键词分别在第二类页面 的主要内容块中的出现频率, 通过 TF-IDF算法, 以确定第一类页面与 第二类页面的页面相似度;
2 )基于空间向量的余弦算法; 其中, 该算法的处理过程包括对文 本信息进行分词等预处理, 接着过滤去除文本信息中的常用副词、 助词 等频度高的词之后, 根据剩余分词片段的频度确定若干关键词, 随后通 过 TF-IDF公式进行加权计算, 从而生成向量空间模型后计算余弦, 以 确定第一类页面与第二类页面中主要页面内容块中文本信息的相似度。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何提取所述至少一个搜 索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内 容块, 接着对每个搜索结果的第一类页面与第二类页面的主要页面内容 块进行文本相似度计算, 以确定所述每个搜索结果指向的第一类页面与 第二类页面的页面相似度信息的实现方式, 均应包含在本发明的范围 内。
图 3示出根据本发明另一个方面的用于对搜索结果进行排序的方 法流程图。 本发明的方法主要通过网络设备来实现; 其中, 根据本优 选实施例的方法包括步骤 Sl、 步骤 S2、 步骤 S3和步骤 S4。
所述网络设备包括但不限于单个网络服务器、 多个网络服务器组 成的服务器组或基于云计算( Cloud Computing )的由大量计算机或网 络服务器构成的云, 其中, 云计算是分布式计算的一种, 由一群松散 耦合的计算机集组成的一个超级虚拟计算机。
首先, 在步骤 S1 中, 网络设备根据来自移动终端的查询序列进行 匹配查询, 获取与所述查询序列相匹配的多个搜索结果以及所述查询序 列与所述多个搜索结果的相关度信息。
其中, 所述移动终端包括但不限于任何可适用于本发明的能够通过 键盘、 触摸屏等与用户进行交互的移动式电子产品, 诸如手机、 PDA、 掌上电脑 (PPC )、 游戏机(PSP ) 等。 在此, 所述网络设备和移动终端 均包括一种能够按照事先设定或存储的指令, 自动进行数值计算和信息 处理的电子设备, 其硬件可包括但不限于微处理器、 专用集成电路 (ASIC), 可编程门阵列 (FPGA )、 数字处理器(DSP )、 嵌入式设备等。
本领域技术人员应能理解上述移动终端以及网络设备仅为举例, 其 他现有的或今后可能出现的移动终端以及网络设备如可适用于本发明, 也应包含在本发明保护范围以内, 并以引用方式包含于此。
在此, 所述移动终端与所述网络设备之间可通过任何通信方式实现 通信, 包括但不限于, 基于 3GPP、 LTE、 WIMAX 的移动通信、 基于 TCP/IP、 UDP协议的计算机网络通信以及基于蓝牙、 红外传输标准的近 距无线传输方式。 所述移动终端与所述网络设备之间连接的网络包括但 不限于: 互联网、 广域网、 城域网、 局域网、 VPN网络、 无线自组织网 络(Ad Hoc网络) 等。
具体地, 在步骤 S1 中, 网络设备才艮据来自移动终端的用户输入的 查询序列进行匹配查询, 并基于接收到的查询序列进行搜索。 一般地, 搜索过程如下: 查询序列中包含一个或多个关键词, 优选地, 还包括 关键词之间的关联词, 网络设备将提取这些关键词, 优选地, 还提取 关联词, 并在网络索引库中根据所述关键词、 或关键词与关联词进行 匹配查询从而获得多个搜索结果, 其中每个搜索结果与该查询序列的 相关度信息可根据各种搜索算法确定, 例如根据传统的点击率算法确 定该相关度信息、根据 Google的" PageRank"搜索算法(参见美国专利 US6285699, "Method for node ranking in a linked database" ) 确定该相 关度信息、 根据百度的"超链"搜索算法确定该相关度信息, 网络设备 基于上述搜索算法来获得每个搜索结果与该查询序列的相关度信息。 其中, 所述相关度信息指通过" PageRank"、 "超链 "等基本搜索算法确 定的搜索结果与查询序列的匹配程度分值。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据来自移动终端的 查询序列进行匹配查询, 来获取与所述查询序列相匹配的多个搜索结果 及每个搜索结果与所述查询序列的相关度信息的实现方式, 均应包含在 本发明的范围内。
在步骤 S2 中, 网络设备确定已获取的多个搜索结果中至少一个搜 索结果, 其中, 所述至少一个搜索结果中的每个搜索结果指向具有页面 对应关系的第一类页面与第二类页面, 其中第二类页面为适于在移动终 端上显示的页面。
其中, 所述第一类页面意指适于在计算机设备上显示的页面, 例 如, WEB 页面, 也即在万维网上的基于 HTML、 XML, XHTML等标识 语言的文件, 当用户通过万维网进行信息查询时, 以信息页面的形式出现, 可包括图形、 文字、 声音和视像等信息。
其中,所述第二类页面意指适于在移动终端上显示的页面,例如, WAP页面, 也即基于无线标识语言 (WML)的文件, 可由移动终端基 于无线应用协议 (WAP)访问 WAP网站, 该文件适于在屏幕较小的移 动终端上显示。
其中, 在步骤 S2中, 网络设备所述确定多个搜索结果中至少一个 搜索结果方式包括但不限于:
- 根据每个搜索结果的链接信息, 在页面对应列表中进行匹配查 询, 来确定多个搜索结果中至少一个搜索结果, 其中, 所述至少一个搜 索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二 类页面。
在一示例中, 在步骤 S2中, 网络设备将每个搜索结果的链接信息 在预定的页面对应列表中进行匹配查询, 来确定每个搜索结果是否指 向具有页面对应关系的第一类页面与第二类页面; 其中, 所述页面对应 列表中包括指向具有页面对应关系的第一类页面与第二类页面的多个 搜索结果链接信息; 优选地, 所述多个搜索结果是否指向具有页面对 应关系的第一类页面与第二类页面可通过网络设备预先对海量互联网 中的页面进行挖掘来确定。
优选地, 该方法还包括步骤 S7, (图未示) , 在步骤 S7中, 网络设 备通过提取所述多个搜索结果分别对应的第一类页面的标记语言文 件中的预定标签, 来确定所述多个搜索结果中的具有页面对应关系的 至少一个搜索结果。
具体地, 在步骤 S7中, 网络设备提取多个搜索结果分别对应的第 一类页面的标记语言文件中的预定标签; 接着, 通过读取预定标签中 的预定属性信息来确定多个搜索结果中的具有页面对应关系的至少 一个搜索结果。
其中, 所述标记语言文件包括但不限于: 1 ) HTML (超文本标记 语言) 文件; 2 ) XML (可扩展标记语言) 文件; 3 ) XHTML (可扩展 超文本标记语言)文件; 4 ) XAML (可扩展应用程序标记语言)文件等。
在一示例中, 一个搜索结果对应的第一类页面, 如 WEB页面的 HTML文件为:
<head>
<meta name="mobile-agent" content=" f ormat=html 5; url=http: //3 g . a bc.com.cn/"> </head>;
在步骤 S7中, 网络设备提取该 HTML文件的预定的 <meta>标签, 接 着 读 取 该 <meta> 标 签 中 的 content 的 属 性 值 为 " format=html5 ;url=http ://3 g. abc . com. cn/" , 来确定该搜索结果对应的 WAP页面的对应的链接信息为 "http:〃3g.abc.com.cn/,, 且该 WAP页 面的标记语言文件为 HTML5 , 即确定该搜索结果为具有页面对应关 系的搜索结果。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解,任何通过提取所述多个搜 索结果分别对应的第一类页面的标记语言文件中的预定标签, 来确定 所述多个搜索结果中的具有页面对应关系的至少一个搜索结果的实 现方式, 均应包含在本发明的范围内。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何确定多个搜索结果中 至少一个搜索结果的实现方式, 均应包含在本发明的范围内, 其中, 所 述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一 类页面与第二类页面, 其中第二类页面为适于在移动终端上显示的页 面。
接着, 在步骤 S3 中, 网络设备根据已确定的至少一个搜索结果中 每个搜索结果指向的第二类页面的特征度, 来确定所述至少一个搜索结 果分别对应的排序调整信息。
其中, 所述第二类页面的特征度包括以下至少任一项:
1 )每个搜索结果指向的第二类页面的页面质量;
2 )每个搜索结果指向的第二类页面与第一类页面的页面相似度信 息。
本领域技术人员应能理解上述第二类页面的特征度仅为举例, 其他 现有的或今后可能出现的第二类页面的特征度如可适用于本发明, 也应 包含在本发明保护范围以内, 并以引用方式包含于此。
具体地,在步骤 S3中, 网络设备确定每个搜索结果的排序调整信息 的方式包括但不限于:
1 )首先, 从预置的特征度数据库中获取预存的每个搜索结果指向的 第二类页面的页面质量及该搜索结果指向的第二类页面与第一类页面 的页面相似度信息; 接着, 根据该页面质量和页面相似度信息, 通过简 单加和或加权计算等方式, 确定该搜索结果的排序调整信息; 其中, 所 述调整信息库包括但不限于关系数据库、 Key-Value存储***或文件系 统等。
在一示例中, 至少一个搜索结果为 Al、 A2, 在步骤 S3中, 网络设 备根据 A1及 A2的链接信息, 在预置的特征度数据库中进行匹配查询, 以获取预存的 A1及 A2分别指向的 WAP页面的页面质量的分值为 QA1 及 QA2, 且 A1及 A2分别指向的 WAP页面与 WEB页面的页面相似度 信息的分值为 SA1及 SA2
2 )首先,提取所述至少一个搜索结果中每个搜索结果指向的第一类 页面与第二类页面的主要页面内容块; 接着, 对每个搜索结果的第一类 页面与第二类页面的主要页面内容块进行文本相似度计算, 以确定所述 每个搜索结果指向的第一类页面与第二类页面的页面相似度信息; 该方 式将在图 4所示的实施例中给予详述。
其中,根据以下至少任一项来确定所述至少一个搜索结果分别指 向的第二类页面的页面质量:
a第二类页面的页面丰富度;
b第二类页面的标题信息与第二类页面的内容信息的相关性信息。 本领域技术人员应能理解上述确定至少一个搜索结果分别指向的 第二类页面的页面质量的方式仅为举例, 其他现有的或今后可能出现 的确定至少一个搜索结果分别指向的第二类页面的页面质量的方式 如可适用于本发明, 也应包含在本发明保护范围以内, 并以引用方式包 含于此。
具体地, 确定第二类页面的页面丰富度的方式包括但不限于:
1 )提取搜索结果指向的第二类页面的标记语言文件中的页面内容 块, 例如正文内容块, 并对正文内容块中的文本信息长度进行计算, 根 据正文内容块中的文本信息的字符数, 基于第一预定丰富度规则, 确定 该第二类页面的页面丰富度; 例如, 第二类页面中正文内容块中的文本 信息的字符数越多, 该第二类页面的页面丰富度越高;
其中, 所述的标记语言文件中的页面内容块包括该的标记语言文件 中的由一个或多个标签标识的内容区域, 其与页面中显示的特定内容相 对应, 例如, 与标题、 图片、 正文内容等相对应。
2 )提取第二类页面的标记语言文件中的页面内容块, 根据页面内 容块的类型数量, 基于第二预定丰富度规则, 确定该第二类页面的页 面丰富度; 例如, 第二类页面中包括的页面内容块的类型数越多, 如 正文内容块、 标题内容块、 图片内容块、 留言内容块等, 其页面丰富 度越高。
在一示例中,页面内容块标识信息存储于搜索结果 A1指向的 WAP 页面的标记语言文件 XHTML文件的标签属性中, 如段落标签 <p>的标 签属性中, 网络设备通过对该 XHTML文件进行解析, 在该 XHTML 文件中确定用于标注正文内容块的段落标签属性 <p tc_type= "TEXT" >, 则对该段落标签< tc_type= "TEXT" >与</ >之间的 XHTML文件部分进行提取, 以获取该页面的正文内容块, 接着对正 文内容块中的文本信息的字符数进行计算, 以获取文本信息的字符数 为 100个字符,基于第一预定丰富度规则示出的当正文内容块中的文 本信息的字符数大于 100个字符时, 对该 WAP页面的页面丰富度的 分值加 1 ; 同时, 网络设备通过对该 XHTML文件进行解析, 确定 A1 指向的 WAP页面中包括 4种类型的页面内容块, 分别为正文内容块、 标题内容块、 目录内容块和图片内容块, 基于第二预定丰富度规则示 出的当第二类页面中包括 4种类型以上的页面内容块时, 对该第二类 页面的页面丰富度的分值加 1 , 即 A1指向的 WAP页面的页面丰富度 的分值!^为 2。
具体地, 确定第二类页面的标题信息与第二类页面的内容信息的相 关性信息的方式包括但不限于:
- 根据第二类页面的标题信息以及第二类页面的内容信息, 通过 TF-IDF算法, 来确定该两者的相关性信息; 其中, TF-IDF是一种统计 方法, 用以评估一个词对于一个文件集或一个语料库中的其中一份文件 的重要程度。
在一示例中, 网络设备对搜索结果 A1指向的 WAP页面的标题信 息 "鲜花快递" 进行分词处理, 以获取两个分词片段为 "鲜花" 及 p2 "快递" ; 接着, 在预置的语料库中进行查询, 以确定该两个分词片段 在该预置的语料库中的出现频次 TP为 100次和 200次, 并将该出现 频次的倒数作为每个分词片段的逆向文本频率 IDF为 0.01和 0.005; 并 确定该两个分词片段在该 WAP页面的正文内容块的文本信息中分别的 出现频率 TF为 10次和 20次; 随后, 通过公式 1 )进行计算:
Figure imgf000024_0001
其中, pn为每个分词片段与 WAP页面的内容信息的相关性信息的 分值,
TFn为每个分词片段在 WAP 页面的正文内容块的文本信息中分别 的出现频率,
IDFn为每个分词片段在预置的语料库中的出现频次的倒数; 以确定每个分词片段与 WAP页面的内容信息的相关性信息的分值 为:
Figure imgf000024_0002
p2: 0.005 x 20=0.1 ;
将两个分词片段与 WAP页面的内容信息的相关性信息的分值进行 加和计算, 以获取搜索结果 A1指向的 WAP页面的标题信息与该 WAP 页面的内容信息的相关性信息的分值 cA1 ( = p! +p2 ) 为 0.2。
优选地, 将每个搜索结果指向的第二类页面的页面丰富度的分值 rAn与第二类页面的标题信息与第二类页面的内容信息的相关性信息的 分值 CAn进行简单加和或加权计算等, 例如通过下式 2 ) :
Figure imgf000024_0003
其中, QAn为第二类页面的页面质量的分值,
rAn为第二类页面的页面丰富度的分值, CAn为第二类页面的页面丰富度的分值;
以获取至少一个搜索结果中每个搜索结果指向的第二类页面的 页面质量的分值 QAn。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据已确定的至少一 个搜索结果中每个搜索结果指向的第二类页面的特征度, 来确定所述至 少一个搜索结果分别对应的排序调整信息的实现方式, 均应包含在本发 明的范围内。
随后, 在步骤 S4 中, 网络设备才艮据所述查询序列与所述多个搜索 结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信 息,对所述多个搜索结果进行排序处理, 以获取排序后的多个搜索结果。
其中, 在步骤 S4 中, 网络设备对多个搜索结果进行排序处理以获 取排序后的多个搜索结果的方式包括但不限于:
-根据每个搜索结果与查询序列的相关度信息的分值、 具有页面对 应关系的至少一个搜索结果分别指向的第二类页面的页面质量的分值 及具有页面对应关系的至少一个搜索结果分别指向的第二类页面与第 一类页面的页面相似度信息的分值, 简单进行加和计算, 并根据加和结 果进行排序操作。
在一示例中, 多个搜索结果为 Al、 A2、 A3和 A4, 已获取的四个 搜索结果与查询序列的相关度信息的分值分别为 RA1: 10、 RA2: 5、 RA3: 4、 RA4: 3, 该四个搜索结果中 Al与 A4为具有页面对应关系的搜索结 果,且已获取的 A1与 A4分别指向的第二类页面的页面质量的分值分别 为 QA1: 1及 QA4: 4, 已获取的 Al与 A4分别指向的第二类页面与第一 类页面的页面相似度信息的分值分别为 SA1: 0.5、 及 SA4: 0.9; 在步骤 S4中, 网络设备将 A1和 A4的相关度信息、 第二类页面的页面质量的 分值和第二类页面与第一类页面的页面相似度信息的分值进行加和计 算, 即通过公式 3 ):
Figure imgf000025_0001
其中, sn为加和结果, RAn为每个搜索结果与查询序列的相关度信息的分值,
QAn为每个搜索结果指向的第二类页面的页面质量的分值,
SAn为每个搜索结果指向的第二类页面与第一类页面的页面相似度 信息的分值;
获取的加和结果为:
sl : =10+1+0.5=11.5;
s4: =3+4+0.9=7.9;
则网络设备根据 A2、 A3的相关度信息以及该等加和结果, 对该四 个所述搜索结果进行排序获得排序后的该四个搜索结果为 Al、 A4、 A2 和 A3。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据所述查询序列与 所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应 的排序调整信息, 对所述多个搜索结果进行排序处理, 以获取排序后的 多个搜索结果的实现方式, 均应包含在本发明的范围内。
通过根据每个搜索结果与查询序列的相关度信息及具有页面对应 关系的至少一个搜索结果分别对应的排序调整信息, 对该多个搜索结果 进行排序处理, 以使得多个搜索结果的排序方式不仅与用户输入的查询 序列的匹配程度相关, 而且该排序方式也与搜索结果页面是否适于在移 动终端上呈现相关联, 实现了将适于在移动终端上呈现的具有较高页面 质量的第二类页面对应的搜索结果以及适于在移动终端上呈现的具有 较高页面相似度信息的第二类页面与第一类页面的对应的搜索结果能 够排于搜索结果页的较高位置, 用户可在其最易获取信息的视觉区域内 点击排序较高的几个搜索结果, 就可获取适于其在移动终端浏览的搜索 结果网页, 从而提高用户浏览体验。
优选地, 该方法还包括步骤 S41 (图未示)和步骤 S42 (图未示) 。 在步骤 S41中, 网络设备才艮据所述查询序列与所述多个搜索结果的相关 度信息及所述至少一个搜索结果分别对应的排序调整信息, 并结合所述 相关度信息及所述排序调整信息的预定权重, 进行加权计算, 以确定每 个搜索结果的加权排序结果; 在步骤 S42中, 网络设备根据所述每个搜 索结果的加权排序结果, 对所述多个搜索结果进行排序处理, 以获取排 序后的多个搜索结果。
在一示例中, 多个搜索结果为 Al、 A2、 A3和 A4, 已获取的四个 搜索结果与查询序列的相关度信息的分值分别为 RA1: 10、 RA2: 5、 RA3: 4、 RA4: 3, 该四个搜索结果中 Al与 A4为具有页面对应关系的搜索结 果,且已获取的 A1与 A4分别指向的第二类页面的页面质量的分值分别 为 QA1: 1及 QA4: 4, 已获取的 Al与 A4分别指向的第二类页面与第一 类页面的页面相似度信息的分值分别为 SA1: 0.5、 及 SA4: 0.9; 同时, 相关度信息的预定权重为 W1 : 1 ; 搜索结果指向的第二类页面的页面质 量的预定权重为 W2:0.4,搜索结果指向的第二类页面与第一类页面的页 面相似度信息的预定权重为 W3:0.3; 则在步骤 S41 中, 网络设备将 A1 与 A4的相关度信息、 第二类页面的页面质量的分值和第二类页面与第 一类页面的页面相似度信息的分值进行加权计算, 即通过公式 4 ):
Sl = RAnXWl + QAn><W2 +SAnXW3 4 )
以获取的加权结果为:
S1 : =10x1+1 x0.4+0.5x0.3=10.55;
S4: =3x1+4x0.4+0.9x0.3=4.87;
则在步骤 S42中, 网络设备根据 A2和 A3的相关度信息及该等加 权结果, 对该四个所述搜索结果进行排序获得排序后的该四个搜索结果 为 Al、 A2、 A4和 A3。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何根据所述查询序列与 所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的 排序调整信息, 并结合所述相关度信息及所述排序调整信息的预定权 重, 进行加权计算, 以确定每个搜索结果的加权排序结果, 接着根据所 述每个搜索结果的加权排序结果, 对所述多个搜索结果进行排序处理, 以获取排序后的多个搜索结果的实现方式, 均应包含在本发明的范围 内。 由于对具有页面对应关系的至少一个搜索结果进行排序的不同排 序维度对搜索结果在适于在移动终端上呈现的影响程度不同, 因此根据 各个排序维度的重要程度对其分别赋予不同权重, 从而使得最终获取的 排序后的多个搜索结果对应的搜索结果页面既与查询序列具有较高匹 配度又适于在移动终端上呈现, 使得用户能够获得同时符合其查询需求 及其浏览体验的排序后的多个搜索结果。
作为本实施例的优选方案之一, 图 4示出才艮据本发明一个优选实施 例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相 似度信息的方法流程图。其中,根据本优选实施例的方法包括步骤 Sl、 步骤 S2、 步骤 S3、 步骤 S4、 步骤 S5和步骤 S6。
其中, 步骤 Sl、 步骤 S2、 步骤 S3和步骤 S4已在参照图 3所示实 施例中予以详述, 在此不再赘述。
在步骤 S5 中, 网络设备提取所述至少一个搜索结果中每个搜索结 果指向的第一类页面与第二类页面的主要页面内容块。
其中, 所述页面内容块标注信息在搜索结果指向的第一类页面与 项方式:
1 )存储于标记语言文件的注释中;
例如, 利用 JSON格式, 页面内容块标识信息存储于 XHTML文 件注释中, 如〈!— tc block—begin: {type: "TITLE"} --><!-- tc block—end -- >; 在步骤 S5中, 网络设备通过对该 XHTML文件进行解析, 在该 XHTML文件中确定用于标注标题内容块的注释,从而将该注释 <! -- tc block—begin: {type: "TITLE"}―〉及〈!— tc block—end --〉之间的 HTML 文件部分进行提取, 以提取该页面的标题内容块; 其中, JSON格式 是一种轻量级的数据交换格式, 其一般采用 "名称 /值"对的方式表示 数据, 名称和值之间使用 ": " 隔开。
2 )存储于标记语言文件的定制标签中;
例如, 页面内容块标识信息存储于 XHTML 文件的定制标签 <tc></tc>中,在步骤 S5中, 网络设备通过对该 XHTML文件进行解析, 在该 XHTML 文件中确定用于标注图片内容块的定制标签 <tc type= "photo" >, 从而将 <tc type= "photo" >与</ >之间的 HTML文件部分 进行提取, 以获取该页面的图片内容块。
3 )存储于标记语言文件的标签属性中;
例如, 页面内容块标识信息存储于 XHTML文件的标签属性中, 如 段落标签 <p>的标签属性中, 在步骤 S5中, 网络设备通过对该 XHTML 文件进行解析, 在该 XHTML文件中确定用于标注正文内容块的段落 标签属性< tc_type= "TEXT" >,则对该段落标签< tc_type= "TEXT" > 与< >之间的 XHTML文件部分进行提取, 以获取该页面的正文内容 块。
在一示例中, 具有页面对应关系的搜索结果为 A5, 在步骤 S5中, 网络设备在每个搜索结果指向的第一类页面与第二类页面的标记语言 文件中进行提取, 以提取获得 A5的第一类页面及第二类页面中分别包 括标题内容块及正文内容块作为该两个页面的主要页面内容块。
随后, 在步骤 S6 中, 网络设备对每个搜索结果的第一类页面与第 二类页面的主要页面内容块进行文本相似度计算, 以确定该每个搜索结 果指向的第一类页面与第二类页面的页面相似度信息。
其中, 确定每个搜索结果指向的第一类页面与第二类页面的页面相 似度的方式包括但不限于:
1 )通过 TF-IDF算法进行计算以确定; 例如提取第一类页面的主要 页面内容块中的多个关键词, 接着确定该多个关键词分别在第二类页面 的主要内容块中的出现频率, 通过 TF-IDF算法, 以确定第一类页面与 第二类页面的页面相似度;
2 )基于空间向量的余弦算法; 其中, 该算法的处理过程包括对文 本信息进行分词等预处理, 接着过滤去除文本信息中的常用副词、 助词 等频度高的词之后, 根据剩余分词片段的频度确定若干关键词, 随后通 过 TF-IDF公式进行加权计算, 从而生成向量空间模型后计算余弦, 以 确定第一类页面与第二类页面中主要页面内容块中文本信息的相似度。
需要说明的是, 上述举例仅为更好地说明本发明的技术方案, 而非 对本发明的限制, 本领域技术人员应该理解, 任何提取所述至少一个搜 索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内 容块, 接着对每个搜索结果的第一类页面与第二类页面的主要页面内容 块进行文本相似度计算, 以确定所述每个搜索结果指向的第一类页面与 第二类页面的页面相似度信息的实现方式, 均应包含在本发明的范围 内。
需要注意的是,本发明可在软件和 /或软件与硬件的组合体中被实 施, 例如, 可采用专用集成电路(ASIC )或任何其他类似硬件设备来 实现本发明中的装置。 在一个实施例中, 本发明的软件程序可以通过 处理器执行以实现上文所述步骤或功能。 同样地, 本发明的软件程序 (包括相关的数据结构)可以被存储到计算机可读记录介质中,例如, RAM存储器, 磁或光驱动器或软磁盘及类似设备。 另外, 本发明的 一些步骤或功能可采用硬件来实现, 例如, 作为与处理器配合从而执 行各个步骤或功能的电路。
对于本领域技术人员而言, 显然本发明不限于上述示范性实施例 的细节, 而且在不背离本发明的精神或基本特征的情况下, 能够以其 他的具体形式实现本发明。 因此, 无论从哪一点来看, 均应将实施例 看作是示范性的, 而且是非限制性的, 本发明的范围由所附权利要求 而不是上述说明限定, 因此旨在将落在权利要求的等同要件的含义和 范围内的所有变化涵括在本发明内。 不应将权利要求中的任何附图标 记视为限制所涉及的权利要求。 此外, 显然 "包括" 一词不排除其他 装置或步骤, 单数不排除复数。 装置权利要求中陈述的多个单元或装 置也可以由一个单元或装置通过软件或者硬件来实现。 第一, 第二等 词语用来表示名称, 而并不表示任何特定的顺序。

Claims

权 利 要 求 书
1. 一种用于对搜索结果进行排序的方法, 该方法包括以下步骤: a才艮据来自移动终端的查询序列进行匹配查询, 获取与所述查询序 列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相 关度信息;
其中, 该方法还包括:
w确定所述多个搜索结果中至少一个搜索结果, 其中, 所述至少一 个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与 第二类页面, 其中第二类页面为适于在移动终端上显示的页面;
X根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的 特征度, 来确定所述至少一个搜索结果分别对应的排序调整信息;
y根据所述查询序列与所述多个搜索结果的相关度信息以及所述 至少一个搜索结果分别对应的排序调整信息, 对所述多个搜索结果进行 排序处理, 以获取排序后的多个搜索结果。
2. 根据权利要求 1所述的方法, 其中, 所述步骤 w 包括: w, 通过提取所述多个搜索结果分别对应的第一类页面的标记语言 文件中的预定标签, 来确定所述多个搜索结果中的所述至少一个搜索结 果。
3. 根据权利要求 1或 2所述的方法, 其中, 所述步骤 y 包括:
-才艮据所述查询序列与所述多个搜索结果的相关度信息及所述至少 一个搜索结果分别对应的排序调整信息, 并结合所述相关度信息及所述 排序调整信息的预定权重, 进行加权计算, 以确定每个搜索结果的加权 排序结果;
-根据所述每个搜索结果的加权排序结果, 对所述多个搜索结果进 行排序处理, 以获取排序后的多个搜索结果。
4. 根据权利要求 1至 3任一项所述的方法, 其中, 所述第二类页 面的特征度包括以下至少任一项:
-每个搜索结果指向的第二类页面的页面质量; - 每个搜索结果指向的第二类页面与第一类页面的页面相似度信 息。
5. 根据权利要求 4 所述的方法, 其中, 该方法还包括根据以下至 少任一项来确定所述至少一个搜索结果分别指向的第二类页面的页面 质量:
- 第二类页面的页面丰富度;
- 第二类页面的标题信息与第二类页面的内容信息的相关性信息。
6. 才艮据权利要求 4或 5任一项所述的方法, 其中, 该方法还包括: -提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与 第二类页面的主要页面内容块;
-对每个搜索结果的第一类页面与第二类页面的主要页面内容块进 行文本相似度计算, 以确定所述每个搜索结果指向的第一类页面与第二 类页面的页面相似度信息。
7 . 一种用于对搜索结果进行排序的排序装置, 该排序装置包括: 搜索结果获取装置, 用于才艮据来自移动终端的查询序列进行匹配查 询, 获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所 述多个搜索结果的相关度信息;
其中, 该排序装置还包括:
搜索结果确定装置, 用于确定所述多个搜索结果中至少一个搜索结 果, 其中, 所述至少一个搜索结果中的每个搜索结果指向具有页面对应 关系的第一类页面与第二类页面, 其中第二类页面为适于在移动终端上 显示的页面;
调整信息确定装置, 用于根据所述至少一个搜索结果中每个搜索结 果指向的第二类页面的特征度, 来确定所述至少一个搜索结果分别对应 的排序调整信息;
第一排序装置, 用于才艮据所述查询序列与所述多个搜索结果的相关 度信息以及所述至少一个搜索结果分别对应的排序调整信息, 对所述多 个搜索结果进行排序处理, 以获取排序后的多个搜索结果。
8 . 根据权利要求 7所述的排序装置, 其中, 所述搜索结果确定装 置包括:
标签提取装置, 用于通过提取所述多个搜索结果分别对应的第一类 页面的标记语言文件中的预定标签, 来确定所述多个搜索结果中的所述 至少一个搜索结果。
9 . 根据权利要求 7或 8所述的排序装置, 其中, 所述第一排序装 置包括:
加权装置, 用于才艮据所述查询序列与所述多个搜索结果的相关度信 息及所述至少一个搜索结果分别对应的排序调整信息, 并结合所述相关 度信息及所述排序调整信息的预定权重, 进行加权计算, 以确定每个搜 索结果的加权排序结果;
第二排序装置, 用于根据所述每个搜索结果的加权排序结果, 对所 述多个搜索结果进行排序处理, 以获取排序后的多个搜索结果。
10. 根据权利要求 7至 9任一项所述的排序装置, 其中, 所述第二 类页面的特征度包括以下至少任一项:
-每个搜索结果指向的第二类页面的页面质量;
- 每个搜索结果指向的第二类页面与第一类页面的页面相似度信 息。
11. 根据权利要求 10所述的排序装置, 其中, 该方法还包括根据以 下至少任一项来确定所述至少一个搜索结果分别指向的第二类页面的 页面质量:
- 第二类页面的页面丰富度;
- 第二类页面的标题信息与第二类页面的内容信息的相关性信息。
12. 根据权利要求 10或 11任一项所述的排序装置, 其中, 该排序 装置还包括:
提取装置, 用于提取所述至少一个搜索结果中每个搜索结果指向的 第一类页面与第二类页面的主要页面内容块;
相似度确定装置, 用于对每个搜索结果的第一类页面与第二类页面 的主要页面内容块进行文本相似度计算, 以确定所述每个搜索结果指向 的第一类页面与第二类页面的页面相似度信息。
13. 一种网络设备, 包括如权利要求 7至 12中至少一项所述的排序 装置。
PCT/CN2012/085464 2012-08-22 2012-11-28 一种用于对搜索结果进行排序的方法、装置与设备 WO2014029173A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/412,372 US20150234827A1 (en) 2012-08-22 2012-11-28 Method, apparatus, and device for ranking search results

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210301231.7A CN103631794B (zh) 2012-08-22 2012-08-22 一种用于对搜索结果进行排序的方法、装置与设备
CN201210301231.7 2012-08-22

Publications (1)

Publication Number Publication Date
WO2014029173A1 true WO2014029173A1 (zh) 2014-02-27

Family

ID=50149375

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/085464 WO2014029173A1 (zh) 2012-08-22 2012-11-28 一种用于对搜索结果进行排序的方法、装置与设备

Country Status (3)

Country Link
US (1) US20150234827A1 (zh)
CN (1) CN103631794B (zh)
WO (1) WO2014029173A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838881B (zh) * 2014-03-28 2017-04-05 北京奇虎科技有限公司 自定义搜索结果页的方法及装置
WO2016107353A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定pc网页与移动网页自适应关系的***及方法
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
US10275495B2 (en) * 2015-11-24 2019-04-30 Sap Se User-dependent ranking of data items
US10255239B2 (en) 2015-11-24 2019-04-09 Sap Se Ranking based on object data
US10289622B2 (en) * 2015-11-24 2019-05-14 Sap Se Ranking using data of continuous scales
US10366089B2 (en) * 2015-11-24 2019-07-30 Sap Se Ranking based on dynamic contextual information
CN105808737B (zh) * 2016-03-10 2021-04-06 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
WO2018023429A1 (zh) * 2016-08-02 2018-02-08 步晓芳 一种搜索结果显示的技术数据采集方法以及搜索引擎
WO2018023430A1 (zh) * 2016-08-02 2018-02-08 步晓芳 一种根据目的显示搜索结果时的信息推送方法以及搜索引擎
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和***
CN108197125B (zh) * 2016-12-08 2020-10-09 腾讯科技(深圳)有限公司 网页抓取方法及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
CN111460272B (zh) * 2019-01-22 2024-02-13 北京国双科技有限公司 一种文本页面的排序方法及相关设备
CN110377831B (zh) * 2019-07-25 2022-05-17 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置
CN112632383A (zh) * 2020-12-26 2021-04-09 中国农业银行股份有限公司 一种信息推荐方法及装置
CN113254810B (zh) * 2021-06-17 2021-10-29 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101437039A (zh) * 2007-11-15 2009-05-20 华为技术有限公司 一种移动搜索的方法、***和设备
CN101636737A (zh) * 2007-01-24 2010-01-27 谷歌公司 混合移动搜索结果

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308643B1 (en) * 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
JP2007188352A (ja) * 2006-01-13 2007-07-26 National Institute Of Information & Communication Technology ページリランキング装置、ページリランキングプログラム
US20070208730A1 (en) * 2006-03-02 2007-09-06 Microsoft Corporation Mining web search user behavior to enhance web search relevance
US7974957B2 (en) * 2007-04-05 2011-07-05 Microsoft Corporation Assessing mobile readiness of a page using a trained scorer
US8332379B2 (en) * 2010-06-11 2012-12-11 International Business Machines Corporation System and method for identifying content sensitive authorities from very large scale networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636737A (zh) * 2007-01-24 2010-01-27 谷歌公司 混合移动搜索结果
CN101437039A (zh) * 2007-11-15 2009-05-20 华为技术有限公司 一种移动搜索的方法、***和设备

Also Published As

Publication number Publication date
CN103631794A (zh) 2014-03-12
CN103631794B (zh) 2019-05-07
US20150234827A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
WO2014029173A1 (zh) 一种用于对搜索结果进行排序的方法、装置与设备
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
US10248662B2 (en) Generating descriptive text for images in documents using seed descriptors
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
WO2019085355A1 (zh) 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质
US8601120B2 (en) Update notification method and system
CN103544176B (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
US20110167053A1 (en) Visual and multi-dimensional search
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
JP5296045B2 (ja) 広告情報提供装置
JP2004348241A (ja) 情報提供方法、サーバ及びプログラム
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
WO2008002638A1 (en) Visual and multi-dimensional search
US20150154295A1 (en) Searching method, system and storage medium
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN104503988B (zh) 搜索方法及装置
WO2021068681A1 (zh) 标签分析方法、装置及计算机可读存储介质
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN112740202A (zh) 使用内容标签执行图像搜索
JP6419969B2 (ja) 画像の提示情報を提供するための方法及び機器
JP5115059B2 (ja) キーワード分類装置
CN103631793B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
US20170235835A1 (en) Information identification and extraction
CN110413861B (zh) 基于网络爬虫的链接提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12883417

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14412372

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12883417

Country of ref document: EP

Kind code of ref document: A1