WO2023191259A1 - 시선 추적을 통한 공간 이미지 추천 장치 및 방법 - Google Patents

시선 추적을 통한 공간 이미지 추천 장치 및 방법 Download PDF

Info

Publication number
WO2023191259A1
WO2023191259A1 PCT/KR2022/095071 KR2022095071W WO2023191259A1 WO 2023191259 A1 WO2023191259 A1 WO 2023191259A1 KR 2022095071 W KR2022095071 W KR 2022095071W WO 2023191259 A1 WO2023191259 A1 WO 2023191259A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
spatial
gaze
spatial image
source image
Prior art date
Application number
PCT/KR2022/095071
Other languages
English (en)
French (fr)
Inventor
김태현
Original Assignee
쉐어잇 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쉐어잇 주식회사 filed Critical 쉐어잇 주식회사
Publication of WO2023191259A1 publication Critical patent/WO2023191259A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Definitions

  • the present invention relates to an apparatus and method for recommending spatial images through eye tracking, and more specifically, to an apparatus and method for providing recommended spatial images to a user through eye tracking.
  • the present invention was proposed in consideration of the above-described conventional circumstances, and is a spatial image through eye tracking that tracks the user's gaze and provides an appropriate recommended space image according to where the user's gaze mainly stays in the spatial image.
  • the purpose is to provide recommended devices and methods.
  • an apparatus for recommending spatial images through eye tracking includes: a storage module for storing a spatial image table containing information on the characteristics of each of a plurality of spatial images; and a control module having an arithmetic processing function, wherein the control module searches the spatial image table for a spatial image corresponding to a search term received from the user's terminal, based on a plurality of commands stored in the storage module. transmits it to the terminal as a source image, collects the user's gaze movement data for the source image from the terminal displaying the source image, and performs gaze movement based on the collected gaze movement data and the spatial image table.
  • a spatial image similar to the image is provided to the terminal as a recommended spatial image.
  • the eye movement data includes temporal location information of the user's gaze with respect to the source image
  • the control module analyzes the gaze movement on the source image based on the gaze movement data to determine the characteristics of the source image.
  • the gaze time of the user's gaze toward each of the features can be calculated, and the similarity between spatial images can be calculated based on the gaze time of each feature.
  • the features include objects appearing on the spatial image and the atmosphere of the spatial image, and the control module determines the time when the user's gaze is positioned on each of the objects for a certain period of time or more.
  • the gaze time for the atmosphere may be determined as the gaze time for the atmosphere, and the time during which the user's gaze is not located on any of the objects for more than a certain period of time may be determined as the gaze time for the atmosphere.
  • the control module calculates an atmosphere weight of the source image using the gaze time for the atmosphere, calculates a weight for each object of the source image using the gaze time for each of the objects, and calculates the calculated atmosphere. Similarity between the spatial images can be calculated based on the weight and the weight for each object.
  • the atmosphere weight can be calculated through Equation 1 below, and the weight for each object can be calculated through Equation 2 below.
  • T1 i refers to the time when the user's gaze is located on the ith object of the source image for more than a certain period of time
  • T2 is the time when the user's gaze is not located on any of the objects for more than a certain period of time means
  • the control module obtains the similarity between the atmosphere of the source image and the atmosphere of the other spatial image, obtains the similarity between the object of the source image and the object of the other spatial image, and uses the calculated similarity between atmospheres and similarity between objects.
  • the similarity between spatial images is obtained, and the similarity between the source image and the other spatial image can be calculated by applying the atmosphere weight to the similarity between the atmospheres and the object-specific weighting to the similarity between the objects.
  • the control module may collect eye movement data from the terminal from the time the user looks at the source image until the image recommendation menu is selected.
  • the spatial image recommendation method through eye tracking is a method performed in a spatial image recommendation device through eye tracking, and includes a spatial image that includes information about the characteristics of each of a plurality of spatial images.
  • Figure 1 is a configuration diagram of a system employing a spatial image recommendation device through eye tracking according to an embodiment of the present invention.
  • FIG. 2 is an internal configuration diagram of the server shown in FIG. 1.
  • Figure 3 is a diagram showing an example of a spatial image (ie, source image) provided according to a search term in an embodiment of the present invention.
  • FIGS. 4 and 5 are diagrams for explaining the spatial image table stored in the database shown in FIG. 1.
  • Figure 6 is a diagram showing an example of eye movement data collected by eye tracking in an embodiment of the present invention.
  • Figure 7 is a diagram used to explain the process of calculating similarity between spatial images in an embodiment of the present invention.
  • Figure 8 is a flow chart to explain a spatial image recommendation method through eye tracking according to an embodiment of the present invention.
  • Figure 1 is a configuration diagram of a system employing a spatial image recommendation device through eye tracking according to an embodiment of the present invention.
  • the system in FIG. 1 may include a terminal 10, a camera 20, a server 30, and a database 40.
  • the system of the present invention provides the terminal 10 with a spatial image (source image) corresponding to the search term from the terminal 10, then tracks and analyzes the user's eye movement, and pre-stores the data based on the eye movement analysis result.
  • a service can be performed by calculating the similarity between spatial images and determining and providing a recommended spatial image similar to the spatial image corresponding to the search term based on the calculated similarity.
  • Each component in Figure 1 is generally connected through a network.
  • the terminal 10 is connected to the server 30 through a network (not shown).
  • the above-described network may be a wireless communication network or a wired communication network.
  • wireless communication networks include Wireless LAN (WLAN), Wireless Broadband (Wibro), WCDMA (Wideband CDMA), IEEE 802.16, Long Term Evolution (LTE), LTE-A (Long Term Evolution-Advanced), Bluetooth, RFID (Radio Frequency Identification), Infrared Data Association (IrDA), UWB (Ultra-Wideband), ZigBee, Near Field Communication (Near) It may include, but is not limited to, Field Communication (NFC)), Ultrasound Communication (USC), Visible Light Communication (VLC), and Wi-Fi.
  • WLAN Wireless LAN
  • Wibro Wireless Broadband
  • WCDMA Wideband CDMA
  • wired communication networks include wired LAN (Local Area Network), wired WAN (Wide Area Network), Power Line Communication (PLC), USB communication, Ethernet, serial communication, It may include, but is not limited to, optical/coaxial cable communication.
  • wired LAN Local Area Network
  • wired WAN Wide Area Network
  • PLC Power Line Communication
  • USB communication Ethernet
  • serial communication It may include, but is not limited to, optical/coaxial cable communication.
  • the terminal 10 is an electronic device used by a user and has a camera 20 installed therein.
  • the terminal 10 can input a predetermined search word to receive a spatial image recommendation service through eye tracking.
  • the terminal 10 can transmit a predetermined search word through the user's key input to the server 30 through a network (not shown).
  • the terminal 10 may receive a spatial image corresponding to the search term.
  • the spatial image corresponding to the search term can be said to be a source image for generating user's eye movement data.
  • the terminal 10 may track the user's gaze movement in the source image in conjunction with the camera 20 and generate gaze movement data according to the tracking.
  • Eye movement data may include temporal location information of the user's gaze with respect to the source image.
  • a zero-point adjustment operation may be performed first to align the user's gaze with a predetermined test image.
  • the test image does not necessarily need to be a spatial image.
  • a task of looking at the outer edge of the test image can be performed through a predetermined test image, and then a source image of the same size as the test image can be provided. Afterwards, the terminal 10 will be able to track the user's eye movement and generate eye movement data according to the tracking.
  • the terminal 10 may transmit gaze movement data to the server 30.
  • the terminal 10 receives a spatial image (i.e., source image) corresponding to a search term and displays it on the screen
  • a spatial image i.e., source image
  • various objects e.g., windows, tables, chairs, sofas, etc.
  • the terminal 10 can generate location information on the movement of the user's gaze within the source image in real time.
  • the terminal 10 includes a processor (not shown) capable of generating eye movement data based on eye movement tracking.
  • the terminal 10 may transmit an image recommendation request to the server 30.
  • An image recommendation request may be made by the user selecting a corresponding menu (eg, image recommendation request menu).
  • the image recommendation request menu may be placed in a location unrelated to the area where the source image is displayed.
  • the image recommendation request may include eye movement data.
  • the terminal 10 can be seen as collecting eye movement data from the time the user looks at the source image until the image recommendation request menu is selected. Therefore, when transmitting an image recommendation request to the server 30, the terminal 10 may transmit eye movement data collected before the image recommendation is selected.
  • eye movement data there may be eye movement data where the user's gaze is outside the range of the source image. As such, it is desirable that eye movement data outside the range of the source image be excluded from transmission to the server 30.
  • the terminal 10 collects eye movement data from the time the user looks at the source image until the image recommendation request menu is selected. However, it is okay to do it differently. For example, the terminal 10 transmits eye movement data to the server 30 in real time until the image recommendation request menu is selected, and the server 30 transmits eye movement data to the server 30 until the image recommendation request from the terminal 10 is received. Eye movement data may be collected from the terminal 10. Additionally, the terminal 10 may stop transmitting eye movement data when it is time to transmit an image recommendation request.
  • the entity that collects eye movement data is not that important. From the server 30's perspective, it is sufficient to perform gaze movement analysis based on the gaze movement data at any time when the gaze movement data is received.
  • the terminal 10 may receive a recommended space image from the server 30.
  • the terminal 10 can display the received recommended space image on the screen.
  • the terminal 10 may include an input module (not shown), a display module (not shown), and a communication module (not shown).
  • the terminal 10 may further include a storage module (not shown) that stores eye movement data.
  • the terminal 10 is a computing device with an arithmetic processing function, and may be a mobile device or a fixed device equipped with a camera 20.
  • the terminal 10 may mean a computer, personal computer (PC), smartphone, navigation, laptop computer, tablet computer, wearable device, or tablet, but embodiments of the present invention are not limited thereto.
  • terminal 10 Although only one terminal 10 is shown in Figure 1, it is better to understand that in reality, there are multiple terminals 10.
  • the terminal 10 described above may be referred to as a user terminal or a customer terminal.
  • the camera 20 is an electronic device installed in the terminal 10 and can track the user's eye movements. That is, a spatial image (i.e., source image) corresponding to the search word will be displayed on the screen of the terminal 10, and when the user moves his or her gaze while looking at the source image, the camera 20 can track the gaze movement.
  • a spatial image i.e., source image
  • the camera 20 may be installed in the terminal 10 in a mounted form, or may be attached to or built into the terminal 10 in the form of a webcam.
  • the server 30 may be a spatial image recommendation device through eye tracking according to an embodiment of the present invention.
  • the spatial image recommendation device through eye tracking according to an embodiment of the present invention may be included in the server 30.
  • the server 30 may provide a spatial image recommendation service through eye tracking to the user.
  • the server 30 may receive a search term from the terminal 10.
  • the server 30 can search for spatial images corresponding to the search term in the database 40.
  • the server 30 may transmit the searched one spatial image as a source image to the terminal 10.
  • the server 30 may randomly select one spatial image from among the multiple searched spatial images as the source image and transmit it to the terminal 10.
  • the above-described source image is a spatial image provided to enable the terminal 10 to generate eye movement data of the user.
  • the server 30 may receive or collect eye movement data according to eye movement tracking in the terminal 10.
  • the server 30 may receive an image recommendation request from the terminal 10.
  • the image recommendation request may include eye movement data.
  • the server 30 can be viewed as receiving eye movement data in addition to receiving the image recommendation request.
  • the server 30 can be considered to collect eye movement data by receiving and storing eye movement data from the terminal 10 in real time until receiving an image recommendation request. In the end, from the server 30's perspective, receiving and collecting are not that big of a difference technically.
  • the eye movement data that the server 30 receives or collects is those where the user's gaze is within the range of the source image. This is because the terminal 10 excludes from transmission gaze movement data where the user's gaze is outside the range of the source image.
  • the server 30 collects eye movement data in real time.
  • the server 30 may analyze the user's eye movement based on the eye movement data collected so far.
  • each eye movement data includes time-specific location information of the user's gaze with respect to the source image, so the server 30 determines which feature of the source image the gaze is looking at based on the gaze movement data. You can judge.
  • the features may include objects appearing on the spatial image (including the source image) and the atmosphere of the spatial image (including the source image). Additionally, whether or not someone is watching can be determined based on whether they are located for more than a certain period of time.
  • the server 30 may analyze (or interpret) the movement of the user's gaze on the source image based on the gaze movement data and calculate the gaze time of the user's gaze for each feature of the source image. In other words, the server 30 can calculate how long the gaze stayed on each feature in the source image. For example, if object 1 has 5 focusing positions and the total time spent at the 5 focusing positions is totaled, the time the gaze stays on object 1 can be calculated.
  • the server 30 calculates the mood weight (MW) of the source image and the weight for each object (OW 1 to OW n ) (Object Weight) based on the eye movement analysis results and then stores them in the space in the database 40. This can be reflected in the similarity between images (TSIM, Total Similarity).
  • TSIM similarity between spatial images
  • TSIM can be generated based on the similarity of atmosphere and similarity between objects between two spatial images being compared. For example, for each spatial image there is an atmosphere and one or more objects.
  • the server 30 can obtain the similarity (MSIM, Mood Similarity) between the mood of spatial image 1 and the mood of spatial image 2, and The similarity (OSIM, Object Similarity) between the object in and the object in spatial image 2 can be obtained.
  • the object of spatial image 1 and the object of spatial image 2 must be of the same type.
  • the server 30 may obtain the atmosphere similarity (MSIM) and the similarity between objects (OSIM) between the two spatial images described above based on information in the spatial image table in the database 40.
  • the server 30 can obtain the atmosphere similarity (MSIM) and the similarity between objects (OSIM) between two spatial images through a model previously learned according to a deep learning algorithm.
  • the server 30 may add the calculated atmosphere similarity (MSIM) and object-to-object similarity (OSIM) between the two spatial images, and refer to the sum result as the similarity between the two spatial images (TSIM).
  • the server 30 can obtain the similarity between all spatial images in the database 40.
  • the server 30 may determine a recommended spatial image similar to the source image corresponding to the search term based on the calculated similarity between spatial images (TSIM). Next, the server 30 may transmit the determined recommended space image to the terminal 10.
  • TSIM calculated similarity between spatial images
  • the database 40 stores a spatial image table containing information about the characteristics of each of a plurality of spatial images.
  • the features may include objects appearing on the spatial image and the atmosphere of the spatial image.
  • the database 40 is configured independently, but it can be considered to be included in the server 30 if necessary.
  • FIG. 2 is an internal configuration diagram of the server 30 shown in FIG. 1
  • FIG. 3 is a diagram showing an example of a spatial image (i.e., source image) provided according to a search term in an embodiment of the present invention
  • FIG. 4 and FIG. 5 is a diagram for explaining the spatial image table stored in the database shown in FIG. 1
  • FIG. 6 is a diagram showing an example of eye movement data collected by eye tracking in an embodiment of the present invention
  • FIG. 7 is a diagram used to explain the process of calculating similarity between spatial images in an embodiment of the present invention.
  • Server 30 may include a communication module 32, a storage module 34, and a control module 36. If necessary, the communication module 32, storage module 34, and control module 36 may also be referred to as a communication module section, a storage module section, and a control module section.
  • the communication module 32 can exchange data with the terminal 10.
  • the communication module 32 can exchange data with the terminal 10 according to a wireless communication method or a wired communication method.
  • the storage module 34 can store data necessary for the operation of the server 30. Depending on embodiments, the storage module 34 may store eye movement data from the terminal 10 received by the communication module 32.
  • the storage module 34 may store the spatial image table read by the control module 36 from the database 40.
  • the storage module 34 may be a database, but is not limited thereto.
  • the storage module 34 can store a program consisting of instructions for performing a series of operations performed by the server 30.
  • Storage module 34 may include a non-volatile memory device or a volatile memory device. Depending on the embodiment, the storage module 34 may be included in the control module 36, but is not limited thereto.
  • the control module 36 can control the overall operations of the server 30.
  • the control module 36 may receive a search word from the terminal 10 through the communication module 32.
  • the control module 36 may search the spatial image table of the database 40 for a source image (see FIG. 3) corresponding to the search term. More specifically, the control module 36 transmits the searched source image to the terminal 10, and may transmit one source image. For example, if there is one searched source image, the control module 36 may transmit the searched one source image to the terminal 10. Meanwhile, if there are multiple searched source images, the control module 36 may randomly select one source image from among the multiple searched source images and transmit it to the terminal 10.
  • the above-described source image is a spatial image that allows the terminal 10 to generate eye movement data of the user.
  • the source image is a spatial image corresponding to the search term among a plurality of spatial images in the database 40.
  • the source image may include various objects as illustrated in FIG. 3.
  • a window (1), a wall (2), a table (3), a floor (4), etc. can be called objects.
  • the above-mentioned spatial image table may include information (eg, level value or attribute value) on the atmosphere (mood) for each spatial image, as illustrated in FIG. 4.
  • the atmosphere may refer to the feeling of each spatial image, such as a warm atmosphere, a cold atmosphere, etc.
  • the spatial image table may include location, type, and attribute information for each object in each spatial image, as illustrated in FIG. 5.
  • the location may mean the location where the corresponding object is located within the spatial image.
  • Type may refer to the type of object, such as a table, sofa, etc. Properties can be the size, color, etc. of the object.
  • the spatial image table of FIG. 4 and the spatial image table of FIG. 5 can be collectively referred to.
  • the control module 36 can collect gaze movement data (see FIG. 6) in real time according to eye movement tracking in the terminal 10. For example, for a source image such as that shown in FIG. 3, the gaze position information over time may be the same as that shown in FIG. 6. Assuming that the user looks at the window (1), then the wall (2), and then looks at the table (3), there are 7 focused gazes on the window (1), and 5 focused gazes on the wall (2). They are located in several places, and the focused gaze can be located in 10 places on the table (3). Also, the time the gaze stays may be different depending on the location of the focused gaze. Here, focused can be understood as the user's gaze focusing on the object at the corresponding location. In this way, the terminal 10 can transmit gaze movement data according to gaze movement tracking in real time. Accordingly, the control module 36 can collect gaze movement data transmitted in real time.
  • the control module 36 may store the collected eye movement data in the storage module 34 .
  • the terminal 10 can generate gaze movement data in real time from the time the user looks at the source image until the image recommendation menu is selected and transmit it to the server 30. Accordingly, the control module 36 can collect gaze movement data in real time before receiving an image recommendation request and store it in the storage module 34.
  • the image recommendation request is generated in the terminal 10 when the user selects the image recommendation request menu.
  • control module 36 may analyze the user's eye movement based on eye movement data stored in the storage module 34.
  • the control module 36 may determine which feature of the source image the user's gaze is focused on based on the collected eye movement data and the spatial image table. In other words, the control module 36 analyzes (or can be said to interpret) the movement of the user's gaze on the source image based on the collected eye movement data and focuses the user's gaze on each feature of the source image. Time can be calculated. That is, the control module 36 can determine whether the user is fixating on features (eg, objects or atmosphere) appearing in the source image based on the eye movement data, and can calculate the fixation time for which fixation continues.
  • features eg, objects or atmosphere
  • the user When the user's gaze continues to be located on a specific object among objects appearing on the source image, the user may be considered to be looking at the specific object. On the other hand, if the user's gaze is not continuously positioned on any of the objects that appear on the source image, the user may be considered to be looking at the atmosphere of the source image rather than looking at a specific object.
  • the control module 36 may determine whether the user's gaze is positioned on each object shown in the source image for a certain period of time or more through time series analysis of eye movement data.
  • the schedule time may be predetermined or may be changed.
  • the control module 36 refers to the spatial image table of FIG. 5 and compares the position of the user's gaze with the positions of objects on the source image, so that the user's gaze moves to each object shown in the source image for a certain period of time or more. It is possible to determine whether it is continuously located.
  • the control module 36 sets a predetermined area including each of the objects on the source image, and when the predetermined area includes the position of the user's gaze, the user's gaze is located on the object shown in the source image. It can be judged that
  • the control module 36 may reduce the size of the predetermined area in proportion to the time when the user's gaze is located in the predetermined area.
  • a user looks at a specific object, he or she initially looks at a wide area around the specific object, but as time passes, he/she focuses his/her gaze on a narrower area around the specific object. Accordingly, if the size of the predetermined area that determines whether or not the user's gaze is focused is reduced as the time in which the user's gaze is located passes, it is possible to determine with high reliability whether the user's gaze is focused on a specific object.
  • the control module 36 may calculate the time (T1) during which the user's gaze is positioned on each object for a certain period or more through analysis of eye movement data. At this time, the control module 36 may calculate the time (T1) during which the user's gaze remains on each object appearing on the source image for a certain period or more. Additionally, the control module 36 may calculate the time (T2) during which the user's gaze is not positioned on any of the objects appearing on the source image for more than a certain period of time through analysis of eye movement data.
  • the control module 36 may determine the time (T1) at which the user's gaze is positioned on each of the objects for a certain period of time or more as the gaze time for each of the objects. Meanwhile, the control module 36 may determine the time (T2) during which the user's gaze is not positioned on any of the objects for more than a certain period of time as the gaze time for the atmosphere.
  • the control module 36 calculates the mood weight (MW) of the source image using the gaze time for the mood (i.e., T2). Additionally, the control module 36 calculates weights (OW 1 to OW n ) (Object Weight) for each object of the source image using the gaze time (i.e., T1) for each object. Thereafter, the control module 36 may calculate the total similarity (TSIM) between spatial images based on the atmosphere weight (MW) and the object-specific weight (OW i ) of the source image calculated as shown in FIG. 7 .
  • TSIM total similarity
  • Equation 1 the atmosphere weight (MW) of the source image
  • Equation 2 the weight for each object (OW i ) of the source image
  • T1 i refers to the time when the user's gaze is positioned on the ith object of the source image for a certain period of time or more
  • T2 refers to the time when the user's gaze is positioned on any of the objects for a certain period of time. It refers to a period of time that is not located for more than a period of time.
  • a certain amount of time can be set appropriately.
  • the weight for each object considers the time the gaze stays on the object, so the weight for the object on which the gaze stays for the most time will be larger than the weights for other objects.
  • the control module 36 calculates the degree of similarity (MSIM) between the atmosphere of spatial image 1 and the atmosphere of spatial image 2, which are comparison objects, and compares the objects (e.g., chairs, windows, etc.) of spatial image 1 Calculate the degree of similarity (OSIM1, OSIM2) between objects (e.g., chairs, windows, etc.) in spatial image 2.
  • MSIM degree of similarity
  • OSIM1, OSIM2 degree of similarity
  • spatial image 1 is a spatial image in the spatial image table but is a source image corresponding to the search term
  • spatial image 2 is a spatial image other than the source image among the spatial images in the spatial image table.
  • the control module 36 calculates the similarity between spatial images (TSIM) by summing the calculated similarity between atmospheres (MSIM) and the similarity between objects (OSIM1, OSIM2). At this time, the control module 36 applies the atmosphere weight (MW) to the calculated similarity between atmospheres (MSIM) and applies the object-specific weight (OW i ) to the calculated similarity between objects (OSIM1, OSIM2) to determine the relationship between spatial images. Find the similarity (TSIM). Here, applying may mean adding or multiplying.
  • the similarity between spatial images (TSIM) described above refers to the similarity between a source image (eg, spatial image 1) and another spatial image.
  • the control module 36 may calculate the similarity between the source image and other spatial images in the spatial image table. In this way, the similarity between the source image (e.g. spatial image 1) and spatial image 2 (TSIM), the similarity between the source image (e.g. spatial image 1) and spatial image 3 (TSIM), the source image (e.g. spatial image 1) The similarity (TSIM) between and spatial image 4 can be obtained. If the source image was not spatial image 1 but spatial image 3, the similarity between the source image (spatial image 3) and spatial image 1 (TSIM), the similarity between the source image (spatial image 3) and spatial image 2 (TSIM), the source The similarity (TSIM) between the image (spatial image 3) and spatial image 4 can be obtained.
  • the number of spatial images listed above is not limited to four, and there may be more.
  • the control module 36 When the similarity (TSIM) between spatial images reflecting the weights (MW, OW i ) is obtained in this way, the control module 36 creates a recommended space similar to the source image corresponding to the search term based on the calculated similarity (TSIM) between spatial images. Images (for example, about 1 to 2 images) can be determined. In this case, the control module 36 may determine, among the spatial images in the spatial image table, a spatial image that includes an object similar to the object on which the gaze stayed the longest among the objects in the source image as the recommended spatial image.
  • the control module 36 may transmit the determined recommended space image to the terminal 10 through the communication module 32.
  • the control module 36 may refer to a device that can perform a series of operations or decisions for the operation of the server 30.
  • the control module 36 may be a central processing unit (CPU), a micro controller unit (MCU), a graphical processing unit (GPU), an application specific integrated circuit (ASIC), or a field programmable gate array (FPGA). , but is not limited to this.
  • control module 36 may include at least one processor, and the at least one processor may control operations performed in the server 30 and provide a spatial image recommendation service through eye tracking. Other components included within the server 30 may be controlled to perform operations. Therefore, even if the control module 36 controls the spatial image recommendation service operation through eye tracking as an example, at least one processor included in the control module 36 performs the spatial image recommendation service through eye tracking. It is obvious that the operation can be controlled to be performed.
  • Figure 8 is a flow chart to explain a spatial image recommendation method through eye tracking according to an embodiment of the present invention.
  • the server 30 receives a search word from the terminal 10 (S10).
  • the server 30 receives a search term, it searches for a spatial image corresponding to the search term in the database 40 and transmits it to the terminal 10 as a source image (S20).
  • the terminal 10 tracks the user's eye movement in the source image in conjunction with the camera 20, generates eye movement data in real time according to the tracking, and transmits it to the server 30 (S30).
  • the server 30 collects eye movement data from the terminal 10 and stores it in the storage module 34 (S40).
  • the server 30 receives an image recommendation request from the terminal 10 (S50).
  • the server 30 Upon receiving the image recommendation request from the terminal 10, the server 30 analyzes the user's eye movement based on the eye movement data collected so far (S60).
  • the server 30 calculates the degree of similarity (TSIM) between spatial images based on the eye movement analysis results (S70). For example, based on the eye movement analysis results, the mood weight (MW) and object-specific weights (OW 1 to OW n ) of the source image are obtained, and then the similarity between spatial images (TSIM) is calculated based on these.
  • TSIM degree of similarity
  • the server 30 determines a recommended spatial image similar to the source image corresponding to the search term based on the calculated similarity between spatial images (TSIM) (S80).
  • the server 30 transmits the determined recommended space image to the terminal 10 (S90).
  • Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices. Additionally, computer-readable recording media can be distributed across computer systems connected to a network, so that computer-readable code can be stored and executed in a distributed manner. And, functional programs, codes, and code segments for implementing the method can be easily deduced by programmers in the technical field to which the present invention pertains.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

시선 추적을 통한 공간 이미지 추천 장치 및 방법이 제시된다. 제시된 장치는 연산 처리 기능을 갖는 제어 모듈을 포함하고, 제어 모듈은, 사용자의 단말로부터의 검색어에 상응하는 공간 이미지를 공간 이미지 테이블에서 탐색하여 소스 이미지로서 단말에게로 전송하고, 소스 이미지를 표시하는 단말로부터 소스 이미지에 대한 사용자의 시선 움직임 데이터를 수집하고, 수집된 시선 움직임 데이터 및 공간 이미지 테이블을 근거로 시선 움직임을 분석하고, 시선 움직임의 분석 결과를 근거로 소스 이미지와 공간 이미지 테이블의 다른 공간 이미지 간의 유사도를 계산하고, 계산된 공간 이미지 간의 유사도에 근거하여 다수의 공간 이미지들 중에서 소스 이미지와 유사한 공간 이미지를 추천 공간 이미지로서 단말에게로 제공한다.

Description

시선 추적을 통한 공간 이미지 추천 장치 및 방법
본 발명은 시선 추적을 통한 공간 이미지 추천 장치 및 방법에 관한 것으로, 보다 상세하게는 사용자의 시선 추적을 통하여 사용자에게 추천 공간 이미지를 제공할 수 있는 장치 및 방법에 관한 것이다.
개인 일상 생활에서 뉴스, 메일, 동영상, SNS, 메신저 등의 서비스를 사용할 때 디스플레이 기반(PC 모니터, 테블릿, TV, 핸드폰 등)으로 정보 소비가 늘어나고 있다.
현대인의 경우 일과 시간 중 50% 이상 디스플레이를 응시하고 있고 핸드폰의 경우 거의 24시간 신체에 밀착하고 있다.
시선을 추적해서 사용자의 의도를 파악하는 기술은 광고, 마케팅, 커뮤니케이션 영역에서 많이 있어 왔다. 근래에는 컴퓨터, 휴대전화, TV 등과 같은 전자제품에 전방 카메라가 기본적으로 탑재되어 있어서 이를 이용하면 간단한 시선 정보를 수집할 수 있게 되었다.
이상의 배경기술에 기재된 사항은 발명의 배경에 대한 이해를 돕기 위한 것으로서, 공개된 종래 기술이 아닌 사항을 포함할 수 있다.
본 발명은 상기한 종래의 사정을 감안하여 제안된 것으로, 사용자의 시선을 추적하여 사용자의 시선이 공간 이미지 중에서 어디에 주로 머물러 있는지에 따라 적절한 추천 공간 이미지를 제공할 수 있도록 하는 시선 추적을 통한 공간 이미지 추천 장치 및 방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시양태에 따른 시선 추적을 통한 공간 이미지 추천 장치는, 다수의 공간 이미지 각각의 특징들에 대한 정보를 포함하는 공간 이미지 테이블을 저장하는 저장 모듈; 및 연산 처리 기능을 갖는 제어 모듈;을 포함하고, 상기 제어 모듈은, 상기 저장 모듈에 저장된 복수의 명령들에 기초하여, 사용자의 단말로부터 수신된 검색어에 상응하는 공간 이미지를 상기 공간 이미지 테이블에서 탐색하여 소스 이미지로서 상기 단말에게로 전송하고, 상기 소스 이미지를 표시하는 상기 단말로부터 상기 소스 이미지에 대한 사용자의 시선 움직임 데이터를 수집하고, 상기 수집된 시선 움직임 데이터 및 상기 공간 이미지 테이블을 근거로 시선 움직임을 분석하고, 상기 시선 움직임의 분석 결과를 근거로 상기 소스 이미지와 상기 공간 이미지 테이블의 다른 공간 이미지 간의 유사도를 계산하고, 상기 계산된 공간 이미지 간의 유사도에 근거하여 상기 다수의 공간 이미지들 중에서 상기 소스 이미지와 유사한 공간 이미지를 추천 공간 이미지로서 상기 단말에게로 제공한다.
상기 시선 움직임 데이터는 상기 소스 이미지에 대한 상기 사용자의 시선의 시간별 위치 정보를 포함하고, 상기 제어 모듈은, 상기 시선 움직임 데이터를 근거로 상기 소스 이미지 상에서의 시선의 움직임을 분석하여 상기 소스 이미지의 특징들 각각에 상기 사용자의 시선이 향하는 주시 시간을 계산하고, 특징들 각각의 주시 시간에 기초하여 공간 이미지 간의 유사도를 계산할 수 있다.
상기 특징들은 상기 공간 이미지 상에 나타난 객체들 및 상기 공간 이미지의 분위기를 포함하고, 상기 제어 모듈은, 상기 사용자의 시선이 상기 객체들 각각에 일정 시간 이상 지속하여 위치하는 시간을 상기 객체들 각각에 대한 주시 시간으로 결정하고, 상기 사용자의 시선이 상기 객체들 중 어느 것에도 일정 시간 이상 지속하여 위치하지 않는 시간을 상기 분위기에 대한 주시 시간으로 결정할 수 있다.
상기 제어 모듈은, 상기 분위기에 대한 주시 시간을 이용하여 상기 소스 이미지의 분위기 가중치를 계산하고, 상기 객체들 각각에 대한 주시 시간을 이용하여 상기 소스 이미지의 객체별 가중치를 계산하고, 계산된 상기 분위기 가중치 및 객체별 가중치를 근거로 상기 공간 이미지 간의 유사도를 계산할 수 있다.
상기 분위기 가중치는 하기의 식 1을 통해 계산되고, 상기 객체별 가중치는 하기의 식 2를 통해 계산될 수 있다.
(식 1)
Figure PCTKR2022095071-appb-img-000001
(식 2)
Figure PCTKR2022095071-appb-img-000002
(T1i는 상기 소스 이미지의 i번째 객체에 상기 사용자의 시선이 일정 시간 이상 지속하여 위치한 시간을 의미하고, T2는 상기 사용자의 시선이 객체들 중 어느 객체에도 일정 시간 이상 지속하여 위치하지 않은 시간을 의미한다)
상기 제어 모듈은, 상기 소스 이미지의 분위기와 상기 다른 공간 이미지의 분위기 간의 유사도를 구하고, 상기 소스 이미지의 객체와 상기 다른 공간 이미지의 객체 간의 유사도를 구하고, 계산된 분위기 간의 유사도 및 객체 간의 유사도를 이용하여 공간 이미지 간의 유사도를 구하되, 상기 분위기 간의 유사도에 상기 분위기 가중치를 적용하고, 상기 객체 간의 유사도에 상기 객체별 가중치를 적용하여 상기 소스 이미지와 상기 다른 공간 이미지 간의 유사도를 계산할 수 있다.
상기 제어 모듈은, 사용자가 상기 소스 이미지를 바라본 시점부터 이미지 추천 메뉴가 선택되기 전까지의 시선 움직임 데이터를 상기 단말로부터 수집할 수 있다.
한편, 본 발명의 바람직한 실시양태에 따른 시선 추적을 통한 공간 이미지 추천 방법은, 시선 추적을 통한 공간 이미지 추천 장치에서 수행되는 방법으로서, 다수의 공간 이미지 각각의 특징들에 대한 정보를 포함하는 공간 이미지 테이블에서 사용자의 단말로부터 수신된 검색어에 상응하는 공간 이미지를 탐색하여 소스 이미지로서 상기 단말에게로 전송하는 단계; 상기 소스 이미지를 표시하는 상기 단말로부터 상기 소스 이미지에 대한 사용자의 시선 움직임 데이터를 수집하는 단계; 상기 수집된 시선 움직임 데이터 및 상기 공간 이미지 테이블을 근거로 시선 움직임을 분석하는 단계; 상기 시선 움직임의 분석 결과를 근거로 상기 소스 이미지와 상기 공간 이미지 테이블의 다른 공간 이미지 간의 유사도를 계산하는 단계; 및 상기 계산된 공간 이미지 간의 유사도에 근거하여 상기 다수의 공간 이미지들 중에서 상기 소스 이미지와 유사한 공간 이미지를 추천 공간 이미지로서 상기 단말에게로 제공하는 단계;를 포함한다.
이러한 구성의 본 발명에 따르면, 사용자의 시선을 추적하여 사용자의 시선이 공간 이미지 중에서 어디에 주로 머물러 있는지에 따라 적절한 추천 공간 이미지를 제공해 줄 수 있다.
도 1은 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 장치가 채용된 시스템의 구성도이다.
도 2는 도 1에 도시된 서버의 내부 구성도이다.
도 3은 본 발명의 실시예에서 검색어에 따라 제공되는 공간 이미지(즉, 소스 이미지)의 일 예를 나타낸 도면이다.
도 4 및 도 5는 도 1에 도시된 데이터베이스에 저장된 공간 이미지 테이블을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에서 시선 추적에 의해 수집되는 시선 움직임 데이터의 일 예를 나타낸 도면이다.
도 7은 본 발명의 실시예에서 공간 이미지 간의 유사도를 계산하는 과정을 설명하기 위해 채용되는 도면이다.
도 8은 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 방법을 설명하기 위한 플로우차트이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 장치가 채용된 시스템의 구성도이다.
도 1의 시스템은, 단말(10), 카메라(20), 서버(30), 및 데이터베이스(40)를 포함할 수 있다. 본 발명의 시스템은 단말(10)로부터의 검색어에 상응하는 공간 이미지(소스 이미지)를 단말(10)에게로 제공한 후에 사용자의 시선 움직임을 추적 및 분석하고, 시선 움직임 분석 결과를 근거로 기저장된 공간 이미지 간의 유사도를 계산하고, 계산된 유사도에 근거하여 검색어에 상응하는 공간 이미지와 유사한 추천 공간 이미지를 결정하여 제공하는 서비스를 수행할 수 있다.
도 1의 각 구성요소들은 일반적으로 네트워크를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 단말(10)은 네트워크(도시 생략)를 통해 서버(30)와 연결된다.
상술한 네트워크로는 무선 통신 방식의 네트워크 또는 유선 통신 방식의 네트워크가 있을 수 있다.
예를 들어, 무선 통신 방식의 네트워크는 무선랜(Wireless LAN (WLAN)), 와이브로(Wireless Broadband (Wibro)), WCDMA(Wideband CDMA), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution (LTE)), LTE-A(Long Term Evolution-Advanced), 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra-Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication (NFC)), 초음파 통신(Ultra Sound Communication (USC)), 가시광 통신(Visible Light Communication (VLC)), 와이 파이(Wi-Fi) 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
한편, 유선 통신 방식의 네트워크는 유선 LAN(Local Area Network), 유선 WAN(Wide Area Network), 전력선 통신(Power Line Communication (PLC)), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 통신 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
단말(10)은 사용자가 사용하는 전자기기로서, 카메라(20)가 설치되어 있다.
단말(10)은 시선 추적을 통한 공간 이미지 추천 서비스를 받기 위해 소정의 검색어 입력이 가능하다.
단말(10)은 사용자의 키입력에 의한 소정의 검색어를 네트워크(도시 생략)를 통해 서버(30)에게로 전송할 수 있다.
단말(10)은 검색어에 상응하는 공간 이미지를 수신할 수 있다. 여기서, 검색어에 상응하는 공간 이미지는 사용자의 시선 움직임 데이터 생성을 위한 소스 이미지(source image)라고 할 수 있다.
물론, 사용자는 단말(10)에 화면표시된 소스 이미지가 마음에 들지 않으면 교체 요청을 할 수 있다.
단말(10)은 카메라(20)와 연계하여 소스 이미지에서의 사용자의 시선 움직임을 추적하고, 추적에 따라 시선 움직임 데이터를 생성할 수 있다. 시선 움직임 데이터는 소스 이미지에 대한 사용자의 시선의 시간별 위치 정보를 포함할 수 있다. 물론, 사용자의 시선 움직임을 추적하기 전에 소정의 테스트 이미지에 사용자의 시선을 맞추는 영점 조절 작업이 먼저 수행될 수 있다. 여기서, 테스트 이미지는 굳이 공간 이미지일 필요는 없다. 시선 움직임 추적 전에 소정의 테스트 이미지를 통해서 테스트 이미지의 외곽 끝을 바라보는 작업을 수행하고 나서, 테스트 이미지와 동일한 사이즈의 소스 이미지를 제공할 수 있다. 이후, 단말(10)은 사용자의 시선 움직임을 추적하고, 추적에 따라 시선 움직임 데이터를 생성할 수 있을 것이다.
단말(10)은 시선 움직임 데이터를 서버(30)에게로 전송할 수 있다.
예를 들어, 단말(10)은 검색어에 상응하는 공간 이미지(즉, 소스 이미지)를 수신하여 화면표시하면, 사용자는 소스 이미지내의 각종의 객체(예컨대, 창문, 테이블, 의자, 소파 등)를 제각기의 시간으로 응시할 수도 있고 소스 이미지를 전체적으로 훑어볼 수 있다. 그에 따라, 시선이 제 1 객체에 소정 시간 머물러 있다가 제 2 객체로 이동할 수도 있고, 어느 객체는 시선이 순간적으로 지나쳐 갈 수도 있다.
이와 같이 단말(10)은 소스 이미지내에서 사용자의 시선이 움직인 위치 정보를 실시간으로 생성할 수 있다.
단말(10)은 시선 움직임 추적에 따른 시선 움직임 데이터를 생성할 수 있는 프로세서(도시 생략)를 포함한다.
여기서, 사용자의 시선 움직임을 추적하고 시선 움직임 데이터를 생성하는 방식은 당업자라면 주지의 기술로 충분히 이해할 수 있으므로, 그에 대한 상세한 설명은 생략하기로 한다.
단말(10)은 이미지 추천 요청을 서버(30)에게로 전송할 수 있다. 이미지 추천 요청은 사용자의 해당 메뉴(예컨대, 이미지 추천 요청 메뉴) 선택에 의해 이루어질 수 있다. 이미지 추천 요청 메뉴는 소스 이미지가 표시되는 영역과는 무관한 위치에 배치되어 있을 수 있다. 이때, 이미지 추천 요청은 시선 움직임 데이터를 포함할 수 있다. 즉, 단말(10)은 사용자가 소스 이미지를 바라본 시점부터 이미지 추천 요청 메뉴가 선택되기 전까지의 시선 움직임 데이터를 수집해 둔다고 볼 수 있다. 그래서, 이미지 추천 요청을 서버(30)에게로 전송할 때에는 단말(10)은 이미지 추천이 선택되기 전까지 수집해둔 시선 움직임 데이터를 전송할 수 있다.
물론, 시선 움직임 데이터 중에서 사용자의 시선이 소스 이미지의 범위를 벗어난 시선 움직임 데이터가 있을 수 있는데, 이와 같이 소스 이미지의 범위를 벗어난 시선 움직임 데이터는 서버(30)로의 전송에서 제외됨이 바람직하다.
상기의 설명에서는 단말(10)이 사용자가 소스 이미지를 바라본 시점부터 이미지 추천 요청 메뉴가 선택되기 전까지의 시선 움직임 데이터를 수집하는 것으로 하였다. 그러나, 이와 다르게 하여도 무방하다. 예를 들어, 단말(10)은 이미지 추천 요청 메뉴가 선택되기 전까지 시선 움직임 데이터를 실시간으로 서버(30)에게로 전송하고, 서버(30)는 단말(10)로부터의 이미지 추천 요청을 수신하기 전까지 시선 움직임 데이터를 단말(10)로부터 수집하는 것으로 하여도 된다. 그리고, 단말(10)은 이미지 추천 요청을 전송할 시점이 되면 시선 움직임 데이터 전송을 중단할 수 있다.
본 발명의 실시예에서, 시선 움직 데이터를 수집하는 주체가 그리 중요한 것은 아니다. 서버(30)의 입장에서는 시선 움직임 데이터를 수신하는 시점이 언제든지 간에 시선 움직임 데이터를 근거로 시선 움직임 분석을 행할 수만 있으면 된다.
단말(10)은 서버(30)로부터의 추천 공간 이미지를 수신할 수 있다.
단말(10)은 수신한 추천 공간 이미지를 화면표시할 수 있다.
그에 따라, 단말(10)은 입력 모듈(도시 생략), 표시 모듈(도시 생략), 및 통신 모듈(도시 생략)을 포함할 수 있다.
필요에 따라, 단말(10)은 시선 움직임 데이터를 저장하는 저장 모듈(도시 생략)을 더 포함할 수 있다.
단말(10)은 연산 처리 기능을 갖는 컴퓨팅 장치로서, 카메라(20)가 설치된 이동형 장치이거나 또는 고정형 장치일 수 있다. 예컨대, 단말(10)은 컴퓨터, PC(personal computer), 스마트폰, 네비게이션, 랩톱 컴퓨터, 태블릿 컴퓨터, 웨어러블 장치 또는 태블릿 등을 의미할 수 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.
도 1에서는 단말(10)을 하나만 도시하였으나, 실제로는 다수의 단말(10)이 존재하는 것으로 이해하는 것이 좋다.
상술한 단말(10)은 사용자 단말 또는 고객 단말이라고 하여도 무방하다.
카메라(20)는 단말(10)에 설치된 전자기기로서, 사용자의 시선 움직임을 추적할 수 있다. 즉, 단말(10)의 화면에는 검색어에 상응하는 공간 이미지(즉, 소스 이미지)가 디스플레이될 것이고, 사용자가 소스 이미지를 보면서 시선을 움직이게 되면 카메라(20)가 시선 움직임을 추적할 수 있다.
예를 들어, 카메라(20)는 거치 형태로 단말(10)에 설치될 수도 있고, 웹캠 형태로 단말(10)에 부착되거나 내장될 수도 있다.
서버(30)는 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 장치가 될 수 있다. 물론, 필요에 따라서는 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 장치가 서버(30)에 포함되는 것으로 할 수도 있다.
서버(30)는 사용자에게 시선 추적을 통한 공간 이미지 추천 서비스를 제공할 수 있다.
서버(30)는 단말(10)로부터의 검색어를 수신할 수 있다.
서버(30)는 검색어를 수신함에 따라 데이터베이스(40)에서 해당 검색어에 상응하는 공간 이미지를 탐색할 수 있다. 여기서, 서버(30)는 탐색된 공간 이미지가 1개라면 탐색된 1개의 공간 이미지를 소스 이미지로서 단말(10)에게로 전송할 수 있다. 한편, 탐색된 공간 이미지가 여러 개라면 서버(30)는 탐색된 여러 개의 공간 이미지 중에서 랜덤하게 1개의 공간 이미지를 소스 이미지로 선정하여 단말(10)에게로 전송할 수 있다. 상술한 소스 이미지는 단말(10)에서 사용자의 시선 움직임 데이터를 생성할 수 있도록 하기 위해 제공되는 공간 이미지이다.
물론, 필요에 따라서는 단말(10)에게로 제공되는 소스 이미지를 복수개로 할 수도 있다.
서버(30)는 단말(10)에서의 시선 움직임 추적에 따른 시선 움직임 데이터를 수신 또는 수집할 수 있다. 일 예로, 서버(30)는 단말(10)로부터의 이미지 추천 요청을 수신할 수 있는데, 이 경우 이미지 추천 요청은 시선 움직임 데이터를 포함할 수 있다. 따라서, 서버(30)는 이미지 추천 요청을 수신함과 더불어 시선 움직임 데이터를 수신한다고 볼 수 있다. 다른 예로서, 서버(30)는 이미지 추천 요청을 수신하기 전까지 단말(10)로부터 시선 움직임 데이터를 실시간으로 수신하여 저장해 둠으로써 시선 움직임 데이터를 수집한다고 볼 수 있다. 결국, 서버(30)의 입장에서는 수신 및 수집이 기술적으로 그리 큰 차이가 아니다.
서버(30)가 수신 또는 수집하는 시선 움직임 데이터는 사용자의 시선이 소스 이미지의 범위내에 있는 것들이다. 이는 단말(10)에서 사용자의 시선이 소스 이미지의 범위를 벗어난 시선 움직임 데이터는 전송에서 제외하였기 때문이다.
이하에서는 서버(30)가 시선 움직임 데이터를 실시간으로 수집하는 것으로 하고 설명한다.
서버(30)는 단말(10)로부터의 이미지 추천 요청을 수신함에 따라 그동안 수집해둔 시선 움직임 데이터를 근거로 사용자의 시선 움직임을 분석할 수 있다. 앞서 설명하였듯이, 각각의 시선 움직임 데이터는 소스 이미지에 대한 사용자의 시선의 시간별 위치 정보를 포함하므로, 서버(30)는 시선 움직임 데이터를 근거로 소스 이미지내에서 시선이 소스 이미지의 어느 특징을 주시하는지를 판단할 수 있다. 여기서, 특징은 공간 이미지(소스 이미지 포함)상에 나타난 객체들 및 공간 이미지(소스 이미지 포함)의 분위기를 포함할 수 있다. 또한, 주시하는지의 여부는 일정 시간 이상 위치하는지에 따라 판별가능하다.
즉, 서버(30)는 시선 움직임 데이터를 근거로 소스 이미지 상에서의 사용자의 시선의 움직임을 분석(또는 해석)하여 소스 이미지의 특징 각각에 대해 사용자의 시선이 향하는 주시 시간을 계산할 수 있다. 다시 말해서, 서버(30)는 소스 이미지내의 특징들 각각에 대해 시선이 얼마의 시간동안 머물렀는지를 계산할 수 있다. 예를 들어, 객체 1에 5개의 포커싱 위치가 있고 5개의 포커싱 위치에서의 머문 시간을 총합하면 객체 1에 시선이 머문 시간을 계산할 수 있다.
한편, 서버(30)는 시선 움직임 분석 결과를 근거로 소스 이미지의 분위기 가중치(MW, Mood Weight) 및 객체별 가중치(OW1 ~ OWn)(Object Weight)를 구한 후에 이를 데이터베이스(40)내의 공간 이미지 간의 유사도(TSIM, Total Similarity)에 반영할 수 있다. 여기서, 공간 이미지 간의 유사도(TSIM)는 비교대상이 되는 두 공간 이미지 간의 분위기 유사도 및 객체 간의 유사도를 근거로 생성될 수 있다. 예를 들어, 각각의 공간 이미지마다 분위기 및 하나 이상의 객체가 존재한다. 따라서, 공간 이미지 1과 공간 이미지 2 간의 유사도를 계산한다고 가정하였을 경우, 서버(30)는 공간 이미지 1의 분위기와 공간 이미지 2의 분위기 간의 유사도(MSIM, Mood Similarity)를 구할 수 있고, 공간 이미지 1의 객체와 공간 이미지 2의 객체 간의 유사도(OSIM, Object Similarity)를 구할 수 있다. 여기서, 공간 이미지 1의 객체와 공간 이미지 2의 객체는 상호 동일한 타입이어야 할 것이다. 서버(30)는 상술한 두 공간 이미지 간의 분위기 유사도(MSIM) 및 객체 간의 유사도(OSIM)를, 데이터베이스(40)내의 공간 이미지 테이블의 정보를 근거로 구할 수 있다. 특히, 서버(30)는 딥러닝 알고리즘에 따라 미리 학습된 모델을 통해 두 공간 이미지 간의 분위기 유사도(MSIM) 및 객체 간의 유사도(OSIM)를 구할 수 있다. 그리고, 서버(30)는 계산된 두 공간 이미지 간의 분위기 유사도(MSIM) 및 객체 간의 유사도(OSIM)를 합산하고, 합산 결과치를 두 공간 이미지 간의 유사도(TSIM)라고 할 수 있다.
이와 같이 하면 서버(30)는 데이터베이스(40)내의 모든 공간 이미지 간의 유사도를 구할 수 있다.
그리고, 서버(30)는 계산된 공간 이미지 간의 유사도(TSIM)에 근거하여 검색어에 상응하는 소스 이미지와 유사한 추천 공간 이미지를 결정할 수 있다. 이어, 서버(30)는 결정된 추천 공간 이미지를 단말(10)에게로 전송할 수 있다.
데이터베이스(40)는 다수의 공간 이미지 각각의 특징들에 대한 정보를 포함하는 공간 이미지 테이블을 저장한다. 여기서, 특징들은 공간 이미지 상에 나타난 객체들 및 공간 이미지의 분위기를 포함할 수 있다.
상술한 도 1에서는 데이터베이스(40)를 독립적으로 구성시켰으나, 필요에 따라서는 서버(30)에 포함되는 것으로 보아도 무방하다.
도 2는 도 1에 도시된 서버(30)의 내부 구성도이고, 도 3은 본 발명의 실시예에서 검색어에 따라 제공되는 공간 이미지(즉, 소스 이미지)의 일 예를 나타낸 도면이고, 도 4 및 도 5는 도 1에 도시된 데이터베이스에 저장된 공간 이미지 테이블을 설명하기 위한 도면이고, 도 6은 본 발명의 실시예에서 시선 추적에 의해 수집되는 시선 움직임 데이터의 일 예를 나타낸 도면이고, 도 7은 본 발명의 실시예에서 공간 이미지 간의 유사도를 계산하는 과정을 설명하기 위해 채용되는 도면이다.
서버(30)는 통신 모듈(32), 저장 모듈(34), 및 제어 모듈(36)를 포함할 수 있다. 필요에 따라, 통신 모듈(32)과 저장 모듈(34) 및 제어 모듈(36)은 통신 모듈부와 저장 모듈부 및 제어 모듈부라고도 칭할 수 있다.
통신 모듈(32)은 단말(10)과 데이터를 주고받을 수 있다. 통신 모듈(32)는 무선 통신 방식 또는 유선 통신 방식에 따라 단말(10)과 데이터를 주고받을 수 있다.
저장 모듈(34)은 서버(30)의 동작에 필요한 데이터를 저장할 수 있다. 실시 예들에 따라, 저장 모듈(34)은 통신 모듈(32)에서 수신한 단말(10)로부터의 시선 움직임 데이터를 저장할 수 있다.
또한, 저장 모듈(34)은 제어 모듈(36)이 데이터베이스(40)에서 읽어낸 공간 이미지 테이블을 저장할 수 있다.
필요에 따라, 저장 모듈(34)은 데이터베이스일 수 있으나, 이에 한정되는 것은 아니다.
저장 모듈(34)은 서버(30)에 의해 수행되는 일련의 동작들을 수행하기 위한 명령어(instruction)들로 구성되는 프로그램을 저장할 수 있다.
저장 모듈(34)은 비휘발성 메모리 장치 또는 휘발성 메모리 장치를 포함할 수 있다. 실시 예들에 따라, 저장 모듈(34)은 제어 모듈(36)에 포함되어 구성될 수 있으나, 이에 한정되는 것은 아니다.
제어 모듈(36)은 서버(30)의 전반적인 동작들을 제어할 수 있다.
제어 모듈(36)은 통신 모듈(32)을 통해 단말(10)로부터의 검색어를 수신할 수 있다.
제어 모듈(36)은 데이터베이스(40)의 공간 이미지 테이블에서 해당 검색어에 상응하는 소스 이미지(도 3 참조)를 탐색할 수 있다. 보다 구체적으로는, 제어 모듈(36)은 탐색된 소스 이미지를 단말(10)에게로 전송하되, 1개의 소스 이미지를 전송할 수 있다. 예를 들어, 탐색된 소스 이미지가 1개라면 제어 모듈(36)은 탐색된 1개의 소스 이미지를 단말(10)에게로 전송할 수 있다. 한편, 탐색된 소스 이미지가 여러 개라면 제어 모듈(36)은 탐색된 여러 개의 소스 이미지 중에서 랜덤하게 1개의 소스 이미지를 선정하여 단말(10)에게로 전송할 수 있다. 상술한 소스 이미지는 단말(10)에서 사용자의 시선 움직임 데이터를 생성할 수 있도록 하기 위한 공간 이미지이다. 소스 이미지는 데이터베이스(40)의 다수의 공간 이미지들 중에서 검색어에 상응하는 공간 이미지이다.
여기서, 소스 이미지는 도 3에 예시한 바와 같이 다양한 객체를 포함할 수 있다. 예를 들어, 창문(1), 벽(2), 테이블(3), 바닥(4) 등을 객체라고 할 수 있다.
그리고, 상술한 공간 이미지 테이블은 도 4에 예시한 바와 같이 공간 이미지별 분위기(무드)의 정보(예컨대, 레벨값 또는 속성값)를 포함할 수 있다. 여기서, 분위기는 따뜻한 분위기, 차가운 분위기 등과 같이 공간 이미지마다의 느낌을 의미할 수 있다.
또한, 공간 이미지 테이블은 도 5에 예시한 바와 같이 공간 이미지별 객체마다의 위치, 타입, 속성의 정보를 포함할 수 있다. 여기서, 위치는 공간 이미지내에서 해당 객체가 자리잡고 있는 위치를 의미할 수 있다. 타입은 테이블, 소파 등과 같이 해당 객체의 종류를 의미할 수 있다. 속성은 해당 객체의 크기, 색상 등이 될 수 있다.
따라서, 데이터베이스(40)의 공간 이미지 테이블이라고 하면 도 4의 공간 이미지 테이블 및 도 5의 공간 이미지 테이블을 총칭할 수 있다.
제어 모듈(36)은 단말(10)에서의 시선 움직임 추적에 따른 시선 움직임 데이터(도 6 참조)를 실시간으로 수집할 수 있다. 예를 들어, 도 3과 같은 소스 이미지에 대하여 시간에 따른 시선의 위치 정보가 도 6과 같을 수 있다. 사용자가 창문(1)을 보고 나서 벽(2)을 본 후에 테이블(3)을 보는 것으로 가정하였을 경우, 창문(1)에는 포커싱된 시선이 7군데 위치하고, 벽(2)에는 포커싱된 시선이 5군데 위치하고, 테이블(3)에는 포커싱된 시선이 10군데 위치할 수 있다. 그리고, 포커싱된 시선의 위치별로 시선이 머무른 시간이 상이할 수 있다. 여기서, 포커싱되었다라는 것은 사용자의 시선이 해당 위치의 객체를 주시한 것으로 이해할 수 있다. 이와 같이 단말(10)은 시선 움직임 추적에 따른 시선 움직임 데이터를 실시간으로 전송할 수 있다. 그에 따라, 제어 모듈(36)은 실시간으로 전송되어 오는 시선 움직임 데이터를 수집할 수 있다.
제어 모듈(36)은 수집되는 시선 움직임 데이터를 저장 모듈(34)에 저장시킬 수 있다. 다시 말해서, 단말(10)은 사용자가 소스 이미지를 바라본 시점부터 이미지 추천 메뉴가 선택되기 전까지의 시선 움직임 데이터를 실시간으로 생성하여 서버(30)에게로 전송할 수 있다. 그에 따라, 제어 모듈(36)은 이미지 추천 요청을 수신하기 전까지의 시선 움직임 데이터를 실시간으로 수집하여 저장 모듈(34)에 저장시킬 수 있다. 여기서, 이미지 추천 요청은 사용자가 이미지 추천 요청 메뉴를 선택함에 따라 단말(10)에서 생성되는 것으로 한다.
제어 모듈(36)은 단말(10)로부터의 이미지 추천 요청을 수신함에 따라 저장 모듈(34)에 저장해둔 시선 움직임 데이터를 근거로 사용자의 시선 움직임을 분석할 수 있다.
시선 움직임 분석의 경우, 제어 모듈(36)은 수집된 시선 움직임 데이터 및 공간 이미지 테이블을 근거로 소스 이미지내에서 사용자의 시선이 소스 이미지의 어느 특징을 주시하는지를 판단할 수 있다. 다시 말해서, 제어 모듈(36)은 수집된 시선 움직임 데이터를 근거로 소스 이미지 상에서의 사용자의 시선의 움직임을 분석(또는 해석이라고 할 수 있음)하여 소스 이미지의 특징들 각각에 사용자의 시선이 향하는 주시 시간을 계산할 수 있다. 즉, 제어 모듈(36)은 시선 움직임 데이터를 근거로 사용자가 소스 이미지 내에 나타난 특징들(예컨대, 객체들 또는 분위기)을 주시하는지 여부를 결정할 수 있고, 주시가 계속되는 주시 시간을 계산할 수 있다.
사용자의 시선이 소스 이미지 상에 나타난 객체들 중 특정 객체에 계속하여 위치하는 경우, 해당 사용자는 상기 특정 객체를 주시하는 것으로 여겨질 수 있다. 반면, 사용자의 시선이 소스 이미지 상에 나타난 객체들 중 어느 객체에도 계속하여 위치하지 않는 경우, 해당 사용자는 특정 객체를 주시한다기 보다는 소스 이미지의 분위기를 주시하는 것으로 여겨질 수 있다.
실시 예들에 따라, 제어 모듈(36)은 시선 움직임 데이터의 시계열 분석을 통해, 사용자의 시선이 소스 이미지에 나타낸 객체들 각각에 일정 시간 이상 지속하여 위치하는지 여부를 판단할 수 있다. 이 때, 상기 일정 시간은 미리 정해질 수도 있고, 변경될 수도 있다. 예를 들어, 제어 모듈(36)은 도 5의 공간 이미지 테이블을 참조하여, 사용자의 시선의 위치와 소스 이미지 상의 객체들의 위치를 비교함으로써 사용자의 시선이 소스 이미지에 나타낸 객체들 각각에 일정 시간 이상 지속하여 위치하는지 여부를 판단할 수 있다. 이 때, 제어 모듈(36)은 소스 이미지 상의 객체들 각각을 포함하는 소정의 영역을 설정하고, 상기 소정의 영역에 사용자의 시선의 위치가 포함되는 경우 사용자의 시선이 소스 이미지에 나타낸 객체에 위치하는 것으로 판단할 수 있다.
이 때, 제어 모듈(36)은 사용자의 시선이 상기 소정의 영역에 위치하는 시간에 비례하여 상기 소정의 영역의 크기를 감소시킬 수 있다. 사용자가 특정 객체를 주시하는 경우, 처음에는 특정 객체를 중심으로 넓은 영역을 주시하다가, 시간이 경과할수록 특정 객체를 중심으로 더 좁은 영역을 집중해서 주시를 하게 된다. 이에, 사용자의 시선이 위치하는 시간이 경과함에 따라 주시 여부를 판단하는 소정의 영역의 크기를 감소시키면, 사용자 시선이 특정 객체를 주시하는지 여부를 높은 신뢰도로 판단할 수 있다.
제어 모듈(36)은 시선 움직임 데이터의 분석을 통해, 사용자의 시선이 객체들 각각에 일정 이상 지속하여 위치하는 시간(T1)을 계산할 수 있다. 이 때, 제어 모듈(36)은 소스 이미지 상에 나타난 객체들 별로 사용자의 시선이 일정 이상 지속하여 위치하는 시간(T1)을 계산할 수 있다. 또한, 제어 모듈(36)은 시선 움직임 데이터의 분석을 통해 사용자의 시선이 소스 이미지 상에 나타난 객체들 중 어느 것에도 일정 시간 이상 지속하여 위치하지 않는 시간(T2)을 계산할 수 있다.
제어 모듈(36)은 사용자의 시선이 객체들 각각에 일정 시간 이상 지속하여 위치하는 시간(T1)을 객체들 각각에 대한 주시 시간으로 결정할 수 있다. 한편, 제어 모듈(36)은 사용자의 시선이 객체들 중 어느 것에도 일정 시간 이상 지속하여 위치하지 않는 시간(T2)을 분위기에 대한 주시 시간으로 결정할 수 있다.
이와 같이 시선 움직임 분석을 한 이후에는, 제어 모듈(36)은 분위기에 대한 주시 시간(즉, T2)을 이용하여 소스 이미지의 분위기 가중치(MW, Mood Weight)를 계산한다. 또한, 제어 모듈(36)은 객체들 각각에 대한 주시 시간(즉, T1)을 이용하여 소스 이미지의 객체별 가중치(OW1 ~ OWn)(Object Weight)를 계산한다. 이후, 제어 모듈(36)은 도 7에서와 같이 계산한 소스 이미지의 분위기 가중치(MW) 및 객체별 가중치(OWi)를 근거로 공간 이미지 간의 유사도(TSIM, Total Similarity)를 계산할 수 있다.
여기서, 소스 이미지의 분위기 가중치(MW)는 하기의 식 1을 통해 구할 수 있고, 소스 이미지의 객체별 가중치(OWi)는 하기의 식 2를 통해 구할 수 있다.
(식 1)
Figure PCTKR2022095071-appb-img-000003
(식 2)
Figure PCTKR2022095071-appb-img-000004
상기 식 1 및 식 2에서, T1i는 상기 소스 이미지의 i번째 객체에 상기 사용자의 시선이 일정 시간 이상 지속하여 위치한 시간을 의미하고, T2는 상기 사용자의 시선이 객체들 중 어느 객체에도 일정 시간 이상 지속하여 위치하지 않은 시간을 의미한다.
일정 시간은 적절하게 설정될 수 있다.
여기서, 객체별 가중치에는 해당 객체에 시선이 머무는 시간이 고려되므로, 가장 많은 시간 동안 시선이 머문 객체에 대한 가중치가 다른 객체의 가중치에 비해 큰 값이 될 것이다.
상술한 가중치(MW, OWi)를 공간 이미지 간의 유사도(TSIM)에 반영하는 것에 대해 부연설명한다.
도 7에 예시한 바와 같이, 제어 모듈(36)은 비교대상인 공간 이미지 1의 분위기와 공간 이미지 2의 분위기 간의 유사도(MSIM)를 계산하고, 공간 이미지 1의 객체(예컨대, 의자, 창문 등)와 공간 이미지 2의 객체(예컨대, 의자, 창문 등) 간의 유사도(OSIM1, OSIM2)를 계산한다. 여기서, 공간 이미지 1은 공간 이미지 테이블의 공간 이미지이되 검색어에 상응하는 소스 이미지이고, 공간 이미지 2는 공간 이미지 테이블의 공간 이미지들 중에서 소스 이미지 이외의 공간 이미지이다.
그리고 나서, 제어 모듈(36)은 계산된 분위기 간의 유사도(MSIM) 및 객체 간의 유사도(OSIM1, OSIM2)를 총합하여 공간 이미지 간의 유사도(TSIM)를 구한다. 이때, 제어 모듈(36)은 계산된 분위기 간의 유사도(MSIM)에 분위기 가중치(MW)를 적용하고, 계산된 객체 간의 유사도(OSIM1, OSIM2)에 객체별 가중치(OWi)를 적용하여 공간 이미지 간의 유사도(TSIM)를 구한다. 여기서, 적용이라고 함은 합하거나 곱하는 것을 의미할 수 있다. 상술한 공간 이미지 간의 유사도(TSIM)는 소스 이미지(예컨대, 공간 이미지 1)와 다른 공간 이미지 간의 유사도(TSIM)를 의미한다.
즉, 제어 모듈(36)은 소스 이미지와 공간 이미지 테이블의 다른 공간 이미지간의 유사도를 계산할 수 있다. 이와 같이 하면 소스 이미지(예컨대, 공간 이미지 1)와 공간 이미지 2 간의 유사도(TSIM), 소스 이미지(예컨대, 공간 이미지 1)와 공간 이미지 3 간의 유사도(TSIM), 소스 이미지(예컨대, 공간 이미지 1)와 공간 이미지 4 간의 유사도(TSIM) 등을 구할 수 있다. 만약, 소스 이미지가 공간 이미지 1이 아니라 공간 이미지 3이었다면, 소스 이미지(공간 이미지 3)와 공간 이미지 1 간의 유사도(TSIM), 소스 이미지(공간 이미지 3)와 공간 이미지 2 간의 유사도(TSIM), 소스 이미지(공간 이미지 3)와 공간 이미지 4 간의 유사도(TSIM) 등을 구할 수 있다.
상기 열거한 공간 이미지의 수는 4개로 한정되는 것이 아니라, 더 많이 있을 수 있다.
이와 같이 가중치(MW, OWi)가 반영된 공간 이미지 간의 유사도(TSIM)를 구하게 되면, 제어 모듈(36)은 계산된 공간 이미지 간의 유사도(TSIM)에 근거하여 검색어에 상응하는 소스 이미지와 유사한 추천 공간 이미지(예컨대, 1 ~ 2개 정도)를 결정할 수 있다. 이 경우, 제어 모듈(36)은 공간 이미지 테이블내의 공간 이미지들 중에서 소스 이미지의 객체들 중에서 시선이 가장 오랫동안 머문 객체와 유사한 객체를 포함하는 공간 이미지를 추천 공간 이미지로 결정할 수 있다.
제어 모듈(36)은 결정된 추천 공간 이미지를 통신 모듈(32)을 통해 단말(10)에게로 전송할 수 있다.
제어 모듈(36)은 서버(30)의 동작을 위한 일련의 연산들 또는 판단들을 수행할 수 있는 장치를 의미할 수 있다. 예를 들어, 제어 모듈(36)는 CPU(central processing unit), MCU(micro controller unit), GPU(graphical processing unit), ASIC(application specific integrated circuit), 또는 FPGA(field programmable gate array)일 수 있으나, 이에 한정되는 것은 아니다.
또한, 본 발명의 실시예에서는 제어 모듈(36)은 적어도 하나의 프로세서를 포함할 수 있는데, 적어도 하나의 프로세서가 서버(30)에서 수행되는 동작들을 제어할 수 있으며 시선 추적을 통한 공간 이미지 추천 서비스 동작이 수행되도록 서버(30) 내에 포함되는 다른 구성들을 제어할 수 있다. 따라서, 제어 모듈(36)이 시선 추적을 통한 공간 이미지 추천 서비스 동작이 수행되도록 제어하는 경우를 예로 들어 설명하더라도, 제어 모듈(36)에 포함되는 적어도 하나의 프로세서가 시선 추적을 통한 공간 이미지 추천 서비스 동작이 수행되도록 제어할 수 있음은 자명하다 할 것이다.
도 8은 본 발명의 실시예에 따른 시선 추적을 통한 공간 이미지 추천 방법을 설명하기 위한 플로우차트이다.
먼저, 서버(30)는 단말(10)로부터의 검색어를 수신한다(S10).
서버(30)는 검색어를 수신함에 따라 데이터베이스(40)에서 해당 검색어에 상응하는 공간 이미지를 탐색하여 소스 이미지로서 단말(10)에게로 전송한다(S20).
이어, 단말(10)은 카메라(20)와 연계하여 소스 이미지에서의 사용자의 시선 움직임을 추적하고, 추적에 따라 실시간으로 시선 움직임 데이터를 생성하여 서버(30)에게로 전송한다(S30).
그에 따라, 서버(30)는 단말(10)로부터의 시선 움직임 데이터를 수집하여 저장 모듈(34)에 저장시킨다(S40).
이후, 서버(30)는 단말(10)로부터의 이미지 추천 요청을 수신한다(S50).
서버(30)는 단말(10)로부터의 이미지 추천 요청을 수신함에 따라 그동안 수집해둔 시선 움직임 데이터를 근거로 사용자의 시선 움직임을 분석한다(S60).
그리고 나서, 서버(30)는 시선 움직임 분석 결과를 근거로 공간 이미지 간의 유사도(TSIM)를 계산한다(S70). 예를 들어, 시선 움직임 분석 결과를 근거로 소스 이미지의 분위기 가중치(MW) 및 객체별 가중치(OW1 ~ OWn)를 구한 후에 이들을 근거로 공간 이미지 간의 유사도(TSIM)를 계산한다.
서버(30)는 계산된 공간 이미지 간의 유사도(TSIM)에 근거하여 검색어에 상응하는 소스 이미지와 유사한 추천 공간 이미지를 결정한다(S80).
이어, 서버(30)는 결정된 추천 공간 이미지를 단말(10)에게로 전송한다(S90).
또한, 상술한 본 발명의 시선 추적을 통한 공간 이미지 추천 방법은, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 다수의 공간 이미지 각각의 특징들에 대한 정보를 포함하는 공간 이미지 테이블을 저장하는 저장 모듈; 및
    연산 처리 기능을 갖는 제어 모듈;을 포함하고,
    상기 제어 모듈은, 상기 저장 모듈에 저장된 복수의 명령들에 기초하여,
    사용자의 단말로부터 수신된 검색어에 상응하는 공간 이미지를 상기 공간 이미지 테이블에서 탐색하여 소스 이미지로서 상기 단말에게로 전송하고,
    상기 소스 이미지를 표시하는 상기 단말로부터 상기 소스 이미지에 대한 사용자의 시선 움직임 데이터를 수집하고,
    상기 수집된 시선 움직임 데이터 및 상기 공간 이미지 테이블을 근거로 시선 움직임을 분석하고,
    상기 시선 움직임의 분석 결과를 근거로 상기 소스 이미지와 상기 공간 이미지 테이블의 다른 공간 이미지 간의 유사도를 계산하고,
    상기 계산된 공간 이미지 간의 유사도에 근거하여 상기 다수의 공간 이미지들 중에서 상기 소스 이미지와 유사한 공간 이미지를 추천 공간 이미지로서 상기 단말에게로 제공하는,
    시선 추적을 통한 공간 이미지 추천 장치.
  2. 제 1항에 있어서,
    상기 시선 움직임 데이터는 상기 소스 이미지에 대한 상기 사용자의 시선의 시간별 위치 정보를 포함하고,
    상기 제어 모듈은,
    상기 시선 움직임 데이터를 근거로 상기 소스 이미지 상에서의 시선의 움직임을 분석하여 상기 소스 이미지의 특징들 각각에 상기 사용자의 시선이 향하는 주시 시간을 계산하고, 특징들 각각의 주시 시간에 기초하여 공간 이미지 간의 유사도를 계산하는
    시선 추적을 통한 공간 이미지 추천 장치.
  3. 제 2항에 있어서,
    상기 특징들은 상기 공간 이미지 상에 나타난 객체들 및 상기 공간 이미지의 분위기를 포함하고,
    상기 제어 모듈은,
    상기 사용자의 시선이 상기 객체들 각각에 일정 시간 이상 지속하여 위치하는 시간을 상기 객체들 각각에 대한 주시 시간으로 결정하고,
    상기 사용자의 시선이 상기 객체들 중 어느 것에도 일정 시간 이상 지속하여 위치하지 않는 시간을 상기 분위기에 대한 주시 시간으로 결정하는,
    시선 추적을 통한 공간 이미지 추천 장치.
  4. 제 3항에 있어서,
    상기 제어 모듈은,
    상기 분위기에 대한 주시 시간을 이용하여 상기 소스 이미지의 분위기 가중치를 계산하고, 상기 객체들 각각에 대한 주시 시간을 이용하여 상기 소스 이미지의 객체별 가중치를 계산하고, 계산된 상기 분위기 가중치 및 객체별 가중치를 근거로 상기 공간 이미지 간의 유사도를 계산하는,
    시선 추적을 통한 공간 이미지 추천 장치.
  5. 제 4항에 있어서,
    상기 분위기 가중치는 하기의 식 1을 통해 계산되고,
    상기 객체별 가중치는 하기의 식 2를 통해 계산되는,
    시선 추적을 통한 공간 이미지 추천 장치.
    (식 1)
    Figure PCTKR2022095071-appb-img-000005
    (식 2)
    Figure PCTKR2022095071-appb-img-000006
    (T1i는 상기 소스 이미지의 i번째 객체에 상기 사용자의 시선이 일정 시간 이상 지속하여 위치한 시간을 의미하고, T2는 상기 사용자의 시선이 객체들 중 어느 객체에도 일정 시간 이상 지속하여 위치하지 않은 시간을 의미한다)
  6. 제 4항에 있어서,
    상기 제어 모듈은,
    상기 소스 이미지의 분위기와 상기 다른 공간 이미지의 분위기 간의 유사도를 구하고, 상기 소스 이미지의 객체와 상기 다른 공간 이미지의 객체 간의 유사도를 구하고, 계산된 분위기 간의 유사도 및 객체 간의 유사도를 이용하여 공간 이미지 간의 유사도를 구하되, 상기 분위기 간의 유사도에 상기 분위기 가중치를 적용하고, 상기 객체 간의 유사도에 상기 객체별 가중치를 적용하여 상기 소스 이미지와 상기 다른 공간 이미지 간의 유사도를 계산하는,
    시선 추적을 통한 공간 이미지 추천 장치.
  7. 제 1항에 있어서,
    상기 제어 모듈은,
    사용자가 상기 소스 이미지를 바라본 시점부터 이미지 추천 요청 메뉴가 선택되기 전까지의 시선 움직임 데이터를 상기 단말로부터 수집하는,
    시선 추적을 통한 공간 이미지 추천 장치.
  8. 시선 추적을 통한 공간 이미지 추천 장치에서 수행되는 방법으로서,
    다수의 공간 이미지 각각의 특징들에 대한 정보를 포함하는 공간 이미지 테이블에서 사용자의 단말로부터 수신된 검색어에 상응하는 공간 이미지를 탐색하여 소스 이미지로서 상기 단말에게로 전송하는 단계;
    상기 소스 이미지를 표시하는 상기 단말로부터 상기 소스 이미지에 대한 사용자의 시선 움직임 데이터를 수집하는 단계;
    상기 수집된 시선 움직임 데이터 및 상기 공간 이미지 테이블을 근거로 시선 움직임을 분석하는 단계;
    상기 시선 움직임의 분석 결과를 근거로 상기 소스 이미지와 상기 공간 이미지 테이블의 다른 공간 이미지 간의 유사도를 계산하는 단계; 및
    상기 계산된 공간 이미지 간의 유사도에 근거하여 상기 다수의 공간 이미지들 중에서 상기 소스 이미지와 유사한 공간 이미지를 추천 공간 이미지로서 상기 단말에게로 제공하는 단계;를 포함하는,
    시선 추적을 통한 공간 이미지 추천 방법.
  9. 제 8항에 있어서,
    상기 시선 움직임 데이터는 상기 소스 이미지에 대한 상기 사용자의 시선의 시간별 위치 정보를 포함하고,
    상기 시선 움직임을 분석하는 단계는,
    상기 시선 움직임 데이터를 근거로 상기 소스 이미지 상에서의 시선의 움직임을 분석하여 상기 소스 이미지의 특징들 각각에 상기 사용자의 시선이 향하는 주시 시간을 계산하는,
    시선 추적을 통한 공간 이미지 추천 방법.
  10. 제 9항에 있어서,
    상기 특징들은 상기 공간 이미지 상에 나타난 객체들 및 상기 공간 이미지의 분위기를 포함하고,
    상기 공간 이미지 간의 유사도를 계산하는 단계는,
    상기 특징들 각각의 주시 시간에 기초하여 공간 이미지 간의 유사도를 계산하는,
    시선 추적을 통한 공간 이미지 추천 방법.
PCT/KR2022/095071 2022-03-30 2022-03-30 시선 추적을 통한 공간 이미지 추천 장치 및 방법 WO2023191259A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0039895 2022-03-30
KR1020220039895A KR102443797B1 (ko) 2022-03-30 2022-03-30 시선 추적을 통한 공간 이미지 추천 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2023191259A1 true WO2023191259A1 (ko) 2023-10-05

Family

ID=83445180

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/095071 WO2023191259A1 (ko) 2022-03-30 2022-03-30 시선 추적을 통한 공간 이미지 추천 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102443797B1 (ko)
WO (1) WO2023191259A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130088645A (ko) * 2012-01-31 2013-08-08 한국전자통신연구원 시선 추적을 이용한 광고 제공 방법
KR20140052263A (ko) * 2012-10-24 2014-05-07 에스케이플래닛 주식회사 콘텐츠 서비스 시스템, 그 시스템에서의 콘텐츠 서비스를 위한 장치 및 방법
KR20200114838A (ko) * 2019-03-29 2020-10-07 경북대학교 산학협력단 전자 장치 및 제어 방법
KR102234609B1 (ko) * 2020-07-23 2021-04-02 주식회사 어반베이스 이미지 데이터베이스 분석 기반 상품 추천 장치
KR20210109275A (ko) * 2020-02-27 2021-09-06 삼성전자주식회사 사용자의 관심 객체를 예측하는 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101943982B (zh) 2009-07-10 2012-12-12 北京大学 基于被跟踪的眼睛运动的图像操作
KR101564042B1 (ko) 2014-03-14 2015-10-29 동양대학교 산학협력단 공간주시특성을 이용한 공간탐색 특성정보 추출방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130088645A (ko) * 2012-01-31 2013-08-08 한국전자통신연구원 시선 추적을 이용한 광고 제공 방법
KR20140052263A (ko) * 2012-10-24 2014-05-07 에스케이플래닛 주식회사 콘텐츠 서비스 시스템, 그 시스템에서의 콘텐츠 서비스를 위한 장치 및 방법
KR20200114838A (ko) * 2019-03-29 2020-10-07 경북대학교 산학협력단 전자 장치 및 제어 방법
KR20210109275A (ko) * 2020-02-27 2021-09-06 삼성전자주식회사 사용자의 관심 객체를 예측하는 방법 및 장치
KR102234609B1 (ko) * 2020-07-23 2021-04-02 주식회사 어반베이스 이미지 데이터베이스 분석 기반 상품 추천 장치

Also Published As

Publication number Publication date
KR102443797B1 (ko) 2022-09-16

Similar Documents

Publication Publication Date Title
WO2021020667A1 (ko) 원격 재활 훈련 제공 방법 및 프로그램
WO2020251217A1 (ko) 사용자 맞춤형 피부 진단 시스템 및 방법
WO2011081379A2 (en) Display device and control method thereof
WO2019013517A1 (en) APPARATUS AND METHOD FOR VOICE CONTROL CONTEXT
WO2015020354A1 (en) Apparatus, server, and method for providing conversation topic
WO2010041836A2 (en) Method of detecting skin-colored area using variable skin color model
WO2017217713A1 (en) Method and apparatus for providing augmented reality services
WO2020085558A1 (ko) 고속분석 영상처리장치 및 그 장치의 구동방법
WO2019009486A1 (en) OPTICAL MONITORING SYSTEM AND METHOD
EP3304484A1 (en) Electronic device, information providing system and information providing method thereof
WO2020155773A1 (zh) 文本输入异常监控方法、装置、计算机设备及存储介质
WO2021012508A1 (zh) Ai影像识别方法、装置、设备及存储介质
WO2017047913A1 (en) Display device, controlling method thereof and computer-readable recording medium
WO2016088942A1 (ko) 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치
WO2022080844A1 (ko) 스켈레톤 분석을 이용한 객체 추적 장치 및 방법
WO2023191259A1 (ko) 시선 추적을 통한 공간 이미지 추천 장치 및 방법
WO2020246639A1 (ko) 증강현실 전자기기의 제어방법
WO2022169045A1 (ko) 학습된 딥러닝 모델을 이용한 cfu 인식 방법
EP2918072A1 (en) Method and apparatus for capturing and displaying an image
WO2020258658A1 (zh) 异常操作识别方法、装置、计算机设备及存储介质
WO2022114665A1 (ko) 태양전지 셀에 대한 이미지 분류 방법 및 장치
JP2012049774A (ja) 映像監視装置
WO2020230999A1 (ko) 업무 추적기에 기반한 담당자 추천 시스템
WO2022114323A1 (ko) 키패드 장치를 이용한 강의 제공 시스템의 제어 방법
WO2022114623A1 (en) Method and apparatus for in-house rf-based collaborative localization with automated data collection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935927

Country of ref document: EP

Kind code of ref document: A1