WO2023182542A1 - 디스플레이 장치 및 그의 동작 방법 - Google Patents

디스플레이 장치 및 그의 동작 방법 Download PDF

Info

Publication number
WO2023182542A1
WO2023182542A1 PCT/KR2022/004008 KR2022004008W WO2023182542A1 WO 2023182542 A1 WO2023182542 A1 WO 2023182542A1 KR 2022004008 W KR2022004008 W KR 2022004008W WO 2023182542 A1 WO2023182542 A1 WO 2023182542A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
frames
display device
controller
user
Prior art date
Application number
PCT/KR2022/004008
Other languages
English (en)
French (fr)
Inventor
유휘상
강영욱
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2022/004008 priority Critical patent/WO2023182542A1/ko
Publication of WO2023182542A1 publication Critical patent/WO2023182542A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Definitions

  • This disclosure relates to a display device and a method of operating the same.
  • broadcast-based broadcasting station-centered real-time broadcasting services provide additional services such as program guides and scheduled viewing services, and broadband-based OTT services such as Netflix and YouTube provide search techniques.
  • broadband-based OTT services such as Netflix and YouTube provide search techniques.
  • We provide user-friendly services such as advancement and recommendation services.
  • program guides and scheduled viewing services in the broadcast area have the inconvenience of requiring users to find and set preferred content themselves, and search/recommendation services in the broadband area do not allow even content presented as a result of search/recommendation. Because there are so many and so many different types, there is an inconvenience in that an additional selection process is needed to select content that suits one's taste.
  • condensed content services have a problem in that producers who produce condensed content and consumers who consume the condensed content cannot be efficiently connected.
  • most condensed content is produced by broadcasting stations or individuals and distributed through the broadcasting station's own platform or YouTube. Therefore, if there is desired content, the user must directly search for and enjoy the desired content in a specific application or website. For example, if a user who enjoys watching sports on TV wants to view condensed content about today's game, he or she must search for related content on the Internet or YouTube, select the appropriate condensed content from the search results, and watch it. A cumbersome process is required.
  • the present disclosure seeks to provide a display device and a method of operating the same that improve the above-mentioned problems or inconveniences.
  • the present disclosure seeks to provide condensed content that summarizes broadcast programs or OTT-based videos.
  • the present disclosure seeks to provide condensed content summarized with user-preferred images from specific content.
  • the present disclosure seeks to provide a display device that recommends abbreviated content at appropriate timing in consideration of at least one of a user's viewing pattern or viewing situation, and a method of operating the same.
  • the present disclosure seeks to create and provide condensed content that minimizes audio/video disconnection problems.
  • the present disclosure seeks to create and provide condensed content with minimal audio and video interruption.
  • the display device can generate and provide condensed content by selecting preferred content based on the user's viewing history and processing it to suit the user's preference.
  • a display device may obtain a recommendation time point for customized abbreviated content based on at least one of a user viewing pattern or a current viewing situation.
  • the display device can refer to both video and audio when generating abbreviated content.
  • a display device includes a controller that receives content and generates condensed content of the received content, and a display that displays the condensed content, wherein the controller extracts content based on the video of the content.
  • the abbreviated content may be generated by combining the first frames and the second frames extracted based on the audio of the content.
  • the controller may extract the second frame so that sentences uttered during the reproduction section of the first frames are not interrupted.
  • the controller may extract, in addition to the first frames, frames to which sentences uttered in the playback section of the first frames belong as the second frames.
  • the controller may extract the second frames using the start and end points of each sentence included in the audio.
  • the controller may extract the frames in the section in which the entire detected sentence is played as the second frames.
  • the controller can obtain the start and end points of each sentence by analyzing the voice included in the audio.
  • the controller may obtain the start and end points of each sentence based on at least one of the pitch, energy, and speech rate of the voice included in the audio.
  • the controller can recognize a combination of words continuously uttered within a predetermined time in the audio as the sentence, and obtain the start and end points of the recognized sentence.
  • the controller may divide the frame of the received content into predetermined units, extract feature values for each divided unit, and calculate an importance score for the extracted feature values to extract the first frame.
  • the controller may extract the second frames based on whether the playback section of the first frames matches the playback section of the sentence obtained based on the audio.
  • the controller may extract frames from a playback section of the sentence that do not belong to the playback section of the first frames as the second frames.
  • the controller may detect a scene change point based on the video and obtain the first frames based on the detected scene change point.
  • the controller can detect the scene change point by detecting changes in people, space, or time.
  • the controller may extract a keyword from the audio and extract the second frames based on a sentence containing the extracted keyword.
  • the controller may include a video extraction unit that extracts the video, an audio extraction unit that extracts the audio, and a condensed content generator that extracts the first frames and the second frames to generate the condensed content.
  • the condensed content continues to be further improved to suit the user by updating user preferences depending on whether the condensed content is viewed or not.
  • condensed content is generated based on scene change points and sentence boundary points, the problem of video/audio interruption is minimized, thereby increasing the completeness of condensed content.
  • Figure 1 shows a block diagram of the configuration of a display device according to an embodiment of the present invention.
  • Figure 2 is a block diagram of a remote control device according to an embodiment of the present invention.
  • Figure 3 shows an example of the actual configuration of a remote control device according to an embodiment of the present invention.
  • Figure 4 shows an example of utilizing a remote control device according to an embodiment of the present invention.
  • Figure 5 is a block diagram showing a configuration for providing abbreviated content by a display device according to an embodiment of the present disclosure.
  • Figure 6 is a flow chart illustrating a method of providing abbreviated content by a display device according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram schematically illustrating a technology for generating abbreviated content by a display device according to an embodiment of the present disclosure.
  • FIG. 8 is a flowchart illustrating a method of generating abbreviated content by a display device according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating an operation method according to an attention mechanism used when a display device according to an embodiment of the present disclosure generates abbreviated content.
  • Figure 10 is an example diagram illustrating a condensed content creation learning model according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an example of an attention function according to an embodiment of the present disclosure.
  • FIG. 12 is an example diagram illustrating a specific region being extracted through an attention mechanism from an actual image according to an embodiment of the present disclosure.
  • Figure 13 is a diagram showing the relationship between attention and LSTM hidden state according to an embodiment of the present disclosure.
  • FIG. 14 is a flowchart illustrating a method in which a display device recommends abbreviated content based on a user's channel change input according to the first embodiment of the present disclosure.
  • FIG. 15 is a flowchart illustrating a method in which a display device recommends abbreviated content based on a user's channel change input according to a second embodiment of the present disclosure.
  • FIG. 16 is a diagram illustrating a SW structure for a display device to generate abbreviated content according to an embodiment of the present disclosure.
  • FIG. 17 is a flowchart illustrating a frame acquisition method for ensuring non-disconnection by a display device according to an embodiment of the present disclosure.
  • FIG. 18 is a diagram illustrating a method for a display device to obtain a scene change point according to an embodiment of the present disclosure.
  • FIG. 19 is a diagram illustrating a method by which a display device obtains a boundary point of a sentence according to an embodiment of the present disclosure.
  • FIG. 20 is a diagram illustrating a method in which a display device selects a final key frame based on video and audio according to an embodiment of the present disclosure.
  • the display device is, for example, an intelligent display device that adds a computer support function to the broadcast reception function, and is faithful to the broadcast reception function while adding an Internet function, etc., such as a handwriting input device and a touch screen.
  • an Internet function etc.
  • it can be equipped with a more convenient interface such as a spatial remote control.
  • by supporting wired or wireless Internet functions it is possible to connect to the Internet and a computer and perform functions such as email, web browsing, banking, or gaming.
  • a standardized general-purpose OS can be used for these various functions.
  • the display device described in the present invention for example, various applications can be freely added or deleted on a general-purpose OS kernel, so various user-friendly functions can be performed.
  • the display device may be, for example, a network TV, HBBTV, smart TV, LED TV, OLED TV, etc., and in some cases, may also be applied to a smartphone.
  • Figure 1 shows a block diagram of the configuration of a display device according to an embodiment of the present invention.
  • the display device 100 includes a broadcast receiver 130, an external device interface 135, a memory 140, a user input interface 150, a controller 170, a wireless communication interface 173, and a display. It may include (180), a speaker (185), and a power supply circuit (190).
  • the broadcast receiver 130 may include a tuner 131, a demodulator 132, and a network interface 133.
  • the tuner 131 can select a specific broadcast channel according to a channel selection command.
  • the tuner 131 may receive a broadcast signal for a specific selected broadcast channel.
  • the demodulator 132 can separate the received broadcast signal into a video signal, an audio signal, and a data signal related to the broadcast program, and can restore the separated video signal, audio signal, and data signal to a form that can be output.
  • the external device interface 135 may receive an application or application list within an adjacent external device and transfer it to the controller 170 or memory 140.
  • the external device interface 135 may provide a connection path between the display device 100 and an external device.
  • the external device interface 135 may receive one or more of video and audio output from an external device connected wirelessly or wired to the display device 100 and transmit it to the controller 170.
  • the external device interface 135 may include a plurality of external input terminals.
  • the plurality of external input terminals may include an RGB terminal, one or more High Definition Multimedia Interface (HDMI) terminals, and a component terminal.
  • HDMI High Definition Multimedia Interface
  • An image signal from an external device input through the external device interface 135 may be output through the display 180.
  • a voice signal from an external device input through the external device interface 135 may be output through the speaker 185.
  • An external device that can be connected to the external device interface 135 may be any one of a set-top box, Blu-ray player, DVD player, game console, sound bar, smartphone, PC, USB memory, or home theater, but this is only an example.
  • the network interface 133 may provide an interface for connecting the display device 100 to a wired/wireless network including an Internet network.
  • the network interface 133 may transmit or receive data with other users or other electronic devices through a connected network or another network linked to the connected network.
  • some of the content data stored in the display device 100 may be transmitted to a selected user or selected electronic device among other users or other electronic devices pre-registered in the display device 100.
  • the network interface 133 can access a certain web page through a connected network or another network linked to the connected network. In other words, you can access a certain web page through a network and transmit or receive data with the corresponding server.
  • the network interface 133 can receive content or data provided by a content provider or network operator. That is, the network interface 133 can receive content and information related thereto, such as movies, advertisements, games, VODs, and broadcast signals, provided from a content provider or network provider through a network.
  • the network interface 133 can receive firmware update information and update files provided by a network operator, and can transmit data to the Internet, a content provider, or a network operator.
  • the network interface 133 can select and receive a desired application from among applications open to the public through a network.
  • the memory 140 stores programs for processing and controlling each signal in the controller 170, and can store signal-processed video, voice, or data signals.
  • the memory 140 may perform a function for temporary storage of video, voice, or data signals input from the external device interface 135 or the network interface 133, and may store information about a predetermined image through a channel memory function. You can also store information.
  • the memory 140 may store an application or application list input from the external device interface 135 or the network interface 133.
  • the display device 100 can play content files (video files, still image files, music files, document files, application files, etc.) stored in the memory 140 and provide them to the user.
  • content files video files, still image files, music files, document files, application files, etc.
  • the user input interface 150 may transmit a signal input by the user to the controller 170 or transmit a signal from the controller 170 to the user.
  • the user input interface 150 can be used remotely according to various communication methods such as Bluetooth, Ultra Wideband (WB), ZigBee, Radio Frequency (RF) communication, or infrared (IR) communication.
  • Control signals such as power on/off, channel selection, and screen settings can be received and processed from the control device 200, or control signals from the controller 170 can be processed to be transmitted to the remote control device 200.
  • the user input interface 150 can transmit control signals input from local keys (not shown) such as power key, channel key, volume key, and setting value to the controller 170.
  • local keys such as power key, channel key, volume key, and setting value
  • the video signal processed by the controller 170 may be input to the display 180 and displayed as an image corresponding to the video signal. Additionally, the image signal processed by the controller 170 may be input to an external output device through the external device interface 135.
  • the voice signal processed by the controller 170 may be output as audio to the speaker 185. Additionally, the voice signal processed by the controller 170 may be input to an external output device through the external device interface 135.
  • controller 170 may control overall operations within the display device 100.
  • controller 170 can control the display device 100 by a user command or internal program input through the user input interface 150, and connects to the network to display the application or application list desired by the user on the display device ( 100) You can make it available for download.
  • the controller 170 allows channel information selected by the user to be output through the display 180 or speaker 185 along with the processed video or audio signal.
  • the controller 170 controls video signals from an external device, for example, a camera or camcorder, input through the external device interface 135, according to an external device video playback command received through the user input interface 150.
  • the voice signal can be output through the display 180 or speaker 185.
  • the controller 170 can control the display 180 to display an image, for example, a broadcast image input through the tuner 131, an external input image input through the external device interface 135, Alternatively, an image input through the network interface unit or an image stored in the memory 140 may be controlled to be displayed on the display 180.
  • the image displayed on the display 180 may be a still image or a moving image, and may be a 2D image or a 3D image.
  • controller 170 can control the playback of content stored in the display device 100, received broadcast content, or external input content, which includes broadcast video, external input video, and audio files. , can be in various forms such as still images, connected web screens, and document files.
  • the wireless communication interface 173 can communicate with external devices through wired or wireless communication.
  • the wireless communication interface 173 can perform short range communication with an external device.
  • the wireless communication interface 173 includes BluetoothTM, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, Near Field Communication (NFC), and Wi-Fi.
  • Short-distance communication can be supported using at least one of Fi (Wireless-Fidelity), Wi-Fi Direct, and Wireless USB (Wireless Universal Serial Bus) technologies.
  • This wireless communication interface 173 is between the display device 100 and a wireless communication system, between the display device 100 and another display device 100, or between the display device 100 through wireless area networks. It can support wireless communication between the network and the display device 100 (or external server).
  • Local area wireless networks may be wireless personal area networks.
  • the other display device 100 is a wearable device capable of exchanging data with (or interoperating with) the display device 100 according to the present invention, for example, a smartwatch, smart glasses. It can be a mobile terminal such as (smart glass), HMD (head mounted display), or smart phone.
  • the wireless communication interface 173 may detect (or recognize) a wearable device capable of communication around the display device 100 .
  • the controller 170 sends at least a portion of the data processed by the display device 100 to the wireless communication interface 173. It can be transmitted to a wearable device through . Accordingly, a user of a wearable device can use data processed by the display device 100 through the wearable device.
  • the display 180 converts the video signal, data signal, and OSD signal processed by the controller 170 or the video signal and data signal received from the external device interface 135 into R, G, and B signals, respectively, and provides a driving signal. can be created.
  • the display device 100 shown in FIG. 1 is only one embodiment of the present invention. Some of the illustrated components may be integrated, added, or omitted depending on the specifications of the display device 100 that is actually implemented.
  • two or more components may be combined into one component, or one component may be subdivided into two or more components.
  • the functions performed by each block are for explaining embodiments of the present invention, and the specific operations or devices do not limit the scope of the present invention.
  • the display device 100 does not have a tuner 131 and a demodulator 132 but has a network interface 133 or an external device interface 135. You can also receive and play video through the device.
  • the display device 100 is divided into an image processing device such as a set-top box for receiving broadcast signals or contents according to various network services, and a content playback device for playing content input from the image processing device. It can be implemented.
  • an image processing device such as a set-top box for receiving broadcast signals or contents according to various network services
  • a content playback device for playing content input from the image processing device. It can be implemented.
  • the method of operating a display device includes not only the display device 100 as described with reference to FIG. 1, but also an image processing device such as the separated set-top box or the display 180. ) and a content playback device having an audio output unit 185.
  • Figure 2 is a block diagram of a remote control device according to an embodiment of the present invention
  • Figure 3 shows an example of the actual configuration of the remote control device 200 according to an embodiment of the present invention.
  • the remote control device 200 includes a fingerprint reader 210, a wireless communication circuit 220, a user input interface 230, a sensor 240, an output interface 250, and a power supply circuit ( 260), memory 270, controller 280, and microphone 290.
  • the wireless communication circuit 220 transmits and receives signals to and from any one of the display devices according to the embodiments of the present invention described above.
  • the remote control device 200 has an RF circuit 221 capable of transmitting and receiving signals to and from the display device 100 in accordance with RF communication standards, and is capable of transmitting and receiving signals to and from the display device 100 in accordance with IR communication standards.
  • An IR circuit 223 may be provided.
  • the remote control device 200 may be provided with a Bluetooth circuit 225 capable of transmitting and receiving signals to and from the display device 100 according to the Bluetooth communication standard.
  • the remote control device 200 is provided with an NFC circuit 227 capable of transmitting and receiving signals with the display device 100 according to the NFC (Near Field Communication) communication standard, and displays the display device 100 according to the WLAN (Wireless LAN) communication standard.
  • a WLAN circuit 229 capable of transmitting and receiving signals to and from the device 100 may be provided.
  • the remote control device 200 transmits a signal containing information about the movement of the remote control device 200 to the display device 100 through the wireless communication circuit 220.
  • the remote control device 200 can receive signals transmitted by the display device 100 through the RF circuit 221 and, if necessary, turn on/off the display device 100 through the IR circuit 223. Commands for turning off, changing channels, changing volume, etc. can be sent.
  • the user input interface 230 may be comprised of a keypad, button, touch pad, or touch screen.
  • the user can input commands related to the display device 100 into the remote control device 200 by manipulating the user input interface 230. If the user input interface 230 has a hard key button, the user can input a command related to the display device 100 to the remote control device 200 through a push operation of the hard key button. This will be explained with reference to FIG. 3 .
  • the remote control device 200 may include a plurality of buttons.
  • the plurality of buttons include a fingerprint recognition button (212), power button (231), home button (232), live button (233), external input button (234), volume control button (235), voice recognition button (236), It may include a channel change button 237, a confirmation button 238, and a back button 239.
  • the fingerprint recognition button 212 may be a button for recognizing the user's fingerprint.
  • the fingerprint recognition button 212 is capable of a push operation and may receive a push operation and a fingerprint recognition operation.
  • the power button 231 may be a button for turning on/off the power of the display device 100.
  • the home button 232 may be a button for moving to the home screen of the display device 100.
  • the live button 233 may be a button for displaying a real-time broadcast program.
  • the external input button 234 may be a button for receiving an external input connected to the display device 100.
  • the volume control button 235 may be a button for adjusting the volume of the sound output by the display device 100.
  • the voice recognition button 236 may be a button for receiving the user's voice and recognizing the received voice.
  • the channel change button 237 may be a button for receiving a broadcast signal of a specific broadcast channel.
  • the confirmation button 238 may be a button for selecting a specific function, and the back button 239 may be a button for returning to the previous screen.
  • the user input interface 230 has a touch screen, the user can input commands related to the display device 100 through the remote control device 200 by touching a soft key on the touch screen. Additionally, the user input interface 230 may be provided with various types of input means that the user can operate, such as scroll keys and jog keys, and this embodiment does not limit the scope of the present invention.
  • the sensor 240 may include a gyro sensor 241 or an acceleration sensor 243, and the gyro sensor 241 may sense information about the movement of the remote control device 200.
  • the gyro sensor 241 can sense information about the operation of the remote control device 200 based on the x, y, and z axes, and the acceleration sensor 243 measures the moving speed of the remote control device 200. Information about such things can be sensed.
  • the remote control device 200 may further include a distance measurement sensor and can sense the distance from the display 180 of the display device 100.
  • the output interface 250 may output a video or audio signal corresponding to a manipulation of the user input interface 230 or a signal transmitted from the display device 100.
  • the user can recognize whether the output interface 250 is manipulating the user input interface 230 or controlling the display device 100.
  • the output interface 250 includes an LED 251 that turns on when the user input interface 230 is manipulated or a signal is transmitted and received with the display device 100 through the wireless communication unit 225, and a vibrator 253 that generates vibration. ), a speaker 255 that outputs sound, or a display 257 that outputs an image.
  • the power supply circuit 260 supplies power to the remote control device 200, and stops power supply when the remote control device 200 does not move for a predetermined period of time, thereby reducing power waste.
  • the power supply circuit 260 can resume power supply when a predetermined key provided in the remote control device 200 is operated.
  • the memory 270 may store various types of programs, application data, etc. necessary for controlling or operating the remote control device 200.
  • the remote control device 200 transmits and receives signals wirelessly through the display device 100 and the RF circuit 221, the remote control device 200 and the display device 100 transmit and receive signals through a predetermined frequency band. .
  • the controller 280 of the remote control device 200 stores and references information about the display device 100 paired with the remote control device 200 and the frequency band capable of wirelessly transmitting and receiving signals in the memory 270. You can.
  • the controller 280 controls all matters related to the control of the remote control device 200.
  • the controller 280 sends a signal corresponding to a predetermined key operation of the user input interface 230 or a signal corresponding to the movement of the remote control device 200 sensed by the sensor 240 through the wireless communication unit 225. 100).
  • the microphone 290 of the remote control device 200 can acquire voice.
  • Figure 4 shows an example of utilizing a remote control device according to an embodiment of the present invention.
  • FIG. 4 illustrates that a pointer 205 corresponding to the remote control device 200 is displayed on the display 180.
  • the user can move or rotate the remote control device 200 up and down, left and right.
  • the pointer 205 displayed on the display 180 of the display device 100 corresponds to the movement of the remote control device 200.
  • This remote control device 200 can be called a spatial remote control because the corresponding pointer 205 is moved and displayed according to movement in 3D space, as shown in the drawing.
  • FIG. 4 illustrates that when the user moves the remote control device 200 to the left, the pointer 205 displayed on the display 180 of the display device 100 also moves to the left correspondingly.
  • the display device 100 may calculate the coordinates of the pointer 205 from information about the movement of the remote control device 200.
  • the display device 100 may display the pointer 205 to correspond to the calculated coordinates.
  • FIG. 4 illustrates a case where a user moves the remote control device 200 away from the display 180 while pressing a specific button in the remote control device 200.
  • the selected area in the display 180 corresponding to the pointer 205 can be zoomed in and displayed enlarged.
  • the selected area in the display 180 corresponding to the pointer 205 may be zoomed out and displayed in a reduced size.
  • the selected area may be zoomed out, and when the remote control device 200 approaches the display 180, the selected area may be zoomed in.
  • the moving speed or direction of the pointer 205 may correspond to the moving speed or direction of the remote control device 200.
  • a pointer in this specification refers to an object displayed on the display 180 in response to the operation of the remote control device 200.
  • the pointer 205 can be an object of various shapes other than the arrow shape shown in the drawing.
  • concepts may include dots, cursors, prompts, thick outlines, etc.
  • the pointer 205 can be displayed not only in response to one of the horizontal and vertical axes on the display 180, but also in response to multiple points, such as a line or surface. .
  • the display device 100 recommends content that the user may be interested in among various content provided on a broadcast or broadband basis, and provides a summary of the recommended content.
  • Figure 5 is a block diagram showing a configuration for providing abbreviated content by a display device according to an embodiment of the present disclosure.
  • components whose reference numerals match those shown in FIG. 1 may be the same configuration.
  • the tuner 131 can receive broadcast signals. That is, the tuner 131 can receive broadcast-based content.
  • the network interface unit 133 may provide an interface for connecting to a wired/wireless network.
  • the network interface unit 133 can receive wired/wireless network-based, that is, broadband-based content.
  • the control unit 170 may receive content from at least one of the tuner 131 or the network interface unit 133 and generate condensed content summarizing the received content.
  • the control unit 170 can store the generated abbreviated content in the storage unit 140 and output it through the audio output unit 185 and the display 180.
  • control unit 170 includes a data reception unit 191, a data processing unit 192, a user data analysis unit 193, a content collection unit 195, a content processing unit 197, and a content playback unit 199. It may include at least part or all of it. Meanwhile, the detailed components of the control unit 170 are merely examples for convenience of explanation, and some of the components described above may be omitted or other components may be further included.
  • the data reception unit 191 may receive content from the tuner 131 or the network interface unit 133.
  • the data receiving unit 191 may transmit the received content to the data processing unit 192.
  • the data processing unit 192 may receive content from the data receiving unit 191.
  • the data processing unit 192 may extract metadata from the input content.
  • the data processing unit 192 may extract metadata such as viewing time, genre, and characters from the input content. That is, the data processing unit 192 can extract metadata necessary for user preference analysis from content.
  • the data processing unit 192 may transmit the extracted metadata to the user data analysis unit 193.
  • the user data analysis unit 193 may analyze user preferences through metadata of content viewed by the user.
  • the user data analysis unit 193 may acquire user preferences by analyzing metadata received from the data processing unit 192.
  • the user data analysis unit 193 can extract information for selecting preferred content by learning information about the content that the user usually enjoys. In other words, the user data analysis unit 193 can extract information to obtain user-preferred content by learning information about all content watched by the user.
  • the user data analysis unit 193 may obtain the user's main viewing time. That is, the user data analysis unit 193 can obtain viewing pattern information about what content the user mainly watches at what time.
  • the content collection unit 195 may collect content according to user preferences.
  • the content collection unit 195 may collect content according to user preferences obtained from the user data analysis unit 193. That is, the content collection unit 195 can collect content corresponding to user preferences.
  • the content collection unit 195 may receive content corresponding to user preferences through the tuner 131 or the network interface unit 133.
  • the content processing unit 197 may generate condensed content that summarizes the content collected by the content collection unit 195. That is, the content processing unit 197 may process the content collected by the content collection unit 195 to generate abbreviated content.
  • the storage unit 140 may store the abbreviated content generated by the content processing unit 197. Meanwhile, condensed content may be stored in Edge Cloud.
  • the edge cloud may be a server for distributed processing of content in a CDN (Content Delivery Network).
  • Content providers can build and operate a cache server called CDN, and manage content by distributing it to the edge cloud to reduce the load concentrated on the core cloud.
  • the content reproduction unit 199 may configure resources for reproduction of content, especially abbreviated content. Specifically, the content playback unit 199 may create a pipeline and specify a codec for playing abbreviated content.
  • the content reproduction unit 199 may transmit condensed content data to the audio output unit 185 and the display unit 180 so that the condensed content is output.
  • the audio output unit 185 and the display unit 180 may output condensed content based on the received condensed content data.
  • Figure 6 is a flow chart illustrating a method of providing abbreviated content by a display device according to an embodiment of the present disclosure.
  • the control unit 170 may collect user viewing history information (S11).
  • User viewing history information may refer to information about content that the user has viewed so far.
  • user viewing history information may include viewing time and viewed content (including metadata).
  • control unit 170 may collect information on content watched by the user in order to analyze user preferences and viewing patterns.
  • the control unit 170 can learn user preferences and viewing patterns (S13).
  • the control unit 170 may learn user preferences and viewing patterns based on user viewing history information. Accordingly, the control unit 170 can obtain user preferences and viewing patterns, respectively.
  • control unit 170 may update user preferences and viewing patterns each time it obtains user viewing history information.
  • User preferences may include genres of content that the user frequently views.
  • the control unit 170 may classify and count the genres of content that the user has watched and obtain the top three genres as user preferences.
  • the viewing pattern may include the time period during which the user watches content. More specifically, the viewing pattern may include viewing times for each content genre.
  • the control unit 170 may obtain a viewing pattern that is the same as the first time zone for content viewing of a first genre and the second time zone for content viewing of a second genre.
  • the control unit 170 may generate abbreviated content based on user preference (S15).
  • the control unit 170 may collect content of interest based on user preferences.
  • the control unit 170 may obtain content preferred by the user based on user preference and generate abbreviated content of the obtained content.
  • the control unit 170 may extract some frames from the original content based on user preference and generate condensed content composed of the extracted frames.
  • the original content may be content including all omitted frames before being summarized as abbreviated content.
  • step S15 may be a step of processing the original content.
  • the control unit 170 may generate user-customized abbreviated content based on user viewing history information. Specifically, the control unit 170 can reduce the original content to the user's preferred length (total playback time) and reflect the user's preference in the reduction process. For example, when the control unit 170 obtains an action genre based on user preference, the control unit 170 may generate condensed content in which the ratio of action scenes is higher than that of other scenes.
  • the control unit 170 may extract frames to be included in the abbreviated content from the original content based on the attention mechanism. The method of generating abbreviated content will be described in more detail in FIGS. 7 to 13.
  • control unit 170 may generate condensed content in advance. Additionally, the control unit 170 may periodically collect user viewing history information and update user preferences and viewing patterns. The control unit 170 may periodically create and update abbreviated content.
  • the control unit 170 may obtain user viewing information (S21).
  • User viewing information may refer to information about the current user's viewing status.
  • user viewing information may include input information from the remote control device 200, information about the channel being viewed, information about the content being viewed, etc.
  • the control unit 170 may determine whether it is a recommended timing for abbreviated content based on user viewing information (S23).
  • the control unit 170 may determine whether to recommend abbreviated content based on user viewing information. That is, the control unit 170 can determine whether it is time to recommend abbreviated content based on user viewing information.
  • the control unit 170 may use a model that has learned user preferences and viewing patterns to determine the timing of recommendation of abbreviated content. That is, the control unit 170 can determine whether it is a recommended timing for abbreviated content using a model that has learned user preferences and viewing patterns.
  • control unit 170 may recognize the timing of recommending the abbreviated content and recommend the abbreviated content.
  • the control unit 170 may recognize the user's viewing situation and determine whether it is a recommended timing for the abbreviated content based on the user's viewing situation. That is, because the recommendation timing (point of view) is different depending on the type of content (e.g., genre), the control unit 170 determines whether the recommended timing of the abbreviated content is by obtaining the user's current viewing situation based on the user viewing information. You can. For example, the control unit 170 may determine whether it is a recommended timing for abbreviated content based on the user's input for changing the channel, which will be described in detail with reference to FIGS. 14 and 15.
  • the control unit 170 may continue to obtain user viewing information when it determines that the timing is not recommended.
  • the control unit 170 can search for abbreviated content when it determines the recommended timing (S25).
  • control unit 170 may search for abridged content to recommend based on user viewing information.
  • the control unit 170 may search for recommended abbreviated content from the abbreviated content stored in the storage unit 140 or the abbreviated content stored in an edge cloud (not shown).
  • control unit 170 may generate abbreviated content to recommend if abbreviated content is not searched.
  • the control unit 170 may provide the searched abbreviated content (S27).
  • the control unit 170 may immediately output the searched abbreviated content or display a screen recommending the searched abbreviated content to check whether the searched abbreviated content is recommended.
  • control unit 170 can control the display 180 to display abbreviated content generated based on user preferences.
  • the abbreviated content may be content composed of some frames extracted from the original content based on user preference.
  • control unit 170 may use information about the viewed abbreviated content again in step S13. That is, when learning user preferences and viewing patterns, the control unit 170 can use information about the abbreviated content watched by the user.
  • the control unit 170 may update user preferences based on whether or not the condensed content is viewed. Accordingly, the control unit 170 has the advantage of being able to learn user preferences more accurately.
  • FIG. 7 is a diagram schematically illustrating a technology for generating abbreviated content by a display device according to an embodiment of the present disclosure.
  • the control unit 170 can generate condensed content consisting of only scenes of interest to the user by combining artificial intelligence technology and computer vision technology.
  • the control unit 170 can apply an attention mechanism to extract highlight scenes based on a deep neural network (DNN) and generate condensed content.
  • DNN deep neural network
  • control unit 170 may analyze content on a frame-by-frame basis and segment the frames into predetermined units.
  • the control unit 170 may perform feature extraction for each divided unit.
  • the control unit 170 can calculate (prediction) an importance score for each extracted feature value.
  • FIG. 8 is a flowchart illustrating a method of generating abbreviated content by a display device according to an embodiment of the present disclosure.
  • control unit 170 can capture and manage video streaming.
  • control unit 170 When the control unit 170 starts generating the abbreviated content, it can divide the content (S1).
  • the control unit 170 may divide the content into frames for frame-by-frame image analysis as a preprocessing process for the target content corresponding to the original source of the abbreviated content.
  • control unit 170 may detect a scene change or measure the size of movement in the scene during the content division step.
  • the control unit 170 may divide the content and then perform image analysis (S2).
  • the control unit 170 can detect people and specific scenes as key viewpoints in generating condensed content.
  • the control unit 170 may use an attention mechanism when analyzing images.
  • the control unit 170 may perform interest prediction after performing image analysis (S3).
  • the control unit 170 can calculate the interest index for the detected person or specific scene, extract the optimal weight, and quantitatively extract the importance of the frame.
  • the control unit 170 may recognize the event section boundary (S4).
  • control unit 170 may recognize the boundary of a section where an event occurs, such as a change in location or change in person.
  • the control unit 170 can accurately find meaningful feature values for object recognition through event section boundary recognition. That is, the control unit 170 can recognize important scenes through temporal and spatial analysis, predict an index of interest using a linear combination of feature values, and generate condensed content by deleting segmented images starting with the lowest index.
  • the control unit 170 can generate condensed content (highlights) by connecting the deleted and remaining segmented images.
  • control unit 170 divides the frames of the original content into predetermined units, extracts feature values for each divided unit, and calculates importance scores for the extracted feature values to extract frames to be included in the abbreviated content. there is.
  • the control unit 170 may generate condensed content by connecting the extracted frames.
  • the control unit 170 can extract feature values depending on whether an event occurs in each divided unit. For example, the control unit 170 may extract high or low feature values depending on whether an event occurs. Whether a feature value is measured high or low depending on whether an event occurs may vary depending on the genre of the content.
  • the control unit 170 can detect changes in people, space, and time to determine whether an event has occurred. That is, the control unit 170 can detect that an event has occurred when a person, space, or time changes.
  • the creation of condensed content can be comprised of four steps: content division, video analysis, interest prediction, and event section boundary recognition.
  • FIG. 9 is a diagram illustrating an operation method according to an attention mechanism used when a display device according to an embodiment of the present disclosure generates abbreviated content.
  • the control unit 170 may include a Summarization Pre-processing module 1971, a Summarization Engine module 1973, and a Summarization Post-processing module 1975.
  • the reduction pre-processing module 1971, the reduction engine module 1973, and the reduction post-processing module 1975 may each be a component of the content processing unit 197 of the control unit 170, but this is only an example. It is reasonable that it is not limited to this.
  • the reduction preprocessing module 1971 can extract the target content, that is, the frame of the input image. That is, the reduced preprocessing module 1971 can extract processing units on a frame-by-frame basis from the input image.
  • the condensed preprocessing module 1971 can utilize a CNN-based model to extract features for generating condensed content consisting of only key frames of high importance.
  • the condensed preprocessing module 1971 can extract features for generating condensed content.
  • the reduced pre-processing module 1971 can recognize the point in time when an event occurs in order to obtain a scene change section.
  • the reduction pre-processing module 1971 may transmit the extracted features and the event occurrence time to the reduction engine module 1973.
  • the reduction engine module (1973) can extract key frames by calculating the importance score on a frame-by-frame basis by applying the attention technique. That is, the reduction engine module 1973 can calculate an importance score for each frame based on the extracted features and the time of event occurrence, and extract a key frame based on the calculated score. For example, the reduction engine module 1973 can extract frames with an importance score higher than a threshold as key frames.
  • the reduction engine module 1973 can perform an inference operation through a model learned based on labeled data (Labeled dataset).
  • the condensed post-processing module 1975 can generate condensed content (Summarized Video) consisting of key frames.
  • Figure 10 is an example diagram illustrating a condensed content creation learning model according to an embodiment of the present disclosure.
  • the condensed content generation learning model may be a learning model to which the Encoder-Decoder Architecture Style is applied.
  • the attention mechanism may be composed of an encoder and a decoder.
  • the encoder receives frames continuously, outputs a context vector with weights reflected as a result, and can calculate an importance score to select frames to be included in the abbreviated content.
  • the decoder can receive a context vector with weights reflected from the encoder.
  • the decoder can intensively learn regions to select key shots according to the context vector.
  • a shot may be a set of consecutive frames
  • a key shot may be a set of consecutive frames included in the condensed content.
  • control unit 170 can refer to the entire frame from the encoder once again at each time step when predicting the output frame from the decoder.
  • control unit 170 does not refer to all input frames at the same rate, but can re-check input frames that are related to the frame to be predicted at that point in time.
  • This attention mechanism can be formed as a function with a data type consisting of a key value (Key-Value).
  • FIG. 11 is a diagram illustrating an example of an attention function according to an embodiment of the present disclosure.
  • the attention function may be a dictionary data type consisting of key-values. It consists of two pairs, Key and Value. Accordingly, the mapped value can be found through the key.
  • the control unit 170 may obtain an attention value through an attention function.
  • the encoder acquires only a partial region that affects the result rather than the entire region of the video, and the decoder processes only a portion of the acquired region, which has the advantage of enabling efficient video processing.
  • FIG. 12 is an example diagram illustrating a specific region being extracted through an attention mechanism from an actual image according to an embodiment of the present disclosure.
  • an image is shown in which the original frame and the area extracted by attention from the original frame are brightly displayed. That is, referring to the example of FIG. 12, it can be seen how the control unit 170 extracts a frame including areas of people, animals, signs, etc., that is, areas extracted by attention, through an attention mechanism.
  • Figure 13 is a diagram showing the relationship between attention and LSTM hidden state according to an embodiment of the present disclosure.
  • the control unit 170 extracts features from each frame extracted from the target content through a CNN network, and the extracted features are divided into k parts by the attention influence h, h 0 , h 1 , .. ., can affect LSTMs with hidden states of h k-1 .
  • the control unit 170 can receive a frame sequence and calculate importance scores to select frames to be included in the condensed content through a CNN network.
  • the control unit 170 can intensively learn an area for selecting a key shot in an LSTM whose weight is calculated based on the calculated importance score.
  • the control unit 170 can generate condensed content by connecting key shots obtained by the method described above at the final stage of the decoder.
  • the display device 100 can recommend abbreviated content generated by recognizing the user's viewing situation.
  • control unit 170 may learn a user's viewing situation recognition model.
  • control unit 170 may acquire a user's viewing situation recognition model by learning user preferences and viewing patterns. Accordingly, the control unit 170 can recognize the time of channel change and recommend abbreviated content based on content information of the changed channel.
  • control unit 170 may recommend an abbreviated content of the corresponding content.
  • the control unit 170 may recommend abbreviated content, such as content that is the same as the content of the changed channel, content with the same genre, or content with the same person.
  • control unit 170 may recommend abbreviated content for the 1st to 7th broadcasts preceding it.
  • control unit 170 may recommend abbreviated content for the previous first half broadcast.
  • control unit 170 may recommend abbreviated content for the latest news.
  • control unit 170 may recommend abbreviated content for the previous episode of the broadcast. That is, if episode 12 of drama A is being broadcast on the changed channel, the control unit 170 can recommend abbreviated content summarizing episodes 1 to 11.
  • control unit 170 may recommend abbreviated content based on the user's channel change input.
  • FIG. 14 is a flowchart illustrating a method in which a display device recommends abbreviated content based on a user's channel change input according to the first embodiment of the present disclosure.
  • control unit 170 is divided into a content processing module 1701, a viewing situation recognition module 1702, and an abbreviated content processing module 1703.
  • this division is only for convenience of explanation, so it is limited to this. It is reasonable that it does not work.
  • the control unit 170 may receive user input from the remote control device 200 (S101).
  • the user input may be an input that changes the channel.
  • user input may be channel up/down input or channel number input.
  • the content processing module 1701 When the content processing module 1701 receives user input, it can determine whether sufficient user history information has been collected (S103).
  • control unit 170 can obtain the recommendation timing of the abbreviated content depending on whether the user history information required to obtain user preference is stored in the storage unit 140 of a preset standard size or more.
  • the content processing module 1701 may determine whether user history information is stored in the storage unit 140 of a preset standard size or more. The content processing module 1701 determines that sufficient user history information has been collected if the size of the user history information stored in the storage unit 140 is greater than the preset standard size, and the content processing module 1701 determines that the user history information has been sufficiently collected. If it is less than the preset standard size, it can be determined that sufficient user history information has not been collected.
  • control unit 170 can determine for each user whether sufficient user history information has been collected.
  • the display device 100 may be equipped with a camera (not shown) to distinguish the user currently watching. Additionally, the display device 100 may categorize user history information for each user and store it in the storage unit 140. Accordingly, the control unit 170 can recognize the user currently viewing content and determine whether sufficient user history information for the user currently viewing content has been collected.
  • the content processing module 1701 may transmit the content information to the viewing situation recognition module 1702 (S105).
  • the viewing situation recognition module 1702 can learn viewing information based on the received content information (S107).
  • the viewing situation recognition module 1702 may transmit the learned viewing information to the condensed content processing module 1703 (S109).
  • the condensed content processing module 1703 may collect related content and generate condensed content based on the learned viewing information (S111).
  • the condensed content processing module 1703 may collect related content estimated to be the user's preferred content based on the learned viewing information, and generate condensed content by summarizing the collected related content.
  • the content processing module 1701 collects sufficient user history information, it can transmit the content information to the viewing situation recognition module 1702 (S113).
  • the content processing module 1701 when it has collected enough user history information, it can transmit the content information to the viewing situation recognition module 1702 in order to provide abbreviated content according to the content of the channel changed according to the user input.
  • the viewing situation recognition module 1702 can determine whether to recommend the abbreviated content (S115).
  • the viewing situation recognition module 1702 may determine whether to recommend the abbreviated content based on the received content information.
  • the viewing situation recognition module 1702 may determine whether abbreviated content according to the received content information is stored or whether it is possible to generate abbreviated content according to the received content information.
  • the viewing situation recognition module 1702 may determine that the abbreviated content is recommended if the abbreviated content is stored or can be created.
  • the viewing situation recognition module 1702 determines not to recommend the abbreviated content, it may output content according to the user input (S114).
  • the viewing situation recognition module 1702 determines to recommend the abbreviated content, it may request the abbreviated content from the abbreviated content processing module 1703 (S117).
  • the condensed content processing module 1703 When the condensed content processing module 1703 receives a request for condensed content, it can search for condensed content (S119).
  • the condensed content processing module 1703 can search for condensed content based on content information (S119).
  • the condensed content processing module 1703 may generate condensed content according to content information if there is no condensed content previously stored in the storage unit 140.
  • control unit 170 may recommend abbreviated content related to content displayed on a channel changed according to user input. If a sports game is being broadcast on a changed channel, the control unit 170 may recommend abbreviated content that summarizes previous content of the sports game being broadcast. For example, if the second half of a soccer game is being broadcast on a changed channel, the control unit 170 may recommend abbreviated content summarizing the first half of the soccer game. If news is being broadcast on the changed channel, the control unit 170 may recommend condensed content summarizing the latest news. The control unit 170 may recommend abbreviated content for the same content, content with the same genre, or content with the same person as the content displayed in the changed channel.
  • the condensed content processing module 1703 may transmit the condensed content to the viewing situation recognition module 1702 (S121).
  • the viewing situation recognition module 1702 may transmit the condensed content received from the condensed content processing module 1703 to the content processing module 1701 (S123).
  • the content processing module 1701 may recommend the received abbreviated content (S125).
  • FIG. 15 is a flowchart illustrating a method in which a display device recommends abbreviated content based on a user's channel change input according to a second embodiment of the present disclosure.
  • the abbreviated content recommendation method according to FIG. 15 that is, the abbreviated content recommendation method according to the second embodiment, has the following steps: Only S103 may be different. Therefore, redundant description will be omitted, and step S103 will be described in detail here.
  • the content processing module 1701 When the content processing module 1701 receives a user input, it can determine whether the user input has been re-received within a predetermined time (S103).
  • control unit 170 can recommend abbreviated content if it re-receives the user input within a predetermined time after receiving the user input.
  • the content processing module 1701 when the content processing module 1701 receives a user input, it can count the time until it receives the next user input.
  • the content processing module 1701 may compare the counted time with a predetermined time to determine whether the user input has been re-received within the predetermined time.
  • the content processing module 1701 determines that the user input has been re-received within a predetermined time, it may determine that the user is unable to find content to watch and may attempt to recommend abbreviated content. Therefore, when the content processing module 1701 determines that the user input has been re-received within a predetermined time, it transfers the content information to the viewing situation recognition module 1702, and the viewing situation recognition module 1702 determines whether to recommend the abbreviated content. Thus, condensed content can be recommended.
  • the content processing module 1701 may determine that the user is watching content according to the user input and may not recommend the abbreviated content. Instead, when the content processing module 1701 determines that the user input has not been re-received within a predetermined time, the content processing module 1701 may transmit content information that the user is viewing and learn the viewing information to generate abbreviated content.
  • control unit 170 may learn the user's preference based on information about the content displayed according to the user input.
  • a disconnection problem may occur in which some frames are not connected to the next frame.
  • some frames may be connected to the A frame in the original content, but may be connected to the B frame in the abridged content, and in this process, a disconnection problem that interrupts the flow of content may occur.
  • a disconnection problem when playing abbreviated content, a character's dialogue may be cut off due to disconnection of frames and a sudden transition to another scene may occur.
  • the present disclosure seeks to provide a display device that generates condensed content that minimizes disconnection problems.
  • the present disclosure prevents disconnected frames from being included when generating condensed content.
  • FIG. 16 is a diagram illustrating a SW structure for a display device to generate abbreviated content according to an embodiment of the present disclosure.
  • the prerequisite software (SW) for generating condensed content may consist of a highlight feature point extraction step and a highlight scene prediction step.
  • the control unit 170 may divide the raw video of the original content into frames.
  • the control unit 170 may obtain a frame that matches the user preference from among the divided frames. Specifically, the control unit 170 can apply various feature point extraction technologies so that abbreviated content can be produced to suit individual tastes according to the user's various requirements, and through the application of these feature point extraction technologies, the control unit 170 can apply at least as many features as possible to be included in the abbreviated content.
  • One frame can be extracted.
  • the frame extracted in this first step may be a candidate key frame.
  • a candidate key frame may be a frame primarily extracted to obtain a key frame included in the condensed content.
  • control unit 170 selects a candidate based on at least one of Human Face, Human Activity, Indoor/Outdoor Scene, and Audio Event (Audi[o Event]). Key frames can be obtained.
  • the control unit 170 determines the final key based on attributes that can be judged as highlights (e.g., representativeness, distribution, interest, disconnection, etc.) among the frames extracted in the previous stage. You can get a frame.
  • the final key frame may be a secondarily extracted frame to be included in the actual abbreviated content.
  • the final key frame may or may not belong to the candidate key frame.
  • control unit 170 may obtain the final key frame among candidate key frames based on various attributes including representativeness, diversity, interest, and seamlessness.
  • various attributes including representativeness, diversity, interest, and seamlessness.
  • the control unit 170 can obtain frames for generating condensed content in which both audio and video are uninterrupted.
  • FIG. 17 is a flowchart illustrating a frame acquisition method for ensuring non-disconnection by a display device according to an embodiment of the present disclosure.
  • control unit 170 selects the video with reference to whether or not it contains a sentence boundary point, which is an audio property, and also selects the audio with reference to the scene change point of the video.
  • a cross-reference model referencing can be applied. Hereinafter, it will be described in detail with reference to FIG. 17.
  • the control unit 170 may obtain a scene change point of the video (S201).
  • the controller 170 may analyze the video to obtain scene change points.
  • the control unit 170 may obtain a scene change point by calculating an importance score on a frame-by-frame basis.
  • FIG. 18 is a diagram illustrating a method for a display device to obtain a scene change point according to an embodiment of the present disclosure.
  • the control unit 170 may divide the frames into sections of predetermined units. For example, the control unit 170 may distinguish frames at predetermined time intervals. In the example of FIG. 18, only frames divided into the first to third sections D1, D2, and D3 are shown, but this is only a partial illustration for convenience of explanation, so it is reasonable that the frame is not limited thereto. .
  • the control unit 170 can calculate frame level scores for frames included in each section.
  • the control unit 170 may calculate frame level scores for each of the first to third sections D1, D2, and D3 of the frames.
  • the controller 170 may obtain a scene change point based on the frame level score.
  • the control unit 170 may obtain a scene change point based on statistical values for frame level scores.
  • a scene change point may mean including a scene change section.
  • the control unit 170 may extract a candidate key frame based on the scene change point (S203).
  • the candidate key frame may be the same as described in FIG. 16.
  • control unit 170 may obtain a sentence boundary point from the audio (S205).
  • Audio may include voices, background music, sound effects, etc.
  • the control unit 170 may obtain the boundary point of a sentence uttered by at least one voice included in the audio.
  • control unit 170 may obtain a sentence boundary point in the audio.
  • control unit 170 may obtain boundary points of sentences related to candidate key frames in audio.
  • at least part of the sentence related to the candidate key frame may be a sentence uttered in the playback section of the candidate key frame, but since this is only an example, it is reasonable that the sentence is not limited thereto.
  • control unit 170 may obtain boundary points for each of all sentences included in the audio of the original content.
  • control unit 170 may obtain the boundary point of a sentence containing a specific keyword from the audio of the original content.
  • specific keywords may be determined differently for each content through audio analysis, or may be set in advance regardless of the content.
  • control unit 170 may obtain the boundary point of at least one sentence from audio.
  • control unit 170 obtains the boundary point of a sentence.
  • FIG. 19 is a diagram illustrating a method by which a display device obtains a boundary point of a sentence according to an embodiment of the present disclosure.
  • the control unit 170 may analyze the audio of each divided section D1, D2, and D3 as described in FIG. 18 to obtain a boundary point of at least one sentence. Alternatively, the control unit 170 may acquire the boundary point of at least one sentence by analyzing the audio without separate section distinction.
  • control unit 170 may recognize a combination of words continuously uttered within a predetermined time (eg, 500 ms) in audio as a sentence.
  • a predetermined time eg, 500 ms
  • a sentence boundary point may include a sentence start point and a sentence end point.
  • the control unit 170 may acquire the start and end points of at least one sentence by analyzing the voice included in the audio. Specifically, the control unit 170 may obtain the start point and end point of at least one sentence based on at least one of the pitch, energy, and speaking rate of the voice included in the audio. there is.
  • control unit 170 may determine that point to be a boundary point of the sentence based on statistical values for at least one of pitch, energy, and speech rate.
  • the meaning of being based on statistical values may include the meaning of being based on data learned as the start and end points of sentences are input for various audio, but this is only an example and is not limited thereto.
  • control unit 170 may determine a point at which no consecutive words exist for a predetermined period of time based on at least one of pitch, energy, and speech speed as a boundary point between sentences, that is, a boundary point into an independent sentence.
  • the control unit 170 may determine whether only some of the sentence boundary points exist on the timeline of the candidate key frame (S207).
  • control unit 170 can determine whether only one of the start point and end point of the sentence exists on the timeline of the candidate key frame. Specifically, the control unit 170 operates when the starting point of the sentence exists on the timeline of the candidate key frame and the ending point of the sentence does not exist on the timeline of the candidate key frame, or the ending point of the sentence exists on the timeline of the candidate key frame. It is possible to determine whether it exists on the timeline of and the start point of the sentence does not exist on the timeline of the candidate key frame.
  • the timeline of the candidate key frame may mean the playback section of the candidate key frame.
  • control unit 170 may add the remaining frames that do not exist on the timeline of the candidate key frame as the candidate key frame (S209).
  • the control unit 170 selects the remaining frames between the sentence boundary point that does not exist on the timeline of the candidate key frame and the playback section of the candidate key frame as a candidate. It can be added as a key frame. That is, if only the starting point of the sentence exists on the timeline of the candidate key frame, the control unit 170 can add the frame between the candidate key frame and the ending point of the sentence as a candidate key frame. Likewise, if only the ending point of the sentence exists on the timeline of the candidate key frame, the control unit 170 can add the frame between the starting point of the sentence and the candidate key frame as a candidate key frame.
  • control unit 170 may add the remaining frames that do not belong to the candidate key frame among the frames corresponding to the sentence as candidate key frames.
  • the control unit 170 may select the extracted or added candidate key frame as the final key frame (S211).
  • control unit 170 can select both the candidate key frame extracted in step S203 and the candidate key frame added in step S209 as the final key frame.
  • control unit 170 may select the candidate key frame extracted in step S203 as the final key frame.
  • FIG. 20 is a diagram illustrating a method in which a display device selects a final key frame based on video and audio according to an embodiment of the present disclosure.
  • the video extraction unit 198a, audio extraction unit 198b, and condensed content creation unit 198c shown in FIG. 20 may be included in the content processing unit 197 described in FIG. 5. That is, the video extraction unit 198a, the audio extraction unit 198b, and the condensed content creation unit 198c may be components of the content processing unit 197.
  • the content collection unit 195 may receive content from the network interface unit 133. Additionally, the content collection unit 195 may receive content from the tuner 131. The received content may be Raw AV content.
  • the video extractor 198a may extract video 1001 from the received content, and the audio extractor 198b may extract audio 1004 from the received content.
  • the condensed content generator 198c may generate condensed content by combining the frames obtained based on the extracted video 1001 and the frames obtained based on the extracted audio 1004.
  • the controller 170 may divide the extracted video 1001 into frames to obtain a plurality of frames 1002.
  • the controller 170 may analyze the plurality of frames 1002 to obtain a scene change point. Arrows displayed in the plurality of frames 1002 may indicate scene change points.
  • the controller 170 may obtain at least one candidate key frame 1003 based on the scene change point.
  • controller 170 may obtain words from the audio and recognize sentences based on the obtained words.
  • the controller 170 can recognize a sentence by obtaining at least one sentence boundary point. Arrows displayed on the plurality of words 1005 may indicate sentence boundary points.
  • the controller 170 may obtain at least one candidate key frame 1006 based on sentence boundary points.
  • the candidate key frame 1003 extracted based on the video of the content may be referred to as the first frame
  • the candidate key frame 1006 extracted based on the audio of the content may be referred to as the second frame.
  • the controller 170 may generate condensed content 1009 by combining the first frames 1003 and the second frames 1005.
  • the controller 170 may generate abbreviated content 1009 by combining the first frames 1003 and the second frames 1005 in chronological order so that they are played continuously.
  • overlapping frames among the first frames 1003 and the second frames 1005 may be included in the abbreviated content 1009 only once. That is, the controller 170 can generate the condensed content 1009 by complementing one of the first frames 1003 and the second frames 1006 with the other. For example, the controller 170 may extract the second frames 1006 to prevent interruptions in sentences spoken during the playback section of the first frames 1003. After extracting the first frames 1003, the controller 170 divides frames containing sentences uttered in the playback section of the first frames 1003 into second frames 1006 in addition to the first frames 1003. It can be extracted.
  • the controller 170 may divide the content frame into predetermined units, extract feature values for each divided unit, and calculate an importance score for the extracted feature values to extract the first frame 1003.
  • the controller 170 may detect a scene change point based on the video and obtain first frames 1003 based on the detected scene change point.
  • the controller 170 can detect a scene change point by detecting changes in people, space, or time.
  • controller 170 may extract second frames 1006 using the start and end points of each sentence included in the audio.
  • the controller 170 selects the frames of the section in which the entire detected sentence is played back to the second frame. It can be extracted into frames. For example, if only the end point of the sentence exists in the t2 playback section of the first frames 1003, the controller 170 may extract the frames in the section where the entire detected sentence is played as second frames 1006. You can. In the example of FIG. 20, frames including the t1 playback section may be extracted as second frames 1006.
  • the controller 170 extracts the first frames 1003 and then selects the second frames based on whether the playback section of the first frames 1003 matches the playback section of the sentence obtained based on the audio. 1006) can be extracted.
  • the controller 170 may extract frames from a playback section of a sentence that do not belong to the playback section of the first frames 1003 as second frames 1006. That is, when referring to the example of the t1 and t2 playback sections of FIG. 20, the controller 170 may extract only the frames 1006 corresponding to the t1 playback section as second frames 1006.
  • the controller 170 may extract a keyword from the audio and extract second frames based on a sentence containing the extracted keyword.
  • the controller 170 calculates predetermined frames, especially audio, before and after the first frames 1003 to prevent interruption of sentences spoken in the playback section of the first frames 1003.
  • Condensed content 1009 can be created by adding the second frames 1006.
  • the controller 170 selects a frame corresponding to at least one of the first frames 1003 and the second frames 1006 as the final key frame 1007, and the final key frames 1007 are continuously Condensed content 1009 to be played can be created.
  • the frames of the t1 playback section, t2 playback section, t3 playback section, t4 playback section, t5 playback section, and t6 playback section are selected as the final key frames 1007, and the final key frames ( 1007) can generate condensed content 1009 that is played continuously in chronological order.
  • the display device 100 determines whether a sentence boundary point, which is an audio attribute, exists in the playback section of a candidate key frame selected based on the scene change point of the video to minimize interruption of the abbreviated AV content. By determining whether all sentence boundary points exist in the playback section of the candidate key frame, the corresponding candidate key frame is selected as the final key frame, and if all sentence boundary points do not exist in the playback section of the candidate key frame, the corresponding original key frame is selected. By selecting additional key frames from the content, even if frames are not selected on the video side, frames can be added to avoid disconnection issues on the audio side.
  • the display device 100 selects a candidate key frame based on the scene change point obtained through video analysis, and selects a candidate key frame in the boundary sentence period including the start point and end point of the sentence in terms of audio. By selecting more relevant frames, highly complete condensed content can be created.
  • the above-described method can be implemented as processor-readable code on a program-recorded medium.
  • media that the processor can read include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the display device described above is not limited to the configuration and method of the above-described embodiments, and the embodiments may be configured by selectively combining all or part of each embodiment so that various modifications can be made. It may be possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 개시의 실시 예에 따른 디스플레이 장치는 사용자 시청 이력을 기반으로 선호 컨텐츠를 선별하여 사용자 기호에 맞게 가공함으로써 축약 컨텐츠를 생성 및 제공합니다.

Description

디스플레이 장치 및 그의 동작 방법
본 개시는 디스플레이 장치 및 그의 동작 방법에 관한 것이다.
인터넷의 발달로 누구나 손쉽게 컨텐츠를 검색하고, 소비할 수 있는 인프라가 마련되었고, 모바일 디바이스의 대중화로 사람들은 장소의 제약에서 벗어나 미디어 컨텐츠를 소비할 수 있게 되었다. 이러한 변화 속에서 사람들은 가용한 시간내에 원하는 시간만큼만 할애하여 컨텐츠를 소비하려는 욕구/경향이 증가하였고, 그 결과 미디어 소비 패턴에도 큰 변화가 나타났다. 사람들은 시간 부족과 주의 집중 등의 문제로 긴 동영상을 회피하는 경향을 보이고 있으며, 미디어 컨텐츠를 소비할 때에도 원치 않는 컨텐츠 감상으로 인한 불필요한 시간 낭비를 줄이고, 자투리 시간을 활용하여 미디어를 소비하려는 욕구가 커지고 있다.
이러한 미디어 소비 패턴의 변화는 컨텐츠 제작 분야에도 영향을 미쳤고, 숏-컨텐츠로 지칭되는 새로운 형태의 컨텐츠를 등장시켰다. 예를 들어 틱톡(TikTok), 유튜브(Youtube) 등은 컨텐츠를 제작/배포/소비하는 일련의 과정을 서비스로 제공하였고, 숏-컨텐츠의 폭발적인 증가를 견인하였다. 개인형 미디어 산업이 숏-컨텐츠를 중심으로 재편되고 있을 때, 방송국 등의 오리지널 컨텐츠 제작사들은 이러한 흐름에 맞추어 기존에 제작된 긴 호흡의 미디어 컨텐츠를 짧게 축약하여 제공하는 클립형 미디어 서비스를 시작하며 시대적 흐름에 합류하고 있다.
한편, 미디어 컨텐츠가 기하급수적으로 증가하는 컨텐츠의 홍수 시대에서 사용자는 다양한 미디어 컨텐츠를 경험하고, 선택할 수 있다는 장점도 있지만 반면에 너무 많은 컨텐츠 사이에서 원하는 컨텐츠를 찾는데 많은 시간을 소비하거나 어려움을 겪는 문제도 발생하게 되었다. 이런 어려움을 해결하기 위해 브로드캐스트(Broadcast) 기반 방송국 중심의 실시간 방송서비스에서는 프로그램 가이드, 예약 시청 서비스 등의 부가적인 서비스를 제공하고 있고, 브로드밴드(Broadband) 기반 넷플릭스, 유튜브 등의 OTT 서비스에서는 검색 기법 고도화, 추천 서비스 등의 사용자 편의 서비스를 제공하고 있다.
그러나, 브로드캐스트 영역에서의 프로그램 가이드, 예약 시청 서비스들은 선호하는 컨텐츠를 사용자가 직접 찾아서 설정해주어야 한다는 불편함이 있고, 브로드밴드 영역에서의 검색/추천 서비스는 검색/추천의 결과로 제시되는 컨텐츠들 조차도 개수가 많고 종류가 다양해서 그 중에서도 또 다시 취향에 맞는 컨텐츠를 골라내기 위한 추가적인 선택 과정이 필요하다는 불편함이 있다.
또한, 시리즈물의 경우, 새로운 시리즈가 배포되었을 때, 기존 시리즈에 대한 내용이 잘 기억나지 않을 경우, 기존 시리즈를 다시 감상해야 하는 불편함이 있으며, 스포츠나 뉴스 컨텐츠의 경우 사용자에 따라 긴 시간동안 전체 컨텐츠를 감상하기 보다는 주요한 장면이나 소식 등만 추려서 보고 싶어하기도 하는데 현재 시스템에서는 편집영상을 사용자가 직접 찾거나 수동으로 조작(예를 들어, Fast Forward)하여 감상해야 하는 불편함이 있다.
또한, 종래의 축약 컨텐츠 서비스들은 축약 컨텐츠를 생산하는 생산자와 소비하는 소비자가 효율적으로 연결되지 못하는 문제점을 가지고 있다. 현재 축약 컨텐츠들은 대부분 방송국이나 개인이 제작하여 방송국 자체 플랫폼이나 유튜브 등을 통해 배포된다. 따라서, 사용자는 원하는 컨텐츠가 있을 경우, 특정 어플리케이션 또는 웹사이트에서 원하는 컨텐츠를 직접 검색하여 찾아서 감상해야 한다. 예를 들어, TV에서 스포츠를 즐겨보는 사용자는 오늘의 경기에 대한 축약 컨텐츠를 보고 싶을 경우, 인터넷이나 유튜브 등에서 관련 컨텐츠를 검색하고, 검색 결과 중에서 본인이 원하는 적절한 축약 컨텐츠를 다시 선택하고 시청해야 하는 번거로운 과정이 필요하다.
본 개시는 상술한 문제들 또는 불편함을 개선하는 디스플레이 장치 및 그의 동작 방법을 제공하고자 한다.
본 개시는 방송 프로그램 또는 OTT 기반 영상 등을 요약한 축약 컨텐츠를 제공하고자 한다.
본 개시는 특정 컨텐츠에서 사용자 선호 영상들로 요약된 축약 컨텐츠를 제공하고자 한다.
본 개시는 사용자의 시청 패턴 또는 시청 상황 중 적어도 하나를 고려하여 적절한 타이밍에 축약 컨텐츠를 추천하는 디스플레이 장치 및 그의 동작 방법을 제공하고자 한다.
본 개시는 오디오/비디오의 단절 문제를 최소화한 축약 컨텐츠를 생성 및 제공하고자 한다.
본 개시는 오디오 및 비디오의 끊김이 최소화된 축약 컨텐츠를 생성 및 제공하고자 한다.
본 개시의 실시 예에 따른 디스플레이 장치는 사용자 시청 이력을 기반으로 선호 컨텐츠를 선별하여 사용자 기호에 맞게 가공함으로써 축약 컨텐츠를 생성 및 제공할 수 있다.
본 개시의 실시 예에 따른 디스플레이 장치는 사용자 시청 패턴 또는 현재 시청 상황 중 적어도 하나에 기초하여 맞춤형 축약 컨텐츠의 추천 시점을 획득할 수 있다.
본 개시의 실시 예에 따른 디스플레이 장치는 축약 컨텐츠 생성 시 비디오 및 오디오를 모두 참조하여 생성할 수 있다.
본 개시의 실시 예에 따른 디스플레이 장치는 컨텐츠를 수신하고, 수신된 컨텐츠의 축약 컨텐츠를 생성하는 컨트롤러, 및 상기 축약 컨텐츠를 표시하는 디스플레이를 포함하고, 상기 컨트롤러는 상기 컨텐츠의 비디오에 기초하여 추출된 제1 프레임들과 상기 컨텐츠의 오디오에 기초하여 추출된 제2 프레임들을 합하여 상기 축약 컨텐츠를 생성할 수 있다.
컨트롤러는 상기 제1 프레임들의 재생 구간에서 발화되는 문장의 끊김이 발생하지 않도록 상기 제2 프레임을 추출할 수 있다.
컨트롤러는 상기 제1 프레임들을 추출한 후, 상기 제1 프레임들 외에 상기 제1 프레임들의 재생 구간에서 발화되는 문장이 속하는 프레임들을 상기 제2 프레임들로 추출할 수 있다.
컨트롤러는 상기 오디오에 포함된 각 문장의 시작 지점 및 종료 지점을 이용하여 상기 제2 프레임들을 추출할 수 있다.
컨트롤러는 상기 제1 프레임들의 재생 구간에 상기 시작 지점 및 상기 종료 지점 중 하나만 존재하는 문장이 검출되면, 검출된 문장 전체가 재생되는 구간의 프레임들을 상기 제2 프레임들로 추출할 수 있다.
컨트롤러는 상기 오디오에 포함된 목소리를 분석하여 상기 각 문장의 시작 지점 및 종료 지점을 획득할 수 있다.
컨트롤러는 상기 오디오에 포함된 목소리의 피치(pitch), 에너지 및 발화 속도 중 적어도 하나에 기초하여 상기 각 문장의 시작 지점 및 종료 지점을 획득할 수 있다.
컨트롤러는 상기 오디오에서 소정 시간 내에 연속적으로 발화되는 단어들의 조합을 상기 문장으로 인식하고, 인식된 문장의 시작 지점 및 종료 지점을 획득할 수 있다.
컨트롤러는 상기 수신된 컨텐츠의 프레임을 소정 단위로 분할하고, 분할된 각 단위별로 특징값을 추출하고, 추출된 특징값에 대해 중요도 점수를 산출하여 상기 제1 프레임을 추출할 수 있다.
컨트롤러는 상기 제1 프레임들을 추출한 후 상기 제1 프레임들의 재생 구간이 상기 오디오에 기초하여 획득된 문장의 재생 구간과 일치하는지 여부에 기초하여 상기 제2 프레임들을 추출할 수 있다.
컨트롤러는 상기 문장의 재생 구간 중 상기 제1 프레임들의 재생 구간에 속하지 않는 구간의 프레임들을 상기 제2 프레임들로 추출할 수 있다.
컨트롤러는 상기 비디오에 기초하여 장면 변화 지점을 검출하고, 검출된 장면 전환 시점에 기초하여 상기 제1 프레임들을 획득할 수 있다.
컨트롤러는 인물, 공간 또는 시간의 변화를 감지하여 상기 장면 전환 시점을 검출할 수 있다.
컨트롤러는 상기 오디오에서 키워드를 추출하고, 추출된 키워드가 포함된 문장에 기초하여 상기 제2 프레임들을 추출할 수 있다.
컨트롤러는 상기 비디오를 추출하는 비디오 추출부, 상기 오디오를 추출하는 오디오 추출부, 및 상기 제1 프레임들 및 상기 제2 프레임들을 추출하여 상기 축약 컨텐츠를 생성하는 축약 컨텐츠 생성부를 포함할 수 있다.
본 개시의 실시 예에 따르면, 특정 컨텐츠가 사용자 선호 프레임들로 요약된 축약 컨텐츠로 제공되므로, 사용자가 특정 컨텐츠를 일일이 찾거나, 특정 컨텐츠에서 찾고자 하는 내용을 탐색하지 않아도 되므로, 사용자 편의성이 크게 향상되는 이점이 있다.
본 개시의 실시 예에 따르면, 사용자의 시청 상황을 인지하여 추천 타이밍을 획득하여 축약 컨텐츠를 제공함으로써, 축약 컨텐츠에 대한 접근성이 높아지는 이점이 있다.
본 개시의 실시 예에 따르면, 축약 컨텐츠의 시청 여부에 따라 사용자 선호도를 업데이트함으로써, 축약 컨텐츠가 계속해서 사용자 맞춤형으로 더욱 개선되는 이점이 있다.
본 개시의 실시 예에 따르면, 장면 변화 지점과 문장의 경계 지점에 기초하여 축약 컨텐츠가 생성되므로, 비디오/오디오의 끊김 문제가 최소화되고, 이에 따라 축약 컨텐츠의 완결성이 높아지는 이점이 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 원격제어장치의 블록도이다.
도 3은 본발명의 일 실시 예에 따른 원격제어장치의 실제 구성 예를 보여준다.
도 4는 본 발명의 실시 예에 따라 원격 제어 장치를 활용하는 예를 보여준다.
도 5는 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 제공하기 위한 구성이 도시된 블록도이다.
도 6은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 제공하는 방법이 도시된 순서도이다.
도 7은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하는 기술을 개략적으로 도시한 도면이다.
도 8은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하는 방법이 도시된 순서도이다.
도 9는 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성할 때 이용되는 어텐션 메커니즘에 따른 동작 방법을 도시한 도면이다.
도 10은 본 개시의 실시 예에 따른 축약 컨텐츠 생성 학습 모델이 도시된 예시 도면이다.
도 11은 본 개시의 실시 예에 따른 어텐션 함수(Attention Function)의 예시가 도시된 도면이다.
도 12는 본 개시의 실시 예에 따른 실제 영상에서 어텐션 메커니즘을 통해 특정 영역이 추출되는 모습이 도시된 예시 도면이다.
도 13은 본 개시의 실시 예에 따른 어텐션과 LSTM 숨겨진 상태(hidden state)의 관계도가 도시된 도면이다.
도 14는 본 개시의 제1 실시 예에 따른 디스플레이 장치가 사용자의 채널 변경 입력에 기초하여 축약 컨텐츠를 추천하는 방법이 도시된 순서도이다.
도 15는 본 개시의 제2 실시 예에 따른 디스플레이 장치가 사용자의 채널 변경 입력에 기초하여 축약 컨텐츠를 추천하는 방법이 도시된 순서도이다.
도 16은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하기 위한 SW 구조도가 도시된 도면이다.
도 17은 본 개시의 실시 예에 따른 디스플레이 장치가 비단절성 확보를 위한 프레임 획득 방법이 도시된 순서도이다.
도 18은 본 개시의 실시 예에 따른 디스플레이 장치가 장면 변화 지점을 획득하는 방법을 설명하는 도면이다.
도 19는 본 개시의 실시 예에 따른 디스플레이 장치가 문장의 경계 지점을 획득하는 방법을 설명하는 도면이다.
도 20은 본 개시의 실시 예에 따른 디스플레이 장치가 비디오 및 오디오에 기초하여 최종 키 프레임을 선택하는 방법을 설명하는 도면이다.
이하, 본 발명과 관련된 실시 예에 대하여 도면을 참조하여 보다 상세하게 설명한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 “인터페이스”, "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 발명의 실시예에 따른 디스플레이 장치는, 예를 들어 방송 수신 기능에 컴퓨터 지원 기능을 추가한 지능형 디스플레이 장치로서, 방송 수신 기능에 충실하면서도 인터넷 기능 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 공간 리모콘 등 보다 사용에 편리한 인터페이스를 갖출 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수 있다.
따라서, 본 발명에서 기술되는 디스플레이 장치는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 디스플레이 장치는, 보다 구체적으로 예를 들면, 네트워크 TV, HBBTV, 스마트 TV, LED TV, OLED TV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.
도 1은 본 발명의 일 실시예에 따른 디스플레이 장치의 구성을 블록도로 도시한 것이다.
도 1을 참조하면, 디스플레이 장치(100)는 방송 수신부(130), 외부장치 인터페이스(135), 메모리(140), 사용자입력 인터페이스(150), 컨트롤러(170), 무선 통신 인터페이스(173), 디스플레이(180), 스피커(185), 전원 공급 회로(190)를 포함할 수 있다.
방송 수신부(130)는 튜너(131), 복조기(132) 및 네트워크 인터페이스(133)를 포함할 수 있다.
튜너(131)는 채널 선국 명령에 따라 특정 방송 채널을 선국할 수 있다. 튜너(131)는 선국된 특정 방송 채널에 대한 방송 신호를 수신할 수 있다.
복조기(132)는 수신한 방송 신호를 비디오 신호, 오디오 신호, 방송 프로그램과 관련된 데이터 신호로 분리할 수 있고, 분리된 비디오 신호, 오디오 신호 및 데이터 신호를 출력이 가능한 형태로 복원할 수 있다.
외부장치 인터페이스(135)는 인접하는 외부 장치 내의 애플리케이션 또는 애플리케이션 목록을 수신하여, 컨트롤러(170) 또는 메모리(140)로 전달할 수 있다.
외부장치 인터페이스(135)는 디스플레이 장치(100)와 외부 장치 간의 연결 경로를 제공할 수 있다. 외부장치 인터페이스(135)는 디스플레이 장치(100)에 무선 또는 유선으로 연결된 외부장치로부터 출력된 영상, 오디오 중 하나 이상을 수신하여, 컨트롤러(170)로 전달할 수 있다. 외부장치 인터페이스(135)는 복수의 외부 입력 단자들을 포함할 수 있다. 복수의 외부 입력 단자들은 RGB 단자, 하나 이상의 HDMI(High Definition Multimedia Interface) 단자, 컴포넌트(Component) 단자를 포함할 수 있다.
외부장치 인터페이스(135)를 통해 입력된 외부장치의 영상 신호는 디스플레이(180)를 통해 출력될 수 있다. 외부장치 인터페이스(135)를 통해 입력된 외부장치의 음성 신호는 스피커(185)를 통해 출력될 수 있다.
외부장치 인터페이스(135)에 연결 가능한 외부 장치는 셋톱박스, 블루레이 플레이어, DVD 플레이어, 게임기, 사운드 바, 스마트폰, PC, USB 메모리, 홈 씨어터 중 어느 하나일 수 있으나, 이는 예시에 불과하다.
네트워크 인터페이스(133)는 디스플레이 장치(100)를 인터넷망을 포함하는 유/무선 네트워크와 연결하기 위한 인터페이스를 제공할 수 있다. 네트워크 인터페이스(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 다른 사용자 또는 다른 전자 기기와 데이터를 송신 또는 수신할 수 있다.
또한, 디스플레이 장치(100)에 미리 등록된 다른 사용자 또는 다른 전자 기기 중 선택된 사용자 또는 선택된 전자기기에, 디스플레이 장치(100)에 저장된 일부의 컨텐츠 데이터를 송신할 수 있다.
네트워크 인터페이스(133)는 접속된 네트워크 또는 접속된 네트워크에 링크된 다른 네트워크를 통해, 소정 웹 페이지에 접속할 수 있다. 즉, 네트워크를 통해 소정 웹 페이지에 접속하여, 해당 서버와 데이터를 송신 또는 수신할 수 있다.
그리고, 네트워크 인터페이스(133)는 컨텐츠 제공자 또는 네트워크 운영자가 제공하는 컨텐츠 또는 데이터들을 수신할 수 있다. 즉, 네트워크 인터페이스(133)는 네트워크를 통하여 컨텐츠 제공자 또는 네트워크 제공자로부터 제공되는 영화, 광고, 게임, VOD, 방송 신호 등의 컨텐츠 및 그와 관련된 정보를 수신할 수 있다.
또한, 네트워크 인터페이스(133)는 네트워크 운영자가 제공하는 펌웨어의 업데이트 정보 및 업데이트 파일을 수신할 수 있으며, 인터넷 또는 컨텐츠 제공자 또는 네트워크 운영자에게 데이터들을 송신할 수 있다.
네트워크 인터페이스(133)는 네트워크를 통해, 공중에 공개(open)된 애플리케이션들 중 원하는 애플리케이션을 선택하여 수신할 수 있다.
메모리(140)는 컨트롤러(170) 내의 각 신호 처리 및 제어를 위한 프로그램이 저장하고, 신호 처리된 영상, 음성 또는 데이터신호를 저장할 수 있다.
또한, 메모리(140)는 외부장치 인터페이스(135) 또는 네트워크 인터페이스(133)로부터 입력되는 영상, 음성, 또는 데이터 신호의 임시 저장을 위한 기능을 수행할 수도 있으며, 채널 기억 기능을 통하여 소정 이미지에 관한 정보를 저장할 수도 있다.
메모리(140)는 외부장치 인터페이스(135) 또는 네트워크 인터페이스(133)로부터 입력되는 애플리케이션 또는 애플리케이션 목록을 저장할 수 있다.
디스플레이 장치(100)는 메모리(140) 내에 저장되어 있는 컨텐츠 파일(동영상 파일, 정지영상 파일, 음악 파일, 문서 파일, 애플리케이션 파일 등)을 재생하여 사용자에게 제공할 수 있다.
사용자입력 인터페이스(150)는 사용자가 입력한 신호를 컨트롤러(170)로 전달하거나, 컨트롤러(170)로부터의 신호를 사용자에게 전달할 수 있다. 예를 들어, 사용자입력 인터페이스(150)는 블루투스(Bluetooth), WB(Ultra Wideband), 지그비(ZigBee) 방식, RF(Radio Frequency) 통신 방식 또는 적외선(IR) 통신 방식 등 다양한 통신 방식에 따라, 원격제어장치(200)로부터 전원 온/오프, 채널 선택, 화면 설정 등의 제어 신호를 수신하여 처리하거나, 컨트롤러(170)로부터의 제어 신호를 원격제어장치(200)로 송신하도록 처리할 수 있다.
또한, 사용자입력 인터페이스(150)는, 전원키, 채널키, 볼륨키, 설정치 등의 로컬키(미도시)에서 입력되는 제어 신호를 컨트롤러(170)에 전달할 수 있다.
컨트롤러(170)에서 영상 처리된 영상 신호는 디스플레이(180)로 입력되어 해당 영상 신호에 대응하는 영상으로 표시될 수 있다. 또한, 컨트롤러(170)에서 영상 처리된 영상 신호는 외부장치 인터페이스(135)를 통하여 외부 출력장치로 입력될 수 있다.
컨트롤러(170)에서 처리된 음성 신호는 스피커(185)로 오디오 출력될 수 있다. 또한, 컨트롤러(170)에서 처리된 음성 신호는 외부장치 인터페이스(135)를 통하여 외부 출력장치로 입력될 수 있다.
그 외, 컨트롤러(170)는, 디스플레이 장치(100) 내의 전반적인 동작을 제어할 수 있다.
또한, 컨트롤러(170)는 사용자입력 인터페이스(150)를 통하여 입력된 사용자 명령 또는 내부 프로그램에 의하여 디스플레이 장치(100)를 제어할 수 있으며, 네트워크에 접속하여 사용자가 원하는 애플리케이션 또는 애플리케이션 목록을 디스플레이 장치(100) 내로 다운받을 수 있도록 할 수 있다.
컨트롤러(170)는 사용자가 선택한 채널 정보 등이 처리한 영상 또는 음성신호와 함께 디스플레이(180) 또는 스피커(185)를 통하여 출력될 수 있도록 한다.
또한, 컨트롤러(170)는 사용자입력 인터페이스(150)를 통하여 수신한 외부장치 영상 재생 명령에 따라, 외부장치 인터페이스(135)를 통하여 입력되는 외부 장치, 예를 들어, 카메라 또는 캠코더로부터의, 영상 신호 또는 음성 신호가 디스플레이(180) 또는 스피커(185)를 통해 출력될 수 있도록 한다.
한편, 컨트롤러(170)는 영상을 표시하도록 디스플레이(180)를 제어할 수 있으며, 예를 들어 튜너(131)를 통해 입력되는 방송 영상, 또는 외부장치 인터페이스(135)를 통해 입력되는 외부 입력 영상, 또는 네트워크 인터페이스부를 통해 입력되는 영상, 또는 메모리(140)에 저장된 영상이 디스플레이(180)에서 표시되도록 제어할 수 있다. 이 경우, 디스플레이(180)에 표시되는 영상은 정지 영상 또는 동영상일 수 있으며, 2D 영상 또는 3D 영상일 수 있다.
또한, 컨트롤러(170)는 디스플레이 장치(100) 내에 저장된 컨텐츠, 또는 수신된 방송 컨텐츠, 외부로 부터 입력되는 외부 입력 컨텐츠가 재생되도록 제어할 수 있으며, 상기 컨텐츠는 방송 영상, 외부 입력 영상, 오디오 파일, 정지 영상, 접속된 웹 화면, 및 문서 파일 등 다양한 형태일 수 있다.
무선 통신 인터페이스(173)는 유선 또는 무선 통신을 통해 외부 기기와 통신을 수행할 수 있다. 무선 통신 인터페이스(173)는 외부 기기와 근거리 통신(Short range communication)을 수행할 수 있다. 이를 위해, 무선 통신 인터페이스(173)는 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다. 이러한, 무선 통신 인터페이스(173)는 근거리 무선 통신망(Wireless Area Networks)을 통해 디스플레이 장치(100)와 무선 통신 시스템 사이, 디스플레이 장치(100)와 다른 디스플레이 장치(100) 사이, 또는 디스플레이 장치(100)와 디스플레이 장치(100, 또는 외부서버)가 위치한 네트워크 사이의 무선 통신을 지원할 수 있다. 근거리 무선 통신망은 근거리 무선 개인 통신망(Wireless Personal Area Networks)일 수 있다.
여기에서, 다른 디스플레이 장치(100)는 본 발명에 따른 디스플레이 장치(100)와 데이터를 상호 교환하는 것이 가능한(또는 연동 가능한) 웨어러블 디바이스(wearable device, 예를 들어, 스마트워치(smartwatch), 스마트 글래스(smart glass), HMD(head mounted display)), 스마트 폰과 같은 이동 단말기가 될 수 있다. 무선 통신 인터페이스(173)는 디스플레이 장치(100) 주변에, 통신 가능한 웨어러블 디바이스를 감지(또는 인식)할 수 있다.
나아가, 컨트롤러(170)는 감지된 웨어러블 디바이스가 본 발명에 따른 디스플레이 장치(100)와 통신하도록 인증된 디바이스인 경우, 디스플레이 장치(100)에서 처리되는 데이터의 적어도 일부를, 무선 통신 인터페이스(173)를 통해 웨어러블 디바이스로 송신할 수 있다. 따라서, 웨어러블 디바이스의 사용자는, 디스플레이 장치(100)에서 처리되는 데이터를, 웨어러블 디바이스를 통해 이용할 수 있다.
디스플레이(180)는 컨트롤러(170)에서 처리된 영상 신호, 데이터 신호, OSD 신호 또는 외부장치 인터페이스(135)에서 수신되는 영상 신호, 데이터 신호 등을 각각 R,G,B 신호로 변환하여 구동 신호를 생성할 수 있다.
한편, 도 1에 도시된 디스플레이 장치(100)는 본 발명의 일실시예에 불과하므로. 도시된 구성요소들 중 일부는 실제 구현되는 디스플레이 장치(100)의 사양에 따라 통합, 추가, 또는 생략될 수 있다.
즉, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 본 발명의 실시예를 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
본 발명의 또 다른 실시예에 따르면, 디스플레이 장치(100)는 도 1에 도시된 바와 달리, 튜너(131)와 복조기(132)를 구비하지 않고 네트워크 인터페이스(133) 또는 외부장치 인터페이스(135)를 통해서 영상을 수신하여 재생할 수도 있다.
예를 들어, 디스플레이 장치(100)는 방송 신호 또는 다양한 네트워크 서비스에 따른 컨텐츠들을 수신하기 위한 등과 같은 셋탑 박스 등과 같은 영상 처리 장치와 상기 영상 처리 장치로부터 입력되는 컨텐츠를 재생하는 컨텐츠 재생 장치로 분리되어 구현될 수 있다.
이 경우, 이하에서 설명할 본 발명의 실시예에 따른 디스플레이 장치의 동작 방법은 도 1을 참조하여 설명한 바와 같은 디스플레이 장치(100)뿐 아니라, 상기 분리된 셋탑 박스 등과 같은 영상 처리 장치 또는 디스플레이(180) 및 오디오출력부(185)를 구비하는 컨텐츠 재생 장치 중 어느 하나에 의해 수행될 수도 있다.
다음으로, 도 2 내지 도 3을 참조하여, 본 발명의 일 실시 예에 따른 원격제어장치에 대해 설명한다.
도 2은 본 발명의 일 실시 예에 따른 원격제어장치의 블록도이고, 도 3은 본발명의 일 실시 예에 따른 원격제어장치(200)의 실제 구성 예를 보여준다.
먼저, 도 2를 참조하면, 원격제어장치(200)는 지문인식기(210), 무선통신회로(220), 사용자 입력 인터페이스(230), 센서(240), 출력 인터페이스(250), 전원공급회로(260), 메모리(270), 컨트롤러(280), 마이크로폰(290)를 포함할 수 있다.
도 2을 참조하면, 무선통신회로(220)는 전술하여 설명한 본 발명의 실시 예들에 따른 디스플레이 장치 중 임의의 어느 하나와 신호를 송수신한다.
원격제어장치(200)는 RF 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 RF 회로(221)을 구비하며, IR 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 IR 회로(223)을 구비할 수 있다. 또한, 원격제어장치(200)는 블루투스 통신규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 블루투스 회로(225)를 구비할 수 있다. 또한, 원격제어장치(200)는 NFC(Near Field Communication) 통신 규격에 따라 디스플레이 장치(100)와 신호를 송수할 수 있는 NFC 회로(227)을 구비하며, WLAN(Wireless LAN) 통신 규격에 따라 디스플레이 장치(100)와 신호를 송수신할 수 있는 WLAN 회로(229)을 구비할 수 있다.
또한, 원격제어장치(200)는 디스플레이 장치(100)로 원격제어장치(200)의 움직임 등에 관한 정보가 담긴 신호를 무선통신회로(220)를 통해 전송한다.
한편, 원격제어장치(200)는 디스플레이 장치(100)가 전송한 신호를 RF 회로(221)을 통하여 수신할 수 있으며, 필요에 따라 IR 회로(223)을 통하여 디스플레이 장치(100)로 전원 온/오프, 채널 변경, 볼륨 변경 등에 관한 명령을 전송할 수 있다.
사용자 입력 인터페이스(230)는 키패드, 버튼, 터치 패드, 또는 터치 스크린 등으로 구성될 수 있다. 사용자는 사용자 입력 인터페이스(230)를 조작하여 원격제어장치(200)으로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 사용자 입력 인터페이스(230)가 하드키 버튼을 구비할 경우 사용자는 하드키 버튼의 푸쉬 동작을 통하여 원격제어장치(200)으로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 이에 대해서는 도 3을 참조하여 설명한다.
도 3을 참조하면, 원격제어장치(200)는 복수의 버튼을 포함할 수 있다. 복수의 버튼은 지문 인식 버튼(212), 전원 버튼(231), 홈 버튼(232), 라이브 버튼(233), 외부 입력 버튼(234), 음량 조절 버튼(235), 음성 인식 버튼(236), 채널 변경 버튼(237), 확인 버튼(238) 및 뒤로 가기 버튼(239)을 포함할 수 있다.
지문 인식 버튼(212)은 사용자의 지문을 인식하기 위한 버튼일 수 있다. 일 실시예로, 지문 인식 버튼(212)은 푸쉬 동작이 가능하여, 푸쉬 동작 및 지문 인식 동작을 수신할 수도 있다.
전원 버튼(231)은 디스플레이 장치(100)의 전원을 온/오프 하기 위한 버튼일 수 있다.
홈 버튼(232)은 디스플레이 장치(100)의 홈 화면으로 이동하기 위한 버튼일 수 있다.
라이브 버튼(233)은 실시간 방송 프로그램을 디스플레이 하기 위한 버튼일 수 있다.
외부 입력 버튼(234)은 디스플레이 장치(100)에 연결된 외부 입력을 수신하기 위한 버튼일 수 있다.
음량 조절 버튼(235)은 디스플레이 장치(100)가 출력하는 음량의 크기를 조절하기 위한 버튼일 수 있다.
음성 인식 버튼(236)은 사용자의 음성을 수신하고, 수신된 음성을 인식하기 위한 버튼일 수 있다.
채널 변경 버튼(237)은 특정 방송 채널의 방송 신호를 수신하기 위한 버튼일 수 있다.
확인 버튼(238)은 특정 기능을 선택하기 위한 버튼일 수 있고, 뒤로 가기 버튼(239)은 이전 화면으로 되돌아가기 위한 버튼일 수 있다.
다시 도 2를 설명한다.
사용자 입력 인터페이스(230)가 터치스크린을 구비할 경우 사용자는 터치스크린의 소프트키를 터치하여 원격제어장치(200)로 디스플레이 장치(100)와 관련된 명령을 입력할 수 있다. 또한, 사용자 입력 인터페이스(230)는 스크롤 키나, 조그 키 등 사용자가 조작할 수 있는 다양한 종류의 입력수단을 구비할 수 있으며 본 실시 예는 본 발명의 권리범위를 제한하지 아니한다.
센서(240)는 자이로 센서(241) 또는 가속도 센서(243)를 구비할 수 있으며, 자이로 센서(241)는 원격제어장치(200)의 움직임에 관한 정보를 센싱할 수 있다.
예를 들어, 자이로 센서(241)는 원격제어장치(200)의 동작에 관한 정보를 x,y,z 축을 기준으로 센싱할 수 있으며, 가속도 센서(243)는 원격제어장치(200)의 이동속도 등에 관한 정보를 센싱할 수 있다. 한편, 원격제어장치(200)는 거리측정센서를 더 구비할 수 있어, 디스플레이 장치(100)의 디스플레이(180)와의 거리를 센싱할 수 있다.
출력 인터페이스(250)는 사용자 입력 인터페이스(230)의 조작에 대응하거나 디스플레이 장치(100)에서 전송한 신호에 대응하는 영상 또는 음성 신호를 출력할 수 있다.
사용자는 출력 인터페이스(250)를 사용자 입력 인터페이스(230)의 조작 여부 또는 디스플레이 장치(100)의 제어 여부를 인지할 수 있다.
예를 들어, 출력 인터페이스(250)는 사용자 입력 인터페이스(230)가 조작되거나 무선 통신부(225)를 통하여 디스플레이 장치(100)와 신호가 송수신되면 점등되는 LED(251), 진동을 발생하는 진동기(253), 음향을 출력하는 스피커(255), 또는 영상을 출력하는 디스플레이(257)을 구비할 수 있다.
또한, 전원공급회로(260)는 원격제어장치(200)으로 전원을 공급하며, 원격제어장치(200)이 소정 시간 동안 움직이지 않은 경우 전원 공급을 중단함으로서 전원 낭비를 줄일 수 있다.
전원공급회로(260)는 원격제어장치(200)에 구비된 소정 키가 조작된 경우에 전원 공급을 재개할 수 있다.
메모리(270)는 원격제어장치(200)의 제어 또는 동작에 필요한 여러 종류의 프로그램, 애플리케이션 데이터 등이 저장될 수 있다.
원격제어장치(200)가 디스플레이 장치(100)와 RF 회로(221)을 통하여 무선으로 신호를 송수신할 경우, 원격제어장치(200)과 디스플레이 장치(100)는 소정 주파수 대역을 통하여 신호를 송수신한다.
원격제어장치(200)의 컨트롤러(280)는 원격제어장치(200)과 페어링된 디스플레이 장치(100)와 신호를 무선으로 송수신할 수 있는 주파수 대역 등에 관한 정보를 메모리(270)에 저장하고 참조할 수 있다.
컨트롤러(280)는 원격제어장치(200)의 제어에 관련된 제반사항을 제어한다. 컨트롤러(280)는 사용자 입력 인터페이스(230)의 소정 키 조작에 대응하는 신호 또는 센서(240)에서 센싱한 원격제어장치(200)의 움직임에 대응하는 신호를 무선 통신부(225)를 통하여 디스플레이 장치(100)로 전송할 수 있다.
또한, 원격제어장치(200)의 마이크로폰(290)은 음성을 획득할 수 있다.
마이크로폰(290)는 복수 개로 구비될 수 있다.
다음으로 도 4를 설명한다.
도 4는 본 발명의 실시 예에 따라 원격 제어 장치를 활용하는 예를 보여준다.
도 4의 (a)는 원격 제어 장치(200)에 대응하는 포인터(205)가 디스플레이(180)에 표시되는 것을 예시한다.
사용자는 원격 제어 장치(200)를 상하, 좌우로 움직이거나 회전할 수 있다. 디스플레이 장치(100)의 디스플레이(180)에 표시된 포인터(205)는 원격 제어 장치(200)의 움직임에 대응한다. 이러한 원격 제어 장치(200)는, 도면과 같이, 3D 공간 상의 움직임에 따라 해당 포인터(205)가 이동되어 표시되므로, 공간 리모콘이라 명명할 수 있다.
도 4의 (b)는 사용자가 원격 제어 장치(200)를 왼쪽으로 이동하면, 디스플레이 장치(100)의 디스플레이(180)에 표시된 포인터(205)도 이에 대응하여 왼쪽으로 이동하는 것을 예시한다.
원격 제어 장치(200)의 센서를 통하여 감지된 원격 제어 장치(200)의 움직임에 관한 정보는 디스플레이 장치(100)로 전송된다. 디스플레이 장치(100)는 원격 제어 장치(200)의 움직임에 관한 정보로부터 포인터(205)의 좌표를 산출할 수 있다. 디스플레이 장치(100)는 산출한 좌표에 대응하도록 포인터(205)를 표시할 수 있다.
도 4의 (c)는, 원격 제어 장치(200) 내의 특정 버튼을 누른 상태에서, 사용자가 원격 제어 장치(200)를 디스플레이(180)에서 멀어지도록 이동하는 경우를 예시한다. 이에 의해, 포인터(205)에 대응하는 디스플레이(180) 내의 선택 영역이 줌인되어 확대 표시될 수 있다.
이와 반대로, 사용자가 원격 제어 장치(200)를 디스플레이(180)에 가까워지도록 이동하는 경우, 포인터(205)에 대응하는 디스플레이(180) 내의 선택 영역이 줌아웃되어 축소 표시될 수 있다.
한편, 원격 제어 장치(200)가 디스플레이(180)에서 멀어지는 경우, 선택 영역이 줌아웃되고, 원격 제어 장치(200)가 디스플레이(180)에 가까워지는 경우, 선택 영역이 줌인될 수도 있다.
또한, 원격 제어 장치(200) 내의 특정 버튼을 누른 상태에서는 상하, 좌우 이동의 인식이 배제될 수 있다. 즉, 원격 제어 장치(200)가 디스플레이(180)에서 멀어지거나 접근하도록 이동하는 경우, 상, 하, 좌, 우 이동은 인식되지 않고, 앞뒤 이동만 인식되도록 할 수 있다. 원격 제어 장치(200) 내의 특정 버튼을 누르지 않은 상태에서는, 원격 제어 장치(200)의 상, 하, 좌, 우 이동에 따라 포인터(205)만 이동하게 된다.
한편, 포인터(205)의 이동속도나 이동방향은 원격 제어 장치(200)의 이동속도나 이동방향에 대응할 수 있다.
한편, 본 명세서에서의 포인터는, 원격 제어 장치(200)의 동작에 대응하여, 디스플레이(180)에 표시되는 오브젝트를 의미한다. 따라서, 포인터(205)로 도면에 도시된 화살표 형상 외에 다양한 형상의 오브젝트가 가능하다. 예를 들어, 점, 커서, 프롬프트, 두꺼운 외곽선 등을 포함하는 개념일 수 있다. 그리고, 포인터(205)가 디스플레이(180) 상의 가로축과 세로축 중 어느 한 지점(point)에 대응하여 표시되는 것은 물론, 선(line), 면(surface) 등 복수 지점에 대응하여 표시되는 것도 가능하다.
한편, 본 개시의 실시 예에 따른 디스플레이 장치(100)는 브로드캐스트 기반 혹은 브로드밴드 기반으로 제공되는 다양한 컨텐츠 중 사용자가 관심 있어 할 컨텐츠를 추천하되, 추천 컨텐츠를 요약하여 제공하고자 한다.
도 5는 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 제공하기 위한 구성이 도시된 블록도이다.
도 5에 도시된 구성 중 도 1에 도시된 구성과 도면 부호가 일치하는 구성은 동일한 구성일 수 있다.
튜너(131)는 방송 신호를 수신할 수 있다. 즉, 튜너(131)는 브로드캐스트 기반 컨텐츠를 수신할 수 있다.
네트워크 인터페이스부(133)는 유/무선 네트워크에 연결하기 위한 인터페이스를 제공할 수 있다. 네트워크 인터페이스부(133)는 유/무선 네트워크 기반, 즉 브로드밴드 기반 컨텐츠를 수신할 수 있다.
제어부(170)는 튜너(131) 또는 네트워크 인터페이스부(133) 중 적어도 하나로부터 컨텐츠를 전달받고, 전달받은 컨텐츠를 요약한 축약 컨텐츠를 생성할 수 있다. 제어부(170)는 생성된 축약 컨텐츠를 저장부(140)에 저장할 수 있고, 오디오 출력부(185) 및 디스플레이(180)를 통해 출력할 수 있다.
보다 상세하게, 제어부(170)는 데이터 수신부(191), 데이터 처리부(192), 사용자 데이터 분석부(193), 컨텐츠 수집부(195), 컨텐츠 가공부(197) 및 컨텐츠 재생부(199) 중 적어도 일부 또는 전부를 포함할 수 있다. 한편, 제어부(170)의 상세 구성요소는 설명의 편의를 위한 예시에 불과하며, 상술한 구성요소들 중 일부가 생략되거나 다른 구성요소를 더 포함할 수도 있다.
데이터 수신부(191)는 튜너(131) 또는 네트워크 인터페이스부(133)로부터 컨텐츠를 수신할 수 있다. 데이터 수신부(191)는 수신한 컨텐츠를 데이터 처리부(192)로 전달할 수 있다.
데이터 처리부(192)는 데이터 수신부(191)로부터 컨텐츠를 전달받을 수 있다. 데이터 처리부(192)는 입력된 컨텐츠에서 메타데이터를 추출할 수 있다. 예를 들어, 데이터 처리부(192)는 입력된 컨텐츠에서 시청 시간, 장르, 등장 인물 등의 메타데이터를 추출할 수 있다. 즉, 데이터 처리부(192)는 컨텐츠에서 사용자 선호도 분석에 필요한 메타데이터를 추출할 수 있다. 컨데이터 처리부(192)는 추출된 메타데이터를 사용자 데이터 분석부(193)로 전달할 수 있다.
사용자 데이터 분석부(193)는 사용자가 시청한 컨텐츠의 메타데이터를 통해 사용자 선호도를 분석할 수 있다. 사용자 데이터 분석부(193)는 데이터 처리부(192)로부터 전달받은 메타데이터를 분석하여 사용자 선호도를 획득할 수 있다.
사용자 데이터 분석부(193)는 사용자가 평소 즐겨보는 컨텐츠에 대한 정보를 학습하여 선호 컨텐츠를 선별하기 위한 정보를 추출할 수 있다. 즉, 사용자 데이터 분석부(193)는 사용자가 시청한 모든 컨텐츠에 대한 정보를 학습함으로써 사용자 선호 컨텐츠를 획득하기 위한 정보를 추출할 수 있다.
또한, 사용자 데이터 분석부(193)는 사용자의 주요 시청 시간대를 획득할 수도 있다. 즉, 사용자 데이터 분석부(193)는 사용자가 주로 어느 시간대에 어떤 컨텐츠를 시청하는지에 대한 시청 패턴 정보를 획득할 수 있다.
컨텐츠 수집부(195)는 사용자 선호도에 따른 컨텐츠를 수집할 수 있다. 컨텐츠 수집부(195)는 사용자 데이터 분석부(193)에서 획득된 사용자 선호도에 따라 컨텐츠를 수집할 수 있다. 즉, 컨텐츠 수집부(195)는 사용자 선호도에 대응되는 컨텐츠를 수집할 수 있다. 컨텐츠 수집부(195)는 사용자 선호도에 대응하는 컨텐츠를 튜너(131) 또는 네트워크 인터페이스부(133)를 통해 수신할 수 있다.
컨텐츠 가공부(197)는 컨텐츠 수집부(195)에서 수집된 컨텐츠를 요약한 축약 컨텐츠를 생성할 수 있다. 즉, 컨텐츠 가공부(197)는 컨텐츠 수집부(195)가 수집한 컨텐츠를 가공하여 축약 컨텐츠를 생성할 수 있다.
저장부(140)는 컨텐츠 가공부(197)에서 생성된 축약 컨텐츠를 저장할 수 있다. 한편, 축약 컨텐츠는 엣지 클라우드(Edge Cloud)에 저장될 수도 있다.
엣지 클라우드는 CDN(Content Delivery Network)의 컨텐츠 분산 처리를 위한 서버일 수 있다. 컨텐츠 제공자들은 CDN이라는 캐시서버를 구축하여 운영할 수 있는데, 코어 클라우드(Core Cloud)에 집중되는 부하를 줄이기 위해 컨텐츠를 엣지 클라우드에 분산 저장하여 관리하고 있다.
컨텐츠 재생부(199)는 컨텐츠, 특히 축약 컨텐츠의 재생을 위한 리소스를 구성할 수 있다. 구체적으로, 컨텐츠 재생부(199)는 축약 컨텐츠를 재생하기 위한 파이프라인(pipeline) 생성, 코덱(codec) 지정 등을 수행할 수 있다.
컨텐츠 재생부(199)는 축약 컨텐츠가 출력되도록 오디오 출력부(185) 및 디스플레이부(180)로 축약 컨텐츠 데이터를 전달할 수 있다.
오디오 출력부(185) 및 디스플레이부(180)는 전달받은 축약 컨텐츠 데이터에 기초하여, 축약 컨텐츠를 출력할 수 있다.
도 6은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 제공하는 방법이 도시된 순서도이다.
제어부(170)는 사용자 시청 이력 정보를 수집할 수 있다(S11).
사용자 시청 이력 정보는 사용자가 이제까지 시청한 컨텐츠에 대한 정보를 의미할 수 있다. 예를 들어, 사용자 시청 이력 정보는 시청 시간, 시청 컨텐츠(메타데이터 포함)를 포함할 수 있다.
즉, 제어부(170)는 사용자 선호도 및 시청 패턴을 분석하기 위해, 사용자가 시청한 컨텐츠들의 정보를 수집할 수 있다.
제어부(170)는 사용자 선호도 및 시청 패턴을 학습할 수 있다(S13).
제어부(170)는 사용자 시청 이력 정보에 기초하여 사용자 선호도 및 시청 패턴을 학습할 수 있다. 이에 따라, 제어부(170)는 사용자 선호도 및 시청 패턴을 각각 획득할 수 있다.
실시 예에 따라, 제어부(170)는 사용자 시청 이력 정보를 획득할 때마다 사용자 선호도 및 시청 패턴을 업데이트할 수 있다.
사용자 선호도는 사용자가 자주 시청한 컨텐츠의 장르를 포함할 수 있다. 예를 들어, 제어부(170)는 사용자가 시청했던 컨텐츠들의 장르를 분류 및 카운트하고, 상위 3개의 장르를 사용자 선호도로 획득할 수 있다.
시청 패턴은 사용자가 컨텐츠를 시청하는 시간대를 포함할 수 있다. 보다 상세하게, 시청 패턴은 각 컨텐츠 장르에 대한 시청 시간대를 포함할 수 있다. 예를 들어, 제어부(170)는 제1 장르의 컨텐츠 시청 시간대는 제1 시간대이고, 제2 장르의 컨텐츠 시청 시간대는 제2 시간대와 같은 시청 패턴을 획득할 수 있다.
제어부(170)는 사용자 선호도에 기초하여 축약 컨텐츠를 생성할 수 있다(S15).
제어부(170)는 사용자 선호도에 기초하여 관심 컨텐츠를 수집할 수 있다.
제어부(170)는 사용자 선호도에 기초하여 사용자가 선호하는 컨텐츠를 획득하고, 획득한 컨텐츠의 축약 컨텐츠를 생성할 수 있다. 제어부(170)는 사용자 선호도에 기초하여 원본 컨텐츠 중 일부 프레임들을 추출하고, 추출된 프레임들로 구성된 축약 컨텐츠를 생성할 수 있다. 여기서, 원본 컨텐츠는 축약 컨텐츠로 요약되기 전, 생략된 프레임들을 모두 포함하는 컨텐츠일 수 있다.
즉, 단계 S15는 원본 컨텐츠를 가공하는 단계일 수 있다. 제어부(170)는 컨텐츠를 사용자 시청 이력 정보에 기초하여 사용자 맞춤형인 축약 컨텐츠를 생성할 수 있다. 구체적으로, 제어부(170)는 원본 컨텐츠를 사용자 선호 길이(총 재생 시간)로 축약하며, 축약 과정에서 사용자 선호도를 반영할 수 있다. 예를 들어, 제어부(170)는 사용자 선호도로 액션 장르를 획득한 경우, 액션 장면의 비율이 다른 장면의 비율 보다 높은 축약 컨텐츠를 생성할 수 있다.
제어부(170)는 어텐션 메커니즘에 기초하여 원본 컨텐츠에서 축약 컨텐츠에 포함될 프레임을 추출할 수 있다. 축약 컨텐츠를 생성하는 방법에 대해서는 도 7 내지 도 13에서 더 자세히 설명하기로 한다.
상술한 바와 같이, 제어부(170)는 축약 컨텐츠를 미리 생성할 수 있다. 또한, 제어부(170)는 주기적으로 사용자 시청 이력 정보를 수집하여, 사용자 선호도 및 시청 패턴을 업데이트할 수 있다. 제어부(170)는 축약 컨텐트를 주기적으로 생성 및 업데이트할 수 있다.
제어부(170)는 사용자 시청 정보를 획득할 수 있다(S21).
사용자 시청 정보는, 현재 사용자의 시청 상태에 대한 정보를 의미할 수 있다. 예를 들어, 사용자 시청 정보는 원격제어장치(200)의 입력 정보, 시청 중인 채널에 대한 정보, 시청 중인 컨텐츠에 대한 정보 등을 포함할 수 있다.
제어부(170)는 사용자 시청 정보에 기초하여, 축약 컨텐츠의 추천 타이밍인지 판단할 수 있다(S23).
제어부(170)는 사용자 시청 정보에 기초하여 축약 컨텐츠의 추천 여부를 판단할 수 있다. 즉, 제어부(170)는 사용자 시청 정보에 기초하여, 축약 컨텐츠를 추천할 타이밍인지 아닌지를 판단할 수 있다.
제어부(170)는 축약 컨텐츠의 추천 타이밍을 판단하기 위해 사용자 선호도 및 시청 패턴을 학습한 모델을 이용할 수 있다. 즉, 제어부(170)는 사용자 선호도 및 시청 패턴을 학습한 모델을 이용하여, 축약 컨텐츠의 추천 타이밍인지 판단할 수 있다.
일 실시 예에 따르면, 제어부(170)는 사용자 입력에 따라 변경된 채널에서 표시되는 컨텐츠가 사용자 선호 컨텐츠이면 축약 컨텐츠의 추천 타이밍으로 인지하고, 축약 컨텐츠를 추천할 수 있다.
다른 실시 예에 따르면, 제어부(170)는 사용자 시청 상황을 인지하고, 사용자 시청 상황에 기초하여 축약 컨텐츠의 추천 타이밍인지 판단할 수 있다. 즉, 컨텐츠의 종류(예를 들어, 장르)에 따라 추천 타이밍(시점)이 다르기 때문에, 제어부(170)는 사용자 시청 정보에 기초하여 사용자의 현재 시청 상황을 획득함으로써 축약 컨텐츠의 추천 타이밍인지 판단할 수 있다. 예를 들어, 제어부(170)는 사용자가 채널을 변경하는 입력에 기초하여 축약 컨텐츠의 추천 타이밍인지 판단할 수 있고, 이에 대해서는 도 14 및 도 15를 참고하여 상세히 설명하기로 한다.
제어부(170)는 추천 타이밍이 아닌 것으로 판단시 사용자 시청 정보를 계속해서 획득할 수 있다.
제어부(170)는 추천 타이밍으로 판단시 축약 컨텐츠를 검색할 수 있다(S25).
제어부(170)는 추천 타이밍으로 판단될 경우, 사용자 시청 정보에 기초하여 추천할 축약 컨텐츠를 검색할 수 있다. 제어부(170)는 저장부(140)에 저장된 축약 컨텐츠 또는 엣지 클라우드(미도시)에 저장된 축약 컨텐츠에서 추천할 축약 컨텐츠를 검색할 수 있다.
실시 예에 따라, 제어부(170)는 축약 컨텐츠가 검색되지 않으면, 추천할 축약 컨텐츠를 생성할 수 있다.
제어부(170)는 검색된 축약 컨텐츠를 제공할 수 있다(S27).
제어부(170)는 검색된 축약 컨텐츠를 바로 출력하거나, 검색된 축약 컨텐츠의 추천 여부를 확인하기 위해 검색된 축약 컨텐츠를 추천하는 화면을 표시할 수 있다.
이를 통해, 제어부(170)는 사용자 선호도에 기초하여 생성된 축약 컨텐츠를 표시하도록 디스플레이(180)를 제어할 수 있다. 한편, 여기서 축약 컨텐츠는 원본 컨텐츠 중 사용자 선호도에 기초하여 추출된 일부 프레임들로 구성된 컨텐츠일 수 있다.
한편, 제어부(170)는 제공된 축약 컨텐츠를 사용자가 시청한 경우, 시청한 축약 컨텐츠에 대한 정보는 다시 단계 S13에서 이용될 수 있다. 즉, 제어부(170)는 사용자 선호도 및 시청 패턴을 학습할 경우, 사용자가 시청한 축약 컨텐츠에 대한 정보를 이용할 수 있다. 제어부(170)는 축약 컨텐츠의 시청 여부에 기초하여 사용자 선호도를 업데이트할 수 있다. 이에 따라, 제어부(170)는 사용자 선호도를 더 정확하게 학습 가능한 이점이 있다.
다음으로, 도 7 내지 도 13을 참조하여, 축약 컨텐츠의 생성 방법을 자세히 설명한다.
도 7은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하는 기술을 개략적으로 도시한 도면이다.
제어부(170)는 인공지능 기술과 컴퓨터 비전 기술을 접목하여 사용자의 관심 장면만으로 구성된 축약 컨텐츠를 생성할 수 있다. 특히, 제어부(170)는 어텐션 메커니즘(Attention Mechanism)을 적용하여 DNN(Deep Neural Network) 기반으로 하이라이트 장면을 추출하여 축약 컨텐츠를 생성할 수 있다.
도 7을 참조하면, 제어부(170)는 컨텐츠를 프레임 단위로 분석하여 프레임들을 소정 단위로 분할(segmentation)할 수 있다.
제어부(170)는 분할된 각 단위별로 특징값 추출(feature extraction)을 수행할 수 있다.
제어부(170)는 추출된 각 특징값에 대해 중요도 점수(important score)를 산출(prediction)할 수 있다.
도 8은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하는 방법이 도시된 순서도이다.
제어부(170)는 축약 컨텐츠를 생성하지 않을 때에는 비디오 스트리밍을 캡처 및 관리를 수행할 수 있다.
제어부(170)는 축약 컨텐츠의 생성을 개시하면 컨텐츠를 분할할 수 있다(S1).
제어부(170)는 축약 컨텐츠의 원본에 해당하는 대상 컨텐츠에 대한 전처리 과정으로 프레임별 영상 분석을 위해 컨텐츠를 프레임 단위로 분할할 수 있다.
그리고, 제어부(170)는 컨텐츠 분할 단계에서 장면(scene) 전환을 검출하거나, 장면 속 움직임의 크기를 측정할 수 있다.
제어부(170)는 컨텐츠를 분할한 후, 영상 분석을 수행할 수 있다(S2).
제어부(170)는 축약 컨텐츠 생성에 있어서 주요 시점으로 사람과 특정 장면을 검출할 수 있다.
제어부(170)는 영상 분석시 어텐션 메커니즘을 이용할 수 있다.
제어부(170)는 영상 분석을 수행한 후 관심도 예측을 수행할 수 있다(S3).
제어부(170)는 검출된 사람 또는 특정 장면에 대해 관심지수를 계산하고, 최적 가중치를 추출하여 해당 프레임의 중요도를 정량적으로 추출할 수 있다.
제어부(170)는 이벤트 구간 경계를 인식할 수 있다(S4).
예를 들어, 제어부(170)는 장소가 변경되거나, 인물이 바뀌는 등 이벤트가 발생하는 구간의 경계를 인식할 수 있다. 제어부(170)는 이벤트 구간 경계 인식을 통하여 객체 인식을 위한 유의미한 특징값을 정확하게 찾아낼 수 있다. 즉, 제어부(170)는 시간 및 공간적 분석을 통해 중요 장면을 인식하고, 특징 값의 선형 조합으로 관심 지수를 예측하고 해당 지수가 낮은 분할 영상부터 삭제하면서 축약 컨텐츠를 생성할 수 있다.
제어부(170)는 삭제하고 남은 분할 영상들을 이어 축약 컨텐츠(하이라이트)를 생성할 수 있다.
정리하면, 제어부(170)는 원본 컨텐츠의 프레임을 소정 단위로 분할하고, 분할된 각 단위별로 특징값을 추출하고, 추출된 특징값에 대해 중요도 점수를 산출하여 축약 컨텐츠에 포함될 프레임을 추출할 수 있다. 제어부(170)는 추출된 프레임들을 연결하여 축약 컨텐츠를 생성할 수 있다. 한편, 제어부(170)는 분할된 각 단위에서 이벤트 발생 여부에 따라 특징값을 추출할 수 있다. 예를 들어, 제어부(170)는 이벤트 발생 여부에 따라 특징값을 높게 혹은 낮게 추출할 수 있다. 이벤트 발생 여부에 따라 특징값이 높게 또는 낮게 측정되는 것은 컨텐츠의 장르에 따라 달라질 수 있다. 제어부(170)는 인물, 공간, 시간의 변화를 감지하여 이벤트 발생 여부를 획득할 수 있다. 즉, 제어부(170)는 인물, 공간, 시간이 변화하면 이벤트가 발생한 것으로 감지할 수 있다.
이와 같이, 축약 컨텐츠의 생성은 컨텐츠 분할, 영상 분석, 관심도 예측, 이벤트 구간 경계 인식의 4단계로 구성될 수 있다.
도 9는 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성할 때 이용되는 어텐션 메커니즘에 따른 동작 방법을 도시한 도면이다.
제어부(170)는 축약 전처리(Summarization Pre-processing) 모듈(1971), 축약 엔진(Summarization Engine) 모듈(1973), 축약 후처리(Summarization Post-processing) 모듈(1975)을 포함할 수 있다.
특히, 축약 전처리 모듈(1971), 축약 엔진 모듈(1973) 및 축약 후처리 모듈(1975) 각각은 제어부(170) 중 컨텐츠 가공부(197)의 일 구성일 수 있으나, 이는 예시적인 것에 불과하므로, 이에 제한되지 않음이 타당하다.
축약 전처리 모듈(1971)은 대상 컨텐츠, 즉 입력 영상의 프레임을 추출할 수 있다. 즉, 축약 전처리 모듈(1971)은 입력 영상으로부터 프레임 단위로 처리 단위를 추출할 수 있다.
축약 전처리 모듈(1971)은 중요도가 높은 키 프레임(key frame)만으로 구성된 축약 컨텐츠를 생성하기 위한 특징(feature)들을 추출하기 위해, CNN기반 모델을 활용할 수 있다. 축약 전처리 모듈(1971)은 축약 컨텐츠를 생성하기 위한 특징들을 추출할 수 있다.
또한, 축약 전처리 모듈(1971)은 장면(scene) 변화 구간을 획득하기 위해 이벤트 발생 시점을 인식할 수 있다.
축약 전처리 모듈(1971)은 추출된 특징들 및 이벤트 발생 시점을 축약 엔진 모듈(1973)로 전달할 수 있다.
축약 엔진 모듈(1973)은 어텐션(Attention) 기법을 적용하여 프레임 단위로 중요도 점수(importance score)를 계산하여 키 프레임을 추출할 수 있다. 즉, 축약 엔진 모듈(1973)은 추출된 특징들 및 이벤트 발생 시점에 기초하여, 각 프레임별 중요도 점수를 산출하고, 산출된 점수에 기초하여 키 프레임을 추출할 수 있다. 예를 들어, 축약 엔진 모듈(1973)은 중요도 점수가 임계치 보다 높은 프레임을 키 프레임으로 추출할 수 있다.
즉, 축약 엔진 모듈(1973)은 레이블된 데이터(Labeled dataset)를 기반으로 학습된 모델을 통해 추론(inference) 동작을 수행할 수 있다.
축약 후처리 모듈(1975)은 키 프레임들로 이루어진 축약 컨텐츠(Summarized Video)를 생성할 수 있다.
도 10은 본 개시의 실시 예에 따른 축약 컨텐츠 생성 학습 모델이 도시된 예시 도면이다.
축약 컨텐츠 생성 학습 모델은 Encoder-Decoder Architecture Style이 적용된 학습 모델일 수 있다.
본 개시의 실시 예에 따른 축약 컨텐츠 생성 학습 모델에서 어텐션 메커니즘은 인코더(Encoder)와 디코더(Decoder)로 구성될 수 있다.
인코더는 프레임들은 연속적으로 입력받아 가중치(weight)가 반영된 컨텍스트 벡터(context vector)를 결과물로 출력하고, 축약 컨텐츠에 포함될 프레임을 선정하기 이한 중요도 점수(importance score)를 산출할 수 있다.
디코더는 인코더로부터 가중치가 반영된 컨텍스트 벡터를 입력받을 수 있다. 디코더는 컨텍스트 벡터에 따라 키 샷(key shots)을 선정하기 위해 영역을 집중적으로 학습시킬 수 있다. 여기서, 샷은 연속된 프레임들의 집합으로, 키 샷은 축약 컨텐츠에 포함될 연속된 프레임들의 집합일 수 있다.
제어부(170)는 이러한 어텐션 메커니즘이 적용함으로써 디코더에서 출력 프레임을 예측하는 매 시점(time step)마다 인코더에서의 전체 프레임을 다시 한번 더 참고할 수 있다. 특히, 제어부(170)는 전체 입력 프레임을 전부 다 동일한 비율로 참고하는 것이 아니라, 해당 시점에서 예측해야 할 프레임과 연관이 있는 입력 프레임들을 다시 확인할 수 있다.
이러한 어텐션 메커니즘은 키 값(Key-Value)로 구성되는 자료형으로 함수가 형성될 수 있다.
도 11은 본 개시의 실시 예에 따른 어텐션 함수(Attention Function)의 예시가 도시된 도면이다.
어텐션 함수는 키 값(Key-Value)로 구성되는 자료형인 딕셔너리(Dict) 자료형일 수 있다. 키(Key)와 값(Value)이라는 두 개의 쌍으로 구성되는데, 이에 따라 키를 통해 맵핑된 값을 찾아낼 수 있다.
제어부(170)는 어텐션 함수를 통해 어텐션 값(Attention Value)를 획득할 수 있다.
어텐션 함수를 통해 인코더에서 영상의 전체 영역이 아니라 결과에 영향을 미치는 일부 영역만을 획득하고, 디코더는 획득된 일부 영역에 대해서만 처리하므로, 효율적인 영상 처리가 가능한 이점이 있다.
도 12는 본 개시의 실시 예에 따른 실제 영상에서 어텐션 메커니즘을 통해 특정 영역이 추출되는 모습이 도시된 예시 도면이다.
도 12의 예시를 참고하면, 6개의 예시 프레임 각각에 대해 원본 프레임과 원본 프레임에서 어텐션으로 추출된 영역이 밝게 표시된 이미지가 도시되어 있다. 즉, 도 12의 예시를 참조하여, 제어부(170)가 어테션 메커니즘을 통해, 사람, 동물, 표지판 등의 영역, 즉 어텐션으로 추출된 영역을 포함하는 프레임을 추출하는 방법을 확인할 수 있다.
도 13은 본 개시의 실시 예에 따른 어텐션과 LSTM 숨겨진 상태(hidden state)의 관계도가 도시된 도면이다.
제어부(170)는 대상 컨텐츠에서 추출된 각 프레임들을 CNN 망을 통해 특징(feature)을 추출하고, 이렇게 추출된 특징들은 어텐션 영향도 h에 의해 k 개의 파트로 구분된 h0, h1, ..., hk-1의 숨겨진 상태를 갖는 LSTM에 영향을 미칠 수 있다.
제어부(170)는 프레임 시퀀스를 입력받아 CNN 망을 통해 축약 컨텐츠에 포함될 프레임을 선정하기 위한 중요도 점수(importance scores)를 계산할 수 있다. 제어부(170)는 계산된 중요도 점수에 기초하여 가중치가 계산된 LSTM에서 키 샷을 선정하기 위한 영역을 집중적으로 학습시킬 수 있다.
제어부(170)는 디코더 최종단에서 상술한 방법으로 획득한 키 샷들을 연결함으로써 축약 컨텐츠를 생성할 수 있다.
한편, 본 개시의 실시 예에 따른 디스플레이 장치(100)는 사용자의 시청 상황을 인지하여 생성된 축약 컨텐츠를 추천할 수 있다.
일 실시 예에 따르면, 제어부(170)는 사용자의 시청 상황 인지 모델을 학습할 수도 있다.
구체적으로, 도 6의 단계 S13에서, 제어부(170)는 사용자 선호도 및 시청 패턴을 학습하여 사용자의 시청 상황 인지 모델을 획득할 수 있다. 이에 따라, 제어부(170)는 채널 변경 시점을 인식하고, 변경된 채널의 컨텐츠 정보에 기초하여 축약 컨텐츠를 추천할 수 있다.
제어부(170)는 기 학습된 모델을 통해 변경된 채널이 사용자 선호 컨텐츠인 경우, 해당 컨텐츠의 축약 컨텐츠를 추천할 수 있다. 제어부(170)는 변경된 채널의 컨텐츠와 동일 컨텐츠, 장르가 동일한 컨텐츠, 인물이 동일한 컨텐츠 등의 축약 컨텐츠를 추천할 수 있다.
예를 들어, 제어부(170)는 변경된 채널에서 A 팀과 B 팀의 야구 경기 8회가 방송 중일 경우, 그 이전에 해당하는 1~7회의 방송에 대한 축약 컨텐츠를 추천할 수 있다.
다른 예로, 제어부(170)는 변경된 채널에서 A 국가와 B 국가의 축구 경기 후반전이 방송 중일 경우, 그 이전에 해당하는 전반전 방송에 대한 축약 컨텐츠를 추천할 수 있다.
또 다른 예로, 제어부(170)는 변경된 채널에서 뉴스가 방송 중인 경우, 최신 뉴스들에 대한 축약 컨텐츠를 추천할 수 있다.
또 다른 예로, 제어부(170)는 변경된 채널에서 드라마가 방송 중인 경우, 해당 방송의 이전 회차에 대한 축약 컨텐츠를 추천할 수 있다. 즉, 제어부(170)는 변경된 채널에서 A 드라마 12회가 방송 중인 경우, 1~11회를 요약한 축약 컨텐츠를 추천할 수 있다.
다른 실시 예에 따르면, 제어부(170)는 사용자의 채널 변경 입력에 기초하여 축약 컨텐츠를 추천할 수 있다.
도 14는 본 개시의 제1 실시 예에 따른 디스플레이 장치가 사용자의 채널 변경 입력에 기초하여 축약 컨텐츠를 추천하는 방법이 도시된 순서도이다.
도 14에서, 제어부(170)는 컨텐츠 처리 모듈(1701), 시청 상황 인지 모듈(1702) 및 축약 컨텐츠 처리 모듈(1703)로 구분되어 있으나, 이는 설명의 편의를 위해 구분한 것에 불과하므로, 이에 제한되지 않음이 타당하다.
제어부(170)는 원격제어장치(200)로부터 사용자 입력을 전달받을 수 있다(S101).
사용자 입력은 채널을 변경하는 입력일 수 있다. 예를 들어, 사용자 입력은 채널 업/다운 입력, 채널 번호 입력일 수 있다.
컨텐츠 처리 모듈(1701)은 사용자 입력을 수신하면, 사용자 이력 정보를 충분히 수집하였는지 판단할 수 있다(S103).
즉, 제어부(170)는 사용자 선호도 획득에 필요한 사용자 이력 정보가 저장부(140)에 기설정된 기준 크기 이상 저장되었는지 여부에 따라 축약 컨텐츠의 추천 타이밍을 획득할 수 있다.
구체적으로, 컨텐츠 처리 모듈(1701)은 사용자 이력 정보가 저장부(140)에 기설정된 기준 크기 이상 저장되어 있는지 판단할 수 있다. 컨텐츠 처리 모듈(1701)은 저장부(140)에 저장된 사용자 이력 정보의 크기가 기설정된 기준 크기 이상이면 사용자 이력 정보를 충분히 수집한 것으로 판단하고, 저장부(140)에 저장된 사용자 이력 정보의 크기가 기설정된 기준 크기 미만이면 사용자 이력 정보를 충분히 수집하지 않은 것으로 판단할 수 있다.
한편, 제어부(170)는 사용자 이력 정보를 충분히 수집하였는지 여부를 사용자 별로 판단할 수 있다. 디스플레이 장치(100)는 현재 시청 중인 사용자를 구분하기 위한 카메라(미도시)를 구비할 수 있다. 그리고, 디스플레이 장치(100)는 사용자 이력 정보를 사용자 별로 구분하여 저장부(140)에 저장할 수 있다. 따라서, 제어부(170)는 현재 컨텐츠를 시청 중인 사용자를 인식하고, 현재 컨텐츠를 시청 중인 사용자에 대한 사용자 이력 정보가 충분히 수집되었는지 판단할 수 있다.
컨텐츠 처리 모듈(1701)은 사용자 이력 정보를 충분히 수집하지 못한 경우, 시청 상황 인지 모듈(1702)로 컨텐츠 정보를 전달할 수 있다(S105).
시청 상황 인지 모듈(1702)은 전달받은 컨텐츠 정보에 기초하여 시청 정보를 학습할 수 있다(S107).
시청 상황 인지 모듈(1702)은 학습된 시청 정보를 축약 컨텐츠 처리 모듈(1703)로 전달할 수 있다(S109).
축약 컨텐츠 처리 모듈(1703)은 학습된 시청 정보에 기초하여 관련 컨텐츠를 수집 및 축약 컨텐츠를 생성할 수 있다(S111).
즉, 축약 컨텐츠 처리 모듈(1703)은 학습된 시청 정보에 기초하여 사용자가 선호 컨텐츠로 추측되는 관련 컨텐츠를 수집하고, 수집된 관련 컨텐츠를 요약하여 축약 컨텐츠를 생성할 수 있다.
한편, 컨텐츠 처리 모듈(1701)은 사용자 이력 정보를 충분히 수집한 경우, 시청 상황 인지 모듈(1702)로 컨텐츠 정보를 전달할 수 있다(S113).
즉, 컨텐츠 처리 모듈(1701)은 사용자 이력 정보를 충분히 수집한 경우에는 사용자 입력에 따라 변경된 채널의 컨텐츠에 따른 축약 컨텐츠를 제공하기 위해, 컨텐츠 정보를 시청 상황 인지 모듈(1702)로 전달할 수 있다.
시청 상황 인지 모듈(1702)은 컨텐츠 정보를 전달받으면, 축약 컨텐츠의 추천 여부를 판단할 수 있다(S115).
시청 상황 인지 모듈(1702)은 전달받은 컨텐츠 정보에 기초하여 축약 컨텐츠의 추천 여부를 판단할 수 있다.
예를 들어, 시청 상황 인지 모듈(1702)은 전달받은 컨텐츠 정보에 따른 축약 컨텐츠가 저장되어 있는지, 혹은 전달받은 컨텐츠 정보에 따른 축약 컨텐츠의 생성이 가능한지 판단할 수 있다. 시청 상황 인지 모듈(1702)은 축약 컨텐츠가 저장되어 있거나, 생성 가능하면 축약 컨텐츠를 추천하는 것으로 판단할 수 있다.
시청 상황 인지 모듈(1702)은 축약 컨텐츠를 추천하지 않기로 판단하면, 사용자 입력에 따른 컨텐츠를 출력할 수 있다(S114).
시청 상황 인지 모듈(1702)은 축약 컨텐츠를 추천하기로 판단하면, 축약 컨텐츠 처리 모듈(1703)로 축약 컨텐츠를 요청할 수 있다(S117).
축약 컨텐츠 처리 모듈(1703)은 축약 컨텐츠의 요청을 수신하면, 축약 컨텐츠를 검색할 수 있다(S119).
축약 컨텐츠 처리 모듈(1703)는 컨텐츠 정보에 기초하여 축약 컨텐츠를 검색할 수 있다(S119).
실시 예에 따라, 축약 컨텐츠 처리 모듈(1703)은 저장부(140)에 기저장된 축약 컨텐츠가 없으면, 컨텐츠 정보에 따라 축약 컨텐츠를 생성할 수 있다.
한편, 제어부(170)는 사용자 입력에 따라 변경된 채널에서 표시되는 컨텐츠와 관련된 축약 컨텐츠를 추천할 수 있다. 제어부(170)는 변경된 채널에서 스포츠 경기가 방송 중이면, 방송 중인 스포츠 경기의 이전 내용을 요약한 축약 컨텐츠를 추천할 수 있다. 예를 들어, 제어부(170)는 변경된 채널에서 축구 경기의 후반전이 방송 중이면, 해당 축구 경기의 전반전을 요약한 축약 컨텐츠를 추천할 수 있다. 제어부(170)는 변경된 채널에서 뉴스가 방송 중이면, 최신 뉴스를 요약한 축약 컨텐츠를 추천할 수 있다. 제어부(170)는 변경된 채널에서 표시되는 컨텐츠와 동일 컨텐츠, 장르가 동일한 컨텐츠 또는 인물이 동일한 컨텐츠에 대한 축약 컨텐츠를 추천할 수 있다.
축약 컨텐츠 처리 모듈(1703)은 축약 컨텐츠를 시청 상황 인지 모듈(1702)로 전달할 수 있다(S121).
시청 상황 인지 모듈(1702)은 축약 컨텐츠 처리 모듈(1703)로부터 전달받은 축약 컨텐츠를 컨텐츠 처리 모듈(1701)로 전달할 수 있다(S123).
컨텐츠 처리 모듈(1701)은 전달받은 축약 컨텐츠를 추천할 수 있다(S125).
도 15는 본 개시의 제2 실시 예에 따른 디스플레이 장치가 사용자의 채널 변경 입력에 기초하여 축약 컨텐츠를 추천하는 방법이 도시된 순서도이다.
도 15에 따른 축약 컨텐츠의 추천 방법, 즉 제2 실시 예에 따른 축약 컨텐츠의 추천 방법은 도 14에 따른 축약 컨텐츠의 추천 방법(제1 실시 예에 따른 축약 컨텐츠의 추천 방법)과 비교하여, 단계 S103만 상이할 수 있다. 따라서, 중복되는 설명은 생략하고, 여기에서는 단계 S103에 대해 자세히 설명하기로 한다.
컨텐츠 처리 모듈(1701)은 사용자 입력을 전달받으면, 소정 시간 이내에 사용자 입력을 재수신한 것인지 판단할 수 있다(S103)
즉, 제어부(170)는 사용자 입력을 수신한 후 소정 시간 이내에 사용자 입력을 재수신하면 축약 컨텐츠를 추천할 수 있다.
구체적으로, 컨텐츠 처리 모듈(1701)은 사용자 입력을 전달받으면 그 다음 사용자 입력을 수신할 때까지의 시간을 카운트할 수 있다. 컨텐츠 처리 모듈(1701)은 카운트한 시간을 소정 시간과 비교하여, 소정 시간 이내에 사용자 입력을 재수신한 것인지 판단할 수 있다.
컨텐츠 처리 모듈(1701)은 소정 시간 이내에 사용자 입력을 재수신한 것으로 판단시, 사용자가 시청할 컨텐츠를 찾지 못하는 상태인 것으로 판단하고, 축약 컨텐츠를 추천하고자 할 수 있다. 따라서, 컨텐츠 처리 모듈(1701)은 소정 시간 이내에 사용자 입력을 재수신한 것으로 판단한 경우, 컨텐츠 정보를 시청 상황 인지 모듈(1702)로 전달하고, 시청 상황 인지 모듈(1702)은 축약 컨텐츠의 추천 여부를 판단하여 축약 컨텐츠를 추천할 수 있다.
한편, 컨텐츠 처리 모듈(1701)은 소정 시간 이내에 사용자 입력을 재수신하지 않은 것으로 판단시, 사용자가 사용자 입력에 따른 컨텐츠를 시청하는 상태로 판단하여 축약 컨텐츠를 추천하지 않을 수 있다. 대신, 컨텐츠 처리 모듈(1701)은 소정 시간 이내에 사용자 입력을 재수신하지 않은 것으로 판단시, 사용자가 시청 중인 컨텐츠 정보를 전달하여, 시청 정보를 학습함으로써, 축약 컨텐츠를 생성할 수 있다.
정리하면, 도 14 및 도 15 각각의 단계 S103에서, 제어부(170)는 축약 컨텐츠를 추천하지 않으면, 사용자 입력에 따라 표시되는 컨텐츠에 대한 정보에 기초하여 사용자 선호도를 학습할 수 있다.
한편, 축약 컨텐츠는 원본 컨텐츠에서 추출된 특정 프레임들이 합쳐져서 생성되기 때문에, 일부 프레임은 다음 프레임과 연결되지 않는 단절 문제가 발생할 수 있다. 즉, 일부 프레임은 원본 컨텐츠에서 A 프레임과 연결되나, 축약 컨텐츠에서 B 프레임과 연결될 수 있고, 이러한 과정에서 컨텐츠의 흐름이 끊기는 단절 문제가 발생할 수 있다. 단절 문제의 일 예로, 축약 컨텐츠 재생 시 프레임들의 단절로 인하여 등장인물의 대사가 끊기고, 갑자기 다른 장면으로 전환되는 문제가 발생할 수 있다.
따라서, 본 개시는 단절 문제를 최소화한 축약 컨텐츠를 생성하는 디스플레이 장치를 제공하고자 한다. 본 개시는 축약 컨텐츠 생성 시 단절된 프레임들이 포함되지 않도록 한다.
도 16은 본 개시의 실시 예에 따른 디스플레이 장치가 축약 컨텐츠를 생성하기 위한 SW 구조도가 도시된 도면이다.
도 16을 참조하면, 축약 컨텐츠를 생성하기 위한 전제 소프트웨어(SW)는 하이라이트 특징점 추출 단계와 하이라이트 장면 예측 단계로 구성될 수 있다. 제어부(170)는 원본 컨텐츠가 입력되면, 원본 컨텐츠의 Raw Video를 프레임 단위로 분할할 수 있다.
첫 번째 단계인 하이라이트 특징점 추출 단계에서, 제어부(170)는 분할된 프레임들 중에서 사용자 선호도에 매칭되는 프레임을 획득할 수 있다. 구체적으로, 제어부(170)는 사용자의 다양한 요구사항에 따라 개인의 취향에 맞게 축약 컨텐츠가 제작될 수 있도록 다양한 특징점 추출 기술을 적용할 수 있고, 이러한 특징점 추출 기술의 적용을 통해 축약 컨텐츠에 포함될 적어도 하나의 프레임을 추출할 수 있다. 이렇게 첫 번째 단계에서 추출된 프레임은 후보 키 프레임(Candidate Key Frame)일 수 있다. 후보 키 프레임은 축약 컨텐츠에 포함되는 키 프레임을 획득하기 위해 1차적으로 추출된 프레임일 수 있다.
첫 번째 단계에서, 제어부(170)는 사람 얼굴(Human Face), 사람 활동(Human Activity), 실내/야외 장면(Indoor/Outdoor Scene), 오디오 이벤트(Audi[o Event] 중 적어도 하나에 기초하여 후보 키 프레임을 획득할 수 있다.
두 번째 단계인 하이라이트 장면 예측 단계에서, 제어부(170)는 전 단계에서 추출된 프레임들 중 하이라이트로 판단할 수 있는 속성들(예를 들어, 대표성, 분포도, 관심도, 단절성 등)을 기준으로 최종 키프레임을 획득할 수 있다. 최종 키 프레임은 실제 축약 컨텐츠에 포함되도록 2차적으로 추출된 프레임일 수 있다. 최종 키 프레임은 후보 키 프레임에 속할 수도 있으나, 속하지 않을 수도 있다.
두 번째 단계에서, 제어부(170)는 대표성(Representativeness), Diversity, 관심도(Interestness) 및 비단절성(Seamlessness) 등을 포함하는 다양한 속성에 기초하여 후보 키 프레임들 중 최종 키 프레임을 획득할 수 있다. 이하, 제어부(170)가 축약 컨텐츠에서 비단절성 확보를 위한 키 프레임 획득 방법에 대해 상세히 설명한다. 제어부(170)는 오디오(Audio) 및 비디오(Video) 모두 단절되지 않는 축약 컨텐츠의 생성을 위한 프레임을 획득할 수 있다.
도 17은 본 개시의 실시 예에 따른 디스플레이 장치가 비단절성 확보를 위한 프레임 획득 방법이 도시된 순서도이다.
AV 단절이 발생하지 않도록, 제어부(170)는 오디오 속성인 문장 경계 지점(sentence boundary point)의 포함 여부를 참조하여 비디오를 선정하고, 또한 비디오의 장면 변화 지점(scene change point)을 참조하여 오디오 선정을 참조하는 상호 참조 모델을 적용할 수 있다. 이하, 도 17을 참조하여, 상세히 설명한다.
제어부(170)는 비디오의 장면 변화 지점(scene change point)을 획득할 수 있다(S201).
제어부(170)는 비디오를 분석하여 장면 변화 지점을 획득할 수 있다. 제어부(170)는 프레임 단위로 중요도 점수를 계산하여 장면 변화 지점을 획득할 수 있다.
도 18은 본 개시의 실시 예에 따른 디스플레이 장치가 장면 변화 지점을 획득하는 방법을 설명하는 도면이다.
제어부(170)는 프레임들을 소정 단위의 구간들로 구분할 수 있다. 예를 들어, 제어부(170)는 기 정해진 시간 간격으로 프레임들을 구분할 수 있다. 도 18의 예시에서, 제1 내지 제3 구간(D1)(D2)(D3)으로 구분된 프레임들만 도시되어 있으나, 이는 설명의 편의를 위해 일부만 도시한 것에 불과하므로, 이에 제한되지 않음이 타당하다.
제어부(170)는 각 구간에 포함된 프레임들의 프레임 레벨 점수를 산출할 수 있다. 도 18의 예시에서, 제어부(170)는 프레임들은 제1 내지 제3 구간(D1)(D2)(D3) 각각의 프레임 레벨 점수를 산출할 수 있다.
제어부(170)는 프레임 레벨 점수에 기초하여, 장면 변화 지점을 획득할 수 있다. 일 예로, 제어부(170)는 프레임 레벨 점수에 대한 통계 수치를 기반으로 장면 변화 지점을 획득할 수 있다.
한편, 도 9에서는 프레임별로 산출된 중요도 점수에 기초하여 바로 키 프레임을 추출하는 것에 대해 설명하였으나, 도 17에 따른 실시 예에서는 프레임 레벨 점수에 따른 장면 변화 지점에 기초하여 우선 후보 키 프레임을 추출할 수 있다.
장면 변화 지점은 장면 변화 구간을 포함하는 의미일 수 있다.
다시, 도 17을 설명한다.
제어부(170)는 장면 변화 지점에 기초하여 후보 키 프레임을 추출할 수 있다(S203).
후보 키 프레임은 도 16에서 설명한 바와 동일할 수 있다.
제어부(170)는 후보 키 프레임을 획득한 후, 오디오에서 문장 경계 지점을 획득할 수 있다(S205).
오디오에는 목소리, 배경 음악, 효과음 등이 포함될 수 있다. 제어부(170)는 오디오에 포함된 적어도 하나의 목소리가 발화하는 문장의 경계 지점을 획득할 수 있다.
오디오 측면에서 장면 변화 지점을 완결성 있는 문장의 시작과 종료에 기초하여 선정하기 위해, 제어부(170)는 오디오에서 문장 경계 지점을 획득할 수 있다.
일 실시 예에 따르면, 제어부(170)는 오디오에서 후보 키 프레임과 관련된 문장들의 경계 지점을 획득할 수 있다. 여기서, 후보 키 프레임과 관련된 문장은, 적어도 일부가 후보 키 프레임의 재생 구간에서 발화되는 문장일 수 있으나, 이는 예시적인 것에 불과하므로, 이에 제한되지 않음이 타당하다.
다른 실시 예에 따르면, 제어부(170)는 원본 컨텐츠의 오디오에 포함된 모든 문장들 각각의 경계 지점을 획득할 수 있다.
또 다른 실시 예에 따르면, 제어부(170)는 원본 컨텐츠의 오디오에서 특정 키워드가 포함된 문장의 경계 지점을 획득할 수 있다. 여기서, 특정 키워드는 오디오 분석을 통해 컨텐츠 마다 상이하게 결정되거나, 컨텐츠와 관계없이 미리 설정될 수도 있다.
상술한 바와 같이, 다양한 실시 예를 통해 제어부(170)는 오디오에서 적어도 하나의 문장의 경계 지점을 획득할 수 있다.
한편, 제어부(170)가 문장의 경계 지점을 획득하는 방법에 대해서는 도 19를 참조하여 설명한다.
도 19는 본 개시의 실시 예에 따른 디스플레이 장치가 문장의 경계 지점을 획득하는 방법을 설명하는 도면이다.
제어부(170)는 도 18에서 설명한 바와 같이 구분된 각 구간들(D1)(D2)(D3)의 오디오를 분석하여 적어도 하나의 문장의 경계 지점을 획득할 수 있다. 혹은, 제어부(170)는 별도의 구간 구분 없이, 오디오를 분석하여 적어도 하나의 문장의 경계 지점을 획득할 수도 있다.
예를 들어, 제어부(170)는 오디오에서 소정 시간(예를 들어, 500ms) 내에 연속적으로 발화되는 단어들의 조합을 문장으로 인식할 수 있다.
문장의 경계 지점(sentence boundary point)은 문장의 시작 지점 및 문장의 종료 지점을 포함할 수 있다.
제어부(170)는 오디오에 포함된 목소리를 분석하여 적어도 하나의 문장의 시작 지점 및 종료 지점을 획득할 수 있다. 구체적으로, 제어부(170)는 오디오에 포함된 목소리의 피치(pitch), 에너지(energy) 및 발화 속도(speaking rate) 중 적어도 하나에 기초하여 적어도 하나의 문장의 시작 지점 및 종료 지점을 획득할 수 있다.
제어부(170)는 피치, 에너지 및 발화 속도 중 적어도 하나에 대한 통계 수치를 기반으로 소정 시간 동안 연속된 단어가 존재하지 않으면, 해당 지점을 문장의 경계 지점으로 판단할 수 있다. 여기서, 통계 수치에 기반한다는 의미는 다양한 오디오에 대해 문장의 시작 지점과 종료 지점이 입력됨에 따라 학습된 데이터에 기반한다는 의미를 포함할 수 있으나, 이는 예시적인 것에 불과하므로, 이에 제한되지 않는다.
정리하면, 제어부(170)는 피치, 에너지 및 발화 속도 중 적어도 하나에 기초하여 소정 시간 동안 연속된 단어가 존재하지 않는 지점을 문장 간 경계 지점, 즉 독립된 문장으로의 경계 지점으로 판단할 수 있다.
다시, 도 17을 설명한다.
제어부(170)는 문장 경계 지점 중 일부만 후보 키 프레임의 타임라인 상에 존재하는지 판단할 수 있다(S207).
즉, 제어부(170)는 문장의 시작 지점과 종료 지점 중 어느 하나만이 후보 키 프레임의 타임라인 상에 존재하는지 판단할 수 있다. 구체적으로, 제어부(170)는 문장의 시작 지점이 후보 키 프레임의 타임라인 상에 존재하고, 문장의 종료 지점이 후보 키 프레임의 타임라인 상에 존재하지 않는 경우 또는 문장의 종료 지점이 후보 키 프레임의 타임라인 상에 존재하고, 문장의 시작 지점이 후보 키 프레임의 타임라인 상에 존재하지 않는 경우에의 해당 여부를 판단할 수 있다.
후보 키 프레임의 타임라인은 후보 키 프레임의 재생 구간을 의미할 수 있다.
제어부(170)는 문장 경계 지점 중 일부만 후보 키 프레임의 타임라인 상에 존재하면, 후보 키 프레임의 타임라인에 존재하지 않는 나머지 프레임을 후보 키 프레임으로 추가할 수 있다(S209).
구체적으로, 제어부(170)는 문장 경계 지점 중 일부만 후보 키 프레임의 타임라인 상에 존재하면, 후보 키 프레임의 타임라인에 존재하지 않는 문장 경계 지점과 후보 키 프레임의 재생 구간 사이의 나머지 프레임을 후보 키 프레임으로 추가할 수 있다. 즉, 제어부(170)는 후보 키 프레임의 타임라인 상에 문장의 시작 지점만 존재하면, 후보 키 프레임부터 문장의 종료 지점 사이의 프레임을 후보 키 프레임으로 추가할 수 있다. 마찬가지로, 제어부(170)는 후보 키 프레임의 타임라인 상에 문장의 종료 지점만 존재하면, 문장의 시작 지점부터 후보 키 프레임 사이의 프레임을 후보 키 프레임으로 추가할 수 있다.
제어부(170)는 문장 경계 지점 중 일부만 후보 키 프레임의 타임라인 상에 존재하면, 문장에 대응하는 프레임들 중 후보 키 프레임에 속하지 않는 나머지 프레임들을 후보 키 프레임으로 추가할 수 있다.
제어부(170)는 추출 또는 추가된 후보 키 프레임을 최종 키 프레임으로 선택할 수 있다(S211).
즉, 제어부(170)는 후보 키 프레임을 추가한 경우에는, 단계 S203에서 추출된 후보 키 프레임 및 단계 S209에서 추가된 후보 키 프레임 모두 최종 키 프레임으로 선택할 수 있다.
그리고, 제어부(170)는 단계 S207에서 문장 경계 지점 모두가 후보 키 프레임의 타임라인 상에 존재하는 것으로 판단한 경우에는 단계 S203에서 추출된 후보 키 프레임을 최종 키 프레임으로 선택할 수 있다.
도 20은 본 개시의 실시 예에 따른 디스플레이 장치가 비디오 및 오디오에 기초하여 최종 키 프레임을 선택하는 방법을 설명하는 도면이다.
도 20에 도시된 비디오 추출부(198a), 오디오 추출부(198b) 및 축약 컨텐츠 생성부(198c)는 도 5에서 설명한 컨텐츠 가공부(197)에 포함될 수 있다. 즉, 비디오 추출부(198a), 오디오 추출부(198b) 및 축약 컨텐츠 생성부(198c)는 컨텐츠 가공부(197)의 일 구성일 수 있다.
컨텐츠 수집부(195)는 네트워크 인터페이스부(133)로부터 컨텐츠를 수신할 수 있다. 또한, 컨텐츠 수집부(195)는 튜너(131)로부터 컨텐츠를 수신할 수도 있다. 수신된 컨텐츠는 Raw AV 컨텐츠일 수 있다.
비디오 추출부(198a)는 수신된 컨텐츠에서 비디오(1001)를 추출하고, 오디오 추출부(198b)는 수신된 컨텐츠에서 오디오(1004)를 추출할 수 있다. 축약 컨텐츠 생성부(198c)는 추출된 비디오(1001)에 기초하여 획득된 프레임들 및 추출된 오디오(1004)에 기초하여 획득된 프레임들을 합하여 축약 컨텐츠를 생성할 수 있다.
컨트롤러(170)는 추출된 비디오(1001)를 프레임 단위로 분할하여, 복수의 프레임(1002)을 획득할 수 있다. 컨트롤러(170)는 복수의 프레임(1002)을 분석하여 장면 변화 지점(scene change point)를 획득할 수 있다. 복수의 프레임(1002)에 표시된 화살표들은 장면 변화 지점을 나타낼 수 있다.
컨트롤러(170)는 장면 변화 지점에 기초하여 적어도 하나의 후보 키 프레임(1003)을 획득할 수 있다.
그리고, 컨트롤러(170)는 오디오에서 단어들(words)을 획득하고, 획득된 단어들에 기초하여 문장을 인식할 수 있다. 컨트롤러(170)는 적어도 하나의 문장 경계 지점(sentence boundary point)을 획득함으로써, 문장을 인식할 수 있다. 복수의 단어(1005)에 표시된 화살표들은 문장 경계 지점을 나타낼 수 있다.
컨트롤러(170)는 문장 경계 지점에 기초하여 적어도 하나의 후보 키 프레임(1006)을 획득할 수 있다.
설명의 편의를 위해, 컨텐츠의 비디오에 기초하여 추출된 후보 키 프레임(1003)을 제1 프레임, 컨텐츠의 오디오에 기초하여 추출된 후보 키 프레임(1006)을 제2 프레임이라고 명명할 수 있다.
컨트롤러(170)는 제1 프레임들(1003)과 제2 프레임들(1005)을 합하여 축약 컨텐츠(1009)를 생성할 수 있다. 컨트롤러(170)는 제1 프레임들(1003)과 제2 프레임들(1005)이 연속 재생되도록 시간 순으로 합쳐 축약 컨텐츠(1009)를 생성할 수 있다.
그리고, 제1 프레임들(1003)과 제2 프레임들(1005) 중 중복되는 프레임은 축약 컨텐츠(1009)에 한 번만 포함될 수 있다. 즉, 컨트롤러(170)는 제1 프레임들(1003)과 제2 프레임들(1006)은 둘 중 어느 하나를 다른 하나로 보완하는 방식으로 축약 컨텐츠(1009)를 생성할 수 있다. 예를 들어, 컨트롤러(170)는 제1 프레임들(1003)의 재생 구간에서 발화되는 문장의 끊김이 발생하지 않도록 제2 프레임들(1006)을 추출할 수 있다. 컨트롤러(170)는 제1 프레임들(1003)을 추출한 후, 제1 프레임들(1003) 외에 제1 프레임들(1003)의 재생 구간에서 발화되는 문장이 속하는 프레임들을 제2 프레임들(1006)로 추출할 수 있다.
컨트롤러(170)는 컨텐츠의 프레임을 소정 단위로 분할하고, 분할된 각 단위별로 특징값을 추출하고, 추출된 특징값에 대해 중요도 점수를 산출하여 제1 프레임(1003)을 추출할 수 있다. 컨트롤러(170)는 비디오에 기초하여 장면 전환 시점을 검출하고, 검출된 장면 전환 시점에 기초하여 제1 프레임들(1003)을 획득할 수 있다. 컨트롤러(170)는 인물, 공간 또는 시간의 변화를 감지하여 장면 전환 시점을 검출할 수 있다.
그리고, 컨트롤러(170)는 오디오에 포함된 각 문장의 시작 지점 및 종료 지점을 이용하여 제2 프레임들(1006)을 추출할 수 있다.
구체적으로, 컨트롤러(170)는 제1 프레임들(1003)의 재생 구간에 문장의 시작 지점 및 문장의 종료 지점 중 하나만 존재하는 문장이 검출되면, 검출된 문장 전체가 재생되는 구간의 프레임들을 제2 프레임들로 추출할 수 있다. 예를 들어, 컨트롤러(170)는 제1 프레임들(1003)의 t2 재생 구간에 문장의 종료 지점만 존재하면, 검출된 문장 전체가 재생되는 구간의 프레임들을 제2 프레임들(1006)로 추출할 수 있다. 도 20의 예시에서는, t1 재생 구간을 포함하는 프레임들이 제2 프레임들(1006)로 추출될 수 있다.
한편, 컨트롤러(170)는 제1 프레임들(1003)을 추출한 후 제1 프레임들(1003)의 재생 구간이 오디오에 기초하여 획득된 문장의 재생 구간과 일치하는지 여부에 기초하여 제2 프레임들(1006)을 추출할 수 있다. 예를 들어, 컨트롤러(170)는 문장의 재생 구간 중 제1 프레임들(1003)의 재생 구간에 속하지 않는 구간의 프레임들을 제2 프레임들(1006)로 추출할 수도 있다. 즉, 도 20의 t1 및 t2 재생 구간의 예시를 참고할 때, 컨트롤러(170)는 t1 재생 구간에 해당하는 프레임들(1006)만을 제2 프레임들(1006)로 추출할 수도 있다.
한편, 컨트롤러(170)는 오디오에서 키워드를 추출하고, 추출된 키워드가 포함된 문장에 기초하여 제2 프레임들을 추출할 수도 있다.
이에 따라, 컨트롤러(170)는 제1 프레임들(1003)의 재생 구간에서 발화되는 문장의 끊김이 발생하지 않도록 제1 프레임들(1003)의 앞/뒤로 소정 프레임들, 특히 오디오에 기초하여 산출된 제2 프레임들(1006)을 더하여 축약 컨텐츠(1009)를 생성할 수 있다.
즉, 컨트롤러(170)는 제1 프레임들(1003)과 제2 프레임들(1006) 중 적어도 하나에 해당하는 프레임을 최종 키 프레임(1007)으로 선택하고, 최종 키 프레임들(1007)이 연속해서 재생되는 축약 컨텐츠(1009)를 생성할 수 있다.
도 20의 예시를 참고하면, t1 재생 구간, t2 재생 구간, t3 재생 구간, t4 재생 구간, t5 재생 구간 및 t6 재생 구간의 프레임들을 최종 키 프레임들(1007)로 선정하고, 최종 키 프레임들(1007)이 시간 순서에 따라 연속해서 재생되는 축약 컨텐츠(1009)를 생성할 수 있다.
정리하면, 본 개시의 실시 예에 따른 디스플레이 장치(100)는 축약된 AV 컨텐츠의 단절이 최소화되도록 오디오 속성인 문장 경계 지점이 비디오의 장면 변화 지점 기반으로 선정된 후보 키 프레임의 재생 구간에 존재하는지 여부를 판단하여, 후보 키 프레임의 재생 구간에 문장 경계 지점이 모두 존재하면 해당하는 후보 키 프레임을 최종 키 프레임으로 선장하고, 후보 키 프레임의 재생 구간에 문장 경계 지점이 모두 존재하지 않으면 해당하는 원본 컨텐츠에서 추가로 키 프레임을 선택함으로써, 비디오 측면에서 선택되지 않은 프레임이더라도 오디오 측면에서의 단절 문제가 발생하지 않도록 프레임을 추가할 수 있다.
즉, 본 개시의 실시 예에 따른 디스플레이 장치(100)는 비디오 분석을 통해 획득된 장면 변화 지점 기반으로 후보 키 프레임을 선정하고, 오디오 측면에서 문장의 시작 지점과 종료 지점을 포함하는 경계 문장 기간에 해당하는 프레임들을 더 선정함으로써 완결성 높은 축약 컨텐츠를 생성할 수 있다.
본 발명의 일 실시 예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다.
상기와 같이 설명된 디스플레이 장치는 상기 설명된 실시 예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시 예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (15)

  1. 컨텐츠를 수신하고, 수신된 컨텐츠의 축약 컨텐츠를 생성하는 컨트롤러; 및
    상기 축약 컨텐츠를 표시하는 디스플레이를 포함하고,
    상기 컨트롤러는
    상기 컨텐츠의 비디오에 기초하여 추출된 제1 프레임들과 상기 컨텐츠의 오디오에 기초하여 추출된 제2 프레임들을 합하여 상기 축약 컨텐츠를 생성하는
    디스플레이 장치.
  2. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 제1 프레임들의 재생 구간에서 발화되는 문장의 끊김이 발생하지 않도록 상기 제2 프레임을 추출하는
    디스플레이 장치.
  3. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 제1 프레임들을 추출한 후, 상기 제1 프레임들 외에 상기 제1 프레임들의 재생 구간에서 발화되는 문장이 속하는 프레임들을 상기 제2 프레임들로 추출하는
    디스플레이 장치.
  4. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 오디오에 포함된 각 문장의 시작 지점 및 종료 지점을 이용하여 상기 제2 프레임들을 추출하는
    디스플레이 장치.
  5. 청구항 4에 있어서,
    상기 컨트롤러는
    상기 제1 프레임들의 재생 구간에 상기 시작 지점 및 상기 종료 지점 중 하나만 존재하는 문장이 검출되면, 검출된 문장 전체가 재생되는 구간의 프레임들을 상기 제2 프레임들로 추출하는
    디스플레이 장치.
  6. 청구항 4에 있어서,
    상기 컨트롤러는
    상기 오디오에 포함된 목소리를 분석하여 상기 각 문장의 시작 지점 및 종료 지점을 획득하는
    디스플레이 장치.
  7. 청구항 6에 있어서,
    상기 컨트롤러는
    상기 오디오에 포함된 목소리의 피치(pitch), 에너지 및 발화 속도 중 적어도 하나에 기초하여 상기 각 문장의 시작 지점 및 종료 지점을 획득하는
    디스플레이 장치.
  8. 청구항 4에 있어서,
    상기 컨트롤러는
    상기 오디오에서 소정 시간 내에 연속적으로 발화되는 단어들의 조합을 상기 문장으로 인식하고, 인식된 문장의 시작 지점 및 종료 지점을 획득하는
    디스플레이 장치.
  9. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 수신된 컨텐츠의 프레임을 소정 단위로 분할하고, 분할된 각 단위별로 특징값을 추출하고, 추출된 특징값에 대해 중요도 점수를 산출하여 상기 제1 프레임을 추출하는
    디스플레이 장치.
  10. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 제1 프레임들을 추출한 후 상기 제1 프레임들의 재생 구간이 상기 오디오에 기초하여 획득된 문장의 재생 구간과 일치하는지 여부에 기초하여 상기 제2 프레임들을 추출하는
    디스플레이 장치.
  11. 청구항 10에 있어서,
    상기 컨트롤러는
    상기 문장의 재생 구간 중 상기 제1 프레임들의 재생 구간에 속하지 않는 구간의 프레임들을 상기 제2 프레임들로 추출하는
    디스플레이 장치.
  12. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 비디오에 기초하여 장면 변화 지점을 검출하고, 검출된 장면 전환 시점에 기초하여 상기 제1 프레임들을 획득하는
    디스플레이 장치.
  13. 청구항 12에 있어서,
    상기 컨트롤러는
    인물, 공간 또는 시간의 변화를 감지하여 상기 장면 전환 시점을 검출하는
    디스플레이 장치.
  14. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 오디오에서 키워드를 추출하고, 추출된 키워드가 포함된 문장에 기초하여 상기 제2 프레임들을 추출하는
    디스플레이 장치.
  15. 청구항 1에 있어서,
    상기 컨트롤러는
    상기 비디오를 추출하는 비디오 추출부,
    상기 오디오를 추출하는 오디오 추출부, 및
    상기 제1 프레임들 및 상기 제2 프레임들을 추출하여 상기 축약 컨텐츠를 생성하는 축약 컨텐츠 생성부를 포함하는
    디스플레이 장치.
PCT/KR2022/004008 2022-03-22 2022-03-22 디스플레이 장치 및 그의 동작 방법 WO2023182542A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/004008 WO2023182542A1 (ko) 2022-03-22 2022-03-22 디스플레이 장치 및 그의 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/004008 WO2023182542A1 (ko) 2022-03-22 2022-03-22 디스플레이 장치 및 그의 동작 방법

Publications (1)

Publication Number Publication Date
WO2023182542A1 true WO2023182542A1 (ko) 2023-09-28

Family

ID=88101734

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/004008 WO2023182542A1 (ko) 2022-03-22 2022-03-22 디스플레이 장치 및 그의 동작 방법

Country Status (1)

Country Link
WO (1) WO2023182542A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150141059A (ko) * 2014-06-09 2015-12-17 삼성전자주식회사 동영상의 썸네일 영상을 제공하는 장치 및 방법
KR20160043865A (ko) * 2014-10-14 2016-04-22 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR20160057864A (ko) * 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
KR20220026471A (ko) * 2020-08-25 2022-03-04 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 비디오 클립 추출 방법, 비디오 클립 추출 장치 및 저장매체
KR102369620B1 (ko) * 2020-09-11 2022-03-07 서울과학기술대학교 산학협력단 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150141059A (ko) * 2014-06-09 2015-12-17 삼성전자주식회사 동영상의 썸네일 영상을 제공하는 장치 및 방법
KR20160043865A (ko) * 2014-10-14 2016-04-22 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR20160057864A (ko) * 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
KR20220026471A (ko) * 2020-08-25 2022-03-04 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 비디오 클립 추출 방법, 비디오 클립 추출 장치 및 저장매체
KR102369620B1 (ko) * 2020-09-11 2022-03-07 서울과학기술대학교 산학협력단 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2015142016A1 (ko) 컨텐츠의 재생 제어 방법 및 이를 수행하기 위한 컨텐츠 재생 장치
WO2014003283A1 (en) Display apparatus, method for controlling display apparatus, and interactive system
WO2017111252A1 (en) Electronic device and method of scanning channels in electronic device
WO2014107101A1 (en) Display apparatus and method for controlling the same
WO2016099141A2 (ko) 멀티미디어 콘텐츠 제작 및 재생 방법, 이를 수행하는 전자 기기 및 이를 실행하는 프로그램이 저장된 기록 매체
WO2016126048A1 (ko) 디스플레이 장치
WO2016013705A1 (ko) 원격제어장치 및 그의 동작 방법
WO2021060590A1 (ko) 디스플레이 장치 및 인공 지능 시스템
WO2021117953A1 (ko) 디스플레이 장치
WO2018088667A1 (en) Display device
WO2019135433A1 (ko) 디스플레이 장치 및 디스플레이 장치를 포함하는 시스템
WO2013062213A1 (en) Media card, media apparatus, content server and method for operating the same
WO2021070976A1 (ko) 소스 기기 및 무선 시스템
WO2023182542A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2020145615A1 (en) Method of providing recommendation list and display device using the same
WO2019088627A1 (en) Electronic apparatus and controlling method thereof
WO2022014738A1 (ko) 디스플레이 장치
WO2021141161A1 (ko) 디스플레이 장치
WO2021033785A1 (ko) 사용자의 음성을 통해 가전 기기를 제어할 수 있는 디스플레이 장치 및 인공 지능 서버
WO2021261874A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2020111567A1 (en) Electronic device and operation method thereof
WO2021137333A1 (ko) 디스플레이 장치
WO2020222322A1 (ko) 음성 인식 서비스를 제공하기 위한 디스플레이 장치
WO2020171245A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2019164020A1 (ko) 디스플레이 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933715

Country of ref document: EP

Kind code of ref document: A1