EP3799047A1 - Dispositif, système et procédé d'identification d'une scène à partir d'une séquence ordonnée de sons captés dans un environnement - Google Patents

Dispositif, système et procédé d'identification d'une scène à partir d'une séquence ordonnée de sons captés dans un environnement Download PDF

Info

Publication number
EP3799047A1
EP3799047A1 EP20193073.2A EP20193073A EP3799047A1 EP 3799047 A1 EP3799047 A1 EP 3799047A1 EP 20193073 A EP20193073 A EP 20193073A EP 3799047 A1 EP3799047 A1 EP 3799047A1
Authority
EP
European Patent Office
Prior art keywords
sounds
scene
sound
environment
picked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20193073.2A
Other languages
German (de)
English (en)
Inventor
Danielle Le Razavet
Katell PERON
Dominique PRIGENT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP3799047A1 publication Critical patent/EP3799047A1/fr
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Definitions

  • the invention relates to a system for identifying a scene from sounds picked up in an environment.
  • Systems for identifying situations or cases of use can be particularly advantageous for domestic or professional use, in particular in the case of detected situations which require urgent actions to be taken.
  • a surveillance system could identify situations requiring intervention.
  • Such systems can also be of interest in the case of scenes without an emergency character, which systematically require a set of repetitive actions for which the automation of these repetitive actions would be beneficial to the user (for example: locking door following the departure of a last occupant, putting the radiators on standby, etc.).
  • Such systems can also be of interest to people with disabilities for whom the system can be of help.
  • Such systems for identifying situations can also be of interest in a domestic or professional field, for example in the case of surveillance systems for a business or a home during the absence of people occupying the business. or the home, for example in order to prevent a break-in, fire, water damage, etc., or also in the case of systems offering various services to users.
  • a domestic or professional field for example in the case of surveillance systems for a business or a home during the absence of people occupying the business. or the home, for example in order to prevent a break-in, fire, water damage, etc., or also in the case of systems offering various services to users.
  • Today there is no industrial solution for recognizing / identifying situations, events or use cases whose operation is based on the identification of several sounds.
  • Existing systems based on sound recognition such as that of the company “Audio Analytics”, target only the identification of a single sound among the ambient sounds picked up. Such a system does not identify a situation associated with sound identified.
  • the Sound Databases available and accessible, free of charge or not are very heterogeneous in terms of quantity and quality of sound samples. .
  • they lack efficient search or selection systems because the audio samples are insufficiently documented and qualified.
  • searching for a sample it is after a series of manual hearing tests of a large number of sound samples identified on the basis of one or 2 simple criteria: transmitter, state (cat, dog, coffee maker. ..) that the selection of an ad-hoc sound can be considered.
  • the invention improves the state of the art.
  • it relates to a device for identifying a scene in an environment, said environment comprising at least one means for capturing sounds.
  • the identification device is configured to identify said scene from at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified taking into account the 'chronological order in which said at least two sounds were picked up.
  • the invention thus proposes a scene identification device from sounds picked up in an environment.
  • such a device is based on a chronological succession of the sounds picked up and classified so as to discriminate between scenes when the same sound picked up can correspond to several possible scenes.
  • a scene identification system based on the identification of a single sound picked up in the environment would be unreliable because in some cases, a sound picked up can correspond to several possible interpretations, therefore several situations or scenes. identified possible. Indeed, when a scene is characterized only by a single sound, several different scenes can correspond to the same acoustic imprint. For example, the sound of broken glass may be associated with a scene of intrusion or a domestic accident; these two scenes correspond to two distinct situations which are likely to generate different appropriate responses.
  • the identification device makes it possible to reduce the uncertainty on the identification of the source of the sound.
  • the scene is identified from among a group of predefined scenes, each predefined scene being associated with a predetermined number of marker sounds, said marker sounds of a predefined scene being ordered chronologically.
  • the device is further configured to receive at least one additional piece of data supplied by a connected object of said environment and to associate a label with a class of sounds of a sound picked up or with said identified scene.
  • connected objects placed in the environment in which the sounds are picked up transmit additional data to the identification device.
  • additional data can for example be information on the location of the sound picked up, time information (time, day / night), temperature, service type information: for example home automation information indicating that a light is on, a window is open, weather information provided by a server ....
  • labels are predefined as a function of the type and value of the additional data likely to be received.
  • labels of the type: day / night are defined for additional data corresponding to a schedule
  • labels of the type: hot / cold / temperate are defined for additional data corresponding to temperature values
  • labels representative of the location can be defined for additional data corresponding to the location of the sound picked up.
  • the additional data can also correspond directly to a label, for example a connected object can transmit a location label which has been previously informed to it ...
  • a label can also be called a qualifier.
  • the additional data make it possible to qualify (ie to describe semantically) a class of sounds or an identified scene. For example, for a captured sound corresponding to flowing water, information on the location of the captured sound will make it possible to qualify the sound class using a label associated with the location (for example: shower, kitchen, etc ).
  • the device is further configured for, when a picked up sound is associated with several possible sound classes, determining a class of sounds of said picked up sound using said at least one additional data received.
  • the complementary data make it possible to discriminate sounds having similar acoustic imprints. For example, for a picked up sound corresponding to flowing water, information on the location of the picked up sound will make it possible to discriminate whether the sound must be associated with a sound class of shower type or with a sound class of rain type.
  • the complementary data can be used to refine a class of sounds by creating new, more precise classes of sounds from the initial class of sounds.
  • a picked up sound that has been associated with a class of sounds corresponding to flowing water
  • information on the location of the picked up sound will make it possible to qualify the picked up sound using a label associated with the location.
  • a label associated with the location for example: shower, kitchen, etc .
  • a new class of flowing water-like sounds in a shower / kitchen-like room can be created. This new class of sounds will then be more precise than the initial “flowing water” class of sounds. It will allow a more detailed analysis during the next scene identifications.
  • the device is further configured to trigger at least one action to be performed following the identification of said scene.
  • the invention also relates to a computer program comprising instructions for implementing the above method according to any one of the particular embodiments described above, when said program is executed by a processor.
  • the method can be implemented in various ways, in particular in wired form or in software form.
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other. desirable shape.
  • the invention also relates to a recording medium or information medium readable by a computer, and comprising instructions of a computer program as mentioned above.
  • the aforementioned recording media can be any entity or device capable of storing the program.
  • the medium may comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or else a magnetic recording means, for example a hard disk.
  • the recording media can correspond to a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means.
  • the programs according to the invention can in particular be downloaded from an Internet type network.
  • the recording media can correspond to an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the invention proposes by successive identification of sounds picked up in an environment the determination of a use case associated with them.
  • use case is meant here a set made up of a context and an event.
  • the context is defined by elements of the environment, such as the location, the actors in play, the present moment (day / night), etc.
  • the event is singular, occasional and fleeting.
  • the event marks a transition or a break in a lived situation. For example, in a situation where a person is busy in a kitchen and performing meal preparation tasks, an event may be the moment when that person cuts their hand with a knife.
  • a use case is then defined by the context comprising the person present, the kitchen, and by the cutting accident event.
  • a use case is for example a scene of departure from the home by its occupant.
  • the context includes the occupant of the home, the location (entrance to the home), elements with which the occupant is likely to interact during this use case (cupboard, keys, shoes, clothing, etc. .), and the event is departure from home.
  • the invention identifies such use cases defined by a context and an event which take place in an environment.
  • Such use cases are characterized by a chronological sequence of sounds generated by movement and interactions between elements / people in the environment when the use case occurs. These can be sounds specific to the context or the event of the use case. It is the successive identification of these sounds and according to the chronological order in which they are captured that the use case can be determined. Subsequently, the terms of situation, use case or scene will be used interchangeably.
  • FIG. 1 illustrates an example of an environment for implementing the invention according to a particular embodiment of the invention, in relation to the figure 2 illustrating the process of identifying a scene.
  • the environment illustrated in figure 1 comprises in particular a SYS system for collecting and analyzing sounds picked up in the environment via a set of sound pickup means.
  • a network of sound capture means is located in the environment.
  • Such sound pick-up means (C1, C2, C3) are, for example, microphones integrated into different equipment located in the environment.
  • the environment corresponds to a home, it may be microphones integrated into mobile terminals when the user owning the terminal is at home, microphones integrated into terminals such as computers, tablets, etc. etc ...
  • the method according to the invention is described here using three microphones. However, the method according to the invention can also be implemented with a single microphone.
  • the network of sound capture means can include all types of microphones integrated into computer or multimedia equipment already placed in the environment or specially placed for sound recognition.
  • the system according to the invention can use microphones already located in the environment for other uses. It is thus not always necessary to place microphones specifically in the environment.
  • the environment also includes IOT connected objects, for example a personal assistant, a connected TV, or a tablet, home automation equipment, etc.
  • the BSC loc use case database was then populated with the defined scenes, each scene being characterized by 3 marker sounds in chronological order.
  • the scenes defined in the BSC loc use case database can come from a larger BSC use case database, for example previously defined by a supplier. service according to the experiment described above or any other method.
  • the scenes stored in the BSC loc use case database may have been previously selected by the user, for example during an initialization phase. This variant makes it possible to adapt the possible use cases to be identified for a user according to his habits or his environment. In order to identify a scene in progress, the INTRP interpretation module therefore relies on a succession of sounds received and analyzed by the CLASS classification module.
  • the interpretation module INTRP For each sound received by the CLASS classification module, the latter transmits to the interpretation module INTRP at least one class associated with the sound received and an associated probability.
  • the interpretation module compares (step E22) the succession of classes of sounds recognized by the classification module, in the chronological order of capture of the corresponding sounds, with the marker sounds characterizing each scene of the case database d 'usage BSC loc .
  • the interpretation module INTRP also takes into account additional data transmitted (step E23) to the interpretation module INTRP by connected objects (IOT) placed in the environment.
  • Such additional data can for example be information on the location of the sound picked up, time information (time, day / night), temperature, service type information: for example home automation information indicating that a light is on, a window is open, weather information provided by a server ....
  • labels or qualifiers are predefined and stored in the label database BLBL loc . These labels depend on the type and value of the additional data likely to be received. For example, labels of the type: day / night are defined for additional data corresponding to a schedule, labels of the type: hot / cold / tempered are defined for additional data corresponding to temperature values, labels representative of the location can be defined for additional data corresponding to the location of the sound picked up.
  • the additional data can also correspond directly to a label, for example, when the sound received by the classification module has been transmitted by a connected object, the connected object can transmit with the audio stream, a location label corresponding to its location ...
  • the complementary data make it possible to qualify (ie to describe semantically) a class of sounds or an identified scene. For example, for a captured sound corresponding to flowing water, information on the location of the captured sound will make it possible to qualify the sound class using a label associated with the location (for example: shower, kitchen, etc ). According to this example, the interpretation module INTRP can then qualify the class of sounds associated with a received sound.
  • the interpretation module provides the identified scene and an associated probability rate.
  • the identification of a class of sounds corresponding to a picked up sound is made by comparison of the picked up sounds with sound markers characterizing a use case.
  • the sounds picked up are not identical to the marker sounds, because the marker sounds may have been generated by elements other than those of the environment. In addition, ambient noise from the environment can also impact sound analysis.
  • the interpretation module also provides as output, for each class of sounds identified by the classification module, additional data such as the identified scene, the data supplied by the connected objects, the files of the sounds picked up.
  • the interpretation module INTRP transmits (step 24) the identification of the scene to an ACT actuator system connected to the SYS system via the RES local network or via the INT data network when the actuator system is not located in the environment.
  • the actuator system makes it possible to act accordingly according to the identified scene, by performing the actions associated with the scene.
  • the system SYS for collecting and analyzing sounds also includes an ENRCH enrichment module.
  • the ENRCH enrichment module updates (step 25) the databases of BSND loc sounds, BCLSND loc sound classes, BSC loc use cases and BLBL loc labels using the information provided at the output. by the interpretation module (INTRP).
  • the enhancer thus makes it possible to enrich the databases using the sound files of the sounds picked up, making it possible to improve the subsequent sound analyzes carried out by the classification module and to improve the identification of a scene, by increasing the number of sounds associated with a class of sounds.
  • the enricher also makes it possible to enrich the databases using the labels obtained, for example by associating a picked up sound stored in the BSND sound database loc the label obtained for this sound and stored in the database of label.
  • the enrichment module makes it possible to dynamically enrich the data necessary for learning the SYS system in order to improve the performance of this system.
  • the databases of BSND loc sounds, BCLSND loc sound classes, BSC loc use cases and BLBL loc labels are local. They are for example stored in the memory of the classification module or of the interpretation module, or in a memory connected to these modules. In other particular embodiments of the invention, the databases of BSND loc sounds, BCLSNDioc sound classes, BSC loc use cases and BLBL loc labels can be remote. The SYS sound collection and analysis system accesses these databases, for example via the INT data network.
  • Sounds BSND loc databases, classes of sounds BCLSND loc, use case BSC loc and loc BLBL labels may include all or part of larger remote databases BSND, BCLSND, BSC and BLBL example existing databases or databases provided by a service provider. These remote databases can be used to initialize the local SYS system databases and be updated using information collected by the SYS system when identifying a scene. Thus, the SYS system for collecting and analyzing sounds makes it possible to enrich the databases of sounds, sound classes, use cases and labels for other users.
  • classification, interpretation and enrichment modules have been described as separate entities. However, all or part of these modules can be integrated into one or more devices as will be seen below in relation to the figures 3 , 4 and 5 .
  • the figure 3 schematically illustrates a DISP device for identifying a scene in an environment, according to a particular embodiment of the invention.
  • the DISP device has the conventional architecture of a computer, and comprises in particular a memory MEM, a processing unit UT, equipped for example with a processor PROC, and controlled by the PG computer program stored in MEM memory.
  • the computer program PG comprises instructions for implementing the steps of the method for identifying a scene as described above, when the program is executed by the processor PROC.
  • the code instructions of the computer program PG are for example loaded into a memory before being executed by the processor PROC.
  • the processor PROC of the processing unit UT notably implements the steps of the method for identifying a scene according to any one of the particular embodiments described in relation to the process. figure 2 , according to the instructions of the computer program PG.
  • the DISP device is configured to identify a scene from at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified by taking into account the chronological order in which said at least two sounds were picked up.
  • the DIP device corresponds to the interpretation module described in relation to the figure 1 .
  • the DISP device comprises a BDDLOC memory comprising a sound database, a sound class database, a use case database and a sound database. labels.
  • the DISP device is configured to communicate with a classification module configured to analyze received sounds and transmit one or more classes of sounds associated with a received sound, and possibly with an enrichment module configured to enrich databases such as a database. sound database, sound class database, use case database and label database. According to a particular embodiment of the invention, the DISP device is also configured to receive at least one additional piece of data provided by a connected object of the environment and to associate a label with a class of sounds of a picked up sound or with said sound. identified scene.
  • the figure 4 schematically illustrates a DISP identification device of a scene in an environment, according to another particular embodiment of the invention.
  • the DISP device comprises the same elements as the device described in relation to the figure 3 .
  • the DISP device further comprises a CLASS classification module configured to analyze received sounds and transmit one or more classes of sounds associated with a received sound and a communication module COM2 suitable for receiving sounds picked up by the pickup means of the. environment.
  • the figure 5 schematically illustrates a DISP device for identifying a scene in an environment, according to another particular embodiment of the invention.
  • the DISP device comprises the same elements as the device described in relation to the figure 4 .
  • the DISP device further comprises an ENRCH enrichment module configured to enrich databases such as a sound database, a sound class database, a use case database and a label database.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un dispositif d'identification, un procédé d'identification et un système d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son (C1, C2, C3). Le dispositif d'identification (INTRP) est configuré pour identifier ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.

Description

    1. Domaine de l'invention
  • L'invention concerne un système d'identification d'une scène à partir de sons captés dans un environnement.
  • 2. Art Antérieur
  • Des systèmes d'identifications de situations ou de cas d'usages peuvent être particulièrement intéressants pour un usage domestique ou professionnel, notamment dans le cas de situations détectées qui nécessitent des actions urgentes à opérer.
    Par exemple, dans le cas d'une personne âgée maintenue à domicile, un système de surveillance pourrait identifier des situations nécessitant une intervention.
    De tels systèmes peuvent aussi présenter un intérêt dans le cas de scènes sans caractère d'urgence, qui nécessitent de manière systématique un ensemble d'actions répétitives pour lesquelles l'automatisation de ces actions répétitives serait profitable à l'utilisateur (par exemple : verrouillage de la porte suite au départ d'un dernier occupant, mise en état de veille des radiateurs, ...).
    De tels systèmes peuvent avoir un intérêt également pour des personnes avec handicap pour lesquelles le système peut être une aide.
    De tels systèmes d'identification de situations, peuvent également avoir un intérêt dans un domaine domestique ou professionnel, par exemple dans le cas de systèmes de surveillance d'une entreprise ou d'un domicile lors de l'absence des personnes occupant l'entreprise ou le domicile, par exemple afin de prévenir une effraction, un incendie, un dégât des eaux, etc..., ou également dans le cas de systèmes proposant divers services aux usagers.
    Aujourd'hui, il n'existe pas de solution industrielle de reconnaissance/ identification de situation, d'événement ou de cas d'usages dont le fonctionnement repose sur l'identification de plusieurs sons.
    Les systèmes existants basés sur une reconnaissance de sons, comme celui de la compagnie « Audio Analytics», ne ciblent que l'identification d'un seul son parmi des sons ambiants captés. Un tel système n'identifie pas une situation associée au son identifié. L'interprétation du son est laissée à la responsabilité d'un tiers, libre de déterminer par exemple si un bris de glace identifié par l'équipement est dû à une intrusion ou à un accident domestique.
    Les systèmes actuels d'identification de sons utilisent des bases de données de sons qui sont actuellement insuffisamment fournies et variées, à la fois en nombre de classes, mais aussi en nombre d'échantillons par classe. Ce nombre insuffisant d'échantillons ne rend pas compte de la variabilité des sons de la vie quotidienne et peut conduire à des identifications erronées.
    Les techniques actuelles d'identification des sons et de leurs émetteurs se basent sur des comparaisons avec des modèles de classes de sons. Ces modèles sont construits à partir de bases de données souvent mal qualifiées. Ils sont alors susceptibles de générer des résultats approximatifs, voire des erreurs ou des contresens.
    Les Bases de Données de Sons disponibles et accessibles, gratuitement ou non (comme la base de données collaborative Freesound ou la base de données de la société Google « Google Audio Set ») sont très hétérogènes en termes de quantité et de qualité d'échantillons sonores.
    De plus, elles sont dépourvues de systèmes performants de recherche ou de sélection, car les échantillons audio sont insuffisamment documentés et qualifiés. Lors de la recherche d'un échantillon, c'est après une série de tests auditifs manuels d'un grand nombre d'échantillons sonores repérés sur la base d'un ou 2 critères simples : émetteur, état (chat, chien, cafetière...) que la sélection d'un son ad-hoc peut être envisagé.
  • Toutes ces difficultés entrainent des incertitudes sur les classes de sons reconnues et diminuent sensiblement la performance d'un système d'identification d'une situation qui serait basé sur l'identification d'un son capté. Un tel système d'intelligence ambiante peut en être rendu inopérant, non adéquat (comme prévenir les gendarmes alors qu'on a simplement cassé un verre), voire dangereux.
  • Les systèmes d'analyse computationnelle des scènes sonores relatives à des activités (comme faire la cuisine), sont encore à l'état de recherche. Ils reposent sur l'analyse d'un corpus de sources non identifiées de sons récurrents, qui ne permettra donc pas à terme de mieux qualifier les classes de sons de référence pour entraîner les modèles. Aujourd'hui, grâce à des techniques d'apprentissage machine (ou machine-learning en anglais), ces procédés permettent de catégoriser des contextes habituels et répétitifs, mais ils sont mal adaptés à l'analyse d'événements sonores exceptionnels.
  • 3. Exposé de l'invention
  • L'invention vient améliorer l'état de la technique. Elle concerne à cet effet un dispositif d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de sons. Le dispositif d'identification est configuré pour identifier ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
    L'invention propose ainsi un dispositif d'identification de scène à partir de sons captés dans un environnement. Avantageusement, un tel dispositif est basé sur une succession chronologique des sons captés et classés de sorte à discriminer des scènes lorsqu'un même son capté peut correspondre à plusieurs scènes possibles.
    En effet, un système d'identification de scène qui serait basé sur l'identification d'un unique son capté dans l'environnement serait peu fiable car dans certains cas, un son capté peut correspondre à plusieurs interprétations possibles, donc plusieurs situations ou scènes identifiées possibles. En effet, lorsqu'une scène n'est caractérisée que par un unique son, plusieurs scènes différentes peuvent correspondre à une même empreinte acoustique. Par exemple, un son de verre brisé peut être associé à une scène d'intrusion ou à un accident domestique, ces deux scènes correspondent à deux situations distinctes qui sont de nature à générer des réponses appropriées différentes. De plus, le dispositif d'identification selon l'invention permet de réduire l'incertitude sur l'identification de la source du son. En effet, certains sons peuvent avoir des empreintes acoustiques voisines qui sont difficiles à distinguer : par exemple un son d'aspirateur et un son de ventilateur, or ces sons ne sont respectivement pas révélateurs de la même situation. La prise en compte de plusieurs sons et de l'ordre chronologique dans lequel ces sons sont captés permet de fiabiliser les résultats du dispositif d'identification de scène. En effet, l'interprétation d'une scène est améliorée par la prise en compte de plusieurs sons captés lorsque cette scène se produit, ainsi que de l'ordre chronologique dans lequel ces sons se produisent.
  • Selon un mode particulier de réalisation de l'invention, la scène est identifiée parmi un groupe de scènes prédéfinies, chaque scène prédéfinie étant associée à un nombre prédéterminé de sons marqueurs, lesdits sons marqueurs d'une scène prédéfinie étant ordonnés de manière chronologique.
  • Selon un autre mode particulier de réalisation de l'invention, le dispositif est outre configuré pour recevoir au moins une donnée complémentaire fournie par un objet connecté dudit environnement et associer un label à une classe de sons d'un son capté ou à ladite scène identifiée. Selon ce mode particulier de l'invention, des objets connectés placés dans l'environnement dans lequel les sons sont captés transmettent au dispositif d'identification des données complémentaires.
    De telles données complémentaires peuvent par exemple être une information de localisation du son capté, une information temporelle (heure, jour/nuit), une température, une information de type service : par exemple une information domotique indiquant qu'une lumière est allumée, une fenêtre est ouverte, une information météo fournis par un serveur....
    Selon ce mode particulier de l'invention, des labels sont prédéfinis en fonction du type et de la valeur des données complémentaires susceptibles d'être reçues. Par exemple, des labels de type : jour/nuit sont définis pour des données complémentaires correspondant un horaire, des labels de type : chaud/froid/tempéré sont définis pour des données complémentaires correspondant à des valeurs de températures, des labels représentatifs de la localisation peuvent être définis pour des données complémentaires correspondant à la localisation du son capté. Dans certains cas, les données complémentaires peuvent également correspondre directement à un label, par exemple un objet connecté peut transmettre un label de localisation qui lui a été préalablement renseigné...
    Par la suite, un label peut également être appelé qualificatif.
    Selon ce mode particulier de réalisation de l'invention, les données complémentaires permettent de qualifier (i.e. décrire sémantiquement) une classe de sons ou une scène identifiée. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier la classe de son à l'aide d'un label associé à la localisation (par exemple : douche, cuisine, etc...).
  • Selon un autre mode particulier de réalisation de l'invention, le dispositif est outre configuré pour, lorsqu'un son capté est associé à plusieurs classes de sons possibles, déterminer une classe de sons dudit son capté à l'aide de ladite au moins une donnée complémentaire reçue. Selon ce mode particulier de réalisation de l'invention, les données complémentaires permettent de discriminer des sons ayant des empreintes acoustiques proches. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de discriminer si le son doit être associé à une classe de son de type douche ou à une classe de son de type pluie.
    En variante, les données complémentaires peuvent être utilisées pour affiner une classe de sons en créant de nouvelles classes de sons plus précises à partir de la classe de sons initiale. Par exemple, pour un son capté qui a été associé à une classe de sons correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier le son capté à l'aide d'un label associé à la localisation (par exemple : douche, cuisine, etc...). Une nouvelle classe de sons de type eau qui coule dans une pièce de type douche/cuisine peut être créée. Cette nouvelle classe de sons sera alors plus précise que la classe de sons initiale « eau qui coule ». Elle permettra une analyse plus fine lors des prochaines identifications de scène.
  • Selon un autre mode particulier de réalisation de l'invention, le dispositif est configuré en outre pour déclencher au moins une action à exécuter suite à l'identification de ladite scène.
  • Selon un autre mode particulier de réalisation de l'invention, le dispositif est configuré en outre pour transmettre à un dispositif d'enrichissement au moins une partie des données suivantes :
    • une information indiquant la scène identifiée, et au moins deux classes de sons et un ordre chronologique associés à la scène identifiée,
    • au moins une partie des fichiers audio correspondant aux sons captés associés respectivement à une classe de sons,
    • le cas échéant au moins une classe de sons associée à un label.
  • L'invention concerne également un système d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit système comprend :
    • un dispositif de classification configuré pour :
      • ∘ recevoir des sons captés dans ledit environnement,
      • ∘ déterminer pour chaque son reçu, au moins une classe de sons,
    • un dispositif d'identification selon l'un quelconque des modes particuliers de réalisation décrits ci-dessus.
    Selon un mode particulier de réalisation de l'invention, le système d'identification comprenant en outre un dispositif d'enrichissement configuré pour mettre à jour au moins une base de données avec au moins une partie des données transmises par le dispositif d'identification. Selon ce mode particulier de l'invention, le système selon l'invention permet d'enrichir des bases de données existantes, ainsi que les relations liant des éléments de ces bases de données entre eux, par exemple :
    • une base de données de sons à l'aide d'au moins une partie des fichiers audio correspondant aux sons captés,
    • une base de données de qualificatifs à l'aide des labels obtenus par les données complémentaires par exemple.
    • les relations entre des fichiers audio, des classes de sons et des labels (qualificatifs) complémentaires provenant de données de capteurs ou de services.
  • L'invention concerne également un procédé d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit procédé d'identification comprend l'identification de ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
    Selon un mode particulier de réalisation de l'invention, le procédé d'identification comprend en outre la mise à jour, d'au moins une base de données, à l'aide d'au moins une partie des données suivantes :
    • une information indiquant la scène identifiée, et au moins deux classes de sons et un ordre chronologique associés à la scène identifiée,
    • au moins une partie des fichiers audio correspondant aux sons captés associés respectivement à une classe de sons,
    • le cas échéant au moins une classe de sons associée à un label.
  • L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé ci-dessus selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Le procédé peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle.
    Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
    L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-avant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.
    Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
  • 4. Liste des figures
  • D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :
    • [Fig 1] La figure 1 illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation de l'invention,
    • [Fig 2] La figure 2 illustre des étapes du procédé d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention,
    • [Fig 3] La figure 3 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention,
    • [Fig 4] La figure 4 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention,
    • [Fig 5] La figure 5 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention.
    5. Description d'un mode de réalisation de l'invention
  • L'invention propose par l'identification successive de sons captés dans un environnement la détermination d'un cas d'usage qui leur est associé.
    Par cas d'usage, on entend ici un ensemble constitué d'un contexte et d'un événement. Le contexte est défini par des éléments de l'environnement, comme la localisation, les acteurs en jeu, le moment présent (jour/nuit), etc....
    L'événement est singulier, occasionnel et fugace. L'événement marque une transition ou une rupture dans une situation vécue. Par exemple, dans une situation où une personne s'active dans une cuisine et réalise des tâches de préparation de repas, un événement peut correspondre au moment où cette personne s'entaille la main avec un couteau. Selon cet exemple, un cas d'usage est alors défini par le contexte comprenant la personne présente, la cuisine, et par l'événement d'accident de coupe.
    Un autre exemple de cas d'usage est par exemple une scène de départ du domicile par son occupant. Selon cet exemple, le contexte comprend l'occupant du domicile, la localisation (entrée du domicile), des éléments avec lesquels l'occupant est susceptible d'interagir lors de ce cas d'usage (placard, clés, chaussures, vêtements, ..), et l'événement est le départ du domicile.
    L'invention vient identifier de tels cas d'usages définis par un contexte et un événement qui se déroulent dans un environnement. De tels cas d'usages sont caractérisés par une suite chronologique de sons générés par le mouvement et les interactions entre les éléments/personnes de l'environnement lorsque le cas d'usage se produit. Il peut s'agir de sons spécifiques au contexte ou à l'événement du cas d'usage. C'est l'identification successive de ces sons et selon l'ordre chronologique dans lequel ils sont captés que le cas d'usage pourra être déterminé.
    Par la suite, on utilisera indifféremment les termes de situation, cas d'usage ou scène.
  • On décrit ci-après la figure 1 qui illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation de l'invention, en relation avec la figure 2 illustrant le procédé d'identification d'une scène.
    L'environnement illustré en figure 1 comprend notamment un système SYS de collecte et d'analyse de sons captés dans l'environnement via un ensemble de moyens de captations de sons.
    Un réseau de moyens de captation de sons est localisé dans l'environnement. De tels moyens de captation de sons (C1, C2, C3) sont par exemple des microphones intégrés dans différents équipements situés dans l'environnement. Par exemple, dans le cas où l'environnement correspond à un domicile, il peut s'agir de microphones intégrés dans des terminaux mobiles lorsque l'utilisateur propriétaire du terminal est au domicile, de microphones intégrés dans des terminaux de type ordinateur, tablettes, etc... et de microphones intégrés dans tout type d'objets connectés tels que radio connectée, télévision connectée, assistant personnel, des terminaux intégrant des systèmes microphoniques dédiés à la reconnaissance de sons, etc...
    On décrit ici le procédé selon l'invention à l'aide de trois microphones. Toutefois, le procédé selon l'invention peut également être mis en œuvre avec un seul microphone. De manière générale, le réseau des moyens de captation de sons peut comprendre tous types de microphones intégrés dans des équipements informatiques ou multimédia déjà placés dans l'environnement ou spécialement placés pour la reconnaissance sonore. Le système selon l'invention peut utiliser des microphones déjà localisés dans l'environnement pour d'autres usages. Il n'est ainsi pas toujours nécessaire de placer spécifiquement dans l'environnement des microphones.
    Dans le mode particulier de réalisation décrit ici, l'environnement comprend également des objets connectés IOT, par exemple un assistant personnel, une TV connectée, ou une tablette, équipement domotique, ...
  • Le système SYS de collecte et d'analyse de sons communique avec les moyens de captations et éventuellement les objets connectés IOT via un réseau local RES, par exemple un réseau WiFi d'une passerelle domestique (non représentée).
    L'invention n'est pas limitée à ce type de modes de communication. D'autres modes de communications sont également possibles. Par exemple, le système SYS de collecte et d'analyse de sons peut communiquer avec les moyens de captations et/ou les objets connectés IOT en Bluetooth ou via un réseau filaire.
    Selon une variante, le réseau local RES est connecté à un réseau de données plus large INT, par exemple l'Internet via la passerelle domestique.
    Selon l'invention, le système SYS de collecte et d'analyse de sons identifie à partir des sons captés dans l'environnement une scène ou un cas d'usage.
    Dans le mode particulier de réalisation décrit ici, le système SYS de collecte et d'analyse de sons comprend notamment :
    • un module de classification CLASS,
    • un module d'interprétation INTRP,
    • une base de données de fichiers audio BSNDloc,
    • une base de données de classes de sons BCLSNDloc,
    • une base de données de labels BLBLloc,
    • une base de données de cas d'usage BSCloc.
    Le module de classification CLASS reçoit (étape E20) des flux audio en provenance des moyens de captations. Pour cela, une application spécifique peut être installée dans les équipements de l'environnement intégrant des microphones pour que ces équipements transmettent le flux audio du son qu'ils captent. Une telle transmission peut être réalisée en continu, ou à intervalle réguliers, ou sur détection d'un son ayant une certaine amplitude.
    Suite à la réception d'un flux audio, le module de classification CLASS analyse le flux audio reçu pour déterminer (étape E21) la ou les classes de sons correspondant au son reçu via un ou plusieurs modèles de prédiction issus d'apprentissage automatique. Les sons de la base de données de sons sont mis en correspondance avec des classes de sons mémorisées dans la base de données de classes de sons BCLSNDloc. Le module de classification détermine la ou les classes de sons correspondant au son reçu en sélectionnant la ou les classes de sons associées à un son de la base de données de sons proche du son reçu. Le module de classification fournit ainsi en sortie au moins une classe CLi de sons associée au son reçu avec un taux de probabilité Pi.
    Les classes de sons retenues pour un son analysé correspondent à un seuil de probabilité acceptable préalablement déterminé. Autrement dit, on ne retient que les classes de sons pour lesquelles le taux de probabilité que le son reçu corresponde à un son associé à la classe de son est supérieur à un seuil prédéterminé.
    Les classes de sons et leur probabilité associée sont ensuite transmises au module d'interprétation INTRP pour qu'il identifie la scène en train de se dérouler. Pour cela, le module d'interprétation s'appuie sur un ensemble de cas d'usage stockés dans la base de données de cas d'usage BSCloc.
    Un cas d'usage est défini sous la forme de N sons marqueurs, avec N un entier positif supérieur ou égal à 2.
    Les cas d'usage ont été définis au préalable de manière expérimentale et montés à l'aide d'une succession de sons caractérisant chaque étape de la scène. Par exemple, dans le cas d'une scène de départ du domicile, la succession de sons suivante a été montée : son du placard qui s'ouvre, son d'enfilage de manteau, son de placard qui se ferme, son de pas, son de porte qui s'ouvre, son de porte qui se ferme, son de fermeture à clé. Chaque montage de scène a été soumis à des personnes malvoyantes pour déterminer la pertinence des sons-étapes choisies et déterminer des sons marqueurs permettant d'identifier la scène.
    L'expérimentation a permis d'identifier qu'un nombre de 3 sons marqueurs est suffisant pour identifier une scène et d'identifier, pour chaque scène, les sons marqueurs qui la caractérise, parmi les sons de la succession de sons montée lors de l' expérimentation.
    Dans le mode particulier de réalisation de l'invention décrit ici, on considère donc N =3. D'autres valeurs sont toutefois possibles. Le nombre de sons marqueurs peut dépendre de la complexité de la scène à identifier. Dans d'autres variantes, seuls 2 sons marqueurs peuvent être utilisés, ou bien des sons marqueurs supplémentaires (N> 3) peuvent être ajoutés afin de préciser une scène ou distinguer des scènes trop proches acoustiquement. Le nombre de sons marqueurs utilisé pour identifier une scène peut également varier en fonction de la scène à identifier. Par exemple, certaines scènes pourront être définies par 2 sons marqueurs, d'autres scènes par 3 sons marqueurs, etc... Dans cette variante, le nombre de sons marqueurs n'est pas fixe.
  • La base de données de cas d'usage BSCloc a ensuite été peuplée avec les scènes définies, chaque scène étant caractérisée par 3 sons marqueurs selon un ordre chronologique.
    Selon un mode particulier de réalisation de l'invention, les scènes définies dans la base de données de cas d'usage BSCloc peuvent provenir d'une base de données de cas d'usage plus large BSC, par exemple préalablement définie par un fournisseur de service selon l'expérimentation décrite ci-dessus ou tout autre méthode. Les scènes mémorisées dans la base de données de cas d'usage BSCloc peuvent avoir été préalablement sélectionnés par l'utilisateur, par exemple lors d'une phase d'initialisation. Cette variante permet d'adapter les cas d'usage possibles à identifier pour un utilisateur en fonction de ses habitudes ou de son environnement.
    Afin d'identifier une scène en cours, le module d'interprétation INTRP s'appuie donc sur une succession de sons reçus et analysés par le module de classification CLASS. Pour chaque son reçu par le module de classification CLASS, celui-ci transmet au module d'interprétation INTRP au moins une classe associée au son reçu et une probabilité associée.
    Le module d'interprétation compare (étape E22) la succession de classes de sons reconnues par le module de classification, dans l'ordre chronologique de captation des sons correspondants, avec les sons-marqueurs caractérisant chaque scène de la base de données de cas d'usage BSCloc.
    Selon un mode particulier de réalisation de l'invention, le module d'interprétation INTRP prend aussi en compte des données complémentaires transmises (étape E23) au module d'interprétation INTRP par des objets connectés (IOT) placés dans l'environnement. De telles données complémentaires peuvent par exemple être une information de localisation du son capté, une information temporelle (heure, jour/nuit), une température, une information de type service : par exemple une information domotique indiquant qu'une lumière est allumée, une fenêtre est ouverte, une information météo fournis par un serveur....
    Selon le mode particulier de l'invention décrit ici, des labels ou qualificatifs sont prédéfinis et stockés dans la base de données de labels BLBLloc. Ces labels dépendent du type et de la valeur des données complémentaires susceptibles d'être reçues. Par exemple, des labels de type : jour/nuit sont définis pour des données complémentaires correspondant un horaire, des labels de type : chaud/froid/tempéré sont définis pour des données complémentaires correspondant à des valeurs de températures, des labels représentatifs de la localisation peuvent être définis pour des données complémentaires correspondant à la localisation du son capté.
    Dans certains cas, les données complémentaires peuvent également correspondre directement à un label, par exemple, lorsque le son reçu par le module de classification a été transmis par un objet connecté, l'objet connecté peut transmettre avec le flux audio, un label de localisation correspondant à son emplacement...
    Les données complémentaires permettent de qualifier (i.e. décrire sémantiquement) une classe de sons ou une scène identifiée. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier la classe de son à l'aide d'un label associé à la localisation (par exemple: douche, cuisine, etc...). Selon cet exemple, le module d'interprétation INTRP peut alors qualifier la classe de sons associée à un son reçu.
    Selon un autre exemple, pour un son capté associé à deux classes de sons qui sont proches acoustiquement, donc avec des taux de probabilités assez proches, une information de localisation du son capté permettra d'affiner la classe de sons la plus probable. Par exemple, un label associé à la localisation permettra de distinguer un son d'une classe de sons correspondant à de l'eau qui coule d'un robinet d'une classe de sons correspondant à de la pluie.
    En sortie, le module d'interprétation fournit la scène identifiée et un taux de probabilité associé. En effet, comme pour l'identification d'une classe de sons correspondant à un son capté, l'identification d'une scène est faite par comparaison des sons captés avec des sons-marqueurs caractérisant un cas d'usage. Les sons captés ne sont pas identiques aux sons-marqueurs, car les sons marqueurs peuvent avoir été générés par d'autres éléments que ceux de l'environnement. De plus, le bruit ambiant de l'environnement peut également impacter l'analyse des sons.
    Le module d'interprétation fournit également en sortie pour chaque classe de sons identifiées par le module de classification, des données complémentaires comme la scène identifiée, les données fournies par les objets connectés, les fichiers des sons captés.
    Selon un mode particulier de réalisation de l'invention, lorsqu'une scène a été identifiée, le module d'interprétation INTRP transmet (étape 24) l'identification de la scène à un système d'actionneurs ACT connecté au système SYS via le réseau local RES ou bien via le réseau de données INT lorsque le système d'actionneurs n'est pas localisé dans l'environnement. Le système d'actionneurs permet d'agir en conséquence en fonction de la scène identifiée, en exécutant les actions associées à la scène. Par exemple, il peut s'agir de déclencher une alarme lors de l'identification d'une effraction, ou bien de prévenir un service d'urgence lors de l'identification d'un accident, ou bien tout simplement de brancher l'alarme lors de l'identification d'un départ du domicile....
    Selon un mode particulier de réalisation de l'invention, le système SYS de collecte et d'analyse de sons comprend également un module d'enrichissement ENRCH. Le module d'enrichissement ENRCH met à jour (étape 25) les bases de données de sons BSNDloc, de classes de sons BCLSNDloc, de cas d'usage BSCloc et de labels BLBLloc à l'aide des informations fournies en sortie par le module d'interprétation (INTRP). L'enrichisseur permet ainsi d'enrichir les bases de données à l'aide des fichiers sons des sons captés, permettant d'améliorer les analyses de sons ultérieures réalisées par le module de classification et d'améliorer l'identification d'une scène, en augmentant le nombre de sons associés à une classe de sons. L'enrichisseur permet également d'enrichir les bases de données à l'aides des labels obtenus, par exemple en associant un son capté mémorisé dans la base de données de sons BSNDloc le label obtenu pour ce son et mémorisé dans la base de données de label.
    Le module d'enrichissement permet d'enrichir de manière dynamique les données nécessaires à l'apprentissage du système SYS pour améliorer la performance de ce système.
  • Dans l'exemple décrit ici, les bases de données de sons BSNDloc, de classes de sons BCLSNDloc, de cas d'usage BSCloc et de labels BLBLloc sont locales. Elles sont par exemple stockées en mémoire du module de classification ou du module d'interprétation, ou dans une mémoire connectée à ces modules.
    Dans d'autres modes particuliers de réalisation de l'invention, les bases de données de sons BSNDloc, de classes de sons BCLSNDioc, de cas d'usage BSCloc et de labels BLBLloc peuvent être distantes. Le système SYS de collecte et d'analyse des sons accède à ces bases de données, par exemple via le réseau de données INT.
  • Les bases de données de sons BSNDloc, de classes de sons BCLSNDloc, de cas d'usage BSCloc et de labels BLBLloc peuvent comprendre tout ou partie de bases de données distantes plus larges BSND, BCLSND, BSC et BLBL, par exemple des bases de données existantes ou fournies par un fournisseur de service.
    Ces bases de de données distantes peuvent servir à initialiser les bases de données locales du système SYS et être mises à jour à l'aide des informations collectées par le système SYS lors de l'identification d'une scène. Ainsi, le système SYS de collecte et d'analyse des sons permet d'enrichir les bases de données de sons, de classes de sons, de cas d'usages et de labels pour d'autres utilisateurs.
  • Selon le mode particulier de réalisation décrit ci-dessus, les modules de classification, d'interprétation et d'enrichissement ont été décrits comme des entités séparées. Toutefois, tout ou partie de ces modules peut être intégrées dans un ou plusieurs dispositifs comme on le verra ci-dessous en relation avec les figures 3, 4 et 5.
  • La figure 3 illustre schématiquement un dispositif DISP d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention. Selon un mode particulier de réalisation de l'invention, le dispositif DISP a l'architecture classique d'un ordinateur, et comprend notamment une mémoire MEM, une unité de traitement UT, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PG stocké en mémoire MEM. Le programme d'ordinateur PG comprend des instructions pour mettre en œuvre les étapes du procédé d'identification d'une scène tel que décrit précédemment, lorsque le programme est exécuté par le processeur PROC.
    A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UT met notamment en œuvre les étapes du procédé d'identification d'une scène selon l'un quelconque de modes particuliers de réalisation décrits en relation avec la figure 2, selon les instructions du programme d'ordinateur PG.
    Le dispositif DISP est configuré pour identifier une scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés. Par exemple, le dispositif DIP correspond au module d'interprétation décrit en relation avec la figure 1.
    Selon un mode particulier de réalisation de l'invention, le dispositif DISP comprend une mémoire BDDLOC comprenant une base de données de sons, une base de données de classes de sons, une base de données de cas d'usage et une base de données de labels.
    Le dispositif DISP est configuré pour communiquer avec un module de classification configuré pour analyser des sons reçus et transmettre une ou des classes de sons associées à un son reçu, et éventuellement avec un module d'enrichissement configuré pour enrichir des bases de données telle que base de données de sons, base de données de classes de sons, base de données de cas d'usage et base de données de labels. Selon un mode particulier de réalisation de l'invention, le dispositif DISP est également configuré pour recevoir au moins une donnée complémentaire fournie par un objet connecté de l'environnement et associer un label à une classe de sons d'un son capté ou à ladite scène identifiée.
  • La figure 4 illustre schématiquement un dispositif d'identification DISP d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention. Selon cet autre mode particulier de réalisation de l'invention, le dispositif DISP comprend les mêmes éléments que le dispositif décrit en relation avec la figure 3. Le dispositif DISP comprend en outre un module de classification CLASS configuré pour analyser des sons reçus et transmettre une ou des classes de sons associées à un son reçu et un module de communication COM2 adapté pour recevoir des sons captés par des moyens de captation de l'environnement.
  • La figure 5 illustre schématiquement un dispositif DISP d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention. Selon cet autre mode particulier de réalisation de l'invention, le dispositif DISP comprend les mêmes éléments que le dispositif décrit en relation avec la figure 4. Le dispositif DISP comprend en outre un module d'enrichissement ENRCH configuré pour enrichir des bases de données telle que base de données de sons, base de données de classes de sons, base de données de cas d'usage et base de données de labels.

Claims (11)

  1. Dispositif d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son (C1, C2, C3), ledit dispositif d'identification (DISP) est configuré pour identifier ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
  2. Dispositif d'identification d'une scène selon la revendication 1, dans lequel ladite scène est identifiée parmi un groupe de scènes prédéfinies, chaque scène prédéfinie étant associée à un nombre prédéterminé de sons marqueurs, lesdits sons marqueurs d'une scène prédéfinie étant ordonnés de manière chronologique.
  3. Dispositif d'identification d'une scène selon l'une quelconque des revendications 1 ou 2, configuré en outre pour recevoir au moins une donnée complémentaire fournie par un objet connecté dudit environnement et associer un label à une classe de sons d'un son capté ou à ladite scène identifiée.
  4. Dispositif d'identification d'une scène selon la revendication 3, configuré en outre pour, lorsqu'un son capté est associé à plusieurs classes de sons possibles, déterminer une classe de sons dudit son capté à l'aide de ladite au moins une donnée complémentaire reçue.
  5. Dispositif d'identification d'une scène selon l'une quelconque des revendications 1 à 4, configuré en outre pour déclencher au moins une action à exécuter suite à l'identification de ladite scène.
  6. Dispositif d'identification d'une scène selon l'une quelconque des revendications 1 à 5, configuré en outre pour transmettre à un dispositif d'enrichissement au moins une partie des données suivantes :
    - une information indiquant la scène identifiée, et au moins deux classes de sons et un ordre chronologique associés à la scène identifiée,
    - au moins une partie des fichiers audio correspondant aux sons captés associés respectivement à une classe de sons,
    - au moins une classe de sons associée à un label.
  7. Système d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit système comprend :
    - un dispositif de classification configuré pour recevoir des sons captés dans ledit environnement, et déterminer pour chaque son reçu, au moins une classe de sons,
    - un dispositif d'identification selon l'une quelconque des revendications 1 à 5.
  8. Système d'identification d'une scène selon la revendication 7, dans lequel le dispositif d'identification est selon la revendication 6, le système d'identification comprenant en outre un dispositif d'enrichissement configuré pour mettre à jour au moins une base de données avec au moins une partie des données transmises par le dispositif d'identification.
  9. Procédé d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit procédé d'identification comprend l'identification de ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
  10. Procédé d'identification d'une scène selon la revendication 9, comprenant en outre la mise à jour, d'au moins une base de données, à l'aide d'au moins une partie des données suivantes :
    - une information indiquant la scène identifiée, et au moins deux classes de sons et un ordre chronologique associés à la scène identifiée,
    - au moins une partie des fichiers audio correspondant aux sons captés associés respectivement à une classe de sons,
    - au moins une classe de sons associée à un label.
  11. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé d'identification selon l'une quelconque des revendications 9 ou 10, lorsque le programme est exécuté par un processeur.
EP20193073.2A 2019-09-27 2020-08-27 Dispositif, système et procédé d'identification d'une scène à partir d'une séquence ordonnée de sons captés dans un environnement Pending EP3799047A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1910678A FR3101472A1 (fr) 2019-09-27 2019-09-27 Dispositif, système et procédé d’identification d’une scène à partir d’une séquence ordonnée de sons captés dans un environnement

Publications (1)

Publication Number Publication Date
EP3799047A1 true EP3799047A1 (fr) 2021-03-31

Family

ID=69190925

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20193073.2A Pending EP3799047A1 (fr) 2019-09-27 2020-08-27 Dispositif, système et procédé d'identification d'une scène à partir d'une séquence ordonnée de sons captés dans un environnement

Country Status (3)

Country Link
US (1) US11521626B2 (fr)
EP (1) EP3799047A1 (fr)
FR (1) FR3101472A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171060A (zh) * 2021-12-08 2022-03-11 广州彩熠灯光股份有限公司 灯具管理方法、装置和计算机程序产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488041A (zh) * 2021-06-28 2021-10-08 青岛海尔科技有限公司 用于场景识别的方法、服务器及信息识别器
US20230308467A1 (en) * 2022-03-24 2023-09-28 At&T Intellectual Property I, L.P. Home Gateway Monitoring for Vulnerable Home Internet of Things Devices

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050413B2 (en) * 2008-01-11 2011-11-01 Graffititech, Inc. System and method for conditioning a signal received at a MEMS based acquisition device
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BARCHIESI DANIELE ET AL: "Acoustic Scene Classification: Classifying environments from the sounds they produce", IEEE SIGNAL PROCESSING MAGAZINE, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 32, no. 3, 1 May 2015 (2015-05-01), pages 16 - 34, XP011577488, ISSN: 1053-5888, [retrieved on 20150402], DOI: 10.1109/MSP.2014.2326181 *
BRIAN CLARKSON ET AL: "Auditory Context Awareness via Wearable Computing", PROCEEDINGS OF 1998 WORKSHOP ON PERCEPTUAL USER INTERFACES, 1 January 1998 (1998-01-01), XP055677044, Retrieved from the Internet <URL:https://pdfs.semanticscholar.org/7e58/b584e1422d1be3a315dcdeef8016d5cb43f4.pdf> [retrieved on 20200317] *
CHAKRABARTY DEBMALYA ET AL: "Exploring the role of temporal dynamics in acoustic scene classification", 2015 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA), IEEE, 18 October 2015 (2015-10-18), pages 1 - 5, XP032817953, DOI: 10.1109/WASPAA.2015.7336898 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171060A (zh) * 2021-12-08 2022-03-11 广州彩熠灯光股份有限公司 灯具管理方法、装置和计算机程序产品

Also Published As

Publication number Publication date
FR3101472A1 (fr) 2021-04-02
US11521626B2 (en) 2022-12-06
US20210098005A1 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
JP6916352B2 (ja) 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答
EP3799047A1 (fr) Dispositif, système et procédé d&#39;identification d&#39;une scène à partir d&#39;une séquence ordonnée de sons captés dans un environnement
CN106415546B (zh) 用于在本地检测所消费视频内容的***和方法
US20110276628A1 (en) Social attention management
US20180349962A1 (en) System and method for using electromagnetic noise signal-based predictive analytics for digital advertising
JP2019532378A (ja) シングルソースクロスプラットフォームメディア測定装置、デバイス、及び関連方法
US11979634B2 (en) Software based system to provide advanced personalized information and recommendations on what watch to viewers of video content (on TV, online and other platforms)
WO2017117234A1 (fr) Réponses à des demandes de classification multimédia à distance utilisant des modèles classificateurs et des paramètres de contexte
Bisio et al. A television channel real-time detector using smartphones
FR3051931A1 (fr) Determination d&#39;un contexte de mobilite d&#39;un utilisateur porteur d&#39;un equipement muni de capteurs inertiels
EP4009630A1 (fr) Procede de detection d&#39;intrusion
EP4375899A1 (fr) Procede et dispositif de recommandation d&#39;activites a au moins un utilisateur
FR3042667A1 (fr) Procede de communication entre deux utilisateurs, systeme utilisant un tel procede.
EP4016335A1 (fr) Procede pour classifier un profil utilisateur, systeme de classification
EP4254879A1 (fr) Procede et dispositif de transmission d&#39;information de configuration d&#39;un environnement
WO2021240092A1 (fr) Prédiction d&#39;un état émotionnel d&#39;un utilisateur dans un environnement et déclenchement d&#39;un service numérique en fonction de l&#39;état émotionnel prédit
FR3096495A1 (fr) Procédé et dispositif de mesure de l’usage d’un bâtiment connecté
FR3086832A1 (fr) Procede de georeperage a adaptation automatique de portee de detection, programme d&#39;ordinateur, module de georeperage et passerelle residentielle associes.
EP2274882B1 (fr) Procede de transmission de message, dispositif et produit programme d&#39;ordinateur correspondants
FR3085525A1 (fr) Surveillance des personnes avec prise en compte des visites
FR3098966A1 (fr) Procédé et dispositif de détection de la récurrence d’attributs temporels
EP3853784A1 (fr) Procédé d&#39;analyse des dysfonctionnements d&#39;un système et dispositifs associés
FR3065824A1 (fr) Procede de traitement par un dispositif de supervision de donnees acquises et transmises par un capteur
KR20160100118A (ko) 전자기기를 이용하여 특정 지역을 모니터링 하는 시스템 및 방법
FR2970392A1 (fr) Procede et systeme de gestion du partage de contenu media dans une plateforme communautaire

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN PUBLISHED

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RAP3 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20210827

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20220817