WO2020230459A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2020230459A1
WO2020230459A1 PCT/JP2020/013350 JP2020013350W WO2020230459A1 WO 2020230459 A1 WO2020230459 A1 WO 2020230459A1 JP 2020013350 W JP2020013350 W JP 2020013350W WO 2020230459 A1 WO2020230459 A1 WO 2020230459A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
data
recognition
recognizer
context
Prior art date
Application number
PCT/JP2020/013350
Other languages
English (en)
French (fr)
Inventor
高橋 亮
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/609,476 priority Critical patent/US11861883B2/en
Publication of WO2020230459A1 publication Critical patent/WO2020230459A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • This disclosure relates to information processing devices, information processing methods, and programs.
  • Patent Document 1 discloses a technique for reducing the man-hours for constructing a learning data set by semi-automating the labeling work.
  • Patent Document 1 it is not possible to confirm whether or not the amount and variety of the training data set is sufficient, and the evaluation device evaluates the recognition accuracy of the recognizer. If the amount and variety of training data sets are found to be inadequate, process rework will occur at the stage of building the training data sets.
  • the result of the recognition process for at least one specific data by the recognizer generated to recognize the predetermined recognition object, and the result of the clustering process for the object recognized by the recognition process includes an output control unit that controls the display of information related to a misrecognition target different from the predetermined recognition target, which is identified as having a possibility of misrecognition based on the recognition device, based on at least one learning data.
  • the at least one training data generated by learning includes the predetermined recognition target and is data in substantially the same context, and the specific data is abbreviated as the context of the at least one training data.
  • An information processing device that is data in the same context is provided.
  • the recognizer includes at least one learning, including controlling the display of information relating to a false recognition target different from the predetermined recognition target, which is identified as having the possibility of false recognition based on the result of the clustering process.
  • the at least one training data generated by learning based on the data includes the predetermined recognition target and is data in substantially the same context, and the specific data is the said one of the at least one training data.
  • An information processing method is provided, which is data in a context that is substantially the same as the context.
  • the recognizer includes an output control unit that controls the display of information related to a false recognition target different from the predetermined recognition target, which is identified as having a possibility of false recognition based on the result of the clustering process.
  • the at least one training data includes the predetermined recognition target and is data in substantially the same context, respectively, and the specific data is the at least one training data.
  • Construction of learning data set T10 is the work of collecting learning data including the recognition target to be recognized by the recognizer and labeling the recognition target included in the learning data.
  • the recognition target exists in the learning data.
  • the learning data is image data
  • the recognition target is a predetermined area in the image data, and the predetermined area is labeled.
  • the learning data in which the recognition target is labeled is also referred to as a learning data set.
  • Recognizer design and learning T20 is a work of designing and learning a recognizer so as to recognize a recognition target included in the learning data based on the learning data set constructed in the learning data set construction T10. Further, transplantation of the recognizer to the evaluation device T30 is an operation of transplanting the recognizer to the evaluation device for evaluating the accuracy of the recognizer.
  • the evaluation device here is, for example, a device in which a recognizer whose development has been completed is actually used. Further, the accuracy evaluation T40 of the recognizer is a work of evaluating the recognition accuracy of the recognizer in the evaluation device.
  • the recognizer in order to further improve the recognition accuracy of the recognizer, it may be required to improve the diversity of the learning data. If the training data is not sufficiently diverse, the recognizer will not be sufficiently generalized, and for example, an object other than the recognition object to be recognized, which is similar to the recognition object and is not, will be recognized as the recognition object. Things (false positives) can happen.
  • the erroneous recognition here means that the recognizer recognizes an object containing data different from the predetermined recognition object included in the learning data to be recognized as the recognition object (false positive). As an example, it is false positive that a recognizer trained to recognize the "tomato" part in the image data recognizes a "paprica” part different from the "tomato" in a certain image data as a "tomato”. That is.
  • Patent Document 1 described above discloses a technique for semi-automating the labeling work and reducing the man-hours for constructing the learning data set.
  • Patent Document 1 does not consider confirming whether or not the amount and diversity of training data included in the training data set is sufficient.
  • the technical idea relating to the present disclosure was conceived in view of the above points, and by using data in a context that is substantially the same as the context of the learning data, a target that can be misrecognized is specified, and the diversity of the learning data is given to the user. By encouraging reconsideration, it is possible to prevent rework in the recognition device development process and shorten the development period.
  • the recognizer recognizes the object to be recognized that is copied in the predetermined area in the image data.
  • the system 1 includes an input / output terminal 10, a recognizer development device 20, a network 30, and an information processing server 40.
  • the input / output terminal 10 receives input from the user. Further, the input / output terminal 10 outputs information related to the processing executed by the recognition device development device 20 and the information processing server 40 to the user.
  • the input / output terminal 10 may be, for example, a mobile terminal such as a personal computer (PC: Personal Computer), a smartphone, or a tablet terminal.
  • the input / output terminal 10 may be a liquid crystal display (LCD: Liquid Crystal Display) device, an OLED (Organic Light Emitting Node) device, a projector, or the like.
  • LCD Liquid Crystal Display
  • OLED Organic Light Emitting Node
  • the recognizer development device 20 constructs a learning data set based on the learning data transmitted from the input / output terminal 10. Specifically, the recognizer development device 20 labels the recognition target included in the learning data based on the input from the user, and generates a learning data set. In addition, the recognizer development device 20 designs and learns a recognizer based on the learning data. The detailed functional configuration of the recognizer development device 20 will be described later.
  • the network 30 has a function of connecting the recognizer development device 20 and the information processing server 40.
  • the network 30 may include a public network such as the Internet, a telephone line network, a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), and a WAN (Wide Area Network). Further, the network 30 may include a dedicated network such as IP-VPN (Internet Protocol-Virtual Private Network). Further, the network 30 may include a wireless communication network such as Wi-Fi (registered trademark) and Bluetooth (registered trademark).
  • the information processing server 40 identifies an erroneous recognition target that may be erroneously recognized by the recognizer generated for recognizing a predetermined recognition target by the recognizer development device 20, and information on the identified erroneous recognition target. This is an example of an information processing device that controls the output.
  • the false recognition here means that the recognizer recognizes an object included in the specific data, which is different from the predetermined recognition object, as the recognition object (false positive).
  • the information processing server 40 receives the recognizer and the learning data set from the recognizer development device 20 via the network 30. The detailed functional configuration of the information processing server 40 will be described later.
  • the information processing server 40 may be a server on the cloud that can be used in the cloud service.
  • the configuration example of the system 1 according to the present embodiment has been described above.
  • the above configuration described with reference to FIG. 2 is merely an example, and the configuration of the system 1 according to the present embodiment is not limited to such an example.
  • the configuration of the system 1 according to the present embodiment can be flexibly modified according to the specifications and operation.
  • the recognizer development device 20 includes a data set management unit 210, a recognizer development unit 220, a communication unit 240, a storage unit 250, and a control unit 260.
  • the storage unit 250 includes a learning data set DB 251 and a recognizer database 252.
  • the learning data set DB 251 is a set of learning data sets
  • the recognizer database 252 is a set of recognizers under development or completed development.
  • the data set management unit 210 constructs a learning data set stored in the storage unit 250, which will be described later, based on the input from the user via the input / output terminal 10. Specifically, the data set management unit 210 displays a screen for labeling work on the input / output terminal 10 at the time of labeling work for each training data, and learns based on the input from the user to the screen. Label the data.
  • FIG. 4 shows a display screen SC1 for labeling work by the data set management unit 210 when the input / output terminal 10 is a personal computer.
  • the display screen SC1 for labeling work includes a display portion SP11 for displaying the labeling work status, a display portion SP12 for displaying data including a recognition target, and information related to an erroneous recognition target controlled by an information processing server 40 described later.
  • the display portion SP13 to be displayed and the display portion SP14 for displaying information related to the operation on the display screen for labeling work are included.
  • the display part SP11 the work status of labeling the recognition target is displayed.
  • the display portion SP11 displays information indicating a situation in which the “tomato” image included in the image data displayed on the display portion SP12 is labeled.
  • the data including the recognition target during the labeling work is shown.
  • image data including a "tomato” image is displayed.
  • the area of the labeled "tomato" image is displayed so as to surround the area.
  • the display portion SP13 information related to the erroneous recognition target is shown by the control from the information processing server 40 described later.
  • an example of an image that recognizes that the recognizer currently under development is a "tomato" is displayed.
  • various buttons and the like for operating the display screen in the labeling work are shown.
  • buttons for "selecting an area”, “deleting a label”, “changing a display image”, “enlarging a display image”, and "determining a label” are displayed.
  • an information output avatar may be displayed on the display portion SP13.
  • FIG. 5 shows a display screen SC2 for labeling work by the data set management unit 210 when the input / output terminal 10 is a smartphone or tablet terminal.
  • the layout of the display screen SC is partially different because input by touch operation is possible and the physical size of the screen is different from that of a personal computer.
  • the display screen SC1 for the labeling work includes a display portion SP21 for displaying the labeling work status, and a display portion SP22 for displaying information related to an erroneous recognition target displayed by control from the information processing server 40 described later.
  • the data set management unit 210 confirms whether or not to input a label when a touch operation is performed on the “tomato” image to be recognized in the display portion SP21. You may display a balloon for.
  • the data set management unit 210 displays an icon on the upper right of the display screen SC2 like the display portion SP22, and when displaying the information related to the erroneous recognition target, the information is displayed. May be displayed in the form of a balloon.
  • the display control of the screen for labeling work is executed by the data set management unit 210.
  • the context corresponding to each data may be set before the work of labeling the individual data is started.
  • the context may refer to a place such as “farm”, “kitchen garden”, “supermarket”, “bank”, “school”.
  • the context may indicate a time zone such as “morning” or “midnight”, or may indicate a predetermined scene such as “during cooking” or “during a meeting”.
  • the context is set in the desired format.
  • the configuration of the screen for labeling work is not limited to the above example.
  • the details of the display of the information related to the above-mentioned misrecognition target will be described later.
  • the recognizer development unit 220 executes a process related to the development of a recognizer for recognizing a predetermined recognition target. Specifically, the recognizer development unit 220 provides the user with an integrated development environment and editor for the recognizer via the input / output terminal 10, and based on the input from the user via the input / output terminal 10. , Design and learn the recognizer. In addition, the recognizer development unit 220 may set the context in which the developed recognizer is used when developing the recognizer.
  • the recognizer development unit 220 may display the evaluation result of the recognizer to the user via the input / output terminal 10.
  • FIG. 6 shows a display screen SC3 that displays an evaluation result of recognition of learning data by the recognizer displayed by the recognizer development unit 220.
  • the learning data in which the recognition target is labeled and the evaluation of the accuracy in the recognition processing of the recognition target are shown as the reliability.
  • the evaluation in the recognition process is indicated by an index such as mAP (mean Average Precision) or IoU (Intersection over Union).
  • the recognizer development unit 220 may display additional information related to the context as a remark to the learning data.
  • the additional information here means the date and time when the image was taken, the position information, the name of the place, and the like. Further, the recognizer development unit 220 may display information indicating the context of the above-mentioned learning data as additional information.
  • the process and display related to the development of the recognizer are performed by the recognizer development unit 220.
  • the configuration of the screen of the evaluation result of the recognizer is not limited to the above example.
  • the communication unit 240 executes communication with the input / output terminal 10 and the information processing server 40. For example, the communication unit 240 transmits information related to screen display to the input / output terminal 10 based on instructions from the data set management unit 210 and the recognizer development unit 220, and indicates a user input operation from the input / output terminal 10. Receive information.
  • the storage unit 250 stores various information related to the processing of the data set management unit 210 and the recognizer development unit 220. As described above, the storage unit 250 includes, for example, a learning data set DB 251 and a recognizer database 252. The storage unit 250 provides various data of the learning data set DB 251 and the recognizer database 252 based on the request from the data set management unit 210 and the recognizer development unit 220.
  • Control unit 260 has a function of controlling each configuration included in the recognizer development device 20 according to the present embodiment.
  • the control unit 260 controls, for example, the start and stop of each configuration.
  • the configuration example of the recognizer development device 20 according to the present embodiment has been described above.
  • the above configuration described with reference to FIG. 3 is merely an example, and the configuration of the recognizer development device 20 according to the present embodiment is not limited to such an example.
  • the configuration of the recognizer development device 20 according to the present embodiment can be flexibly modified according to specifications and operations.
  • the information processing server 40 includes a context recognition unit 410, a false recognition target identification unit 420, a data classification unit 430, an output control unit 440, an expansion support unit 450, a server communication unit 460, a storage unit 470, and a control unit 480.
  • the context recognition unit 410 recognizes the context of the learning data received from the recognizer development device 20. For example, the context recognition unit 410 may recognize a preset context corresponding to the training data. Further, for example, the context recognition unit 410 may recognize the context of the learning data based on the learning data. For example, when the training data is image data, the context recognition unit 410 may recognize the context of the training data based on a background portion different from the object that can be recognized by the recognizer in the image data. By recognizing the context of the learning data by the context recognition unit 410, the erroneous recognition target identification unit 420, which will be described later, can more accurately identify the erroneous recognition target.
  • the context recognition process by the context recognition unit 410 is not limited to the above example.
  • the context recognition unit 410 may use the clothes of a person in the image, character information of a subtitle or a signboard, and the like, in addition to the background of the image.
  • the context recognition unit 410 uses the date when the image was created or taken, the voice, temperature, humidity, location, country, and the Global Positioning System (GPS), which are added as additional information to the learning data.
  • GPS Global Positioning System
  • the context may be recognized based on the surrounding information such as the acquired position information.
  • the context recognition unit 410 When the context recognition unit 410 receives the learning data set from the recognizer development device 20, the context recognition unit 410 recognizes the context common to the learning data constituting the learning data set. When all the contexts are not substantially the same in the plurality of training data, for example, the context occupying the majority in the plurality of training data may be recognized by the context recognition unit 410 as the context of the entire training data, or may be a plurality of. A context showing an intermediate concept of the context of the training data may be recognized by the context recognition unit 410 as the context of the entire training data.
  • the data in the context substantially the same as the context recognized by the context recognition unit 410 based on the learning data set by the erroneous recognition target identification unit 420 described later is specified from the identification data set DB 471 of the storage unit 470 described later. Obtained as data.
  • the context recognition unit 410 may recognize the context of the data included in the specific data set DB471.
  • the erroneous recognition target identification unit 420 identifies the erroneous recognition target by the recognition process for the identification data by using the recognizer.
  • the erroneous recognition target identification unit 420 executes recognition processing for the identification data using the recognizer, and also executes clustering processing in the data classification unit 430 described later based on the result of the recognition processing. By using the obtained result, the misrecognition target is specified.
  • misrecognition target identification unit 420 The specific processing of the misrecognition target identification unit 420 will be described below.
  • the erroneous recognition target identification unit 420 extracts data in a context substantially the same as the context recognized by the context recognition unit 410 as specific data from the specific data set DB 471 of the storage unit 470.
  • the erroneous recognition target specific unit 420 may acquire the specific data based on the context preset in the data included in the specific data set DB471, or the context recognition unit 410 may acquire the context of the data. Specific data may be acquired based on the result of recognizing.
  • the erroneous recognition target identification unit 420 includes a target including the identification data erroneously recognized by the recognizer based on the result of the recognition process of the recognition target of the identification data by the recognizer and the clustering process by the data classification unit 430. Is specified as a misrecognition target. The details of the clustering process by the data classification unit 430 will be described later.
  • the accuracy evaluation result of the recognition process by the recognizer of the target in each cluster is used.
  • the erroneous recognition target is specified based on the average value of the accuracy evaluation of the recognition process of the target recognized by the recognizer in the identification data in the cluster.
  • the data classification unit 430 executes a clustering process, which is a method of so-called unsupervised machine learning, on an object included in the identification data recognized by the erroneous recognition target identification unit 420 using the recognizer, and by the executed clustering process. Classify the targets included in the specific data into multiple clusters. For example, when the specific data is image data, the data classification unit 430 executes a clustering process to a predetermined area in the specific data recognized by the erroneous recognition target specific unit 420 using the recognizer, and each predetermined data is specified. Classify the area into one of multiple clusters. Examples of the clustering processing method include a principal component analysis method and a k-means method.
  • misrecognition target (Specific example of misrecognition target)
  • the misrecognition target identification unit 420 and the data classification unit 430 according to the present embodiment will be described with reference to FIGS. 8 and 9.
  • FIG. 8 is a diagram for explaining a process of extracting data in a context substantially the same as the context of the learning data as specific data by the erroneous recognition target identification unit 420.
  • FIG. 8 shows a set DS1 of image data in the specific data set DB471.
  • the set DS1 of image data may be a set of image data whose context is "farm”
  • the set DS1 of image data may be a set containing image data whose context is other than "farm”.
  • the misrecognition target identification unit 420 extracts the image data of the “vegetable garden” whose context produces vegetables and the like as the identification data from the set DS1 of the image data.
  • the set of image data DS2 shown on the right side of FIG. 8 is a set of specific data whose context is “vegetable garden”.
  • the erroneous recognition target identification unit 420 executes a recognition process using the recognizer received from the recognizer development device 20 on the set DS2 of the image data to recognize the target.
  • the result table TA of the recognition process for the set DS2 of the image data by the erroneous recognition target identification unit 420 is shown.
  • "kitchen garden” and “vegetable garden” are treated as substantially the same context.
  • the data classification unit 430 executes a clustering process on the recognized target area (cutout image) included in the result of the recognition process shown on the left side of FIG.
  • each cutout image is classified into one of a plurality of clusters.
  • the erroneous recognition target identification unit 420 calculates the average reliability of the recognition processing corresponding to the plurality of cropped images included in each cluster.
  • the cluster column CLR shown on the right side of FIG. 9 the cutout images classified into clusters CL1 to CL5 and the average reliability corresponding to each cluster are shown.
  • the misrecognition target identification unit 420 identifies the misrecognition target based on the average reliability, which is the calculated recognition accuracy.
  • the target of the cut-out image of the cluster CL1 having the highest average reliability is likely to be the recognition target to be recognized by the recognizer
  • the target of the cluster CL2 having the next highest average reliability is regarded as the erroneous recognition target. May be specified.
  • cluster CL1 is an image of a "tomato"
  • cluster CL2 is an image of a "paprika”.
  • the misrecognition target identification unit 420 identifies the target of the cluster CL2, which has the second highest reliability after the cluster CL1, as the misrecognition target.
  • the method for identifying the misrecognition target based on the above-mentioned recognition accuracy is not limited to the above example.
  • the target corresponding to the cluster having the second highest average reliability which is the average of the recognition accuracy
  • the recognition target can be divided into two or more clusters and classified.
  • the target corresponding to the cluster having the third or lower recognition accuracy may be specified as the erroneous recognition target.
  • the output control unit 440 controls the display of information related to the erroneous recognition target specified by the erroneous recognition target identification unit 420.
  • the information related to the misrecognition target may be notification information for notifying the user of the misrecognition target.
  • the output control unit 440 may control the display of the notification information based on the specific result by the erroneous recognition target identification unit 420.
  • the notification information may be visual information or textual information.
  • the notification information may be the portion (cutout image) itself of the image data corresponding to the erroneous recognition target as visual information.
  • the output control unit 440 may display a plurality of the data.
  • the information related to the misrecognition target may be additional information related to the misrecognition target in addition to the information indicating the misrecognition target itself.
  • the output control unit 440 may control the display of information indicating the evaluation of the result of the recognition process on the specific data by the recognizer as the information related to the erroneous recognition target.
  • the output control unit 440 may further control the display of information indicating the context of the learning data.
  • the information indicating the context includes information notifying the context itself, surrounding information such as date, voice, temperature, humidity, and position information acquired by GPS. By grasping the context of the specific data, the user can consider what kind of learning data should be prepared, or in what situation or situation the learning data should be expanded. ..
  • the output control unit 440 may control the display of information related to the expansion of the learning data set by the expansion support unit 450, which will be described later. The details of controlling the display of information related to the expansion will be described later.
  • the output control unit 440 controls the display of the entire screen other than the information portion related to the erroneous recognition target of the display screens SC1 to SC3 shown in FIGS. 4 to 6 described above instead of the recognizer development device 20. You may.
  • the output control unit 440 may output information related to the erroneous recognition target to the user by voice. Further, the output control unit 440 may output information related to the erroneous recognition target to the user only by voice.
  • the expansion support unit 450 controls the expansion processing of the learning data based on the specific result of the erroneous recognition target identification unit 420.
  • the expansion process of the learning data set DB251 means adding new learning data to the learning data set DB251. That is, the expansion support unit 450 may add, for example, a combination of the learning data of the erroneous recognition target specified by the erroneous recognition target identification unit 420 and the corresponding label to the learning data set DB 251 as a learning data set.
  • the label may be given by the user or may be automatically given by the expansion support unit 450.
  • the output control unit 440 controls the display of the information related to the expansion of the learning data, and executes the expansion processing of the learning data based on the feedback from the user regarding the information related to the expansion. You can do it.
  • the expansion support unit 450 executes the expansion processing of the learning data set based on the feedback from the user regarding the information related to the confirmation of whether or not the misrecognition target displayed by the output control unit 440 is the misrecognition. You may.
  • the learning data set expanded in the learning data set DB251 may be the same as the data to be erroneously recognized.
  • the output control unit 440 displays an image and a sentence for confirming whether or not the erroneous recognition target is the target to be recognized via the recognizer development device 20. It is displayed so as to be included in SP13. The user can determine whether or not the recognizer recognizes the displayed image (target) by inputting "yes” or "no" to the display portion SP13.
  • FIG. 4 shows an example of a display screen when the input / output terminal 10 is a personal computer.
  • the input / output terminal 10 according to the present embodiment is a smartphone or a tablet terminal. An example of displaying information related to the misrecognition target and information related to expansion will be described.
  • the display screen SC4 for the labeling work includes a display portion SP41 for displaying the labeling work status and a display portion SP42 for displaying information related to the erroneous recognition target.
  • the portion SP43 that displays the information indicating the erroneous recognition target and the information for confirming the erroneous recognition target is shown in the form of a balloon with the display portion SP42 as a reference. In this way, the layout of various front screens can be changed according to the type of the input / output terminal 10.
  • the output control unit 440 actively expands the learning data such as "learning not to detect this object will improve the recognition accuracy". You may want to display the suggested message.
  • the display screens shown in FIGS. 4 and 10 are display screens when the learning data set is constructed, but on the other hand, the output control unit 440 is expanded by the expansion support unit 450 during the design and learning of the recognizer. You may control the display of the information relating to.
  • FIG. 11 shows a display screen SC5 of the evaluation result of the recognizer.
  • the display screen SC3 of the evaluation result of the recognizer shown in FIG. 6 described above is the evaluation result of the recognition process for the learning data, while the display screen SC5 shown in FIG. 11 is the specific data including the erroneous recognition target. It is an evaluation result of the recognition process of.
  • the display screen SC5 shows two erroneous recognition targets (paprika different from the recognition target tomato).
  • the expansion support unit 450 may control the expansion processing of the learning data set DB 251 based on the input from the user as to whether or not the accuracy evaluation result is as expected.
  • the expansion support unit 450 determines that the displayed false recognition target is actually a recognition target, and learns with the same labeling as the recognition target. It may be added as training data to the data set DB251 for use.
  • the expansion support unit 450 determines that the erroneous recognition target is actually a erroneously recognized target and labels it with another label. It may be done and added to the learning data set DB251.
  • the input format from the user may be a format selected from a predetermined option as shown in FIG. 11, or may be a format input by the keyboard shortcut of the input / output terminal 10.
  • the expansion support unit 450 realizes expansion of learning data according to the erroneous recognition target specified by the erroneous recognition target identification unit 420.
  • the learning data can be expanded based on whether or not the erroneous recognition target is actually a erroneously recognized target, such as the construction of a learning data set or the recognition device. It can be done at the design and development stages, and the development period can be shortened.
  • the output control unit 440 and the expansion support unit 450 realize active learning in which the user actively understands the importance of ensuring the amount and diversity of learning data in the development of the recognizer.
  • Information exchange with the user via the input / output terminal 10 by the output control unit 440 may be performed a plurality of times. For example, by exchanging information with the user and grasping a more detailed context in which the recognizer is used, it is possible for the expansion support unit 450 to more accurately identify the data to be expanded as a learning data set. It becomes.
  • the server communication unit 460 executes communication with the recognizer development device 20 via the network 30.
  • the server communication unit 460 receives the recognizer and the learning data set from the recognizer development device 20 via the network 30, and develops the information related to the erroneous recognition target and the specific data including the erroneous recognition target. It is transmitted to the device 20.
  • the storage unit 470 stores the specific data set DB471 and the like.
  • the specific data set DB471 is a set of data and information accompanying the data.
  • the information associated with the data is, for example, information indicating the context of the data.
  • the combination of data and information indicating context is also called a specific data set.
  • the storage unit 470 may provide data in a predetermined context based on the request from the context recognition unit 410 and the information indicating the context.
  • the data in the predetermined context provided is the above-mentioned specific data.
  • the storage unit 470 may provide the data of the specific data set DB 471 to the context recognition unit 410 in order to recognize the context, based on the request from the context recognition unit 410.
  • each data of the specific data set DB471 does not have to be the data prepared for the development of the recognizer. That is, in identifying the misrecognition target, the misrecognition target identification unit 420 may acquire and use data used for other purposes.
  • Control unit 480 has a function of controlling each configuration included in the information processing server 40 according to the present embodiment.
  • the control unit 260 controls, for example, the start and stop of each configuration.
  • the data set management unit 210 determines that the labeling work is not performed. If the location for saving the learning data set DB 251 is not specified (S102: No), it is determined that the labeling work is not performed, and the data set management unit 210 ends the operation. On the other hand, when the place where the learning data set DB 251 is saved is specified (S102: Yes), the data set management unit 210 causes the input / output terminal 10 to display the labeling screen (S103).
  • step S104 when the operation to be labeled on the image of the learning data displayed on the labeling screen displayed in step S103 is not input (S104: No), the process returns to step S104.
  • S104: Yes when an operation to be labeled on the image of the training data displayed on the labeling screen displayed in step S103 is input (S104: Yes), the data set management unit 210 outputs the labeled result. Register as a learning data set (S105).
  • the recognizer development unit 220 executes the learning of the recognizer based on the learning data (S204).
  • the recognizer development unit 220 evaluates the accuracy of the recognition process of the recognizer for which learning was executed in step S204 (S205).
  • the process returns to step S203.
  • the recognizer development unit 220 releases the recognizer to the developer or the customer (S207), and the recognizer development unit 220 ends the operation.
  • the server communication unit 460 receives information indicating the occurrence of a predetermined event from the recognizer development device 20 (S301: Yes)
  • the erroneous recognition target identification unit 420 receives the recognizer and learning via the server communication unit 460. Acquire the data set for (S302).
  • the context recognition unit 410 recognizes the context of the learning data acquired in step S302 (S303).
  • the erroneous recognition target identification unit 420 acquires data in a context substantially the same as the context recognized in step S303 from the identification data set DB 471 of the storage unit 470 as identification data (S304).
  • the erroneous recognition target identification unit 420 applies the recognizer acquired in step S302 to the specific data acquired in step S304 (S305).
  • the data classification unit 430 executes a clustering process on the target recognized in step S305 (S306).
  • the misrecognition target identification unit 420 identifies the misrecognition target based on the result of the clustering process executed in step S306 (S307).
  • the output control unit 440 causes the input / output terminal 10 to display the information related to the erroneous recognition target identified in step S307 (S308).
  • step S308 When there is an input from the user for the information related to the misrecognition target displayed in step S308 that the misrecognition target is actually a misrecognized target (S309: Yes), the expansion support unit 450 is specified in step S307. Specific data including the false recognition target is added to the training data set (S310). On the other hand, if the erroneous recognition target is not the actual erroneously recognized target, if there is an input from the user for the information related to the erroneous recognition target displayed in step S308 (S309: No), the process proceeds to step S311. Next, when the design and development of the recognizer are continued (S311: No), the process returns to step S301. On the other hand, when the design and development of the recognizer is completed (S311: Yes), the information processing server 40 ends its operation.
  • the object recognized by the recognizer is a part in the still image.
  • the object recognized by the recognizer was the type of object itself.
  • the scope of application of the technical idea according to the present disclosure is not limited to such examples.
  • the technical idea according to the present disclosure can be applied to various recognition processes.
  • the learning data may be voice data, and in that case, the recognition target is a predetermined phrase or word part in the voice data.
  • the learning data may be motion data or action data
  • the recognition target may be a predetermined gesture performed by a person in the video data.
  • the learning data is collected by, for example, an inertial measurement unit (IMU: Inertial Measurement Unit).
  • IMU Inertial Measurement Unit
  • the IMU is worn, for example, on a person's arm.
  • the gesture is, for example, the action of swinging up the arm.
  • FIG. 15 shows a display screen SC6 displayed by the output control unit 440.
  • the display screen SC6 instead of the still image displayed in the above example, IMU time-series order data as motion data, a video time-synchronized with the time-series data, a probability that a predetermined gesture is being executed, And the average probability of gesture as recognition accuracy is displayed.
  • the user confirms whether or not the recognized gesture is erroneously recognized while checking the moving image displayed on the display screen SC6. For example, when a pointing operation is performed on the displayed recognition result, a moving image of a portion corresponding to the operated portion may be played back. Further, as in the above, the learning data may be expanded based on the feedback from the user regarding the recognition result.
  • the object of recognition by the recognizer in this disclosure is not limited to such an example.
  • the target recognized by the recognizer may be, for example, document data.
  • the object to be recognized is a predetermined sentence, phrase, word, or the like in the document data.
  • the data classification unit 430 may use, for example, a classification vocabulary table in the clustering process.
  • the recognizer that recognizes vegetables, the clothes of people, and the music are recognized.
  • the accuracy of the recognizer may be reduced.
  • the appearance of the vegetables may change with the passage of time such as seasonal changes, and the image of the vegetables at a certain point in time. Even if the recognizer is developed based solely on the data, the accuracy of the recognizer can be reduced.
  • the accuracy of the recognizer may decrease. For example, even when the place where vegetables are mainly produced changes (when the garden changes to a factory) or when the country changes, the recognition target itself changes according to the change in context. Or, the accuracy of the recognizer may decrease due to a change in the object that is easily misrecognized.
  • the expansion support unit 450 may control the expansion processing of the learning data set based on the update of the specific data set DB471.
  • the expansion support unit 450 controls the expansion process based on the erroneous recognition target newly specified by the erroneous recognition target identification unit 420 when the data constituting the identification data set DB 471 changes.
  • the accuracy change of the recognition process of the recognizer may be displayed according to the change, and the learning data set is expanded according to the accuracy change. You may.
  • the output control unit 440 may control the display of information related to the update of the specific data set DB 471.
  • the expansion support unit 450 may control the expansion process based on the feedback for the information related to the update of the specific data set DB 471 displayed by the output control unit 440.
  • FIG. 16 shows a display screen SC7 that displays information related to the update of the specific data set DB471.
  • the display screen SC7 On the display screen SC7, information related to the recognizer under development or developed and the corresponding specific data set DB is displayed. Further, on the display screen SC7, the status corresponding to the combination of each recognizer and the specific data set DB is also displayed. The status indicates the status of the recognizer.
  • the state of the recognizer here is the accuracy of the recognition process of the recognizer.
  • the status is "Running”, it indicates that the accuracy evaluation of the corresponding recognizer is being executed. Further, for example, when the status is "accuracy maintenance”, it indicates that the accuracy of the recognition process of the recognizer has not changed due to the update of the specific data set DB471. Further, for example, when the status is "decreased accuracy”, it indicates that the accuracy of the recognition process of the recognizer has decreased due to the update of the specific data set DB471.
  • the learning data set can be automatically expanded based on the update of the specific data set DB 124.
  • the output control unit 440 may make a purchase proposal for specific data or a transfer proposal for securities regarding the expansion of the learning data set. Good. Further, when the target recognized by the recognizer is 3D data, the output control unit 440 generates a model in the 3D printer connected to the recognizer development device 20 based on the 3D data corresponding to the erroneous recognition target or the like. You may let me.
  • FIG. 17 is a block diagram showing a hardware configuration example of the input / output terminal 10, the recognizer development device 20, and the information processing server 40 according to the embodiment of the present disclosure.
  • the input / output terminal 10, the recognizer development device 20, and the information processing server 40 include, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, and an external bus 876.
  • It has an interface 877, an input device 878, an output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901. ..
  • the ROM 872 is a means for storing a program read into the processor 871 and data used for calculation.
  • a program read into the processor 871 and various parameters that change as appropriate when the program is executed are temporarily or permanently stored.
  • the processors 871, ROM 872, and RAM 873 are connected to each other via, for example, a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to the external bus 876, which has a relatively low data transmission speed, via, for example, the bridge 875.
  • the external bus 876 is connected to various components via the interface 877.
  • Input device 8708 For the input device 878, for example, a mouse, a keyboard, a touch panel, buttons, switches, levers, and the like are used. Further, as the input device 878, a remote controller (hereinafter, remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 878 includes a voice input device such as a microphone.
  • the output device 879 provides the user with acquired information such as a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or headphones, a printer, a mobile phone, or a facsimile. It is a device that can notify visually or audibly. Further, the output device 879 according to the present disclosure includes various vibration devices capable of outputting a tactile stimulus.
  • the storage 880 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD media, a Blu-ray (registered trademark) media, an HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • connection port 882 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the externally connected device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network, and is, for example, a communication card for wired or wireless LAN, Wireless (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric Digital). A router for Subscriber Line), a modem for various communications, and the like.
  • the system 1 prevents rework in the development of the recognizer and shortens the development period by outputting the information related to the erroneous recognition target at an early stage in the development cycle of the recognizer. It is possible to output information and perform other processing as it is possible.
  • False recognition is possible based on the result of recognition processing for at least one specific data by the recognizer generated to recognize a predetermined recognition target and the result of clustering processing for the target recognized by the recognition processing.
  • An output control unit that controls the display of information related to a false recognition target different from the predetermined recognition target, which is identified as having a property.
  • the recognizer is generated by learning based on at least one training data.
  • the at least one learning data includes the predetermined recognition target and is data in substantially the same context.
  • the specific data is data in a context substantially the same as the context of the at least one learning data.
  • Information processing device is (2)
  • the information related to the misrecognition target is notification information for notifying the misrecognition target.
  • the output control unit controls the display of the notification information.
  • the information processing device according to (1) above.
  • the information relating to the erroneous recognition target is information indicating the evaluation of the recognition process for the erroneous recognition target.
  • the output control unit controls the display of information indicating the evaluation.
  • the information processing device according to (1) or (2) above.
  • the output control unit further controls the display of information indicating the context of the learning data.
  • the output control unit further controls the display of additional information related to the context.
  • the information processing device according to (4) above.
  • the information related to the misrecognition target is information related to confirmation of whether or not the misrecognition target is the misrecognized target.
  • the output control unit controls the display of information related to the confirmation.
  • the information processing device according to any one of (1) to (5) above.
  • the output control unit further controls the display of information related to the expansion of the learning data.
  • the information processing device according to any one of (1) to (6) above.
  • An expansion support unit that controls expansion processing of at least one learning data based on the specific result of the erroneous recognition target. Further prepare The information processing device according to (7) above.
  • the information related to the misrecognition target is information related to confirmation of whether or not the misrecognition target is the misrecognized target.
  • the output control unit controls the display of information related to the confirmation.
  • the expansion support unit controls the expansion processing of the learning data based on feedback on the information related to the confirmation.
  • the information processing device controls to expand the specific data including the erroneous recognition target as the learning data.
  • the information processing device is data acquired from the specific data set based on the context of the training data.
  • the information processing device according to (8) above.
  • the expansion support unit controls the expansion processing of the learning data based on the update of the specific data set.
  • the information processing device according to (11) above.
  • the output control unit further controls the display of information indicating the update of the specific data set.
  • the expansion support unit controls the expansion processing of the learning data based on feedback on the information indicating the update.
  • the information processing device according to (12) above.
  • the output control unit further controls the display of information indicating a change in the recognition accuracy of the recognizer due to the update of the specific data set.
  • the information processing device according to (12) above.
  • a misrecognition target identification unit that identifies the misrecognition target based on the result of the recognition processing on the at least one identification data by the recognizer and the result of the clustering processing on the target recognized by the recognition processing. , With more The output control unit controls the display of information related to the misrecognition target specified by the misrecognition target identification unit.
  • the information processing device according to any one of (1) to (14) above.
  • a data classification unit that executes the clustering process on the target recognized by the recognition process and classifies the recognized target into any of a plurality of clusters.
  • the misrecognition target identification unit identifies the misrecognition target based on the result of the recognition process and the classification result of the target into the plurality of clusters by the data classification unit.
  • the information processing device according to (15) above.
  • the misrecognition target identification unit identifies a target corresponding to a cluster having a higher accuracy than the other clusters other than the cluster having the highest recognition processing accuracy among the plurality of clusters as the misrecognition target.
  • a context recognition unit that recognizes the context of the training data, Further prepare The information processing device according to any one of (1) to (17) above.
  • the processor False recognition is possible based on the result of recognition processing for at least one specific data by the recognizer generated to recognize a predetermined recognition target and the result of clustering processing for the target recognized by the recognition processing. Controlling the display of information related to a false recognition target that is different from the predetermined recognition target that has been identified as having sex.
  • the recognizer is generated by learning based on at least one training data.
  • the at least one learning data includes the predetermined recognition target and is data in substantially the same context.
  • the specific data is data in a context substantially the same as the context of the at least one learning data. Information processing method.
  • False recognition is possible based on the result of recognition processing for at least one specific data by the recognizer generated to recognize a predetermined recognition target and the result of clustering processing for the target recognized by the recognition processing.
  • An output control unit that controls the display of information related to a false recognition target different from the predetermined recognition target, which is identified as having a property.
  • the recognizer is generated by learning based on at least one training data.
  • the at least one learning data includes the predetermined recognition target and is data in substantially the same context.
  • the specific data is data in a context substantially the same as the context of the at least one learning data.
  • Information processing device A program to function as.
  • System 10 I / O terminal 20 Recognizer development device 210 Data set management unit 220 Recognizer development unit 240 Communication unit 250 Storage unit 260 Control unit 30 Network 40 Information processing server 410 Context recognition unit 420 False recognition target identification unit 430 Data classification unit 440 Output control unit 450 Expansion support unit 460 Server communication unit 470 Storage unit 480 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、認識処理により認識された対象に対するクラスタリング処理の結果に基づき誤認識の可能性があると特定された、所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、を備え、認識器は、少なくとも1の学習データに基づく学習により生成され、少なくとも1の学習データは、所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、特定用データは、前記少なくとも1の学習データのコンテキストと略同一のコンテキストにおけるデータである、情報処理装置、が提供される。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
 近年、教師あり機械学習に関する技術を用いて生成された認識器による、画像や音声、文章などにおける所定の対象を認識する処理を行う装置が普及している。ところで、所定の対象を認識するにあたり、認識精度を高めるためには、より多くの学習用データセットが必要となる。しかし、開発期間に限界があるような状況においては、構築できる学習用データセットの量に限界が存在する。
 上記状況に対し、例えば特許文献1には、ラベル付けの作業を半自動化することにより、学習用データセットの構築の工数を削減する技術が開示されている。
特開2018-96834号公報
 しかし、特許文献1に記載の技術では、学習用データセットの量や多様性が十分であるか否かを確認することができず、評価用装置で認識器の認識精度の評価が行われ、学習用データセットの量や多様性が不十分であることが判明した場合、学習用データセットを構築する段階に工程の手戻りが発生する。
 本開示によれば、所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、を備え、前記認識器は、少なくとも1の学習データに基づく学習により生成され、前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御すること、を含み、前記認識器は、少なくとも1の学習データに基づく学習により生成され、前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、を備え、前記認識器は、少なくとも1の学習データに基づく学習により生成され、前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、情報処理装置、として機能させるためのプログラムが提供される。
本開示に係る教師あり機械学習技術を用いて認識器を開発する場合の開発サイクルの概要について説明するための図である。 本実施形態に係るシステム1の全体構成の一例について説明するための図である。 同実施形態に係る認識器開発装置20の機能構成の一例について説明するための図である。 同実施形態に係るデータセット管理部210によるラベル付け作業用の画面表示制御の一例について説明するための図である。 同実施形態に係るデータセット管理部210によるラベル付け作業用の画面表示制御の一例について説明するための図である。 同実施形態に係る認識器開発部220による認識器の評価結果の表示画面の一例について説明するための図である。 同実施形態に係る情報処理サーバ40の機能構成の一例について説明するための図である。 同実施形態に係る誤認識対象特定部420およびデータ分類部430による誤認識対象の特定の一例について説明するための図である。 同実施形態に係る誤認識対象特定部420およびデータ分類部430による誤認識対象の特定の一例について説明するための図である。 同実施形態に係る入出力端末10がスマートフォンやタブレット端末である場合の誤認識対象に係る情報および拡充に係る情報の表示例について説明するための図である。 同実施形態に係る認識器の設計、学習時における拡充に係る情報の表示の一例について説明するための図である。 同実施形態に係るデータセット管理部210による学習データへのラベル付け作業に係る動作の一例について説明するための図である。 同実施形態に係る認識器開発部220による学習データへのラベル付け作業に係る動作の一例について説明するための図である。 同実施形態に係る認識器開発部220による学習データへのラベル付け作業に係る動作の一例について説明するための図である。 本開示の一実施形態に係る変形例における、学習データがモーションデータである場合の誤認識対象に係る画面表示の一例について説明するための図である。 本開示の一実施形態に係る変形例における、出力制御部440による特定用データセットDB471の更新に係る情報の画面表示の一例について説明するための図である。 本開示の一実施形態に係る入出力端末10、認識器開発装置20、および情報処理サーバ40に共通するハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.背景
 2.実施形態
  2.1.システム1の全体構成例
  2.2.認識器開発装置20の機能構成例
  2.3.情報処理サーバ40の機能構成例
  2.4.動作例
   2.4.1.動作例1
   2.4.2.動作例2
   2.4.3.動作例3
  2.5.変形例
   2.5.1.変形例1
   2.5.2.変形例2
 3.ハードウェア構成例
 4.まとめ
 <1.背景>
 まず、本開示に係る背景について説明する。近年、IoT(Internet of Things)などの分野において、深層学習(Deep Learning)などの所謂教師あり機械学習に関する技術を用いて生成された認識器による、画像や音声、文章などにおける所定の対象を認識する処理を行う装置が普及している。
 深層学習などの教師あり機械学習技術を用いて認識器を開発する場合、学習用データセットの構築、認識器の設計および学習、認識器の評価用装置への移植、および認識器の精度評価から成る開発サイクルを繰り返すのが一般的である。
 ここで、図1を参照して、教師あり機械学習技術を用いて認識器を開発する場合の開発サイクルの概要について説明する。上述したように、一般的に教師あり機械学習技術を用いて認識器を開発する場合、学習用データセットの構築T10、認識器の設計および学習T20、認識器の評価用装置への移植T30、認識器の精度評価T40の順に作業が行われる。
 学習用データセットの構築T10は、認識器に認識させたい認識対象を含む学習データの収集および学習データが含む認識対象へのラベル付けの作業である。ここで、認識対象は、学習データ中に存在する。例えば、学習データが画像データである場合、認識対象は当該画像データ中の所定領域であり、所定領域はラベル付けが行われる。なお以下、認識対象にラベル付けが行われた学習データを、学習用データセットとも称する。
 認識器の設計および学習T20は、学習用データセットの構築T10で構築された学習用データセットに基づき、学習データが含む認識対象を認識するように認識器を設計、学習する作業である。また、認識器の評価用装置への移植T30は、認識器の精度評価を行う評価用装置へ、認識器を移植する作業である。ここでの評価用装置は、例えば開発が完了した認識器が実際に使用される装置である。また、認識器の精度評価T40は、評価用装置での認識器の認識精度を評価する作業である。
 ここで、認識器の認識精度をより高めるためには、学習データの多様性の向上が要求され得る。学習データの多様性が十分でないと、認識器が十分に汎化せずに、例えば、認識したい認識対象以外の、認識対象に似て非なるものである対象が、認識対象として認識されてしまうこと(偽陽性)などが起こり得る。
 ここでの誤認識とは、認識すべき学習データが含む所定の認識対象とは異なるデータが含む対象を、認識器が当該認識対象として認識すること(偽陽性であること)をいう。一例としては、画像データ中の「トマト」部分を認識するように学習された認識器が、ある画像データにおいて「トマト」とは異なる「パプリカ」部分を、「トマト」として認識することを偽陽性という。
 家庭菜園において「トマト」が写されている画像データのみを学習データとした学習により認識器を生成した場合、当該認識器は「トマト」を認識するだけでなく、「トマト」と色が略同一で形状が少し異なる「パプリカ」や「リンゴ」を、「トマト」として認識する状況が発生し得る。このような状況は、例えば認識器が「トマト」の色のみに反応して認識していることなどが要因で起こり得る。「パプリカ」や「リンゴ」を認識せずに「トマト」を認識するような認識器を開発したい場合、「パプリカ」や「リンゴ」が写されている画像データも用いた学習により認識器を生成する必要がある。
 つまり、学習データの多様性を向上させるためには、より多くの学習データを要するのが一般的である。しかし、学習データが含む認識対象へのラベル付けの作業はユーザの手により行われるため、学習データの量が増加するに従って作業時間が増大し、ユーザの負担が増大する。そのため、学習データの多様性の向上には限界があり得る。それ以外にも、所定のコンテキストにおいて用意することが可能な学習データに限界が存在する状況もあり得る。
 上記のような状況に対して、例えば上述した特許文献1には、ラベル付けの作業を半自動化して、学習用データセットの構築の工数を削減する技術が開示されている。しかし、特許文献1には、学習用データセットが含む学習データの量や多様性が十分であるか否かを確認することについては考慮されていない。
 学習用データセットの構築T10および認識器の設計および学習T20が完了する度、認識器の評価用装置への移植T30および認識器の精度評価T40を行う必要がある。そして、精度評価を行った結果、認識器の認識精度が十分でない場合は、上記工程を繰り返し行う必要があるため、開発期間が長期化する場合がある。
 本開示に係る技術思想は上記の点に鑑みて発想されたものであり、学習データのコンテキストと略同一のコンテキストのデータを用いて誤認識され得る対象を特定し、ユーザに学習データの多様性について再考を促すことで、認識器の開発工程における手戻りを防止し、開発期間を短縮することが可能となる。なお以下、認識器が画像データ中の所定領域に写されている認識対象の物体を認識する一例について説明していく。
 <2.実施形態>
 <<2.1.システム1の全体構成例>>
 続いて、図2を参照して、本実施形態に係るシステム1の全体構成の一例について説明する。図2に示されるように、システム1は、入出力端末10、認識器開発装置20、ネットワーク30、および情報処理サーバ40を備える。
 (入出力端末10)
 入出力端末10は、ユーザからの入力を受け付ける。また、入出力端末10は、認識器開発装置20や情報処理サーバ40が実行する処理に係る情報をユーザに対し出力する。入出力端末10は、例えば、パーソナルコンピュータ(PC:Personal Computer)やスマートフォン、タブレット端末などのモバイル端末であってもよい。
 または、入出力端末10は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、もしくはプロジェクタなどであってもよい。
 (認識器開発装置20)
 認識器開発装置20は、入出力端末10から送信された学習データに基づき学習用データセットを構築する。具体的には、認識器開発装置20は、ユーザからの入力に基づいて学習データが含む認識対象にラベル付けを行い、学習用データセットを生成する。また、認識器開発装置20は、学習データに基づく認識器の設計および学習を行う。認識器開発装置20の詳細な機能構成については後述する。
 (ネットワーク30)
 ネットワーク30は、認識器開発装置20と情報処理サーバ40とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 (情報処理サーバ40)
 情報処理サーバ40は、認識器開発装置20により所定の認識対象を認識するために生成された認識器が誤認識する可能性がある誤認識対象を特定し、特定した誤認識対象に係る情報の出力を制御する情報処理装置の一例である。ここでの誤認識とは、所定の認識対象とは異なる、特定用データが含む対象を、認識器が当該認識対象として認識すること(偽陽性であること)をいう。なお、情報処理サーバ40は、認識器開発装置20からネットワーク30を介して認識器および学習用データセットを受信する。情報処理サーバ40の詳細な機能構成については後述する。なお、情報処理サーバ40は、クラウドサービスにおいて利用可能なクラウド上のサーバでもよい。
 以上、本実施形態に係るシステム1の構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係るシステム1の構成は係る例に限定されない。本実施形態に係るシステム1の構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.2.認識器開発装置20の機能構成例>>
 続いて、図3を参照して、本実施形態に係る認識器開発装置20の機能構成の一例について説明する。認識器開発装置20は、データセット管理部210、認識器開発部220、通信部240、記憶部250、および制御部260を備える。なお、記憶部250は、学習用データセットDB251および認識器データベース252を含む。学習用データセットDB251は学習用データセットの集合であり、また認識器データベース252は開発中もしくは開発完了済みの認識器の集合である。
 (データセット管理部210)
 データセット管理部210は、入出力端末10を介したユーザからの入力に基づいて、後述する記憶部250が記憶する学習用データセットの構築を実行する。具体的には、データセット管理部210は、それぞれの学習データに対するラベル付けの作業に際し、ラベル付け作業用の画面を入出力端末10に表示させ、当該画面に対するユーザからの入力に基づいて、学習データに対するラベル付けを行う。
 ここで、図4および図5を参照して、本実施形態に係るデータセット管理部210によるラベル付け作業用の画面表示制御の一例について説明する。図4には、入出力端末10がパーソナルコンピュータである場合のデータセット管理部210によるラベル付け作業用の表示画面SC1が示されている。
 ラベル付け作業用の表示画面SC1は、ラベル付け作業状況を表示する表示部分SP11、認識対象を含むデータを表示する表示部分SP12、後述する情報処理サーバ40からの制御による誤認識対象に係る情報を表示する表示部分SP13、およびラベル付け作業用の表示画面に対する操作に係る情報を表示する表示部分SP14を含む。
 表示部分SP11では、認識対象に対するラベル付けの作業状況が表示される。図4の一例において、表示部分SP11では、表示部分SP12に表示された画像データが含む「トマト」画像に対しラベル付けが行われている状況を示す情報が表示されている。表示部分SP12では、現在ラベル付け作業を行っている最中の認識対象を含むデータが示される。図4の一例において、「トマト」画像を含む画像データが表示されている。ここで、ラベル付けが行われた「トマト」画像の領域には、当該領域を囲うような表示がされている。
 表示部分SP13では、後述する情報処理サーバ40からの制御により、誤認識対象に係る情報が示される。図4の一例において、現在開発中の認識器が「トマト」であると認識する画像の一例が表示されている。表示部分SP14では、ラベル付け作業における表示画面の操作を行うための種々のボタン等が示される。図4の一例において、「領域選択」や「ラベルの削除」、「表示画像の変更」、「表示画像の拡大」、「ラベルの確定」を行うボタンが表示されている。また、図4に示されるように、表示部分SP13には、情報出力アバターが表示されてもよい。
 一方、図5には、入出力端末10がスマートフォンやタブレット端末である場合のデータセット管理部210によるラベル付け作業用の表示画面SC2が示されている。タッチ操作による入力が可能な点および画面の物理的大きさがパーソナルコンピュータと異なる点から、表示画面SCのレイアウトが一部異なる。ラベル付け作業用の表示画面SC1は、ラベル付け作業状況を表示する表示部分SP21、および後述する情報処理サーバ40からの制御により表示される誤認識対象に係る情報を表示する表示部分SP22を含む。
 入出力端末10がスマートフォンやタブレット端末である場合、例えばタッチパネル上の領域に対するタッチ操作による情報の入力が可能である。そのため、データセット管理部210は、図5に示されるように、表示部分SP21において、認識対象である「トマト」画像に対しタッチ操作が行われた場合、ラベルを入力するか否かを確認するための吹き出しを表示させてもよい。
 また、データセット管理部210は、図5に示されるように、表示部分SP22のようにアイコンを表示画面SC2の右上に表示させておき、誤認識対象に係る情報を表示する際に、当該情報を吹き出しの形式で表示させてもよい。
 このように、データセット管理部210によるラベル付け作業用の画面の表示制御が実行される。なお、個々のデータに対するラベル付けの作業が開始される前に、それぞれのデータに対応するコンテキストが設定されてもよい。コンテキストは、「農場」や「家庭菜園」、「スーパーマーケット」、「銀行」、「学校」のような場所を示すものであってもよい。また、コンテキストは、「朝」、「深夜」などの時間帯を示すものでもよいし、「料理中」や「会議中」などのような所定の場面を示すものでもよい。コンテキストは、所望の形式で設定される。
 勿論、ラベル付け作業用の画面の構成は係る例に限定されない。上述した誤認識対象に係る情報の表示については詳細を後述する。
 再び図3に戻って、認識器開発装置20の機能構成の一例について説明を続ける。
 (認識器開発部220)
 認識器開発部220は、所定の認識対象を認識するための認識器の開発に係る処理を実行する。具体的には、認識器開発部220は、入出力端末10を介して、認識器の統合開発環境やエディタをユーザに提供し、また、ユーザからの入出力端末10を介した入力に基づいて、認識器の設計および学習を行う。また、認識器開発部220は、認識器の開発に際し、開発される認識器が使用されるコンテキストを設定してもよい。
 また、認識器開発部220は、入出力端末10を介して認識器の評価結果をユーザに表示させてよい。ここで、図6を参照して、本実施形態に係る認識器開発部220による認識器の評価結果の画面表示の一例について説明する。図6には、認識器開発部220により表示される認識器による学習データの認識の評価結果を表示する表示画面SC3が示されている。
 図6の一例において、評価結果を表示する表示画面SC3には、認識対象にラベル付けが行われた学習データと当該認識対象の認識処理における精度の評価が信頼度として示されている。ここで、認識処理における評価は、例えばmAP(mean Average Precision)やIoU(Intersection over Union)などの指標により示される。
 また、図6の一例に示されるように、認識器開発部220は、学習データに対する備考としてコンテキストに係る付加情報を表示させてもよい。ここでの付加情報とは、学習データが画像データである場合、撮影された日時や位置情報、場所の名称などをいう。また、認識器開発部220は、付加情報として上述した学習データのコンテキストを示す情報を表示させてもよい。
 このように、認識器開発部220による認識器の開発に係る処理および表示が行われる。勿論、認識器の評価結果の画面の構成は係る例に限定されない。
 再び図3に戻って、認識器開発装置20の機能構成の一例について説明を続ける。
 (通信部240)
 通信部240は、入出力端末10や情報処理サーバ40との通信を実行する。例えば、通信部240は、データセット管理部210や認識器開発部220からの指示に基づいて、画面表示に係る情報を入出力端末10に送信し、入出力端末10からユーザの入力操作を示す情報を受信する。
 (記憶部250)
 記憶部250は、データセット管理部210および認識器開発部220の処理に係る種々の情報を記憶する。上述したように、記憶部250は、例えば学習用データセットDB251および認識器データベース252を含む。記憶部250は、データセット管理部210や認識器開発部220からの要求に基づいて、学習用データセットDB251および認識器データベース252の種々のデータを提供する。
 (制御部260)
 制御部260は、本実施形態に係る認識器開発装置20が備える各構成を制御する機能を有する。制御部260は、例えば各構成の起動や停止を制御する。
 以上、本実施形態に係る認識器開発装置20の構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る認識器開発装置20の構成は係る例に限定されない。本実施形態に係る認識器開発装置20の構成は、仕様や運用に応じて柔軟に変形可能である。
 <<2.3.情報処理サーバ40の機能構成例>>
 続いて、図7を参照して、本実施形態に係る情報処理サーバ40の機能構成の一例について説明する。情報処理サーバ40は、コンテキスト認識部410、誤認識対象特定部420、データ分類部430、出力制御部440、拡充支援部450、サーバ通信部460、記憶部470、および制御部480を備える。
 (コンテキスト認識部410)
 コンテキスト認識部410は、認識器開発装置20から受信された学習データのコンテキストを認識する。例えば、コンテキスト認識部410は、学習データに対応する、事前に設定されたコンテキストを認識してもよい。また例えば、コンテキスト認識部410は、学習データに基づいて、当該学習データのコンテキストを認識してもよい。例えば学習データが画像データである場合、コンテキスト認識部410は、画像データにおける認識器により認識され得る対象とは異なる背景部分に基づいて、学習データのコンテキストを認識してもよい。コンテキスト認識部410により学習データのコンテキストが認識されることで、後述する誤認識対象特定部420による誤認識対象の特定をより正確に実行される。
 なお、コンテキスト認識部410によるコンテキストの認識処理は、係る例に限定されない。コンテキスト認識部410は、例えば画像データのコンテキストを認識する際に、画像の背景以外に、画像中の人物の服装や、字幕や看板の文字情報などを利用してもよい。また、コンテキスト認識部410は、学習データに付加情報として付加された、画像が作成もしくは撮影された日付や、音声、温度、湿度、場所、国、全地球測位システム(GPS:Global Positoning System)により取得される位置情報をなどの周囲情報に基づいて、コンテキストを認識してもよい。種々の情報によりコンテキストが認識されることで、ユーザの目的に則するような誤認識対象を特定することが容易となる。
 なお、コンテキスト認識部410は、認識器開発装置20から学習用データセットを受信した際、学習用データセットを構成する学習データに共通するコンテキストを認識する。複数の学習データにおいて、全てのコンテキストが略同一でない場合、例えば複数の学習データでの多数を占めるコンテキストが、学習データ全体のコンテキストとしてコンテキスト認識部410により認識されてもよいし、また、複数の学習データのコンテキストの中間概念を示すコンテキストが、学習データ全体のコンテキストとしてコンテキスト認識部410により認識されてもよい。
 なお、後述する誤認識対象特定部420により、コンテキスト認識部410が学習用データセットに基づいて認識したコンテキストと略同一のコンテキストにおけるデータが、後述する記憶部470の特定用データセットDB471から特定用データとして取得される。その際、コンテキスト認識部410は、特定用データセットDB471に含まれるデータのコンテキストを認識してもよい。
 (誤認識対象特定部420)
 誤認識対象特定部420は、認識器を用いて、特定用データへの認識処理による誤認識対象を特定する。
 具体的には、誤認識対象特定部420は、認識器を用いた特定用データへの認識処理を実行し、また、当該認識処理の結果に基づいて後述するデータ分類部430にクラスタリング処理を実行させた結果を用いることで、誤認識対象を特定する。
 以下、誤認識対象特定部420の具体的な処理について説明する。
 誤認識対象特定部420は、コンテキスト認識部410が認識したコンテキストと略同一のコンテキストにおけるデータを、記憶部470の特定用データセットDB471から特定用データとして抽出する。ここで、誤認識対象特定部420は、特定用データセットDB471が含む、データに予め設定されたコンテキストに基づいて特定用データを取得してもよいし、または、コンテキスト認識部410にデータのコンテキストを認識させた結果に基づいて特定用データを取得してもよい。
 また、誤認識対象特定部420は、認識器による特定用データの認識対象の認識処理およびデータ分類部430によるクラスタリング処理の結果に基づいて、認識器が誤認識している特定用データが含む対象を誤認識対象として特定する。データ分類部430によるクラスタリング処理の詳細については後述する。
 誤認識対象の特定には、例えば、クラスタリング処理によりそれぞれのクラスタに分類された特定用データ中の対象において、それぞれのクラスタ中の対象の認識器による認識処理の精度評価結果が用いられる。例えば、クラスタ中の特定用データ中の認識器により認識された対象の認識処理の精度評価の平均値に基づき、誤認識対象を特定する。
 (データ分類部430)
 データ分類部430は、誤認識対象特定部420が認識器を用いて認識した特定用データが含む対象に対し、所謂教師なし機械学習の一手法であるクラスタリング処理を実行し、実行したクラスタリング処理により特定用データが含む対象を複数のクラスタに分類する。例えば、特定用データが画像データである場合、データ分類部430は、誤認識対象特定部420が認識器を用いて認識した特定用データ中の所定領域へのクラスタリング処理を実行し、それぞれの所定領域を複数のクラスタのうちのいずれかに分類する。クラスタリング処理の手法としては、例えば主成分分析法やk-means法などが挙げられる。
 (誤認識対象特定例)
 ここで、図8および図9を参照して、本実施形態に係る誤認識対象特定部420およびデータ分類部430による誤認識対象の特定例について説明する。
 図8は、誤認識対象特定部420による、学習データのコンテキストと略同一のコンテキストのデータを特定用データとして抽出する処理について説明するための図である。図8には、特定用データセットDB471における画像データの集合DS1が示されている。画像データの集合DS1は、コンテキストが「農場」である画像データの集合でもよいし、また、画像データの集合DS1は、コンテキストが「農場」以外の画像データが含む集合でもよい。誤認識対象特定部420は、画像データの集合DS1から、コンテキストが野菜等を生産する「菜園」の画像データを特定用データとして抽出する。図8右側に示される画像データの集合DS2が、コンテキストが「菜園」である特定用データの集合である。
 次に、誤認識対象特定部420は、画像データの集合DS2に対し認識器開発装置20から受信された認識器を用いた認識処理を実行して対象を認識する。図9左側には、誤認識対象特定部420による画像データの集合DS2に対する認識処理の結果テーブルTAが示されている。なお、図8および図9の一例において、「家庭菜園」と「菜園」は、略同一のコンテキストとして扱われている。
 図9左側に示される認識処理の結果に含まれる認識された対象の領域(切り出し画像)に対し、データ分類部430は、クラスタリング処理を実行する。データ分類部430のクラスタリング処理により、それぞれの切り出し画像が複数のクラスタのいずれかに分類される。また、図9右側に示されるように、誤認識対象特定部420は、それぞれのクラスタが含む複数の切り出し画像に対応する認識処理の信頼度の平均を算出する。図9右側に示されるクラスタの列CLRには、クラスタCL1~CL5に分類された切り出し画像と、それぞれのクラスタに対応する平均信頼度とが示されている。
 図9右側において、誤認識対象特定部420は、算出した認識の精度である平均信頼度に基づいて、誤認識対象を特定する。ここで、平均信頼度が最も高いクラスタCL1の切り出し画像の対象は、認識器が認識すべき認識対象である可能性が高いため、次に平均信頼度が高いクラスタCL2の対象を誤認識対象と特定してよい。図9の一例において、クラスタCL1は「トマト」画像であり、クラスタCL2は「パプリカ」の画像である。ここで、誤認識対象特定部420は、信頼度が最も高いクラスタCL1に次いで高いクラスタCL2の対象を誤認識対象と特定する。
 このように、誤認識対象が学習データと略同一のコンテキストにおいて認識器により認識処理を行った際に、誤認識される可能性がある誤認識対象をより特定することが可能である。なお、上述した認識精度に基づく誤認識対象の特定方法は、係る例に限定されない。上記では、2番目に認識精度の平均である平均信頼度が高いクラスタに対応する対象を誤認識対象とする例について説明したが、例えば認識対象が2つ以上のクラスタに分かれて分類される可能性が高い場合などにおいては、認識精度の高さが3番目以下のクラスタに対応する対象が誤認識対象と特定されてもよい。
 再び図7を参照して、本実施形態に係る情報処理サーバ40の機能構成について説明する。
 (出力制御部440)
 出力制御部440は、誤認識対象特定部420が特定した誤認識対象に係る情報の表示を制御する。
 例えば、誤認識対象に係る情報は、誤認識対象をユーザに通知する通知情報でもよい。出力制御部440は、誤認識対象特定部420による特定結果に基づいて、通知情報の表示を制御してもよい。通知情報は、視覚情報でもよいし、文字情報でもよい。通知情報は、学習データが画像データである場合、視覚情報として当該画像データのうちの誤認識対象に該当する部分(切り抜き画像)そのものでもよい。また、出力制御部440は、クラスタに誤認識対象を示すデータが複数存在する場合、当該データを複数表示させてもよい。
 また、誤認識対象に係る情報は、誤認識対象そのものを示す情報以外にも、誤認識対象に関連する付加的な情報でもよい。例えば、出力制御部440は、誤認識対象に係る情報として認識器による特定用データへの認識処理の結果に対する評価を示す情報の表示を制御してもよい。
 また、出力制御部440は、学習データのコンテキストを示す情報の表示をさらに制御してもよい。上述したように、コンテキストを示す情報としては、コンテキストそのものを通知する情報や、日付、音声、温度、湿度、GPSにより取得される位置情報などの周囲情報などが挙げられる。ユーザは、特定用データのコンテキストを把握することで、どのような学習データを用意すればよいのか、または、どの場面や状況での学習データを拡充すればよいのかを検討することが可能となる。
 また、出力制御部440は、後述する拡充支援部450による学習用データセットの拡充に係る情報の表示を制御してもよい。拡充に係る情報の表示の制御については詳細を後述する。
 なお、出力制御部440は、上述した図4~図6に示された表示画面SC1~SC3の、誤認識対象に係る情報部分以外の画面全体の表示を認識器開発装置20の代わりに制御してもよい。
 なお、出力制御部440は、上述した視覚情報以外に、音声により誤認識対象に係る情報などをユーザに出力してもよい。また、出力制御部440は、音声のみで誤認識対象に係る情報などをユーザに出力してもよい。
 (拡充支援部450)
 拡充支援部450は、誤認識対象特定部420の特定結果に基づいて、学習データの拡充処理を制御する。ここで、学習用データセットDB251の拡充処理とは、新たな学習データを学習用データセットDB251に追加することをいう。つまり、拡充支援部450は、例えば誤認識対象特定部420が特定した誤認識対象の学習データと対応するラベルの組み合わせを、学習用データセットとして学習用データセットDB251に追加してよい。ここで、当該ラベルは、ユーザにより付与されてもよいし、拡充支援部450により自動的に付与されてもよい。
 (出力制御例および拡充処理例)
 上述したように、拡充支援部450は、出力制御部440が学習データの拡充に係る情報の表示を制御し、拡充に係る情報に対するユーザからのフィードバックに基づいて、学習データの拡充処理を実行してよい。
 例えば、拡充支援部450は、出力制御部440が表示させた誤認識対象が誤認識であるか否かの確認に係る情報に対するユーザからのフィードバックに基づいて、学習用データセットの拡充処理を実行してもよい。その際、学習用データセットDB251に拡充される学習用データセットは、誤認識対象のデータと同一でもよい。誤認識対象のデータが認識対象とは異なるラベル付けがされ学習データとして拡充されることで、認識器の誤認識の可能性を減少させ、結果としてより精度の高い認識器を開発することが可能となる。
 例えば、上述の図4に示されたように、出力制御部440は、認識器開発装置20を介して、誤認識対象は認識させたい対象なのか否かを確認する画像および文章を、表示部分SP13に含まれるように表示させている。ユーザは、表示部分SP13に対し「はい」もしくは「いいえ」の入力を行うことで、表示された画像(対象)を認識器が認識させるのか否かを決定することができる。
 誤認識対象に係る情報および拡充に係る情報の表示例は、係る例に限定されない。図4には入出力端末10がパーソナルコンピュータである場合の表示画面例が示されたが、ここで、図10を参照して、本実施形態に係る入出力端末10がスマートフォンやタブレット端末である場合の誤認識対象に係る情報および拡充に係る情報の表示例について説明する。
 図10において、ラベル付け作業用の表示画面SC4は、ラベル付け作業状況を表示する表示部分SP41、および誤認識対象に係る情報を表示する表示部分SP42を含む。図5の表示画面SC2と異なり、表示部分SP42を基準として、誤認識対象を示す情報と誤認識対象に関する確認をする情報とを表示する部分SP43が、吹き出しの形式で示されている。このように、入出力端末10の種別に応じて、各種表画面のレイアウトは変更され得る。
 また、例えば、ラベル付け作業用の表示画面SC4において、出力制御部440は、「この物体を検出しないよう学習することで、認識精度が上がりますよ」というような積極的に学習データの拡充を提案するメッセージを表示させてもよい。
 図4および図10で示された表示画面は、学習用データセットの構築時の表示画面であるが、一方で、認識器の設計、学習時にも出力制御部440は、拡充支援部450による拡充に係る情報の表示を制御してもよい。ここで、図11を参照して、本実施形態に係る認識器の設計、学習時における拡充に係る情報の表示の一例について説明する。図11には、認識器の評価結果の表示画面SC5が示されている。
 上述した図6に示された認識器の評価結果の表示画面SC3は学習データへの認識処理の評価結果である一方で、図11に示される表示画面SC5は誤認識対象を含む特定用データへの認識処理の評価結果である。図11の一例において、表示画面SC5には2つの誤認識対象(認識対象のトマトとは異なるパプリカ)が示されている。
 ここで、ユーザは、表示画面SC5に示された精度評価結果に対しフィードバックを入力することができる。例えば、拡充支援部450は、ユーザからの、精度評価結果が期待通りであるか否かの入力に基づいて、学習用データセットDB251の拡充処理を制御してもよい。
 拡充支援部450は、表示部分SP43において「期待通りの検出である」が入力された場合、表示された誤認識対象を実際は認識対象であると判断して、認識対象と同一のラベル付けで学習用データセットDB251に学習データとして追加してよい。一方で、拡充支援部450は、表示部分SP43において「期待していない検出である」が入力された場合、誤認識対象が実際に誤認識された対象であると判断して他のラベル付けを行い、学習用データセットDB251に追加してよい。なお、ユーザからの入力の形式は、図11に示されるような所定の選択肢から選択する形式でもよいし、入出力端末10のキーボードショートカットにより入力される形式でもよい。
 このように、出力制御部440により誤認識対象に係る情報が表示されることで、ユーザは現在の学習用データセットおよび認識器でどのような対象を誤認識してしまうのか、また、どのようなデータを学習データとして追加すればよいのかを早期に確認することが可能となる。また、拡充支援部450により、誤認識対象特定部420が特定した誤認識対象に応じた学習データの拡充が実現される。
 また、出力制御部440および拡充支援部450によれば、誤認識対象が実際に誤認識された対象であるか否かに基づいて学習データの拡充を、学習用データセットの構築や認識器の設計、開発の段階で行うことができ、開発期間の短縮が可能となる。また、出力制御部440および拡充支援部450により、ユーザが認識器の開発における学習データの量や多様性を確保することの重要性を能動的に理解するアクティブラーニングが実現される。
 出力制御部440による入出力端末10を介したユーザとの情報のやり取りは、複数回行われてもよい。例えば、ユーザとの情報のやり取りにより、認識器が使用される、より詳細なコンテキストを把握することで、拡充支援部450が学習用データセットとして拡充すべきデータをより正確に特定することも可能となる。
 以上、出力制御例および拡充処理例について説明した。再び図7に戻って、情報処理サーバ40の機能構成について説明する。
 (サーバ通信部460)
 サーバ通信部460は、ネットワーク30を介して認識器開発装置20との通信を実行する。例えば、サーバ通信部460は、ネットワーク30を介して、認識器開発装置20から認識器および学習用データセットを受信し、誤認識対象に係る情報や誤認識対象を含む特定用データを認識器開発装置20へ送信する。
 (記憶部470)
 記憶部470は、特定用データセットDB471などを記憶する。特定用データセットDB471は、データと当該データに付随する情報の集合である。データに付随する情報は、例えばデータのコンテキストを示す情報である。データとコンテキストを示す情報等との組み合わせは、特定用データセットとも呼ばれる。
 記憶部470は、コンテキスト認識部410からの要求およびコンテキストを示す情報に基づいて、所定のコンテキストにおけるデータを提供してよい。ここで、提供される所定のコンテキストにおけるデータは、上述した特定用データである。また、記憶部470は、コンテキスト認識部410からの要求に基づいて、特定用データセットDB471のデータを、コンテキストを認識させるためにコンテキスト認識部410へ提供してもよい。
 なお、特定用データセットDB471のそれぞれのデータは、認識器の開発用に用意されたデータでなくてもよい。すなわち、誤認識対象の特定において、誤認識対象特定部420は、他の用途で使用されているデータを取得して利用してもよい。
 (制御部480)
 制御部480は、本実施形態に係る情報処理サーバ40が備える各構成を制御する機能を有する。制御部260は、例えば各構成の起動や停止を制御する。
 <<2.4.動作例>>
 [2.4.1.動作例1]
 続いて、本実施形態に係るデータセット管理部210による学習データへのラベル付け作業に係る動作の一例について説明する。図12を参照すると、まず、認識器開発装置20のデータセット管理部210は、ラベル付けを行うアプリケーションの起動後、学習用データセットDB251を保存する場所の指定を促す画面を入出力端末10に表示させる(S101)。
 学習用データセットDB251を保存する場所が指定されない場合(S102:No)、ラベル付け作業が行わないものと判断し、データセット管理部210は動作を終了する。一方、学習用データセットDB251を保存する場所が指定された場合(S102:Yes)、データセット管理部210はラベル付け用の画面を入出力端末10に表示させる(S103)。
 次に、ステップS103で表示されたラベル付け用の画面に表示された学習データの画像にラベル付けされる操作が入力されない場合(S104:No)、ステップS104へ復帰する。一方、ステップS103で表示されたラベル付け用の画面に表示された学習データの画像にラベル付けされる操作が入力された場合(S104:Yes)、データセット管理部210はラベル付けされた結果を学習用データセットとして登録する(S105)。
 次に、ラベル付けが継続される場合(S106:No)、ステップS103へ復帰する。一方、ラベル付けが終了する場合(S106:Yes)、データセット管理部210は動作を終了する。
 [2.4.2.動作例2]
 続いて、本実施形態に係る認識器開発部220による学習データへのラベル付け作業に係る動作の一例について説明する。図13を参照すると、まず、認識器開発装置20の認識器開発部220は認識器開発のためのプロジェクトファイルを新規作成する(S201)。次に、認識器開発部220は認識器と学習データのコンテキストを設定する(S202)。次に、認識器開発部220はユーザからの入力などに基づいて認識器の設計処理を実行する(S203)。
 次に、認識器開発部220は学習データに基づいて認識器の学習を実行する(S204)。次に、認識器開発部220はステップS204で学習が実行された認識器の認識処理の精度を評価する(S205)。次に、ユーザからの入力に基づき認識器の開発を継続する場合(S206:Yes)、ステップS203へ復帰する。一方、次に、ユーザからの入力に基づき認識器の開発を終了するする場合(S206:No)、認識器開発部220は認識器を開発者や顧客にリリースし(S207)、認識器開発部220は動作を終了する。
 [2.4.3.動作例3]
 続いて、本実施形態に係る情報処理サーバ40による誤認識対象の特定、誤認識対象に係る情報の提示、および学習用データセットの拡充に係る動作の一例について説明する。図14を参照すると、まず、サーバ通信部460が所定のイベントの発生を示す情報を認識器開発装置20から受信していない場合(S301:No)、ステップS301へ復帰する。ここでの所定のイベントとしては、認識器開発装置20による認識器の設計および学習の完了や認識器開発のためのプロジェクトファイルの設定変更などが挙げられる。一方、サーバ通信部460が所定のイベントの発生を示す情報を認識器開発装置20から受信した場合(S301:Yes)、誤認識対象特定部420は、サーバ通信部460を介して認識器および学習用データセットを取得する(S302)。
 次に、コンテキスト認識部410は、ステップS302で取得された学習データのコンテキストを認識する(S303)。次に、誤認識対象特定部420は、記憶部470の特定用データセットDB471からステップS303で認識されたコンテキストと略同一のコンテキストのデータを特定用データとして取得する(S304)。次に、誤認識対象特定部420は、ステップS304で取得された特定データに対しステップS302で取得された認識器を適用する(S305)。
 次に、データ分類部430は、ステップS305で認識された対象に対してクラスタリング処理を実行する(S306)。次に、誤認識対象特定部420は、ステップS306で実行されたクラスタリング処理の結果に基づいて、誤認識対象を特定する(S307)。次に、出力制御部440は、ステップS307で特定された誤認識対象に係る情報を入出力端末10に表示させる(S308)。
 誤認識対象が実際に誤認識された対象であるとステップS308で表示された誤認識対象に係る情報に対するユーザからの入力があった場合(S309:Yes)、拡充支援部450はステップS307で特定された誤認識対象を含む特定用データを学習用データセットに追加する(S310)。一方、誤認識対象が実際に誤認識された対象でないと、ステップS308で表示された誤認識対象に係る情報に対するユーザからの入力があった場合(S309:No)、ステップS311へ進む。次に、認識器の設計および開発が継続される場合(S311:No)、ステップS301へ復帰する。一方、認識器の設計および開発が終了になる場合(S311:Yes)、情報処理サーバ40は動作を終了する。
 <<2.5.変形例>>
 [2.5.1.変形例1]
 続いて、本開示の一実施形態に係る変形例について説明する。上記では、認識器が認識する対象は、静止画中の部分であった。言い換えれば、上記までは、認識器が認識する対象は、物体の種別そのものであった。しかし、本開示係る技術思想の適用範囲は、係る例に限定されない。本開示に係る技術思想は、種々の認識処理に適用可能である。例えば、学習データは音声データでもよく、その場合の認識対象は音声データ中の所定のフレーズや単語部分などである。
 また、例えば、学習データはモーションデータや行動データでもよく、認識対象は動画データ中の、人が行う所定のジェスチャでもよい。その場合、学習データは、例えば慣性計測装置(IMU:Inertial Measurement Unit)により収集される。IMUは、例えば人の腕に装着される。また、ジェスチャは、例えば腕を振り上げる動作などである。
 ここで、図15を参照して、本開示の一実施形態に係る変形例における、学習データがモーションデータである場合の誤認識対象に係る画面表示の一例について説明する。図15には、出力制御部440により表示される表示画面SC6が示されている。表示画面SC6には、上記までの例で表示されていた静止画に代わり、モーションデータとしてIMUの時系列順データ、時系列データに時間同期された動画、所定のジェスチャが実行中である確率、および認識精度としてのジェスチャの平均確率が表示されている。
 ユーザは、表示画面SC6に表示された動画を確認しながら、認識されたジェスチャが誤認識されたものであるか否かを確認する。例えば、表示された認識結果に対しポインティング操作が行われた場合、操作された箇所に対応する箇所の動画が再生されてもよい。また、上記までと同様に、認識結果に対するユーザからのフィードバックに基づいて、学習データが拡充されてもよい。
 なお、本開示において認識器が認識の対象とするものは、係る例に限定されない。認識器が認識する対象は、例えば文書データでもよい。その場合、認識される対象は、文書データ中の所定の文やフレーズ、単語などである。その際、データ分類部430は、クラスタリング処理に際し、例えば分類語彙表を利用してよい。
 [2.5.2.変形例2]
 ところで、所定のコンテキストにおいて認識対象を認識する認識器の開発が完了した後で、当該所定のコンテキストにおける認識対象が変わった場合に、認識器の精度が低下する可能性がある。
 認識対象の変化が発生し認識器の精度が低下する状況としては、以下のようなものが挙げられる。
 例えば、菜園で栽培されている野菜の品種が変化した場合や、人の服装の流行、音楽の流行などが変化した場合などにおいて、それぞれ野菜を認識する認識器や、人の服装、音楽を認識する認識器の精度が低下する可能性がある。他にも、例えば、菜園で栽培されている野菜の品種が変化しない場合においても、季節の変化など時間の経過に伴って野菜の見た目が変化する可能性もあり、ある時点での野菜の画像データのみに基づいて認識器が開発された場合でも、認識器の精度が低下する可能性がある。
 また、認識対象のコンテキストが変化する場合でも認識器の精度低下が起こり得る。例えば、野菜などのものが主に生産される場所が変わった場合(菜園から工場へ変わった場合)や、国が変化した場合などにおいても、コンテキストの変化に合わせて、認識対象自体が変化したり、また誤認識され易い対象が変化したりすることで、認識器の精度が低下する可能性がある。
 従って、上記状況に対して、拡充支援部450は、特定用データセットDB471の更新に基づいて、学習用データセットの拡充処理を制御してもよい。
 具体的には、拡充支援部450は、特定用データセットDB471を構成するデータに変化が生じた場合、誤認識対象特定部420が新たに特定した誤認識対象に基づき拡充処理を制御してもよい。例えば、特定用データセットDBの内容が変更された場合に、当該変更に合わせて認識器の認識処理の精度変化が表示されてもよく、また、精度変化に合わせて学習用データセットが拡充されてもよい。
 また、出力制御部440は、特定用データセットDB471の更新に係る情報の表示を制御してもよい。拡充支援部450は、出力制御部440が表示させた特定用データセットDB471の更新に係る情報に対するフィードバックに基づいて、拡充処理を制御してもよい。
 ここで、図16を参照して、本開示の一実施形態に係る変形例における、出力制御部440による特定用データセットDB471の更新に係る情報の画面表示の一例について説明する。図16には、特定用データセットDB471の更新に係る情報を表示する表示画面SC7が示されている。
 表示画面SC7では、開発中もしくは開発済みの認識器および対応する特定用データセットDBに係る情報が表示されている。また、表示画面SC7では、それぞれの認識器および特定用データセットDBの組み合わせに対応するステータスも表示されている。ステータスは、認識器の状態を示している。ここでの認識器の状態とは、認識器の認識処理の精度などである。
 例えば、ステータスが「実行中」である場合、対応する認識器の精度評価が実行されている最中であることを示す。また、例えば、ステータスが「精度維持」である場合、特定用データセットDB471の更新によって、認識器の認識処理の精度が変化していないことを示す。また、例えば、ステータスが「精度低下」である場合、特定用データセットDB471の更新によって、認識器の認識処理の精度が低下したことを示す。
 このように、特定用データセットDB471の更新に係る情報が表示されることで、例えば、流行の変化などの認識器が使用されるコンテキストにおける状況が変化したことを確認させることができ、学習データの補充や認識器の設計の段階を早期に行うことが可能となる。また、ユーザが所望すれば、特定用データセットDB124の更新に基づき学習用データセットを自動的に拡充させることも可能となる。
 以上、本開示に係る変形例について説明したが、他にも、出力制御部440は、学習用データセットの拡充に関し、特定用データの購買提案や証券の譲渡提案などのユーザに対し行ってもよい。また、出力制御部440は、認識器が認識する対象が3次元データである場合、誤認識対象などに対応する3次元データに基づいて認識器開発装置20に接続された3Dプリンタにモデルを生成させてもよい。
 <3.ハードウェア構成例>
 次に、本開示の一実施形態に係る入出力端末10、認識器開発装置20、および情報処理サーバ40に共通するハードウェア構成例について説明する。図17は、本開示の一実施形態に係る入出力端末10、認識器開発装置20、および情報処理サーバ40のハードウェア構成例を示すブロック図である。図17を参照すると、入出力端末10、認識器開発装置20、および情報処理サーバ40は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <4.まとめ>
 上述したように、本開示に係るシステム1は、認識器の開発サイクルにおいて早期に誤認識対象に係る情報を出力することにより、認識器の開発における手戻りを防止し開発期間を短縮することを可能とするような情報の出力および他の処理を行うことができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、
 を備え、
 前記認識器は、少なくとも1の学習データに基づく学習により生成され、
 前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
 前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
 情報処理装置。
(2)
 前記誤認識対象に係る情報は、前記誤認識対象を通知する通知情報であり、
 前記出力制御部は、前記通知情報の表示を制御する、
 前記(1)に記載の情報処理装置。
(3)
 前記誤認識対象に係る情報は、前記誤認識対象に対する前記認識処理の評価を示す情報であり、
 前記出力制御部は、前記評価を示す情報の表示を制御する、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、前記学習データの前記コンテキストを示す情報の表示をさらに制御する、
 前記(1)~(3)のいずれか一項に記載の情報処理装置。
(5)
 前記出力制御部は、前記コンテキストに係る付加情報の表示をさらに制御する、
 前記(4)に記載の情報処理装置。
(6)
 前記誤認識対象に係る情報は、前記誤認識対象が前記誤認識された対象であるか否かの確認に係る情報であり、
 前記出力制御部は、前記確認に係る情報の表示を制御する、
 前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
 前記出力制御部は、前記学習データの拡充に係る情報の表示をさらに制御する、
 前記(1)~(6)のいずれか一項に記載の情報処理装置。
(8)
 前記誤認識対象の特定結果に基づいて、前記少なくとも1の学習データの拡充処理を制御する拡充支援部、
 をさらに備える、
 前記(7)に記載の情報処理装置。
(9)
 前記誤認識対象に係る情報は、前記誤認識対象が前記誤認識された対象であるか否かの確認に係る情報であり、
 前記出力制御部は、前記確認に係る情報の表示を制御し、
 前記拡充支援部は、前記確認に係る情報に対するフィードバックに基づいて、前記学習データの拡充処理を制御する、
 前記(8)に記載の情報処理装置。
(10)
 前記拡充支援部は、前記誤認識対象を含む前記特定用データを前記学習データとして拡充するように制御する、
 前記(9)に記載の情報処理装置。
(11)
 前記特定用データは、前記学習データの前記コンテキストに基づいて特定用データセットから取得されたデータである、
 前記(8)に記載の情報処理装置。
(12)
 前記拡充支援部は、前記特定用データセットの更新に基づいて、前記学習データの拡充処理を制御する、
 前記(11)に記載の情報処理装置。
(13)
 前記出力制御部は、前記特定用データセットの更新を示す情報の表示をさらに制御し、
 前記拡充支援部は、前記更新を示す情報に対するフィードバックに基づいて、前記学習データの拡充処理を制御する、
 前記(12)に記載の情報処理装置。
(14)
 前記出力制御部は、前記特定用データセットの更新による前記認識器の認識精度の変化を示す情報の表示をさらに制御する、
 前記(12)に記載の情報処理装置。
(15)
 前記認識器による前記少なくとも1の特定用データへの前記認識処理の結果、および、前記認識処理により認識した対象に対する前記クラスタリング処理の結果に基づいて、前記誤認識対象を特定する誤認識対象特定部、
 をさらに備え、
 前記出力制御部は、前記誤認識対象特定部が特定した前記誤認識対象に係る情報の表示を制御する、
 前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記認識処理により認識された前記対象への前記クラスタリング処理を実行し、前記認識された対象を複数のクラスタのいずれかに分類するデータ分類部、
 をさらに備え、
 前記誤認識対象特定部は、前記認識処理の結果、および、前記データ分類部による前記対象の前記複数のクラスタへの分類結果に基づいて、前記誤認識対象を特定する、
 前記(15)に記載の情報処理装置。
(17)
 前記誤認識対象特定部は、前記複数のクラスタのうち、前記認識処理の精度が、前記精度が最も高いクラスタ以外で、他の前記クラスタよりも高いクラスタに対応する対象を前記誤認識対象と特定する、
 前記(16)に記載の情報処理装置。
(18)
 前記学習データの前記コンテキストを認識するコンテキスト認識部、
 をさらに備える、
 前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
 プロセッサが、
 所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御すること、
 を含み、
 前記認識器は、少なくとも1の学習データに基づく学習により生成され、
 前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
 前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
 情報処理方法。
(20)
 コンピュータを、
 所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、
 を備え、
 前記認識器は、少なくとも1の学習データに基づく学習により生成され、
 前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
 前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
 情報処理装置、
 として機能させるためのプログラム。
 1    システム
 10   入出力端末
 20   認識器開発装置
 210  データセット管理部
 220  認識器開発部
 240  通信部
 250  記憶部
 260  制御部
 30   ネットワーク
 40   情報処理サーバ
 410  コンテキスト認識部
 420  誤認識対象特定部
 430  データ分類部
 440  出力制御部
 450  拡充支援部
 460  サーバ通信部
 470  記憶部
 480  制御部

Claims (20)

  1.  所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、
     を備え、
     前記認識器は、少なくとも1の学習データに基づく学習により生成され、
     前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
     前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
     情報処理装置。
  2.  前記誤認識対象に係る情報は、前記誤認識対象を通知する通知情報であり、
     前記出力制御部は、前記通知情報の表示を制御する、
     請求項1に記載の情報処理装置。
  3.  前記誤認識対象に係る情報は、前記誤認識対象に対する前記認識処理の評価を示す情報であり、
     前記出力制御部は、前記評価を示す情報の表示を制御する、
     請求項1に記載の情報処理装置。
  4.  前記出力制御部は、前記学習データの前記コンテキストを示す情報の表示をさらに制御する、
     請求項1に記載の情報処理装置。
  5.  前記出力制御部は、前記コンテキストに係る付加情報の表示をさらに制御する、
     請求項4に記載の情報処理装置。
  6.  前記誤認識対象に係る情報は、前記誤認識対象が前記誤認識された対象であるか否かの確認に係る情報であり、
     前記出力制御部は、前記確認に係る情報の表示を制御する、
     請求項1に記載の情報処理装置。
  7.  前記出力制御部は、前記学習データの拡充に係る情報の表示をさらに制御する、
     請求項1に記載の情報処理装置。
  8.  前記誤認識対象の特定結果に基づいて、前記少なくとも1の学習データの拡充処理を制御する拡充支援部、
     をさらに備える、
     請求項7に記載の情報処理装置。
  9.  前記誤認識対象に係る情報は、前記誤認識対象が前記誤認識された対象であるか否かの確認に係る情報であり、
     前記出力制御部は、前記確認に係る情報の表示を制御し、
     前記拡充支援部は、前記確認に係る情報に対するフィードバックに基づいて、前記学習データの拡充処理を制御する、
     請求項8に記載の情報処理装置。
  10.  前記拡充支援部は、前記誤認識対象を含む前記特定用データを前記学習データとして拡充するように制御する、
     請求項9に記載の情報処理装置。
  11.  前記特定用データは、前記学習データの前記コンテキストに基づいて特定用データセットから取得されたデータである、
     請求項8に記載の情報処理装置。
  12.  前記拡充支援部は、前記特定用データセットの更新に基づいて、前記学習データの拡充処理を制御する、
     請求項11に記載の情報処理装置。
  13.  前記出力制御部は、前記特定用データセットの更新を示す情報の表示をさらに制御し、
     前記拡充支援部は、前記更新を示す情報に対するフィードバックに基づいて、前記学習データの拡充処理を制御する、
     請求項12に記載の情報処理装置。
  14.  前記出力制御部は、前記特定用データセットの更新による前記認識器の認識精度の変化を示す情報の表示をさらに制御する、
     請求項12に記載の情報処理装置。
  15.  前記認識器による前記少なくとも1の特定用データへの前記認識処理の結果、および、前記認識処理により認識した対象に対する前記クラスタリング処理の結果に基づいて、前記誤認識対象を特定する誤認識対象特定部、
     をさらに備え、
     前記出力制御部は、前記誤認識対象特定部が特定した前記誤認識対象に係る情報の表示を制御する、
     請求項1に記載の情報処理装置。
  16.  前記認識処理により認識された前記対象への前記クラスタリング処理を実行し、前記認識された対象を複数のクラスタのいずれかに分類するデータ分類部、
     をさらに備え、
     前記誤認識対象特定部は、前記認識処理の結果、および、前記データ分類部による前記対象の前記複数のクラスタへの分類結果に基づいて、前記誤認識対象を特定する、
     請求項15に記載の情報処理装置。
  17.  前記誤認識対象特定部は、前記複数のクラスタのうち、前記認識処理の精度が、前記精度が最も高いクラスタ以外で、他の前記クラスタよりも高いクラスタに対応する対象を前記誤認識対象と特定する、
     請求項16に記載の情報処理装置。
  18.  前記学習データの前記コンテキストを認識するコンテキスト認識部、
     をさらに備える、
     請求項1に記載の情報処理装置。
  19.  プロセッサが、
     所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御すること、
     を含み、
     前記認識器は、少なくとも1の学習データに基づく学習により生成され、
     前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
     前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
     情報処理方法。
  20.  コンピュータを、
     所定の認識対象を認識するために生成された認識器による少なくとも1の特定用データへの認識処理の結果、および、前記認識処理により認識された対象に対するクラスタリング処理の結果、に基づき誤認識の可能性があると特定された、前記所定の認識対象と異なる誤認識対象に係る情報の表示を制御する出力制御部、
     を備え、
     前記認識器は、少なくとも1の学習データに基づく学習により生成され、
     前記少なくとも1の学習データは、前記所定の認識対象を含み、かつ、それぞれ略同一のコンテキストにおけるデータであり、
     前記特定用データは、前記少なくとも1の学習データの前記コンテキストと略同一のコンテキストにおけるデータである、
     情報処理装置、
     として機能させるためのプログラム。
PCT/JP2020/013350 2019-05-16 2020-03-25 情報処理装置、情報処理方法、及びプログラム WO2020230459A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/609,476 US11861883B2 (en) 2019-05-16 2020-03-25 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-092654 2019-05-16
JP2019092654 2019-05-16

Publications (1)

Publication Number Publication Date
WO2020230459A1 true WO2020230459A1 (ja) 2020-11-19

Family

ID=73289001

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/013350 WO2020230459A1 (ja) 2019-05-16 2020-03-25 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US11861883B2 (ja)
WO (1) WO2020230459A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142871A (ja) * 2013-01-25 2014-08-07 Dainippon Screen Mfg Co Ltd 教師データ作成支援装置、教師データ作成装置、画像分類装置、教師データ作成支援方法、教師データ作成方法および画像分類方法
JP2017107313A (ja) * 2015-12-08 2017-06-15 株式会社Screenホールディングス 教師データ作成支援方法、画像分類方法、教師データ作成支援装置および画像分類装置
JP2018096834A (ja) * 2016-12-13 2018-06-21 ソニーセミコンダクタソリューションズ株式会社 データ処理装置、データ処理方法、プログラム、および電子機器
JP2018142097A (ja) * 2017-02-27 2018-09-13 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5483066A (en) * 1994-06-08 1996-01-09 Loral Corporation Polarization diverse infrared object recognition system and method
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
JP5376024B1 (ja) * 2012-08-23 2013-12-25 富士ゼロックス株式会社 画像処理装置、プログラム及び画像処理システム
JP6624963B2 (ja) * 2016-02-12 2019-12-25 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
US10446068B2 (en) * 2016-05-31 2019-10-15 Andrew L. Butler Vehicle messaging system
US10397400B2 (en) * 2017-11-03 2019-08-27 Sony Corporation Electronic call assistant based on a caller-status and a callee-status
US10413011B2 (en) * 2018-01-29 2019-09-17 Charlie Lee Jordan Hardhat speakers
US10980359B2 (en) * 2018-04-03 2021-04-20 Walmart Apollo, Llc Temperature-controlled display case maintenance cart system
US10679060B2 (en) * 2018-09-25 2020-06-09 Sap Se Automatic generation of user interfaces using image recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142871A (ja) * 2013-01-25 2014-08-07 Dainippon Screen Mfg Co Ltd 教師データ作成支援装置、教師データ作成装置、画像分類装置、教師データ作成支援方法、教師データ作成方法および画像分類方法
JP2017107313A (ja) * 2015-12-08 2017-06-15 株式会社Screenホールディングス 教師データ作成支援方法、画像分類方法、教師データ作成支援装置および画像分類装置
JP2018096834A (ja) * 2016-12-13 2018-06-21 ソニーセミコンダクタソリューションズ株式会社 データ処理装置、データ処理方法、プログラム、および電子機器
JP2018142097A (ja) * 2017-02-27 2018-09-13 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US11861883B2 (en) 2024-01-02
US20220230423A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
US11182554B2 (en) Apparatus and method for executing application
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
US11481832B2 (en) Electronic apparatus and method for summarizing content thereof
WO2021139701A1 (zh) 一种应用推荐方法、装置、存储介质及电子设备
US20190348022A1 (en) Method and device for performing voice recognition using grammar model
US11194448B2 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
US11126938B2 (en) Targeted data element detection for crowd sourced projects with machine learning
US20220375478A1 (en) Electronic device and control method thereof
US20230177398A1 (en) Electronic apparatus and control method thereof
US20180218728A1 (en) Domain-Specific Speech Recognizers in a Digital Medium Environment
CN109643540A (zh) 用于人工智能语音演进的***和方法
JPWO2017038794A1 (ja) 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
KR102469712B1 (ko) 전자 장치 및 이의 자연어 생성 방법
US20220246135A1 (en) Information processing system, information processing method, and recording medium
KR20220040997A (ko) 전자 장치 및 그 제어 방법
US20230418572A1 (en) Learning To Personalize User Interfaces
JP7225380B2 (ja) 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
WO2020230459A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11875792B2 (en) Holographic interface for voice commands
WO2019026716A1 (ja) 情報処理装置、及び情報処理方法
US11741954B2 (en) Method and voice assistance apparatus for providing an intelligence response
CN111344664A (zh) 电子设备及其控制方法
CN115695635B (zh) 操作提示方法、存储介质及电子设备
WO2020153146A1 (ja) 情報処理装置、及び情報処理方法
KR20220125611A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20806125

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20806125

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP