WO2024018746A1 - 識別器生成支援装置 - Google Patents

識別器生成支援装置 Download PDF

Info

Publication number
WO2024018746A1
WO2024018746A1 PCT/JP2023/018953 JP2023018953W WO2024018746A1 WO 2024018746 A1 WO2024018746 A1 WO 2024018746A1 JP 2023018953 W JP2023018953 W JP 2023018953W WO 2024018746 A1 WO2024018746 A1 WO 2024018746A1
Authority
WO
WIPO (PCT)
Prior art keywords
classifier
feature
discriminator
dimensional shape
feature amount
Prior art date
Application number
PCT/JP2023/018953
Other languages
English (en)
French (fr)
Inventor
志織 安江
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Publication of WO2024018746A1 publication Critical patent/WO2024018746A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Definitions

  • the present disclosure relates to a discriminator generation support device.
  • Patent Document 1 discloses an object recognition engine that maintains good detection accuracy and identification accuracy of an object regardless of differences in the background that appears in images of the object.
  • the image processing unit in this object recognition engine includes a recognition processing unit that performs at least one of detection and identification of a predetermined object using a classifier according to the type of background of an input image.
  • the image processing section also includes a background identification section that identifies the type of background for each divided region into which the input image is divided, based on the feature amount within the divided region.
  • the optimal method for object identification is often determined by actually performing machine learning, and the problem is that it takes a long time and repeated trial and error to find the optimal method.
  • a classifier generation support device includes an acquisition unit, a calculation unit, and a selection unit.
  • the acquisition unit acquires data representing a three-dimensional shape of a predetermined object.
  • the calculation unit calculates a feature amount representing a feature of the three-dimensional shape of the predetermined object using the data acquired by the acquisition unit.
  • the selection unit selects a discriminator that identifies whether or not the object is the predetermined target object based on data representing the three-dimensional shape of the object, and selects a discriminator that is calculated by the calculation unit from among the plurality of discriminators. Select based on features.
  • the support device of the present disclosure it is possible to quickly generate a classifier according to the characteristics related to the three-dimensional shape of a predetermined object without performing trial and error.
  • FIG. 1 is a block diagram showing a configuration example of a support device 10 according to an embodiment of the present disclosure.
  • 3 is a diagram showing an example of a management table TBL stored in a storage device 130 of the support device 10.
  • FIG. 2 is a diagram showing an example of an image G1 and an image G2 output to the display device 120 of the support device 10.
  • FIG. It is a flowchart showing the flow of the support method executed by the processing device 140 of the support device 10 according to the program PR1. It is a figure showing an example of a predetermined object.
  • FIG. 1 is a block diagram showing a configuration example of a support device 10 according to an embodiment of the present disclosure.
  • the support device 10 determines whether the object (hereinafter referred to as "unknown object”) is an object predetermined as a recognition target (hereinafter referred to as "predetermined target object”) based on shape data representing the three-dimensional shape of the object.
  • This is a server device that supports an external generation device (not shown) in generating a discriminator that identifies whether or not the device is a user.
  • the external generation device is, for example, a computer device and is independent from the support device 10.
  • the surface of an object is represented by a set of primitives such as polygons.
  • the shape data in this embodiment is data representing each primitive on the surface of the object.
  • a specific example of data representing a primitive is data representing the coordinates of each vertex of the primitive.
  • the shape data of the predetermined object will be referred to as reference data
  • the shape data of the unknown object will be referred to as unknown data.
  • the support device 10 outputs classifier information indicating a classifier suitable for identifying an object having features that are the same as or similar to the three-dimensional shape represented by the reference data.
  • the discriminator information output from the support device 10 is input to the generation device.
  • a classifier indicated by the classifier information is generated by machine learning executed by the generation device. In this way, a classifier suitable for a given object is generated.
  • the support device 10 includes a communication device 110, a display device 120, a storage device 130, a processing device 140, and a bus 150.
  • the communication device 110, display device 120, storage device 130, and processing device 140 are interconnected by a bus 150 for communicating information.
  • the bus 150 may be configured using a single bus, or may be configured using different buses for each element such as a device.
  • the communication device 110 is a hardware device for communicating with other devices. Other devices that communicate with the support device 10 are connected to the communication device 110 by wire or wirelessly.
  • a specific example of another device connected to the communication device 110 is a supply device that supplies reference data to the support device 10.
  • Specific examples of the supply device include a 3D scanner that scans a predetermined object in 3D and outputs shape data, or a CAD (CAD) that draws a 3D model imitating the predetermined object and outputs shape data representing the 3D model. Examples include Computer-Aided Design) equipment.
  • the display device 120 is, for example, a liquid crystal display.
  • the display device 120 displays various images under the control of the processing device 140 and outputs information represented by the images.
  • Display device 120 is an example of an output device.
  • the storage device 130 is a recording medium that can be read by the processing device 140.
  • the storage device 130 may be configured of at least one of ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), and the like.
  • the storage device 130 stores in advance a management table TBL and a program PR1.
  • FIG. 2 is a diagram showing an example of the management table TBL.
  • Management table TBL has multiple records. Each record stores discriminator information and a plurality of types of feature amounts associated with the discriminator information. A threshold value is stored in each feature value column.
  • the discriminator information is information (character string) indicating the type of discriminator that identifies whether or not the object is a predetermined target object based on the shape data of the object. In the example shown in FIG. 2, "feature matching" and "deep learning” are stored in the management table TBL as classifier information.
  • the discriminator information "feature matching” means a discriminator that identifies objects by feature matching.
  • a classifier that identifies objects by feature value matching is an example of a first classifier in the present disclosure.
  • the discriminator information "deep learning” means a discriminator generated by deep learning.
  • the classifier generated by deep learning is an example of the second classifier in the present disclosure.
  • a classifier that identifies an object by feature value matching is generated by a generation device as follows.
  • a set of reference data and a label is set as learning data.
  • the label indicates the type of object (ie, the correct answer) whose three-dimensional shape is represented by the reference data.
  • a plurality of types of feature amounts representing features of the three-dimensional shape of a predetermined object are extracted from the reference data, and each of the plurality of extracted feature amounts is associated with a label.
  • the first discriminator is generated (established) by repeating such correspondence for various reference data.
  • the generated first discriminator determines whether an unknown object is a predetermined object based on the degree of agreement between multiple types of feature amounts extracted from unknown data and multiple types of feature amounts stored in association with labels.
  • the target object is identified as follows.
  • An advantage of the first discriminator is that the time required for generation is short. Even if the number of learning data is relatively large, generation can be completed in a short time (for example, 3 to 6 minutes) using the first classifier.
  • a disadvantage of the first classifier is that it may fail to detect an unknown object.
  • An example of such a case is a case where the unknown data represents the three-dimensional shapes of multiple objects.
  • Another example is a case where the background area of an image generated based on unknown data is relatively large. This image is generated by projecting the three-dimensional shape represented by the unknown data onto an arbitrary plane.
  • the area occupied by the unknown object (the position of the unknown object) cannot be specified in an image generated based on unknown data.
  • the object In order to obtain high identification accuracy by the first classifier, the object should be a rigid body, the object's surface should have a pattern, or the object should not have a complicated shape (for example, a flat surface).
  • a rigid body is an object that does not deform under the action of an external force. For example, if the predetermined object is a book, a flyer, etc., high identification accuracy can be obtained by the first classifier.
  • Generating a classifier using deep learning means generating a classifier by learning the features of the correct data through multiple learnings using a hierarchical structure using BoundingBox and training data with correct answer labels. say.
  • An advantage of the classifier generated by deep learning is that it can specify the area occupied by the unknown object (the position of the unknown target) in an image generated based on unknown data.
  • the color tone of the unknown object may be different from its original color.
  • a disadvantage of the second classifier is that the possibility of mistakenly recognizing an unknown object as a given object even though it is not a given object tends to be higher than that of the first classifier. It is. Although such a case may occur with the first classifier, the probability of misrecognition occurring is low compared to the second classifier.
  • the second discriminator also has the disadvantage that it takes a long time to generate (for example, half a day to 10 days).
  • the object In order for the second classifier to obtain high identification accuracy, the object must not be limited to a rigid body, that is, the object must be able to deform in response to the action of an external force, or the object must have a complex three-dimensional shape. , can be mentioned. For example, when the unknown object is a figure, clothes, etc., high identification accuracy can be obtained by generating the second classifier.
  • Deep learning examples include “YOLO,” “faster RCNN,” and “Mask RCNN.”
  • YOLO is a method for detecting unknown objects within a rectangular area, and is characterized by lower accuracy due to faster learning time.
  • Faster RCNN is a method similar to YOLO, but it has the characteristics that it takes longer to learn compared to YOLO, but has higher classification accuracy.
  • Mask RCNN is a method for detecting unknown objects at the pixel level (so-called Segmentation Detection). In this embodiment, any one of "YOLO”, “faster RCNN”, and “Mask RCNN” is adopted as a deep learning method, but other methods may be adopted.
  • three discriminator information "YOLO”, "faster RCNN”, and “Mask RCNN” may be stored in the management table TBL.
  • Each of the plurality of types of feature amounts stored in the management table TBL in association with the discriminator information represents a feature of the three-dimensional shape of the object suitable for classification by the discriminator indicated by the discriminator information.
  • two types of feature amounts, feature amount A and feature amount B are associated with the same identification information, and threshold values regarding the two types of feature amounts are stored in the management table TBL.
  • the feature amounts stored in the management table TBL include, in addition to feature amount A and feature amount B, three types including feature amount C that is different from both feature amounts A and B, or other types of feature amounts. There may be four or more types.
  • the feature amounts stored in the management table TBL may be only one type of feature amount A, or may be only one type of feature amount B.
  • the feature amount A in FIG. 2 is the number of surfaces that partition the surface of a predetermined object.
  • the threshold related to the feature A stored in the management table TBL in association with the discriminator information "feature matching” is the threshold A1.
  • the threshold value related to the feature amount A stored in the management table TBL in association with the classifier information "deep learning” is the threshold value A2.
  • Threshold value A2 is greater than threshold value A1.
  • the threshold value A1 is 10
  • the threshold value A2 is 100. The more the number of surfaces that partition the surface of a given object increases, the more complex the three-dimensional shape of the given object becomes. Therefore, if the object has a complicated three-dimensional shape, the second classifier can achieve higher classification accuracy than the first classifier.
  • the feature amount B in FIG. 2 is a value representing the distribution of angles formed by the normal vector of each polygon represented by the reference data and the normal vector of a polygon adjacent to the polygon.
  • the normal vector of a polygon is a vector along the normal of the plane containing the three vertices of the polygon.
  • a specific example of the feature amount B is the number of polygons whose normal vector angle difference between adjacent polygons is 30 degrees or more with respect to the total number of polygons, that is, the ratio of the number of latter polygons to the number of former polygons. Can be mentioned.
  • the threshold value related to the feature amount B stored in the management table TBL in association with the discriminator information "feature amount matching" is the threshold value B1.
  • the threshold value related to the feature amount B stored in the management table TBL in association with the classifier information "deep learning” is the threshold value B2.
  • Threshold B2 is greater than threshold B1.
  • the threshold value B1 is 0.3
  • the threshold value B2 is 0.5.
  • 30 degrees in this embodiment is an example, and other values such as 50 degrees may be used.
  • the processing device 140 includes one or more CPUs (Central Processing Units).
  • the processing device 140 reads the program PR1 from the storage device 130 when the support device 10 is powered on.
  • the processing device 140 functions as the acquisition section 140a, the calculation section 140b, the selection section 140c, and the output control section 140d shown in FIG. 1 by executing the program PR1. That is, the acquisition section 140a, the calculation section 140b, the selection section 140c, and the output control section 140d shown in FIG. 1 are software modules realized by operating a computer such as a CPU according to software such as a program.
  • the functions each of the acquisition section 140a, the calculation section 140b, the selection section 140c, and the output control section 140d are responsible for are as follows.
  • the acquisition unit 140a acquires reference data from the supply device via the communication device 110.
  • the calculation unit 140b calculates a plurality of types of feature amounts representing the characteristics of the three-dimensional shape of a predetermined object from the reference data acquired by the acquisition unit 140a.
  • the calculation unit 140b calculates each feature amount corresponding to the classifier information based on the reference data, as shown in the management table TBL. That is, the calculation unit 140b calculates the number of surfaces that make up the three-dimensional shape of a predetermined object (i.e., feature amount A) and the distribution of normal vectors of each polygon represented by the reference data (i.e., feature amount B). do.
  • an algorithm for calculating the feature amount A and the feature amount B from the reference data namely, shape data
  • an existing algorithm may be adopted as appropriate.
  • the calculation unit 140b calculates the feature amounts for the types stored in the management table TBL. It can be calculated from standard data.
  • the selection unit 140c selects a discriminator for identifying whether or not the unknown target is a predetermined target based on the unknown target data from among a plurality of predetermined discriminators by the calculation unit 140b. The selection is made based on the feature values and the management table TBL.
  • the selection unit 140c selects the classifier information “ Select "Feature Matching”. Further, if the feature amount A calculated by the calculation unit 140b is larger than the threshold value A2, and the feature amount B calculated by the calculation unit 140b is larger than the threshold value B2, the selection unit 140c selects the Select the device information “Deep Learning”.
  • the selection unit 140c selects a 1 feature vector is generated.
  • the selection unit 140c considers the feature amount A and the feature amount B as components. A first feature vector is generated.
  • the selection unit 140c similarly generates a second feature vector for each of the plurality of classifier information items stored in the management table TBL.
  • the selection unit 140c selects, from among the plurality of second feature vectors, a second feature vector whose absolute value of the angle formed with the first feature vector is less than or equal to a predetermined threshold, and whose absolute value is the smallest.
  • Select discriminator information corresponding to the vector. The closer the angle between the first feature vector and the second feature vector is to 0 degrees, the more similar the feature represented by the first feature vector and the feature represented by the second feature vector are. This is because it means that The angle formed by the first feature vector and the second feature vector is calculated by calculating the inner product of the first feature vector and the second feature vector by the size of the first feature vector and the second feature. It is found by calculating the inverse cosine of the value obtained by dividing by the magnitude of the quantity vector.
  • the selection unit 140c selects the selected feature amount based on the first feature amount vector and the second feature amount vector without comparing the calculated feature amount A with a threshold value and without comparing the calculated feature amount B with a threshold value.
  • the discriminator information may be selected
  • the output control unit 140d causes the display device 120 to display an image including the classifier information selected by the selection unit 140c. For example, when the selection unit 140c selects the classifier information “feature matching”, the output control unit 140d causes the display device 120 to display the image G1 shown in FIG. Further, when the selector 140c selects the classifier information "deep learning”, the output controller 140d causes the display device 120 to display the image G2 shown in FIG. By viewing the image G1 or the image G2 displayed on the display device 120, the user can determine whether a classifier suitable for identifying a given object is a "classifier that identifies objects by feature matching" or " It is possible to understand whether the classifier is a classifier generated by deep learning.
  • the identification result output by the output control unit 140d is not limited to an image including discriminator information, but may be represented by a certain character string like discriminator information or one bit (0 or 1). It may be a value.
  • a generation device that generates a classifier by machine learning may be connected to the support device 10, and the generation device may automatically generate a classifier using the output of the output control unit 140d. In this way, when the generation device automatically executes a specific process in response to the output of the support device 10, the output control unit is adjusted to suit the specifications of the generation device to suit the execution of the specific process. 140d output format may be selected.
  • the display device 120 instead of the display device 120, an interface device to which the generation device is connected may be provided. Alternatively, the communication device 110 may also serve as the display device 120.
  • the processing device 140 operating according to the program PR1 executes the support method shown in FIG. 4.
  • this support method includes acquisition processing SA110, calculation processing SA120, selection processing SA130, and output control processing SA140.
  • the processing device 140 functions as an acquisition unit 140a.
  • the processing device 140 acquires reference data from the supply device via the communication device 110.
  • the processing device 140 functions as a calculation unit 140b.
  • the processing device 140 calculates a feature amount representing the feature of the three-dimensional shape of the predetermined object from the reference data acquired in the acquisition process SA110.
  • the processing device 140 functions as a selection unit 140c.
  • the processing device 140 selects the type of discriminator that identifies whether or not the unknown object is a predetermined object based on the unknown data using the feature amount and management table calculated in the calculation process SA120. Select based on TBL.
  • processing device 140 functions as the output control section 140d.
  • processing device 140 causes display device 120 to output an image including the classifier information selected in selection processing SA130.
  • the plastic bottle OB1 shown in FIG. 5 is a predetermined object
  • the acquisition process SA110 the shape data of the plastic bottle OB1 is acquired as reference data.
  • the value of the feature amount A calculated in the calculation process SA120 based on this reference data is less than the threshold value A1
  • the value of the feature amount B is less than the threshold value B1.
  • the selection process SA130 "feature amount matching" is selected as the discriminator information
  • the output control process SA140 the image G1 shown in FIG. 3 is displayed.
  • the generation device When a user who visually recognizes this image G1 inputs learning data related to plastic bottles into a generation device that generates a classifier using machine learning, the generation device generates a classifier suitable for identifying plastic bottles, that is, the object by feature matching. A discriminator that identifies the is generated.
  • the monster figure OB2 shown in FIG. 5 is a predetermined object, and in the acquisition process SA110, the shape data of the monster figure OB2 is acquired as reference data. It is assumed that the value of the feature amount A calculated in the calculation process SA120 based on this reference data is greater than or equal to the threshold value A2, and the value of the feature amount B is greater than or equal to the threshold value B2.
  • the selection process SA130 "deep learning" is selected as the classifier information
  • the output control process SA140 the image G2 shown in FIG. 3 is displayed.
  • a classifier suitable for identifying monster figures that is, a classifier generated by deep learning
  • a classifier corresponding to the characteristics related to the three-dimensional shape of a predetermined object can be quickly generated without performing unnecessary trial and error.
  • the learning data used to generate the classifier is determined depending on what kind of classification is desired to be performed by the classifier. For example, if it is sufficient to distinguish between the monster D figure and other objects, a classifier may be generated by machine learning using only the shape data of the monster D figure. On the other hand, if you want to separately identify the monster D figure and the monster E figure, the generation device uses the shape data of the monster D figure and the shape data of the monster E figure as learning data and performs machine learning.
  • a classifier may be generated by performing the following.
  • the generation device performs machine learning using the shape data of the monster D figure and the shape data of the robot F figure as learning data.
  • a classifier may be generated. Further, in order to improve identification accuracy, a classifier may be generated by the generation device learning shape data of an object that is not desired to be misrecognized as incorrect data.
  • B Transformation
  • the present disclosure is not limited to the embodiments illustrated above. Specific aspects of the modification are as follows. Two or more aspects arbitrarily selected from the examples below may be combined.
  • B-1 Modification 1
  • the program PR1 is stored in the storage device 130 of the support device 10, but the program PR1 may be manufactured or sold separately. Examples of methods for providing the program PR1 include a method of writing the program PR1 on a computer-readable recording medium such as a flash ROM and distributing it, or a method of distributing it by downloading it via a telecommunications line.
  • the acquisition section 140a, the calculation section 140b, the selection section 140c, and the output control section 140d in the above embodiment are all software modules.
  • any one, any two, any three, or all of the calculation unit 140b, the selection unit 140c, and the output control unit 140d may be a hardware module.
  • Specific examples of the hardware module include DSP (Digital Signal Processor), ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array), and the like. Even if any one, any two, or all of the calculation unit 140b, selection unit 140c, and output control unit 140d are hardware modules, the same effects as in the above embodiment can be achieved.
  • the generation device that generates a classifier by performing machine learning and the support device 10 are separate devices, but the support device 10 may be included in the generation device.
  • the support device 10 it is sufficient that the classifier is generated according to the result of the selection of the classifier by the selection unit 140c, and the display of the selection result by the selection unit 140c is not essential. Therefore, when the support device 10 is included in the generation device, the output control unit 140d and the output control processing SA140 may be omitted.
  • ROM, RAM, etc. were exemplified as the storage device 130, but the storage device 130 may also include a flexible disk, a magneto-optical disk (for example, a compact disk, a digital versatile disk, a Blu-ray (registered) trademark), smart cards, flash memory devices (e.g. cards, sticks, key drives), CD-ROMs (Compact Disc-ROMs), registers, removable disks, hard disks, floppy disks, magnetic strips, databases. , a server, or other suitable storage medium.
  • a flexible disk for example, a compact disk, a digital versatile disk, a Blu-ray (registered) trademark
  • smart cards e.g. cards, sticks, key drives
  • CD-ROMs Compact Disc-ROMs
  • registers removable disks
  • hard disks hard disks
  • floppy disks magnetic strips
  • databases e.g., a server, or other suitable storage medium.
  • the information, signals, etc. described may be represented using any of a variety of different technologies.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may also be represented by a combination of
  • the input/output information may be stored in a specific location (for example, memory) or may be managed using a management table. Information etc. to be input/output may be overwritten, updated, or additionally written. The output information etc. may be deleted. The input information etc. may be transmitted to other devices.
  • the determination may be made based on a value represented by 1 bit (0 or 1), or may be made based on a truth value (Boolean: true or false). , may be performed by numerical comparison (for example, comparison with a predetermined value).
  • each function illustrated in FIG. 1 is realized by an arbitrary combination of at least one of hardware and software.
  • the method for realizing each functional block is not particularly limited. That is, each functional block may be realized using one physically or logically coupled device, or may be realized using two or more physically or logically separated devices directly or indirectly (e.g. , wired, wireless, etc.) and may be realized using a plurality of these devices.
  • the functional block may be realized by combining software with the one device or the plurality of devices.
  • the programs exemplified in the embodiments described above may include instructions, instruction sets, codes, software, firmware, middleware, microcode, hardware description language, or other names. Should be broadly construed to mean a code segment, program code, program, subprogram, software module, application, software application, software package, routine, subroutine, object, executable, thread of execution, procedure, function, etc. .
  • software, instructions, information, etc. may be sent and received via a transmission medium.
  • a transmission medium For example, if the software uses wired technology (coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.) and/or wireless technology (infrared, microwave, etc.) to create a website, When transmitted from a server or other remote source, these wired and/or wireless technologies are included within the definition of transmission medium.
  • wired technology coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.
  • wireless technology infrared, microwave, etc.
  • the information, parameters, etc. described in this disclosure may be expressed using absolute values, relative values from a predetermined value, or other corresponding information. It may also be expressed as
  • the mobile device includes a mobile station (MS).
  • MS mobile station
  • a mobile station is defined by a person skilled in the art as a subscriber station, mobile unit, subscriber unit, wireless unit, remote unit, mobile device, wireless device, wireless communication device, remote device, mobile subscriber station, access terminal, mobile terminal, wireless It may also be referred to as a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable terminology. Further, in the present disclosure, terms such as “mobile station,” “user terminal,” “user equipment (UE),” and “terminal” may be used interchangeably.
  • connection refers to direct or indirect connections between two or more elements. Refers to any connection or combination and may include the presence of one or more intermediate elements between two elements that are “connected” or “coupled” to each other.
  • the bonds or connections between elements may be physical, logical, or a combination thereof.
  • connection may be replaced with "access.”
  • two elements may include one or more electrical wires, cables, and/or printed electrical connections, as well as in the radio frequency domain, as some non-limiting and non-inclusive examples. , electromagnetic energy having wavelengths in the microwave and optical (both visible and non-visible) ranges, and the like.
  • determining and “determining” used in this disclosure may encompass a wide variety of operations.
  • “Judgment” and “decision” include, for example, judging, calculating, computing, processing, deriving, investigating, looking up, search, and inquiry. (e.g., searching in a table, database, or other data structure), and regarding an ascertaining as a “judgment” or “decision.”
  • judgment and “decision” refer to receiving (e.g., receiving information), transmitting (e.g., sending information), input, output, and access.
  • (accessing) may include considering something as a “judgment” or “decision.”
  • judgment and “decision” refer to resolving, selecting, choosing, establishing, comparing, etc. as “judgment” and “decision”. may be included.
  • judgment and “decision” may include regarding some action as having been “judged” or “determined.”
  • judgment (decision) may be read as “assuming", “expecting", “considering”, etc.
  • the classifier generation support device includes an acquisition section, a calculation section, and a selection section.
  • the acquisition unit acquires data representing a three-dimensional shape of a predetermined object.
  • the calculation unit calculates a feature amount representing a feature of the three-dimensional shape of the predetermined object using the data acquired by the acquisition unit.
  • the selection unit selects a discriminator that identifies whether or not the object is the predetermined target object based on data representing the three-dimensional shape of the object, and selects a discriminator that is calculated by the calculation unit from among the plurality of discriminators. Select based on features. Since the selected classifier is generated by the classifier generation support device according to the first aspect, it is possible to quickly generate a classifier according to the characteristics regarding the three-dimensional shape of a predetermined object without performing trial and error. Can be done.
  • the predetermined object has a three-dimensional shape having a plurality of surfaces.
  • the calculation unit calculates at least one of the number of the plurality of surfaces and the distribution of vectors along the normal line of each of the plurality of surfaces as the feature amount.
  • a classifier corresponding to at least one of the number of surfaces constituting the three-dimensional shape of a predetermined object and the distribution of vectors along the normal line of each surface That is, it is possible to quickly generate a classifier that corresponds to the features related to the three-dimensional shape of a predetermined object without performing trial and error.
  • the plurality of types of classifiers in the classifier generation support device includes a first classifier that performs discrimination by feature matching.
  • a predetermined object is an object suitable for classification by feature matching
  • trial and error such as erroneously generating a classifier by deep learning is avoided. Therefore, it is possible to quickly generate a classifier suitable for the predetermined object, that is, the first classifier.
  • the plurality of types of classifiers in the classifier generation support device includes a second classifier generated by deep learning.
  • classification is performed by feature matching.
  • a classifier suitable for the target object, that is, a second classifier can be quickly generated without performing trial and error such as generating a classifier incorrectly.
  • DESCRIPTION OF SYMBOLS 10 Discriminator generation support device, 110... Communication device, 120... Display device, 130... Storage device, 140... Processing device, 140a... Acquisition part, 140b... Calculation part, 140c... Selection part, 140d... Output control part, 150 ...Bus, PR1...Program, TBL...Management table.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

識別器生成支援装置は、取得部、算出部、及び選択部を備える。取得部は、所定の対象物の3次元形状を表すデータを取得する。算出部は、取得部により取得されたデータを用いて、所定の対象物の3次元形状の特徴を表す特徴量を算出する。選択部は、物体の3次元形状を表すデータに基づいて物体が所定の対象物であるか否かを識別する識別器を、複数種の識別器のうちから算出部により算出された特徴量に基づいて選択する。

Description

識別器生成支援装置
 本開示は、識別器生成支援装置に関する。
 物体の3次元形状を表すデータに基づいて、物体の種類を識別する識別器を機械学習により生成することが提案されている。物体の3次元形状を表すデータの具体例としては、物体を撮像することで得られる画像を表す画像データが挙げられる。特許文献1には、物体を撮像した画像に写る背景の違いに関わらず、物体の検出精度及び識別精度を良好に保つ物体認識エンジンが開示されている。この物体認識エンジンにおける画像処理部は、入力画像の背景の種類に応じた識別器を用いて、所定の対象物の検出又は識別のうち少なくとも一方を行う認識処理部を備える。また、画像処理部は、入力画像を分割した分割領域毎に、分割領域内の特徴量に基づいて背景の種類を識別する背景識別部を備える。
特開2016-095701号公報
 機械学習により識別器を生成する場合、数ある手法の中から対象物の識別に最適な手法を選択する必要がある。しかし、対象物の識別に最適な手法は、実際に機械学習を行ってみることによって決まることが多く、最適な手法が見つかるまでに試行錯誤を繰り返し、長い時間を要する、という問題がある。
 本開示の好適な態様に係る識別器生成支援装置は、取得部、算出部、及び選択部を備える。取得部は、所定の対象物の3次元形状を表すデータを取得する。算出部は、前記取得部により取得されたデータを用いて、前記所定の対象物の3次元形状の特徴を表す特徴量を算出する。選択部は、物体の3次元形状を表すデータに基づいて前記物体が前記所定の対象物であるか否かを識別する識別器を、複数種の識別器のうちから前記算出部により算出された特徴量に基づいて選択する。
 本開示の支援装置によれば、所定の対象物の3次元形状に関する特徴に応じた識別器を、試行錯誤を行うことなく、手早く生成することができる。
本開示の一実施形態による支援装置10の構成例を示すブロック図である。 支援装置10の記憶装置130に記憶されている管理テーブルTBLの一例を示す図である。 支援装置10の表示装置120に出力される画像G1及び画像G2の一例を示す図である。 支援装置10の処理装置140がプログラムPR1に従って実行する支援方法の流れを示すフローチャートである。 所定の対象物の一例を示す図である。
(A.実施形態)
 図1は、本開示の一実施形態による支援装置10の構成例を示すブロック図である。支援装置10は、物体の3次元形状を表す形状データに基づいて、その物体(以下、「未知対象物」)が認識対象として予め定められた物体(以下、「所定の対象物」)であるか否かを識別する識別器を、外部の生成装置(不図示)が生成するのを支援するサーバ装置である。外部の生成装置は、例えばコンピュータ装置であり、支援装置10から独立している。本実施形態では、物体の表面がポリゴン等のプリミティブの集合によって表現される。本実施形態における形状データは、物体の表面の各プリミティブを表すデータである。プリミティブを表すデータの具体例としては、プリミティブの各頂点の座標を表すデータが挙げられる。以下では、所定の対象物の形状データは基準データと称され、未知対象物の形状データは未知データと称される。
 以下では、説明を簡略化するために、識別器は対象物毎に生成されるとするが、対象物の種類ごとに、一つの識別器が生成されてもよい。支援装置10は、基準データにより表される3次元形状と同一又は類似した特徴を有する物体の識別に適した識別器を示す識別器情報を出力する。支援装置10から出力される識別器情報は、生成装置に入力される。生成装置によって実行される機械学習により、当該識別器情報の示す識別器が生成される。このように、所定の対象物に適した識別器が生成される。
 図1に示されるように、支援装置10は、通信装置110と、表示装置120と、記憶装置130と、処理装置140と、バス150と、を含む。通信装置110、表示装置120及び記憶装置130と、処理装置140とは、情報を通信するためのバス150によって相互に接続される。バス150は、単一のバスを用いて構成されてもよいし、装置等の要素間ごとに異なるバスを用いて構成されてもよい。
 通信装置110は、他の装置と通信するためのハードウェアデバイスである。通信装置110には、支援装置10と通信する他の装置が有線又は無線により接続される。通信装置110に接続される他の装置の具体例としては、基準データを支援装置10に供給する供給装置が挙げられる。供給装置の具体例としては、所定の対象物を3Dスキャンして形状データを出力する3Dスキャナ、又は所定の対象物を模した3Dモデルを描き、当該3Dモデルを表す形状データを出力するCAD(Computer-Aided Design)装置が挙げられる。
 表示装置120は、例えば液晶ディスプレイである。表示装置120は、処理装置140による制御の下で各種画像を表示することにより、当該画像の表す情報を出力する。表示装置120は、出力装置の一例である。
 記憶装置130は、処理装置140が読み取り可能な記録媒体である。記憶装置130は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つによって構成されてもよい。記憶装置130には、管理テーブルTBLと、プログラムPR1とが予め記憶されている。
 図2は、管理テーブルTBLの一例を示す図である。管理テーブルTBLは、複数のレコードを有する。各レコードには、識別器情報と、当該識別器情報に対応付けられた複数種の特徴量とが格納されている。各特徴量の欄には、閾値が格納されている。識別器情報とは、物体の形状データに基づいて当該物体が所定の対象物であるか否かを識別する識別器の種類を示す情報(文字列)である。図2に示す例では、識別器情報として「特徴量マッチング」及び「ディープラーニング」が管理テーブルTBLに格納されている。
 「特徴量マッチング」という識別器情報は、特徴量マッチングにより物体を識別する識別器を意味する。特徴量マッチングにより物体を識別する識別器は、本開示における第1の識別器の一例である。「ディープラーニング」という識別器情報は、ディープラーニングにより生成される識別器を意味する。ディープラーニングにより生成される識別器は、本開示における第2の識別器の一例である。
 特徴量マッチングにより物体を識別する識別器(即ち第1の識別器)は、例えば、生成装置によって以下のように生成される。基準データとラベルとの組が学習データとして設定される。ラベルは、基準データにより3次元形状が表される物体の種類(即ち正解)を示す。基準データから所定の対象物の3次元形状の特徴を表す複数種の特徴量が抽出され、抽出された複数種の特徴量の各々がラベルと対応付けられる。このような対応付けを様々な基準データに対して繰り返すことによって、第1の識別器が生成(確立)される。生成された第1の識別器は、未知データから抽出される複数種の特徴量と、ラベルに対応付けて記憶済の複数種の特徴量との一致の程度に基づいて、未知対象物が所定の対象物であるか否かを識別する。
 第1の識別器の長所としては、生成に要する時間が短いことが挙げられる。学習データの数が相対的に多い場合であっても、第1の識別器であれば短時間(例えば、3-6分)で生成が完了する。第1の識別器の短所としては、未知対象物の検出に失敗する場合があることである。このような場合としては、未知データが複数の物体の3次元形状を表す場合が挙げられる。あるいは、未知データに基づいて生成される画像の背景領域が相対的に大きい場合が挙げられる。この画像は、未知データの表す3次元形状が任意の平面に投影されることによって生成される。また、第1の識別器を生成するアルゴリズムによっては、未知データに基づいて生成される画像に対して未知対象物が占める領域(未知対象物の位置)を特定できないという短所もある。第1の識別器により高い識別精度を得るためには、物体が剛体であること、物体の表面に模様があること、又は物体が複雑な形状(例えば平面)ではないこと、が挙げられる。剛体とは、外力の作用の下で変形しない物体のことをいう。例えば、所定の対象物が書籍又はチラシ等であれば、第1の識別器により、高い識別精度が得られる。
 ディープラーニングによる識別器の生成とは、BoundingBoxと正解ラベル付きの教師データとを用いることにより、階層構造による複数回の学習を経て、正解データの特徴を学習することにより識別器を生成することをいう。ディープラーニングにより生成される識別器(即ち第2の識別器)の長所としては、未知データに基づいて生成される画像に対する未知対象物が占める領域(未知対象物の位置)を特定できることである。これに加え、当該未知対象物の一部が遮蔽されている場合、未知対象物が若干変形している場合、或いは、外光の有無等の撮像環境の影響により未知対象物の色味が本来の色味とは異なっている場合であっても、未知対象物が所定の対象物であるか否かを識別できること、が挙げられる。第2の識別器の短所としては、未知対象物が所定の対象物ではないにも拘わらず、所定の対象物だと誤認識する可能性が第1の識別器よりも高くなる傾向があることである。このような場合が第1の識別器についても起こりえるが、第2の識別器に比較して誤認識が発生する確率は低い。また、第2の識別器には、その生成に長い時間(例えば、半日から10日)を要するといった短所もある。第2の識別器により高い識別精度が得られるためには、物体が剛体には限定されないこと、即ち物体が外力の作用に応じて変形し得ること、又は物体が複雑な3次元形状を有すること、が挙げられる。例えば、未知対象物がフィギュア、又は衣服等である場合には、第2の識別器を生成することにより、高い識別精度が得られる。
 ディープラーニングの具体例としては、「YOLO」、「faster RCNN」及び「Mask RCNN」が挙げられる。YOLOは四角領域内において未知対象物を検出する手法であり、学習時間が早い分精度が劣るという特徴がある。Faster RCNNもYOLOと同様の手法であるが、YOLOに比較して学習時間が長くなる一方、識別精度が高くなるといった特徴がある。Mask RCNNは、ピクセルレベルで未知対象物を検出(所謂Segmentation Detection)する手法である。本実施形態では、ディープラーニングの手法として「YOLO」、「faster RCNN」及び「Mask RCNN」のうちの何れかが採用されるが、他の手法が採用されてもよい。また、「ディープラーニング」という識別器情報に代えて、「YOLO」、「faster RCNN」及び「Mask RCNN」という3つの識別器情報が管理テーブルTBLに格納されてもよい。
 識別器情報に対応付けて管理テーブルTBLに格納されている複数種の特徴量の各々は、当該識別器情報の示す識別器による識別に適した物体の3次元形状の特徴を表す。図2に示す例では、特徴量Aと特徴量Bとの2種類の特徴量が同一の識別情報に対応付けられ、2種類の特徴量に関する閾値が管理テーブルTBLに格納されている。なお、管理テーブルTBLに格納される特徴量は、特徴量A及び特徴量Bに加え、双方の特徴量A及びBと異なる特徴量Cを含む3種類、又は更に他の種類の特徴量を含む4種類以上であってもよい。あるいは、管理テーブルTBLに格納される特徴量は、特徴量Aのみの1種類であってもよいし、特徴量Bのみの1種類であってもよい。
 図2における特徴量Aは、所定の対象物の表面を区画する面の数である。図2に示されるように、「特徴量マッチング」という識別器情報に対応付けて管理テーブルTBLに格納されている特徴量Aに関する閾値は閾値A1である。また、「ディープラーニング」という識別器情報に対応付けて管理テーブルTBLに格納されている特徴量Aに関する閾値は閾値A2である。閾値A2は閾値A1よりも大きい。例えば閾値A1は10であり、閾値A2は100である。所定の対象物の表面を区画する面の数が多くなるほど所定の対象物の3次元形状は複雑である。よって、複雑な3次元形状を有する物体であれば第2の識別器の方が第1の識別器よりも高い識別精度が得られる。
 また、図2における特徴量Bは、基準データにより表される各ポリゴンの法線ベクトルと当該ポリゴンに隣接するポリゴンの法線ベクトルとの為す角度の分布を表す値である。ポリゴンの法線ベクトルとは、ポリゴンの三つの頂点を含む平面の法線に沿ったベクトルのことをいう。特徴量Bの具体例としては、全体のポリゴンの数に対する隣接するポリゴンとの法線ベクトルの角度差が30度以上であるポリゴンの数、即ち前者のポリゴン数に対する後者のポリゴン数の割合、が挙げられる。図2に示されるように、「特徴量マッチング」という識別器情報に対応付けて管理テーブルTBLに格納されている特徴量Bに関する閾値は閾値B1である。また、「ディープラーニング」という識別器情報に対応付けて管理テーブルTBLに格納されている特徴量Bに関する閾値は閾値B2である。閾値B2は閾値B1よりも大きい。例えば閾値B1は0.3であり、閾値B2は0.5である。法線ベクトルの角度差が30度以上であるポリゴンの割合が高くなるほど所定の対象物の3次元形状は複雑である。よって、複雑な3次元形状を有する物体であれば、第2の識別器の方が第1の識別器よりも高い識別精度が得られる。なお、本実施形態における30度は例示であって、50度等の他の値であってもよい。
 処理装置140は、1又は複数のCPU(Central Processing Unit)を含む。処理装置140は、支援装置10の電源投入を契機として、記憶装置130からプログラムPR1を読み取る。処理装置140は、プログラムPR1を実行することによって、図1に示される取得部140a、算出部140b、選択部140c、及び出力制御部140dとして機能する。つまり、図1に示される取得部140a、算出部140b、選択部140c、及び出力制御部140dは、CPU等のコンピュータをプログラム等のソフトウェアに従って作動させることにより実現されるソフトウェアモジュールである。取得部140a、算出部140b、選択部140c、及び出力制御部140dの各々が担う機能は次の通りである。
 取得部140aは、通信装置110を介して、供給装置から基準データを取得する。
 算出部140bは、取得部140aにより取得された基準データから、所定の対象物の3次元形状の特徴を表す複数種の特徴量を算出する。本実施形態では、算出部140bは、管理テーブルTBLに示すように、識別器情報に対応する各特徴量を、基準データに基づいて算出する。即ち、算出部140bは、所定の対象物の3次元形状を構成する面の数(即ち特徴量A)と、基準データの表す各ポリゴンの法線ベクトルの分布(即ち特徴量B)とを算出する。なお、基準データ(即ち形状データ)から特徴量A及び特徴量Bを算出するアルゴリズムについては、既存のアルゴリズムが適宜採用されればよい。また、識別器情報に対応付けて1種類又は3種類以上の特徴量が管理テーブルTBLに格納されている場合には、算出部140bは、管理テーブルTBLに格納されている種類分の特徴量を基準データから算出すればよい。
 選択部140cは、未知対象データに基づいて未知対象物が所定の対象物であるか否かを識別する識別器を、予め定められた複数種の識別器のうちから、算出部140bにより算出された特徴量及び管理テーブルTBLに基づいて選択する。
 本実施形態では、算出部140bにより算出された特徴量Aが閾値A1以下であり、且つ算出部140bにより算出された特徴量Bが閾値B1以下であれば、選択部140cは、識別器情報「特徴量マッチング」を選択する。また、算出部140bにより算出された特徴量Aが閾値A2よりも大きな値であり、且つ算出部140bにより算出された特徴量Bが閾値B2よりも大きな値であれば、選択部140cは、識別器情報「ディープラーニング」を選択する。
 (a)算出部140bにより算出された特徴量Aが閾値A1より大きく且つ閾値A2以下である場合、選択部140cは、算出部140bにより算出された特徴量A及び特徴量Bを成分とする第1の特徴量ベクトルを生成する。(b)算出部140bにより算出された特徴量Bが閾値B1より大きく且つ閾値B2以下である場合、(a)の場合と同様に、選択部140cは、特徴量A及び特徴量Bを成分とする第1の特徴量ベクトルを生成する。次いで、選択部140cは、管理テーブルTBLに格納されている複数の識別器情報の各々について同様に第2の特徴量ベクトルを生成する。そして、選択部140cは、複数の第2の特徴量ベクトルのうち、第1の特徴量ベクトルと為す角度の絶対値が所定の閾値以下であり、且つ当該絶対値が最小の第2の特徴量ベクトルに対応する識別器情報を選択する。第1の特徴量ベクトルと第2の特徴量ベクトルの為す角度が0度に近いほど、第1の特徴量ベクトルにより表される特徴と第2の特徴量ベクトルにより表される特徴とが近似していることを意味するからである。第1の特徴量ベクトルと第2の特徴量ベクトルとの為す角度は、第1の特徴量ベクトルと第2の特徴量ベクトルとの内積を第1の特徴量ベクトルの大きさ及び第2の特徴量ベクトルの大きさで除算して得られる値の逆余弦を計算することにより求まる。選択部140cは、算出された特徴量Aを閾値と比較することなく、及び算出された特徴量Bを閾値と比較することなく、第1の特徴量ベクトルと第2の特徴量ベクトルとに基づいて識別器情報を選択してもよい。
 出力制御部140dは、選択部140cにより選択された識別器情報を含む画像を表示装置120に表示させる。例えば、選択部140cにより「特徴量マッチング」という識別器情報が選択された場合、出力制御部140dは、図3に示される画像G1を表示装置120に表示させる。また、選択部140cにより「ディープラーニング」という識別器情報が選択された場合、出力制御部140dは、図3に示される画像G2を表示装置120に表示させる。表示装置120に表示された画像G1又は画像G2を視認することによって、ユーザは、所定の対象物の識別に適した識別器が「特徴量マッチングにより物体を識別する識別器」であるか、「ディープラーニングにより生成される識別器」であるかを把握することができる。なお、出力制御部140dにより出力される識別結果は、識別器情報を含む画像には限定されず、識別器情報のような一定の文字列、又は、1ビット(0又は1)で表される値であってもよい。例えば、識別器を機械学習により生成する生成装置が支援装置10に接続され、出力制御部140dの出力を用いて生成装置が自動的に識別器を生成してもよい。このように、生成装置が支援装置10の出力を受けて特定の処理を自動的に実行する場合には、当該特定の処理の実行に適するように、生成装置の仕様に合わせて、出力制御部140dの出力フォーマットが選択されればよい。この場合、表示装置120に代えて、生成装置が接続されるインタフェース装置が設けられてもよい。あるいは、通信装置110が表示装置120の役割を兼ねてもよい。
 また、プログラムPR1に従って作動している処理装置140は、図4に示される支援方法を実行する。図4に示されるように、この支援方法は、取得処理SA110、算出処理SA120、選択処理SA130、及び出力制御処理SA140を含む。
 取得処理SA110では、処理装置140は、取得部140aとして機能する。取得処理SA110では、処理装置140は、通信装置110を介して、基準データを供給装置から取得する。
 算出処理SA120では、処理装置140は、算出部140bとして機能する。算出処理SA120では、処理装置140は、取得処理SA110にて取得された基準データから、所定の対象物の3次元形状の特徴を表す特徴量を算出する。
 選択処理SA130では、処理装置140は、選択部140cとして機能する。選択処理SA130では、処理装置140は、未知データに基づいて未知対象物が所定の対象物であるか否かを識別する識別器の種類を、算出処理SA120にて算出された特徴量及び管理テーブルTBLに基づいて選択する。
 出力制御処理SA140では、処理装置140は、出力制御部140dとして機能する。出力制御処理SA140では、処理装置140は、選択処理SA130にて選択された識別器情報を含む画像を表示装置120に出力させる。
 例えば、図5に示されるペットボトルOB1が所定の対象物であり、取得処理SA110では、ペットボトルOB1の形状データが基準データとして取得されたとする。そして、この基準データに基づいて算出処理SA120にて算出される特徴量Aの値が閾値A1未満であり、且つ特徴量Bの値が閾値B1未満であったとする。この場合、選択処理SA130では、識別器情報として「特徴量マッチング」が選択され、出力制御処理SA140では、図3に示す画像G1が表示される。この画像G1を視認したユーザが、機械学習により識別器を生成する生成装置にペットボトルに関する学習データを入力すれば、生成装置によって、ペットボトルの識別に適した識別器、即ち特徴量マッチングにより物体を識別する識別器が生成される。
 図5に示される怪獣のフィギュアOB2が所定の対象物であり、取得処理SA110では、怪獣のフィギュアOB2の形状データが基準データとして取得されたとする。そして、この基準データに基づいて算出処理SA120にて算出される特徴量Aの値が閾値A2以上であり、且つ特徴量Bの値が閾値B2以上であったとする。この場合、選択処理SA130では、識別器情報として「ディープラーニング」が選択され、出力制御処理SA140では、図3に示す画像G2が表示される。この画像G2を視認したユーザが、生成装置に怪獣のフィギュアに関する学習データを入力すれば、怪獣のフィギュアの識別に適した識別器、即ちディープラーニングにより生成される識別器が生成される。
 以上説明したように、本実施形態によれば、所定の対象物の3次元形状に関する特徴に応じた識別器を、無駄な試行錯誤を行うことなく、手早く生成することができる。なお、識別器の生成に用いる学習データは、その識別器によりどのような識別を行いたいかに応じて定まる。例えば、怪獣Dのフィギュアとそれ以外の物体との識別で十分な場合には、怪獣Dのフィギュアの形状データのみを用いた機械学習により識別器が生成されればよい。これに対して、怪獣Dのフィギュアと怪獣Eのフィギュアとを夫々別個に識別したい場合には、怪獣Dのフィギュアの形状データと怪獣Eのフィギュアの形状データとを学習データとして生成装置が機械学習を行うことにより、識別器が生成されればよい。怪獣DのフィギュアとロボットFのフィギュアとを夫々別個に識別したい場合も同様に、怪獣Dのフィギュアの形状データとロボットFのフィギュアの形状データとを学習データとして生成装置が機械学習を行うことにより、識別器が生成されればよい。また、識別精度向上のため、誤認識させたくない物体の形状データを不正解データとして生成装置が学習することにより識別器が生成されてもよい。
(B:変形)
 本開示は、以上に例示した実施形態に限定されない。具体的な変形の態様は以下の通りである。以下の例示から任意に選択された2以上の態様が併合されてもよい。
(B-1:変形例1)
 上記実施形態では、支援装置10の記憶装置130にプログラムPR1が記憶されていたが、プログラムPR1が単体で製造又は販売されてもよい。プログラムPR1の提供方法としては、フラッシュROM等のコンピュータ読み取り可能な記録媒体にプログラムPR1を書き込んで配布する方法、又は電気通信回線経由のダウンロードにより配布する方法が挙げられる。
(B-2:変形例2)
 上記実施形態における取得部140a、算出部140b、選択部140c、及び出力制御部140dは何れもソフトウェアモジュールであった。しかし、算出部140b、選択部140c、及び出力制御部140dのうちの何れか一つ、何れか二つ、何れか三つ、又は全部はハードウェアモジュールであってもよい。ハードウェアモジュールの具体例としては、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等が挙げられる。算出部140b、選択部140c、及び出力制御部140dのうちの何れか一つ、何れか二つ、又は全部がハードウェアモジュールであっても、上記実施形態と同一の効果が奏される。
(B-3:変形例3)
 上記実施形態では、機械学習を実行することにより識別器を生成する生成装置と支援装置10とが別個の装置であったが、支援装置10は生成装置に含まれてもよい。支援装置10が生成装置に含まれる態様では、選択部140cによる識別器の選択結果に応じて識別器が生成されればよく、選択部140cによる選択結果の表示は必須ではない。従って、支援装置10が生成装置に含まれる場合、出力制御部140d及び出力制御処理SA140は省略されてもよい。
(C:その他)
(1)上述した実施形態では、記憶装置130としてROM及びRAM等が例示されたが、記憶装置130は、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD-ROM(Compact Disc-ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体であってもよい。
(2)上述した実施形態において、説明した情報、信号等は、様々な異なる技術の何れかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップ等は、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
(3)上述した実施形態において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
(4)上述した実施形態において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
(5)上述した実施形態において例示した処理手順、シーケンス、フローチャート等は、矛盾の無い限り、順序が入れ替えられてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素が提示されており、提示された特定の順序に限定されない。
(6)図1に例示された各機能は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線等を用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
(7)上述した実施形態で例示したプログラムは、ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能等を意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報等は、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)等)及び無線技術(赤外線、マイクロ波等)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
(8)前述の各形態において、「システム」及び「ネットワーク」という用語は、互換的に使用される。
(9)本開示において説明した情報、パラメータ等は、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
(10)上述した実施形態において、携帯機器には、移動局(MS:Mobile Station)である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。また、本開示においては、「移動局」、「ユーザ端末(user terminal)」、「ユーザ装置(UE:User Equipment)」、「端末」等の用語は、互換的に使用され得る。
(11)上述した実施形態において、「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は、「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギー等を用いて、互いに「接続」又は「結合」されると考えることができる。
(12)上述した実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
(13)本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事等を含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事等を含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)等した事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」等で読み替えられてもよい。
(14)上述した実施形態において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。更に、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
(15)本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
(16)本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBが夫々Cと異なる」ことを意味してもよい。「離れる」、「結合される」等の用語も、「異なる」と同様に解釈されてもよい。
(17)本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
(D:上述の形態又は変形例から把握される態様)
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。従って、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。上述の実施形態又は変形例の少なくとも1つから以下の態様が把握される。
 第1の態様による識別器生成支援装置は、取得部、算出部、及び選択部を備える。取得部は、所定の対象物の3次元形状を表すデータを取得する。算出部は、前記取得部により取得されたデータを用いて、前記所定の対象物の3次元形状の特徴を表す特徴量を算出する。選択部は、物体の3次元形状を表すデータに基づいて前記物体が前記所定の対象物であるか否かを識別する識別器を、複数種の識別器のうちから前記算出部により算出された特徴量に基づいて選択する。第1の態様による識別器生成支援装置により選択された識別器が生成されるので、所定の対象物の3次元形状に関する特徴に応じた識別器を、試行錯誤を行うことなく、手早く生成することができる。
 第2の態様(第1の態様の例)では、前記所定の対象物は、複数の面を有する3次元形状である。前記算出部は、前記複数の面の数と、前記複数の面の各々の法線に沿ったベクトルの分布との少なくとも一方を前記特徴量として算出する。第2の態様の識別器生成支援装置によれば、所定の対象物の3次元形状を構成する面の数と各面の法線に沿ったベクトルの分布との少なくとも一方に対応する識別器、即ち所定の対象物の3次元形状に関する特徴に対応する識別器を、試行錯誤を行うことなく、手早く生成することができる。
 第3の態様(第1の態様の例又は第2の態様の例)による識別器生成支援装置における複数種の識別器は、特徴量マッチングにより識別を行う第1の識別器を含む。第3の態様の識別器生成支援装置によれば、所定の対象物が特徴量マッチングによる識別に適した物体である場合に、誤ってディープラーニングにより識別器を生成する等の試行錯誤を行うことなく、当該所定の対象物に適した識別器、即ち第1の識別器を手早く生成することができる。
 第4の態様(第1の態様の例又は第2の態様の例)による識別器生成支援装置における複数種の識別器は、ディープラーニングにより生成される第2の識別器を含む。第4の態様の識別器生成支援装置によれば、ディープラーニングにより生成される識別器による識別に適した3次元形状を有する物体が所定の対象物である場合に、特徴量マッチングにより識別を行う識別器を誤って生成する等の試行錯誤を行うことなく、当該対象物に適した識別器、即ち第2の識別器を手早く生成することができる。
10…識別器生成支援装置、110…通信装置、120…表示装置、130…記憶装置、140…処理装置、140a…取得部、140b…算出部、140c…選択部、140d…出力制御部、150…バス、PR1…プログラム、TBL…管理テーブル。

Claims (4)

  1.  所定の対象物の3次元形状を表すデータを取得する取得部と、
     前記取得部により取得されたデータを用いて、前記所定の対象物の3次元形状の特徴を表す特徴量を算出する算出部と、
     物体の3次元形状を表すデータに基づいて前記物体が前記所定の対象物であるか否かを識別する識別器を、複数種の識別器のうちから前記算出部により算出された特徴量に基づいて選択する選択部と、
     を備える、識別器生成支援装置。
  2.  前記所定の対象物は、複数の面を有する3次元形状であり、
     前記算出部は、前記複数の面の数と、前記複数の面の各々の法線に沿ったベクトルの分布との少なくとも一方を前記特徴量として算出する、ことを特徴とする請求項1に記載の識別器生成支援装置。
  3.  前記複数種の識別器は、特徴量マッチングにより識別を行う第1の識別器を含む、請求項1又は請求項2に記載の識別器生成支援装置。
  4.  前記複数種の識別器は、ディープラーニングにより生成される第2の識別器を含む、請求項1又は請求項2に記載の識別器生成支援装置。
PCT/JP2023/018953 2022-07-20 2023-05-22 識別器生成支援装置 WO2024018746A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022115368 2022-07-20
JP2022-115368 2022-07-20

Publications (1)

Publication Number Publication Date
WO2024018746A1 true WO2024018746A1 (ja) 2024-01-25

Family

ID=89617386

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/018953 WO2024018746A1 (ja) 2022-07-20 2023-05-22 識別器生成支援装置

Country Status (1)

Country Link
WO (1) WO2024018746A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010140613A1 (ja) * 2009-06-03 2010-12-09 学校法人中部大学 物体検出装置
US20130114858A1 (en) * 2010-07-13 2013-05-09 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for Detecting a Target in Stereoscopic Images by Learning and Statistical Classification on the Basis of a Probability Law
US20140192050A1 (en) * 2012-10-05 2014-07-10 University Of Southern California Three-dimensional point processing and model generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010140613A1 (ja) * 2009-06-03 2010-12-09 学校法人中部大学 物体検出装置
US20130114858A1 (en) * 2010-07-13 2013-05-09 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for Detecting a Target in Stereoscopic Images by Learning and Statistical Classification on the Basis of a Probability Law
US20140192050A1 (en) * 2012-10-05 2014-07-10 University Of Southern California Three-dimensional point processing and model generation

Similar Documents

Publication Publication Date Title
JP6751684B2 (ja) 類似画像検索装置
US11475588B2 (en) Image processing method and device for processing image, server and storage medium
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
US9025863B2 (en) Depth camera system with machine learning for recognition of patches within a structured light pattern
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN111079785A (zh) 一种图像识别方法、装置及终端设备
WO2022022292A1 (zh) 手持物体识别方法及装置
CN114187633A (zh) 图像处理方法及装置、图像生成模型的训练方法及装置
CN110390327A (zh) 前景提取方法、装置、计算机设备及存储介质
CN112580734A (zh) 目标检测模型训练方法、***、终端设备及存储介质
CN114170688B (zh) 人物交互关系识别方法、装置、电子设备
CN111400528A (zh) 一种图像压缩方法、装置、服务器及存储介质
JP2021051589A (ja) 情報処理装置、情報処理方法
CN116824609B (zh) 文档版式检测方法、装置和电子设备
CN114140802A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN114387642A (zh) 图像分割方法、装置、设备和存储介质
WO2024018746A1 (ja) 識別器生成支援装置
JP2017059144A (ja) 情報端末装置、プログラム及びデータ構造
WO2019100348A1 (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN110443812A (zh) 眼底图像分割方法、装置、设备和介质
CN108921129A (zh) 图像处理方法、***、介质和电子设备
CN114973333A (zh) 人物交互检测方法、装置、设备以及存储介质
CN108133206B (zh) 静态手势识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23842678

Country of ref document: EP

Kind code of ref document: A1