WO2019192397A1 - 一种任意形状的场景文本端到端识别方法 - Google Patents

一种任意形状的场景文本端到端识别方法 Download PDF

Info

Publication number
WO2019192397A1
WO2019192397A1 PCT/CN2019/080354 CN2019080354W WO2019192397A1 WO 2019192397 A1 WO2019192397 A1 WO 2019192397A1 CN 2019080354 W CN2019080354 W CN 2019080354W WO 2019192397 A1 WO2019192397 A1 WO 2019192397A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
network
character
region
rcnn
Prior art date
Application number
PCT/CN2019/080354
Other languages
English (en)
French (fr)
Inventor
白翔
吕鹏原
廖明辉
姚聪
储佳佳
Original Assignee
华中科技大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华中科技大学 filed Critical 华中科技大学
Publication of WO2019192397A1 publication Critical patent/WO2019192397A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Definitions

  • the invention belongs to the field of computer vision technology, and more particularly to an end-to-end identification method for scene text of arbitrary shape.
  • scene text detection and recognition is a very active and challenging research direction.
  • Many real-life applications are closely related to it, such as image-based geolocation, real-time translation and blind help.
  • the goal of the scene text detection and recognition method is to simultaneously detect and recognize text from natural scenes, that is, to divide and detect two tasks.
  • text detection and recognition were handled separately, that is, the first step uses a trained detector to detect the text area in the natural scene picture, and the second step uses the first step to detect the text area.
  • the input recognition module recognizes and obtains text content.
  • the quality of the detection steps determines the accuracy of the identification; on the other hand, the results of the identification can also provide feedback for the detection. This separate processing may result in inability to achieve optimal performance for detection and identification.
  • the method of segmenting the instance text area is used to detect the text of any shape; the semantic segmentation in the two-dimensional space is used to identify the text, and the irregular text instance is realized.
  • This method can detect and identify text instances of any shape and can be fully end-to-end trained.
  • the present invention solves the problem of scene text detection and recognition from a new perspective, and provides an end-to-end identification method for scene text of arbitrary shape, including the following steps:
  • the label is the clockwise vertex coordinates of the text bounding box of the word level and the word character sequence of the text, and obtain the standard training data set with the annotation;
  • (1.2) Define an end-to-end identification network model of the scene text of an arbitrary shape.
  • the detection and recognition network model is composed of a feature pyramid structure network, a region extraction network, a fast region classification regression branch network, and a segmentation branch network.
  • the standard training data set with annotation calculate the training label, and design the loss function, use the reverse conduction method to train the end-to-end identification network of the scene text of arbitrary shape, and obtain the end-to-end identification network of the scene text of arbitrary shape.
  • Model specifically includes the following substeps:
  • the identification network model is composed of a feature pyramid structure network, a region extraction network, a fast region classification regression branch network, and a segmentation branch network; wherein the feature The pyramid structure network is shown in Figure 3.
  • the ResNet-50 deep convolutional neural network it consists of adding a bottom-up connection, a top-down connection and a horizontal connection for inputting standard data.
  • the features of different resolutions are extracted from the set image; the extracted features of different scales are input into the region extraction network to obtain candidate text regions. After the region of interest is aligned, a fixed-scale candidate text region is obtained and input into the fast region classification respectively.
  • Regression branch and segmentation branch network input the candidate text region with resolution of 7 ⁇ 7 extracted by the region extraction network into the fast region classification regression network, and provide more accurate candidates by predicting the probability that the input candidate text region is a positive sample by the classification branch prediction Text area, calculate candidate text area by regression branch The position of the candidate text area is adjusted relative to the offset of the real text area; the split branch network is as shown in FIG.
  • the convolution layer Conv5 is composed, and the candidate text region with the resolution of 16 ⁇ 64 extracted by the region extraction network is input into the segmentation branch, and the convolution and deconvolution operations are used to finally generate 38 target segmentation layers with a resolution of 32 ⁇ 128. It includes a global text instance segmentation layer for predicting the specific position of the text region, and a 36-character segmentation layer and a 1-character background segmentation layer to obtain a predicted character sequence by a pixel voting algorithm.
  • the category label P rpn takes a value of 0; otherwise, there is at least one label enclosing box G d and Q 0 with a Jaccard coefficient of not less than 0.5, Q 0 is marked as a positive type text, and the category label P rpn takes a value of 1, And relative to the label box with the largest Jaccard coefficient Position shift amount, the following formula:
  • x 0 and y 0 are the abscissa and ordinate of the center point of the initial bounding box Q 0 , respectively, w 0 and h 0 are the width and height of the initial bounding box Q 0 , respectively, and ⁇ x and ⁇ y are respectively the center of Q 0 .
  • the horizontal and vertical coordinate position offset of the point relative to the center point of G d , exp is an exponential operation, and the training label of the region extraction network is:
  • Gt rpn ( ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn , P rpn )
  • Target tags For splitting the branch network, two types of target tags are generated: a global tag for text instance segmentation and a character tag for character semantic segmentation; for a given positive candidate text box r, the best matching horizontal rectangle first Further obtaining the matched polygon and the character frame, and then shifting and resizing the matched polygon and the character frame, so as to select the candidate text box r and the target label with the preset height H and the preset width W as follows: Formulas are aligned:
  • (r x , r y ) is the vertex of the candidate text box r, (B x , B y ) and Is the updated vertex and the original vertex of the polygon and all the character boxes.
  • r x is the set of the abscissas of all the vertices of the candidate text box r, respectively
  • r y is the set of the ordinates of all the vertices of the candidate text box r, B x , B y
  • the standardized character box is reduced to the original box size by eight points.
  • Gt ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn , P rpn , ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn , P rcnn , X ⁇ ;
  • stage features ⁇ F2, F3, F4, F5, F6 ⁇ are extracted through the feature pyramid network, and the feature scales of the anchors at different stages are defined according to the stages ⁇ P2, P3, P4, P5, P6 ⁇ .
  • 32 2 , 64 2 , 128 2 , 256 2 , 512 2 ⁇ , and each scale layer has 3 aspect ratios ⁇ 1:2, 1:1, 2:1 ⁇ ; different scales and ratios can be extracted 15 feature maps ⁇ Ftr 1 , Ftr 2 , ..., Ftr 15 ⁇ , denoted as Ftr p , subscript p 1,...,15;
  • a fixed-scale candidate text region is generated for the feature Ftr p , wherein a resolution of 7 ⁇ 7 candidate text region R rcnn is generated for the region extraction network, and a candidate with a resolution of 16 ⁇ 64 is generated for the segmentation branch.
  • the text region R mask and predicting the probability P rpn of each candidate text box as a bounding box of the correct text region by classification , predicting the candidate text box offset by regression:
  • Y rpn ( ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn ).
  • the probability that the bounding box is a positive text box is predicted, and the value is a decimal value between [0, 1]; the R rcnn is input into the regression branch, and the predicted regression offset composed of the decimals between four [0, 1] is output.
  • the quantity Y rcnn ( ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn ), as the height and width of the abscissa, ordinate, and text box of the center point when the predicted bounding box G q is predicted to be a positive text box surrounding the center point G d cartridge abscissa, ordinate offset predicted position and the text box of height and width.
  • the segmentation branch network module includes 4 convolutional layers Conv1, Conv2, Conv3, Conv4, a deconvolution layer DeConv, and a final convolutional layer Conv5;
  • the region extraction network generates a 16 ⁇ 64 candidate text box R mask input segmentation branch module, after Convolution, deconvolution, etc., finally generate 38 target segmentation layers ⁇ M global , M 1 , M 2 ,..., M 36 , M background ⁇ with a size of 32 ⁇ 128, and output pixels of each pixel in the layer.
  • the value X is between [0,1].
  • the layer M background can predict the sequence of characters S q according to a pixel voting algorithm.
  • step (1.2.7) Use the training tag gt as the network expectation output to predict the tag
  • the training tag gt calculated in step (1.2.2) is the network expected output
  • step (1.2.4) Predictive labels in (1.2.5) and (1.2.6)
  • the target loss function between the expected output and the predicted output is designed for the network model constructed in (1.2.1).
  • the overall target loss function is determined by the region extraction network, the fast region classification regression branch network, and the split branch network loss function. Together, the overall target loss function expression is as follows:
  • L rpn (P rpn , Y rpn ) is the loss function of the region extraction network
  • L rcnn (P rcnn , Y rcnn ) is the loss function of the fast region classification regression branch network
  • L mask (X) is the loss of the segmentation branch network.
  • ⁇ 1 , ⁇ 2 are the weight coefficients of the loss functions L rcnn and L mask , respectively, which are simply set to 1;
  • the model is iteratively trained by the back propagation algorithm, the overall target loss function is minimized, the optimal network model is realized, and the task is detected for the scene text detection.
  • the synthetic text data set is first used in the training process. SynthText) iteratively trains to get the initial network parameters; then trains and fine-tunes the network parameters on the real data set.
  • the above-mentioned trained model is used for character recognition of the recognized text picture, including the following sub-steps:
  • the initial bounding box is generated and then input into the fast region classification regression branch network for each initial The bounding box G q , the classification branch outputs a score predicted by the classification score P rcnn as the initial bounding box G q is predicted as a positive class sample; the regression branch outputs a predicted regression offset Y rcnn composed of 4 decimals ( ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn ), as the G q is predicted as a positive text box, the center point abscissa, the ordinate and the height and width are relative to the center of the label bounding box G d , the ordinate and the ordinate
  • the position offset of the height and the width, according to the position offset, the quadrilateral text bounding box position Q z predicted by the network can be calculated;
  • the network model Performing a non-maximum suppression operation on the predicted text bounding box Q z to obtain an output result: the network model returns the horizontal quadrilateral position for each initial bounding box Q 0 predicted as a positive type text on the feature map Ftst p , the same The normal text quadrilaterals returned on each feature map of the test image Itst k usually overlap with each other. In this case, the non-maximum suppression operation is performed on all normal text quadrilateral positions.
  • the specific steps are: 1) For the predicted text bounding box, the detection text box is retained if and only if the text classification score P rcnn ⁇ 0.5; 2) for the text box retained in the previous step, the non-maximum suppression operation is performed according to the Jaccard coefficient 0.2 (NMS), get the last retained positive text quadrilateral bounding box.
  • NMS Jaccard coefficient 0.2
  • the value p ci (x, y) of a pixel on the i-th segmentation layer represents the corresponding position pixel p g of the global text segmentation layer.
  • (x, y) is the probability of the character z i
  • z i is the ith of the 36 characters ⁇ 0, 1, ..., 9, a, b, ..., z ⁇
  • 36 characters are divided
  • the probability sum of the layer corresponding to the pixel position is 1, ie
  • the character sequence of the segmentation branch prediction is processed by the weighted edit distance algorithm to find the best matching word of the prediction sequence in the given dictionary, and the final recognition result is obtained: in the pixel voting phase, each character region in the prediction sequence can be obtained.
  • the probability of all character categories defines different weights for delete, insert, and replace operations.
  • the cost is the probability that the character is predicted to be the currently deleted character; for the insert operation, the cost is the average probability of two characters adjacent to the character insertion position; for the replacement operation, the calculation cost is: max(1-s1 /s2,0), where s1 and s2 are the probability of the candidate character and the predicted character to be replaced.
  • the weighted edit distance algorithm is used to regress the predicted string according to the given dictionary, define different weights for deletion, insertion, and replacement, adjust the predicted words, improve the accuracy, and obtain the final recognition result.
  • the present invention has the following technical effects compared with the prior art:
  • the invention is directed to the problem of text recognition of any shape in the scene text, innovatively using instance segmentation to detect text, semantic segmentation to recognize text, more accurately detecting text position and recognizing text.
  • the invention has an end-to-end trainable text detection and recognition model that not only can detect and recognize text at the same time, but also achieve complete end-to-end training, and can also process texts of various shapes, including horizontal, orientation and curve. text;
  • the present invention can overcome variations in text scale and shape, and can simultaneously detect recognition levels, orientations, and curved texts.
  • FIG. 1 is a flow chart of an end-to-end identification method for scene text of an arbitrary shape according to the present invention, wherein a solid arrow indicates training and a dotted arrow indicates test;
  • FIG. 2 is a schematic diagram of an end-to-end identification network model of scene text of any shape according to the present invention
  • FIG. 3 is a schematic diagram of a network structure of a feature pyramid structure module in an end-to-end identification model of a scene text of any shape according to the present invention
  • FIG. 4 is a structural diagram of a split branch network in an end-to-end recognition model of a scene text of any shape according to the present invention
  • FIG. 5 is a schematic diagram of a partial pixel voting algorithm of the test portion of the present invention.
  • ResNet-50 A neural network that can be used for classification.
  • the network consists of 50 layers of convolution, pooling, and shortening.
  • the convolution layer is used to extract picture features;
  • the role of the pooling layer is to reduce the dimension of the feature vector output from the convolutional layer and reduce the over-fitting;
  • the shortcut connection layer is used to convey the gradient to solve the disappearance and explosion gradient problems.
  • Network parameters can be updated by a reverse conduction algorithm;
  • Area extraction network A network for generating candidate text regions. By using a sliding window, a fully connected feature with a height of a specific dimension is generated on the extracted feature map, and two fully connected branch classifications and regression candidate text regions are generated accordingly. Finally, candidate text regions of different scale ratios are generated for subsequent networks according to different anchor points and proportions.
  • Jaccard coefficient is used to compare the similarity and difference between finite sample sets. In the field of text detection, the Jaccard coefficient is equated to IOU by default, that is, the intersection area/combined area of two boxes, and the prediction generated by the model is described. The overlap ratio between the text box and the original label text box. The larger the IOU, the higher the overlap and the more accurate the detection.
  • Non-maximum suppression is a post-processing algorithm widely used in the field of computer vision detection. It performs looping iterations through sorting, traversing and culling according to a set threshold. Filtering, removing redundant detection frames, and getting the final test results.
  • the end-to-end identification method of the scene text of any shape of the present invention includes the following steps:
  • the label is the clockwise vertex coordinates of the text bounding box of the word level and the word character sequence of the text, and obtain the standard training data set with the annotation;
  • (1.2) Define an end-to-end identification network model of the scene text of an arbitrary shape.
  • the detection and recognition network model is composed of a feature pyramid structure network, a region extraction network, a fast region classification regression branch network, and a segmentation branch network.
  • the standard training data set with annotation calculate the training label, and design the loss function, use the reverse conduction method to train the end-to-end identification network of the scene text of arbitrary shape, and obtain the end-to-end identification network of the scene text of arbitrary shape.
  • Model specifically includes the following substeps:
  • the identification network model is composed of a feature pyramid structure network, a region extraction network, a fast region classification regression branch network, and a segmentation branch network; wherein the feature The pyramid structure network is shown in Figure 3.
  • the ResNet-50 deep convolutional neural network it consists of adding a bottom-up connection, a top-down connection and a horizontal connection for inputting standard data.
  • the features of different resolutions are extracted from the set image; the extracted features of different scales are input into the region extraction network to obtain candidate text regions. After the region of interest is aligned, a fixed-scale candidate text region is obtained and input into the fast region classification respectively.
  • Regression branch and segmentation branch network input the candidate text region with resolution of 7 ⁇ 7 extracted by the region extraction network into the fast region classification regression network, and provide more accurate candidates by predicting the probability that the input candidate text region is a positive sample by the classification branch prediction Text area, calculate candidate text area by regression branch The position of the candidate text area is adjusted relative to the offset of the real text area; the split branch network is as shown in FIG.
  • the convolution layer Conv5 is composed, and the candidate text region with the resolution of 16 ⁇ 64 extracted by the region extraction network is input into the segmentation branch, and the convolution and deconvolution operations are used to finally generate 38 target segmentation layers with a resolution of 32 ⁇ 128. It includes a global text instance segmentation layer for predicting the specific position of the text region, and a 36-character segmentation layer and a 1-character background segmentation layer to obtain a predicted character sequence by a pixel voting algorithm.
  • the category label P rpn takes a value of 0; otherwise, there is at least one label enclosing box G d and Q 0 with a Jaccard coefficient of not less than 0.5, Q 0 is marked as a positive type text, and the category label P rpn takes a value of 1, And relative to the label box with the largest Jaccard coefficient Position shift amount, the following formula:
  • x 0 and y 0 are the abscissa and ordinate of the center point of the initial bounding box Q 0 , respectively, w 0 and h 0 are the width and height of the initial bounding box Q 0 , respectively, and ⁇ x and ⁇ y are respectively the center of Q 0 .
  • the horizontal and vertical coordinate position offset of the point relative to the center point of G d , exp is an exponential operation, and the training label of the region extraction network is:
  • Gt rpn ( ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn , P rpn )
  • the training label can be calculated as:
  • Gt rcnn ( ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn , P rcnn )
  • Target tags For splitting the branch network, two types of target tags are generated: a global tag for text instance segmentation and a character tag for character semantic segmentation; for a given positive candidate text box r, the best matching horizontal rectangle first Further obtaining the matched polygon and the character frame, and then shifting and resizing the matched polygon and the character frame, so as to select the candidate text box r and the target label with the preset height H and the preset width W as follows: Formulas are aligned:
  • (r x , r y ) is the vertex of the candidate text box r, (B x , B y ) and Is the updated vertex and the original vertex of the polygon and all the character boxes.
  • r x is the set of the abscissas of all the vertices of the candidate text box r, respectively
  • r y is the set of the ordinates of all the vertices of the candidate text box r, B x , B y
  • the standardized character box is reduced to the original box size by eight points.
  • Gt ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn , P rpn , ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn , P rcnn , X ⁇ ;
  • stage features ⁇ F2, F3, F4, F5, F6 ⁇ are extracted through the feature pyramid network, and the feature scales of the anchors at different stages are defined according to the stages ⁇ P2, P3, P4, P5, P6 ⁇ .
  • 32 2 , 64 2 , 128 2 , 256 2 , 512 2 ⁇ , and each scale layer has 3 aspect ratios ⁇ 1:2, 1:1, 2:1 ⁇ ; different scales and ratios can be extracted 15 feature maps ⁇ Ftr 1 , Ftr 2 , ..., Ftr 15 ⁇ , denoted as Ftr p , subscript p 1,...,15;
  • a fixed-scale candidate text region is generated for the feature Ftr p , wherein a resolution of 7 ⁇ 7 candidate text region R rcnn is generated for the region extraction network, and a candidate with a resolution of 16 ⁇ 64 is generated for the segmentation branch.
  • the text region R mask and predicting the probability P rpn of each candidate text box as a bounding box of the correct text region by classification , predicting the candidate text box offset by regression:
  • Y rpn ( ⁇ x rpn , ⁇ y rpn , ⁇ h rpn , ⁇ w rpn ).
  • the probability that the bounding box is a positive text box is predicted, and the value is a decimal value between [0, 1]; the R rcnn is input into the regression branch, and the predicted regression offset composed of the decimals between four [0, 1] is output.
  • the quantity Y rcnn ( ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn ), as the height and width of the abscissa, ordinate, and text box of the center point when the predicted bounding box G q is predicted to be a positive text box surrounding the center point G d cartridge abscissa, ordinate offset predicted position and the text box of height and width.
  • the segmentation branch network module includes 4 convolutional layers Conv1, Conv2, Conv3, Conv4, a deconvolution layer DeConv, and a final convolutional layer Conv5;
  • the region extraction network generates a 16 ⁇ 64 candidate text box R mask input segmentation branch module, after Convolution, deconvolution, etc., finally generate 38 target segmentation layers ⁇ M global , M 1 , M 2 ,..., M 36 , M background ⁇ with a size of 32 ⁇ 128, and output pixels of each pixel in the layer.
  • the value X is between [0,1].
  • the layer M background can predict the sequence of characters S q according to a pixel voting algorithm.
  • step (1.2.7) Use the training tag gt as the network expectation output to predict the tag
  • the training tag gt calculated in step (1.2.2) is the network expected output
  • step (1.2.4) Predictive labels in (1.2.5) and (1.2.6)
  • the target loss function between the expected output and the predicted output is designed for the network model constructed in (1.2.1).
  • the overall target loss function is determined by the region extraction network, the fast region classification regression branch network, and the split branch network loss function. Together, the overall target loss function expression is as follows:
  • L rpn (P rpn , Y rpn ) is the loss function of the region extraction network
  • L rcnn (P rcnn , Y rcnn ) is the loss function of the fast region classification regression branch network
  • L mask (X) is the loss of the segmentation branch network.
  • ⁇ 1 , ⁇ 2 are the weight coefficients of the loss functions L rcnn and L mask , respectively, which are simply set to 1;
  • the model is iteratively trained by the back propagation algorithm, the overall target loss function is minimized, the optimal network model is realized, and the task is detected for the scene text detection.
  • the synthetic text data set is first used in the training process. SynthText) iteratively trains to get the initial network parameters; then trains and fine-tunes the network parameters on the real data set.
  • the above-mentioned trained model is used for character recognition of the recognized text picture, including the following sub-steps:
  • the initial bounding box is generated and then input into the fast region classification regression branch network for each initial The bounding box G q , the classification branch outputs a score predicted by the classification score P rcnn as the initial bounding box G q is predicted as a positive class sample; the regression branch outputs a predicted regression offset Y rcnn composed of 4 decimals ( ⁇ x rcnn , ⁇ y rcnn , ⁇ h rcnn , ⁇ w rcnn ), as the G q is predicted as a positive text box, the center point abscissa, the ordinate and the height and width are relative to the center of the label bounding box G d , the ordinate and the ordinate
  • the position offset of the height and the width, according to the position offset, the quadrilateral text bounding box position Q z predicted by the network can be calculated;
  • the network model Performing a non-maximum suppression operation on the predicted text bounding box Q z to obtain an output result: the network model returns the horizontal quadrilateral position for each initial bounding box Q 0 predicted as a positive type text on the feature map Ftst p , the same The normal text quadrilaterals returned on each feature map of the test image Itst k usually overlap with each other. In this case, the non-maximum suppression operation is performed on all normal text quadrilateral positions.
  • the specific steps are: 1) For the predicted text bounding box, the detection text box is retained if and only if the text classification score P rcnn ⁇ 0.5; 2) for the text box retained in the previous step, the non-maximum suppression operation is performed according to the Jaccard coefficient 0.2 (NMS), get the last retained positive text quadrilateral bounding box.
  • NMS Jaccard coefficient 0.2
  • the value p ci (x, y) of a pixel on the i-th segmentation layer represents the corresponding position pixel p g of the global text segmentation layer.
  • (x, y) is the probability of the character z i
  • z i is the ith of the 36 characters ⁇ 0, 1, ..., 9, a, b, ..., z ⁇
  • 36 characters are divided
  • the probability sum of the layer corresponding to the pixel position is 1, ie
  • the character sequence of the segmentation branch prediction is processed by the weighted edit distance algorithm to find the best matching word of the prediction sequence in the given dictionary, and the final recognition result is obtained: in the pixel voting phase, each character region in the prediction sequence can be obtained.
  • the probability of all character categories defines different weights for delete, insert, and replace operations.
  • the cost is the probability that the character is predicted to be the currently deleted character; for the insert operation, the cost is the average probability of two characters adjacent to the character insertion position; for the replacement operation, the calculation cost is: max(1-s1 /s2, 0), where s1 and s2 are the probability of the candidate character and the predicted character to be replaced.
  • the weighted edit distance algorithm is used to regress the predicted string according to the given dictionary, define different weights for deletion, insertion, and replacement, adjust the predicted words, improve the accuracy, and obtain the final recognition result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种任意形状的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息;其次将包围盒位置信息输入分割分支,通过像素投票算法得到预测字符序列;最后通过加权编辑距离算法对预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。该检测识别方法有很强的实际应用价值。

Description

一种任意形状的场景文本端到端识别方法 技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种任意形状的场景文本端到端识别方法。
背景技术
在计算机视觉领域中,场景文本检测和识别是一个非常活跃的、具有挑战性的研究方向,很多现实生活中的应用都和它息息相关,例如基于图片的地理定位、实时翻译和盲人帮助等。
场景文本检测和识别方法的目标为同时检测和识别来自自然场景的文本,即分为检测和识别两个任务。在过去的大多数研究中,文本检测和识别都是分开处理的,即第一步使用训练好的检测器检测自然场景图片中的文字区域,第二步则将第一步检测出的文字区域输入识别模块进行识别,获取文字内容。但由于这两个任务是高度相关和互补的,一方面,检测步骤的质量决定了识别的准确性;另一方面,识别的结果也可以为检测提供反馈。这样分开处理可能导致检测和识别无法达到最优性能。
最近,有两种方法提出了用于场景文本识别的端到端可训练框架。鉴于检测和识别之间的互补性,这些统一模型显著优于以前的方法。但是,这两种方法有两个主要缺点,首先,它们都不能完全以端对端的方式进行训练。其次,这些方法只能识别水平文本或定向文本,但实际场景图片中的文本的形状可能会存在显著变化,从水平或定向变为弯曲形式。因此需 要设计一种可以处理任意形状的场景文本的端到端识别方法。
发明内容
本发明的目的在于提供一种任意形状的场景文本端到端识别方法,该识别方法由一个基于实例分割的文本检测器和一个基于字符分割的文本识别器组成。通过分割实例文本区域的方法实现检测任意形状的文本;通过二维空间中的语义分割来识别文本,实现识别不规则文本实例。该方法可以检测和识别任意形状的文本实例并可以完全地进行端到端训练。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测识别问题,提供了一种任意形状的场景文本的端到端识别方法,包括下述步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络如图3所示,以 ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络如图4所示,由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具***置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p 1,p 2…p m}和表示字符的类别和位置的字符标签C={c 1=(cc 1,cl 1),c 2=(cc 2,cl 2),…,c n=(cc n,cl n)},对于输入图片Itr i,其中,P i是图片Itr i中文本区域的多边形包围盒,p ij=(x ij,y ij)是多边形P i第j个顶点的坐标,m表示多边形 文本标注框的数目,cc k和cl k分别是文本中第k个字符的类别和位置,在本发明中,C不是对于所有训练样本都是必需的。
对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p 1,p 2…p m}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒G d(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒G d(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q 0相对于标注数据集的标注包围盒G d的位置偏移量和类别,当所有的标注包围盒G d与初始包围盒Q 0的Jaccard系数均小于0.5,那么,初始包围盒Q 0被标记为负类非文本,类别标签P rpn取值为0;否则,即至少存在一个标注包围盒G d与Q 0的Jaccard系数不小于0.5,Q 0被标记为正类文本,类别标签P rpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
x=x 0+w 0Δx
y=y 0+h 0Δy
w=w 0exp(Δw)
h=h 0exp(Δh)
其中,x 0、y 0分别为初始包围盒Q 0的中心点的横坐标、纵坐标,w 0、h 0分别为初始包围盒Q 0的宽度和高度,Δx、Δy分别为Q 0的中心点相对于G d的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
gt rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn)
对于快速区域分类回归分支网络,同理,可计算得训练标签为:gt rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn,P rcnn)
对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
Figure PCTCN2019080354-appb-000001
Figure PCTCN2019080354-appb-000002
其中,(r x,r y)为候选文本框r的顶点,(B x,B y)和
Figure PCTCN2019080354-appb-000003
是多边形和所有字符框的更新顶点和原始顶点,具体地,r x分别为候选文本框r的所有顶点的横坐标的集合,r y为候选文本框r的所有顶点的纵坐标的集合,B x,
Figure PCTCN2019080354-appb-000004
B y,
Figure PCTCN2019080354-appb-000005
同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签X g,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签X c,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gt mask=X,综合上述标签gt rpn,gt rcnn,gt mask,生成最终的训练标签为:
gt={Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn,Δx rcnn,Δy rcnn, Δh rcnn,Δw rcnn,P rcnn,X};
(1.2.3)以标准训练数据集I tr作为识别网络模型的输入,利用特征金字塔网络模块提取特征:将标准训练数据集I tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6},过程如图3所示。
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框:
对于输入图片Itr k,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{32 2,64 2,128 2,256 2,512 2},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr 1,Ftr 2,…,Ftr 15},记为Ftr p,下标p=1,…,15;
通过感兴趣区域对齐操作,对特征Ftr p生成固定尺度的候选文本区域,其中,为区域提取网络生成分辨率为7×7候选文本区域R rcnn,为分割分支生成分辨率为16×64的候选文本区域R mask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率P rpn,通过回归预测候选文本框偏移量:
Y rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn)。
(1.2.5)将区域提取网络生成的尺寸为(7*7)的候选文本区域R rcnn输入快速区域分类回归分支网络模块,经过分类和回归两个分支,计算损失函数,并反向传导,最终生成预测文本包围盒:区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文本区域R rcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分P rcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将R rcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Y rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为预测包围盒G q被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒G d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
(1.2.6)将区域提取网络生成的尺寸为(16*64)的候选文本区域R mask输入分割分支网络模块,基于实例分割和语义分割操作生成38张目标分割图层:分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框R mask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{M global,M 1,M 2,…,M 36,M background},输出图层中每个像素的像素值X,取值在[0,1]之间。输出图层中全局分割图层M global可直接预测出文本区域多边形Pm={pm 1,pm 2…pm n},字符分割图层{M 1,M 2,…,M 36}和字符背景分割图层M background可根据像素投票算法来预测字符序列S q
(1.2.7)以训练标签gt为网络期望输出,以预测标签
Figure PCTCN2019080354-appb-000006
为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)(1.2.5)和(1.2.6)中的预测标签
Figure PCTCN2019080354-appb-000007
Figure PCTCN2019080354-appb-000008
为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
L(P rpn,Y rpn,P rcnn,Y rcnn,X)=L rpn(P rpn,Y rpn)+α 1L rcnn(P rcnn,Y rcnn)+α 2L mask(X)
其中,L rpn(P rpn,Y rpn)为区域提取网络的损失函数,L rcnn(P rcnn,Y rcnn)为快速区域分类回归分支网络的损失函数,L mask(X)为分割分支网络的损失函数。α 1,α 2分别为损失函数L rcnn和L mask的权重系数,简单设置为1;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
利用上述训练好的模型对待识别文本图片进行文字识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域:对于待检测数据集I tst里的第k张图片Itst k,将 其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒G q,分类分支会输出由分类得分预测值P rcnn,作为初始包围盒G q被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Y rcnn(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为G q被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒G d中心点横坐标、纵坐标和高度和宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Q z
对预测的文本包围盒Q z进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftst p上每个预测为正类文本的初始包围盒Q 0都会回归出水平四边形位置,同一张测试图片Itst k上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分P rcnn≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作(NMS),得到最后保留的正类文本四边形包围盒。
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列:将预测的四边形文本包围盒位置Q z输入分割分支生成38个目标分割图层,首先通过全局 文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形。其次,利用像素投票算法生成字符序列S q
对于36个字符分割图层{M 1,M 2,…,M 36},第i个分割图层上一个像素的值p ci(x,y)代表着全局文本分割图层对应位置像素p g(x,y)是字符z i的概率,z i为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
Figure PCTCN2019080354-appb-000009
对于字符背景分割图层M background,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r 1,r 2,,…,r n}其中,r i为字符背景分割图层上第i个字符区域,n为背景分割图层上所有的字符数目;
像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域r i应连通区域集合定义为C i={c i1,c i2,…,c i36}其中,c ij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域r i以及对应连通区域C i,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域C i内c ij所有像素的值求平均值,其次,求出具有最大平均值的那个c ij_max所在的字符图层M j_max对应的字符类别z j_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域r i进行如上操作,得到最终的预测字符序列S q
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果:在像素投票阶段,可以获得预测序列中每个字符区域的所有字符类别的概率,根据概率为删除、***、替换操作定义不同的权重。对于删除操作,成本是字符被 预测为当前被删除字符的概率;对于***操作,成本是与字符***位置相邻的两个字符的平均概率;对于替换操作,计算成本为:max(1-s1/s2,0),其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归,对删除、***、替换定义不同的权重,对预测的单词进行调整,提高准确率,得到最终的识别结果。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确度高:该发明针对场景文本中任意形状的文本识别问题,创新性地利用实例分割来检测文本,语义分割识别文本,更精确地检测文本位置和识别文本。
(2)速度快:该发明提出的检测识别模型在保证检测和识别精度的同时,训练速度较快。
(3)通用性强:该发明一个端到端的可训练文本检测识别模型,不仅可以同时检测和识别文本,实现完全端到端训练,还能处理各种形状的文本,包括水平,定向和曲线文本;
(4)鲁棒性强:本发明可以克服文本尺度和形状的变化,能同时检测识别水平,定向和曲线文本。
附图说明
图1是本发明一种任意形状的场景文本端到端识别方法的流程图,其中,实线箭头表示训练,虚线箭头表示测试;
图2是本发明任意形状的场景文本端到端识别网络模型图;
图3是本发明任意形状的场景文本端到端识别模型中特征金字塔结构 模块的网络结构示意图;
图4是本发明任意形状的场景文本端到端识别模型中分割分支网络结构图;
图5是本发明测试部分像素投票算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
ResNet-50:一种可用于分类的神经网络,该网络主要由50层卷积层、池化层、shortcut连接层组成。卷积层用于提取图片特征;池化层的作用是降低卷积层输出的特征向量的维度,减少过拟合;shortcut连接层用于传递梯度解决消失和***梯度问题。网络参数可以通过反向传导算法,进行更新;
区域提取网络:一种用于生成候选文本区域的网络,通过使用一个滑动窗口在提取特征图上生成高度为特定维度的全连接特征,并据此生成两个全连接分支分类和回归候选文本区域,最终根据不同的锚点和比例为后续网络生成不同尺度比例的候选文本区域。
Jaccard系数:Jaccard系数用于比较有限样本集之间的相似性与差异性,在文本检测领域,Jaccard系数被默认为等同于IOU,即两个框的相交面积 /合并面积,描述模型产生的预测文本框和原来标注文本框的交叠率,IOU越大,重叠度越高,检测越准确。
非最大值抑制(NMS):非最大值抑制是一种在计算机视觉检测领域中被广泛应用的后处理算法,它按照设定的阈值,通过排序、遍历和剔除来循环迭代实现对重叠检测框的过滤,去掉冗余的检测框,得到最终的检测结果。
如图1所示,本发明任意形状的场景文本端到端识别方法包括以下步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,所述检测识别网络模型由特征金字塔结构网络,区域提取网络、快速区域分类回归分支网络,分割分支网络组成。根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该任意形状的场景文本端到端识别网络,得到任意形状的场景文本端到端识别网络模型;具体包括如下子步骤:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络如图3所示,以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接, 一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络如图4所示,由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具***置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
(1.2.2)根据带标注的标准训练数据集和特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签:对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p 1,p 2…p m}和表示字符的类别和位置的字符标签C={c 1=(cc 1,cl 1),c 2=(cc 2,cl 2),…,c n=(cc n,cl n)},对于输入图片Itr i,其中,P i是图片Itr i中文本区域的多边形包围盒,p ij=(x ij,y ij)是多边形P i第j个顶点的坐标,m表示多边形文本标注框的数目,cc k和cl k分别是文本中第k个字符的类别和位置,在本 发明中,C不是对于所有训练样本都是必需的。
对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p 1,p 2…p m}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒G d(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒G d(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q 0相对于标注数据集的标注包围盒G d的位置偏移量和类别,当所有的标注包围盒G d与初始包围盒Q 0的Jaccard系数均小于0.5,那么,初始包围盒Q 0被标记为负类非文本,类别标签P rpn取值为0;否则,即至少存在一个标注包围盒G d与Q 0的Jaccard系数不小于0.5,Q 0被标记为正类文本,类别标签P rpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
x=x 0+w 0Δx
y=y 0+h 0Δy
w=w 0exp(Δw)
h=h 0exp(Δh)
其中,x 0、y 0分别为初始包围盒Q 0的中心点的横坐标、纵坐标,w 0、h 0分别为初始包围盒Q 0的宽度和高度,Δx、Δy分别为Q 0的中心点相对于G d的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
gt rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn)
对于快速区域分类回归分支网络,同理,可计算得训练标签为:
gt rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn,P rcnn)
对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
Figure PCTCN2019080354-appb-000010
Figure PCTCN2019080354-appb-000011
其中,(r x,r y)为候选文本框r的顶点,(B x,B y)和
Figure PCTCN2019080354-appb-000012
是多边形和所有字符框的更新顶点和原始顶点,具体地,r x分别为候选文本框r的所有顶点的横坐标的集合,r y为候选文本框r的所有顶点的纵坐标的集合,B x,
Figure PCTCN2019080354-appb-000013
B y,
Figure PCTCN2019080354-appb-000014
同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签X g,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签X c,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gt mask=X,综合上述标签gt rpn,gt rcnn,gt mask,生成最终的训练标签为:
gt={Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn,Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn,P rcnn,X};
(1.2.3)以标准训练数据集I tr作为识别网络模型的输入,利用特征金字塔网络模块提取特征:将标准训练数据集I tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6},过程如图3所示。
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框:
对于输入图片Itr k,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{32 2,64 2,128 2,256 2,512 2},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr 1,Ftr 2,…,Ftr 15},记为Ftr p,下标p=1,…,15;
通过感兴趣区域对齐操作,对特征Ftr p生成固定尺度的候选文本区域,其中,为区域提取网络生成分辨率为7×7候选文本区域R rcnn,为分割分支生成分辨率为16×64的候选文本区域R mask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率P rpn,通过回归预测候选文本框偏移量:
Y rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn)。
(1.2.5)将区域提取网络生成的尺寸为(7*7)的候选文本区域R rcnn输入快速区域分类回归分支网络模块,经过分类和回归两个分支,计算损失函数,并反向传导,最终生成预测文本包围盒:区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文本区域R rcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分P rcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将R rcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Y rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为预测包围盒G q被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒G d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
(1.2.6)将区域提取网络生成的尺寸为(16*64)的候选文本区域R mask输入分割分支网络模块,基于实例分割和语义分割操作生成38张目标分割图层:分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框R mask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{M global,M 1,M 2,…,M 36,M background},输出图层中每个像素的像素值X,取值在[0,1]之间。输出图层中全局分割图层M global可直接预测出文本区域多边形Pm={pm 1,pm 2…pm n},字符分割图层{M 1,M 2,…,M 36}和字符背景分割图层M background可根据像素投票算法来预测字符序列S q
(1.2.7)以训练标签gt为网络期望输出,以预测标签
Figure PCTCN2019080354-appb-000015
为网络预测输 出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数:以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)(1.2.5)和(1.2.6)中的预测标签
Figure PCTCN2019080354-appb-000016
Figure PCTCN2019080354-appb-000017
为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
L(P rpn,Y rpn,P rcnn,Y rcnn,X)=L rpn(P rpn,Y rpn)+α 1L rcnn(P rcnn,Y rcnn)+α 2L mask(X)
其中,L rpn(P rpn,Y rpn)为区域提取网络的损失函数,L rcnn(P rcnn,Y rcnn)为快速区域分类回归分支网络的损失函数,L mask(X)为分割分支网络的损失函数。α 1,α 2分别为损失函数L rcnn和L mask的权重系数,简单设置为1;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
利用上述训练好的模型对待识别文本图片进行文字识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域:对于待检测数据集I tst里的第k张图片Itst k,将其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取 网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒G q,分类分支会输出由分类得分预测值P rcnn,作为初始包围盒G q被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Y rcnn(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为G q被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒G d中心点横坐标、纵坐标和高度和宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Q z
对预测的文本包围盒Q z进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftst p上每个预测为正类文本的初始包围盒Q 0都会回归出水平四边形位置,同一张测试图片Itst k上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分P rcnn≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作(NMS),得到最后保留的正类文本四边形包围盒。
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列:将预测的四边形文本包围盒位置Q z输入分割分支生成38个目标分割图层,首先通过全局文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形。其次,利用像素投票算法生成字符序列S q
对于36个字符分割图层{M 1,M 2,…,M 36},第i个分割图层上一个像素的值p ci(x,y)代表着全局文本分割图层对应位置像素p g(x,y)是字符z i的概率,z i为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
Figure PCTCN2019080354-appb-000018
对于字符背景分割图层M background,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r 1,r 2,,…,r n}其中,r i为字符背景分割图层上第i个字符区域,n为背景分割图层上所有的字符数目;
像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域r i应连通区域集合定义为C i={c i1,c i2,…,c i36}其中,c ij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域r i以及对应连通区域C i,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域C i内c ij所有像素的值求平均值,其次,求出具有最大平均值的那个c ij_max所在的字符图层M j_max对应的字符类别z j_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域r i进行如上操作,得到最终的预测字符序列S q
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果:在像素投票阶段,可以获得预测序列中每个字符区域的所有字符类别的概率,根据概率为删除、***、替换操作定义不同的权重。对于删除操作,成本是字符被预测为当前被删除字符的概率;对于***操作,成本是与字符***位置相邻的两个字符的平均概率;对于替换操作,计算成本为:max(1-s1/s2, 0),其中s1和s2是候选字符和要替换的预测字符的概率。通过加权编辑距离算法对预测的字符串根据所给字典进行回归,对删除、***、替换定义不同的权重,对预测的单词进行调整,提高准确率,得到最终的识别结果。

Claims (10)

  1. 一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:
    (1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
    (1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
    (1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:
    (1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;
    (1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;
    (1.2.3)以标准训练数据集I tr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;
    (1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;
    (1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和 回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;
    (1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;
    (1.2.7)以训练标签gt为网络期望输出,以预测标签
    Figure PCTCN2019080354-appb-100001
    为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数;
    (2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别,包括如下子步骤:
    (2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域;
    (2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列;
    (2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果。
  2. 根据权利要求1所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.1)中的检测识别网络模型具体为:
    所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连 接,一个自顶向下的连接和一个横向连接组成,用于从输入标准数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具***置,36个字符分割图层和1个字符背景分割图层通过过像素投票算法得到预测字符序列。
  3. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.2)具体为:
    对于带标注的标准训练数据集Itr,输入图片真实标签包含表示文本区域的多边形P={p 1,p 2…p m}和表示字符的类别和位置的字符标签C={c 1=(cc 1,cl 1),c 2=(cc 2,cl 2),…,c n=(cc n,cl n)},对于输入图片Itr i,其中,P i是图片Itr i中文本区域的多边形包围盒,p ij=(x ij,y ij)是多边形P i第j个顶点的坐标,m表示多边形文本标注框的数目,cc k和cl k分别是文本中第k个字符的类别和位置;
    对于所给的标准数据集Itr,首先将数据集标签中的多边形P={p 1,p 2…p m}转换为多边形文本标注框的最小水平矩形包围盒,以矩形的中心点(x,y)以及高度h和宽度w来表示该矩形包围盒G d(x,y,h,w);对于区域提取网络,根据标注数据集的标注包围盒G d(x,y,h,w),以特征金字塔输出的待提取特征图中的每张特征图上的每个像素对应到原图,根据区域提取网络预测的候选文本区域产生许多初始包围盒,计算初始包围盒Q 0相对于标注数据集的标注包围盒G d的位置偏移量和类别,当所有的标注包围盒G d与初始包围盒Q 0的Jaccard系数均小于0.5,那么初始包围盒Q 0被标记为负类非文本,类别标签P rpn取值为0;否则,即至少存在一个标注包围盒G d与Q 0的Jaccard系数不小于0.5,Q 0被标记为正类文本,类别标签P rpn取值为1,并相对于Jaccard系数最大的标注盒来计算位置偏移量,公式如下:
    x=x 0+w 0Δx
    y=y 0+h 0Δy
    w=w 0exp(Δw)
    h=h 0exp(Δh)
    其中,x 0、y 0分别为初始包围盒Q 0的中心点的横坐标、纵坐标,w 0、h 0分别为初始包围盒Q 0的宽度和高度,Δx、Δy分别为Q 0的中心点相对于G d的中心点的横、纵坐标位置偏移量,exp为指数运算,即可得区域提取网络的训练标签为:
    gt rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn)
    对于快速区域分类回归分支网络,同理,可计算得训练标签为:
    gt rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn,P rcnn);
    对于分割分支网络,需生成两种类型的目标标签:用于文本实例分割的全局标签和用于字符语义分割的字符标签;对于给定的一个正候选文本框r,首先最佳匹配的水平矩形,进一步获得匹配的多边形以及字符框,接下来,将匹配的多边形和字符框进行移位和调整大小,以便将候选文本框r和预设高度为H以及预设宽度为W的目标标签按照以下公式进行对齐:
    Figure PCTCN2019080354-appb-100002
    Figure PCTCN2019080354-appb-100003
    其中,(r x,r y)为候选文本框r的顶点,(B x,B y)和
    Figure PCTCN2019080354-appb-100004
    是多边形和所有字符框的更新顶点和原始顶点,具体地,r x分别为候选文本框r的所有顶点的横坐标的集合,r y为候选文本框r的所有顶点的纵坐标的集合,B x,
    Figure PCTCN2019080354-appb-100005
    B y,
    Figure PCTCN2019080354-appb-100006
    同理,随后,通过在零初始化的掩膜上绘制标准多边形并将值填充为1生成目标全局标签X g,对于字符标签,通过以中心为原点,缩小标准化字符框至原点框尺寸的八分之一,避免字符掩膜相互重叠,再通过在零初始化掩膜上绘制缩小的字符框并使用它们相应的类别索引填充来生成字符标签X c,如果C不存在,则字符图层中的所有像素均设置为-1,并且在优化时将被忽略,最终得到分割分支整体标签gt mask=X,综合上述标签gt rpn,gt rcnn,gt mask,生成最终的训练标签为:
    gt={Δx rpn,Δy rpn,Δh rpn,Δw rpn,P rpn,Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn,P rcnn,X};
  4. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.3)具体为:
    将标准训练数据集I tr中的图片输入特征金字塔网络自底向上的ResNet-50网络结构中,以网络中不改变特征图大小的卷积层单元定义为一个层级,即层级{P2,P3,P4,P5,P6},提取出每个层级的最后输出的卷积特征F;特征金字塔网络模块中自顶向下的连接对ResNet-50的输出卷积特征进行上采样生成多尺度上采样特征,特征金字塔网络模块中横向连接结构将自顶向下过程上采样的每个层级的特征和自底向上过程生成的特征进行融合生成最终的特征{F2,F3,F4,F5,F6}。
  5. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.4)具体为:
    对于输入图片Itr k,经过特征金字塔网络提取出5个阶段特征{F2,F3,F4,F5,F6},根据阶段{P2,P3,P4,P5,P6}定义锚在不同阶段特征尺度为{32 2,64 2,128 2,256 2,512 2},而每个尺度层都有3个长宽比{1:2,1:1,2:1};即可提取出不同尺度和比例的15个特征图{Ftr 1,Ftr 2,…,Ftr 15},记为Ftr p,下标p=1,…,15;
    通过感兴趣区域对齐操作,对特征Ftr p生成固定尺度的候选文本区域,其中为区域提取网络生成分辨率为7×7候选文本区域R rcnn,为分割分支生成分辨率为16×64的候选文本区域R mask;并通过分类预测每个候选文本框为正确文本区域包围盒的概率P rpn,通过回归预测候选文本框偏移量Y rpn=(Δx rpn,Δy rpn,Δh rpn,Δw rpn)。
  6. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.5)具体为:
    区域提取网络分为分类和回归两个网络分支,将大小为7×7的候选文 本区域R rcnn输入分类分支,通过卷积操作输出预测包围盒的分类得分P rcnn,即预测包围盒为正类文本框的概率,取值为[0,1]之间的小数;将R rcnn输入回归分支,输出4个[0,1]之间的小数组成的预测回归偏移量Y rcnn=(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为预测包围盒G q被预测为正类文本框时中心点的横坐标、纵坐标和文本框的高度和宽度相对于标注包围盒G d中心点的横坐标、纵坐标和文本框的高度和宽度的预测位置偏移量。
  7. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.6)具体为:
    分割分支网络模块包括4个卷积层Conv1,Conv2,Conv3,Conv4,一个反卷积层DeConv,和一个最终卷积层Conv5;区域提取网络生成的尺寸为16×64的候选文本框R mask输入分割分支模块,经过卷积、反卷积等操作最终生成尺度为32×128的38个目标分割图层{M global,M 1,M 2,…,M 36,M background},输出图层中每个像素的像素值X,取值在[0,1]之间。输出图层中全局分割图层M global可直接预测出文本区域多边形Pm={pm 1,pm 2…pm n},字符分割图层{M 1,M 2,…,M 36}和字符背景分割图层M background可根据像素投票算法来预测字符序列Sq。
  8. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.7)具体为:
    以步骤(1.2.2)中计算得到的训练标签gt为网络期望输出,以步骤(1.2.4)、(1.2.5)和(1.2.6)中的预测标签
    Figure PCTCN2019080354-appb-100007
    Figure PCTCN2019080354-appb-100008
    为网络预测输出,针对(1.2.1)构建的网络模型,设计期望输出 和预测输出之间的目标损失函数,整体目标损失函数由区域提取网络、快速区域分类回归分支网络、分割分支网络损失函数共同组成,整体目标损失函数表达式如下:
    L(P rpn,Y rpn,P rcnn,Y rcnn,X)=L rpn(P rpn,Y rpn)
    1L rcnn(P rcnn,Y rcnn)+α 2L mask(X)
    其中,L rpn(P rpn,Y rpn)为区域提取网络的损失函数,L rcnn(P rcnn,Y rcnn)为快速区域分类回归分支网络的损失函数,L mask(X)为分割分支网络的损失函数,α 1,α 2分别为损失函数L rcnn和L mask的权重系数,简单设置为1;
    根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型,针对场景文字检测识别任务,在训练过程中首先使用合成文本数据集(SynthText)上迭代训练,得到初始的网络参数;然后在真实数据集上进行训练微调网络参数。
  9. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(2.1)具体为:
    对于待检测数据集I tst里的第k张图片Itst k,将其输入到步骤(1.2)训练好的模型中,经过特征金字塔网络和区域提取网络后生成初始包围盒再输入快速区域分类回归分支网络,对每个初始包围盒G q,分类分支会输出由分类得分预测值P rcnn,作为初始包围盒G q被预测为正类样本的得分;回归分支会输出由4个小数组成的预测回归偏移量Y rcnn(Δx rcnn,Δy rcnn,Δh rcnn,Δw rcnn),作为G q被预测为正类文本框时中心点横坐标、纵坐标和高度和宽度相对于标注包围盒G d中心点横坐标、纵坐标和高度和 宽度的位置偏移量,根据位置偏移量可以计算网络预测到的四边形文本包围盒位置Q z
    对预测的文本包围盒Q z进行非最大值抑制操作进行过滤,得到输出结果:网络模型对特征图Ftst p上每个预测为正类文本的初始包围盒Q 0都会回归出水平四边形位置,同一张测试图片Itst k上每个特征图上回归出的正类文本四边形通常会出现彼此重叠的情况,这时就要对所有正类文本四边形位置做非最大值抑制操作,具体步骤是:1)对预测到的的文本包围盒,当且仅当文本分类得分P rcnn≥0.5时,该检测文本框才被保留;2)对上一步保留的文本框,按照Jaccard系数0.2进行非最大值抑制操作(NMS),得到最后保留的正类文本四边形包围盒。
  10. 根据权利要求1或2所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(2.2)具体为:
    将预测的四边形文本包围盒位置Q z输入分割分支生成38个目标分割图层,首先通过全局文本实例分割掩膜,直接计算文本区域的轮廓,获得文本区域的多边形,其次,利用像素投票算法生成字符序列S q
    对于36个字符分割图层{M 1,M 2,…,M 36},第i个分割图层上一个像素的值p ci(x,y)代表着全局文本分割图层对应位置像素p g(x,y)是字符z i的概率,z i为36个字符{0,1,...,9,a,b,...,z}中的第i个,且36个字符分割图层对应像素位置的概率和为1,即
    Figure PCTCN2019080354-appb-100009
    对于字符背景分割图层M background,首先对其进行二值化处理,然后在二值化的背景图上定义背景图层上的字符区域集合为R={r 1,r 2,,…,r n}其中,r i为字符背景分割图层上第i个字符区域,n为背景分割图 层上所有的字符数目;
    像素投票算法过程如下:首先,将36张字符分割图层中与字符背景分割图层中的字符区域r i应连通区域集合定义为C i={c i1,c i2,…,c i36}其中,c ij为第j个字符分割图层中与字符背景分割图层第i个字符区域相对应的区域块,则对于区域r i以及对应连通区域C i,利用像素投票算法求其预测字符步骤为:首先,计算对连接区域C i内c ij所有像素的值求平均值,其次,求出具有最大平均值的那个c ij_max所在的字符图层M j_max对应的字符类别z j_max则为这个字符区域的预测字符,最后,对字符背景分割图层中每个的字符区域r i进行如上操作,得到最终的预测字符序列S q
PCT/CN2019/080354 2018-04-04 2019-03-29 一种任意形状的场景文本端到端识别方法 WO2019192397A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810294058.XA CN108549893B (zh) 2018-04-04 2018-04-04 一种任意形状的场景文本端到端识别方法
CN201810294058.X 2018-04-04

Publications (1)

Publication Number Publication Date
WO2019192397A1 true WO2019192397A1 (zh) 2019-10-10

Family

ID=63514169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/080354 WO2019192397A1 (zh) 2018-04-04 2019-03-29 一种任意形状的场景文本端到端识别方法

Country Status (2)

Country Link
CN (1) CN108549893B (zh)
WO (1) WO2019192397A1 (zh)

Cited By (223)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110929678A (zh) * 2019-12-04 2020-03-27 山东省计算中心(国家超级计算济南中心) 外阴***假丝酵母菌孢子检测方法
CN110991440A (zh) * 2019-12-11 2020-04-10 易诚高科(大连)科技有限公司 一种像素驱动的手机操作界面文本检测方法
CN111008613A (zh) * 2019-12-24 2020-04-14 贺垚凯 基于场的高密度人流量定位与监测方法
CN111008600A (zh) * 2019-12-06 2020-04-14 中国科学技术大学 一种车道线检测方法
CN111046840A (zh) * 2019-12-26 2020-04-21 天津理工大学 污染修复环境中基于人工智能的人员安全监测方法及***
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111062381A (zh) * 2019-10-17 2020-04-24 安徽清新互联信息科技有限公司 一种基于深度学习的车牌位置检测方法
CN111061915A (zh) * 2019-12-17 2020-04-24 中国科学技术大学 视频人物关系识别方法
CN111079649A (zh) * 2019-12-17 2020-04-28 西安电子科技大学 基于轻量化语义分割网络的遥感图像地物分类方法
CN111104892A (zh) * 2019-12-16 2020-05-05 武汉大千信息技术有限公司 基于目标检测的人脸篡改鉴定方法、模型及其鉴定方法
CN111104962A (zh) * 2019-11-05 2020-05-05 北京航空航天大学青岛研究院 图像的语义分割方法、装置、电子设备及可读存储介质
CN111126401A (zh) * 2019-10-17 2020-05-08 安徽清新互联信息科技有限公司 一种基于上下文信息的车牌字符识别方法
CN111126266A (zh) * 2019-12-24 2020-05-08 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理***、设备及介质
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111126386A (zh) * 2019-12-20 2020-05-08 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法
CN111145202A (zh) * 2019-12-31 2020-05-12 北京奇艺世纪科技有限公司 模型生成方法、图像处理方法、装置、设备及存储介质
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及***
CN111144469A (zh) * 2019-12-20 2020-05-12 复旦大学 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111160372A (zh) * 2019-12-30 2020-05-15 沈阳理工大学 一种基于高速卷积神经网络的大目标识别方法
CN111160242A (zh) * 2019-12-27 2020-05-15 上海眼控科技股份有限公司 图像目标检测方法、***、电子终端及存储介质
CN111178148A (zh) * 2019-12-06 2020-05-19 天津大学 一种基于无人机视觉***的地面目标地理坐标定位方法
CN111178358A (zh) * 2019-12-31 2020-05-19 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111178364A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种图像识别方法和装置
CN111191611A (zh) * 2019-12-31 2020-05-22 同济大学 基于深度学习的交通标志标号识别方法
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和***
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111340784A (zh) * 2020-02-25 2020-06-26 安徽大学 一种基于Mask R-CNN图像篡改检测方法
CN111353458A (zh) * 2020-03-10 2020-06-30 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN111368831A (zh) * 2020-03-03 2020-07-03 开放智能机器(上海)有限公司 一种竖排文字的定位***及方法
CN111414855A (zh) * 2020-03-19 2020-07-14 国网陕西省电力公司电力科学研究院 基于端到端回归模型的电线杆标牌目标检测及识别方法
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111461101A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 工服标志的识别方法、装置、设备及存储介质
CN111476302A (zh) * 2020-04-08 2020-07-31 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法
CN111488883A (zh) * 2020-04-14 2020-08-04 上海眼控科技股份有限公司 车架号识别方法、装置、计算机设备和存储介质
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111524135A (zh) * 2020-05-11 2020-08-11 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及***
CN111553355A (zh) * 2020-05-18 2020-08-18 城云科技(中国)有限公司 基于监控视频的出店经营检测及通知管理店主的方法
CN111553345A (zh) * 2020-04-22 2020-08-18 上海浩方信息技术有限公司 基于Mask RCNN与正交线性回归实现仪表指针读数识别处理的方法
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN111553204A (zh) * 2020-04-10 2020-08-18 国网内蒙古东部电力有限公司 一种基于遥感影像的输电杆塔检测方法
CN111553361A (zh) * 2020-03-19 2020-08-18 四川大学华西医院 一种病理切片标签识别方法
CN111582329A (zh) * 2020-04-22 2020-08-25 西安交通大学 一种基于多示例学习的自然场景文本字符检测标注方法
CN111597945A (zh) * 2020-05-11 2020-08-28 济南博观智能科技有限公司 一种目标检测方法、装置、设备及介质
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111640089A (zh) * 2020-05-09 2020-09-08 武汉精立电子技术有限公司 一种基于特征图中心点的缺陷检测方法及装置
CN111667469A (zh) * 2020-06-03 2020-09-15 北京小白世纪网络科技有限公司 肺部疾病分类方法、装置及设备
CN111709987A (zh) * 2020-06-11 2020-09-25 上海东普信息科技有限公司 包裹体积测量方法、装置、设备及存储介质
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111753714A (zh) * 2020-06-23 2020-10-09 中南大学 基于字符分割的多方向自然场景文本检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111753812A (zh) * 2020-07-30 2020-10-09 上海眼控科技股份有限公司 文本识别方法及设备
CN111753653A (zh) * 2020-05-15 2020-10-09 中铁第一勘察设计院集团有限公司 基于注意力机制的高铁接触网紧固件识别与定位方法
CN111783763A (zh) * 2020-07-07 2020-10-16 厦门商集网络科技有限责任公司 基于卷积神经网络的文本定位框校正方法及其***
CN111783523A (zh) * 2020-05-19 2020-10-16 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN111783705A (zh) * 2020-07-08 2020-10-16 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN111783427A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111783572A (zh) * 2020-06-17 2020-10-16 泰康保险集团股份有限公司 一种文本检测方法和装置
CN111798516A (zh) * 2020-07-01 2020-10-20 广东省特种设备检测研究院珠海检测院 一种桥式起重机设备运行状态量的检测及误差分析方法
CN111798480A (zh) * 2020-07-23 2020-10-20 北京思图场景数据科技服务有限公司 基于单字符及文字间连接关系预测的文字检测方法及装置
CN111860479A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN111860264A (zh) * 2020-07-10 2020-10-30 武汉理工大学 一种基于梯度均衡策略的多任务实例级道路场景理解算法
CN111898597A (zh) * 2020-06-24 2020-11-06 泰康保险集团股份有限公司 处理文本图像的方法、装置、设备和计算机可读介质
CN111898610A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 卡片缺角检测方法、装置、计算机设备及存储介质
CN111914727A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111915628A (zh) * 2020-06-24 2020-11-10 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111914838A (zh) * 2020-07-28 2020-11-10 同济大学 一种基于文本行识别的车牌识别方法
CN111930622A (zh) * 2020-08-10 2020-11-13 中国工商银行股份有限公司 基于深度学习的界面控件测试方法及***
CN111931572A (zh) * 2020-07-07 2020-11-13 广东工业大学 一种遥感影像的目标检测方法
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 ***文本识别方法、装置及电子设备
CN111985525A (zh) * 2020-06-30 2020-11-24 上海海事大学 基于多模态信息融合处理的文本识别方法
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用***
CN112016403A (zh) * 2020-08-05 2020-12-01 中山大学 一种视频异常事件检测方法
CN112036398A (zh) * 2020-10-15 2020-12-04 北京一览群智数据科技有限责任公司 一种文本校正方法及其***
CN112036405A (zh) * 2020-08-31 2020-12-04 浪潮云信息技术股份公司 一种手写文档文本的检测识别方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN112070082A (zh) * 2020-08-24 2020-12-11 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112069907A (zh) * 2020-08-11 2020-12-11 盛视科技股份有限公司 基于实例分割的x光机图像识别方法、装置及***
CN112069910A (zh) * 2020-08-11 2020-12-11 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN112085735A (zh) * 2020-09-28 2020-12-15 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112101277A (zh) * 2020-09-24 2020-12-18 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112102250A (zh) * 2020-08-20 2020-12-18 西北大学 训练数据为缺失标注的病理图像检测模型建立、检测方法
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法
CN112200181A (zh) * 2020-08-19 2021-01-08 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN112215235A (zh) * 2020-10-16 2021-01-12 深圳市华付信息技术有限公司 一种针对具有大字符间距与局部遮挡的场景文本检测方法
CN112270370A (zh) * 2020-11-06 2021-01-26 北京环境特性研究所 一种车辆表观毁伤评估方法
CN112287977A (zh) * 2020-10-06 2021-01-29 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112330646A (zh) * 2020-11-12 2021-02-05 南京优视智能科技有限公司 一种基于二维图像的动车车底异常检测方法
CN112418134A (zh) * 2020-12-01 2021-02-26 厦门大学 基于行人解析的多流多标签行人再识别方法
CN112434698A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 字符识别方法、装置、电子设备及存储介质
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112464943A (zh) * 2020-11-25 2021-03-09 创新奇智(南京)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112529768A (zh) * 2020-12-04 2021-03-19 中山大学 一种基于生成对抗网络的服装编辑和生成方法
CN112598683A (zh) * 2020-12-27 2021-04-02 北京化工大学 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法
CN112598635A (zh) * 2020-12-18 2021-04-02 武汉大学 一种基于对称点生成的点云3d目标检测方法
CN112633343A (zh) * 2020-12-16 2021-04-09 国网江苏省电力有限公司检修分公司 一种电力设备端子排接线校核方法及装置
CN112651989A (zh) * 2021-01-19 2021-04-13 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和***
CN112651948A (zh) * 2020-12-30 2021-04-13 重庆科技学院 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法
CN112650832A (zh) * 2020-12-14 2021-04-13 中国电子科技集团公司第二十八研究所 基于拓扑及文献特征的知识关联网络关键节点发现方法
CN112669446A (zh) * 2020-12-24 2021-04-16 联通(浙江)产业互联网有限公司 楼宇场景的建模方法和装置
CN112686203A (zh) * 2021-01-12 2021-04-20 重庆大学 一种基于空间先验的车辆安全警示装置检测方法
CN112700444A (zh) * 2021-02-19 2021-04-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法
CN112712535A (zh) * 2021-01-18 2021-04-27 长安大学 基于模拟困难样本的Mask-RCNN滑坡分割方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN112749704A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 文本区域的检测方法、装置和服务器
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN112766262A (zh) * 2021-01-21 2021-05-07 西安理工大学 一种针对单层一对多和多对一股份图的识别方法
CN112766194A (zh) * 2021-01-26 2021-05-07 上海海洋大学 一种海洋中尺度涡检测方法
CN112766263A (zh) * 2021-01-21 2021-05-07 西安理工大学 一种针对多层控股关系股份图的识别方法
CN112766274A (zh) * 2021-02-01 2021-05-07 长沙市盛唐科技有限公司 一种基于Mask RCNN算法的水尺图像水位自动读数方法及***
CN112766361A (zh) * 2021-01-18 2021-05-07 山东师范大学 一种同色系背景下目标果实检测方法及检测***
CN112784737A (zh) * 2021-01-21 2021-05-11 上海云从汇临人工智能科技有限公司 结合像素分割和线段锚的文本检测方法、***及装置
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及***
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN112818873A (zh) * 2021-02-04 2021-05-18 苏州魔视智能科技有限公司 车道线检测方法、***及电子设备
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
CN112862842A (zh) * 2020-12-31 2021-05-28 青岛海尔科技有限公司 图像数据的处理方法和装置、存储介质及电子装置
CN112883887A (zh) * 2021-03-01 2021-06-01 中央财经大学 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN112883795A (zh) * 2021-01-19 2021-06-01 贵州电网有限责任公司 一种基于深度神经网络的表格快速自动提取方法
CN112907605A (zh) * 2021-03-19 2021-06-04 南京大学 用于实例分割的数据增强方法
CN112926692A (zh) * 2021-04-09 2021-06-08 四川翼飞视科技有限公司 基于非均匀混合卷积的目标检测装置、方法和存储介质
CN112927245A (zh) * 2021-04-12 2021-06-08 华中科技大学 一种基于实例查询的端到端实例分割方法
CN112946436A (zh) * 2021-02-02 2021-06-11 成都国铁电气设备有限公司 一种车载接触网绝缘器消弧缺断在线智能检测方法
CN112966678A (zh) * 2021-03-11 2021-06-15 南昌航空大学 一种文本检测方法及***
CN112990211A (zh) * 2021-01-29 2021-06-18 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112991304A (zh) * 2021-03-23 2021-06-18 武汉大学 一种基于激光定向能量沉积监测***的熔池溅射检测方法
CN113033346A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN113033540A (zh) * 2021-04-14 2021-06-25 易视腾科技股份有限公司 场景文字的轮廓拟合和校正方法、电子设备及存储介质
CN113033482A (zh) * 2021-04-20 2021-06-25 上海应用技术大学 一种基于区域注意力的交通标志检测方法
CN113052369A (zh) * 2021-03-15 2021-06-29 北京农业智能装备技术研究中心 智能农机作业管理方法及***
CN113052759A (zh) * 2021-03-31 2021-06-29 华南理工大学 基于mask和自动编码器的场景复杂文本图像编辑方法
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与***
CN113065401A (zh) * 2021-03-04 2021-07-02 国网河北省电力有限公司 一种全票种报账智能平台
CN113095319A (zh) * 2021-03-03 2021-07-09 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113128560A (zh) * 2021-03-19 2021-07-16 西安理工大学 一种基于注意力模块增强的cnn楷体书法风格分类方法
CN113139541A (zh) * 2021-04-24 2021-07-20 西安交通大学 一种基于深度学习的配电柜表盘数码管视觉识别方法
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113159037A (zh) * 2021-05-25 2021-07-23 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
CN113177389A (zh) * 2021-04-23 2021-07-27 网易(杭州)网络有限公司 文本处理方法、装置、电子设备及存储介质
CN113177553A (zh) * 2021-05-31 2021-07-27 哈尔滨工业大学(深圳) 一种电梯内面板楼层按钮识别方法和装置
CN113177511A (zh) * 2021-05-20 2021-07-27 中国人民解放军国防科技大学 基于多数据流的旋转边框智能感知目标检测方法
CN113191296A (zh) * 2021-05-13 2021-07-30 中国人民解放军陆军炮兵防空兵学院 一种基于yolov5的任意朝向目标五参数检测方法
CN113221773A (zh) * 2021-05-19 2021-08-06 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归***和识别方法
CN113313173A (zh) * 2021-06-01 2021-08-27 中山大学 基于图表示和改进Transformer的人体解析方法
CN113324864A (zh) * 2020-02-28 2021-08-31 南京理工大学 一种基于深度学习目标检测的受电弓碳滑板磨耗检测方法
CN113343987A (zh) * 2021-06-30 2021-09-03 北京奇艺世纪科技有限公司 文本检测处理方法、装置、电子设备及存储介质
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及***
CN113362380A (zh) * 2021-06-09 2021-09-07 北京世纪好未来教育科技有限公司 一种图像特征点检测模型训练方法、装置及其电子设备
CN113360655A (zh) * 2021-06-25 2021-09-07 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113379761A (zh) * 2021-05-25 2021-09-10 广州市东崇科技有限公司 一种基于人工智能的多agv与自动门的联动方法与***
CN113435466A (zh) * 2020-12-26 2021-09-24 上海有个机器人有限公司 电梯门位置和开关状态的检测方法、装置、介质和终端
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN113469177A (zh) * 2021-06-30 2021-10-01 河海大学 基于深度学习的排水管道缺陷检测方法及***
CN113496223A (zh) * 2020-03-19 2021-10-12 顺丰科技有限公司 文本区域检测模型的建立方法以及装置
CN113516116A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、***和介质
CN113516673A (zh) * 2020-04-10 2021-10-19 阿里巴巴集团控股有限公司 图像检测方法、装置、设备和存储介质
CN113569650A (zh) * 2021-06-29 2021-10-29 上海红檀智能科技有限公司 一种基于电力杆塔标牌识别的无人机自主巡检定位方法
CN113643136A (zh) * 2021-09-01 2021-11-12 京东科技信息技术有限公司 信息处理方法、***和装置
CN113763326A (zh) * 2021-08-04 2021-12-07 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113780087A (zh) * 2021-08-11 2021-12-10 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113807340A (zh) * 2021-09-07 2021-12-17 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113837168A (zh) * 2021-09-22 2021-12-24 易联众智鼎(厦门)科技有限公司 一种图像文本检测与ocr识别方法、装置及存储介质
CN113850189A (zh) * 2021-09-26 2021-12-28 北京航空航天大学 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN113887282A (zh) * 2021-08-30 2022-01-04 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测***及方法
CN113903023A (zh) * 2021-09-28 2022-01-07 南京信息工程大学 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法
CN113989806A (zh) * 2021-10-11 2022-01-28 浙江康旭科技有限公司 一种可扩展的crnn银行***识别方法
CN113989708A (zh) * 2021-10-27 2022-01-28 福州大学 一种基于YOLO v4的校园图书馆疫情防控方法
CN113989604A (zh) * 2021-11-18 2022-01-28 广东工业大学 基于端到端深度学习的轮胎dot信息识别方法
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114049648A (zh) * 2021-11-25 2022-02-15 清华大学 工程图文本检测识别方法、装置及***
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114140786A (zh) * 2021-12-03 2022-03-04 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114155540A (zh) * 2021-11-16 2022-03-08 深圳市联洲国际技术有限公司 基于深度学习的文字识别方法、装置、设备及存储介质
CN114187445A (zh) * 2021-11-29 2022-03-15 北京百度网讯科技有限公司 识别图像中文本的方法、装置、电子设备及存储介质
CN114201967A (zh) * 2022-02-17 2022-03-18 杭州费尔斯通科技有限公司 一种基于候选实体分类的实体识别方法、***及装置
CN114332839A (zh) * 2021-12-30 2022-04-12 福州大学 一种基于多空间联合感知的街景文本检测方法
CN114332841A (zh) * 2021-12-31 2022-04-12 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
CN114359912A (zh) * 2022-03-22 2022-04-15 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及***
CN114399769A (zh) * 2022-03-22 2022-04-26 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及***
CN114418001A (zh) * 2022-01-20 2022-04-29 北方工业大学 一种基于参数重构网络的字符识别方法及***
CN114419020A (zh) * 2022-01-26 2022-04-29 深圳大学 医学图像分割方法、装置、计算机设备及存储介质
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114565789A (zh) * 2022-02-15 2022-05-31 华南理工大学 一种基于集合预测的文本检测方法、***、装置及介质
CN114723946A (zh) * 2022-04-11 2022-07-08 合肥工业大学 一种基于语义分割的择优式方向偏移预警***和方法
CN114862648A (zh) * 2022-05-27 2022-08-05 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档
CN114972710A (zh) * 2022-07-27 2022-08-30 深圳爱莫科技有限公司 一种在图像中实现多形状目标检测的方法及***
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
WO2022188574A1 (zh) * 2021-03-12 2022-09-15 山东英信计算机技术有限公司 一种回归任务的深度学习方法和装置
US20220292294A1 (en) * 2021-03-15 2022-09-15 Optum Technology, Inc. Overlap-aware optical character recognition
US20220301328A1 (en) * 2019-12-13 2022-09-22 Huawei Technologies Co., Ltd. Text recognition method and apparatus
CN115223171A (zh) * 2022-03-15 2022-10-21 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN115243250A (zh) * 2022-07-25 2022-10-25 每日互动股份有限公司 一种获取wifi画像的方法、***及存储介质
CN111626279B (zh) * 2019-10-15 2023-06-02 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
CN116342627A (zh) * 2023-05-23 2023-06-27 山东大学 一种基于多实例学习的肠上皮化生区域图像分割***
CN116436987A (zh) * 2023-06-12 2023-07-14 深圳舜昌自动化控制技术有限公司 一种IO-Link主站数据报文传输处理方法和***
CN116442393A (zh) * 2023-06-08 2023-07-18 山东博硕自动化技术有限公司 基于视频识别的搅拌站智能卸料方法、***及控制设备
CN116485759A (zh) * 2023-04-25 2023-07-25 什维新智医疗科技(上海)有限公司 一种超声影像中目标边界识别方法、***及电子设备
CN116524529A (zh) * 2023-07-04 2023-08-01 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法
CN116524521A (zh) * 2023-06-30 2023-08-01 武汉纺织大学 一种基于深度学习的英文字符识别方法和***
CN116701347A (zh) * 2023-05-08 2023-09-05 北京三维天地科技股份有限公司 一种基于类别扩展的数据建模方法及***
CN116740688A (zh) * 2023-08-11 2023-09-12 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和***
CN116863482A (zh) * 2023-09-05 2023-10-10 华立科技股份有限公司 一种互感器检测方法、装置、设备及存储介质
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及***
CN117078901A (zh) * 2023-07-12 2023-11-17 长江勘测规划设计研究有限责任公司 一种钢筋视图单点筋自动标注方法
CN117221146A (zh) * 2023-11-09 2023-12-12 成都科江科技有限公司 一种梯形图逻辑组态的界面布局***及布局方法
CN117315238A (zh) * 2023-11-29 2023-12-29 福建理工大学 一种车辆目标检测的方法与终端
CN117315702A (zh) * 2023-11-28 2023-12-29 山东正云信息科技有限公司 基于集合预测的文本检测方法、***及介质
CN117409400A (zh) * 2023-10-18 2024-01-16 无锡九霄科技有限公司 基于深度学习网络的复杂条件字符识别方法
CN117436442A (zh) * 2023-12-19 2024-01-23 中南大学 一种文本词项多重分割合并标注拆分方法及装置
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117556806A (zh) * 2023-12-28 2024-02-13 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法
CN117560456A (zh) * 2024-01-11 2024-02-13 卓世未来(天津)科技有限公司 一种大模型数据防泄漏方法及***

Families Citing this family (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109492672A (zh) * 2018-10-17 2019-03-19 福州大学 一种自然场景下快速、鲁棒的银行卡定位与分类方法
CN109583449A (zh) * 2018-10-29 2019-04-05 深圳市华尊科技股份有限公司 字符识别方法及相关产品
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
WO2020097909A1 (zh) * 2018-11-16 2020-05-22 北京比特大陆科技有限公司 文本检测方法、装置及存储介质
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN109753956A (zh) * 2018-11-23 2019-05-14 西北工业大学 基于分割候选区提取的多方向文本检测算法
CN109544564A (zh) * 2018-11-23 2019-03-29 清华大学深圳研究生院 一种医疗图像分割方法
CN109785359B (zh) * 2018-11-27 2020-12-04 北京理工大学 一种基于深度特征金字塔与跟踪损失的视频目标检测方法
EP3660731B1 (en) * 2018-11-28 2024-05-22 Tata Consultancy Services Limited Digitization of industrial inspection sheets by inferring visual relations
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN111292334B (zh) * 2018-12-10 2023-06-09 北京地平线机器人技术研发有限公司 一种全景图像分割方法、装置及电子设备
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练***及方法
CN109740484A (zh) * 2018-12-27 2019-05-10 斑马网络技术有限公司 道路障碍物识别的方法、装置及***
CN110008808B (zh) * 2018-12-29 2021-04-09 北京迈格威科技有限公司 全景分割方法、装置和***及存储介质
CN109886286B (zh) * 2019-01-03 2021-07-23 武汉精测电子集团股份有限公司 基于级联检测器的目标检测方法、目标检测模型及***
CN111489283B (zh) * 2019-01-25 2023-08-11 鸿富锦精密工业(武汉)有限公司 图片格式转换方法、装置及计算机存储介质
CN109858432B (zh) * 2019-01-28 2022-01-04 北京市商汤科技开发有限公司 一种检测图像中文字信息的方法及装置、计算机设备
CN109829437B (zh) * 2019-02-01 2022-03-25 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子***
CN109977997B (zh) * 2019-02-13 2021-02-02 中国科学院自动化研究所 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN110176017A (zh) * 2019-03-01 2019-08-27 北京纵目安驰智能科技有限公司 一种基于目标检测的边缘检测模型、方法和存储介质
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN109948510B (zh) * 2019-03-14 2021-06-11 北京易道博识科技有限公司 一种文档图像实例分割方法及装置
CN109919239A (zh) * 2019-03-15 2019-06-21 尹显东 一种基于深度学习的农作物病虫害智能检测方法
CN109948533B (zh) * 2019-03-19 2021-02-09 讯飞智元信息科技有限公司 一种文本检测方法、装置、设备及可读存储介质
CN109977949B (zh) * 2019-03-20 2024-01-26 深圳华付技术股份有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN111723627A (zh) * 2019-03-22 2020-09-29 北京搜狗科技发展有限公司 一种图像处理方法、装置和电子设备
CN111753575A (zh) * 2019-03-26 2020-10-09 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN109977952B (zh) * 2019-03-27 2021-10-22 深动科技(北京)有限公司 基于局部最大值的候选目标检测方法
CN109934229B (zh) * 2019-03-28 2021-08-03 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110032969B (zh) * 2019-04-11 2021-11-05 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110059753A (zh) * 2019-04-19 2019-07-26 北京朗镜科技有限责任公司 模型训练方法、层间隔识别方法、装置、设备及介质
CN110321923B (zh) * 2019-05-10 2021-05-04 上海大学 不同尺度感受野特征层融合的目标检测方法、***及介质
CN110147788B (zh) * 2019-05-27 2021-09-21 东北大学 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN112001406B (zh) * 2019-05-27 2023-09-08 杭州海康威视数字技术股份有限公司 一种文本区域检测方法及装置
CN110348445B (zh) * 2019-06-06 2021-07-27 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
CN110276279B (zh) * 2019-06-06 2020-06-16 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110334705B (zh) * 2019-06-25 2021-08-03 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110263877B (zh) * 2019-06-27 2022-07-08 中国科学技术大学 场景文字检测方法
CN110276351B (zh) * 2019-06-28 2022-09-06 中国科学技术大学 多语言场景文本检测与识别方法
CN110287960B (zh) * 2019-07-02 2021-12-10 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110443140B (zh) * 2019-07-05 2023-10-03 平安科技(深圳)有限公司 文本定位的方法、装置、计算机设备及存储介质
CN110443141A (zh) * 2019-07-08 2019-11-12 深圳中兴网信科技有限公司 数据集处理方法、数据集处理装置及存储介质
CN110443258B (zh) * 2019-07-08 2021-03-02 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN110503090B (zh) * 2019-07-09 2021-11-09 中国科学院信息工程研究所 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN110363140B (zh) * 2019-07-15 2022-11-11 成都理工大学 一种基于红外图像的人体动作实时识别方法
CN110490191B (zh) * 2019-07-16 2022-03-04 北京百度网讯科技有限公司 端到端模型的训练方法与***、及中文识别方法与***
CN112241736B (zh) * 2019-07-19 2024-01-26 上海高德威智能交通***有限公司 一种文本检测的方法及装置
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
CN110414499B (zh) * 2019-07-26 2021-06-04 第四范式(北京)技术有限公司 文本位置定位方法和***以及模型训练方法和***
CN110895695B (zh) * 2019-07-31 2023-02-24 上海海事大学 用于文本图片字符切分的深度学习网络、切分方法
CN110503085A (zh) * 2019-07-31 2019-11-26 联想(北京)有限公司 一种数据处理方法、电子设备和计算机可读存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110516732B (zh) * 2019-08-22 2022-03-15 北京地平线机器人技术研发有限公司 特征金字塔网络的训练方法、提取图像特征的方法和装置
CN110852324A (zh) * 2019-08-23 2020-02-28 上海撬动网络科技有限公司 一种基于深度神经网络集装箱箱号检测方法
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和***
CN110533113B (zh) * 2019-09-04 2022-11-11 湖南大学 一种数字图像中树状结构的分支点检测方法
CN110533041B (zh) * 2019-09-05 2022-07-01 重庆邮电大学 基于回归的多尺度场景文本检测方法
CN110738207B (zh) * 2019-09-10 2020-06-19 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110807764A (zh) * 2019-09-20 2020-02-18 成都智能迭迦科技合伙企业(有限合伙) 一种基于神经网络的肺癌筛查方法
CN110751154B (zh) * 2019-09-27 2022-04-08 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110717427B (zh) * 2019-09-27 2022-08-12 华中科技大学 一种基于顶点滑动的多方向物体检测方法
CN110689012A (zh) * 2019-10-08 2020-01-14 山东浪潮人工智能研究院有限公司 一种端到端的自然场景文本识别方法及***
CN110766707B (zh) * 2019-10-22 2022-09-23 河海大学常州校区 一种基于多算子融合边缘检测技术的空化泡图像处理方法
CN111222396B (zh) * 2019-10-23 2023-07-18 江苏大学 一种全天候多光谱行人检测方法
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN110781967B (zh) * 2019-10-29 2022-08-19 华中科技大学 一种基于可微分二值化的实时文本检测方法
CN110837835B (zh) * 2019-10-29 2022-11-08 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN110956088B (zh) * 2019-10-31 2023-06-30 北京易道博识科技有限公司 基于深度学习的交叠文本行定位分割方法及***
CN110796143A (zh) * 2019-10-31 2020-02-14 天津大学 一种基于人机协同的场景文本识别方法
CN110837796B (zh) * 2019-11-05 2022-08-19 泰康保险集团股份有限公司 图像处理方法及装置
CN111010605B (zh) * 2019-11-26 2021-08-17 杭州东信北邮信息技术有限公司 一种视频画中画窗口的显示方法
CN110969129B (zh) * 2019-12-03 2023-09-01 山东浪潮科学研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111061904B (zh) * 2019-12-06 2023-04-18 武汉理工大学 一种基于图像内容识别的本地图片快速检测方法
CN110991403A (zh) * 2019-12-19 2020-04-10 同方知网(北京)技术有限公司 一种基于视觉深度学习的文档信息碎片化抽取方法
CN111160352B (zh) * 2019-12-27 2023-04-07 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及***
WO2021164251A1 (zh) * 2020-02-21 2021-08-26 平安科技(深圳)有限公司 一种图像标注任务的预校验方法、装置、设备及存储介质
CN111461114B (zh) * 2020-03-03 2023-05-02 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
CN111444919B (zh) * 2020-04-17 2023-07-04 南京大学 一种自然场景中的任意形状文本检测方法
CN111507292B (zh) * 2020-04-22 2023-05-12 广东光大信息科技股份有限公司 手写板校正方法、装置、计算机设备以及存储介质
CN111563502B (zh) * 2020-05-09 2023-12-15 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111814705B (zh) * 2020-07-14 2022-08-02 广西师范大学 一种基于批次分块遮挡网络的行人再辨识方法
CN111860506B (zh) * 2020-07-24 2024-03-29 北京百度网讯科技有限公司 识别文字的方法和装置
CN112926372B (zh) * 2020-08-22 2023-03-10 清华大学 基于序列变形的场景文字检测方法及***
CN111985439A (zh) * 2020-08-31 2020-11-24 中移(杭州)信息技术有限公司 人脸检测方法、装置、设备和存储介质
CN112085122B (zh) * 2020-09-21 2024-03-15 中国科学院上海微***与信息技术研究所 一种基于本体的半监督图像场景语义深化方法
CN112101386B (zh) * 2020-09-25 2024-04-23 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112183545B (zh) * 2020-09-29 2024-05-17 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法
CN112308150B (zh) * 2020-11-02 2022-04-15 平安科技(深圳)有限公司 目标检测模型训练方法、装置、计算机设备和存储介质
CN112419174B (zh) * 2020-11-04 2022-09-20 中国科学院自动化研究所 基于门循环单元的图像文字去除方法、***及装置
CN112541491B (zh) * 2020-12-07 2024-02-02 沈阳雅译网络技术有限公司 基于图像字符区域感知的端到端文本检测及识别方法
CN112446356B (zh) * 2020-12-15 2024-05-24 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法
CN112528997B (zh) * 2020-12-24 2022-04-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112580738B (zh) * 2020-12-25 2021-07-23 特赞(上海)信息科技有限公司 基于改进的AttentionOCR文本识别方法及装置
CN112686245B (zh) * 2021-01-04 2022-05-13 福州大学 基于字符响应的字符和文本并行检测方法
CN113159021A (zh) * 2021-03-10 2021-07-23 国网河北省电力有限公司 基于上下文信息的文本检测方法
CN113033377A (zh) * 2021-03-16 2021-06-25 北京有竹居网络技术有限公司 字符位置修正方法、装置、电子设备和存储介质
CN112733822B (zh) * 2021-03-31 2021-07-27 上海旻浦科技有限公司 一种端到端文本检测和识别方法
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN113159053A (zh) * 2021-04-27 2021-07-23 北京有竹居网络技术有限公司 图像识别方法、装置及计算设备
CN113269045A (zh) * 2021-04-28 2021-08-17 南京大学 自然场景下中文艺术字检测识别方法
CN113191358B (zh) * 2021-05-31 2023-01-24 上海交通大学 金属零件表面文本检测方法和***
CN115457531A (zh) * 2021-06-07 2022-12-09 京东科技信息技术有限公司 用于识别文本的方法和装置
CN113343980B (zh) * 2021-06-10 2023-06-09 西安邮电大学 自然场景文本检测方法及***
CN113378815B (zh) * 2021-06-16 2023-11-24 南京信息工程大学 一种场景文本定位识别的***及其训练和识别的方法
CN113609892A (zh) * 2021-06-16 2021-11-05 北京工业大学 深度学习与景区知识图谱融合的手写诗词识别方法
CN113255669B (zh) * 2021-06-28 2021-10-01 山东大学 任意形状自然场景文本检测方法及***
WO2023279186A1 (en) * 2021-07-06 2023-01-12 Orbiseed Technology Inc. Methods and systems for extracting text and symbols from documents
CN113435542A (zh) * 2021-07-22 2021-09-24 安徽理工大学 一种基于深度学习的煤矸实时检测方法
CN113343990B (zh) * 2021-07-28 2021-12-03 浩鲸云计算科技股份有限公司 一种证件类图片的关键文本检测、分类训练方法
CN113657213A (zh) * 2021-07-30 2021-11-16 五邑大学 文本识别方法、装置和计算机可读存储介质
CN113807336B (zh) * 2021-08-09 2023-06-30 华南理工大学 图像文本检测半自动标注方法、***、计算机设备及介质
TWI807467B (zh) * 2021-11-02 2023-07-01 中國信託商業銀行股份有限公司 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法
CN115346206B (zh) * 2022-10-20 2023-01-31 松立控股集团股份有限公司 基于改进超分辨的深度卷积特征识别的车牌检测方法
CN115546778B (zh) * 2022-10-22 2023-06-13 清华大学 一种基于多任务学习的场景文本检测方法及***
CN115909376A (zh) * 2022-11-01 2023-04-04 北京百度网讯科技有限公司 文本识别方法、文本识别模型训练方法、装置及存储介质
CN115422389B (zh) * 2022-11-07 2023-04-07 北京百度网讯科技有限公司 处理文本图像的方法及装置、神经网络的训练方法
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法
CN116434234B (zh) * 2023-05-25 2023-10-17 珠海亿智电子科技有限公司 一种铸坯字符的检测与识别方法、装置、设备及存储介质
CN117975467A (zh) * 2024-04-02 2024-05-03 华南理工大学 一种桥接式的端到端文字识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150063688A1 (en) * 2013-09-05 2015-03-05 Anurag Bhardwaj System and method for scene text recognition
CN104751153A (zh) * 2013-12-31 2015-07-01 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740909B (zh) * 2016-02-02 2017-06-13 华中科技大学 一种基于空间变换的自然场景下文本识别方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN106897732B (zh) * 2017-01-06 2019-10-08 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107617573B (zh) * 2017-09-30 2020-08-18 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150063688A1 (en) * 2013-09-05 2015-03-05 Anurag Bhardwaj System and method for scene text recognition
CN104751153A (zh) * 2013-12-31 2015-07-01 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG CHUN: "china doctoral dissertations full text database", ELECTRONIC JOURNALS, 15 February 2018 (2018-02-15) *

Cited By (381)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626279B (zh) * 2019-10-15 2023-06-02 西安网算数据科技有限公司 一种负样本标注训练方法及高度自动化的票据识别方法
CN111062381A (zh) * 2019-10-17 2020-04-24 安徽清新互联信息科技有限公司 一种基于深度学习的车牌位置检测方法
CN111126401B (zh) * 2019-10-17 2023-06-02 安徽清新互联信息科技有限公司 一种基于上下文信息的车牌字符识别方法
CN111062381B (zh) * 2019-10-17 2023-09-01 安徽清新互联信息科技有限公司 一种基于深度学习的车牌位置检测方法
CN111126401A (zh) * 2019-10-17 2020-05-08 安徽清新互联信息科技有限公司 一种基于上下文信息的车牌字符识别方法
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN112749704A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 文本区域的检测方法、装置和服务器
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110807422B (zh) * 2019-10-31 2023-05-23 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111104962B (zh) * 2019-11-05 2023-04-18 北京航空航天大学青岛研究院 图像的语义分割方法、装置、电子设备及可读存储介质
CN111104962A (zh) * 2019-11-05 2020-05-05 北京航空航天大学青岛研究院 图像的语义分割方法、装置、电子设备及可读存储介质
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
US11928872B2 (en) 2019-11-21 2024-03-12 Shanghai Goldway Intelligent Transportation System Co., Ltd. Methods and apparatuses for recognizing text, recognition devices and storage media
CN112825141A (zh) * 2019-11-21 2021-05-21 上海高德威智能交通***有限公司 识别文本的方法、装置、识别设备和存储介质
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111062386B (zh) * 2019-11-28 2023-12-29 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN110929678B (zh) * 2019-12-04 2023-04-25 山东省计算中心(国家超级计算济南中心) 外阴***假丝酵母菌孢子检测方法
CN110929678A (zh) * 2019-12-04 2020-03-27 山东省计算中心(国家超级计算济南中心) 外阴***假丝酵母菌孢子检测方法
CN111178148B (zh) * 2019-12-06 2023-06-02 天津大学 一种基于无人机视觉***的地面目标地理坐标定位方法
CN111178148A (zh) * 2019-12-06 2020-05-19 天津大学 一种基于无人机视觉***的地面目标地理坐标定位方法
CN111008600B (zh) * 2019-12-06 2023-04-07 中国科学技术大学 一种车道线检测方法
CN111008600A (zh) * 2019-12-06 2020-04-14 中国科学技术大学 一种车道线检测方法
CN110991440A (zh) * 2019-12-11 2020-04-10 易诚高科(大连)科技有限公司 一种像素驱动的手机操作界面文本检测方法
CN110991440B (zh) * 2019-12-11 2023-10-13 易诚高科(大连)科技有限公司 一种像素驱动的手机操作界面文本检测方法
US11893767B2 (en) * 2019-12-13 2024-02-06 Huawei Technologies Co., Ltd. Text recognition method and apparatus
US20220301328A1 (en) * 2019-12-13 2022-09-22 Huawei Technologies Co., Ltd. Text recognition method and apparatus
CN111104892A (zh) * 2019-12-16 2020-05-05 武汉大千信息技术有限公司 基于目标检测的人脸篡改鉴定方法、模型及其鉴定方法
CN111061915A (zh) * 2019-12-17 2020-04-24 中国科学技术大学 视频人物关系识别方法
CN111079649A (zh) * 2019-12-17 2020-04-28 西安电子科技大学 基于轻量化语义分割网络的遥感图像地物分类方法
CN111061915B (zh) * 2019-12-17 2023-04-18 中国科学技术大学 视频人物关系识别方法
CN111126386B (zh) * 2019-12-20 2023-06-30 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法
CN111144469B (zh) * 2019-12-20 2023-05-02 复旦大学 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111144469A (zh) * 2019-12-20 2020-05-12 复旦大学 基于多维关联时序分类神经网络的端到端多序列文本识别方法
CN111126386A (zh) * 2019-12-20 2020-05-08 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法
CN111126266A (zh) * 2019-12-24 2020-05-08 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理***、设备及介质
CN111126266B (zh) * 2019-12-24 2023-05-05 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理***、设备及介质
CN111008613A (zh) * 2019-12-24 2020-04-14 贺垚凯 基于场的高密度人流量定位与监测方法
CN111008613B (zh) * 2019-12-24 2023-12-19 黑龙江文旅信息科技有限公司 基于场的高密度人流量定位与监测方法
CN111046840B (zh) * 2019-12-26 2023-06-23 天津理工大学 污染修复环境中基于人工智能的人员安全监测方法及***
CN111046840A (zh) * 2019-12-26 2020-04-21 天津理工大学 污染修复环境中基于人工智能的人员安全监测方法及***
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及***
CN111144411B (zh) * 2019-12-27 2024-02-27 南京大学 一种基于显著图的不规则文本修正与识别方法及***
CN111160242A (zh) * 2019-12-27 2020-05-15 上海眼控科技股份有限公司 图像目标检测方法、***、电子终端及存储介质
CN111160372A (zh) * 2019-12-30 2020-05-15 沈阳理工大学 一种基于高速卷积神经网络的大目标识别方法
CN111160372B (zh) * 2019-12-30 2023-04-18 沈阳理工大学 一种基于高速卷积神经网络的大目标识别方法
CN111126410B (zh) * 2019-12-31 2022-11-18 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111145202B (zh) * 2019-12-31 2024-03-08 北京奇艺世纪科技有限公司 模型生成方法、图像处理方法、装置、设备及存储介质
CN111191611B (zh) * 2019-12-31 2023-10-13 同济大学 基于深度学习的交通标志标号识别方法
CN111145202A (zh) * 2019-12-31 2020-05-12 北京奇艺世纪科技有限公司 模型生成方法、图像处理方法、装置、设备及存储介质
CN111178358A (zh) * 2019-12-31 2020-05-19 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111178364A (zh) * 2019-12-31 2020-05-19 北京奇艺世纪科技有限公司 一种图像识别方法和装置
CN111191611A (zh) * 2019-12-31 2020-05-22 同济大学 基于深度学习的交通标志标号识别方法
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和***
CN111242122B (zh) * 2020-01-07 2023-09-08 浙江大学 一种轻量级深度神经网络旋转目标检测方法和***
CN111242027A (zh) * 2020-01-13 2020-06-05 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111242027B (zh) * 2020-01-13 2023-04-14 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法
CN111310746B (zh) * 2020-01-15 2024-03-01 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111291759A (zh) * 2020-01-17 2020-06-16 北京三快在线科技有限公司 文字检测方法、装置、电子设备及存储介质
CN111310609A (zh) * 2020-01-22 2020-06-19 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111340784A (zh) * 2020-02-25 2020-06-26 安徽大学 一种基于Mask R-CNN图像篡改检测方法
CN111340784B (zh) * 2020-02-25 2023-06-23 安徽大学 一种基于Mask R-CNN图像篡改检测方法
CN113324864A (zh) * 2020-02-28 2021-08-31 南京理工大学 一种基于深度学习目标检测的受电弓碳滑板磨耗检测方法
CN111368831B (zh) * 2020-03-03 2023-05-23 开放智能机器(上海)有限公司 一种竖排文字的定位***及方法
CN111368831A (zh) * 2020-03-03 2020-07-03 开放智能机器(上海)有限公司 一种竖排文字的定位***及方法
CN111353458A (zh) * 2020-03-10 2020-06-30 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN111353458B (zh) * 2020-03-10 2023-08-18 腾讯科技(深圳)有限公司 文本框标注方法、装置和存储介质
CN113496223A (zh) * 2020-03-19 2021-10-12 顺丰科技有限公司 文本区域检测模型的建立方法以及装置
CN111414855A (zh) * 2020-03-19 2020-07-14 国网陕西省电力公司电力科学研究院 基于端到端回归模型的电线杆标牌目标检测及识别方法
CN111553361A (zh) * 2020-03-19 2020-08-18 四川大学华西医院 一种病理切片标签识别方法
CN111414855B (zh) * 2020-03-19 2023-03-24 国网陕西省电力公司电力科学研究院 基于端到端回归模型的电线杆标牌目标检测及识别方法
CN111553361B (zh) * 2020-03-19 2022-11-01 四川大学华西医院 一种病理切片标签识别方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN113449760A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 一种字符识别方法和装置
CN111310861B (zh) * 2020-03-27 2023-05-23 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN111476302A (zh) * 2020-04-08 2020-07-31 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法
CN111476302B (zh) * 2020-04-08 2023-03-24 北京工商大学 基于深度强化学习的Faster-RCNN目标物体检测方法
CN113516673A (zh) * 2020-04-10 2021-10-19 阿里巴巴集团控股有限公司 图像检测方法、装置、设备和存储介质
CN111553204A (zh) * 2020-04-10 2020-08-18 国网内蒙古东部电力有限公司 一种基于遥感影像的输电杆塔检测方法
CN111553204B (zh) * 2020-04-10 2024-05-28 国网内蒙古东部电力有限公司 一种基于遥感影像的输电杆塔检测方法
CN111488883A (zh) * 2020-04-14 2020-08-04 上海眼控科技股份有限公司 车架号识别方法、装置、计算机设备和存储介质
CN111461101A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 工服标志的识别方法、装置、设备及存储介质
CN111461101B (zh) * 2020-04-20 2023-05-19 上海东普信息科技有限公司 工服标志的识别方法、装置、设备及存储介质
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111461133B (zh) * 2020-04-20 2023-04-18 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质
CN111507333B (zh) * 2020-04-21 2023-09-15 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111507333A (zh) * 2020-04-21 2020-08-07 腾讯科技(深圳)有限公司 一种图像矫正方法、装置、电子设备和存储介质
CN111553345A (zh) * 2020-04-22 2020-08-18 上海浩方信息技术有限公司 基于Mask RCNN与正交线性回归实现仪表指针读数识别处理的方法
CN111553345B (zh) * 2020-04-22 2023-10-20 上海浩方信息技术有限公司 基于Mask RCNN与正交线性回归实现仪表指针读数识别处理的方法
CN111582329B (zh) * 2020-04-22 2023-03-28 西安交通大学 一种基于多示例学习的自然场景文本字符检测标注方法
CN111582329A (zh) * 2020-04-22 2020-08-25 西安交通大学 一种基于多示例学习的自然场景文本字符检测标注方法
CN111553351A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于语义分割的场景任意形状的文本检测方法
CN111723841A (zh) * 2020-05-09 2020-09-29 北京捷通华声科技股份有限公司 文本检测方法、装置、电子设备及存储介质
CN111640089B (zh) * 2020-05-09 2023-08-15 武汉精立电子技术有限公司 一种基于特征图中心点的缺陷检测方法及装置
CN111640089A (zh) * 2020-05-09 2020-09-08 武汉精立电子技术有限公司 一种基于特征图中心点的缺陷检测方法及装置
CN111524135B (zh) * 2020-05-11 2023-12-26 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及***
CN111524135A (zh) * 2020-05-11 2020-08-11 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及***
CN111597945B (zh) * 2020-05-11 2023-08-18 济南博观智能科技有限公司 一种目标检测方法、装置、设备及介质
CN111597945A (zh) * 2020-05-11 2020-08-28 济南博观智能科技有限公司 一种目标检测方法、装置、设备及介质
CN111753653A (zh) * 2020-05-15 2020-10-09 中铁第一勘察设计院集团有限公司 基于注意力机制的高铁接触网紧固件识别与定位方法
CN111753653B (zh) * 2020-05-15 2024-05-03 中铁第一勘察设计院集团有限公司 基于注意力机制的高铁接触网紧固件识别与定位方法
CN111553355B (zh) * 2020-05-18 2023-07-28 城云科技(中国)有限公司 基于监控视频的出店经营检测及通知管理店主的方法
CN111553355A (zh) * 2020-05-18 2020-08-18 城云科技(中国)有限公司 基于监控视频的出店经营检测及通知管理店主的方法
CN111753828B (zh) * 2020-05-19 2022-12-27 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111783523B (zh) * 2020-05-19 2022-10-21 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111783523A (zh) * 2020-05-19 2020-10-16 中国人民解放军93114部队 一种遥感影像旋转目标检测方法
CN112001878A (zh) * 2020-05-21 2020-11-27 合肥合工安驰智能科技有限公司 基于二值化神经网络的深度学习矿石尺度测量方法及应用***
CN111612081B (zh) * 2020-05-25 2024-04-02 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111612081A (zh) * 2020-05-25 2020-09-01 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111667469B (zh) * 2020-06-03 2023-10-31 北京小白世纪网络科技有限公司 肺部疾病分类方法、装置及设备
CN111667469A (zh) * 2020-06-03 2020-09-15 北京小白世纪网络科技有限公司 肺部疾病分类方法、装置及设备
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN111709987B (zh) * 2020-06-11 2023-04-07 上海东普信息科技有限公司 包裹体积测量方法、装置、设备及存储介质
CN111709987A (zh) * 2020-06-11 2020-09-25 上海东普信息科技有限公司 包裹体积测量方法、装置、设备及存储介质
CN111860479A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN111783572A (zh) * 2020-06-17 2020-10-16 泰康保险集团股份有限公司 一种文本检测方法和装置
CN111783572B (zh) * 2020-06-17 2023-11-14 泰康保险集团股份有限公司 一种文本检测方法和装置
CN111753714B (zh) * 2020-06-23 2023-09-01 中南大学 基于字符分割的多方向自然场景文本检测方法
CN111753714A (zh) * 2020-06-23 2020-10-09 中南大学 基于字符分割的多方向自然场景文本检测方法
CN111915628A (zh) * 2020-06-24 2020-11-10 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111898597A (zh) * 2020-06-24 2020-11-06 泰康保险集团股份有限公司 处理文本图像的方法、装置、设备和计算机可读介质
CN111915628B (zh) * 2020-06-24 2023-11-24 浙江大学 一种基于预测目标密集边界点的单阶段实例分割方法
CN111783427A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111950353A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 ***文本识别方法、装置及电子设备
CN111950353B (zh) * 2020-06-30 2024-04-19 深圳市雄帝科技股份有限公司 ***文本识别方法、装置及电子设备
CN111783427B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111985525A (zh) * 2020-06-30 2020-11-24 上海海事大学 基于多模态信息融合处理的文本识别方法
CN111985525B (zh) * 2020-06-30 2023-09-22 上海海事大学 基于多模态信息融合处理的文本识别方法
CN111798516A (zh) * 2020-07-01 2020-10-20 广东省特种设备检测研究院珠海检测院 一种桥式起重机设备运行状态量的检测及误差分析方法
CN111798516B (zh) * 2020-07-01 2023-12-22 广东省特种设备检测研究院珠海检测院 一种桥式起重机设备运行状态量的检测及误差分析方法
CN111931572A (zh) * 2020-07-07 2020-11-13 广东工业大学 一种遥感影像的目标检测方法
CN111931572B (zh) * 2020-07-07 2024-01-09 广东工业大学 一种遥感影像的目标检测方法
CN111783763A (zh) * 2020-07-07 2020-10-16 厦门商集网络科技有限责任公司 基于卷积神经网络的文本定位框校正方法及其***
CN111783705A (zh) * 2020-07-08 2020-10-16 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN111783705B (zh) * 2020-07-08 2023-11-14 厦门商集网络科技有限责任公司 一种基于注意力机制的文字识别方法及***
CN111860264B (zh) * 2020-07-10 2024-01-05 武汉理工大学 一种基于梯度均衡策略的多任务实例级道路场景理解算法
CN111860264A (zh) * 2020-07-10 2020-10-30 武汉理工大学 一种基于梯度均衡策略的多任务实例级道路场景理解算法
CN111798480A (zh) * 2020-07-23 2020-10-20 北京思图场景数据科技服务有限公司 基于单字符及文字间连接关系预测的文字检测方法及装置
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN111914838B (zh) * 2020-07-28 2024-05-31 同济大学 一种基于文本行识别的车牌识别方法
CN111914838A (zh) * 2020-07-28 2020-11-10 同济大学 一种基于文本行识别的车牌识别方法
CN111914727B (zh) * 2020-07-28 2024-04-26 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111914727A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于平衡采样与非线性特征融合的小目标人体检测方法
CN111898610A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 卡片缺角检测方法、装置、计算机设备及存储介质
CN111898610B (zh) * 2020-07-29 2024-04-19 平安科技(深圳)有限公司 卡片缺角检测方法、装置、计算机设备及存储介质
CN111753812A (zh) * 2020-07-30 2020-10-09 上海眼控科技股份有限公司 文本识别方法及设备
CN112016403B (zh) * 2020-08-05 2023-07-21 中山大学 一种视频异常事件检测方法
CN112016403A (zh) * 2020-08-05 2020-12-01 中山大学 一种视频异常事件检测方法
CN111930622B (zh) * 2020-08-10 2023-10-13 中国工商银行股份有限公司 基于深度学习的界面控件测试方法及***
CN111930622A (zh) * 2020-08-10 2020-11-13 中国工商银行股份有限公司 基于深度学习的界面控件测试方法及***
CN112069910B (zh) * 2020-08-11 2024-03-01 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN112069910A (zh) * 2020-08-11 2020-12-11 上海海事大学 一种遥感图像多方向舰船目标检测方法
CN112069907A (zh) * 2020-08-11 2020-12-11 盛视科技股份有限公司 基于实例分割的x光机图像识别方法、装置及***
CN112200181A (zh) * 2020-08-19 2021-01-08 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN112200181B (zh) * 2020-08-19 2023-10-10 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN112102250B (zh) * 2020-08-20 2022-11-04 西北大学 训练数据为缺失标注的病理图像检测模型建立、检测方法
CN112102250A (zh) * 2020-08-20 2020-12-18 西北大学 训练数据为缺失标注的病理图像检测模型建立、检测方法
CN112070082A (zh) * 2020-08-24 2020-12-11 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112070082B (zh) * 2020-08-24 2023-04-07 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN112036405A (zh) * 2020-08-31 2020-12-04 浪潮云信息技术股份公司 一种手写文档文本的检测识别方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112052853A (zh) * 2020-09-09 2020-12-08 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN112101277B (zh) * 2020-09-24 2023-07-28 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112101277A (zh) * 2020-09-24 2020-12-18 湖南大学 一种图像语义特征约束的遥感目标检测方法
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法
CN112183322B (zh) * 2020-09-27 2022-07-19 成都数之联科技股份有限公司 一种任意形状的文本检测和矫正方法
CN112085735A (zh) * 2020-09-28 2020-12-15 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112085735B (zh) * 2020-09-28 2022-10-25 西安交通大学 一种基于自适应锚框的铝材质图像缺陷检测方法
CN112287977B (zh) * 2020-10-06 2024-02-09 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112287977A (zh) * 2020-10-06 2021-01-29 武汉大学 一种基于边界框关键点距离的目标检测方法
CN112036398A (zh) * 2020-10-15 2020-12-04 北京一览群智数据科技有限责任公司 一种文本校正方法及其***
CN112036398B (zh) * 2020-10-15 2024-02-23 北京一览群智数据科技有限责任公司 一种文本校正方法及其***
CN112215235B (zh) * 2020-10-16 2024-04-26 深圳华付技术股份有限公司 一种针对具有大字符间距与局部遮挡的场景文本检测方法
CN112215235A (zh) * 2020-10-16 2021-01-12 深圳市华付信息技术有限公司 一种针对具有大字符间距与局部遮挡的场景文本检测方法
CN112270370A (zh) * 2020-11-06 2021-01-26 北京环境特性研究所 一种车辆表观毁伤评估方法
CN112270370B (zh) * 2020-11-06 2023-06-02 北京环境特性研究所 一种车辆表观毁伤评估方法
CN112330646A (zh) * 2020-11-12 2021-02-05 南京优视智能科技有限公司 一种基于二维图像的动车车底异常检测方法
CN112434698A (zh) * 2020-11-23 2021-03-02 泰康保险集团股份有限公司 字符识别方法、装置、电子设备及存储介质
CN112464943A (zh) * 2020-11-25 2021-03-09 创新奇智(南京)科技有限公司 基于少样本的语义分割方法及装置、电子设备、存储介质
CN112418134A (zh) * 2020-12-01 2021-02-26 厦门大学 基于行人解析的多流多标签行人再识别方法
CN112418134B (zh) * 2020-12-01 2024-02-27 厦门大学 基于行人解析的多流多标签行人再识别方法
CN112529768A (zh) * 2020-12-04 2021-03-19 中山大学 一种基于生成对抗网络的服装编辑和生成方法
CN112529768B (zh) * 2020-12-04 2023-01-06 中山大学 一种基于生成对抗网络的服装编辑和生成方法
CN112446372A (zh) * 2020-12-08 2021-03-05 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112446372B (zh) * 2020-12-08 2022-11-08 电子科技大学 基于通道分组注意力机制的文本检测方法
CN112650832B (zh) * 2020-12-14 2022-09-06 中国电子科技集团公司第二十八研究所 基于拓扑及文献特征的知识关联网络关键节点发现方法
CN112650832A (zh) * 2020-12-14 2021-04-13 中国电子科技集团公司第二十八研究所 基于拓扑及文献特征的知识关联网络关键节点发现方法
CN112633343B (zh) * 2020-12-16 2024-04-19 国网江苏省电力有限公司检修分公司 一种电力设备端子排接线校核方法及装置
CN112633343A (zh) * 2020-12-16 2021-04-09 国网江苏省电力有限公司检修分公司 一种电力设备端子排接线校核方法及装置
CN112598635A (zh) * 2020-12-18 2021-04-02 武汉大学 一种基于对称点生成的点云3d目标检测方法
CN112598635B (zh) * 2020-12-18 2024-03-12 武汉大学 一种基于对称点生成的点云3d目标检测方法
CN112669446B (zh) * 2020-12-24 2024-04-19 联通(浙江)产业互联网有限公司 楼宇场景的建模方法和装置
CN112669446A (zh) * 2020-12-24 2021-04-16 联通(浙江)产业互联网有限公司 楼宇场景的建模方法和装置
CN113435466A (zh) * 2020-12-26 2021-09-24 上海有个机器人有限公司 电梯门位置和开关状态的检测方法、装置、介质和终端
CN112598683B (zh) * 2020-12-27 2024-04-02 北京化工大学 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法
CN112598683A (zh) * 2020-12-27 2021-04-02 北京化工大学 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法
CN112651948A (zh) * 2020-12-30 2021-04-13 重庆科技学院 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法
CN112651948B (zh) * 2020-12-30 2022-04-12 重庆科技学院 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法
CN112862842B (zh) * 2020-12-31 2023-05-12 青岛海尔科技有限公司 图像数据的处理方法和装置、存储介质及电子装置
CN112862842A (zh) * 2020-12-31 2021-05-28 青岛海尔科技有限公司 图像数据的处理方法和装置、存储介质及电子装置
CN112686203A (zh) * 2021-01-12 2021-04-20 重庆大学 一种基于空间先验的车辆安全警示装置检测方法
CN112686203B (zh) * 2021-01-12 2023-10-31 重庆大学 一种基于空间先验的车辆安全警示装置检测方法
CN112801146B (zh) * 2021-01-13 2024-03-19 华中科技大学 一种目标检测方法及***
CN112801146A (zh) * 2021-01-13 2021-05-14 华中科技大学 一种目标检测方法及***
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN112712535A (zh) * 2021-01-18 2021-04-27 长安大学 基于模拟困难样本的Mask-RCNN滑坡分割方法
CN112712535B (zh) * 2021-01-18 2024-03-22 长安大学 基于模拟困难样本的Mask-RCNN滑坡分割方法
CN112766361A (zh) * 2021-01-18 2021-05-07 山东师范大学 一种同色系背景下目标果实检测方法及检测***
CN112883795A (zh) * 2021-01-19 2021-06-01 贵州电网有限责任公司 一种基于深度神经网络的表格快速自动提取方法
CN112883795B (zh) * 2021-01-19 2023-01-31 贵州电网有限责任公司 一种基于深度神经网络的表格快速自动提取方法
CN112651989A (zh) * 2021-01-19 2021-04-13 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和***
CN112651989B (zh) * 2021-01-19 2024-01-19 华东理工大学 基于Mask RCNN实例分割的SEM图像分子筛粒径统计方法和***
CN112766262B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对单层一对多和多对一股份图的识别方法
CN112784737B (zh) * 2021-01-21 2023-10-20 上海云从汇临人工智能科技有限公司 结合像素分割和线段锚的文本检测方法、***及装置
CN112766263B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对多层控股关系股份图的识别方法
CN112766263A (zh) * 2021-01-21 2021-05-07 西安理工大学 一种针对多层控股关系股份图的识别方法
CN112766262A (zh) * 2021-01-21 2021-05-07 西安理工大学 一种针对单层一对多和多对一股份图的识别方法
CN112784737A (zh) * 2021-01-21 2021-05-11 上海云从汇临人工智能科技有限公司 结合像素分割和线段锚的文本检测方法、***及装置
CN112766194A (zh) * 2021-01-26 2021-05-07 上海海洋大学 一种海洋中尺度涡检测方法
CN112818975A (zh) * 2021-01-27 2021-05-18 北京金山数字娱乐科技有限公司 文本检测模型训练方法及装置、文本检测方法及装置
CN112990211A (zh) * 2021-01-29 2021-06-18 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112990211B (zh) * 2021-01-29 2023-07-11 华为技术有限公司 一种神经网络的训练方法、图像处理方法以及装置
CN112801092A (zh) * 2021-01-29 2021-05-14 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112801092B (zh) * 2021-01-29 2022-07-15 重庆邮电大学 一种自然场景图像中字符元素检测方法
CN112766274B (zh) * 2021-02-01 2023-07-07 长沙市盛唐科技有限公司 一种基于Mask RCNN算法的水尺图像水位自动读数方法及***
CN112766274A (zh) * 2021-02-01 2021-05-07 长沙市盛唐科技有限公司 一种基于Mask RCNN算法的水尺图像水位自动读数方法及***
CN112946436A (zh) * 2021-02-02 2021-06-11 成都国铁电气设备有限公司 一种车载接触网绝缘器消弧缺断在线智能检测方法
CN112818873A (zh) * 2021-02-04 2021-05-18 苏州魔视智能科技有限公司 车道线检测方法、***及电子设备
CN112818873B (zh) * 2021-02-04 2023-05-26 苏州魔视智能科技有限公司 车道线检测方法、***及电子设备
CN112700444A (zh) * 2021-02-19 2021-04-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法
CN112700444B (zh) * 2021-02-19 2023-06-23 中国铁道科学研究院集团有限公司铁道建筑研究所 基于自注意力与中心点回归模型的桥梁螺栓检测方法
CN112883887A (zh) * 2021-03-01 2021-06-01 中央财经大学 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN112883887B (zh) * 2021-03-01 2023-07-18 中央财经大学 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法
CN113095319A (zh) * 2021-03-03 2021-07-09 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113095319B (zh) * 2021-03-03 2022-11-15 中国科学院信息工程研究所 基于全卷积角点修正网络的多向场景文字检测方法及装置
CN113065401A (zh) * 2021-03-04 2021-07-02 国网河北省电力有限公司 一种全票种报账智能平台
CN113065404B (zh) * 2021-03-08 2023-02-24 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与***
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与***
CN113033346A (zh) * 2021-03-10 2021-06-25 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN113033346B (zh) * 2021-03-10 2023-08-04 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN112966678A (zh) * 2021-03-11 2021-06-15 南昌航空大学 一种文本检测方法及***
WO2022188574A1 (zh) * 2021-03-12 2022-09-15 山东英信计算机技术有限公司 一种回归任务的深度学习方法和装置
CN113052369A (zh) * 2021-03-15 2021-06-29 北京农业智能装备技术研究中心 智能农机作业管理方法及***
CN113052369B (zh) * 2021-03-15 2024-05-10 北京农业智能装备技术研究中心 智能农机作业管理方法及***
US11682220B2 (en) 2021-03-15 2023-06-20 Optum Technology, Inc. Overlap-aware optical character recognition
US20220292294A1 (en) * 2021-03-15 2022-09-15 Optum Technology, Inc. Overlap-aware optical character recognition
CN112907605A (zh) * 2021-03-19 2021-06-04 南京大学 用于实例分割的数据增强方法
CN112907605B (zh) * 2021-03-19 2023-11-17 南京大学 用于实例分割的数据增强方法
CN113128560A (zh) * 2021-03-19 2021-07-16 西安理工大学 一种基于注意力模块增强的cnn楷体书法风格分类方法
CN113128560B (zh) * 2021-03-19 2023-02-24 西安理工大学 一种基于注意力模块增强的cnn楷体书法风格分类方法
CN112991304A (zh) * 2021-03-23 2021-06-18 武汉大学 一种基于激光定向能量沉积监测***的熔池溅射检测方法
CN113052759A (zh) * 2021-03-31 2021-06-29 华南理工大学 基于mask和自动编码器的场景复杂文本图像编辑方法
CN112926692B (zh) * 2021-04-09 2023-05-09 四川翼飞视科技有限公司 基于非均匀混合卷积的目标检测装置、方法和存储介质
CN112926692A (zh) * 2021-04-09 2021-06-08 四川翼飞视科技有限公司 基于非均匀混合卷积的目标检测装置、方法和存储介质
CN112927245B (zh) * 2021-04-12 2022-06-21 华中科技大学 一种基于实例查询的端到端实例分割方法
CN112927245A (zh) * 2021-04-12 2021-06-08 华中科技大学 一种基于实例查询的端到端实例分割方法
CN113033540A (zh) * 2021-04-14 2021-06-25 易视腾科技股份有限公司 场景文字的轮廓拟合和校正方法、电子设备及存储介质
CN113033482B (zh) * 2021-04-20 2024-01-30 上海应用技术大学 一种基于区域注意力的交通标志检测方法
CN113033482A (zh) * 2021-04-20 2021-06-25 上海应用技术大学 一种基于区域注意力的交通标志检测方法
CN113177389A (zh) * 2021-04-23 2021-07-27 网易(杭州)网络有限公司 文本处理方法、装置、电子设备及存储介质
CN113139541B (zh) * 2021-04-24 2023-10-24 西安交通大学 一种基于深度学习的配电柜表盘数码管视觉识别方法
CN113139541A (zh) * 2021-04-24 2021-07-20 西安交通大学 一种基于深度学习的配电柜表盘数码管视觉识别方法
CN113269197A (zh) * 2021-04-25 2021-08-17 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归***和识别方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归***和识别方法
CN113191296A (zh) * 2021-05-13 2021-07-30 中国人民解放军陆军炮兵防空兵学院 一种基于yolov5的任意朝向目标五参数检测方法
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113516116B (zh) * 2021-05-19 2022-11-22 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、***和介质
CN113221773A (zh) * 2021-05-19 2021-08-06 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN113221773B (zh) * 2021-05-19 2022-09-13 中国电子科技集团公司第二十八研究所 基于遥感影像快速构建飞机分类数据集的方法
CN113516116A (zh) * 2021-05-19 2021-10-19 西安建筑科技大学 一种适用于复杂自然场景的文本检测方法、***和介质
CN113177511A (zh) * 2021-05-20 2021-07-27 中国人民解放军国防科技大学 基于多数据流的旋转边框智能感知目标检测方法
CN113159037A (zh) * 2021-05-25 2021-07-23 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
CN113159037B (zh) * 2021-05-25 2023-08-08 中国平安人寿保险股份有限公司 图片矫正方法、装置、计算机设备及存储介质
CN113379761A (zh) * 2021-05-25 2021-09-10 广州市东崇科技有限公司 一种基于人工智能的多agv与自动门的联动方法与***
CN113379761B (zh) * 2021-05-25 2023-04-28 重庆顺多利机车有限责任公司 一种基于人工智能的多agv与自动门的联动方法与***
CN113177553A (zh) * 2021-05-31 2021-07-27 哈尔滨工业大学(深圳) 一种电梯内面板楼层按钮识别方法和装置
CN113177553B (zh) * 2021-05-31 2022-08-12 哈尔滨工业大学(深圳) 一种电梯内面板楼层按钮识别方法和装置
CN113313173B (zh) * 2021-06-01 2023-05-30 中山大学 基于图表示和改进Transformer的人体解析方法
CN113313173A (zh) * 2021-06-01 2021-08-27 中山大学 基于图表示和改进Transformer的人体解析方法
CN113362380A (zh) * 2021-06-09 2021-09-07 北京世纪好未来教育科技有限公司 一种图像特征点检测模型训练方法、装置及其电子设备
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及***
CN113360655A (zh) * 2021-06-25 2021-09-07 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113360655B (zh) * 2021-06-25 2022-10-04 中国电子科技集团公司第二十八研究所 一种基于序列标注的航迹点分类及文本生成方法
CN113569650A (zh) * 2021-06-29 2021-10-29 上海红檀智能科技有限公司 一种基于电力杆塔标牌识别的无人机自主巡检定位方法
CN113343987B (zh) * 2021-06-30 2023-08-22 北京奇艺世纪科技有限公司 文本检测处理方法、装置、电子设备及存储介质
CN113469177B (zh) * 2021-06-30 2024-04-26 河海大学 基于深度学习的排水管道缺陷检测方法及***
CN113469177A (zh) * 2021-06-30 2021-10-01 河海大学 基于深度学习的排水管道缺陷检测方法及***
CN113343987A (zh) * 2021-06-30 2021-09-03 北京奇艺世纪科技有限公司 文本检测处理方法、装置、电子设备及存储介质
CN113763326B (zh) * 2021-08-04 2023-11-21 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113763326A (zh) * 2021-08-04 2021-12-07 武汉工程大学 一种基于Mask Scoring R-CNN网络的受电弓检测方法
CN113780087B (zh) * 2021-08-11 2024-04-26 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113780087A (zh) * 2021-08-11 2021-12-10 同济大学 一种基于深度学习的邮政包裹文本检测方法及设备
CN113887282A (zh) * 2021-08-30 2022-01-04 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测***及方法
CN113643136A (zh) * 2021-09-01 2021-11-12 京东科技信息技术有限公司 信息处理方法、***和装置
CN113807340A (zh) * 2021-09-07 2021-12-17 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113807340B (zh) * 2021-09-07 2024-03-15 南京信息工程大学 一种基于注意力机制的不规则自然场景文本识别方法
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113837168A (zh) * 2021-09-22 2021-12-24 易联众智鼎(厦门)科技有限公司 一种图像文本检测与ocr识别方法、装置及存储介质
CN113850189A (zh) * 2021-09-26 2021-12-28 北京航空航天大学 一种应用于机动平台的嵌入式孪生网络实时跟踪方法
CN113903023A (zh) * 2021-09-28 2022-01-07 南京信息工程大学 基于改进MaskRCNN与SEED框架的自然场景文字检测识别方法
CN113989806A (zh) * 2021-10-11 2022-01-28 浙江康旭科技有限公司 一种可扩展的crnn银行***识别方法
CN113989806B (zh) * 2021-10-11 2024-05-24 康旭科技有限公司 一种可扩展的crnn银行***识别方法
CN113989708A (zh) * 2021-10-27 2022-01-28 福州大学 一种基于YOLO v4的校园图书馆疫情防控方法
CN113989708B (zh) * 2021-10-27 2024-06-04 福州大学 一种基于YOLO v4的校园图书馆疫情防控方法
CN114049625A (zh) * 2021-11-11 2022-02-15 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114049625B (zh) * 2021-11-11 2024-02-27 西北工业大学 基于新型图像收缩方法的多方向文本检测方法
CN114155540B (zh) * 2021-11-16 2024-05-03 深圳市联洲国际技术有限公司 基于深度学习的文字识别方法、装置、设备及存储介质
CN114155540A (zh) * 2021-11-16 2022-03-08 深圳市联洲国际技术有限公司 基于深度学习的文字识别方法、装置、设备及存储介质
CN113989604A (zh) * 2021-11-18 2022-01-28 广东工业大学 基于端到端深度学习的轮胎dot信息识别方法
CN114049648A (zh) * 2021-11-25 2022-02-15 清华大学 工程图文本检测识别方法、装置及***
CN114049648B (zh) * 2021-11-25 2024-06-11 清华大学 工程图文本检测识别方法、装置及***
CN114187445A (zh) * 2021-11-29 2022-03-15 北京百度网讯科技有限公司 识别图像中文本的方法、装置、电子设备及存储介质
CN114140786A (zh) * 2021-12-03 2022-03-04 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114140786B (zh) * 2021-12-03 2024-05-17 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114332839A (zh) * 2021-12-30 2022-04-12 福州大学 一种基于多空间联合感知的街景文本检测方法
CN114332839B (zh) * 2021-12-30 2024-06-07 福州大学 一种基于多空间联合感知的街景文本检测方法
CN114332841A (zh) * 2021-12-31 2022-04-12 福州大学 一种基于选择性特征融合金字塔的场景文本检测方法
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及***
CN114067321A (zh) * 2022-01-14 2022-02-18 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质
CN114550161A (zh) * 2022-01-20 2022-05-27 北京大学 一种端到端的三维目标稀疏检测方法
CN114418001B (zh) * 2022-01-20 2023-05-12 北方工业大学 一种基于参数重构网络的字符识别方法及***
CN114418001A (zh) * 2022-01-20 2022-04-29 北方工业大学 一种基于参数重构网络的字符识别方法及***
CN114419020A (zh) * 2022-01-26 2022-04-29 深圳大学 医学图像分割方法、装置、计算机设备及存储介质
CN114565789B (zh) * 2022-02-15 2024-05-24 华南理工大学 一种基于集合预测的文本检测方法、***、装置及介质
CN114565789A (zh) * 2022-02-15 2022-05-31 华南理工大学 一种基于集合预测的文本检测方法、***、装置及介质
CN114201967A (zh) * 2022-02-17 2022-03-18 杭州费尔斯通科技有限公司 一种基于候选实体分类的实体识别方法、***及装置
CN114549958B (zh) * 2022-02-24 2023-08-04 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN115223171A (zh) * 2022-03-15 2022-10-21 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
CN114399769A (zh) * 2022-03-22 2022-04-26 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114359912A (zh) * 2022-03-22 2022-04-15 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及***
CN114359912B (zh) * 2022-03-22 2022-06-24 杭州实在智能科技有限公司 基于图神经网络的软件页面关键信息提取方法及***
CN114723946B (zh) * 2022-04-11 2024-02-27 合肥工业大学 一种基于语义分割的择优式方向偏移预警***和方法
CN114723946A (zh) * 2022-04-11 2022-07-08 合肥工业大学 一种基于语义分割的择优式方向偏移预警***和方法
CN114862648A (zh) * 2022-05-27 2022-08-05 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档
CN115243250A (zh) * 2022-07-25 2022-10-25 每日互动股份有限公司 一种获取wifi画像的方法、***及存储介质
CN115243250B (zh) * 2022-07-25 2024-05-28 每日互动股份有限公司 一种获取wifi画像的方法、***及存储介质
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972710A (zh) * 2022-07-27 2022-08-30 深圳爱莫科技有限公司 一种在图像中实现多形状目标检测的方法及***
CN116485759A (zh) * 2023-04-25 2023-07-25 什维新智医疗科技(上海)有限公司 一种超声影像中目标边界识别方法、***及电子设备
CN116701347A (zh) * 2023-05-08 2023-09-05 北京三维天地科技股份有限公司 一种基于类别扩展的数据建模方法及***
CN116701347B (zh) * 2023-05-08 2023-12-05 北京三维天地科技股份有限公司 一种基于类别扩展的数据建模方法及***
CN116342627A (zh) * 2023-05-23 2023-06-27 山东大学 一种基于多实例学习的肠上皮化生区域图像分割***
CN116342627B (zh) * 2023-05-23 2023-09-08 山东大学 一种基于多实例学习的肠上皮化生区域图像分割***
CN116442393A (zh) * 2023-06-08 2023-07-18 山东博硕自动化技术有限公司 基于视频识别的搅拌站智能卸料方法、***及控制设备
CN116442393B (zh) * 2023-06-08 2024-02-13 山东博硕自动化技术有限公司 基于视频识别的搅拌站智能卸料方法、***及控制设备
CN116436987B (zh) * 2023-06-12 2023-08-22 深圳舜昌自动化控制技术有限公司 一种IO-Link主站数据报文传输处理方法和***
CN116436987A (zh) * 2023-06-12 2023-07-14 深圳舜昌自动化控制技术有限公司 一种IO-Link主站数据报文传输处理方法和***
CN116524521B (zh) * 2023-06-30 2023-09-15 武汉纺织大学 一种基于深度学习的英文字符识别方法和***
CN116524521A (zh) * 2023-06-30 2023-08-01 武汉纺织大学 一种基于深度学习的英文字符识别方法和***
CN116524529A (zh) * 2023-07-04 2023-08-01 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法
CN116524529B (zh) * 2023-07-04 2023-10-27 青岛海信信息科技股份有限公司 一种基于图形嵌套关系的图层识别新方法
CN117078901B (zh) * 2023-07-12 2024-04-16 长江勘测规划设计研究有限责任公司 一种钢筋视图单点筋自动标注方法
CN117078901A (zh) * 2023-07-12 2023-11-17 长江勘测规划设计研究有限责任公司 一种钢筋视图单点筋自动标注方法
CN116740688A (zh) * 2023-08-11 2023-09-12 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和***
CN116740688B (zh) * 2023-08-11 2023-11-07 武汉市中西医结合医院(武汉市第一医院) 一种药品识别方法和***
CN116863482B (zh) * 2023-09-05 2023-12-19 华立科技股份有限公司 一种互感器检测方法、装置、设备及存储介质
CN116863482A (zh) * 2023-09-05 2023-10-10 华立科技股份有限公司 一种互感器检测方法、装置、设备及存储介质
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及***
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及***
CN117409400A (zh) * 2023-10-18 2024-01-16 无锡九霄科技有限公司 基于深度学习网络的复杂条件字符识别方法
CN117409400B (zh) * 2023-10-18 2024-06-07 无锡九霄科技有限公司 基于深度学习网络的复杂条件字符识别方法
CN117221146B (zh) * 2023-11-09 2024-01-23 成都科江科技有限公司 一种梯形图逻辑组态的界面布局***及布局方法
CN117221146A (zh) * 2023-11-09 2023-12-12 成都科江科技有限公司 一种梯形图逻辑组态的界面布局***及布局方法
CN117315702A (zh) * 2023-11-28 2023-12-29 山东正云信息科技有限公司 基于集合预测的文本检测方法、***及介质
CN117315702B (zh) * 2023-11-28 2024-02-23 山东正云信息科技有限公司 基于集合预测的文本检测方法、***及介质
CN117315238B (zh) * 2023-11-29 2024-03-15 福建理工大学 一种车辆目标检测的方法与终端
CN117315238A (zh) * 2023-11-29 2023-12-29 福建理工大学 一种车辆目标检测的方法与终端
CN117436442B (zh) * 2023-12-19 2024-03-12 中南大学 一种文本词项多重分割合并标注拆分方法及装置
CN117436442A (zh) * 2023-12-19 2024-01-23 中南大学 一种文本词项多重分割合并标注拆分方法及装置
CN117475038B (zh) * 2023-12-28 2024-04-19 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117556806B (zh) * 2023-12-28 2024-03-22 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法
CN117556806A (zh) * 2023-12-28 2024-02-13 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117560456A (zh) * 2024-01-11 2024-02-13 卓世未来(天津)科技有限公司 一种大模型数据防泄漏方法及***

Also Published As

Publication number Publication date
CN108549893B (zh) 2020-03-31
CN108549893A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN108304835B (zh) 文字检测方法和装置
CN110837835B (zh) 一种基于边界点检测的场景文本端到端识别方法
CN111488826B (zh) 一种文本识别方法、装置、电子设备和存储介质
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
CN110580699A (zh) 基于改进Faster RCNN算法的病理图像细胞核检测方法
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN111738055A (zh) 多类别文本检测***和基于该***的票据表单检测方法
CN110751154A (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN112541491A (zh) 基于图像字符区域感知的端到端文本检测及识别方法
CN114596566A (zh) 文本识别方法及相关装置
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
El Abbadi Scene Text detection and Recognition by Using Multi-Level Features Extractions Based on You Only Once Version Five (YOLOv5) and Maximally Stable Extremal Regions (MSERs) with Optical Character Recognition (OCR)
CN111898608B (zh) 一种基于边界预测的自然场景多语言文字检测方法
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN116416640A (zh) 文档元素确定的方法、装置、设备以及存储介质
CN115375742A (zh) 生成深度图像的方法及***
CN114494678A (zh) 文字识别方法和电子设备
CN114170625A (zh) 一种上下文感知、噪声鲁棒的行人搜索方法
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19780645

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19780645

Country of ref document: EP

Kind code of ref document: A1