EAST ( Efficient and Accuracy Scene Text detector )
- "EAST: an efficient and accurate scene text detector" - MEGVII
- 기존 많은 프로세스 과정을 거치는 것과는 다르게 2개의 과정을 거치게 된다.
FCN Architecture
- Feature extractor : 특징을 뽑아내는 layer
- conv와 pooling하며 pooling할 수록 더 크고 직관적인 특징 뽑아낼 수 있다.
- 초반의 feature map = 작은 크기의 특징
- 후반의 feature map = 큰 크기의 특징
- Feature merging
- 각각의 feature map을 통해 크고 작은 특징에 모두 잘 동작하는 feature map을 만들기 위해 사용
- Output layer
- score map : 문자 영역에 대한 바이너리 맵
- RBOX : 중앙 지점에서 각각의 feature map은 상 하 좌 우 의 거리로 만든다. 또한 얼마나 기울었는지에 대한 feature map을 만든다.
- QUAD : 상하좌우 각 꼭지점에 대한 각각의 distance를 통해 feature map을 만들어 8개를 만듭니다.
Loss Function
- score loss function
- geometery loss function
score loss functino - Balanced cross-entropy
- 하나의 그림에서도 여러가지 결과가 있으며 정답에 포함된 결과는 positive sample, 정답이 아니면 negative sample입니다.
- 또한 negative sample의 수가 positive sample의 수보다 훨신 많은 양을 차지하게 되고 제대로된 학습을 하기가 힘들다.
- 따라서 이를 해결하기 위해 베타값을 넣습니다.
- 베타는 (결과 샘플 / 전체 샘플)로 결과 양이 적은 positive sample이 들어오면 큰 베타값을, 양이 많은 negative sample이 들어오면 작은 베타값을 얻게 됩니다.
- 따라서 해당 베타 값을 통해 식을 계산하게 됩니다.
geometry loss function - Intersection over Union loss
- scale invariant에 대한 문제를 해결하기 위해 사용
- Ex) 작은 범위에서 10차이와 넓은 범위에서 10차이를 생각했을 때 넓의 범위가 상대적으로 오류율이 더 작다
- IoU = 두 개의 교집합 / 두 개의 합집합
geometry loss function - rotation angle
- rotation한 정도에 따른 오차
- Lg = 위치 + 돌아간 정도
Non-Maximum Suppression
- 여러 바운드 박스에서 가장 대표성을 띄는 바운드 박스를 고르는 과정
CRAFT ( Character Region Awareness For Text detection )
- "Character region awareness for text detection" - clova
- 기존에 text detect 박스의 경우 직사각형의 특정 모양만 가능했기에 원이나 타원등 곡선의 경우 감지하기 힘들었습니다.
- 따라서 이를 해결하기 위해 각각의 단어 단위가 아닌 문자 단위로 예측하는 character region score와 각 문자간 관계를 예측하는 affinity score 사용
Loss Function
'인공지능' 카테고리의 다른 글
[머신러닝] - 로지스틱 회귀 (Logistic Regression) (0) | 2022.05.08 |
---|---|
[딥러닝] 딥러닝을 위한 GPU 셋팅 with VSC (0) | 2022.04.29 |
딥러닝 - VGGNet, GoogleNet (0) | 2022.03.28 |
딥러닝 - 합성곱 신경망 & AlexNet (0) | 2022.03.27 |
딥러닝 - 다중 퍼셉트론 (0) | 2022.03.21 |