What is pose estimation
pose estimation은 인체 부위를 찾아 인체를 표현하는 task이며, 의료, 헬스케어, 그리고 엔터테인먼트 분야에서 폭넓게 사용된다. 과거에는 효율과 정확도의 문제로 거의 사용되지 않았지만, 현재에 이르러서는 딥러닝의 도입으로 관련 분야의 산업이 크게 발전하는 추세다. 현재 pose estimation은 높은 성능을 달성했지만, truncation, occlusion 문제나 불충분한 훈련 데이터에 대한 문제를 해결해야 한다.
heatmap based 2d pose estimation
현재 주로 사용되는 pose estimation 방법은 heatmap을 기반으로 한다. heatmap을 사용하는 2d human pose estimation은 inpu image의 사람 수에 따라 single person과 multi person 문제로 나뉜다. 사람의 수가 단일인 경우 단순히 관절에 대한 heatmap을 생성한 후 인체를 표현하도록 조립한다. 사람의 수가 여럿일 경우 인체 부위를 탐지한 후 각 사람으로 그룹화한다.
2d multi-person pose estimation
사람의 수가 여럿일 경우 사람 수와 위치를 파악하고 다른 사람을 위해 key point를 그룹화하는 방법을 파악해야 하기 때문에 어려움을 겪는다. 문제를 해결하기 위해 다중 사용자 HPE 방법은 botton-up 및 top-down 방법을 사용한다. top-down pipeline은 detection을 사용해 image에서 각 사람을 detection한 다음 single person기반 방식으로 key point의 위치를 예측하기 때문에 우수한 결과가 나타난다. 이 경우 배경이 제거되어 detection된 각 사람 영역 내의 key point 추정이 용이하다. 반면에 bottom-up 방법은 일반적으로 top-down 방법보다 효율적이다. 모든 key point를 직접 감지하고 key point association strategies를 사용하여 각 pose로 그룹화하기 때문이다. [Deep Learning-Based Human Pose Estimation: A Survey]
What is stacked hourglass betwork
stacked hourglass network는 이름의 의미와 같이 hourglass를 쌓은 형태이다. upsampling을 진행하는 대부분의 기존 모델의 경우에는 hourglass를 하나만 사용하는 것과 대조된다. 성능을 향상하기 위해 반복되는 bottom-up, top-down architecture를 사용한다. 본 논문에서의 핵심은 intermediate supervision과 stacked hourglass를 사용한다는 것이다. stacked hourglass network for human pose estimation은 state-of-the-art model에서 base로 사용되는 경우가 많다. 본 글의 뒷부분에서는 어떻게 stacked hourglass network가 기존 모델보다 성능을 향상하는지에 대해 알아보겠다.
the role of skip connection in stacked hourglass network
pose를 추정하기 위해서는 관절을 파악하는 과정이 필요하다. 관절의 위치는 fig 2의 image에서 볼 수 있듯이 heatmap으로 파악하는데, network는 downsampling과 upsampling을 통과해 heatmap을 생성한다. 여기서 문제는 downsampling 마지막 부분의 resolution은 77과 같이 매우 작은 크기라는 것이다. 77 크기에서 pixel은 큰 receptive field를 포함하므로 structure 부분을 잘 capture하지만, detail한 부분은 잘 capture하지 못한다. 따라서 모든 resolution에서의 feature를 적용해줄 필요가 있다. fig3에서 stacked hourglass network에서 skip connection을 사용해 모든 resolution을 upsampling에 이용하는 구조가 파악할 수 있다.
why use residual module
stacked hourglass network에서 residual module을 사용한다. residual module은 vanishing gradient 문제를 일부 해결한다. 많은 layer를 통과하면서 gradient가 미세해지거나 매우 거대해진다면 수렴하기 어렵다. gradient 범위의 분포가 layer의 위치에 따라 상당한 차이를 보인다면 일부 layer가 많은 역할을 하므로 모든 layer를 잘 활용하지 못할 것이다. 하나의 예로 long chain of multiplication에서 chain을 따라가면서 1보다 작은 값을 곱하면, 매우 작은 결과를 얻어 early layers에서 매우 작은 값이 나타난다. 문제를 해결하기 위해 몇 개의 layer를 건너뛰어 연결해 non-linearities를 추가하는 skip connections을 적용할 수 있다. skip connections는 gradient가 layers를 건너뛰어 연결될 수 있는 shortcuts를 만들어 parameters를 network에 deep하게 업데이트할 수 있다. short skip connection을 통해 몇 개의 layers를 건너뛰면 gradient가 원활하게 흐른다. 이는 updates를 안정화하며 gradient vanishing에 더 강력하기 때문에 converge가 보다 빠르다. stacked hourglass network에서 residual module을 사용하면 보다 깊은 network에서 vanishing gradient 문제를 완화하고, ensemble과 같은 효과로 성능이 향상된다.
the role of intermediate supervision
architecture에서 사용되는 Intermediate supervision은 중요한 역할을 한다. 해당 부분에서 생성된 heatmap과 ground-trush heatmap을 비교해 MSE loss를 구한다. 최종 prediction 부분에서만 loss를 구하지 않고, 중간에서 추가적으로 loss를 구해 적용함으로써 틀린 부분을 보다 정교하게 보정할 수 있을 것이다. intermediate supervision을 이용한다면 부정확한 부분을 개선하는 효과를 얻을 수 있다. 이는 우수한 결과로 직결됨으로 해당 network에서 중요하다. 특히, stacked hourglass와 같이 hourglass 구조가 쌓여있을 때 각 구조마다 intermediate supervision을 적용하는 것은 직관적으로 효율적이라고 예상할 수 있다.
intermediate prediction result analysis
intermediate prediction의 결과가 fig 9에 나타난다. fig 9의 좌측 이미지에서 좌측은 second hourglass의 intermediate stage와 eight hourglass의 final prediction의 비교 결과다. 해당 이미지에서 확인할 수 있듯이 intermediate stage의 결과가 부정확하지만 final prediction에서는 보정된다. 이처럼 각 hourglass를 통과하면서 pose estimation의 성능은 향상하는 것을 우측 이미지에서 확인할 수 있다. 해당 이미지에서는 hourglass의 개수에 따라 3가지 network로 나눴는데 모든 network의 parameters는 같다. 결과에서 볼 수 있듯이 단순히 hourglass를 쌓을수록 final prediction의 결과가 더 높아진다.
comparison results
평가는 percentage of correct key points metric을 사용해서 수행한다. 결과는 다른 architecture보다 우수하다. 성능은 일반적으로 2~3% 가량 향상되는데 특히 knee와 같이 어려운 부분에 대한 성능 향상 폭은 보다 크게 증가한다. stacked hourglass network는 단순히 구조를 쌓고 intermediate supervision을 적용함으로써 큰 성능 향상을 얻는데, 이 network를 기초로 향후 개선된 architecture를 생성해 sota의 성능을 달성하는 경우도 여럿 존재한다.
comparison of the effect of the number of houreglasses and intermediate supervision
hourglass stack의 개수와 intermediate supervision의 효과를 비교한 결과가 아래 나타난다. HG-Stacked-int > HG-int > HG-Stacked > HG-Half 순서로 accuracy가 높다. 결과를 통해 stacked hourglass와 intermediate supervision이 정확도 향상에 도움 된다는 것이 나타난다. 결과는 복합적인 요소를 통해 나타나겠지만, 대략적으로 Intermediate supervision으로 인한 성능 향상이 hourglass를 쌓는 것보다 높은 성능 향상을 나타내는 것이다고 추측할 수 있다.
the superiority of heatmap in the occultation problem
pose estimation에서 multiple people이 나타난 때 제한된 성능이 나타난다. 서로 매우 가까이 있거나 겹치는 경우 모호한 상황일 때 나타나는 occlusion 문제 때문이다. 이미지 관절이 보이지 않지만, 실제로 존재하는 경우나, 몸의 일부만 보이는 image에서 pose estimation을 할 때 상당한 난관을 겪을 수 있다. 무조건 관절을 그려야 한다면, 무의미한 예측을 하게 되는 경우가 있다. 반면에 heatmap은 관절의 존재 여부를 판단해 필터링할 수 있다. Fig11에서 not visible의 detection rate가 상당히 낮은데, 이와 같은 상황을 필터링하면 비교적 정확한 pose를 estimation할 수 있을 것이다. 현실 세계의 다양한 문제에서 occlusion이 많이 발생한다는 부분을 고려할 때 heatmap을 사용하는 stacked hourglass network가 더욱 가치 있을 수 있다.
Conclusion
본 논문의 stacked hourglass라는 pose estimation을 위한 새로운 network를 제시했다. stacked hourglass network는 단순히 hourglass를 쌓는 방법으로 accuracy가 향상되며, stacked hourglass network에서 특히 좋은 결과를 보이는 intermediate supervision과 함께 사용한다. 제시된 network는 기존 network보다 큰 폭으로 성능이 향상되지만, 아직 해결해야 할 문제가 남아있다. multi people이 존재하거나 특정한 상황에서 occlusion 현상이 발생할 때 정확한 pose estimation을 하기 어렵다. 이 문제점에 대해 stacked hourglass network는 비교적 강력한 성능을 보이지만, 근본적인 해결책으로 사용하지 못한다.
References
- Zheng, Ce, et al. "Deep Learning-Based Human Pose Estimation: A Survey." arXiv preprint arXiv:2012.13392 (2020).
- Newell, Alejandro, Kaiyu Yang, and Jia Deng. "Stacked hourglass networks for human pose estimation." European conference on computer vision. Springer, Cham, 2016.
- Ethan Yanjia Li, Human Pose Estimation with Stacked Hourglass Network and TensorFlow, medium, 2020
'deep learning' 카테고리의 다른 글
PaDiM: a Patch Distribution Modeling Framework for Anomaly Detection and Localization 리뷰 (0) | 2022.02.24 |
---|---|
Deep Transfer Hashing for Image Retrieval 리뷰 (0) | 2022.02.23 |
EfficientNet 리뷰 (0) | 2021.02.19 |
Skip connection 정리 (2) | 2021.02.02 |
[Chapter 2]starGAN 코드 레벨 분석 (0) | 2021.01.28 |