本文轉自徐飛翔的“【動作識別相關,第一篇】skeleton骨骼點數據類型介紹”
版權聲明:本文為博主原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接和本聲明。
1. 骨骼點數據1.1 骨骼點數據和其獲得方法骨骼點數據是一種landmark類型的數據,指的是用關鍵點去描述整個人體的動作,我們可以稱之為動作描述的pose信息,因此對這類數據的估計在文獻中一般也稱為姿態估計(Pose Estimation),效果如下圖Fig1和Fig2所示:
Fig 1. 利用Openpose[2]對RGB視頻估計出來的骨骼點數據。
Fig 2. 利用Kinect v2.0[1]得到的骨骼點排序。
根據[3]中的研究,對于一個人體動作而言,可以通過10 ∼ 12 10 \sim 1210∼12個人體關節點有效地表達其動作內容1。為了獲取到這種pose信息,按照使用器械不同或者原始模態不同,目前一般來說通過三種手段,分別是:
MoCap[4]全稱為Motion Capture,是一種讓表演者全身主要關節點穿戴好傳感器之后,將傳感器信息匯集到計算機中進行處理后,得到人體的關節點數據的一種系統。其得到的數據一般來說都是3D數據,既是有著關節點的(x,y,z)坐標的。
Fig 3. MoCap系統的示例,表演者需要全身穿戴傳感器。
隨著深度攝像頭的發展,通過結構光或者ToF技術,我們現在已經可以用傳感器對物體的深度信息進行描述了,這點是傳統的RGB攝像頭所難以解決的,效果如下圖所示:
Fig 4. 用Kinect捕獲的深度信息,越深的顏色表示距離離攝像頭越遠,越淺代表越近。
基于這種技術,我們可以描述物體到攝像頭的遠近距離了,結合彩色攝像頭提供的色彩信息,就可以對物體進行更為精確的描述。基于深度圖和彩色圖像,一些公司開發了可以對其進行骨骼點估計的算法[5],典型的產品如Kinect和RealSense。這些產品因為是基于圖像進行處理的,不能觀測到物體被遮擋的一面,因此這樣估計出來的結果其實不是 完美的3D信息 ,其被遮擋部分或多或少都是 “估計,猜” 出來的,因此看成是 2.5D 的信息。盡管如此,大多數這類產品都提供(x,y,z)等對關節點的估計。
盡管深度攝像頭比起MoCap傳感器來說的確便宜很多了,但是價格也還不夠親民,因此就產生了一類研究是關于如何僅僅依靠RGB圖像對人體進行姿態估計,這個姿態估計可以是2D信息的[8],有些研究甚至是關于3D信息的[7],如Fig 5所示。
Fig 5. 利用RGB模態信息進行3D關節點的姿態估計。
目前,基于RGB的姿態估計基本上都是對遮擋部分魯棒性不夠,有部分工作[9-10]是考慮了對其進行遮擋部分的恢復的,但是似乎普遍對遮擋部分的效果都不是特別好,目前開源的最好結果似乎就是OpenPose了。(不是很了解姿態估計的進展,希望研究此的朋友給予指點)。
1.2 骨骼點數據的優劣
根據我們在1.1節討論的,我們總結下這幾類由不同手段得到的骨骼點數據的優劣點:
1.基于身體佩戴傳感器的手段
優點:姿態估計結果準確,不存在因為身體遮擋導致的估計失敗問題,魯棒性高。
缺點:價格昂貴,不方便日常使用。
2.基于深度攝像頭和彩色攝像頭的手段
優點:方便使用,價格較為低廉,準確率較高。
缺點:對遮擋部分同樣無能為力,只能通過時序上的上下文信息對某幀的遮擋部分進行推測,經常造成遮擋部分估計失敗。
3.基于RGB視頻的姿態估計
優點:價格最為低廉,一般攝像頭就可以部署,可以大規模使用。
缺點:缺少了深度信息,導致對光照等信息比較敏感,同樣無法克服遮擋部分的影響,準確率不如基于深度和彩色攝像頭聯合使用的效果。
從信息的角度來說,對比RGB視頻信息,骨骼點信息極為緊湊,冗余量少,但是同樣的,總體信息量也不如RGB模態的高,比如對于某些和物體交互的動作,光用骨骼點信息就很難完全描述。而且,因為其冗余量少,只要存在噪聲,比如遮擋部分的推斷噪聲或者姿態估計算法不穩定導致的噪聲,就會造成原信息的較大干擾,影響后續的識別或者其他任務的進行。如下圖Fig 6和Fig 7所示,基于第二種和第三種方法的姿態估計通常對遮擋部分魯棒性都不佳。
Fig 6. 用OpenPose對遮擋動作進行姿態估計,可以看到左手因為被遮擋而沒有估計出來。
Fig 7. 用Kinect對遮擋動作進行姿態估計,左手部分被遮擋,但是Kinect還是對時序上的上下文進行了估計,但是這種估計常常效果不佳,容易引入估計噪聲。
不過目前來說,基于骨骼點信息的應用因為其對于光照魯棒性較強,對動作的表達能力強等特點,已經越來越受到了研究者的青睞。
Reference
[1]. Understanding Kinect V2 Joints and Coordinate System [需要特殊的上網姿勢,你懂得]
[2]. OpenPose Github Project Page
[3]. Johansson G. Visual perception of biological motion and a model for its analysis[J]. Perception & psychophysics, 1973, 14(2): 201-211.
[4]. Rogez G, Schmid C. Mocap-guided data augmentation for 3d pose estimation in the wild[C]//Advances in Neural Information Processing Systems. 2016: 3108-3116.
[5]. Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. Ieee, 2011: 1297-1304.
[6]. Kinect Introduction from Wikipedia
[7]. Pavllo D, Feichtenhofer C, Grangier D, et al. 3D human pose estimation in video with temporal convolutions and semi-supervised training[J]. arXiv preprint arXiv:1811.11742, 2018.
[8]. Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d pose estimation using part affinity fields[J]. arXiv preprint arXiv:1611.08050, 2016.
[9]. Sárándi I, Linder T, Arras K O, et al. How robust is 3D human pose estimation to occlusion?[J]. arXiv preprint arXiv:1808.09316, 2018.
[10]. Guo X, Dai Y. Occluded Joints Recovery in 3D Human Pose Estimation based on Distance Matrix[C]//2018 24th International Conference on Pattern Recognition (ICPR). IEEE, 2018: 1325-1330.