摘 要: 為了進一步提高人體部位識別正確率,考慮人體部位尺寸不一特性,提出了改進型深度差分特征。改進型深度差分特征根據人體部位尺寸大小確定特征偏移量取值,然后利用隨機森林算法訓練分類模型,實現了人體部位識別。實驗結果表明,采用改進型深度差分特征作為分類模型的訓練特征點,實現了人體部位更高、更準確的識別率,比原深度差分特征提高了1.95%。
關鍵詞: 部位識別;隨機森林;深度圖像;深度差分特征
0 引言
人體姿態識別是計算機視覺中一個重要的研究方向,對視頻中運動人體部位的準確識別可為人體姿態研究奠定基礎,也降低了人體行為分析的難度。
人體部位識別從識別局部部位發展到識別整體部位,其算法主要可分為基于部位模型[1]部位識別和基于特征分類[2]部位識別。人部位識別算法根據圖像數據不同又可分為基于可見光圖像識別和基于深度圖像識別。基于可見光圖像識別人體部位主要利用人體表觀特征,如HOG特征和人體輪廓特征,但是容易受到光照強度、陰影、著衣顏色等因素的影響。為了克服以上問題,一些學者采用深度圖像識別人體部位,由于深度圖像獲取設備價格昂貴且體型龐大,該項技術一直沒有突破性的進展,直到Kinect傳感器的出現,該設備除了價格低廉、使用方便外,還能同時獲取顏色和深度信息。
近幾年,基于深度圖像的人體部位識別已經取得了不少研究成果。SHOTTON J等人[3]采用深度差分特征作為隨機森林分類模型的特征點,實現了單一深度圖像上人體部位的分類和識別;殷海艷[4]在低分辨率深度圖像上,采用人體部位合并思想實現了人體部位關節點的較高識別。但是,以上方法在實際數據中得到的識別正確率相對較低。
為了進一步提高人體部位識別正確率,本文采用隨機森林算法訓練分類模型,考慮人體部位尺寸不一特性,改進了深度差分特征。其中,改進型深度差分特征中的偏移量取值由人體部位大小確定。此外,由于目前沒有公開的人體部位標記樣本庫,本文采用人工標記法自行構建樣本庫。實驗結果表明,采用改進型深度差分特征具有更高、更準確的人體部位識別率,另外,不同大小的人體部位識別率也有不同程度的改善。
1 深度圖像人體部位標記樣本庫
由于目前沒有公開的人體部位標記樣本集,本文采用人工標記法構建樣本集,動作序列引用卡內基梅隆大學動作捕捉數據庫,包括打招呼、談話、走、跑、跳、打籃球、踢足球、洗窗戶等14組。考慮到人體性別、高矮、胖瘦、不同著裝等因素,樣本庫選取4個對象進行采集。樣本庫共計251組深度圖像和人體部位標記圖像,圖像分辨率為640×480。為了便于骨架提取,根據人體生理結構,將人體分割成18個關鍵部位,分別是:頭部、頸部、左/右肩膀、左/右上臂、左/右下臂、左/右手部、胸部、臀部、左/右大腿、左/右小腿、左/右腳部,其樣本庫示例圖如圖1所示。
2 基于改進型深度特征人體部位識別
2.1 深度特征提取
2.1.1深度差分特征
深度差分特征結合了梯度特征和點特征的優點,其定義如下:
f(I,x)=dI(x+xu)-dI(x+xv)(1)
其中,I表示深度圖像,x為圖像像素點,dI(x)為像素點x的深度值,xu和xv為像素點x經偏移向量u和v偏移后的像素點,計算公式如下:
xu=d·uxu=d·v(2)
考慮到人體投影在圖像上的區域大小會隨著人體距離傳感器的遠近而發生改變,為了得到真實三維空間偏移量,引入了深度因子d,其計算公式為:
=(u,v)為深度差分特征偏移向量對,由于偏移向量的值和方向在二維平面空間中具有無窮大的取值范圍,為了減少計算成本,本文以平面原點為中心平均8等分,設α為向量夾角,A為夾角集:
偏移向量取值在實驗部分中討論。本文每個像素含有8個偏移向量,包括像素點本身共有9個深度值,因此可組合36對偏移向量,圖2為深度差分特征提取示意圖。
2.1.2 改進型深度差分特征
與深度差分特征相比,改進型深度差分特征主要區別在于特征中偏移量取值由人體部位的大小確定,即部位越大,偏移量值越大;部位越小,偏移量值越小,其偏移量計算公式為:
xu=d·p·uxv=d·p·v(5)
其中,p為人體部位尺寸比例因子。
由于人體姿態多樣性、關節點自由度高、部位形狀不規則,直接計算人體部位幾何尺寸不僅復雜度高、時耗大,而且效果差,不符合實驗要求。為了便于人體部位尺寸計算,本文首先假設人體部位為標準正方形,然后統計各部位在深度圖像中所含像素點數,再以這部分像素點構造最大正方形,取最大正方形對角線作為該部位的幾何尺寸,最后以最大部位尺寸作歸一化處理得到人體部位尺寸比例值。
S={s|s=si},i=1,2,…,18(6)
其中,si表示第i個人體部位尺寸長度,S為人體部位尺寸集。
其中,pi為第i個人體部位經歸一化后的部位尺寸比例值,P為人體部位尺寸比例集。
改進型深度差分特征除了保留深度差分特征的平移不變性和深度不變性外,還具有偏移量取值自適應人體部位大小的特性。此外,改進型特征只比深度差分特征多兩次乘法運算,因此仍然具有計算復雜度低的優點。
2.2 隨機森林分類模型訓練
隨機森林是由多個弱分類器組合而成的強分類器,分類結果由所有弱分類器共同投票決定,因此能很好地解決過擬合現象,其結構圖如圖3所示。與傳統弱分類器組合算法Bagging和Boosting不同,隨機森林除了訓練集隨機性外,還隨機選取若干個特征屬性來訓練弱分類器的每個分裂節點。所以,隨機森林采用隨機樹作為弱分類器,而不是決策樹。
隨機森林中每棵隨機樹的訓練過程如下:
(1)隨機選取一組候選屬性,其中
為深度特征的偏移向量對,
為候選分割閾值。
(2)根據候選屬性?準將輸入訓練數據Q={(I,x)}分割成左右子集:
(3)計算給定候選屬性中的信息增益,求出最大信息增益對應的屬性?準*:
(4)得到最大信息增益后,判斷分裂后子集是否滿足樹生長終止條件,否則重復迭代步驟(2)和(3),直到滿足條件為止。其中,隨機樹生長終止條件為:達到樹最大深度或者葉節點樣本數少于最小值閾值。
2.3 隨機森林分類模型測試
對于測試數據,根據式(1)計算深度特征屬性值,然后將屬性值輸入到隨機森林分類模型中每棵隨機樹的根節點中,與隨機樹中每個分裂節點閾值進行比較,最終得到目標類別的概率分布P(c|I,x)。其中,c表示目標類型,即18種人體部位類別,(I,x)為測試圖像的像素點。由于隨機森林分類模型中含有若干棵隨機樹,每棵隨機樹分類過程中互不影響。隨機森林分類模型最終結果由所有隨機樹共同投票決定,其值為所有隨機樹分類結果的均值,最終由式(12)計算得到目標類別c*。
3 實驗結果與分析
3.1 實驗環境與模型參數設置
本文實驗環境配置如下:PC一臺:酷睿2E7500@ 2.93 GHz CPU,2 GB內存,64位Windows 7系統;深度圖像獲取傳感器為Kinect;編譯環境為32位MATLAB 7.1。
本文人體部位分類模型由隨機森林訓練得到,通過多次實驗總結得出隨機森林分類模型最佳參數應配置如下:隨機樹7棵,樹深度為15,訓練圖像采樣點為 2 000個,每個像素點含有36個特征屬性,每次隨機選取6個特征屬性訓練隨機樹中分裂節點的最佳分類屬性。本文通過采樣對象1的樣本數據來驗證實驗結果,訓練圖像42張,測試圖像10張,其中,訓練圖像和測試圖像均含有14組動作序列數據。此外,人體部位尺寸比例值取訓練集所有圖像人體部位尺寸的均值,具體數據如表1所示。
3.2 實驗結果與分析
改進型深度差分特征是在深度差分特征的基礎上引入了偏移量值自適應人體部位尺寸的特性,即改進型特征的偏移量取值由人體部位尺寸大小確定。雖然改進型深度差分特征的定義式與深度差分特征并無兩樣,但是偏移量計算公式卻不同,這將導致特征最佳偏移量取值也不相同。為了檢測深度差分特征和改進型深度差分特征的最佳偏移量取值,本文將特征偏移量取值范圍設置在10~180像素之間,間隔為10像素,其實驗結果對比曲線圖如圖4所示。
由圖4可知,隨著偏移量取值的不斷增大,深度差分特征和改進型深度差分特征對應的測試集人體部位分類正確率均值都呈現先遞增后遞減的趨勢,但是深度差分特征超過最佳偏移量取值之后,其測試集部位分類正確率均值急劇下降,而改進型深度差分特征在偏移量超過80像素后,其部位分類正確率均值變化相對穩定,即便達到最高人體部位分類正確率后,其下降幅度也不大。深度差分特征的最佳偏移量取值為50像素,改進型深度差分特征的最佳偏移量取值為130像素。此外,改進型深度差分特征中每個部位的最佳偏移量為該部位的尺寸比例值與改進型特征最佳偏移量(本實驗為130像素)的乘積。
在實驗數據與分類模型參數保持一致的情況下,深度差分特征和改進型深度差分特征選取各自最佳偏移量時的人體部位分類正確率對比結果如表2所示。由表2可知,采用改進型深度差分特征作為隨機森林分類模型特征點時,其人體部位分類正確率均值為73.82%,比深度差分特征的分類正確率均值高出了1.95%。由于改進型深度差分特征根據人體部位不同尺寸來選取特征偏移量,因此,針對不同尺寸的部位分類正確率也有不同程度的改善。如頭部、頸部、手部和腳部等較小區域的人體部位平均分類正確率從72.93%提高到76.4%,幅度提高3.47%;較大區域人體部位如胸部和臀部等也有較大的改善,幅度提高 3.64%;其余人體部位的平均分類正確率總體改善了 0.75%。人體各部位分類正確率對比圖如圖5所示。
4 結論
本文采用隨機森林算法訓練分類模型,考慮人體部位尺寸不一特性,改進了深度差分特征。改進型深度差分特征根據人體部位尺寸來確定特征中偏移量的取值,而非統一偏移量值。實驗結果表明,采用改進型深度差分特征作為隨機森林分類模型訓練特征點來識別人體部位時具有更高、更準確的正確率,并且不同尺寸大小的人體部位識別正確率均有不同程度的提升。
參考文獻
[1] Lu Xia, CHEN C C, AGGARWAL J K. Human detection using depth information by Kinect[C]. 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW), 2011: 15-22.
[2] YOO B I, KIM W, HAN J J, et al. Randomized decision bush: combining global shape parameters and local scalable descriptors for human body parts recognition[C]. ICIP, 2014: 1560-1564.
[3] SHOTTON J, FITZGIBBON A, COOK M, et al. Real-time human pose recognition in parts from single depth images[J]. 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011:1297-1304.
[4] 殷海艷.基于深度圖像的人體姿態識別[D].北京:北京工業大學,2013.