99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

認證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

《學(xué)習(xí)geometric deep learning筆記系列》第一篇，Non-Euclidean Structure Data之我見

《Geometric Deep Learning學(xué)習(xí)筆記》第二篇，在Graph上定義卷積操作，圖卷積網(wǎng)絡(luò)

《Geometric Deep Learning學(xué)習(xí)筆記》第三篇，GCN的空間域理解，Message Passing以及其含義

Shift-GCN網(wǎng)絡(luò)論文筆記

Shift-GCN中Shift的實現(xiàn)細節(jié)筆記，通過torch.index_select實現(xiàn)

作者動態(tài) 更多

給定計算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配

05-19 09:33

大模型推理時的尺度擴展定律

05-18 10:32

世界多胞體與世界模型

05-13 09:42

獎勵模型中的尺度擴展定律和獎勵劫持

05-12 08:41

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

05-08 09:13

工程師都在看

電路設(shè)計中，Type-C口還不會使用？

器件、電路和方案——直流充電樁課程合集

車規(guī)芯片認證標準AEC-Q100-H中文版及內(nèi)容解讀（正文部分）

PCIM2024論文摘要｜新型400V SiC MOSFET用于高效三電平工業(yè)電機驅(qū)動

反激的PSR與SSR技術(shù)解析及優(yōu)劣

如何測量功率回路中的雜散電感？

BUCK電路反饋分壓設(shè)計揭秘 | 實例說明先計算R1再計算R2的過程

掃盲鋰離子電池，看這篇文章足夠了

PCIM2024論文摘要｜并聯(lián)SiC MOSFET的均流研究

LTspice入門教程5-如何仿真變壓器

Shift-GCN網(wǎng)絡(luò)論文筆記

徐土豆 2020-12-08 13:33 394 閱讀 1 贊 3 收藏 0 評論

近日筆者在閱讀Shift-GCN[2]的文獻，Shift-GCN是在傳統(tǒng)的GCN的基礎(chǔ)上，用Shift卷積算子[1]取代傳統(tǒng)卷積算子而誕生出來的，可以用更少的參數(shù)量和計算量達到更好的模型性能，筆者感覺蠻有意思的，特在此筆記。本文轉(zhuǎn)載自徐飛翔的“Shift-GCN網(wǎng)絡(luò)論文筆記”

版權(quán)聲明：本文為博主原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請附上原文出處鏈接和本聲明。

Shift-GCN是用于骨骼點序列動作識別的網(wǎng)絡(luò)，為了講明其提出的背景，有必要先對ST-GCN網(wǎng)絡(luò)進行一定的了解。

ST-GCN網(wǎng)絡(luò)

骨骼點序列數(shù)據(jù)是一種天然的時空圖結(jié)構(gòu)數(shù)據(jù)，具體分析可見[5,6]，針對于這類型的數(shù)據(jù)，可以用時空圖卷積進行建模，如ST-GCN[4]模型就是一個很好的代表。簡單來說，ST-GCN是在空間域上采用圖卷積的方式建模，時間域上用一維卷積進行建模。

骨骼點序列可以形式化表達為一個時空圖，其中有著個關(guān)節(jié)點和幀。骨骼點序列的輸入可以表達為 $\mathbf{X} \in \mathbb{R}^{N \times T \times d}$ ，其中表示維度。為了表示人體關(guān)節(jié)點之間的連接，我們用鄰接矩陣表達。按照ST-GCN原論文的策略，將人體的鄰接矩陣劃分為三大部分：1）離心群；2）向心群；3）根節(jié)點。具體的細節(jié)請參考論文[4]。每個部分都對應(yīng)著其特定的鄰接矩陣 $\mathbf{A}_p$ , $p\in\mathcal{P}$ 其中表示劃分部分的索引。用符號 $\mathbf{F} \in \mathbb{R}^{N \times C}$ 和 $′ \mathbf{F}^{\prime} \in \mathbb{R}^{N \times C^{\prime}}$ 分別表示輸入和輸出的特征矩陣，其中和 $C^{\prime}$ 是輸入輸出的通道維度。那么，根據(jù)我們之前在GCN系列博文[7,8,9]中介紹過的，我們有最終的人體三大劃分的特征融合為：

$′ \mathbf{F}^{\prime} =\sum_{p\in\mathcal{P}}\bar{A}_{p}FW_{p}(1.1)$

其中P = { 根節(jié) 點，離心群，向心群 } ， $\bar{\mathbf{A}}_p = \Lambda_p^{-\frac{1}{2}} \mathbf{A}_p \Lambda_p^{-\frac{1}{2}} \in \mathbb{R}^{N \times N}$ 是標準化后的鄰接矩陣，其中 $\Lambda_p^{ii} = \sum_j(\mathbf{A}_p^{ij})+\alpha$ ，具體這些公式的推導(dǎo)，見[7,8,9]。其中的 $\mathbf{W}_p \in \mathbb{R}^{1 \times 1 \times C \times C^{\prime}}$ 是每個人體劃分部分的1x1卷積核的參數(shù)，需要算法學(xué)習(xí)得出。整個過程如Fig 1.1所示。

Fig 1.1 STGCN的示意圖，通過不同的鄰接矩陣可以指定不同的身體劃分部分，通過1x1卷積可以融合通道間的信息，最后融合不同劃分部分的信息就形成了新的輸出向量。

ST-GCN的缺點體現(xiàn)在幾方面：

計算量大，對于一個樣本而言，ST-GCN的計算量在16.2GFLOPs，其中包括4.0GFLOPs的空間域圖卷積操作和12.2GFLOPs的時間一維卷積操作。
ST-GCN的空間和時間感知野都是固定而且需要人為預(yù)先設(shè)置的，有些工作嘗試采用可以由網(wǎng)絡(luò)學(xué)習(xí)的鄰接矩陣的圖神經(jīng)網(wǎng)絡(luò)去進行建模[10,11]，即便如此，網(wǎng)絡(luò)的表達能力還是受到了傳統(tǒng)的GCN的結(jié)構(gòu)限制。

Shift-GCN針對這兩個缺點進行了改進。

Shift-GCN

這一章對Shift-GCN進行介紹，Shift-GCN對ST-GCN的改進體現(xiàn)在對于空間信息（也就是單幀的信息）的圖卷積改進，以及時序建模手段的改進（之前的工作是采用一維卷積進行建模的）。

Spatial Shift-GCN

Shift-GCN是對ST-GCN的改進，其啟發(fā)自Shift卷積算子[1]，主要想法是利用1x1卷積算子結(jié)合空間shift操作，使得1x1卷積同時可融合空間域和通道域的信息，具體關(guān)于shift卷積算子的介紹見博文[12]，此處不再贅述，采用shift卷積可以大幅度地減少參數(shù)量和計算量。如Fig 2.1所示，對于單幀而言，類似于傳統(tǒng)的Shift操作，可以分為Graph Shift和1x1 conv兩個階段。然而，和傳統(tǒng)Shift操作不同的是，之前Shift應(yīng)用在圖片數(shù)據(jù)上，這種數(shù)據(jù)是典型的歐幾里德結(jié)構(gòu)數(shù)據(jù)[7]，數(shù)據(jù)節(jié)點的鄰居節(jié)點可以很容易定義出來，因此卷積操作也很容易定義。而圖數(shù)據(jù)的特點決定了其某個數(shù)據(jù)節(jié)點的鄰居數(shù)量（也即是“度”）都可能不同，因此傳統(tǒng)的卷積在圖數(shù)據(jù)上并不管用，傳統(tǒng)的shift卷積操作也同樣并不能直接在骨骼點數(shù)據(jù)上應(yīng)用。那么就需要重新在骨骼點數(shù)據(jù)上定義shift卷積操作。

作者在[2]中提出了兩種類型的骨骼點Shift卷積操作，分別是：

局部Shift圖卷積（Local Shift Graph Convolution）
全局Shift圖卷積（Global Shift Graph Convolution）

下文進行簡單介紹。

Fig 2.1 采用了shift卷積算子的GCN，因為骨骼點序列屬于圖數(shù)據(jù)，因此需要用特別的手段去定義shift操作。

局部shift圖卷積

在局部shift圖卷積中，依然只是考慮了骨骼點的固有物理連接，這種連接關(guān)系與不同數(shù)據(jù)集的定義有關(guān)，具體示例可見博文[13]，顯然這并不是最優(yōu)的，因為很可能某些動作會存在節(jié)點之間的“超距”關(guān)系，舉個例子，“拍掌”和“看書”這兩個動作更多取決于雙手的距離之間的變化關(guān)系，而雙手在物理連接上并沒有直接相連。

盡管局部shift圖卷積只考慮骨骼點的固有連接，但是作為一個好的基線，也是一個很好的嘗試，我們開始討論如何定義局部shift圖卷積。如Fig 2.2所示，為了簡便，我們假設(shè)一個骨架的骨骼點只有7個，連接方式如圖所示，不同顏色代表不同的節(jié)點。對于其中某個節(jié)點 , $v\in[1,7]v$ 而言，用 $B_v = \{B_v^1,B_v^2,\cdots,B_v^n\}$ 表示節(jié)點v vv的鄰居節(jié)點，其中是鄰居節(jié)點的數(shù)量。類似于傳統(tǒng)的Shift卷積中所做的，對于每一個節(jié)點的特征向量 $\mathbf{F}_v \in \mathbb{R}^{C}$ ，其中是通道的數(shù)量，我們將通道均勻劃分為份片區(qū)，也即是每一份片區(qū)包含有 $c = \lfloor \dfrac{C}{n+1} \rfloor$ 個通道。我們讓第一份片區(qū)保留本節(jié)點（也即是節(jié)點本身）的特征，而剩下的個片區(qū)分別從鄰居 $B_v^1,B_v^2 ,\cdots,B_v^n$ 中通過平移（shift）操作得到，如式子(2.1)所示。用 $\mathbf{F} \in \mathbb{R}^{N \times C}$ 表示單幀的特征，用 $\widetilde{\mathbf{F}} \in \mathbb{R}^{N \times C}$ 表示圖數(shù)據(jù)shift操作之后的對應(yīng)特征，其中表示節(jié)點的數(shù)量，表示特征的維度，本例子中。

$\tilde{F}_{v}=F_{(v,0:c)}||F_{(B_{v}^{1},:2c)}||F_{(B_{v}^{2},2c:3c)}||\cdots|||F_{(B_{v}^{n},nc:)}(2.1)$

整個例子的示意圖如Fig 2.2所示，其中不同顏色的節(jié)點和方塊代表了不同的節(jié)點和對應(yīng)的特征。以節(jié)點1和節(jié)點2的shift操作為例子，節(jié)點1的鄰居只有節(jié)點2，因此把節(jié)點1的特征向量均勻劃分為2個片區(qū)，第一個片區(qū)保持其本身的特征，而片區(qū)2則是從其對應(yīng)的鄰居，節(jié)點2中的特征中平移過去，如Fig 2.2的Shift for node 1所示。類似的，以節(jié)點2為例子，節(jié)點2的鄰居有節(jié)點4，節(jié)點1，節(jié)點3，因此把特征向量均勻劃分為4個片區(qū)，同樣第一個片區(qū)保持其本身的特征，其他鄰居節(jié)點按照序號升序排列，片區(qū)2則由排列后的第一個節(jié)點，也就是節(jié)點1的特征平移得到。類似的，片區(qū)3和片區(qū)4分別由節(jié)點3和節(jié)點4的對應(yīng)片區(qū)特征平移得到。如Fig 2.2的Shift for node 2所示。最終對所有的節(jié)點都進行如下操作后，我們有 $\widetilde{\mathbf{F}}$ 如Fig 2.2的The feature after shift所示。

Fig 2.2 局部shift圖卷積操作的示意圖，假設(shè)骨骼點數(shù)據(jù)只有7個骨骼點節(jié)點。

全局shift圖卷積

局部shift圖卷積操作有兩個缺點：

只考慮物理固有連接，難以挖掘潛在的“超距”作用的關(guān)系。
數(shù)據(jù)有可能不能被完全被利用，如Fig 2.2的節(jié)點3的特征為例子，如Fig 2.3所示，節(jié)點3的信息在某些通道遺失了，這是因為不同節(jié)點的鄰居數(shù)量不同。

Fig 2.3 紅色虛線框內(nèi)的通道部分完全失去了節(jié)點3的特征信息（也即是紫色方塊）。

為了解決這些問題，作者提出了全局Shift圖卷積，如Fig 2.4所示。其改進很簡單，就是去除掉物理固有連接的限制，將單幀的骨骼圖變成完全圖，因此每個節(jié)點都會和其他任意節(jié)點之間存在直接關(guān)聯(lián)。給定特征圖 $\mathbf{F} \in \mathbb{R}^{N \times C}$ ，對于第i ii個通道的平移距離 $d = i \bmod N$ 。這樣會形成類似于螺旋狀的特征結(jié)構(gòu)，如Fig 2.4的The feature after shift所示。

Fig 2.4 全局shift圖卷積操作的示意圖，假設(shè)骨骼點數(shù)據(jù)只有7個骨骼點節(jié)點。其中和局部shift圖卷積操作的區(qū)別在于，當前的圖是完全圖，也即是完全連接的圖了。

為了挖掘骨骼完全圖中的人體關(guān)鍵信息，把重要的連接給提取出來，作者在全局shift圖卷積基礎(chǔ)上還使用了注意力機制，如式子(2.2)所示。

$\tilde{F}_{M}=\tilde{F}\circ(tanh(M)+1)(2.2)$

Temporal Shift-GCN

在空間域上的shift圖卷積定義已經(jīng)討論過了，接下來討論在時間域上的shift圖卷積定義。如Fig 2.5所示，考慮到了時序之后的特征圖層疊結(jié)果，用符號 $\mathbf{F} \in \mathbb{R}^{T \times N \times C}$ 表示時空特征圖，其中有 $\mathbf{F} = \{\mathbf{F}^1,\mathbf{F}^2,\cdots,\mathbf{F}^{T}\}$ 。這種特征圖可以天然地使用傳統(tǒng)的Shift卷積算子，具體過程見[12]，我們稱之為naive temporal shift graph convolution。在這種策略中，我們需要將通道均勻劃分為個片區(qū)，每個片區(qū)有著偏移量為 $-u,-u+1,\cdots,0,\cdots,u-1,u$ 。與[12]策略一樣，移出去的通道就被舍棄了，用0去填充空白的通道。這種策略需要指定u uu的大小，涉及到了人工的設(shè)計，因此作者提出了adaptive temporal shift graph convolution，是一種自適應(yīng)的時序shift圖卷積，其對于每個通道，都需要學(xué)習(xí)出一個可學(xué)習(xí)的時間偏移參數(shù) $S_i,i=1,2,\cdots,C$ 。如果該參數(shù)是整數(shù)，那么無法傳遞梯度，因此需要放松整數(shù)限制，將其放寬到實數(shù)，利用線性插值的方式進行插值計算，如式子(2.3)所示。

$\tilde{F}_{(v,t,i)}=(1-\lambda)⋅F_{(v, \lfloor t+S_{i} \rfloor,i)}+\lambda⋅F_{(v, \lfloor t+S_{i}\rfloor +1 ,i)}(2.3)$

其中 $\lambda = S_i - \lfloor S_i\rfloor$ 是由于將整數(shù)實數(shù)化之后產(chǎn)生的余量，需要用插值的手段進行彌補，由于實數(shù)化后，錨點落在了 $[\lfloor t+S_i\rfloor, \lfloor t+S_i\rfloor+1]$ 之間，因此在這個區(qū)間之間進行插值。

Fig 2.5 考慮到時序后的特征圖層疊結(jié)果。

網(wǎng)絡(luò)

結(jié)合spatial shift-gcn和temporal shift-gcn操作后，其網(wǎng)絡(luò)基本單元類似于ST-GCN的設(shè)計，如Fig 2.6所示。

Fig 2.6 Shift-Conv模塊和Shift-Conv-Shift模塊的設(shè)計都是參考了ST-GCN和傳統(tǒng)Shift卷積網(wǎng)絡(luò)設(shè)計的。

Update 20201130:來自一個知乎朋友的問題：

ID:fightingQ:好巧啊，又跟你看到同一篇論文了。不知道還記得我嗎。這里的naive temporal shift 寫的不詳細。不知道我理解的對不對，想跟你探討一下。對于每一個節(jié)點的c個通道，劃分為u個部分。每個部分分別替換為其第-u，，，0,1，u幀處的對應(yīng)特征，其中0指的是節(jié)點本身的這一部分特征。這樣每一個節(jié)點就會包含了2u+1幀的信息。在adaptive中，每個通道都設(shè)置了一個可學(xué)習(xí)的移動參數(shù)，但是這個移動參數(shù)是怎么來學(xué)的。我隨意設(shè)置這樣一個學(xué)習(xí)的shift參數(shù)，學(xué)習(xí)的依據(jù)是啥呢？

回答：正如原文所講的，其中的naive temporal shift完全是按照傳統(tǒng)的shift卷積算子操作進行計算的，具體見[1]。我們知道，進行通道上的shift操作的目的在于改變卷積的感知野，因此文中提到的超參數(shù)其實就是控制了每一層的時序感知野大小，但是這樣有幾個缺點：

卷積是具有層次結(jié)構(gòu)的，每一層的u uu如果都一樣，那么感知野理論上也是一樣的，這樣不合理，因此卷積的層次結(jié)構(gòu)意味著感知野大小不一定一致。
需要人工去設(shè)置這個超參數(shù)，對于不同數(shù)據(jù)集的結(jié)果都不一樣，工作量大。

因此，引入了所謂的自適應(yīng)時序 shift，其出發(fā)點就是通過反向梯度傳播去學(xué)習(xí)每一層的感知野，也就是每一層都有一個，因為需要確保可以求導(dǎo)，這個參數(shù)必須是保證為浮點數(shù)才能存在梯度，因此shift操作被泛化到插值操作，正如式子(2.3)所示。

其實原論文對這個自適應(yīng)學(xué)習(xí)出來的參數(shù)進行了可視化，如Fig a1所示，作者對于不同的數(shù)據(jù)集（NTU RGBD和NW-UCLA）上進行了adaptive temporal shift的每一層的結(jié)果的可視化（具體分析見原論文），簡單來說，頂層（top layer，也即是輸出層）的值范圍都比較大（表現(xiàn)為值的范圍比較寬廣），意味著輸出層需要的時序感知野比較大，這一點很容易理解，因為輸出層需要更多的時序語義信息，因此感知野比較大是正常的；而底層（bottom layer，也即是輸入層）的值范圍都比較小，這一點也很好理解，輸入層更多的是單幀的底層信息建模（比如紋理，色彩，邊緣信息等），因此時序感知野比較小是正常的。

通過這種自適應(yīng)的學(xué)習(xí)手段，確保了對不同層的shift系數(shù)的獨立學(xué)習(xí)，因此使得不同層具有不同的時序感知野。

以上。

Fig a1. 對不同數(shù)據(jù)集上學(xué)習(xí)到的時序平移系數(shù)進行可視化的結(jié)果，(a)為NTU RGBD數(shù)據(jù)集結(jié)果，(b)為NW-UCLA數(shù)據(jù)集的結(jié)果。我們發(fā)現(xiàn)底層（輸入層）的值都偏小，頂層（輸出層）的值偏大。意味著輸入層的感知野需求比較小，而輸出層的感知野需求比較大。

Reference

[1]. Wu, B., Wan, A., Yue, X., Jin, P., Zhao, S., Golmant, N., … & Keutzer, K. (2018). Shift: A zero flop, zero parameter alternative to spatial convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 9127-9135).

[2]. Cheng, K., Zhang, Y., He, X., Chen, W., Cheng, J., & Lu, H. (2020). Skeleton-Based Action Recognition With Shift Graph Convolutional Network. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 183-192).

[3]. https://fesian.blog.csdn.net/article/details/109474701

[4]. Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.

[5]. https://fesian.blog.csdn.net/article/details/105545703

[6]. https://blog.csdn.net/LoseInVain/article/details/87901764

[7]. https://blog.csdn.net/LoseInVain/article/details/88373506

[8]. https://fesian.blog.csdn.net/article/details/90171863

[9]. https://fesian.blog.csdn.net/article/details/90348807

[10]. Lei Shi, Yifan Zhang, Jian Cheng, and Hanqing Lu. Skeleton-based action recognition with directed graph neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7912–7921, 2019

[11]. Lei Shi, Yifan Zhang, Jian Cheng, and Hanqing Lu. Two stream adaptive graph convolutional networks for skeleton based action recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019.

[12]. https://fesian.blog.csdn.net/article/details/109474701

[13]. https://fesian.blog.csdn.net/article/details/108242717

聲明：本內(nèi)容為作者獨立觀點，不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯的朋友，別忘了一鍵三連哦！

贊 1

收藏 3

關(guān)注 52

成為作者賺取收益

專題目錄下一篇

下一篇：Shift-GCN中Shift的實現(xiàn)細節(jié)筆記，通過torch.index_select實現(xiàn)

全部留言

0/200

成為第一個和作者交流的人吧

主站蜘蛛池模板： 911久久香蕉国产线看观看 | 米奇四色狠狠色 | 美女视频久久 | 欧美肥老太交性506070 | va久久久久精码专区 | 1024久久| 四虎国产精品永久地址99新强 | 国产一卡2卡3卡四卡精品国色 | 在线观看av网 | chinese老女人hd | 免费a网站 | 日韩黄色a | 亚洲Aⅴ天堂Av天堂无码麻豆 | 一区二区三区精品视频免费看 | 国产精华最好的产品入口 | 91动漫网站| 欧美日韩中文字幕在线 | 国产性色强伦免费视频 | 国产精品白丝袜 | 精品国产高清一区二区三区 | 真实人与人性恔配视频 | 色噜噜在线播放 | 久色88 | 日日躁夜夜躁人人揉av五月天 | 男人影音 | 欧美一区二区三区蜜桃 | 精品一二区 | 久久99久久久 | 亚洲日本va在线观看 | 91精品亚洲 | 色哟哟网站入口在线观看 | 欧美成人免费在线视频 | 激情国产AV做激情国产爱 | 亚洲综合五区 | 亚洲人成色777777精品音频 | 一级片免费在线看 | 中品极品少妇xxx | 欧美性猛交xxxx免费看德国 | 怡红院福利视频 | 亚洲永久经典 | av在线免费播放不卡 |