### 計測自動制御学会東北支部 第 295 回研究集会 (2015.6.26) 資料番号 295-2

# OpenCL を用いた FPGA ベース画像処理プロセッサの設計

# Design of an FPGA-Based Image Processor Using OpenCL

### 立見駿介, 張山昌論,伊藤康一,青木孝文

Shunsuke TATSUMI, Masanori HARIYAMA, Koichi ITO, Takafumi AOKI

# 東北大学大学院情報科学研究科,

Graduate School of Information Sciences, Tohoku University,

キーワード: 画像処理 (image processing), 位相限定相関 (Phase-only correlation), 対応付け (correspondence matching), FPGA (FPGA)

連絡先: 〒 980-8579 仙台市青葉区荒巻字青葉 6-6-05 東北大学大学院情報科学研究科 張山昌論, Tel.: (022)795-7153, Fax.: (022)263-9167, E-mail: hariyama@ecei.tohoku.ac.jp

# 1. はじめに

コンピュータビジョンにおいて,画像対応 付けは重要な基礎技術の1つである<sup>1)</sup>.特にス テレオビジョンに基づく3次元計測において, ステレオ画像の対応付けは重要な役割を持つ.3 次元計測では,計測精度が対応付け精度に依存 するため,高精度な対応付け手法が必要となる. また,対応付けた点数だけ計測物体の3次元点 が得られるため,物体の詳細な構造を求めるた めには密な対応付けが必要となる.さらに,計 測にかかる処理時間の大部分は対応付け処理で 占められるため,高速な対応付けが実際の応用 で求められている.

本稿では,高精度かつ密な計測を行うために, Phase-Only Correlation (POC)<sup>2)</sup>を用いた画 像対応付け手法を扱う.POCは,画像の離散 フーリエ変換から得られる位相成分を利用した 対応付け手法である.しかし,POCは,離散 フーリエ変換の計算コストが大きいため,密な 計測を行う際に対応付けの計算コストが非常に 大きくなることが問題であった.そのため,対 応付け処理を CPU にマルチスレッドで実装した 場合でも実時間処理が達成できなかった.さら に,CPU 実装では消費電力が大きいという問題 もあった.この問題の解決策として,OpenCL というフレームワークを用いて,処理を GPU (Graphics Processing Unit) に実装する手法が 提案されている<sup>3)</sup>.GPU 実装により,CPU 実 装と比べて最大で5倍程度の高速化が行え,実 時間処理が可能であることが示されている.一 方で消費電力が大きいという問題は依然として 残されている.

本稿では,対応付けを高速かつ低消費電力で 行うために,POC による画像対応付け処理の FPGA (Field Programmable Gate Array) 実装 を提案するとともに,FPGA を用いてステレオ ビジョンに基づく3次元計測システムを試作す る.FPGA アクセラレータを効率よく設計する ために,OpenCL ベースの設計ツールを用いて GPU 向けのコードを再利用する.OpenCL と は,CPU と GPU のような,ヘテロジニアスな 演算器環境において並列プログラミングを行う ためのフレームワークである<sup>4)</sup>. これによりタ スク並列とデータ並列に基づく効率の良い並列 演算が実現できる.近年, Altera 社は FPGA 向 けのOpenCLベース設計ツールの提供を開始し た $^{5)}$ .しかし, FPGA向け OpenCL では, GPU 向け OpenCL のコードを再利用することはでき るが, GPUとFPGAのアーキテクチャは大き く異なるため, FPGA向けにコードを最適化し なければならないことが問題となる.そこで本 稿では, FPGA 向け OpenCL の設計手法につ いて,データの再利用やパイプライン等の最適 化について述べる.また, FPGA 実装によって, GPU と比べて同程度の処理速度かつ非常に低 消費電力で POC による画像対応付けが行える ことを示す.これにより, FPGAを用いること で高精度な対応付けが組込みシステムでも利用 できるようになる.

# 2. 位相情報に基づく画像対応付け 手法

Phase-Only Correlation (POC) 関数につ いて簡単に説明する  $^{6,7)}$ .  $f(n) \ge g(n)$  は画像 の 1 次元信号であり,信号長は N = 2M + 1 $(-M \le n \le M)$  であるとする.このとき,正 規化クロスパワースペクトル R(k) は次のよう に定義される.

$$R(k) = \frac{F(k)\overline{G(k)}}{|F(k)\overline{G(k)}|} = e^{j(\theta_F(k) - \theta_G(k))}$$
(1)

ここで,  $F(k) \geq G(k)$  はそれぞれ  $f(n) \geq g(n)$ を離散フーリエ変換したものであり,  $\overline{G(k)}$  は G(k)の複素共役である.また  $-M \leq k \leq M$ で ある.1次元の POC 関数 r(n) は, R(k) を逆離 散フーリエ変換することで得られる.2枚の画 像が似ている場合, POC 関数は極めて鋭いピー クを示す.一方で2枚の画像が似ていない場合, ピークの高さは小さくなる.つまり, ピークの 高さは画像対応付けにおいて類似度の尺度を表 し,ピーク位置は画像間の平行移動量を表して いる.さらに,サブピクセルレベルの対応付け 精度向上のために,以下の高精度化手法を用い る:(i)関数フィッティング,(ii)入力信号へ窓関 数の適用,(iii)スペクトル重み付け,(iv)1次 元信号の足し合わせ<sup>2)</sup>.

ステレオ画像を平行化すると,基準点と対応 点の座標の違いは水平方向のみに制限される<sup>1)</sup>. そのため、1次元 POC を用いて低計算コストで 高精度な対応付けができる.ステレオ画像から 正確な対応を得るため、サブピクセルレベルの 対応付けを行う.さらに、ロバストな対応付け のために画像ピラミッドを用いて粗密探索を行 う(図1)<sup>2)</sup>.pを画像 $I(n_1, n_2)$ における基準点 の位置ベクトルとする.サブピクセルレベルの 対応付け問題とは、画像 $I(n_1, n_2)$ 内の基準点pに対応する、画像 $J(n_1, n_2)$ 内の対応点qの実 数の位置ベクトルを求めることである.以下に 簡単な説明を示す.

Step 1: 各レイヤ $l = 1, 2, \dots, l_{\max} - 1$ におい て,レイヤlの画像である $I_l(n_1, n_2) \ge J_l(n_1, n_2)$ を,以下に示すように再帰的に求める.

$$I_{l}(n_{1}, n_{2}) = \frac{1}{4} \sum_{i_{1}=0}^{1} \sum_{i_{2}=0}^{1} I_{l-1}(2n_{1}+i_{1}, 2n_{2}+i_{2})$$
$$J_{l}(n_{1}, n_{2}) = \frac{1}{4} \sum_{i_{1}=0}^{1} \sum_{i_{2}=0}^{1} J_{l-1}(2n_{1}+i_{1}, 2n_{2}+i_{2})$$

Step 2: 各レイヤ $l = 1, 2, \dots, l_{\max}$ において, 原画像の基準点 $p_0$ に対応する基準点 $p_l = (p_{l1}, p_{l2})$ を,以下に示すように再帰的に求める.

$$\boldsymbol{p}_{l} = \lfloor \frac{1}{2} \boldsymbol{p}_{l-1} \rfloor = (\lfloor \frac{1}{2} p_{l-1} \rfloor, \lfloor \frac{1}{2} p_{l-1} \rfloor) \quad (2)$$

ここで, [*z*] は *z* を超えない最大の整数を意味 する.

Step 3: 最上位レイヤにおいて  $q_{l_{\max}} = p_{l_{\max}}$ であるとする.また  $l = l_{\max} - 1$ とおく. Step 4: レイヤ l の画像  $I_l(n_1, n_2)$  と  $J_l(n_1, n_2)$ から,  $p_l$  と  $2q_{l+1}$ を中心とした小さな画像領域(探索ウィンドウ) $f_l(n_1, n_2)$ と  $g_l(n_1, n_2)$ をそ



Fig. 1 POC による高精度な画像対応付け手法の概要

れぞれ抜き出す.探索ウィンドウは,信号長 N の1次元信号 L 行から構成される.

Step 5: ピクセルレベルの対応付けを用いて  $f_l(n_1, n_2) \geq g_l(n_1, n_2)$ 間の平行移動量を求める. 求めた平行移動量を $\delta_l$ とおくと,レイヤlの対 応点  $q_l$ は以下のように定められる.

$$\boldsymbol{q}_l = 2\boldsymbol{q}_{l+1} + \boldsymbol{\delta}_l \tag{3}$$

Step 6: l = l - 1 とおく.  $l \ge 0$  である間は Step 4 から Step 6 の処理を繰り返す.

Step 7: 原画像  $I_0(n_1, n_2)$  と  $J_0(n_1, n_2)$  から,  $p_0 \ge q_0$ を中心とした探索ウィンドウをそれぞ れ抜き出す.サブピクセルレベルの対応付けを 用いて2つのウィンドウ間の平行移動量を求め る.求めた平行移動量を $\delta = (\delta_1, \delta_2)$ とおくと, 対応点は以下のように定められる.

$$\boldsymbol{q} = \boldsymbol{q}_0 + \boldsymbol{\delta} \tag{4}$$

### 3. FPGA 実装

### 3.1 FPGA 向け OpenCL の設計手法

OpenCL のプログラミングモデルについて 簡単に説明する.図2にOpenCLのメモリモデ ルを示す.グローバルメモリとコンスタントメ モリは,全ワークアイテムからアクセス可能な メモリである.2つの違いは,グローバルメモリ が読み書き可能であるのに対し,コンスタント メモリは読み込みしか出来ない点である.ロー カルメモリはワークグループで共有されるメモ リであり,プライベートメモリは各ワークアイテ ムで占有されるメモリである.図3にOpenCL のスレッド空間を示す.スレッド空間は階層構 造を持ち,処理全体はワークグループによって 構成され,ワークグループはワークアイテムに よって構成されている.ここで,ワークアイテム はスレッドに対応する.OpenCLにおけるカー ネルの設計は,ワークアイテムが行う処理を記 述することで行う.

FPGA と GPU のアーキテクチャの大きな違 いとして, FPGA は大きなサイズのローカルメ モリを持つことが挙げられる.例えば,近年の ハイエンド FPGA である Stratix V は,50M bits という大きなメモリブロックを持つ.また, FPGA 向け OpenCL では,GPU 向け OpenCL と比べ,より柔軟にローカル,プライベートメ モリを扱うことが出来る.これにより,一度グ ローバルメモリから読み込んだデータを出来る 限り書き戻す事無く使うことで,グローバルメ



Fig. 2 OpenCL におけるメモリモデル



Fig. 3 OpenCL におけるスレッド空間



Fig. 4 FPGA 向け OpenCL で作成されるパイプライン



(b) POC による対応付け

Fig. 5 実装したカーネルの構造

モリの帯域を効率良く使用することが出来る. メモリ構造の柔軟性に基づきデータを最大限に 再利用するために,以下の工夫を行う:

- 窓関数,重み付け関数の係数とFFTで用いる回転因子は全てコンスタントメモリに持つ
- 除算のように計算コストが大きい演算は 出来る限り定数の演算に変換し、係数は コンスタントメモリに持つ
- グローバルメモリからの読み込み処理では,アクセス毎にキャッシュが作られるため,キャッシュを考慮した設計を行う

また,FGPA向けOpneCLとGPU向けOpenCL の違いとして,FPGAではパイプラインが作成 されることが挙げられる.図4に示すように, カーネルの各演算は,各パイプラインステージ で実行される.各スレッドはサイクル毎にパイ プラインへ投入される.パイプラインで処理を 行うことにより,性能(スループット)を保ちつ つメモリ帯域を効率よく扱うことが出来る.こ れに対し,GPU向けOpenCLでは,ワークグ ループ内のスレッドをデータ並列で実行するた め,大きなメモリ帯域が必要となる.また,パ イプライン設計の利点を最大限に生かすため, FPGA向けOpenCLでは"Channel"という機 能が提供されている.Channelを用いると異な

るカーネル間において FIFO バッファを用いた データのやり取りが実現できる.図5に POC を用いた画像対応付けを行う演算器の構成を示 す.各カーネルの機能を以下に示す:

make high layer: 上位レイヤ画像の作成
clip image: 探索ウィンドウの抜き出し
fft1d: 1次元フーリエ変換の計算
eval cps: 正規化クロスパワースペクトルの
計算

reorder: 逆フーリエ変換用のデータ並び替え ifft1d: 1 次元逆フーリエ変換の計算

find peak: 平行移動量の推定

Channel を用いるとデータをグローバルメモリ に書き戻す事無く別のカーネルへ送ることが出 来るため,データの再利用が容易に行える.例 えば,本実装において,図5(b)に示す POC による対応付け処理では,find peak カーネル において基準点数分の対応付け結果が得られる が,結果をグローバルメモリに書き出すこと無 く Channel を通じて clip image カーネルに渡 している.これにより次レイヤにおいて,対応 結果に基づいて探索ウィンドウの抜き出しがで きる.

### 3.2 評価

POCによる画像対応付け処理を CPU, GPU, および FPGA へ実装した結果を表1に示す.対

|                                     | Corei7-3960X<br>(1 thread) | Corei7-3960X<br>(12 threads) | Geforce<br>GTX 580 | Geforce<br>GTX 680 | FPGA board<br>(Nallatech<br>PCIE-395 D8) <sup>*2</sup> |
|-------------------------------------|----------------------------|------------------------------|--------------------|--------------------|--------------------------------------------------------|
| Processing time[ms]                 | 394.42                     | 62.92                        | 15.63              | 14.43              | 23.11                                                  |
| Power consumption <sup>*1</sup> [W] | 61.40                      | 162.50                       | 123.90             | 141.20             | 16.60                                                  |
| Power-delay product[W×s]            | 24.22                      | 10.22                        | 1.94               | 2.04               | 0.38                                                   |

Table 1 CPU, GPU, FPGA 各実装における処理時間と消費電力

\*1 消費電力は処理実行時と何も処理を行わない時の差分を表す \*2 Nallatech PCIE-395 D8 (Altera 社 Stratix-V FPGA 搭載)

189,756(72%)

| Table 2 FPGA 実装におけるリソース使用量 |         |           |            |            |  |  |  |
|----------------------------|---------|-----------|------------|------------|--|--|--|
|                            | Logic   | Registers | RAM blocks | DSP blocks |  |  |  |
| Stratix V D8               | 262,400 | 1,049,600 | 2,567      | 1,963      |  |  |  |

394,022(36%)

応付けパラメタは,基準点数を10,000点,レイ ヤ数を4,探索ウィンドウサイズを32ピクセル ×15行とした.CPUはIntel社のCorei7-3960X (3.3GHz-3.9GHz)を用いた.GPUはNVIDIA 社のGeforce GTX580とGeforce GTX680を用 いた.FPGAボードはAltera社のStratix Vと 4バンクのDDR3メモリが搭載された,Nallatech社のPCIE-395-D8を用いた.本設計におけ るFPGAの最大動作周波数は167MHzである. 表2に本設計のリソース使用量を示す.上段が FPGA (Stratix V D8)のリソース量,下段がリ ソース使用量を表す.

Implementation

評価尺度として,処理時間,消費電力,電力 遅延時間積を用いる.消費電力は, PC 全体の 消費電力を測定器 (HIOKI AC/DC POWER HiTESTER 3334) を用いて計測した.表1の 消費電力は,処理中の消費電力と何も処理を行 わない時の消費電力の差を表している.電力遅 延時間積は,処理時間と消費電力の積であり,処 理にかかる消費電力量を表している.GPU実装 によって1スレッド CPU 実装の 25~27 倍程度, 12 スレッド CPU 実装の 4.0~4.3 倍程度の高速 化が実現できた.また, FPGA 実装によって1 スレッド CPU 実装の 17 倍程度, 12 スレッド CPU 実装の 2.7 倍程度の高速化が実現できた. 以上により処理時間において, FPGAのメモリ 帯域は GPU よりはるかに小さいにもかかわら ず, FPGA 実装は GPU 実装と同程度の性能が

出ていることが確認できた.電力遅延時間積に おいて,GPU実装によって消費電力を1スレッ ド CPU実装の約8%,12スレッドCPU実装の 約19%まで削減できた.またFPGA実装によっ て消費電力を1スレッドCPU実装の約1.5%, 12スレッドCPU実装の約3.7%,GPU(GTX 580)実装の約20%,GPU(GTX680)実装の約 19%まで削減できた.以上の結果から,FPGA 実装は,CPU実装と比べて非常に低消費電力で あり,GPU実装と比べて同程度の処理速度かつ 非常に低消費電力であることが確認できた.

346(18%)

1,375(54%)

### 4. 結論

本稿では, OpenCL を用いた POC による 画像対応付け処理の FPGA 実装を提案した.自 由度の高いメモリ構造によるデータの再利用と パイプラインの活用により, FPGA による高速 かつ低消費電力な画像対応付けを実現した.今 後の課題として, GPU 向け OpenCL のコード を FPGA 向けに最適化する手法を設計論として まとめたいと考えている.

# 参考文献

 R. Szeliski, [Computer Vision: Algorithms and Applications], Springer-Verlag New York Inc., 2010

- 2) T. Shibahara, T. Aoki, H. Nakajima, and K. Kobayashi, "A sub-pixel stereo correspondence technique based on 1D phase-only correlation," *Proc. Int 'l Conf. Image Processing*, V-221-V-224, 2007
- 3) M. Miura, K. Fudano, K. Ito, T. Aoki, H. Takizawa, and H. Kobayashi, "Performance evaluation of phase-based correspondence matching on GPUs," *Proc. SPIE Vol.8856, Applications* of Digital Image Processing XXXVI, 885614, pp.1–9, 2013
- 4) "The OpenCL Specification, Version 1.2." http://www.khronos.org/registry/cl/ specs/opencl-1.2.pdf
- 5) "Altera SDK for OpenCL." https://www. altera.com/products/design-software/ embedded-software-developers/opencl/ overview.html
- 6) C. D. Kuglin, and D. C. Hines, "The phase correlation image alignment method," *Proc. Int'l Conf. Cybernetics and Society*, 163–165, 1975
- 7) K. Takita, T. Aoki, Y. Sasaki, T. Higuchi, and K. Kobayashi, "High-accuracy subpixel image registration based on phase-only correlation," *IEICE Trans. Fundamentals* E86-A, 1925–1934, 2003
- D. G. Lowe, "Distinctive image features from scale-invariant keypoints," *Int'l J. Computer* Vision 60(2), 91–110, 2004
- 9) M. Miura, S. Sakai, J. Ishii, K. Ito, and T. Aoki, "An easy-to-use and accurate 3D shape measurement system using two snapshots," *Proc. Int'l Workshop on Advanced Im*age Technology, 1103–1106, 2013