#### 計測自動制御学会東北支部 第235回研究集会 (2007.5.18) 資料番号 235-4

# マクレラン変換を用いた分散演算形2次元 FIRフィルタの高性能VLSIアーキテクチャ

## High-performance VLSI Architecture using Distributed Arithmetic for Two-Dimensional FIR Filters Based on McClellan Transformation

佐々木 正憲<sup>†</sup>, 中條 裕木<sup>†</sup>, 恒川 佳隆<sup>†</sup>

Masanori SASAKI $^{\dagger}$ , Hiroki CHUJO $^{\dagger}$ , Yoshitaka TSUNEKAWA $^{\dagger}$ 

### †岩手大学

<sup>†</sup>Iwate University

キーワード: 2次元FIRフィルタ (two-dimentional FIR filter), 分散演算 (distributed arithmetic), McClellan変換 (McClellan transform), 低消費電力 (low power disspation), ハードウェア効率 (hardware efficiency)

連絡先: 〒020-8551 盛岡市上田4-3-5 岩手大学工学部 佐々木正憲, Tel.:(019)621-6468, Fax.:(019)621-6468, E-mail: t3306013@iwate-u.ac.jp,

## 1. まえがき

多次元信号処理は,画像・動画像処理,地震探査 などの幅広い分野で用いられ,その重要性を急速 に増している.同時にそのシステムに対する要求 は,ますます高速,高機能化の度合いを増してい る.画像に代表される2次元信号のフィルタリング の一つとして,2次元FIRディジタルフィルタがあ る.FIRディジタルフィルタは安定性が保証されて おり,完全な直線位相特性を容易に実現できるた め,信号処理に広く利用されている.しかし,急 峻な遮断特性を実現するためには高い次数が要求 されるため,フィルタリングに必要なハードウェ ア量や計算量が膨大になるという問題を有する.

2次元FIRフィルタの一般的な実現法の1つとして,乗算器を用いた直接形構成に基づく手法がある

<sup>1)</sup>.この構成は、各タップごとにパイプライン処理 を施すことで、高いサンプリングレートを得ること ができるという特徴を有する.しかし、(M,N)次の 2次元FIRフィルタを実現するために(M+1)×(N+ 1)個もの乗算器を用いるため、膨大なハードウェ ア量と消費電力を必要とする.また、パイプライ ン段数がタップ数に依存するため、高次のフィル タリングにおいてレイテンシが大きくなるという 問題も生じる.

そこで,我々は分散演算に基づく高次向き2次 元FIRフィルタのVLSIアーキテクチャを提案して きた<sup>2)</sup>.分散演算は内積演算の処理時間が語長の みに依存するという特長を有し,次数の増加に対 してサンプリングレートを一定に保持しながらほ ぼ一定の小さな滞在時間に抑えることが可能であ る<sup>3)</sup>.しかし,分散演算に基づく従来形の構成は ROMを用いる部分での消費電力が大きいため,こ の手法に基づく2次元FIRフィルタの実現には非 常に大きな消費電力を必要とする.そこで,我々 が提案してきた最適関数回路(Optimum Functional Circuit:OFC)をROMの代わりに用いる新たな構成 法を示した<sup>2)</sup>.これにより,従来形の分散演算に 基づく構成で問題であった消費電力を大幅に削減 した.

さらに、2次元FIRフィルタの設計法の一つであ るMcClellan変換法により設計された2次元FIRフィ ルタのフィルタ係数が持つ対称性を利用すること で大幅に消費電力とレイテンシを減少する効率的 な構成法を提案してきた.この構成では、帯域形 やファンフィルタに特化することにより、さらに 大幅な高性能化が可能である.しかし、入力信号 をビットシリアルに入力するという性質上、処理 速度が低下するという問題が存在する.

本報告では,従来の乗算器を用いる構成法の特 長である高速なサンプリングレートと,分散演算 形構成の特長である良好なハードウェア効率を同 時に満たす構成法を提案する.この構成は乗算器 を用いた場合の最小構成であるチェビシェフ多項 式に基づく構成に対して分散演算を適用した構成 である.さらに,この構成に対して係数の対称性 を利用することで,更なる低消費電力化を実現す る.最後に,本プロセッサに対してVLSI評価を行 い,本提案法が高次のフィルタリングにおいて,低 消費電力と高いサンプリングレートを実現する有 効な手法であることを明らかにする.

### 2. 分散演算

高次向き2次元FIRフィルタを実現するため,乗 算器を用いることなく実現が可能であり、しかも処 理時間が語長のみに依存する分散演算のアルゴリ ズムに着目する<sup>4)</sup>.分散演算は定係数の内積演算を テーブル・ルックアップにより実現する計算手法で



Fig. 1 Basic structure based on distributed arithmetic

ある.いま,項数Nの係数ベクトル $a = (a_1, \cdots a_N)$ と変数ベクトル $v = (v_1, \cdots v_N)$ との内積

$$y = \boldsymbol{a} \boldsymbol{v} = \sum_{i=1}^{N} a_i v_i \tag{1}$$

を考える.ただし, $v_i$ は $-1 \le v_i < 1$ でBビットの 固定小数点系の2の補数表示である.これを

$$v_i = -v_i^0 + \sum_{k=1}^{B-1} 2^{-k} v_i^k \tag{2}$$

と表す.ここで,  $v_i^k dv_i ok = v_i ok = v_$ 

$$y = -\Phi(v_1^0, \cdots, v_N^0) + \sum_{K=1}^{B-1} 2^{-k} \Phi(v_1^k, \cdots, v_N^k) \quad (3)$$

ただし,関数Φは

$$\Phi(v_1^k, \cdots, v_N^k) = \sum_{i=1}^N a_i v_i^k \tag{4}$$

である.式(3),(4)に示される処理を行う分散演 算の基本構成を図1に示す.ここで,図1の構成 を機能から入力部,関数生成部,関数加算部に大 別する.この構成では,N個のシフトレジスタから  $(v_1^k, \dots, v_N^k)$ を出力し,これを関数生成部のROM にアドレスとして入力する.ROMには,式(4)で 与えられる入力データを各ビットと係数との内積 演算の結果,すなわち関数 $\Phi$ がテーブルとして書 き込まれている.計算時にはそのテーブルの参照 により得られた値を関数加算部にて順次1ビットシ フトしながら,語長*B*回文の累積加算処理を行う. これは,項数Nが増加しても処理時間を一定の小 さな値とすることができ,さらに乗算器を用いず に構成可能であるため,ハードウェア量を非常に 小さくすることができる.

# マクレラン変換に基づく分散 演算形VLSIアーキテクチャ

#### 3.1 マクレラン変換

マクレラン変換は1次元零位相FIRフィルタに対 する写像に基づいた変数変換を施すことにより,2 次元零位相FIRフィルタを導く設計手法であり,円 形対称特性への周波数変換法として知られている 5)6)7).

1次元零位相FIRフィルタの伝達関数 $H_1(e^{j\omega})$ ,インパルス応答h(n)の関係は,h(n)を偶対称応答,Nを奇数と規定するとき,次式のように表すことができる.

$$H_1(e^{j\omega}) = h(0) + \sum_{n=1}^N 2h(n)cos(\omega n)$$
 (5)

ここで,式(5)の関係式において, $cos(\omega n)$ は $cos\omega$ のn次のチェビシェフ多項式 $T_n$ として表すことができるため,次式のように表される.

$$\cos(n\omega) = T_n(\cos\omega) \tag{6}$$

$$\begin{cases} T_0(\cos\omega) = 1 \\ T_1(\cos\omega) = \cos\omega \\ T_n(\cos\omega) = 2\cos\omega T_{n-1}(\cos\omega) \\ -T_{n-2}(\cos\omega), \quad n \ge 2 \end{cases}$$
(7)

さらに,2次元への周波数変換式として式(8)を 導入する.

$$cos\omega = F(e^{j\omega_1} e^{j\omega_2})$$
  
=  $A + Bcos\omega_1 + Ccos\omega_2$   
+  $Dcos(\omega_1 - \omega_2) + Ecos(\omega_1 + \omega_2)$  (8)

ここで,式(8)の*A*,*B*,*C*,*D*,*E*は2次元周波数特性 を制御するパラメータである.McClellanは円対称 に近い軌跡を生ずるパラメータを与えており,こ のような変換をマクレラン変換と呼ぶ.



Fig. 2 Magnitude characteristic of fan filter Type-A



Fig. 3 Magnitude characteristic of fan filter Type-B

#### 3.2 マクレラン変換による係数の対称性

マクレラン変換は円対称特性への周波数変換法 としても用いられており,本質的に $(\omega_1 \ \omega_2)$ 平面上 で4軸(直行軸および±<sup>π</sup><sub>4</sub>の対角軸)対称な特性への 写像を行うことが可能である.この4軸対称な特 性を持つフィルタは,実係数のインパルス応答に 8点の対称特性を得られることが知られている<sup>7)</sup>. 図 2,3に設計されるFIRファンフィルタ2種類の例 (Type-A,Type-B)を示す.これらのインパルス応 答は,それぞれに図4に示すような対称性を有 する.この図に示すように,これらの2つのタイプ のファンフィルタは,いずれもインパルス応答に 8点,あるいは4点の偶対称性,奇対称性を併せ持 ち,約50%の割合で'0'値を含んでいる.この対称 性に着目する場合,関数生成部において同機能と なる最適関数回路を見出し,これを共有化するこ とが可能となる.ここで,最適関数回路とは,我々 が提案してきた構成であり, ROMと同様の機能を



Fig. 4 Symmetry property of impulse response

ゲートにより実現する手法で,処理性能を低減さ せずに大幅な低消費電力化が可能となる構成であ る<sup>4)</sup>.これにより,対称性を考慮しない構成に対 して,関数生成部の回路規模が約1/8に減少する. また,'0'値である係数に対応する入力線を削除す ることでも,同様に最適関数回路の回路規模が減 少する.これに伴い関数加算部の加算器数が大幅 に削減されるため,小面積化,低消費電力化,瞬 時応答性が大幅に向上する<sup>8)</sup>.また,我々は8点お よび4点の対称特性を効果的に利用するため,最 小のレジスタ数で係数の共有化を行うことが可能 なSFAU(Serial Full Adder Unit),SFSU(Serial Full Subtractor Unit)を提案している<sup>9)</sup>.

この構成は,極めて高次のフィルタリングにお いてもサンプリングレートをほぼ一定としながら, 消費電力とゲート数の面において高いハードウェ ア効率を実現することが可能である.その一方で, データをビットシリアルで入力するためにサンプ リングレートは乗算器を用いた構成と比較した場 合,低下してしまう.また,入力信号をタップ数 分保持するためにレジスタ数が増加するという問 題がある.そこで,マクレラン変換に固有の乗算 器を用いた効率的な構成に着目して,サンプリン グレートの向上,レジスタ数の削減を実現するこ とが可能となる新たな構成法を提案する.



Fig. 5 Conventional structure of 2D FIR filter Chebychev polynomial

# 新たな分散演算形2次元FIRフ ィルタのVLSIアーキテクチャ

本提案の分散演算形2次元FIRフィルタの構成は, マクレラン変換により設計された2次元FIRフィル タの周波数特性が,チェビシェフ多項式を用いて 表されることに着目したものである.マクレラン 変換の式では式(5)に式(6),(8)を代入すること により,式(9)に示される2次元零位相FIRフィル タの伝達関数*H*<sub>2</sub>(*e<sup>jω1</sup>*,*e<sup>jω2</sup>*)を得ることができる.

$$H_2(e^{j\omega 1}, e^{j\omega 2}) = h(0) + \sum_{n=1}^{N} 2h(n)T_n(\cos\omega)|_{\cos\omega = F(\omega_1, \omega_2)}$$
(9)

この 式 (9) に基づく2次元FIRフィルタの効率的な 構成として,図5に示す構成が知られている.こ のFIRフィルタの実現構造において,1出力を得る ための乗算回数は6N+1回であり,これは一般的に 用いられるFIRフィルタの乗算回数である(2N+1)<sup>2</sup> 回に比べ十分小さな値となる.しかし,この構成 を用いても高次のフィルタリングにおいては乗算 器を多数用いなければならず,ゲート数が大幅に 増大してしまう.また,各タップが縦続に接続さ れているため,レイテンシの増加も問題となる.

ここで,チェビシェフ多項式を用いた乗算器構 成の問題点であるゲート数,レイテンシの増大を 改善するために,この構成法に対して分散演算を 適用する.この時,F(z<sub>1</sub>,z<sub>2</sub>)は式(8)で表され, (3,3)タップの2次元FIRフィルタとして考えるこ



Fig. 6 Proposed structure of  $F(z_1, z_2)$ 



Fig. 7 Proposed structure of 2D FIR filer using Chevychev olynomial

とができ、そのフィルタ係数は常に同じ数値を用 いる構成となる.その際、入力を*x*(*m*,*n*)、出力を *F*(*m*,*n*)とした際の2次元FIRフィルタの入出力関 係を

$$F(m,n) = \sum_{j=-1}^{1} \sum_{i=-1}^{1} f(i,j)x(m-i,n-j)$$

$$= \sum_{j=-1}^{1} t(j)$$
 (10)

とおく,ここでf(i,j)はフィルタ係数を表す.x(m-i,n-j)は $-1 \le x(m-i,n-j) < 1$ で,Bビットの固定小数点系の2の補数表示であるものとすれば,

$$x(m-i, n-j) = -x^{0}(m-i, n-j) + \sum_{k=1}^{B-1} 2^{-k} x^{k}(m-i, n-j)$$
(11)

と表される.ただし, $x^k(m-i,n-j)$ はx(m-i,n-j)のkビット目の値であり,0もしくは1である.式 (11) より,t(j)は以下のように表される.

$$t(j) = - \Phi(x_{-1,j}^0, x_{0,j}^0, x_{1,j}^0) + \sum_{k=1}^{B-1} 2^{-k} \Phi(x_{-1,j}^k, x_{0,j}^k, x_{1,j}^k)$$
(12)

ただし, $x_{i,j}^k$ はx(i,j)のkビット目の値であり,0も しくは1である.また,関数 $\Phi$ は

$$\Phi(x_{-1,j}^k, x_{0,j}^k, x_{1,j}^k) = \sum_{i=-1}^{1} f(i,j) x^k (m-i, n-j) \quad (13)$$

である.これにより 式 (10) は,次式のように表 すことができる.

$$F(m,n) = \sum_{j=-1}^{1} \{-\Phi(x_{-1,j}^{0}, x_{0,j}^{0}, x_{1,j}^{0} + \sum_{k=1}^{B-1} 2^{-k} \Phi(x_{-1,j}^{k}, x_{0,j}^{k}, x_{1,j}^{k})\}$$
(14)

2次元の分散演算を適用した構成を,図6に示 す.この時,最適関数回路には内積演算の結果で ある式(13)が格納される.この時,ファンフィ ルタに特化した構成とすることでF(z<sub>1</sub>,z<sub>2</sub>)の係数 に対して4点の奇対称性を得ることができるので, 最適関数回路の入力線数を削減することができる. そのため,低消費電力化を実現することができる. さらに,図6の4-2Adderは我々が提案してきた4 入力2出力加算器であり,この加算器は少ない論理 ゲートで実現されているため,低消費電力化を図

|                      | Proposed DA     | Proposed DA    | Conventional         | Method using    |
|----------------------|-----------------|----------------|----------------------|-----------------|
|                      | using Chebychev | using symmetry | method using         | multipliers     |
|                      | polynomial      | fan filter     | chebychev polynomial | for direct form |
| Power disspation [W] | 3.47            | 14.7           | 9.25                 | 110.5           |
| Area $[mm^2]$        | 9.10            | 44.9           | 62.2                 | 110.5           |
| Number of gates      | 77893           | 303126         | 556442               | 7205388         |
| Machine cycle [ns]   | 16              | 16             | 46                   | 58              |
| Sampling rate [MHz]  | 62.5            | 4.46           | 21.7                 | 17.2            |
| Latency [ns]         | 448             | 352            | 920                  | 406             |

Table 1 VLSI evaluation of 2-D FIR filter (41,41)tap

ることができる<sup>8)</sup>.また,一般に分散演算はビット シリアル入力をもとに処理が行われ,出力を得る ためには語長回分の累積加算が必要となる.その ため,サンプリングレートは低下してしまう.そ こで,本提案の構成では,入力信号の全ビットの 入力を同時に行い,各々のビットに対して並列に 分散演算の処理を行う構成をとることにより,高 速なサンプリングレートを実現することができる. さらに,入力部において必要となるレジスタ数を 従来の構成では $(2N+1)^2 \times B$ ビット必要としてい たものが $9N \times B$ ビットまで削減することが可能と なる.その結果,大幅な低消費電力化,低面積化 を実現することができる.

本提案の全体構成は図7に示される.この構成 は各タップが縦続に接続されているが,乗算器を 用いずに構成されているため乗算器構成と比較し た場合,レイテンシの増加率は小さくなる.その ため,タップ数が増加した場合でもレイテンシの 増加を抑えることができる.さらに,分散演算構 成を並列に処理を行い,累積加算を行わない構成 とすることで,従来の分散演算構成と比較してレ イテンシを減少させることができる.

# 設計システムPARTHENONを用いて評価を行う. 結果を表1に示す.なお,設計に用いたセルライブ ラリの設計ルールは,0.6 µ mCMOSスタンダード セル(VLSIテクノロジ社)であり,電源電圧は5.0V である.また,設計対象は(41,41)タップの2次元 FIRフィルタである.比較対象としては,本提案の チェビシェフ多項式を用いた分散演算に基づく構 成,これまで提案してきたファンフィルタに特化 した分散演算形構成,従来用いられている乗算器 を用いたチェビシェフ多項式を利用する構成,乗 算器を用いた直接形構成を用いる.従来用いられ ている乗算器を用いたチェビシェフ多項式を利用 する構成と比較すると,構成上の問題点であった レイテンシを51%改善している.また,約2.9倍の サンプリングレートを実現しながら,62%の消費 電力を削減していることが分かる.これまで提案 してきたファンフィルタの係数の特徴を利用する 構成と比較すると,消費電力を約76%削減しなが ら,約14倍のサンプリングレートを実現している ことが分かる.なお,本提案法の評価には象限形 のファンフィルタを用いたが,他の仕様で実現す る場合においてもサブフィルタの係数を変更する のみであるため,これに近い評価結果が得られる.

### 5. VLSI評価

今回提案した構成と従来のチェビシェフ多項式を 用いた乗算器構成との性能を比較するため, VLSI

### 6. まとめ

本稿では、マクレラン変換に基づく2次元FIR フィルタの効率的な構成法についての提案を行っ た.本構成は一般的に用いられるチェビシェフ多項 式を利用した効率的な乗算器構成に対して分散演 算をビットパラレルに適用することにより,サン プリングレートの向上,短いレイテンシを実現し た.また,マクレラン変換の際の2次元への周波数 変換式に対して分散演算を適用することで,入力 信号を保持するために必要なレジスタ数を削減し た.それによって低消費電力化,小面積化を実現 した.さらに,2次元への周波数変換式が有する係 数の対称性に着目することで更なる低消費電力化 を実現した.最後に提案する並列形分散演算構成 に対してVLSI評価を行った.その結果,低消費電 力化,小面積化,高いサンプリングレートを有す ることを明らかにした.最後に,本構成を(41,41) 次という高い次数でVLSI評価した結果,本提案法 が消費電力,面積,サンプリングレートの面で見 た場合非常に有効な手法の一つであることを明ら かにした.

### 参考文献

- 1) 西川清:多次元FIRフィルタの設計,コンピュー トロール, No.30, 26/37, コロナ社 (1990)
- 2) 野崎 剛, 佐々木 友寿, 恒川 佳隆,田山 典男: 分散演算を用いた高性能2次元FIRフィルタの VLSIアーキテクチャ,第208回計測自動制御 東北支部研究集会
- C.F.Chen: Implementing FIR Filtes with Distributed Arithmetic, IEEE Trans., Acoust. Speech & Signal Process., ASSP-33-4, 1318/1312 (1985)
- 4) 恒川佳隆,野崎剛,三浦守:滞在時間を考慮し た高次FIRフィルタの高速・低消費電力形VLSI

アーキテクチャ、電気学会論文誌C, vol.118-C, No.7/8, 1098/1107 (1998)

- J.H.McClellan : The Design of TwoDimensional Disital Filters by Transformation for 2-D Digital Filters , Proc . 7th Annual Princeton Conf . Informations Sciences and Systems , 247/251 (1973)
- 6)西川清,森井春雄,金森丈朗:2次マクレラン変換によるFIRファンフィルタの設計法, 電子情報通信学会論文誌A,Vol.71-A,No.2, 275/281 (1988)
- 7) Emmanouil Z . Psarakis , George V . Moustalides : Design of Two-Dimensional Zoro-Phase FIR Filter via the Generalized McClellan Transform , IEEE Trans . CAS-38 , 1355/1363 (1991)
- 8) 中條裕木,佐々木友寿,野崎剛,恒川佳隆: 「マクレラン変換を用いた2次元FIRディジタ ルフィルタの高性能VLSIアーキテクチャ」,計 測自動制御学会東北支部第221回研究集会
- 9) 中條裕木,野崎剛,恒川佳隆:「McClellan変 換に基づく2次元FIRファンフィルタの高性能 VLSIアーキテクチャ」,計測自動制御学会東 北支部第288回研究集会