### 計測自動制御学会東北支部 第288回研究集会 (2006.5.17) 資料番号 288-4

# McClellan変換に基づく2次元FIRファンフィルタの 高性能VLSIアーキテクチャ

# High-Performance VLSI Architecture for Two-Dimensional FIR Fan Filters Based on McClellan Transformation

○中條裕木\*,野崎剛\*,恒川佳隆\*

OHiroki Chujo\*, Takeshi Nozaki\*, Yoshitaka Tsunekawa\*,

### \*岩手大学

\*Iwate University

キーワード: ファンフィルタ (fan filter), McClellan変換 (McClellan transform), 分散演算 (distributed arithmetic), 2次元FIRフィルタ (two-dimentional FIR filter), VLSI評価 (VLSI evaluation)

連絡先: 〒020-8551 岡盛市上田4-3-5 岩手大学 工学部 電気電子工学科 恒川研究室 中條裕木, Tel.: (019)621-6468, Fax.: (019)621-6468, F-mail: t3305020@iwate-u.ac.jp

### 1. はじめに

ファンフィルタは, 地震波やレーダ, ソナーなど の受信信号に対し, その到来波のある方向の成分 のみを通過させる多次元フィルタである. その重 要性ゆえに多くの伝達関数設計法が研究されてお り, またシステムに対する要求は高速, 高精度化 の度合いを増している<sup>1~7)</sup>.

ファンフィルタの設計法はIIR形, FIR形とも, 様々なものが提案されているが, FIRディジタル フィルタは安定性が常に保証されており, 完全な 直線位相特性が容易に実現できる特長がある.

FIRファンフィルタの設計法には,最終仕様を 直接近似することによる最適化法<sup>1,2)</sup>,フーリエ 級数法<sup>3,4)</sup>,マクレラン変換法<sup>5)</sup>が知られている. この中でマクレラン変換による方法は,原形とな る1次元フィルタを設計するだけで,簡単な設計が 可能である.一般に、ファンフィルタの設計にマ クレラン変換を用いた場合にはファン特性の遮断 域が広くなるという問題点が存在するが, 高次の サブフィルタを用いることにより急峻な遮断特性 を得るための手法が提案されている<sup>6,7)</sup>.しかし, この手法を用いる場合には1次元原形フィルタに対 して,設計されるファンフィルタが大きく高次化 するため、実現という面において効果的な手法が 要求される.マクレラン変換に基づき設計された 2次元FIRフィルタには、乗算回数の比較的少ない 効率的な実現構造が存在する<sup>8)</sup>、しかし、この構 成は乗算器を用いる性質上, 高次のフィルタに対 しては大幅なゲート数の増加が避けられない。ま た各タップが縦続接続であるために出力滞在時間 (Latency)が非常に大きくなり、瞬時応答性が著し く悪化する問題を有する.

このような背景のもと、本稿では滞在時間を考

慮した高次向き2次元FIRファンフィルタの効率的 な構成法の提案を目的とする. マクレラン変換に 基づき設計された高次FIRファンフィルタに対し, 分散演算のアルゴリズムを適用することにより, 低消費電力とハードウェア量の増加を抑えながら も瞬時応答性に優れた構成法を提案する.分散演 算は内積演算の処理時間が語長のみに依存すると いう特長を有し、次数の増加に対してサンプリン グレートを保持しながらほぼ一定の小さな滞在時 間に抑えることが可能である<sup>9)</sup>.しかし、分散演 算に基づく従来型の構成はROMを用いる部分での 消費電力が大きいため、この手法に基づく2次元 FIRフィルタの実現には非常に大きな消費電力を 必要とする、そこで、我々が提案してきた最適関数 回路(Optimum Functional Circuit:OFC)をROMの 代わりに用いる新たな構成法を示す<sup>10)</sup>.これによ り、従来形の分散演算に基づく構成で問題であっ た消費電力を大幅に削減する. さらに、マクレラ ン変換法に基づき設計されるFIRファンフィルタ のフィルタ係数が有する特徴に着目し, 消費電力 と滞在時間を効果的に減少する手法を新たに提案 する. 最後に、本プロセッサに対してVLSI評価を 行い、本提案法が極めて高次のフィルタリングに おいて、サンプリングレートを一定とし, 消費電 カとハードウェア量を抑えながら, 従来の手法に 対して出力滞在時間を大幅に短縮可能であること を明らかにする.

# 2. 分散演算に基づく構成

高次FIRファンフィルタを実現するため,乗算器 を用いることなく実現が可能であり,しかも処理 時間が語長のみに依存する分散演算のアルゴリズ ムに着目する<sup>11)</sup>.そこで,本章ではまず分散演算 について述べ,次にFIRファンフィルタへ分散演算 を適用し,その基本構成を示す.

# 2.1 分散演算に基づくFIRファンフィル タ

分散演算をFIRファンフィルタへ適用する.入 力をx(m,n),出力をy(m,n)とした際のFIRファン フィルタの入出力関係を

$$y(m,n) = \sum_{j=0}^{N} \sum_{i=0}^{M} h(i,j) x(m-i,n-j)$$
  
= 
$$\sum_{j=0}^{N} f(j)$$
 (1)

とおく. ここで,h(i,j)はインパルス応答を表し, M,Nはファンフィルタの水平方向,垂直方向の次 数である.x(m-i,n-j)は $-1 \leq x(m-i,n-j) < 1$ で,Bビットの固定小数点形の2の補数表示である ものとすれば,

$$x(m-i, n-j) = -x^{0}(m-i, n-j) + \sum_{k=1}^{B-1} 2^{-k} x^{k}(m-i, n-j)$$
(2)

と表される.ただし、 $x^{k}(m-i, n-j)$ はx(m-i, n-j)のkビット目の値であり、0もしくは1である.式 (2)より、f(j)は式(3)のように表される.

$$f(j) = -\Phi(x_{0,j}^0, \dots, x_{M,j}^0) + \sum_{k=1}^{B-1} 2^{-k} \Phi(x_{0,j}^k, \dots, x_{M,j}^k)$$
(3)

ただし、 $x_{i,j}^k$ はx(i,j)のkビット目の値であり、0もしくは1である.関数 $\Phi$ は

$$\Phi(x_{0,j}^{k}, \dots, x_{M,j}^{k}) = \sum_{i=0}^{M} h(i,j) x^{k} (m-i, n-j)$$
(4)

である.これにより式(1)は、次式のように表す ことができる.

$$y(m,n) = \sum_{j=0}^{N} \left\{ -\Phi(x_{0,j}^{0}, \dots, x_{M,j}^{0}) + \sum_{k=1}^{B-1} 2^{-k} \Phi(x_{0,j}^{k}, \dots, x_{M,j}^{k}) \right\}$$
(5)

式(4),式(5)により示された分散演算を適用した(M,N)次のフィルタの構成を Fig.1に示す.な

- 2'-



Fig. 1 Basic structure of FIR fan filter based on distributed arithmetic

お,ここでは Fig. 1 の構成をその機能から入力 部,関数生成部,関数加算部に大別する.関数加 算部の各ROMには, (M+1)個のデータが, それ ぞれビットシリアルに入力される. ROMには入力 の各ビットと係数の内積演算の結果、すなわち式 (4)の関数Φがテーブルとして書きこまれている. 計算時には、テーブルの参照により得られた値を 関数加算部にて順次1ビットシフトしながら加算し ている.この加算処理は語長B回で終了するため. 次数の増加に対してサンプリングレートを保持し ながら,ほぼ一定の小さな滞在時間に抑えること ができる. さらに, 乗算器を用いることなく実現 可能であるため,低消費電力性,小面積性に優れ た構成となる.しかし, Fig.1 に示した構成を 実現するには、2<sup>M+1</sup>ワードのメモリ容量のROM がN+1個必要とされる.このため、高次FIRファ ンフィルタに対しては, 関数生成部における消費 電力が膨大となる.この消費電力の問題を解決す るため、関数の分割化法がある、これは、大きな ROM容量を幾つかの小さなROM容量の加算とし て実現する手法である.ここで,分割数をQとす

ると、それを以下のように表すことができる.

$$\Phi(x_{0,j}^{k}, \dots, x_{M,j}^{k}) = \sum_{i=0}^{M/Q} h(i,j)x^{k}(m-i,n-j) + \dots + \sum_{i=Q'}^{M} h(i,j)x^{k}(m-i,n-j) = \Phi(x_{0,j}^{k}, \dots, x_{M/Q,j}^{k}) + \dots + \Phi(x_{Q',j}^{k}, \dots, x_{M,j}^{k})$$
(6)

ただし,

$$Q' = \frac{(M+1)(Q-1)}{Q}$$
(7)

である.これにより, ROMの容量を大幅に低減す ることができる.しかし,この手法を用いても,高 次では比較的消費電力の大きいROMを多用するた めに,関数生成部の消費電力が非常に大きくなり, フィルタ全体の消費電力が増大する.

#### 2.2 最適関数回路

関数生成部における消費電力の問題を解決する ため、関数 $\Phi$ の生成にROMではなく、我々が提案 してきた最適関数回路を用いた構成に着目し、大 幅な低消費電力化を可能とする構成を提案する. 最適関数回路は、ROMと同様の機能をゲートに より実現する手法であり、処理性能を低減させず に大幅な低消費電力化が可能である<sup>11</sup>).ここで、 ROMに格納されている関数テーブルを、次のよう  $c2^{l} \times B$ の行列で表す.

$$\boldsymbol{W}_{ROM} = \begin{bmatrix} t_0^{B-1} & \cdots & t_0^0 \\ \vdots & \cdots & \vdots \\ t_{2^l-1}^{B-1} & \cdots & t_{2^l-1}^0 \end{bmatrix}$$
(8)

式(8)の各行ベクトル $[w_i^{B-1} \cdots w_i^0]$ は, *i*番地に格 納されているBビットの出力データである. 最適 関数回路は,式(8)の行または列には同じベクト ルが存在することに着目し,それらを共有化した 関数 $\Phi$ をテーブルとして用いる.そこで,これら を共有化して,関数テーブルの大きさを低減する.

– 3 –

この冗長性の削除により生成される行列を,

$$\boldsymbol{W}_{OPT} = \begin{bmatrix} t_0^j & \cdots & t_0^0 \\ \vdots & \cdots & \vdots \\ t_i^j & \cdots & t_i^0 \end{bmatrix}$$
(9)

という $i \times j$ の行列で表す.ただし,

$$i \le 2^l - 1 \quad j \le B - 1 \tag{10}$$

である.最適関数回路は式(9)の行ベクトルに対応する部分機能回路と列ベクトルに対応する部分 機能回路を縦続接続した構成をとる.さらに,各 部分機能回路に対して二段論理簡単化,多段論理 最適化を施すことによりゲート数およびファンイ ン数を減少させている.これを高次FIRファンフィ ルタの関数生成部に適用することにより,消費電 力を大幅に削減することができる.

しかし,極めて高次のフィルタを実現する場合, 関数Φの分割数が非常に多いために,関数加算部 において加算器数が増加し,フィルタ全体の消費 電力に大きく影響を及ぼす.また,同時に加算段 数が増加するために滞在時間も増加する.

本稿では、これらの問題を解決するための新た な二つの手法を提案する.はじめに、関数加算部 における消費電力と滞在時間の問題に対し、我々 が提案してきた4入力2出力加算器を適用すること で、これを改善する.次に、マクレラン変換によ り設計された2次元零位相FIRフィルタの係数が有 する特長に着目し、SFAを効果的に用いることに より関数生成部、および関数加算部における消費 電力と滞在時間を大幅に削減する新たな構成法を 提案する.

## 3. 4入力2出力加算器

本提案の4入力2出力加算器の構成を Fig. 2 に 示す.本加算器は Fig. 3 に示す異なるタイプの FA(Full Adder)の縦続接続により構成される. こ こで, Fig. 3 (a)のFAは,上位ビットへのキャリー を高速に出力する特長を有する.また, Fig. 3 (b)



Fig. 2 Structure of 4-2adder



Fig. 3 Full Adder using in 4-2adder

のFAの入力変数zに対する入力のタイミングには, HA(Half Adder)の処理時間分の余裕が存在する. 従って,これらのFAを縦続に接続することにより 双方のFAは処理を並列に行うことが可能となる. このため,加算に要する処理時間が減少し,関数 加算部における滞在時間が低減する.さらに,本 加算器は少ない論理ゲートで実現可能であるため, 多くの加算器を使用する本プロセッサの低消費電 力化のために,非常に有効な構成である.

# マクレラン変換に基づく分散 演算型VLSIアーキテクチャ

最適関数回路によって得られた非常に小さい消 費電力をさらに減少するため、本稿では、マクレ ラン変換に基づき設計されたFIRファンフィルタ の係数が有する特徴に着目する.プロセッサの消 費電力と滞在時間の大幅な低減を可能にする2つ



Fig. 4 Properties of fan filter Type-A



Fig. 5 Properties of fan filter Type-B

の特長を示し、それらを効果的に利用するための 手法を提案する.

### 4.1 マクレラン変換

マクレラン変換は1次元零位相FIRフィルタに対 し写像に基づいた変数変換を施すことにより、2 次元零位相FIRフィルタを導く設計手法である<sup>5</sup>). マクレラン変換は円対称特性への周波数変換法と しても用いられており、本質的に $(\omega_1, \omega_2)$ 平面上で 4軸(直行軸および±πの対角軸)対称な特性への写 像を行うことが可能である.この4軸対称な特性 を持つフィルタは実係数のインパルス応答に8点 の対称特性を得られることが知られている<sup>12)</sup>. Fig. 4,5 に設計されるFIRファンフィルタ2種類の 例(Type-A,Type-B)を示す. これらのファンフィル タのインパルス応答は、それぞれに Fig. 6 に示す ような対称性を有する.この図に示すように、こ れら2つのタイプのファンフィルタは、いずれもイ ンパルス応答に8点,あるいは4点の偶対称性,奇 対称性を併せ持ち、約50%の割合で'0'値を含んで いる.本提案のアーキテクチャにおいてこの対称



Fig. 6 Symmetry of impulse response

性に着目する場合,関数生成部において同機能と なる最適関数回路を見出し,これを共有化するこ とが可能となる.これにより,対称性を考慮しな い構成に対して,関数生成部の回路規模が約1/8 に減少する.また,'0'値である係数に対応する入 力線を削除することでも,同様に最適関数回路の 回路規模が減少する.これに伴い関数加算部の加 算器数が大幅に削減されるため,小面積性,低消 費電力性,瞬時応答性が大幅に向上する.

そこで,ファンフィルタのインパルス応答が持 つ対称性を利用し,係数の共有化を効果的に行う ための演算器を新たに提案する.

# 4.2 'SFA(Serial Full Adder)-Unit /SFS(Serial Full Subtracter)-Unit

これまで我々はマクレラン変換を用いた分散演 算に基づく2次元FIRフィルタのVISLアーキテク チャを提案してきた<sup>13)</sup>.係数の4点,および8点の 偶対称性に着目し,これを共有化するため入力部 に対して図7,8 に示すような,SFAによる2分木構 成を適用している.ただし,kは時刻を表している.

本報告では、このSFAを用いた2分木構成と同機 能で、かつ

- レジスタの削減によるゲート数の減少.
- 出力(図7,9 のy<sup>k</sup>)の遅延時間を保持しながら、
   かつレジスタの値を更新するまでの遅延時

- 5 -



Fig. 7 Conventional 4-1 SFA-Unit



Fig. 8 Conventional 8-1 SFA-Unit

間を本提案のFIRファンフィルタのパイプラ インのピッチ内(16Δ)に抑え、サンプリング レート・滞在時間の保持.

が可能な構成を提案する.なお、本提案法に用い る全加算器は Fig. 9 に示す構成とし、遅延時間は NANDゲートおよびNORゲートを1 $\Delta$ として換算 し算出する<sup>14)</sup>.

### 4.2.1 4入力1出力SFA-Unit

マクレラン変換に基づくFIRファンフィルタ係数 の4点偶対称性に着目した構成として,これまで図 7に示す4入力1出力加算器を適用してきた<sup>13)</sup>.い ま,これを4-1SFAUと呼ぶ.図7の構成では3つの レジスタそれぞれ1ビットずつ状態が保持される.



Fig. 9 Structure of FA





しかし,

$$rc_1^k + rc_2^k + rc_3^k \in \{00, 01, 10, 11\}$$
(11)

を考慮すれば、これらの情報の加算値の保持には 2つのレジスタを用いれば十分であることがわか る、そこで、

$$rc_1^k + rc_2^k + rc_3^k = rc_4^k + 2^1 rc_5^k \qquad (12)$$

が成り立つような2つの変数 $rc_4^k(rc_4^{k-1})$ と $rc_5^k(rc_5^{k-1})$ を用いて、レジスタ数を減少できる構成を導出する.

 $rc_4^k$ ,  $rc_5^k$ をレジスタに保持する変数とすると,加 算器の処理要素に過去のサイクルにおける保持状態である $rc_4^{k-1}$ ,  $2^1rc_5^{k-1}$ が加えられる.従って,このときのSFA-Unitは次式のような加算を行う.

$$x_{1}^{k} + x_{2}^{k} + x_{3}^{k} + x_{4}^{k} + rc_{4}^{k-1} + 2^{1}rc_{5}^{k-1}$$
  
=  $y^{k} + 2^{1}rc_{4}^{k} + 2^{2}rc_{5}^{k}$  (13)

式(13)より,

$$x_1^k + x_2^k + rc_4^{k-1} = is_1 + 2^1 ic_1 \qquad (14)$$

$$is_1 + x_3^k + x_4^k = y^k + 2^1 ic_2 \qquad (15)$$

$$2^{1}ic_{1} + 2^{1}ic_{2} + 2^{1}rc_{5}^{k-1} = 2^{1}rc_{4}^{k} + 2^{2}rc_{5}^{k}$$
(16)

と置けば, $is_1,ic_1,y^k,ic_2,c_4^k,c_5^k$ の論理式は次のよう



Fig. 11 Proposed 8-1 SFA-Unit

に表される.

$$is_1 = x_1^k \oplus x_2^k \oplus rc_4^{k-1} \tag{17}$$

$$ic_1 = x_1^k \cdot x_2^k \vee x_1^k \cdot rc_4^{k-1} \vee x_2^k \cdot rc_4^{k-1}$$
 (18)

$$y^{k} = x_{3}^{k} \oplus x_{4}^{k} \oplus is_{1}^{k}$$
<sup>(19)</sup>

$$ic_2 = is_1 \cdot x_3^k \lor is_1 \cdot x_4^k \lor x_3^k \cdot x_4^k \tag{20}$$

$$rc_4^k = ic_1 \oplus ic_2 \oplus rc_5^{k-1} \tag{21}$$

$$rc_{5}^{k} = ic_{1} \cdot ic_{2} \vee ic_{1} \cdot rc_{5}^{k-1} \vee ic_{2} \cdot rc_{5}^{k-1}$$
 (22)

ここで,式(17)と(18)は入力 $x_1^k$ , $x_2^k$ , $rc_4^{k-1}$ ,出力 和 $is_1$ ,出力キャリ $-ic_1$ の全加算器,式(19)と(20) は入力 $x_3^k$ , $x_4^k$ , $is_1$ ,出力和 $y^k$ ,出力キャリ $-ic_2$ の 全加算器,式(21)と(22)は入力 $rc_5^{k-1}$ , $ic_1$ , $ic_2$ ,出 力和 $rc_4^k$ ,出力キャリ $-rc_5^k$ の全加算器を表してい ることを考慮すると,式(17)から(22)の内部論理 を有する4-1SFAUは図10のようになる.

### 4.2.2 8入力1出力SFA-Unit

マクレラン変換を用いた2次元FIRフィルタの8 点対称に着目した構成として,これまで図8に示 す8入力1出力加算器を適用してきた<sup>13</sup>).ここで レジスタ数を減少するために,前節と同様に状態 保持変数の減少を図る.ただし,4入力1出力加算 器の場合とは異なり,その減少方法は数種類存在 し,FIRファンフィルタのサンプリングレートと滞 在時間に影響を及ぼす場合も存在することに注意 する.本提案のFIRファンフィルタのクリティカル パスは,関数加算部の最終段の累積加算器による 18ムである.ただし,SFAU内のレジスタは1サン プリング周期毎にリセットしなければならないこ とを考慮すると、各レジスタ値を更新するまでの 遅延時間は16△内に抑えなければならないことに 留意する.

本提案のFIRファンフィルタのサンプリングレートと滞在時間を保持しながら8-1SFAUのレジスタ数を減少するために、図8の構成における7個の状態変数 $rc_1^k(rc_1^{k-1}) \sim rc_7^k(rc_7^{k-1})$ の加算に対して、

$$rc_{1}^{k} + rc_{2}^{k} + rc_{3}^{k} + rc_{4}^{k} + rc_{5}^{k} + rc_{6}^{k} + rc_{7}^{k}$$
$$= rs_{8}^{k} + 2^{1}rs_{9}^{k} + 2^{2}rc_{10}^{k} \qquad (23)$$

という関係が成り立つ3個の状態保持変数, $rs_8^k$ ,  $rs_9^k$ , $rc_{10}^k$ を用いて,8-1SFAUのレジスタ数を削減 できる構成を導出する. $rs_8^k$ , $rs_9^k$ , $rc_{10}^k$ をレジスタ に保持する変数とすると,加算器の処理要素に過去 のサイクルにおける保持状態である $rs_8^{k-1}$ , $rs_9^{k-1}$ ,  $rc_{10}^{k-1}$ が加えられる.従って,このときのSFA-Unit は次式のような加算を行う.

$$\begin{aligned} x_1^k + x_2^k + x_3^k + x_4^k + x_5^k + x_6^k + x_7^k + x_8^k \\ &+ rs_8^{k-1} + 2^1 rs_9^{k-1} + 2^2 rc_{10}^{k-1} \\ &= y^k + 2^1 rs_8^k + 2^2 rs_9^k + 2^3 rc_{10}^k \end{aligned} \tag{24}$$

上式より,

$$x_1^k + x_2^k + x_3^k = is_1 + 2^1 ic_1 \tag{25}$$

$$x_4^k + x_5^k + x_6^k = is_2 + 2^1 ic_2 \tag{26}$$

$$x_7^k + x_8^k + rs_1^{k-1} = is_3 + 2^1 ic_3 \tag{27}$$

$$is_1 + is_2 + is_3 = y^k + 2^1 ic_4$$
 (28)

$$2^{1}ic_{1} + 2^{1}ic_{2} + 2^{1}ic_{3} = 2^{1}is_{5} + 2^{2}ic_{5}$$
 (29)

$$2^{1}ic_{4} + 2^{1}is_{5} + 2^{1}rs_{9}^{k-1} = 2^{1}rs_{1}^{k} + 2^{2}ic_{6}$$
 (30)

$$2^{2}ic_{5} + 2^{2}ic_{6} + 2^{2}rc_{10}^{k-1} = 2^{2}rs_{9}^{k} + 2^{3}rc_{10}^{k}$$
(31)

と置けば、本提案の8-1SFAUの内部論理は以下のように表せる.

$$is_1 = x_1^k \oplus x_2^k \oplus x_3^k \tag{32}$$

$$is_2 = x_4^k \oplus x_5^k \oplus x_6^k \tag{33}$$

-7-

Table 1 Number of gates of 8-1 SFAU

|       | Proposed SFAU | Conventional SFAU |
|-------|---------------|-------------------|
| Gates | 92            | 112               |

Table 2 Delay time of proposed 8-1 SFAU

| - |             | delay time  |
|---|-------------|-------------|
| - | $y^k$       | $12 \Delta$ |
| - | $rs_8^k$    | $14 \Delta$ |
|   | $rs_9^k$    | $16 \Delta$ |
| - | $rc_{10}^k$ | $12 \Delta$ |

$$is_3 = x_7^k \oplus x_8^k \oplus rs_1^{k-1} \tag{34}$$

 $y^{\mathbf{k}} = is_1 \oplus is_2 \oplus is_3 \tag{35}$ 

$$is_5 = ic_1 \oplus ic_2 \oplus ic_3$$
 (36)

$$rs_{8}^{k} = ic_{4} \oplus is_{5} \oplus rs_{9}^{k-1} \tag{37}$$

$$rs_9^k = ic_5 \oplus ic_6 \oplus rc_{10}^{k-1}$$
 (38)

$$ic_1 = x_1^k \cdot x_2^k \vee x_2^k \cdot x_3^k \vee x_3^k \cdot x_1^k \tag{39}$$

$$ic_2 = x_4^{\kappa} \cdot x_5^{\kappa} \vee x_5^{\kappa} \cdot x_6^{\kappa} \vee x_6^{\kappa} \cdot x_4^{\kappa}$$
(40)

$$ic_3 = x_7^k \cdot x_8^k \lor x_8^k \cdot rs_8^{k-1} \lor rs_8^{k-1} \cdot x_7^k$$
 (41)

$$ic_4 = is_1 \cdot is_2 \lor is_2 \cdot is_3 \lor is_3 \cdot is_1 \qquad (42)$$

$$ic_5 = ic_1 \cdot ic_2 \vee ic_2 \cdot ic_3 \vee ic_3 \cdot ic_1$$
 (43)

$$ic_6 = ic_4 \cdot is_5 \vee is_5 \cdot rs_9^{k-1} \vee rs_9^{k-1} \cdot ic_4(44)$$

$$rc_{10}^{k} = ic_{5} \cdot ic_{6} \lor ic_{6} \cdot rc_{10}^{k-1} \lor rc_{10}^{k-1} \cdot ic_{5}(45)$$

式(32)から(45)より,図11のような8入力1出力加 算器を構成できる.

表1にゲート数を定量的に評価した結果を示す. 従来形構成に対して1ビット長のレジスタを4個削 減し,その結果ゲート数を約17.9%削減した.また, 本提案の8入力1出力SFA-Unitの遅延時間はTable 2のようになり,従来形の8入力1出力SFA-Unitの出 力の遅延時間を保持しながら,かつ本提案のFIR ファンフィルタ係数サンプリングレートと滞在時 間に影響を及ぼさないことを確認できる.

これと同様に、マクレラン変換に基づくFIRファ ンフィルタ係数の4点、8点の奇対称性に着目した構



Fig. 12 Conventional 4-1 SFS-Unit



Fig. 13 Proposed 8-1 SFS-Unit

成として,4入力1出力SFS-Unit,8入力1出力SFS-Unitの構成はFig.12, Fig.13のように導出さ れる.

### 5. VLSI評価

以上の提案法の有効性を明らかにするために, VLSI設計システムPARTHENONを用いて設計, 評 価を行う<sup>15)</sup>. なお,設計に用いたセルライブラリ の設計ルールは,0.6µm CMOSスタンダードセル (VLSIテクノロジー社)であり,電源電圧は5.0Vで ある.また,設計対象は(40,40)次のFIRファンフィ ルタである.

比較対象としては、本提案のSFAU,SFSUを用い てフィルタ係数の規則性を利用した構成、従来の ROMを用いた関数生成を行う分散演算形構成、お よび乗算器を用いた構成を用いる.

はじめに、Table 3より、本提案法に基づくSFAU、 SFSUを利用する構成と、関数の生成にROMを用 いる従来形の分散演算に基づく構成との比較を行 う.従来の分散演算に基づく構成は、関数生成部 において比較的消費電力の大きなROMを多用する ため、59.5Wという非常に大きな消費電力を必要 とする.それに対し、8点の称特性を利用した本プ

|                         | Proposed DA   | Conventional | Conventional method |
|-------------------------|---------------|--------------|---------------------|
|                         | using 8points | DA using     | using Chebychev     |
|                         | symmetry      | ROM          | polynomial          |
| Power dissipation[W]    | 14.7          | 59.5         | 12.2                |
| Area [mm <sup>2</sup> ] | 44.9          | 77.8         | 62.2                |
| Number of gates         | 303126        | 504631       | 556442              |
| Machine cycle [ns]      | 16            | 16           | 46                  |
| Sampling rate [MHz]     | 4.46          | 4.46         | 21.7                |
| Latency [ns]            | 352           | 416          | 920                 |

Table 3 VLSI evaluation of FIR fan filter (41,41)tap



Fig. 14 Structure of FS



Fig. 15 Structure of FS'

ロセッサでは、最適関数回路およびSFAU, SFSU を効果的に用いることにより関数生成部の回路規 模を大きく減少し、大幅な低消費電力化を実現し た.さらに、上述のSFAUの効果により関数加算部 の加算段数を2段減少させ、さらに加算器数を約 1/8に減少させた.これによりROMを用いた従来 の構成と比較して、約75.6%という大幅な消費電 力の削減を実現した.

次に,乗算器を用いたマクレラン変換に固有の 実現構成に基づくプロセッサとの比較を行う.消 費電力については本提案法が17%程度高いが,回 路面積については約27.8%小さく,ゲート数は約 45.5%減少する結果となった.さらに,出力滞在時 間については約61.7%良好である.このことから, 各タップが縦続接続であるため極めて高次の場合 には出力滞在時間の大きさが問題となる乗算器を 用いた構成に対し,本提案法は次数の増加に伴う 滞在時間の増加を抑えた,ハードウェア効率の良 い構成であるといえる.

### 6. むすび

本稿では、滞在時間を考慮した高次FIRファン フィルタの高速・低消費電力形VLSIアーキテクチャ を提案した、内積演算に対して処理時間が語長の みに依存する分散演算を用いて,次数の増加に対 してサンプリングレートを保持しながら,滞在時間 をほぼ一定の小さな値に抑えた.また、従来の分散 演算においてROMを用いる部分で生じる非常に大 きな消費電力の問題を, 冗長性の削除により解決す る手法を示した.しかし、この構成法を用いても、 極めて高い次数のフィルタ実現に用いる場合,加算 器数と加算段数が増加するために加算部における 消費電力と滞在時間が増加してしまう. そこで, マ クレラン変換に基づき設計されたFIRファンフィ ルタの係数が持つ特長に対し, SFAU(Serial Full Adder Unit),SFSU(Serial Full Subtractor Unit)を 用いることにより、これを効果的に利用する構成 法を提案した.また,関数加算部に用いる加算器 として我々が提案してきた4入力2出力加算器を適 用した.これらにより、滞在時間を考慮しながら 最適関数回路によって得られた非常に小さい消費 電力をさらに大きく減少させた.最後に、本プロ セッサを(40,40)次という高い次数でVLSI評価した 結果、本提案法が極めて高次のFIRファンフィル タ実現に有効な手法の一つであることを明らかに した.

### 参考文献

- 41) 雛元孝夫,棟安実治,前川禎男:非対称半平面上に おける2次元FIRディジタルフィルタの設計,信学 論(A), J71-A, 2, 275/281 (1988)
- Y.Kamp and J.P.Thiran: Chebyshev approximation for two dimentional nonrecursive digital filters, IEEE Trans. Circuits & Syst., CAS-22, 208/218 (1975)
- S.Treitel, J.L.Shanks and C.W.Frasier:Some aspects of fan filtering, Geophysics, 32.5, 789/800 (1967)
- K.L.Peacock: On the Practical Design of Discrete Velocity Filters for Seismic Data Processing, IEEE Trans. ASSP-30; 1, 52/60 (1982)
- 5) J.H.McClellan: The design of two-dimentional nonrecursive digital filters, Proc. of the 7th Annual Princet on Conference Information sciences and Systems (1973) 1
- 6) 西川 清,森井春雄,金森丈郎:"2次マクレラン 変換によるFIRファンフィルタの設計法",信学論 (A), J71-A,2,275/281 (1988)
- 7) 田澤志郎,本間仁志,佐川雅彦:マクレラン変換に 基づくFIRファンフィルタの一設計法,信学論(A), J73-A, 3, 428/435 (1990)
- 8) J.H. McClellan and D.S.K. Chan: "A 2-D FIR Filter Structure Derived form the Chebyshev Recursion", IEEE Trans. on Circuits and Systems, Vol.CAS-24, No.7, 372/378 (1977)
- 9) C. F. Chen:Implementing FIR Filters with Distributed Arithmetic, IEEE Trans., Acoust. Speech & Signal Process., ASSP-33-4, 1318/1321 (1985)
- 10) 野崎 剛, 佐々木 友寿, 恒川 佳隆, 田山 典男: 分 散演算を用いた高性能2次元FIRフィルタのVLSI アーキテクチャ, 第208回計測自動制御東北支部研 究集会
- 11) 恒川佳隆,野崎剛,三浦守:滞在時間を考慮した高 次FIRフィルタの高速・低消費電力形VLSIアーキ テクチャ,電気学会論文誌C, vol. 118-C, No. 7/8, 1098/1107 (1998)
- 12) Emmanouil Z. Psarakis, George V. Moustalides: Design of Two-Dimensional Zero-Phase FIR Filters via the Generalized McClellan Transform, IEEE Trans. CAS-38, 1355/1363 (1991)
- 13) 中條 裕木, 佐々木 友寿, 野崎 剛, 恒川 佳隆:「マ クレラン変換を用いた2次元FIRディジタルフィル タの高性能VLSIアーキテクチャ」,計測自動制御学 会東北支部 第221回研究集会
- 14) Kai Hwang: Computer Arithmetic Principle Architecture and design, Wiley, New York (1979)
- 15) NTTデータ通信: PARHTENON User's MAnual (1990)