#### 計測自動制御学会東北支部 第242回研究集会 (2008.5.13) 資料番号 242-2

# 分散演算を用いたパイプラインLMS適応ディジタルフィル タの高性能アーキテクチャ

# High-performance Architecture of the Pipelined LMS Adaptive Filter using Distributed Arithmetic

橘内慎次郎⁺,○内田勝也⁺,佐藤 慎悟⁺,高橋 強⁺⁺,恒川 佳隆†

Shinjiro KITSUNAI<sup>†</sup>, OKatsuya UCHIDA<sup>†</sup>, Shingo SATO<sup>†</sup>, Kyo TAKAHASHI<sup>††</sup>, Yoshitaka TSUNEKAWA<sup>†</sup>

+岩手大学, ++岩手県工業技術センター

<sup>†</sup>Iwate University, <sup>††</sup>Iwate Industrial Research Institute

キーワード: 分散演算(distributed arithmetic), LMSアルゴリズム(LMS algorithm), 同時更新(simultaneous update), パイプライン・アーキテクチャ(pipelined architecture), 高サンプリング・レート(high-sampling rate)

連絡先: 〒020-8551 盛岡市上田4-3-5 岩手大学工学部 橘内慎次郎, Tel.:(019)621-6468, Fax.:(019)621-6468, E-mail: t3308006@iwate-u.ac.jp,

#### 1. はじめに

適応フィルタは, エコーキャンセラ, ノイズコン トローラ, 適応等化器, 振動制御などさまざまな 分野で用いられ, ますます応用範囲を広げている. 適応フィルタを実現する際には, 高速なサンプリ ングレート, 良好な収束特性, 短い出力滞在時間, 小規模ハードウエア, 低消費電力などさまざまな 性能が要求されるが, これらを同時に満たすこと は困難であり, 高性能なアルゴリズムや効果的な アーキテクチャが望まれている.

報告者らは、ベクトルの内積演算を効率良く実行 する分散演算(Distributed Arithmetic, DA)をLMS 適応フィルタ<sup>1)</sup>に適用して分散演算形LMS適応ア ルゴリズム(DA-LMS)と効果的なアーキテクチャ を提案した<sup>2)3)</sup>この手法では、フィルタリングに おける係数ベクトルと入力信号ベクトルの内積演 算に分散演算を適用することにより、比較的規模 の乗算器を用いず,加算器とレジスタで適応フィ ルタを構成することが可能である.これより,分 散演算形LMS適応フィルタ(LMS Adaptive Filter using Distributed Arithmetic, DA-ADF)は,小規 模ハードウエア,低消費電力であり,しかも良好 な収束特性を示す高性能な適応フィルタである.

しかし,部分積のシフト加算を語長回数だけ繰 り返すDA-ADFは,これまでの乗算器を用いたパ イプライン適応フィルタ<sup>4)5)6)</sup>と比較するとサン プリングレートが低く,適用範囲が限定される.

本報告では、DA-LMSの高速アルゴリズムと効 果的なVLSIアーキテクチャを提案する.提案する アルゴリズムは、適応フィルタの基本処理である 出力計算と更新動作を同時並列に実行することに より、処理時間の短縮を可能にする.収束速度を 計算機シミュレーションにより評価し、更新に1時 刻前の誤差信号を用いているにも関わらず、遅延 時間による収束速度の劣化は非常に小さいことを 示す. さらに,提案するアルゴリズムを効果的に 実現するVLSIアーキテクチャを示す.

### 2. 分散演算形LMS適応フィルタ

**2.1** 分散演算の適用

従来,分散演算は定係数ベクトルの内積演算を 効率よく実行する手法として知られていたが,係 数が時間変化する適応フィルタにおいても効果的 である.以下,フィルタのタップ数をN,入力信号 語長をBとして議論を進める.

図1にDA-ADFの基本構成を示す.分散演算は, 適応フィルタの出力計算におけるN次係数ベクト ルW(k)とN次入力信号ベクトルS(k)の内積演算

 $y(k) = \boldsymbol{W}^T(k) \boldsymbol{S}(k)$ 

 $W(k) = [w_0(k), \cdots, w_{N-1}(k)]^T$ 

 $S(k) = [s(k), s(k-1), \cdots, s(k-N+1)]$ (1)

に対して適用される.入力信号はLSBから入力さ れ、この1ビットとN-1bitのシフトレジスタ出力 がRAMのアドレス信号(アドレスベクトル)とな る.このアドレスベクトルに対してN次係数ベク トルの部分積が定義され, RAM(Random Access Memory)に格納される.部分積の数は、N次アド レスベクトルに対して2<sup>N</sup>個が存在し、これらの 部分積を要素とする集合を全適応関数空間(Whole Adaptive Function Space, WAFS)と呼ぶ. 出力計 算は、決定されたB個のアドレスベクトルに対す る部分積をRAMから順に選択して読み出し、シ フト加算を実行する.更新動作は、求めた誤差信 号e(k)を用いて出力計算に使用した部分積を順に 更新する.ある時刻kにおいて選択されるB個の 部分積の集合を適応関数空間(Adaptive Function Space, AFS)と呼ぶ.

DA-LMSアルゴリズムを以下に示す.入力信号



Fig. 1 Basic structure of DA-ADF

は2の補数形式を用いて次式のように表される.

 $s(k) = -2^0 \cdot b_0(k) + 2^{-1} \cdot b_1(k) + \dots + 2^{-B+1} \cdot b_{B-1}(k)$ 

ここで、 $b_i(k), i = 0, \cdots, B-1$ はx(k)のi番目のビット値を表す.式 (1)のN次入力信号ベクトルは

 $oldsymbol{S}(k) = oldsymbol{A}^T(k) oldsymbol{F}$ 

と表される. なお, Tはマトリクスの転置を表す. これをビットパターンに分解した $N \times B$ 次アドレ スマトリクスは

$$\boldsymbol{A}(k) = \begin{bmatrix} b_0(k) & \cdots & b_0(k-N+1) \\ b_1(k) & \cdots & b_1(k-N+1) \\ \vdots & \ddots & \vdots \\ b_{B-1}(k) & \cdots & b_{B-1}(k-N+1) \end{bmatrix}^T, \quad (2)$$

スケーリングベクトル **F**は

$$\boldsymbol{F} = \left[-2^{0}, 2^{-1}, \cdots, 2^{-(B-1)}\right]^{T}$$

である. 式 (2) の列ベクトルであるB個のアドレ スベクトルで指定される適応関数空間 **P**(k)

$$\mathbf{P}(k) = [p_0(k), p_1(k), \cdots, p_{B-1}(k)]^T$$
$$= \mathbf{A}^T(k) \mathbf{W}(k)$$

を用いて,フィルタ出力y(k)は以下のように表される.

$$y(k) = \boldsymbol{F}^T \boldsymbol{P}(k)$$

また, AFSの更新式は

$$\boldsymbol{P}(k+1) = \boldsymbol{P}(k) + 0.5\mu N \boldsymbol{e}(k) \boldsymbol{F}$$

- 2 -

である.ここで,誤差信号は

e(k) = d(k) - y(k) +

であり、d(k)は所望信号を表す.

2.2 マルチメモリブロック構成

DA-ADFは、高次においてWAFSを実現する RAMの容量が膨大となりハードウエア規模と消 費電力の点で不利である.また,膨大な部分積数 を有するWAFSを更新することは、収束状態に達 するまでに多くの繰り返しを必要とし収束速度が 緩慢になる.この問題を解決するために、WAFS をN方向にM分割するマルチメモリブロック構造 (Multi-memory block structure)を適用する. DA-ADFにマルチメモリブロック構造を適用した分 散演算形LMS適応フィルタをMDA-ADFと呼ぶ. 図 2 にMDA-ADFの基本構成, 図 3 にタイミン グチャートを示す.分割数M、アドレスベクトル の次数R (= N/M)のMDA-ADFは,要素数 $2^{R}$ 個の WAFSをM個有し、WAFSの総容量は $M \times 2^{R}$ word である.また、分割数Mが大きくRが小さいほど WAFSの要素数が減少するため、収束速度が向上 する.

アルゴリズムを以下に示す. M分割されたm番目のアドレスマトリクス  $A_m(k)$ は

$$A_{m}(k) = \begin{bmatrix} b_{m0}(k) & \cdots & b_{m0}(k-R+1) \\ b_{m1}(k) & \cdots & b_{m1}(k-R+1) \\ \vdots & \ddots & \vdots \\ b_{m(B-1)}(k) & \cdots & b_{m(B-1)}(k-R+1) \end{bmatrix}^{T}$$

と表される.この $A_m(k)$ に対するAFSである $P_m(k)$ は次式で表される.

$$P_m(k) = [p_{m0}(k), p_{m1}, \cdots, p_{m(B-1)}(k)]^T$$
  
 $m = 0, 1, \cdots, M - 1$ 

フィルタ出力は分割されたAFSを用いた個別の出



Fig. 2 Basic structure of MDA-ADF





力の総和により得られ、次式で求められる.

$$y(k) = \sum_{m=0}^{M-1} \boldsymbol{F}^T \boldsymbol{P}_m(k)$$
(3)

また,分割されたm番目のAFSに対する更新式は 次のように表される.

$$\boldsymbol{P}_{m}(k+1) = \boldsymbol{P}_{m}(k) + 0.5\mu Re(k) \boldsymbol{F}$$
$$\boldsymbol{P}_{m}(k) = \left[p_{m0}(k), p_{m1}, \cdots, p_{m(B-1)}(k)\right]^{T}$$
$$\boldsymbol{m} = 0, 1, \cdots, M-1$$

### 3. 同時更新アルゴリズム

MDA-ADFの高速アルゴリズムを検討する. MDA-ADFは出力計算, 誤差計算, 更新動作の各

- 3 - 1



Fig. 4 Read and Update procedure

動作をシーケンシャルに実行するが、1時刻前の誤 差信号を用いて出力計算と更新動作を並列に実行 (パイプライン化) することを考える.過去の誤 差信号を用いて係数を更新する手法は、ディレー ドアップデートと呼ばれ、収束速度の劣化を許容 して適応フィルタをパイプライン化する手法とし て知られている7)8)9). この手法では、過去の 誤差を用いて係数を更新した後に出力計算を実行 する.しかし、提案法におけるディレードアップ デートでは、分散演算の特徴である出力計算にお けるB回のAFSの読み出しと更新動作におけるB 回の更新動作を同時に実行する.この際,出力計 算は重みの小さいアドレスベクトル, 更新動作は 重みの大きいアドレスベクトルから更新動作を実 行する.この提案するアルゴリズムを同時更新ア ルゴリズムと呼び, WAFSの読み出し・更新の様子 を図4に示す.なお、このアルゴリズムを用いた 適応フィルタを同時更新形MDA-ADF(MDA-ADF using Simultaneous update, SMDA-ADF)と呼ぶこ とにする.提案する同時更新アルゴリズムを以下 に示す.フィルタ出力y(k)と分割された適応関数 空間の出力ym(k)は次式で表される.

$$y(k) = \sum_{m=0}^{M-1} y_m(k),$$
  
$$y_m(k) = \sum_{i=0}^{B-1} F_{B-1-i} P_{m,B-1-i}(k).$$



Fig. 5 Simulation model

ここで、 $F_i$ は以下に示すi番目の要素以外は0のス ケーリングベクトルである.

$$F_{0} = [-2^{0}, 0, 0, \cdots, 0, 0]^{T},$$
  

$$F_{1} = [0, 2^{-1}, 0, \cdots, 0, 0]^{T},$$
  

$$\vdots$$
  

$$F_{B-1} = [0, 0, \cdots, 0, 2^{-B+1}]^{T}.$$

ここで、 $P_{m,i}(k)$ はM分割されたm番目のAFSであり、添え字のiは時刻kにおけるi(= 0,1,…,B-1)番目に更新されたことを表す、ここで、

$$\boldsymbol{P}_m(k) \equiv \boldsymbol{P}_{m,B-1}(k-1)$$

である.更新式は次式で表される.

$$\boldsymbol{P}_{m,i}(k+1) = \boldsymbol{P}_{m,i}(k) + 0.5\mu Re(k-1)\boldsymbol{F}_i,$$
  
$$i = 0, 1, \cdots, B-1.$$
(4)

なお, 誤差信号e(k)は

$$e(k) = d(k) - y(k) \tag{5}$$

である.

## 4. 収束特性

システム同定問題に対する従来のMDA-ADFと SMDA-ADFの収束特性を比較する.シミュレーシ ョンモデルを図5に示す.ここで、未知システム は32タップ低域通過FIRフィルタ、入力信号は平均 0.0、分散1.0の白色ガウス雑音、観測信号は平均

- 4 -



Fig. 6 Comparison of the convergence characteristics between MDA and SMDA algorithm (a) MDA-ADF (b) SMDA-ADF



Fig. 8 Timing chart of the proposed Architecture

0.0, 分散10<sup>-6</sup>の入力信号とは無相関の白色ガウ ス雑音を加えた.また,ステップサイズパラメー タはMSEが-58.5[dB]を示す値を選択し,WAFS の分割数はM=32,16,8(R=1,2,4)とした.収束特性 を図6に示す.MDA,SMDAともに,小さいR に対して高速な収束速度を示していることがわか る.提案するSMDA-ADFは従来のMDA-ADFと同 等の良好な収束特性を示すことがわかる.

#### アーキテクチャ

提案するVLSIアーキテクチャを 図7, タイミ ングチャートを 図8に示す.入力信号レジスタは

(N-1)×B個のレジスタを内部に有し, 適応関数 空間の要素を指定するアドレスマトリクスをM個 に分割された適応関数空間モジュールに供給する. M個の適応関数空間モジュール (AFSM) は、 $2^{R}$ 個のラッチ, セレクタ, コントローラ, 加算器から 構成され、フィルタ出力計算に用いる関数空間の 要素の読み出しと, 更新のための読み出し書き込 みを行う. コントローラは、アドレスマトリクス から1つのアドレスベクトルを選択し、選択信号を セレクタに供給する.なお、出力計算は最小重み を持つアドレスベクトルから順次実行する. 適応 関数空間は、従来法ではRAMを使用していたが、 提案法では 図 8 の様に読み出しと書き込みを同 時に実行することが可能な構成を用いている. M 個の適応関数空間からの出力はバイナリツリーア ダ-(BTA)により加算され、シフト加算器を用い て出力を計算する.また,誤差の計算は出力計算 と並列に実行される.この際、シフトレジスタに は初期値として所望信号d(k)と符号反転の際に加 える値'1'をLSBに与えている.これにより、提案 法ではフィルタ出力と誤差信号を同時に求めるこ とが可能になる.以上で,フィルタ出力と誤差信 号を求めるパイプラインステージは動作を完了す



Fig. 7 Proposed VLSI architecture (a) Block diagram (b) Adaptive function space module (AFSM) (c) Example of the input register for N=4, R=2, B=4 (d) Structure of the Adaptive function space (e) Example of the binary-tree adder (BTA) for 4-input (f) Structure of the shift-adder

る.次いで,適応関数空間は出力計算のための読 み出しと並列にシフトされた誤差信号を用いて更 新される.更新動作は,最大重みを持つアドレス ベクトルから順次実行される.

#### 6. まとめ

本報告では、従来の分散演算形LMS適応フィル タの高速アルゴリズムと効果的アーキテクチャを 提案した.収束特性は従来のMDA-ADFと同等の 良好な収束速度を示すことを計算機シミュレーショ ンにより検証した.

今後の課題は、収束速度の詳細な評価を進める とともに、収束条件の理論的解析を行うこと、提 案したVLSIアーキテクチャのVLSI評価を行うこ とである.

## 参考文献

- B. Widrow and M. E. Hoff, "Adaptive Switching Circuit," IRE EWSCON Conv. Rec., pp96-104, 1960.
- 恒川,高橋,豊田,三浦, "分散演算によるマルチプ ライヤレスLMS適応フィルタの高性能アーキテク チャ、"信学論(A), vol.J-82-A, no.10, pp.1518-1528, Oct. 1999.
- 高橋,恒川,豊田,三浦,"ハーフメモリアルゴリズムに基づく分散演算形LMS適応フィルタの高性能アーキテクチャ",信学論(A), Vol. J-84-A No.6 pp.777-787, June 2001.
- 4) K.J. Raghunath and K.K. Parhi, "A 100 MHz pipe-lined RLS adaptive filter," Proc. IEEE ICASSP'95, Detroit, Michigan, pp.3187-3190, May 1995.
- 5) 松原,西川,貴家, "Delayed LMS アルゴリズム に基づくパイプライン適応フィルタ," 信学論(A), vol.J79-A, no.5, pp.1050-1057, May 1996.

- 6) A. Harada,K. Nishikawa and H. Kiya, "Pipelined Architecture of the LMS Adaptive Digital Filter with the Minimun Output Latency," IEICE Trans. Fundamentals, pp.1578-1585, Vol.E81-A No.8 1998
- R. Haimi-Cohen, H. Herzberg, and Y.Be'ery, "Delayed adaptive LMS filtering: Current results," Proc. IEEE ICASSP '90, pp.1273-1276, April 1990.
- 8) G. Long, F. Ling, and J.G. Proakis, "The LMS algorithm with delayed coefficient adaptation," IEEE Trans. Acoust. Speech Signal Process., vol.37, no.9, pp.1397-1405, Sept. 1989.
- 9) G. Long, F. Ling, and J.G. Proakis "Corrections to "The LMS algorithm with delayed coefficient adaptation"," IEEE Trans. Acoust. Speech Signal Process., vol.40, no.1, pp.230-232, Jan. 1992.