#### 計測自動制御学会東北支部 第160 回研究集会 (1996.5.24) 資料番号 160-15

## 制御向き状態空間ディジタルフィルタ用高性能 VLSIプロセッサの設計と性能評価

## Design and Performance Evaluation of High-Performance VLSI Processor Suitable for Control Systems for State-Space Digital Filters

#### 〇千葉晃司\*, 恒川佳隆\*, 吉田等明\*, 三浦 守\*

OKohji Chiba\*, Yoshitaka Tsunekawa\*, Hitoaki Yoshida\*, Mamoru Miura\*

#### \*岩手大学

#### \*Iwate University

キーワード: 状態空間ディジタルフィルタ (state-space digital filters), 高精度 (high accuracy), 分散演算 (distributed arithmetic), 高性能VLSIアーキテクチャ (high-performance VLSI architecture), VLSI評価 (VLSI evaluation)

連絡先: 〒020 盛岡市上田4-3-5 岩手大学 工学部 情報工学科 恒川研究室 千葉晃司, Tel.: (0196)21-6468, Fax.: (0196)23-5491, E-mail: kohji@cis.iwate-u.ac.jp

#### 1. はじめに

最近,計測・制御や通信など様々な分野で,ディ ジタルフィルタが用いられるようになってきた.特 に制御の分野では,ディジタルフィルタや制御装 置の設計が状態方程式を用いて行われている.状 態方程式で表されるディジタルフィルタを状態空 間ディジタルフィルタ(以下,SSDF)と呼ぶ.こ こではSSDFを,これまでの伝達関数表現による 狭義のディジタルフィルタばかりでなく,カルマ ンフィルタ,オブザーバ,レギュレータなどを含む 広義のディジタルフィルタとして扱う.

ディジタルフィルタの設計においては、与えら れた仕様を満足するフィルタ係数を求めること(近 似)だけでなく、量子化誤差が小さなフィルタ構 造を決定すること(合成)が必要である、ディジ タルフィルタを状態方程式で記述すれば、システ ム理論的観点から近似と合成を統一的に行うこと が可能である。その結果、近似誤差と量子化誤差 が最小なSSDFの設計が可能となる<sup>1,2)</sup>.しかし、 この方法で設計されたSSDFは係数行列が密とな るため、出力当りの計算量が増加する。そのため、 現在の高性能シグナルプロセッサで高次のSSDF を実現しても、音声程度の周波数領域の処理にし か使用できないという問題点があった。

そこで、われわれはSSDFの高精度性に着目し て、分散演算を適用した高性能VLSIアーキテク チャを提案してきた<sup>6)</sup>. SSDFにおいては量子化誤 差に対して最適合成が可能となるため<sup>2)</sup>、実現の 際には必要語長を他の構造に対して最小化できる. すなわち、計算時間が語長のみに依存する分散演 算を用いた本実現法は、高次および多入力多出力 の場合でも非常に高い処理速度が実現可能となる.

本研究では、分散演算に基づくSSDF用プロ セッサをVLSI設計システムPARTHENON および COMPASSを用いて設計し、その性能評価を行う。 その結果、非常に高次な場合においても高速処理 が実現可能となることを明らかにする.さらに、 フィルタの次数あるいは入出力数が増加した場合、 他の実現法では処理速度が大きく低下してしまう のに対して、本実現法では高速性がほぼ一定に保 たれることをVLSI評価によって明らかにする.

# 2. 分散演算を適用した高性能 VLSIアーキテクチャ

#### 2.1 状態空間ディジタルフィルタ

線形システム理論によれば、有限次数の線形 時不変システムはつぎの状態および出力方程式に よって記述される<sup>2)</sup>.

 $x(k+1) = A x(k) + B u(k) \qquad (1)$ 

$$y(k) = C x(k) + D u(k) \qquad (2)$$

ここで、x(k)はn次の状態ベクトル、u(k)は r次の入力ベクトル、y(k)はm次の出力ベクトル である. また、A、B、C、Dはそれぞれ $n \times n$ 、  $n \times r$ 、 $m \times n$ 、 $m \times r$ の実係数行列である.(1)、 (2) 式によって記述されるディジタル信号処理シ ステムや制御システムを状態空間ディジタルフィ ルタ (State-Space Digital Filters) と呼び、これを SSDF[A, B, C, D]と記述する.SSDF[A, B, C, D]の伝達関数H(z)はつぎのように得られる.

$$H(z) = C(zI - A)^{-1}B + D$$
 (3)

ここで、状態ベクトル*w*(*k*)がシステムの遅延要素の出力を表し、行列*A、B、C、D*の各要素がシステムの係数に対応するとき、SSDF[*A*, *B*, *C*, *D*] は伝達関数*H*(*z*)を有する状態空間ディジタルフィ ルタの一つの構造(乗算、加算、遅延の組み合わ せ)を表している.



Fig. 1 Data dependence graph for SSDF.

伝達関数 H(z)を有する状態空間ディジタルフ ィルタの構造は無限に存在する.すなわち、 $n \times$ nの任意の正則行列 Tに対して、 $x' = T^{-1}x$ と 状態ベクトルの変換を行うとき、H(z)を有する 他の構造はSSDF[ $T^{-1}AT$ ,  $T^{-1}B$ , CT, D]によ って一般的に記述される.状態空間ディジタルフィ ルタでは、適当な等価変換行列 Tを選ぶことによっ て、係数量子化誤差と演算誤差が共に最小であり、 かつリミットサイクルが発生しない最適合成が可 能となる<sup>2</sup>).従って、状態空間ディジタルフィルタ を用いれば、非常に高精度なフィルタリングが可 能となる. その結果、仕様に対して必要語長を最 小化できる.

#### 2.2 高並列システムアーキテクチャ

本節では、先に提案した状態空間ディジタル フィルタ(以下SSDF)の高並列システムアーキテ クチャの概要について述べる<sup>5)</sup>. われわれは、(1)、



Fig. 2 1-dimensional SIMD array.



Fig. 3 Function of PE.

(2) 式の状態変数 æ(k+1) および y(k) の各要素が同 ーデータを用いた同時処理により実行されること に着目して、SSDF の並列化の手法として Fig. 1 に 示すようなグローバルバス通信を用いたデータ依 存グラフを考える. この並列化の手法は、PE数と 滞在時間の大きさを極力抑えて、高いスループッ トを持つ VLSI アーキテクチャを得ることを目的と している. このグローバルバスを用いたデータ依 存グラフに対して、Fig. 1 のように射影方向を取 り、Fig. 2 に示す1次元のシステムアーキテクチャ を提案する. このシステムアーキテクチャは、任 意の次数および多入力多出力に対して容易に拡張 可能なモジュール構造になっている. 以下にその 構成法を示す.

(1)この実現法は、n次の状態ベクトルの各要素に対してPE1、PE2、..., PEnを設け、m次の出力ベクトルの各要素に対してPEn+1、PEn+2、..., PEn+mを設けた1次元のプロセッサアレイ実現である.

(2) 並列度を(n+m) とすることによって、x(k+

およびy(k)のいずれの処理時間も、各PEで同時に実行される(n+r)項の内積演算を求める時間でよい。

(3) 更に、各PEにおける(n+r)項の内積演算に対しては、パイプライン処理を用いて処理の 高速化を図る. Fig. 3 にPEの機能を示す、PEに はフィルタ係数用のメモリを内蔵させる. 出力は ラッチ回路によって次のデータが出力されるまで 保持される.

(4) 各PEで内積演算を実行する場合, 各PE間 では同一データを必要とするだけなので, グロー バルバスを用いたデータ通信により実現できる. パスの利用形態はプロードキャスト(1対多の通 信) 形である. このバスを用いることによって全 PEでは同一命令を実行すればよく, 従って1次元 のSIMD形プロセッサアレイ構成とすることがで きる.

## 2.3 分散演算を適用したVLSIアーキテ クチャ

われわれは、先のアーキテクチャに分散演算 (Distributed Arithmetic)を適用して、大幅にハー ドウェア量を減少した上で、次数および入出力数 に依存することなく高速処理可能な高性能VLSI アーキテクチャを提案した<sup>6</sup>)。

分散演算は、定係数の内積演算をROMのテー ブルルックアップによって実現する計算手法である <sup>7,8)</sup>. いま、項数Nの係数ベクトル $a = (a_1, ..., a_N)$ と変数ベクトル $v = (v_1, ..., v_N)$ との内積

$$y = a v = \sum_{i=1}^{N} a_i v_i \tag{4}$$

を考える. ただし、 $-1 \leq v_i < 1$ で、 $v_i$ はBビットの固定小数点形の2の補数表示である. つまり、

$$v_i = -v_i^0 + \sum_{k=1}^{B-1} 2^{-k} v_i^k \tag{5}$$

と表される. ここで, v<sup>4</sup>はv<sub>4</sub>のkビット目の値で0 または1である.(5) 式を(4) 式に代入すれば, 内

- 3 -





積演算avは次式で示される.

$$y = -\Phi(v_1^0, \ldots, v_N^0) + \sum_{k=1}^{B-1} 2^{-k} \Phi(v_1^k, \ldots, v_N^k) \quad (6)$$

ただし, Φは

$$\Phi(v_1^k,\ldots,v_N^k) = \sum_{i=1}^N a_i v_i^k \tag{7}$$

である.

(6) 式を実現するには、(v<sup>k</sup><sub>1</sub>,...,v<sup>k</sup><sub>N</sub>)をアドレ スとするROM に、入力変数の各ビットと係数との 内積演算の結果Φをテーブルとして書き込んでお き、計算時にはテーブルを参照して得られた値を、 順次1ビット右シフトしながら加え合わせる操作を 行えばよい、分散演算の基本的な構成法をFig.4 に 示す.

前述したSSDF用システムアーキテクチャでは、 SIMD形のプロセッサアレイ構造になっているため、 状態変数x(k)の各要素は同時に求められる.従っ て、このアーキテクチャに分散演算を容易に適用 可能となる.今、状態変数x(k)と出力y(k)の各要 素が全て(n+r)項の内積演算になっていることに 着目して、(1)、(2)式のr入力m出力n次のSSDF に対して分散演算を次式のように適用する.

$$x(k+1) = \sum_{j=1}^{B-1} 2^{-j} \Phi_p^j - \Phi_p^0$$
$$y(k) = \sum_{j=1}^{B-1} 2^{-j} \Phi_q^j - \Phi_q^0$$
(8)

ただし,

$$\Phi_p^j = A x^j(k) + B u^j(k)$$
  
$$\Phi_q^j = C x^j(k) + D u^j(k)$$
(9)

- 4 -



Fig. 5 Configuration of SSDF system using distributed arithmetic.





r入力m出力n次の場合,乗算回数は(n+r)(n+ m)回であり,r,m,nが増加した場合,他の実現 法においては処理速度は大きく低下する.しかし, (8)式から明らかなように,分散演算を適用した 場合,多入力多出力あるいは高次の場合に対して も,原理的には処理時間は語長Bのみに依存した 実現が可能である.また,SSDFは,最適合成法を 用いることによって,設計仕様に対して必要語長 は最小でよい.従って,出力の誤差特性を含めて VLSI化を考えた場合,SSDFにおいては分散演算

Table 1Filter specifications.

| Order            | 16                 |
|------------------|--------------------|
| Number of input  | 1                  |
| Number of output | 1                  |
| Data format      | 14 bit fixed-point |

実現は非常に有効となる.

Fig. 5 にこの場合のシステム構成を示す. ま た, Fig. 6 にはPEの基本構成を示す. このシステ ム構成は, 次数および出力数の増加に対して, 単に PEを共通バスに対して拡張するだけでよく, 従っ てVLSI化に適したモジュール構造となっている.

## 3. フィルタの仕様と設計プロセス

分散演算を用いたSSDFの構成はフィルタ仕様 に依存する、そこで、本章ではまず性能評価を行 うVLSIプロセッサのフィルタ仕様を与える、次に、 プロセッサの設計プロセスについて述べる。

#### 3.1 フィルタ仕様

われわれが設計するVLSIプロセッサのフィル タ仕様をTable1に示す.プロセッサのフィルタ次 数は16であり、このような高次のSSDFを実現す る場合、他の実現法では乗算回数が非常に膨大と なるため高い処理速度は望めない、フィルタの入 力および出力数は1とし、数値のデータ形式は語 長14ビットの固定小数点の2の補数表示とする.

#### 3.2 VLSIプロセッサの設計プロセス

VLSIプロセッサの設計プロセスは, Fig.7に 示すように2ステップに分けらる. 第1ステップで はNTTが開発したVLSI設計システムPARTHE-NONを用いてプロセッサの高位設計を行う. PAR-THENONは、ハードウェア記述言語を用いた設計 から回路合成まで一貫して作業を行えるため、効 率的なプロセッサの設計を可能にする.



Fig. 7 Design process.

PARTHENON による作業は4つのフェーズに 分けられる。最初のフェーズでは、動作記述言語 SFLを用いてVLSIプロセッサの設計を行う. SFL 言語は、記述の基本単位をモジュールと呼び、複 数のサブモジュールを包含する階層表現が可能で ある. このフェーズでは、プロセッサの機能とI/O, そしてサブモジュール間のインタフェースを設計す る。第2のフェーズでは、シミュレータSECONDS を用いてモジュールの動作をソースレベルで検証 する. 第3のフェーズでは、シンセサイザSFLEXP を用いて動作記述からゲート接続回路へ展開する. ここで論理的な簡単化が行われ、テクノロジに依 存しないネットリストが合成される. 最後のフェー ズでは、オプティマイザOPT\_MAPを用いてテク ノロジ・マッピングと回路の最適化を行い、テク ノロジ依存の実部品からなるネットリストを合成 する.実部品の情報は、実際のテクノロジに依存 した物理特性や制約条件を記述したセル・ライブ ラリによって与えられる.

第2のステップでは、COMPASSを用いたレイ アウト設計を行う。COMPASSで処理するネット リストは、PARTHENONから出力されたネットリ ストに対する簡単なフォーマット変換によって得 られるため、設計プロセスの移行が容易である。 ここでパッドを配置したフロアプランの検討を行



Fig. 8 Block diagram of VLSI processor.

い,チップを生成する.

## 4. VLSIプロセッサの設計

#### 4.1 VLSIプロセッサの構成

分散演算に基づく VLSI プロセッサのブロック 図を Fig. 8 に示す. Table 1 のフィルタ仕様から, プロセッサは状態変数および出力の各要素を計算 するために 17 個のPEが必要となる.全てのPEの 動作は,1個のカウンタを用いたステート・マシン としてプロセッサを設計することで容易に制御で きる.つまり,プロセッサの動作は規則的であるた め、動作制御のために複雑な回路を必要としない.

各PEに対するデータ通信はプロードキャスト 方式となるため、共通のデータバスを用いた実現 が可能となる.また、PEの入力はビット・シリア ルで十分である.従って、PE間の相互接続に必要 な配線数は大きく抑えられる.

VLSIプロセッサの入力 (u<sub>1</sub>) は, PEヘビット・ シリアルで送信されるため,入力のために必要な 端子の数は最小限に抑えられる.また,出力 (y<sub>1</sub>) の流れは滞在時間を減少するためにビット・パラ レルとする.

#### 4.2 関数用メモリの実現



Fig. 9 Memory which devided the function  $\Phi$ .

PEの構成を考えた場合, Table 1 の仕様を満 たす関数用メモリをROMを用いてハードウェア 実現するためには2<sup>17</sup>ワードの膨大な容量が必要 となる.この問題に対しては、メモリ容量を大幅 に減少する方法として、関数Φの分割化法が有効 な手段となる.すなわち関数Φに対して、分割数 をQとして以下の処置を施す.

$$\Phi(v_{1}^{k},...,v_{n+r}^{k}) = \sum_{i=1}^{n+r} a_{i} \cdot v_{i}^{k}$$

$$= \sum_{i=1}^{\frac{n+r}{Q}} a_{i} \cdot v_{i}^{k} + \dots + \sum_{i=Q'}^{n+r} a_{i} \cdot v_{i}^{k}$$

$$= \Phi(v_{1}^{k},...,v_{\frac{n+r}{Q}}^{k}) + \dots$$

$$+ \Phi(v_{Q'}^{k},...,v_{n+r}^{k}) (10)$$

ここで,

$$Q' = \frac{(Q-1)(n+r)}{Q} + 1 \tag{11}$$

これによって、容量の大きな関数用メモリをいく つかの小容量のメモリの加算として実現でき、大 幅にメモリ容量を減少できる。われわれは、関数Φ の実現に必要となるROMの面積を検討した上で、 関数メモリの分割数を2とする。この場合の関数 メモリの構成を Fig. 9 に示す。これを Fig. 6 の ROM に単に置き換えて使用すればよい。

また関数用メモリの実現を考えた場合, ROM を用いるほかに論理ゲートによる実現が考えられ る.しかし,種々のフィルタ係数に対してROMで は記憶内容を変更するだけでよいが,論理ゲート 実現ではプロセッサの設計をやり直す必要がある. 従って,PEの関数用メモリはROMを用いて実現 する.

- 6 -

#### 4.3 PE の構成

PEの処理は、ビット・シリアルで入力される 各桁に対して連続的に行われるため、パイプライ ン処理を用いて高速化させることが有効である。 PEのプロック図を Fig. 10 に示す. なお、計算時 のオーバーフローを防ぐために、PE内部の語長は 整数部を2ビット設けた16 ビットとしている.

ここで、PEのスケジューリングについて述べ る. PEは、アドレス生成部、ROMのアクセス部、 加算部,2の補数生成部,演算部の5段のステージ で構成される、関数用メモリとして用いるROM は、クロックの立ち上がりでアドレスを内部でラッ チし、そのアドレスが示す番地のデータをアクセ スタイム分遅れて出力する. そのため, ROM はア ドレス生成部とアクセス部による2サイクルで実 行される、加算部では、2個のROMの出力値を足 し合わせてΦを計算する. なお、加算器はモジュー ル化した4ビット桁上げ先見加算器を4個用いて実 現する.2の補数生成部では、符号ビットをアドレ スとして読み出されたΦの値に対して2の補数を 計算し、それ以外では処理を行わない、そして演 算部では、その値とアキュムレータの値をシフト 加算する、ここで、算術シフトの際には有限語長 に起因する量子化誤差を考慮して丸め処理を施す。 丸めの計算は、加算器の桁上げ入力を利用して実 現できる.

このようにPEを設計することによって、パイ プラインのピッチはほぼ加算器の遅延時間まで抑 えられる.

4.4 回路合成とレイアウト設計

動作記述された各モジュールをSECONDSを 用いて動作確認した後、SFLEXPを用いて論理合 成する.次に、OPT\_MAPを用いてテクノロジ・ マッピングと回路の最適化を行う.なお、実部品 として用いたセル・ライブラリの設計ルールは、







Fig. 11 Chip layout of the VLSI processor.

0.8µmCMOS スタンダードセル(VLSI テクノロジ ー社)である.回路の最適化では、実部品の物理お よび制約条件と設計者が設定する設計条件をター ゲットとしてセルの置換が行われる.われわれは 高速なプロセッサを合成するために、動作マシン サイクルの値をターゲット違反が残らない程度ま で小さく設定する.その結果、マシン・サイクル 34ns で動作するプロセッサが合成された.

COMPASSでは、PARTHENONによって得ら れたネットリストを基にして、プロセッサのレイ アウト設計を行う.その結果、チップ化されたプ ロセッサの性能がVLSI評価できる.

## 5. 性能評価

#### 5.1 レイアウト評価

VLSIプロセッサのレイアウトを Fig. 11 に示 す. また、チップの性能を Table 2 に示す.

| Technology         | 0.8µm double-meta                 |  |  |
|--------------------|-----------------------------------|--|--|
|                    | CMOS standard cell                |  |  |
| System clock       | 30 [MHz]                          |  |  |
| Sampling frequency | 1.67 [MHz]                        |  |  |
| Latency            | 600 [ns]                          |  |  |
| Chip size          | 8.6×6.6 [mm <sup>2</sup> ]        |  |  |
| Number of gates    | 54,223.5 [gates]                  |  |  |
| Power dissipation  | 0.31 [W/MHz]                      |  |  |
| Supply voltage     | 5.0 [V]                           |  |  |
| Number of pins     | 115                               |  |  |
|                    | · _ · _ · _ · _ · _ · _ · _ · _ · |  |  |

Table 2 Key performance of the VLSI processor.

設計された VLSI プロセッサは、フィルタの次 数が16と高次にもかかわらず、サンプリング周波 数1.67 MHz という高速処理が可能である.これは、 単一の DSP を用いた逐次処理によって実現した場 合と比較して、100 倍以上 (*τ*=150nsの DSPの場 合)も高速である<sup>9)</sup>.また、滞在時間も600ns と非 常に減少されている.プロセッサは ROM を含めて 55,000 ゲート以下で実現され、そのチップ面積は 8.6 × 6.6mm<sup>2</sup> と1チップ実現が可能な大きさであ る.なお、ゲート数は2 入力 NAND 換算値である.

ここで消費電力の面からチップ性能を検討す る. Fig. 11 のレイアウトは動作周波数30MH2を 想定して設計しており、プロセッサの消費電力は 9.3W となる.本プロセッサをパッケージで実現す ることを考えた場合、この消費電力が問題となり うる.しかし、プロセッサの消費電力を3.0W とし て設計した場合でも、500KH2以上のサンプリン グ周波数を実現でき、他の実現法と比べて30倍以 上の高速化を達成している.

## 5.2 次数および入出力数の変化に対する 性能評価

われわれが提案したSSDFのVLSIアーキテク チャは、分散演算を適用したことによって、次数あ るいは入出力数の変化に対して処理速度が大きく 低下することはない. このような特性を明らかに するために,フィルタの次数および入出力数を変 えたVLSIプロセッサの性能評価をPARTHENON を用いて行う. PARTHENONによって得られる評 価結果は,セル・ライブラリに物理情報として仮 想配線容量が含まれているため,COMPASSを用 いてレイアウト設計したVLSIプロセッサの性能 とほぼ一致する. つまり, PARTHENONを用いた VLSI評価によって,プロセッサの性能を十分知る ことができる.

次数および入出力数の変化に対するVLSIプロ セッサの性能をTable 3 に示す.各フィルタ仕様に 対するROMの分割数は、実現に要するROMの容 量および最大遅延時間を考慮して決定する.特に、 ROMの遅延時間を加算器の遅延時間以下にする ことによって、プロセッサの動作マシン・サイク ルは一定に保たれる.その結果、プロセッサのサ ンプリング周波数は、ROMの出力を加算するス テージの増減のみに依存する.すなわち、フィル タの次数あるいは入力数が増加した場合、分散演 算を適用しない実現法では大きく処理速度が低下 してしまうのに対して、本実現法ではほぼ一定に 保たれる.

また,信号線数に着目すると,1入力1出力の 場合では18本だけでプロセッサを実現できる.8 入力8出力数の場合においても123本の信号線で 実現可能となる.従って,分散演算を用いた本実 現法では,大幅に信号線数を減少できる.

## 6. おわりに

本研究では、われわれが先に提案した分散演算 を適用した VLSI アーキテクチャに基づく状態空間 ディジタルフィルタ用 VLSI プロセッサを設計し、 その性能評価を行なった。その結果、フィルタの次 数16、入出力数1、語長14 ビットの SSDF を1 チッ プ実現した場合、非常に高次なフィルタにもかか

| Order                        | 8      | 16     | 24      | 16      |
|------------------------------|--------|--------|---------|---------|
| Number of inputs and outputs | 1      | 1      | 1       | 8       |
| Word length [bits]           | 14     | 14     | 14      | 14      |
| Division number of ROMs      | 1      | 2      | 3       | 3       |
| Machine cycle [ns]           | 34     | 34     | 34      | 34      |
| Execution cycle              | 17     | 18     | 19      | 19      |
| Sampling frequency [MHz]     | 1.73   | 1.63   | 1.55    | 1.55    |
| Power dissipation [W/MHz]    | 0.091  | 0.325  | 0.708   | 0.677   |
| Number of gates [gates]      | 19,170 | 57,095 | 118,897 | 110,163 |
| Number of signal pins        | 18     | 18     | 18      | 123     |
|                              |        |        |         |         |

Table 3 Parameters of the VLSI processor.

わらずサンプリング周波数1.67MHz(0.8µmCMOS スタンダードセル)の高速処理が実現可能となる ことが明らかとなった.また,滞在時間も600nsと 非常に減少させることができた.

さらに、次数および入出力数の変化に対する性 能評価を行った結果、分散演算に基づく VLSI プロ セッサでは処理速度の低下が極力抑えられ、ほぼ 一定になることが明らかとなった。

以上のことから、われわれが提案した分散演算 を適用した高並列VLSIアーキテクチャは、今後更 に高いフィルタ次数および入出力数で高速化が要 求される分野において、非常に有効な実現法であ ると言える.

本研究を進めるにあたり、PARTHENONをご 提供いただいたNTTデータ通信(株),および有 益なご助言をいただいた(株)ADCの横川隆氏, 山本和行氏,入江洋氏に心より感謝申し上げます.

## 参考文献

- S. Y. Hwang: Minimum uncorrelanted unit noise in state-space digital filtering, IEEE Trans. Acoustics, Speech and Signal Processing, ASSP-25-4, 273/281 (1977)
- 2) 樋口龍雄、川又政征: 状態空間ディジタルフィルタの有限語長実現問題, 計測と制御, 22-12, 991/1004 (1983)
- 3) H. H. Lu, E. A. Lee and D. G. Messerschmitt: Fast recursive filtering with multiple slow processing elements, IEEE Trans., Circuits and System, CAS-32-11, 1119/1129 (1985)

- 4) 亀山充隆, 樋口龍雄: ロボットとVLSIコンピュー タ, 日本ロボット学会誌, 6-4, 332/338 (1988)
- 5) 恒川佳隆,志田純一,川又政征,樋口龍雄:滞在時 間がきわめて小さい状態空間ディジタルフィルタ 用高並列VLSIアーキテクチャ,計測自動制御学会 論文集, 27-9, 1034/1040 (1991)
- 6) 恒川佳隆,三浦 守:分散演算を用いた制御向き 状態空間ディジタルフィルタの高性能VLSIアーキ テクチャ,電子情報通信学会論文誌A,J78-A-3, 357/364 (1995)
- P. Peled and B. Liu: A new hardware realization of digital filters, IEEE Trans. Acoustics, Speech and Signal Processing, ASSP-22-6, 456/462 (1974)
- C. S. Burrus: Digital filter structures described by distributed arithmetic, IEEE Trans. Circuits and System, CAS-24-12, 674/680 (1977)
- 9) 大町慎太郎,恒川佳隆,関 享士郎,志田純一:状 態空間ディジタルフィルタのマルチDSP実現の検 討,平成元年度電気関係学会東北支部連合大会