# 知能集積システム用低消費電力 リコンフィギャラブルVLSIプロセッサ

## Low-Power Reconfigurable VLSI Processor for Intelligent Integrated Systems

### 張山 昌論, 森 俊介, 亀山 充隆

Masanori Hariyama, Shunsuke Mori, Michitaka Kameyama

### 東北大学情報科学研究科

Graduate School of Information Sciences Tohoku University

キーワード : ハイレベルシンセシス (high-level synthesis), スケジューリング (scheduling), アロケーション (allocation)

連絡先: 〒980-8579 仙台市青葉区荒巻字青葉05 東北大学大学院情報科学研究科亀山研究室 森 俊介, Tel.: (022)217-7155, Fax.: (022)263-9167, E-mail: mori@kameyama.ecei.tohoku.ac.jp

## 1. まえがき

マルティメディア移動体通信,通信,ロボティク ス,制御などの高速応答性が要求される応用分野 においては,汎用マイクロプロセッサだけでは速度 要求を満たすことが難しいため,専用プロセッサの 開発が望まれる.従来,専用プロセッサとしては, プロセッサ毎に専用のマスクを作成するASICが主 流であった.しかしながら,ASICの開発は,開発期 間が長く,コストも高い.近年,このような問題を 解決するデバイスとして,フィールドプログラマブ ルゲートアレイ(FPGA)が注目を集めている.Fig. 1に現在の典型的なFPGAの構成を示す.FPGAは, プログラム可能な演算器(LUT)と,LUT間を接続 するプログラム可能な配線(SB)から構成さる.各 LUTは任意のn入力1出力関数(通常n = 4程度)を 実現できる. LUTやSBをプログラムすることによ り, 並列処理が行えるため, 従来の汎用プロセッサ に比べ, 高性能化を達成できる. さらに, 開発期間 もASICの場合に比べ大幅に短縮できる. また, 1種 類のFPGAデバイスを種々の専用プロセッサとし て使用できるため, ASICに比ベコストも減少でき る. FPGAの問題としては, 以下のような原因によ り, ASICに比べ処理速度が大幅に低下するという ことが挙げられる.

- LUTはメモリを用いて実現されているため、
   専用に演算器を組んだ場合に比べ、演算器の
   速度が低下する.
- LUT間の配線がSBを多段に通過する場合に
   は, 配線遅延により速度が低下する.

特に、配線遅延に起因する性能劣化がFPGAにおいては深刻な問題となる。

以上のような従来のFPGAの問題を解決するた めに、本稿では、高性能リアルワールド応用リコン フィギャラブル VLSIプロセッサを提案する. リア ルワールド応用知能システムの典型例である、高 安全自動車システムなどの要素処理を検討した結 果,異なるデータセットに対して同一の処理を行う 負荷分散形並列処理がVLSI化の観点から有用であ ることを見出している。そこで、負荷分散形デー タフローに適合したアーキテクチャとして、隣接 間配線に基づく2次元PEアレイアーキテクチャを 提案する。この構成では、演算器間の通信の局所 化・並列化が性能向上のポイントとなるため、最 適スケジューリング・アロケーションおよび、冗長 性に基づく通信の局所化・並列化のためのハイレ ベルシンセシスも併せて提案する 隣接間配線に 基づく2次元PEアレイアーキテクチャと通信局所 化を指向したハイレベルシンセシスの相乗効果に より、従来のFPGAと比較して大幅な高性能化が 可能となる。また、提案のリコンフィギャラブル VLSIプロセッサでは、演算器を高速化するために、 論理回路で構成したALUを内蔵した演算器(PE)を 用いる.さらに、低消費電力のために、複数電源電 圧方式に基づくPE構成の検討を行う。

# リコンフィギャラブルVLSIプ ロセッサの構成

#### 2.1 負荷分散形データフローグラフ

Fig. 2に、リアルワールド応用知能システムの 典型例である高安全自動車の概念図を示す.まず、 自動車に搭載されたカメラから画像を取得し、ス テレオビジョンにより障害物の3次元座標情報を 計測する。次に、取得された障害物情報を用いて、 安全な走行軌道が存在するかどうかのチェックを行 う。この処理は、自動車と障害物の間の衝突チェッ





Fig. 2 高安全自動車概念図.

クを繰り返すことにより行われる。もし、ある時 間以内に安全に走行できる軌道が見つからない場 合には、危険状態であると判断し運転者に警報を 与える。ステレオビジョン、衝突チェックにおいて は、膨大な3次元画像情報をリアルタイムで処理 することが望まれるため、専用プロセッサの開発 が必要となる。このような観点から、著者らはス テレオビジョンVLSIプロセッサ<sup>1)</sup>、衝突チェック VLSIプロセッサ<sup>2)</sup>等の高安全自動車の一連の処理 のVLSI化を行っている.

Fig. 3に、ステレオビジョンとそのデータフロー グラフ(DFG)を示す。ステレオビジョンでは、参 照画像と候補画像間の対応を求めた後に三角測量 の原理に基づき3次元情報を計測する。対応点探 索においては、参照ウィンドウと複数の候補ウィン ドウに対してSAD(Sum of Absolute Differences)を 計算し、SADが最小となるウィンドウの中心点を 対応点とする。そのDFGは、複数のデータセット



Fig. 3 ステレオビジョン.



Fig. 4 ステレオビジョンのDFG.

(候補ウィンドウ)に対して、並列にSAD演算が行 えるような負荷分散形DFGとなる。また、Fig. 5 に、衝突チェックのDFGを示す。衝突チェックにお いても、ステレオビジョンと同様に、自動車の座 標情報と障害物離散点情報の照合を並列に行う負 荷分散形DFGとなる。このように、リアルワール ド応用においては、膨大な数のデータセットに対 して、同一の演算を行う負荷分散形DFGがVLSI化 の観点からは重要となる。

#### 2.2 全体の構成

Fig. 7に提案するリコンフィギャラブルVLSIプ ロセッサのブロック図を示す.1種類の演算器(PE)



Fig. 5 衝突チェック.



Fig. 6 衝突チェックのDFG.

が複数個内蔵され、各PE間では隣接したPE間でだ け配線を有する.そのため、これらの配線は専用化 され高速な通信が可能となっている.隣接したPE 間では1ステップで通信が行える.また、PEに接続 されたレジスタ間でデータをシフトすることによ り通信を行うため、隣接しないPE間での通信には、 通常PE間の距離に比例したステップ数がかかる.

負荷分散形DFGは、データセット間にデータの 依存関係がない。したがって、1個のデータセット に対する演算を隣接したPEに割り当てれば、通信 の局所化となる。このような理由から、負荷分散 形DFGは、提案するアーキテクチャに適すると考 えられる。また、通信の局所化を徹底するために、 3章で述べるように通信時間をできるだけ短くす るような、ハイレベルシンセシス(スケジューリン グ・アロケーション)が重要となる。

各PEには、ALUとメモリ(データメモリ、プログ ラムメモリ)、8近傍PEとの通信を行うための相 互結合網が内蔵される。各PEごとに、プログラム メモリは、ALUでの演算の他に、相互結合網の接



Fig. 7 リコンフィギャラブルVLSIプロセッサの ブロック図.

続を制御する。そのため、PEの機能、及びPE間 接続を動的に切替えることが可能となり、PEの稼 働率を向上できる。

#### 2.3 加算器ベースALUの構成

ALUでは、種々の演算に対応するために、以下の 基本演算を行えるように設計する.

- 算術演算(加算,減算,除算,乗算)
- 論理演算(論理否定, 論理和, 論理積)
- 比較演算(大小比較,一致検出)

これらの機能を実現するための、ALUの構成を Fig. 8に示す.ALUは、大きく分けて、算術演算を 行うための部分と、論理演算を行う部分から構成 される.算術演算は、頻繁に用いられる演算である ため、高速に実行できことが望まれる.乗算・除算 はハードウェア量が大きく、必ずしも頻繁に用い られるとは限らない。そこで、算術演算は全て全



Fig. 8 加算器ベースALUの構成.

加算の繰り返しにより行われることに着目した加 算器ベースALUを構成している。ただし、乗算を 効率よく行うための部分積生成回路を加算器に付 加している。

Fig. 9にPEのレイアウトを示す。その結果, デー タパスに比べ制御部・メモリ部の占める面積が比較 的大きくなることがわかった。これは、Local Memory, 及び, プログラムメモリをSRAMを用いて構 成したためである。

#### 2.4 低消費電力化に関する考察

CMOS回路において,消費電力P,負荷容量C,電 源電圧V,周波数Fとの関係は次式で与えられる。

$$P \propto C V^2 F \tag{1}$$

この式から、低消費電力化のために、最も効果的 なのは電源電圧を低下することだと言える。そこ で、Fig. 10に示すような複数電源電圧方式を導入 検討する。この方式では、Fig. 11に示すように, クリティカルパス上にない演算を電源電圧が低い PEで行うことにより、消費電力を減少することが 可能となる。





| 設計ルール CMOS 0.5µ<br>二層メタル |                      |
|--------------------------|----------------------|
| 面積                       | 3.63m m <sup>2</sup> |
| 動作電圧                     | 3.3v                 |
| 処理速度                     | 5.45ns               |
| トランジスタ数                  | 1 <b>7.1</b> k       |

Fig. 9 PEレイアウト.

- 通信の局所化・並列化のための
   ハイレベルシンセシス
- 3.1 最適スケジューリング・アロケーション

シフトレジスタ構造に基づきデータ通信を行う アーキテクチャにおいては、スケジューリングおよ び、アロケーションが高性能化の重要なポイントと なる. Fig. 12にスケジューリングおよびアロケー ションの例を示す. 簡単のために、1次元のシフト レジスタ構造を考える. Fig. 12(a)に示すようにス ケジューリングおよびアロケーションを行った場 合場合には、演算O<sub>1</sub>の結果をO<sub>2</sub>で使用するために、 PE<sub>1</sub>からPE<sub>3</sub>へのデータ転送が必要となる. また、 演算O<sub>3</sub>の結果をO<sub>4</sub>で使用するために、PE<sub>2</sub>から



Fig. 10 複数電源方式のためのPEの構成.

PE4へのデータ転送が必要となる. この場合, PE2 とPE3の間の配線において,通信の競合を生じない ようにするために, Step 2において, PE2からPE4 へのデータ転送を一時中断している. 一方, Fig. 12(b)に示すスケジューリング・アロケーションで は, PEでの通信が局所化されているため, 演算O1 の結果をO2で使用するための通信PE1 PE3, 演 算O3の結果をO4で使用するための通信PE2 PE4 が並列に行える. このように,スケジューリングお よびアロケーションにより, 処理時間が異なるた め, 最適なスケジューリング・アロケーションを求 めることが重要となる.

本アーキテクチャでは、アロケーションにより通 信時間が異なるために、スケジューリングにおい てもアロケーションの情報を考慮する必要がある. そのための手法として、スケジューリング・アロ ケーションの統合に基づく手法<sup>3)\_4)</sup>を用いる. こ の方法では、各演算ノードに対するスケジューリ ング・アロケーションをFig. 13に示すように木探 索で表現している. さらに、総当たり探索では探索 空間が膨大となるために、クリティカルパスに着 目した処理時間の下限に基づく分枝限定法により 探索空間を効率よく限定している.

本稿では、FPGAアーキテクチャの性質に着目し、 探索空間をさらに限定する.従来の問題設定<sup>3)</sup>で は、各PEは異なる機能を有する場合を考慮した一



 Fig. 11
 低消費電力化のための演算器アロケー

 ション.

般的な場合を取り扱っていた.一方,本稿では,各 PEは全て同じ構成であるために,明らかに性能が 同じアロケーションが存在する.そこで,そのよう なアロケーションの探索を省略することにより,探 索空間を限定できる.

### 4. むすび

本稿では、リアルワールド応用のための再構成 可能VLSIプロセッサを提案した.リアルワールド 応用において重要となる負荷分散形DFGに着目し 隣接間通信アーキテクチャを提案した。このアー キテクチャをステレオビジョンの例でASICによる 実現と比較したところ、同等の性能で5倍程度の 面積となることが分かった。

また,任意のDFGが与えられた場合に,本アーキ テクチャにマッピングを行うスケジューリング・ア ロケーション手法の検討が重要である.現状では, 実用的な時間でマッピングできるのは,ごく小規 模の問題だけである.そこで,より大規模かつ実用



Fig. 12 最適アロケーション・スケジューリング の必要性.



Fig. 13 木探索によるスケジューリングとアロ ケーションの統合.

的な問題を,本アーキテクチャにマッピングするための手法の検討が重要となる.

# 参考文献

- 張山 昌論, 李 昇桓, 亀山 充隆,"転送ボトルネックの ないセンサ・メモリアーキテクチャに基づくモー ションステレオVLSIプロセッサの構成",電気学会 論文誌,120-E,5,pp.237-243(2000).
- 2) Masanori Hariyama, Kazuhiro Sasaki, Michitaka Kameyama,"Collision Detection VLSI Processor for Intelligent Vehicles Using a Hierarchically-Content-Addressable Memory," IEICE Trans. Electron,E82-C,9,pp.1722-1729(1999).
- 3) 工藤隆男, 亀山充隆,"シフトレジスタ構造に基づく ロジックインメモリVLSIプロセッサとその応用," 計測自動制御学会東北支部研究集会, 187-15(2000).
- 1) 工藤隆男, 亀山充隆, "転送ボトルネックフリーVLSI システムのハイレベルシンセシス," 計測自動制御 学会東北支部研究集会, 188-6(2000).