# 複数電源電圧を用いた低消費電力VLSIプロセッサの ハイレベルシンセシス

## High-Level Synthesis for Low Power VLSI Processors Using Multiple Supply Voltages

#### 青山哲也,張山昌論,亀山充隆

Tetsuya Aoyama , Masanori Hariyama , Michitaka Kameyama

#### 東北大学情報科学研究科

Graduate School of Information Sciences Tohoku University

キーワード: ハイレベルシンセシス (High-Level Synthesis),複数電源電圧 (Multiple Supply Voltages),消費エ ネルギー最小化 (Energy Consumption Minimization),遺伝的アルゴリズム (Genetic Algorithm)

連絡先: 〒980-8579 仙台市青葉区荒巻字青葉05 東北大学大学院情報科学研究科亀山研究室 青山 哲也, Tel.: (022)217-7155, Fax.: (022)263-9167, E-mail: aoyama@kameyama.ecei.tohoku.ac.jp

#### 1. まえがき

近年,VLSIプロセッサの動作周波数・集積度の 向上に伴い,消費電力の増大が深刻な問題となっ ている<sup>1,2)</sup>.

消費電力の増大が引き起こす問題として,以下 の3つが考えられる.まず,熱の問題である.VLSI プロセッサのパッケージには,放熱の限界があるた め,発熱がトランジスタの集積度に限界を与える ということである.また,携帯機器などのような バッテリー駆動デバイスや無線通信システム等に おけるバッテリーライフの短縮という問題がある. さらに,VLSIプロセッサの信頼性の問題がある.

しかしながら,現在,消費電力に着目した上位 レベルの系統的なVLSIプロセッサの構成理論と, その自動設計法がほとんど報告されていない.そ こで,本稿では,VLSIプロセッサの低消費電力化 のための最適設計 (ハイレベルシンセシス<sup>3,4)</sup>)を 提案している.

最適設計とは,制約条件を処理時間及びチップ 面積とし,平均消費電力(以下では,消費エネル ギー)を目的関数としたときの最小化問題とする.

消費エネルギーを削減する最も効果的な方法は, 電源電圧の低減である.これは,消費エネルギー が電源電圧の2乗に比例するためである.しかし ながら,電源電圧の低減は,同時に遅延時間の増 大につながる.従って,遅延時間を増大させずに 消費エネルギーを削減することが重要となる.

このような問題を解決する方法として複数電源 電圧を用いる方法がある.これは,クリティカル パス上の演算には高い電源電圧を(要求される処 理時間制約を満たすため),非クリティカルパス上 の演算には低い電源電圧を(消費エネルギーを削減 するため)割り当てるという方法である.Fig.1 は, 演算  $O_2$ ,  $O_3$  に低い電源電圧  $V'_{dd}$  を割り当て,そ の他の演算には  $V_{dd}$  を割り当てた例である.例え ば, $V'_{dd} = V_{dd}/2$  のとき,消費エネルギーは 70 % に削減される.このように,遅延時間を増大させ ることなく,消費エネルギーを削減することが可 能となる.



Fig. 1 消費エネルギー削減の概念

本稿では,専用プロセッサの設計を前提として おり,アプリケーションのアルゴリズムがデータ フローグラフ (DFG) として与えられたとき,並列 構造VLSIプロセッサのアーキテクチャモデルを用 いて,処理時間及びチップ面積制約下で消費エネ ルギーを最小とするスケジューリング・アロケー ションを提案する.

消費エネルギー最小化のために,消費エネルギー 最小化問題を整数計画問題として定式化する.演 算ノードの開始ステップの決定(スケジューリン グ)と演算ノードを実行する演算器の決定(アロ ケーション)の可能な組み合わせに対し,総当り的 に消費エネルギーの評価を行えば,一応解は求め られる.しかし,探索空間が膨大となり,大規模 な問題に応用することは困難である.そこで,本 稿では,効率的な探索アルゴリズムである遺伝的 アルゴリズム<sup>4,5)</sup>を適用した.探索法について考 察した結果を述べる.

# 消費エネルギー最小化問題の 定式化

2.1 問題設定

VLSIプロセッサの動作仕様は, Fig.2 に示すよ うな DFG で与えられるとする. DFG は有効グラ フG(O|A)で, O はノードの集合, A はアークの 集合とする. 各ノード $O_i \in O$  は演算を示し, 各 アーク $A_i \in A$  はノードの依存関係を示す



Fig. 2 データフローグラフ (DFG)

Fig.3 にアーキテクチャモデルを示す.相互結合 網は多重バス方式に基づいており,必要十分な本 数のバスを用いることができる.これにより,任 意のモジュール間で任意の並列度のデータ転送を 行え,種々のパイプライン・空間的並列構造を実 現できる.

Functional Unit (以降では,演算器)は,Table 1 のような演算器ライブラリで与えられ,種々の演 算タイプ,電源電圧の演算器を用意する.ここで, DFG の各ノードにどの演算器を割り当てるかを 決定すること (アロケーション)が消費エネルギー 最小化問題の自由度となる.

また,Gated-Clock を採用することにより,演 算器の非動作時における入力信号をカットするこ とができる.このため,DFG 一連の処理により消 費されるエネルギー量を目的関数とすると,演算 器の動作時に消費されるエネルギーの総和の最小 化を求めることになる.

自由度は,アロケーションとスケジューリング である.スケジューリングとは,DFGの各ノード の開始ステップを決定することである.アロケー ションを決定することは,ノードの演算終了時間



Fig. 3 アーキテクチャモデル

Table 1 演算器ライブラリ

|    | Functional<br>Unit | Delay  | Area<br>(normalized) | Energy<br>(normalized) |
|----|--------------------|--------|----------------------|------------------------|
| F1 | ADD(5V)            | 1 step | 1                    | 2                      |
| F2 | ADD(3V)            | 2 step | 1                    | 1                      |
| F3 | MUL(5V)            | 2 step | 8                    | 6                      |
| F4 | MUL(3V)            | 4 step | 8                    | 3                      |

を決定することに対応するため,スケジューリン グに対して影響を与える.Fig.4 は,ノード O<sub>1</sub> の アロケーションを F1 から F2 へ変化させること により,O<sub>2</sub> のスケジューリングの可能範囲が変化 することを示している.同様に,スケジューリン グもアロケーションの自由度に影響を与えること から,スケジューリングとアロケーションは,両 者を統合して議論することが重要となる.



Fig. 4 アロケーションのスケジューリングに対 する影響

また,与えられる DFG の処理のステップ数を処 理時間制約以内となるように設計すること,並列 に用意する演算器の数をチップ面積制約に対応さ せて設計することを考える.このように,処理時 間及びチップ面積制約を考慮することにより,実 用的な問題設定となり得る.

消費エネルギー最小化問題を以下のように設定

する.VLSI プロセッサの動作仕様として DFG,演 算器ライブラリが与えられたとき,処理時間及び チップ面積制約下で消費エネルギーが最小となる スケジューリング・アロケーションを求める.

#### 2.2 整数計画問題へのマッピング

消費エネルギー最小化問題が,スケジューリン グとアロケーションを統合した問題に帰着可能で あるということに着目し,整数計画問題として定 式化する.

はじめに,目的関数の定式化を行う.最小化す るエネルギーを各演算ノードで消費されるエネル ギーの総和と考える.演算ノード *O<sub>i</sub>* の実行によ り消費されるエネルギーを *E<sub>i</sub>*,演算ノードの総数 を *N* とすると,以下のように表せる.

$$\sum_{0 \le i \le N} E_i \tag{1}$$

ここで, $E_i$ は Table 1 の演算器ライブラリから与 えられる.

次に,自由度の領域,自由度に対応する変数の 定義をする.設定された処理時間制約に対して, DFGの各演算ノードは,時間的自由度を持つ.例 えば,Table 1 の演算器ライブラリを用い,Fig.2 の DFG を 5ステップで実行すると仮定した場合, 各ノードの開始ステップとして可能なステップの 範囲は Fig.5 のように表される.



Fig. 5 各ノードの可能なスケジューリングの範囲

このような , ノード  $O_i$  の開始ステップとして 可能なステップの集合を  $mrange(O_i)$  とし , 以下 のように定義する.

 $mrange(O_i) = \{S_j | B_i \le j \le L_i\}$ 

ここで, $S_j$ はステップ番号jを表し, $B_i(L_i)$ はノード $O_i$ 開始ステップとして可能な最も早い(遅い)ステップ番号を表す.これらは,一般にASAPとALAPから求められる.例えば,Fig.5のノードO3では, $B_3 = 1, L_3 = 4$ であるので, $mrange(O_3) = {S_j | 1 \le j \le 4}$ と表せる.

同様に, DFG の各ノードを実行可能な演算器に も自由度が存在する.ノード *O<sub>i</sub>* を実行可能な演 算器は,ノードと同一演算タイプの演算器であり, その集合を *fu*(*O<sub>i</sub>*) とし,以下のように定義する.

 $fu(O_i) = \{F_j \mid (演算器F_jの演算タイプ)$ = (ノード $O_i$ の演算タイプ)}

ここで, $F_j$ は,演算番号jを表す.例えば,Fig.2の ノードO1は乗算なので, $fu(O1) = \{F_j | j = 3, 4\}$ と表せる.

各ノードの実行開始ステップを決定するため,  $mrange(O_i)$  で与えられた各ステップに対応する 変数  $x_{ij}$  を割り当てる.変数  $x_{ij}$ は,スケジューリ ングに対応し,以下のように定義する.

$$x_{ij} = \begin{cases} 1 : J - \mathsf{F}O_i$$
の実行開始ステップが  
ステップ $S_j$ のとき  
0 : その他

例えば, Fig.5 のノード O3 については, mrange(O3)=  $\{S_j | 1 \le j \le 4\}$  であるので,  $x_{31}, x_{32}, x_{33}, x_{34}$ が mrange(O3) の各ステップに割り当てられる.

同様に,各ノードを実行する演算器を決定する ため,fu(O<sub>i</sub>)で与えられた各演算器に対応する変 数 y<sub>ij</sub>を割り当てる.変数 y<sub>ij</sub>は,アロケーション に対応し,以下のように定義する.

$$y_{ij} = \begin{cases} 1 : J - FO_i$$
を実行する演算器が演  
算器 $F_j$ のとき  
0 : その他

例えば , Fig.2 のノード O1 については , fu(O1) = $\{F_j | j = 3, 4\}$  であるので ,  $y_{13}, y_{14}$  が fu(O1) の各 演算器に割り当てられる . 最後に,制約条件を定式化する.ただし,各変数,定数は以下のように与えられる.

- *A*: チップ面積制約
- *K*: 使用可能な演算器の個数
- $A_{F_i}$ : 演算器  $F_i$  の面積
- $D_{F_i}$ : 演算器  $F_i$  の遅延時間
- $N_{F_i}$ : 演算器  $F_i$  の個数

制約条件1: ノードの実行範囲に関する制約

ノード  $O_i$  の実行開始ステップは  $mrange(O_i)$  の 範囲内でなければならない.また,全ての演算の 実行開始ステップは可能なステップのうち1個であ るため, $mrange(O_i)$  に割り当てられた  $x_{ij}$  の合 計は 1 である.

$$\sum_{B_i \le j \le L_i} x_{ij} = 1 \tag{2}$$

制約条件2: ノードの演算器割り当てに関する制約 ノード *O<sub>i</sub>* を実行する演算器は *fu*(*O<sub>i</sub>*) の範囲内 でなければならない.また,全ての演算に対して 割り当て可能な演算器は1個であるため,*fu*(*O<sub>i</sub>*) に割り当てられた *y<sub>ij</sub>* の合計は1 である.

$$\sum_{F_j \in fu(O_i)} y_{ij} = 1 \tag{3}$$

制約条件3: ノード間の依存関係に関する制約 ノード *O<sub>i</sub>* の出力がノード *O<sub>j</sub>* の入力となってい る場合,ノード *O<sub>i</sub>* の演算が終わった後にノード *O<sub>i</sub>* の演算が実行されなければならない.

$$\sum_{B_i \leq k \leq L_i} (k \times x_{ik}) + \sum_{F_m \in fu(O_i)} (D_{F_m} \times y_{im})$$
$$\leq \sum_{B_j \leq l \leq L_j} (l \times x_{jl}) \qquad (4)$$

制約条件4: チップ面積に関する制約 演算器の占める面積の合計は,制約条件として 与えられるチップ面積 A を越えてはならない.

$$\sum_{1 \le i \le K} (A_{F_i} \times N_{F_i}) \le A \tag{5}$$

式(2)-(5)の制約条件下で式(1)を最小化する x<sub>ij</sub>, y<sub>ij</sub>を求めることにより,消費エネルギーを最小と

– 4 –

するスケジューリング, アロケーションが決定される.

整数計画問題は探索空間が膨大であり,大規模 な問題を応用することが困難である.そこで次節 において,効率的な探索アルゴリズムである遺伝 的アルゴリズムに,消費エネルギー最小化問題を マッピングする.

#### 3. 遺伝的アルゴリズムの適用

3.1 遺伝的アルゴリズムの処理フローと 遺伝子表現

遺伝的アルゴリズムの処理フローを Fig.6 に示 す.その概要は,初期個体群を生成し,以下の step1 から step3 の操作を,終了条件が満足するまで繰 り返す処理である.

step1: 各個体の適応度の評価

step2: 適応度に基づく個体群の選択

step3: 選択された個体群の交叉・突然変異によ る次世代の生成



Fig. 6 遺伝的アルゴリズムの処理フロー

遺伝子の表現について, Fig.7 を用いて説明す る.Fig.7 の DFG はスケジューリングとアロケー ションが決定している.例えば, Parent1 のノー ド *O*<sub>1</sub> のスケジューリングは S1 であり, アロケー ションは F4 である.これらの DFG を Table 2 の ように遺伝子の列で表現する.遺伝子には,ノー ド番号の順にスケジューリングとアロケーション の情報が組み込まれており,消費エネルギー最小 化問題に必要な情報を有している.



Fig. 7 スケジューリングとアロケーション例 (左: Parent1,右: Parent2)

|  | Table 2 | Fig.7 | ወ DFG | の遺伝子表現 |
|--|---------|-------|-------|--------|
|--|---------|-------|-------|--------|

|         | C  | 01 | 0  | )2 | 03         |    | 04 |    | 05 |    | 06         |    |
|---------|----|----|----|----|------------|----|----|----|----|----|------------|----|
| Parent1 | S1 | F4 | S2 | F3 | S4         | F3 | S3 | F2 | S5 | F1 | <b>S</b> 6 | F1 |
| Parent2 | S3 | F3 | S2 | F4 | <b>S</b> 1 | F4 | S4 | F1 | S4 | F1 | S5         | F1 |

## 3.2 致死遺伝子の発生を抑制するグラフ 構造に基づく交叉

一般的な交叉である一点交叉について説明する. 一点交叉とは,遺伝子の列を任意の交叉点で2つ に分割し,それらを交換するという方法である. Table 3 は,Table 2 の遺伝子を用いて,ノード *O*<sub>3</sub> と*O*<sub>4</sub> の間を交叉点とし,一点交叉した例である. この方法は,DFG のグラフ構造を考慮することな く,遺伝子レベルの操作により次世代を生成する ため,致死遺伝子を発生する確率が非常に高くな る(Fig.8).このような致死遺伝子の発生は,探索 を非効率的にするため,可能な限り発生させない ことが重要となる.

 Table 3 Table 2 の遺伝子の一点交叉により生成

 された遺伝子

|            | C  | 01 | 0  | 02 | C  | )3 | 0  | 4  | C  | )5 | 0          | 6  |
|------------|----|----|----|----|----|----|----|----|----|----|------------|----|
| Offspring1 | S3 | F3 | S2 | F4 | S1 | F4 | S3 | F2 | S5 | F1 | <b>S</b> 6 | F1 |
| Offspring2 | S1 | F4 | S2 | F3 | S4 | F3 | S4 | F1 | S4 | F1 | S5         | F1 |

致死遺伝子の発生を抑制するために,グラフ理 論のカットセットに着目した交叉について述べる.



Fig. 8 Table 3 の遺伝子表現の DFG 表現 (左: Offspring1,右: Offspring2)

Fig.9 は連結グラフである.点線で示した辺 wy, xz を除くと,連結グラフが非連結となる.このよ うに,連結グラフを非連結にする辺集合で,その 集合に属する辺の幾つか(全部ではない)を除い ても連結グラフは非連結にならないという性質を 持っているものをカットセットと呼ぶ.Fig.9 のグ ラフにおいて,wy,xz,xw を除くと非連結となる が,この辺集合は,先に述べた性質を満足してい ないため,カットセットではない.

ここで, DFG のグラフ構造に着目し, カットセッ トでグラフを二つのグラフに分割し, それらを交 換するという交叉を提案する. Fig.10 は, Fig.7 の 二つの DFG の交叉により生成された DFG であ リ, 交差点はノード *O*4 とノード *O*6 の間の辺 (カッ トセット)である.カットセットにより分割された 二つのグラフ内において, ノードの依存関係が保 持されるため,本提案の交叉を用いることにより, 致死遺伝子の発生が抑制される.



Fig. 9 連結グラフのカットセット



 Fig. 10
 グラフ構造に着目した交叉により生成し

 た遺伝子の DFG 表現

## 3.3 遺伝的アルゴリズムと局所探索法の ハイブリッド化

遺伝的アルゴリズムは,遺伝的操作(交叉,突然 変異)に基づいた探索法であるため,大局的な探 索には非常に効率的である半面,良い解付近での 系統的な探索が難しい.一方,局所探索法は,暫 定解の近傍を系統的に探索するのに優れている. この二つの探索法を組み合わせることにより,互 いの長所を合わせた効率の良いアルゴリズムを実 現する.

本アルゴリズムの概要を Fig.11 に示す.遺伝的 アルゴリズムの遺伝的操作により生成された個体 に対し,局所探索法を適用することで,大局的な 探索,系統的な局所探索を行うことができ,探索 が効率的となる.



Fig. 11 遺伝的アルゴリズムと局所探索法のハイ ブリッド化

次に,消費エネルギー最小化問題における局所 探索法について Fig.12 を用いて説明する.局所探 索は全てのノードに対して行うが, Fig.12 の左図 はノード O<sub>1</sub> を選択したときの例である.前提条 件として,全てのノードのスケジューリング・ア ロケーションが決定している.このとき,ノード O<sub>1</sub> 以外のノードに関しては全て固定し,ノード O<sub>1</sub> のみの自由度について総当り的に探索する(局 所探索).ここで,O<sub>1</sub> 以外のノードは固定してい るため,探索すべき組み合わせ数は数通りしかな く,総当り探索でも十分である.ノード O<sub>1</sub> に関 して,局所探索を行った結果が Fig.12 の右図であ り,ノード O<sub>1</sub> の電源電圧が削減されており,消 費エネルギーが削減している.つまり,局所探索 により,解が改善されている.



Fig. 12 **ノード** *O*<sub>1</sub> の局所探索 (左:初期条件, 右:改善例)

#### 3.4 提案手法による解の評価

まず, Fig.13 の左図の DFG, Table 1 の演算 器ライプラリを用いて解の評価を行った.結果を Table 4 の上段に示す.処理時間及びチップ面積制 約下において,単一電源電圧(5V)と複数電源電 圧(5V, 3V)により消費されるエネルギーを比較 し,その削減率を示した.Exercise の括弧内の数 字は,DFG のノード数を示す.処理時間制約を 8, 9,10step と,変化させて評価を行ったところ,い ずれの場合も複数電源電圧を用いたときの方が, 消費エネルギーは小さいという結果を得た.また, 処理時間制約に自由度が大きいほど,消費エネル ギーが削減されるという結果を得た.Fig.13 の右 図は,処理時間制約が 8step のときの解である.

次に,総当り探索では実用的な時間で解を求めることが困難な5次楕円フィルタに関して,評価を

行った.結果を Table 4 の下段に示す.同様に複 数電源電圧を用いることにより,消費エネルギー が削減されるという結果を得た.また,AMD の Athlon 1GHz で計算したところ,約30秒程度の計 算時間で解を求めることができた.



Fig. 13 評価用 DFG (左図) と,処理時間制約が 8step のときの解(右図)

Table 4 消費エネルギーの削減割合

| Exercise           | Time<br>Constraint | Area<br>Constrain | Energy<br>it using 5Vu | Energy<br>sing 5V, 3V | Reduction<br>Ratio[%] |
|--------------------|--------------------|-------------------|------------------------|-----------------------|-----------------------|
| Test<br>DFG<br>(7) | 8step              | 20                | 22                     | 17                    | 22.7                  |
|                    | 9step              | 20                | 22                     | 15                    | 31.8                  |
|                    | 10step             | 20                | 22                     | 14                    | 36.4                  |
| EWF<br>(34)        | 25step             | 30                | 100                    | 69                    | 31.0                  |
|                    | 27step             | 30                | 100                    | 62                    | 38.0                  |
|                    | 30step             | 30                | 100                    | 56                    | 44.0                  |

₩EWF: 5th order elliptic wave filter

#### 4. むすび

本稿では,消費電力に着目した VLSI プロセッ サの設計法について述べた.まず,処理時間及び 面積制約下での消費エネルギー最小化問題を設定 し,整数計画問題として定式化した.しかしなが ら,整数計画問題は探索空間が膨大であり,大規 模な問題に対して適用が困難である.そのため, 次に,近似的な解を効率的に探索するアルゴリズ ムである遺伝的アルゴリズムを適用した.その際 に,致死遺伝子を抑制する交叉,遺伝的アルゴリ ズムに局所探索法を組み合わせるアルゴリズムを 提案した.最後に,本提案手法を適用し,例題に よる評価を行ったところ,複数電源電圧を用いる ことにより消費エネルギーが削減されることを確 認した.

今後の展望としては,実用上の VLSI プロセッ サを設計する上での総合的な評価を行っていくこ とが必要である.

# 参考文献

- A.P.Chandrakasan , S.Sheng , and R.W.Brodersen , "Low-power digital CMOS design , " IEEE Journal of Solid State Circuits , pp.473-484 , April 1992 .
- S.Raje , M.Sarrafzadeh ,
   "Variable Voltage Scheduling ," In Proceedings of the 1995 International Workshop Low Power Design , 1995 .
- 3) 亀山充隆,佐々木正行,"空間的・時間的並列 構造融合型VLSIプロセッサの最適設計,"
   電子情報通信学会論文誌,Vol. J80-A No.3, pp.499-508,1997.
- 4) 工藤隆男,張山昌論,亀山充隆,"遺伝的ア ルゴリズムを用いたロジックインメモリ構造 VLSIプロセッサのハイレベルシンセシス," 計測自動制御学会東北支部,資料番号195-9, 2001.
- 5) 大森健児, "遺伝的アルゴリズムによる高レ ベル合成," 電子情報通信学会論文誌, Vol. J81-A No.5, pp.854-862, 1998.