# 計測自動制御学会東北支部第 236 回研究集会(2007.6.15) 資料番号 236-6

# 細粒度並列 VSLI プロセッサ用

# ネットワークオンチップアーキテクチャの構成

# Design of a Network-on-Chip Architecture for Fine-Grained Parallel VLSI Processor

藤岡与周、苫米地宣裕 Yoshichika Fujioka and Nobuhiro Tomabechi

## 八戸工業大学

## Hachinohe Institute of Technology

キーワード:ネットワークオンチップ(Network-on-Chip),並列 VLSI プロセッサ(Parallel VLSI Processor),セミオートノマスパケットルーティング(Semi-Autonomous Packet Routing),制御メモリ容量の減少(Reduction of Control Complexity)

連絡先:〒031-8501 青森県八戸市大字妙字大開 88-1 八戸工業大学工学部システム情報工学科 藤岡与周 TEL: 0178-25-8063 FAX: 0178-25-1691 E-mail: fujioka@hi-tech.ac.jp

1. まえがき

これまでに,粗粒度パケット転送に基づくネ ットワークオンチップが提案されている. [1]-[3].本稿では,マイクロネットワークでの チップ内データ転送をフレキシブルかつプロ グラマブルとするため,細粒度パケット転送方 式を提案している[4]-[5].

ルータ構造をできるだけ簡単にするため,自 律的パケットデータ転送とオフラインのスケ ジューリング・アロケーションの組合せに基づ くプロトコルを採用しており,マイクロネット ワーク内でのパケット衝突が起こらない.また, ルータ内でパケット受信制御が自動的に行わ れるため,VLIW 制御メモリ容量を大幅に減少 できる.さらに,効果的なパケットデータ転送 を実現するため,パケット送信タイミング制御 のための新しい制御モジュールを提案してい る.

2. パケットデータ転送に基づく並列 VLSI プロセッサアーキテクチャ

2.1. パケットデータ転送に基づくマイクロ ネットワーク構造

図1に,複数のPEと,それらを接続するマ イクロネットワークを備えた細粒度 MIMD (Multi-Instruction Multi-Data)型並列プロセ ッサの提案構造を示す.ここで、処理アルゴリ ズムが与えられ,それがコントロールデータフ ローグラフ(CDFG)で表現されており,スケ ジューリング・アロケーションが予め決定され ていると仮定する.CDFG におけるそれぞれ のノードは PE に割当てられ,エッジに対応す る PE 間データ転送はマイクロネットワーク を経由してなされる.

マイクロネットワークには,図2に示すよう にパケット転送に用いる2本のデータ転送ラ インがあり,一つは左から右への方向のパケッ ト転送に用いられ,もう一つは右から左への方 向のパケット転送に用いられる.2つのPE間 のパケット転送はPEに直接接続されたルー タを経由してなされる.

プロセッサの基本操作はレジスタ間データ 転送に帰着されるため、もしパケットがマイク ロネットワークに適切に送信されると、データ 受信のための自動的なタイミング生成がなさ れる.このことはデータ受信のタイミング制御 をマイクロプログラム中で省略できることを 意味する.したがって、VLIW (Very Long Instruction Word) 制御メモリに要求される メモリ容量を大幅に減少できる.

2.2. セミオートノマスパケットルーティン グ

細粒度並列処理における頻繁なパケット転 送のためには多くのルータが要求されるため, ルータ内の制御機構はできるだけ単純でなけ ればならない.そこで,オフラインのスケジュ ーリング・アロケーションがセミオートノマス パケット転送に用いられる.これに必要となる 最適問題はパケット転送が起こらないという 制約下で全体の処理時間を最小化することで ある.もしこの制約が満たされるなら,ルータ 内のバッファキューメモリが不要になる.



図1 並列プロセッサアーキテクチャ



図2 パケット転送の例



FU: Functional Unit PDU: Programmable Delay Unit PG: Packet Generator LPG: Local Packet Generator PAC: PAcket Copier

## 図 3 パケット転送のためのルータと PE の 構成

2.3. パケットフォーマット

セミオートノマスパケットルーティングに 基づくことにより,1ビットのフラグ,宛先ア ドレスと1個のデータからなり,優先順位など 他のヘッダ情報が不要である,単純なパケット フォーマットを定義できる.フラグはパケット が有効なものか否かを表し,パケット送信制御



図4 プログラマブルディレイユニット



図 5 PDU の動作

を自律的にするために効果的に採用されている.

2.4. 階層的パケット転送

階層的に, PE 内でもパケット転送が利用される. PE 間および PE 内の両方の階層に関係するパケット転送の例を図2に示す.

[手続き 1] 宛先 PE アドレス 9 とデータを含 むパケットがパケットジェネレータ (PG)で 生成され,それが PE5 から送出される.PE5 からのフラグが有効であり,かつ隣のルータか らのフラグが無効であるため,PE5 からのパ ケットが自律的に PE9 へ送られる.

[手続き 2] パケットはルータ間をパイプライ ン方式で転送される .宛先アドレスと各ルータ アドレスの比較がなされ ,それらが等しくない 場合パケットは隣のルータへ転送される.



#### 図7PGの動作

[手続き 3] 宛先 PE アドレスとルータアドレス 9 が等しいため,パケットは PE9 に転送され,フラグ情報が PE 内データ転送でのパケット送信のきっかけとして用いられる.

[手続き 4] PE9 では,新しいローカルパケットがローカルパケットジェネレータ(LPG)で 生成され, IREG4 に送られる.

## 3. プロセッシングエレメントの構成

図3はPEの構成を示しており,レジスタフ ァイルがプログラマブルディレィユニット (PDU)内に中間結果の一時記憶のために備 えられている.最も重要な制御機能はPDUか らパケットをセミオートノマスパケット転送 法に基づく指定されたタイミングで送出する ことである.PDUでは,遅延制御がプログラ ムされた遅延情報に従ってなされる.

## 3.1. プログラマブルディレィユニット

図 4 は複数のレジスタモジュールを備えた PDU の構造を示している.それぞれのレジス タモジュール内には、データの保存と遅延制御 それぞれのために、ひと つのレジスタとプリ セッタブルダウンカウンタ(PDC)が備えら れている.もし有効なフラグがデータとともに PDU に到着すれば、以下に示す遅延制御がな される.

[手続き 1] レジスタモジュールのアドレスと 待ちクロックステップ数がウェイトクロック ステップ ROM (WCSR)により生成される.

[手続き 2] 入力データがレジスタモジュール 内のデータレジスタに保存され,待ちクロック ステップ数が PDC にセットされる.

[手続き 3] 待ちクロックステップ数のカウン トダウンが開始される .もしカウントが零にな ると,データは PDU から LPG に有効フラグ とともに送られる.

以上の手続きにより,図5に示すように自律 的に遅延操作とデータ送出が行われる.

3.2. パケットジェネレータ

図 6 は有効フラグを伴うデータが入力後す ぐにパケットを生成する PG の構成を示して いる.また,図7にその動作概念を示す.制御 メモリ容量を減少するために,あらかじめプロ グラムされた相対 PE アドレスが導入されて おり,それが相対 PE アドレス ROM (RPAR) に保存されている.この相対 PE アドレスはも しパケットデータ転送方向が右方向であれば PE アドレスに加算される.一方,もしそれが 左方向であれば, PE アドレスから減算され る.



C.S.: Clock Step

図 8 CDFG の一部の例



図9提案アーキテクチャによる実行

## 4. プログラミングの比較

スケジューリングおよびアロケーションが 行われた CDFG のプログラミングを比較する. 提案するセミオートノマスパケットルーティ ングアーキテクチャでは,パケットの宛先アド レスを指定することによりパケット受信タイ ミングなどを自律的に生成可能となり,プログ ラミングに必要な制御メモリ容量を大幅に減 少できる特徴を有する.

ー例として,図8に示す CDFG について, (1)から(4)の各エッジは,図9に示すように以 下のようなパケットの流れに対応する.

| (1)   | PDU | LPG3 | OBUF3 |
|-------|-----|------|-------|
| IREG4 | FU  |      |       |
| (2)   | PDU | LPG3 | OBUF3 |
| IREG5 | FU  |      |       |

| (3)   | FU  | LPG4 | OBUF4 |
|-------|-----|------|-------|
| IREG3 | PDU |      |       |
| (4)   | PDU | LPG3 | OBUF3 |
| IREG2 | PG2 | URM2 | PE5   |

ここで, IREGx はアドレス x をもつ入力レ ジスタであり, LPG で生成された宛先アドレ ス x のローカルパケットを選択的かつ自律的 に受信する機能を有する.また,OBUF は PE 内共通バスへの出力バッファであり,LPG で 生成されたパケットの有効フラグにより自律 的にバスへのパケット送出を制御する機能を 有する.さらに,FU は入力データのフラグの 状態から,入力データがそろってから演算結果 を出力するまでの遅延タイミング(図8の例で は3クロックステップ)を自律的に生成できる 機能を備えている.

以上より,図8の例のためにプログラミング が必要となるのは,PDU,LPG3,LPG4,PG2 である.それぞれのプログラミングは以下の通 りである.

PDUには,図 10 に示すように初期値として レジスタモジュール 1 のデータレジスタと PDC にそれぞれデータ a と待ちクロックステ ップ数 0 が記憶されている.同様に,レジスタ モジュール 2 のデータレジスタと PDC にはデ ータ b と待ちクロックステップ数 1 が記憶さ れている.さらに, PDU 内の制御メモリ WCSR には,図 8 の(3)の段階で PDU に入力 されるデータ c を記憶するためのレジスタモ ジュールアドレスと待ちクロックステップ数 7 がプログラムされる.

LPG は、図 6 の PG からアドレス加減算器 を省いた構造となっている。図 11 に示すよう に、LPG3 内のローカルパケット宛先アドレス を記憶する制御メモリには、図 8 の例の場合デ ータ a,b,c それぞれの行き先アドレスである 4,5,2 が順にプログラムされる.これによりデ ータ a,b,c は順に IREG4, IREG5, IREG2 宛



図 10 PDU の初期設定とプログラミング



図 11 LPG と PG のプログラミング



図9 従来のアーキテクチャによる実行

のローカルパケットにそれぞれ変換される.同 様に,LPG4にはFUから出力されるデータc の宛先アドレスである3がプログラムされる. さらに,PG2には,宛先PEアドレスである5 とこのPEアドレスの差をRPARにプログラ ムするだけでよい.

これに対し,従来のアーキテクチャでは,図 12 に示すようなデータの移動やメモリアクセ スなどが必要となる.このための VLIW プロ グラムは,表1に示すように,特に待ちクロッ

|--|

|                     | LM |    |    | FU | FU |     |     |     |
|---------------------|----|----|----|----|----|-----|-----|-----|
| VLIVV<br>メモリ<br>亜山に | アド |    | WR | Л  | Л  | FU  | I/O |     |
|                     | V  | КD |    | 力  | 力  | 出力  |     |     |
| 笛地.                 | ス  |    |    | 1  | 2  |     |     |     |
| 1                   | а  | RD |    | IN |    |     |     | (1) |
| 2                   | b  | RD |    |    | IN |     |     | (2) |
| 3                   |    |    |    |    |    |     |     |     |
| 4                   |    |    |    |    |    |     |     |     |
| 5                   |    |    |    |    |    |     |     |     |
| 6                   | с  |    | WR |    |    | OUT |     | (3) |
| 7                   |    |    |    |    |    |     |     |     |
| 8                   |    |    |    |    |    |     |     |     |
| 9                   |    |    |    |    |    |     |     |     |
| 10                  |    |    |    |    |    |     |     |     |
| 11                  |    |    |    |    |    |     |     |     |
| 12                  | С  | RD |    |    |    |     |     |     |
| 13                  |    |    |    |    |    |     | OUT | (4) |

クステップなどのために無駄に制御メモリ容 量が必要となる.

## 5. 評価

提案する VLSI プロセッサと従来の VLIW 制御に基づく VLSI プロセッサとの制御メモ リ容量を比較する.提案する VLSI プロセッサ の制御メモリ容量 Mp は次式で与えられる.

 $Mp = P \log_2 U + 3X +$ 

$$D(\log_2 R + \log_2 M) \qquad (1)$$

最初の項はPE間パケット転送に用いられる パケットの総数Pと相対PEアドレスのビット 長 log2U との積であり,ここでUはアロケー ションで決定される PE 間パケット転送の最 大距離である.第2項はPE内パケット転送に 用いられるパケットの総数 X と宛先レジスタ アドレスのビット長3 との積である.第3項 は PDU に保存されるデータの総数 D と,レジ スタモジュールアドレスのビット長 log2R と



DU: Delay Unit : Register : 3state buffer ALC: Arithmetic Logical circuit

図 13 従来のパイプラインバスアーキテク

チャ



PE: Processing Element

(a) 構成



(b) VLIW 制御フィールド

図 14 クロックステップベース VLIW 方式 パイプラインバスアーキテクチャ

スケジューリングで決定される最大待ちクロ ックステップ数ビット長 log2M の和との積で ある.

次に,従来の VLIW 制御に基づくプロセッ サを評価してみる.図 13 にパイプラインバス アーキテクチャに基づく PE 構造を示す. VLIW 制御法は2種類がある.ひとつは図 14 に示すようにそれぞれのクロックステップ毎 にオンオフ制御信号が与えられる方法である. この場合,制御メモリ容量 Mv は次式で与えら



れる.

 $Mv = 13SN + D(\log_2 R + \log_2 M)$  (2)

ここで,S はクロックステップ総数である. 制御メモリ容量 Mv は制御信号がそれほどし ばしば変化しな い場合,メモリ容量が無駄に なる.

別の方法は,制御信号がオンになるようなク ロックステップ間隔の情報を使うことである. 制御信号がクロックステップC1でオンになり, 再びそれがオンになるもっとも近いクロック ステップがC2であるとする.データ転送のた めのC1とC2のクロックステップ間隔がプロ グラムされる.制御信号がそれほどしばしば変 化しない場合,この方法は制御メモリ容量の減 少に有用である.PE内の制御信号発生器 (CSG)が図15に示すようにプログラムされ たクロックステップ間隔に応じたそれぞれの 制御信号生成に用いられる.この場合,制御メ モリ容量 Mb は次式で与えられる.

$$Mb = 2P \log_2 M + 2X \log_2 M + D(\log_2 R + \log_2 M)$$
(3)

スケジューリングおよびアロケーションさ れた CDFG の制御メモリ容量の比較を検討す る.処理時間に対応するクロックステップ数 S は次式で与えられる.

表2 パケット転送方式とクロックステップ

ベース VLIW 方式の制御メモリ容量

| Ν    | Q   | S [c.s.] | Mp [bit] | Mv [bit]  | Mv/Mp |
|------|-----|----------|----------|-----------|-------|
| 64   | 20  | 840      | 34560    | 712960    | 20.6  |
| 64   | 100 | 4200     | 204800   | 3596800   | 17.6  |
| 256  | 20  | 2760     | 158720   | 9251840   | 58.3  |
| 256  | 100 | 13800    | 896000   | 46361600  | 51.7  |
| 1024 | 20  | 10440    | 716800   | 139284480 | 194.3 |
| 1024 | 100 | 52200    | 3993600  | 696832000 | 174.5 |

表 3 パケット転送方式と制御信号ベース VLIW 方式の制御メモリ容量

| Ν    | Q   | S [c.s.] | Mp [bit] | Mb [bit] | Mb/Mp |  |  |
|------|-----|----------|----------|----------|-------|--|--|
| 64   | 20  | 840      | 34560    | 116480   | 3.4   |  |  |
| 64   | 100 | 4200     | 204800   | 806400   | 3.9   |  |  |
| 256  | 20  | 2760     | 158720   | 578560   | 3.6   |  |  |
| 256  | 100 | 13800    | 896000   | 3507200  | 3.9   |  |  |
| 1024 | 20  | 10440    | 716800   | 2764800  | 3.9   |  |  |
| 1024 | 100 | 52200    | 3993600  | 16281600 | 4.1   |  |  |



図 16 パケット転送方式とクロックステップ ベース VLIW 方式の制御メモリ容量の比較

 $S = Q(W + V) \tag{4}$ 

ここで,W,V,Qはそれぞれ次のとおりで ある.

W: 各ノードのクロックステップ数

V: 並列 PE 間データ転送の平均クロックス テップ数 Q: 処理の繰り返し数.ここで,ひとつの処 理はひとつのノードの処理と PE 間データ転 送に W+V クロックステップを要する.

図 16, 表 2 と表 3 は P=E, U=N/2, X=4E, D=E, R=Q/2, M=S/2, E=NQ, W=10, V=Uであ る場合の制御メモリ容量 Mp, Mv, Mbの比較 を示している.実際の処理応用では,提案アー キテクチャにより制御メモリ容量の大幅な減 少が期待できる.

## 6. むすび

提案する VLSI アーキテクチャは,不規則な データ転送がしばしば発生するような場合に, 制御メモリ容量の減少に非常に有用である.従 って,提案するマイクロネットワークアーキテ クチャ内のより多くの PE を同一面積のチッ プ内に備えることができ,並列処理能力を大幅 に改善できる.

## 参考文献

[1] P. P. Pande, C. Grecu, A. Ivanov, R. Saleh and G. D. Micheli, "Design, synthesis and test of networks on chips," IEEE Design and Test of Computers, Vol. 22, No. 5, pp. 404-413, (2005).

[2] K. Goossens, J. Dielissen and A.
Radulescu, "AEthereal Network on Chip: Concepts, Architectures, and Implementations," IEEE Design and Test of Computers, Vol. 22, No. 5, pp. 414-421, (2005).

[3] S. J. Lee, K. Lee and H. J. Yoo, "Analysis and Implementation of Practical, Cost-Effective Network on Chips," IEEE Design and Test of Computers, Vol. 22, No. 5, pp. 422-433, (2005).

[4] Y. Honma, M. Kameyama, Y.Fujioka and N. Tomabechi "VLSIArchitecture Based on Packet Data Transfer

Scheme and Its Application," Proc. of 2005 IEEE Int. Symp. on Circuits and Systems, pp.1786-1789, (2005).

[5] Y. Fujioka, N. Tomabechi and M. Kameyama: "Functional-Unit-Level Packet Data Transfer Scheme for A Highly Parallel VLSI Processor," Proc. of Int. Conf. on Computers and Devices for Communication, CD-ROM, pp.9-13. (2006).