Москва 2008

Москва

2008

Специализированное вычислительное устройство для

обработки радиолокационной информации

Московский физико-технический институтИнститут точной механики и вычислительной техникиимени С. А. Лебедева РАН

Д.Д. Николаев, М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг

Киен

Постановка задачи

Рекурсивное вычисление комплексной 64-мерной матрицы:

,IR 10

,nnn

~n

nn z~zzy

RR

111

1

,nnn yRz 11

n = 1, 2,…128

Требования по производительности

За 5 секунд необходимо выполнить вычисление матрицы 1728 раз.

Вычисления программным способом > 43 мин.

Этапы вычислений

nnzy~

1

k

nnnn z~wRR

11

1

ЭтапОперации

и объемвычислений

1 64х64 MAC

2 1x64 MAC

3 1DIV

4 wn= -kzn 64 MUL

5 64х64 MAC

nnn yRz 11

5

Варианты реализации

• фиксированная запятая: простой алгоритм малый объем оборудования малая производительность проблема диапазона и точности• плавающая запятая: сложный алгоритм большая трудоемкость большой объем оборудования большая производительность автоматическое решение проблемы диапазона и точности

Выбран вариант с плавающей запятой

6

Формат чисел

s знак

e порядок

m мантисса

31 0

1 разряд 7 разрядов 24 разряда

Порядок 7 разрядов Скрытый бит мантиссы представлен в явном виде Округление только к ближайшему Нет специальных значений Нет денормализованных чисел (при underflow - flush to zero)

Предложенный формат:

Результат вычисления матрицы R^-1 в нашем формате совпадает с вычисленным в IEEE 754 single

7

Комплексный MAC - Multiply & Accumulate

FP

A1

B

FPMUL1

MU

X2A

D MU

X1

MU

X3

C

E

FP

A2

MU

X4

MU

X5

F

FPMUL2

acc_re

acc_im

(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi

8


FP

A1

B

FPMUL1

MU

X2A

D MU

X1

MU

X3

C

E

FP

A2

MU

X4

MU

X5

F

FPMUL2

acc_re

acc_im


C

AC

BC

AC + E

BC + F

9


FP

A1

B

FPMUL1

MU

X2A

D MU

X1

MU

X3

C

E

FP

A2

MU

X4

MU

X5

F

FPMUL2

acc_re

acc_im


D

AD

BD

AC + E - BD

BC + F + AD

AC + E

BC + F

10

Структурная схема вычислителя

MAC1

……

.

MACRzn

1k=

a

Memory64x64x32x2

MU

X1

RECIPR

MU

X21

MU

X3

MAC2

MU

X2

2

MAC64

MU

X26

4

acc1

acc2

acc64

acc1

acc2

acc64

32x2x64

64x3

2x2

32x2

32x2

32x2

32x2

32x2

-znk32x2SHRZ

-k

-k 32

R-1n

……

.…

….

A

C

C

C

A

A

B

B

Bacc=A? B+

C

acc=A? B+C

acc=A? B+C

CI2F

19x2

<? 17>

MU

X4

12x2

A

B

C

acc 32

Con z

32x2

32x2

MU

X5

acc

SHRI

“1”

acc=A? B+C

64

32x2x64

R-1n-1 R-1

n-1

z

32x2x64

32x2x64

32x2x64

32x2x64

32x2x64

MUX6

MUX7

R-1n-1

<vector_out 32

32x2x64

nnzy~

Control Unit<Start

stage<addr_y

iny<

inz

i *n(y )

-znk

inz

i *n(z )

32x2

iny

11

Прототип

Прототип создан на базе FPGA Virtex-5 xc5vlx330

Использовано • Триггера 25118 из 207360 12% • LUT 111907 из 207360 53%

f = 200 МГц

Вычисление одной матрицы < 1 мс

Производительность ~6,5 млрд. операций с плавающей запятой в секунду

12

Пути повышения производительности

полная конвейеризация использование MAFбыстрый алгоритм умножения (без итераций)быстрый алгоритм MACиспользование нескольких узлов MACR

Эффект - увеличение производительности в 5-10 раз

13

Пути повышения точности

• увеличение разрядности мантиссы• уменьшение количества округлений:

• одно округление на умножение и сложение• одно округление на два умножения и сложение

Москва 2008

Documents