Москва 2008
DESCRIPTION
Институт точной механики и вычислительной техники имени С. А. Лебедева РАН. Московский физико-технический институт. Специализированное вычислительное устройство для обработки радиолокационной информации. Д.Д. Николаев , М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг Киен. Москва 2008. - PowerPoint PPT PresentationTRANSCRIPT
Москва
2008
Специализированное вычислительное устройство для
обработки радиолокационной информации
Московский физико-технический институтИнститут точной механики и вычислительной техникиимени С. А. Лебедева РАН
Д.Д. Николаев, М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг
Киен
Постановка задачи
Рекурсивное вычисление комплексной 64-мерной матрицы:
,IR 10
,nnn
~n
nn z~zzy
RR
111
1
,nnn yRz 11
n = 1, 2,…128
Требования по производительности
За 5 секунд необходимо выполнить вычисление матрицы 1728 раз.
Вычисления программным способом > 43 мин.
Этапы вычислений
nnzy~
1
k
nnnn z~wRR
11
1
ЭтапОперации
и объемвычислений
1 64х64 MAC
2 1x64 MAC
3 1DIV
4 wn= -kzn 64 MUL
5 64х64 MAC
nnn yRz 11
5
Варианты реализации
• фиксированная запятая: простой алгоритм малый объем оборудования малая производительность проблема диапазона и точности• плавающая запятая: сложный алгоритм большая трудоемкость большой объем оборудования большая производительность автоматическое решение проблемы диапазона и точности
Выбран вариант с плавающей запятой
6
Формат чисел
s знак
e порядок
m мантисса
31 0
1 разряд 7 разрядов 24 разряда
Порядок 7 разрядов Скрытый бит мантиссы представлен в явном виде Округление только к ближайшему Нет специальных значений Нет денормализованных чисел (при underflow - flush to zero)
Предложенный формат:
Результат вычисления матрицы R^-1 в нашем формате совпадает с вычисленным в IEEE 754 single
7
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
8
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
C
AC
BC
AC + E
BC + F
9
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
D
AD
BD
AC + E - BD
BC + F + AD
AC + E
BC + F
10
Структурная схема вычислителя
MAC1
……
.
MACRzn
1k=
a
Memory64x64x32x2
MU
X1
RECIPR
MU
X21
MU
X3
MAC2
MU
X2
2
MAC64
MU
X26
4
acc1
acc2
acc64
acc1
acc2
acc64
32x2x64
64x3
2x2
32x2
32x2
32x2
32x2
32x2
-znk32x2SHRZ
-k
-k 32
R-1n
……
.…
….
A
C
C
C
A
A
B
B
Bacc=A? B+
C
acc=A? B+C
acc=A? B+C
CI2F
19x2
<? 17>
MU
X4
12x2
A
B
C
acc 32
Con z
32x2
32x2
MU
X5
acc
SHRI
“1”
acc=A? B+C
64
32x2x64
R-1n-1 R-1
n-1
z
32x2x64
32x2x64
32x2x64
32x2x64
32x2x64
MUX6
MUX7
R-1n-1
<vector_out 32
32x2x64
nnzy~
Control Unit<Start
stage<addr_y
iny<
inz
i *n(y )
-znk
inz
i *n(z )
32x2
iny
11
Прототип
Прототип создан на базе FPGA Virtex-5 xc5vlx330
Использовано • Триггера 25118 из 207360 12% • LUT 111907 из 207360 53%
f = 200 МГц
Вычисление одной матрицы < 1 мс
Производительность ~6,5 млрд. операций с плавающей запятой в секунду
12
Пути повышения производительности
полная конвейеризация использование MAFбыстрый алгоритм умножения (без итераций)быстрый алгоритм MACиспользование нескольких узлов MACR
Эффект - увеличение производительности в 5-10 раз
13
Пути повышения точности
• увеличение разрядности мантиссы• уменьшение количества округлений:
• одно округление на умножение и сложение• одно округление на два умножения и сложение