Иерархия памяти cuda.nvidia.esyr.org/files/presentations/0830_cuda_texture.pdf ·...

Иерархия

памяти

CUDA. Текстуры

Цифровая

обработка

сигналов.

Лекторы:•

Боресков

А.В. ( ВМиК

МГУ )

Харламов А.А. ( NVIDIA )

Лекция

Типы

памяти

Тип

памяти Доступ Уровень выделенияСкорость

работы

Регистры R/W Per-thread Высокая(on-chip)

Локальная R/W Per-thread Низкая

(DRAM)Shared R/W Per-block Высокая(on-chip)Глобальная R/W Per-grid Низкая

(DRAM)

Constant R/O Per-grid Высокая(L1 cache)

Texture R/O Per-grid [-]Низкая(DRAM)

[+]L1 cache

Texture Processing Cluster

Мультипроцессор

Tesla 10

Streaming Multiprocessor

Instruction $ Constant $

Instruction Fetch

Shared Memory

SPSPSPSP

Double Precision

Register File

Texture в

CUDA есть

доступ

fixed-function HW: Texture Unit

0.66,1

0,0 1,0

1,10,1

0,0 1,0

0.66,1

Texture HW

Латентность

больше, чем

прямого

обращения в память

Дополнительные

стадии

конвеере:•

Преобразование

адресов

Фильтрация•

данных

зато

есть

кэш•

Разумно

использовать,

если:

Объем данных не влезает в shared память•

Паттерн

доступа

хаотичный

Данные

переиспользуются

разными

потоками

Texture в

CUDA (cudaArray)

Особый

контейнер

памяти: cudaArray

Черный

ящик

для

приложения

Позволяет

организовывать

данные

1D/ 2D/3D массивы

данных

вида:

1/2/4 компонентные

векторы•

8/16/32 bit signed/unsigned integers

32 bit float•

16 bit float (driver API)

Доступ

семейству

функций tex1D()/tex2D()/tex3D()

Особенности

текстур:•

Обращение

1D / 2D / 3D массивам

данных

Целочисленным

индексам•

Нормализованным

координатам

адресов

границах•

Фильтрация

данных•

Linear

данных•

Данные

могут

храниться

формате

uchar4

Возвращаемое

значение

float4

Texture в

CUDA (cudaArray)

Нормализация

координат:•

Обращение

координатам, которые

лежат

диапазоне

0,0 1,0

1,10,1

Texture в

координат:•

Координаты, которые

лежат

диапазоне

(или

[w, h])Clamp-Координата

«обрубается»

допустимым

границамWrap-

Координата

«заворачивается»

в допустимый

диапазон

[1.0, 0.7]

0,0 1,0

1,10,1

[1.1, 0.7]

[1.1, 0.3][0.1, 0.3]

Texture в

Фильтрация:•

Если

используете

float координаты, что

должно

произойти

если

координата

попадает точно

texel?

Point-Берется

ближайший

Linear-

Билинейная

фильтрация

Приблизимся

вот

эту

точку

0,0 1,0

1,10,1

Texture в

Point-Берется

ближайший

[0.1, 0.3]

Texture в

Linear-Билинейная

фильтрация

*(1-α)+P2

*(α)) * (1-β) +(P3

*(1-α)+P4

*(α)) * β

[0.1, 0.3]

Texture в

данных:•

cudaReadModeNormalizedFloat

Исходный

массив

содержит

данные

integer, возвращаемое

значение

floating point

представлении

(доступный

диапазон

значений

отображается

в интервал

[0, 1] или

[-1,1])

cudaReadModeElementType•

Возвращаемое

значение

же, что

внутреннем

представлении

Texture в

CUDA (linear)

Можно

использовать

обычную линейную память

Ограничения:•

Только

для

одномерных

массивов

Нет

фильтрации•

Доступ

целочисленным

координатам

Обращение

адресу

вне

допустимого диапазона

возвращает

ноль

DEVICEHOSTcudaArray

textureReference

tex1D()tex2D()tex3D()

cudaBindTextureToArray

Kernel2<<<,>>>

devPtr

cudaBindTexture tex1Dfetch()

Kernel1<<<,>>>

Texture в

texture<float, 1, cudaReadModeElementType> g_TexRef;

__global__ void kernel1 ( float * data ){

int idx = blockIdx.x * blockDim.x + threadIdx.x;

data [idx] = tex1Dfetch(g_TexRef, idx);}

int main(int argc, char ** argv){

float *phA = NULL, *phB = NULL, *pdA = NULL, *pdB = NULL;// -- memory allocation

for (int idx = 0; idx < nThreads * nBlocks; idx++)phA[idx] = sinf(idx * 2.0f * PI / (nThreads * nBlocks) );

CUDA_SAFE_CALL( cudaMemcpy ( pdA, phA, nMemSizeInBytes, cudaMemcpyHostToDevice ) );

CUDA_SAFE_CALL( cudaBindTexture(0, g_TexRef, pdA, nMemSizeInBytes) );

dim3 threads = dim3( nThreads );dim3 blocks = dim3( nBlocks );

kernel1 <<<blocks, threads>>> ( pdB );CUDA_SAFE_CALL( cudaThreadSynchronize() );

CUDA_SAFE_CALL( cudaMemcpy ( phB, pdB, nMemSizeInBytes, cudaMemcpyDeviceToHost ) );

// -- results check & memory releasereturn 0;

Texture в

CUDA (linear)

Texture в

CUDA (cudaArray)texture<float, 2, cudaReadModeElementType> g_TexRef;

__global__ void kernel ( float * data ){

int idx = blockIdx.x * blockDim.x + threadIdx.x;data [idx + blockIdx.y * gridDim.x * blockDim.x] = tex2D(g_TexRef, idx, blockIdx.y);

int main ( int argc, char * argv [] ){

float *phA = NULL, *phB = NULL, *pdB = NULL; // linear memory pointerscudaArray * paA = NULL; // device cudaArray pointer// -- memory allocation

cudaChannelFormatDesc cfDesc = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindFloat);CUDA_SAFE_CALL( cudaMallocArray(&paA, &cfDesc, nBlocksX * nThreads, nBlocksY) );

for (int idx = 0; idx < nThreads * nBlocksX; idx++) {phA[idx] = sinf(idx * 2.0f * PI / (nThreads * nBlocksX) );phA[idx + nThreads * nBlocksX] = cosf(idx * 2.0f * PI / (nThreads * nBlocksX) ); }

CUDA_SAFE_CALL( cudaMemcpyToArray ( paA, 0, 0, phA, nMemSizeInBytes, cudaMemcpyHostToDevice ) );CUDA_SAFE_CALL( cudaBindTextureToArray(g_TexRef, paA) );

dim3 threads = dim3( nThreads );dim3 blocks = dim3( nBlocksX, nBlocksY );

kernel<<<blocks, threads>>> ( pdB );CUDA_SAFE_CALL( cudaThreadSynchronize() );

CUDA_SAFE_CALL( cudaMemcpy ( phB, pdB, nMemSizeInBytes, cudaMemcpyDeviceToHost ) );

// -- results check & memory releasereturn 0;

Свертка

DSP свертка

это

один

основных инструментов

Определение

свертки:

В Дискретном случае:

2D для

изображений:

∫ −== dnnknisiksir )()())(*()(

∑ −==n

nknisiksir )()())(*()(

∑∑ −−==n m

mnkmjnisjiksjir ),(),(),)(*(),(

1 2 4 5 5 7 1 45 2 1 2 3 4 1 25 4 6 6 1 7 1 81 2 3 7 5 5 9 61 3 2 3 1 9 6 49 5 9 2 5 3 7 64 2 3 6 8 4 4 96 6 8 7 2 3 9 5

Исходный

сигнал Окно

Выходной

сигнал

Свертка

Вычислительная

сложность:•

W x H x N x K

умножений

Сепарабельные

фильтры

Размер входного сигнала

Размер ядра

Свертка

Примеры

Gaussian Blur

Edge Detection

Gaussian Blur

Blur (размытие)

изображение

Свертка

ядром:

)/exp()( 22 σσ iik −= )/)(exp(),( 222 σσ jijik +−=

#define SQR(x) ((x) * (x))texture<float, 2, cudaReadModeElementType> g_TexRef;

__global__ void GaussBlur( float * pFilteredImage, int W, int H, float r){

int idx = blockIdx.x * blockDim.x + threadIdx.x;int idy = blockIdx.y * blockDim.y + threadIdx.y;

float wSum = 0.0f;float rResult = 0.0f;for (int ix = -r; ix <= r; ix++)

for (int iy = -r; iy <= r; iy++){

float w = exp( -(SQR(ix) + SQR(iy)) / SQR(r) );rResult += w * tex2D(g_TexRef, idx + ix, idy + iy);wSum += w;

}rResult = rResult / wSum;

pFilteredImage[idx + idy * W] = rResult;}

Gaussian Blur

Edge Detection

Обнаружение

границ

поиск

разрывов

в яркости

изображения

Идеальная граница

«реальная» граница

«шумная» граница

Градиент

функции

f(x,y)•

Это

вектор

который

показывает

направление

роста•

Определяется

как ,f f

x y⎫∂ ∂⎧= ⎨ ⎬∂ ∂⎩ ⎭

θ(x,y) = tan-1(Gy

22 ][|),(| yx GGyx +=G

Edge Detection

Разностная

производная:

Свертка

ядром:

xyxfyxxf

Δ−Δ+

≈∂

∂ ),(),(),(

yyxfyyxf

Δ−Δ+

≈∂

∂ ),(),(),(

1 [ 1 1]xD = − ⎥⎦

⎤⎢⎣

⎡−

Edge Detection

Разностная

производная:

Свертка

ядром:

xyxxfyxxf

ΔΔ−−Δ+

≈∂

),(),(),(

yyyxfyyxf

ΔΔ−−Δ+

≈∂

),(),(),(

2 [ 1 0 1]xD = −⎥⎥⎥

⎢⎢⎢

Edge Detection

Prewitt mask:

⎥⎥⎥

⎢⎢⎢

−−−

=101101101

xP⎥⎥⎥

⎢⎢⎢

−−−=

111000111

⎥⎥⎥

⎢⎢⎢

−−−

=101202101

xS1 2 10 0 01 2 1

yS⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥− − −⎣ ⎦

Edge Detection

Оператор

Лапласа:

2 ),(),(2),(),(x

yxxfyxfyxxfx

Δ−+−Δ+≈

∂∂

2 ),(),(2),(),(y

yyxfyxfyyxfy

Δ−+−Δ+≈

∂∂

2 ),(),()],([y

yxfyxfL∂

∂∂

Edge Detection

Оптимизация

свертки

Использовать

сепарабельные

фильтры•

Существенно

меньше

алгоритмическая

сложность•

Использовать

shared память

Исходное

свертки

Исходное

свертки

Ядро

фильтра

«Фартук»

фильтра

свертки

Discrete Cosine Transform

Широко

используется

ЦОС

Является

основой

современных алгоритмов

сжатия

данных

потерями

(JPEG, MPEG)

JPEG, 2/10

Представитель

семейства

пространственно- частотных

1D преобразований, задается

формулами:•

Прямое:

Обратное:•

Нормировочные

коэффициенты:

( ) 1,...,1,0,2

12cos)()()(1

−=⎥⎦⎤

⎢⎣⎡ +

= ∑−

uxxfuuCN

( ) 1,...,1,0,2

12cos)()()(1

−=⎥⎦⎤

⎢⎣⎡ +

=∑−

uxuCuxfN

⎪⎩

⎪⎨⎧

8-точечный

случай: u=0

8-точечный

случай: u=1

8-точечный

случай: u=2

8-точечный

случай: u=3

8-точечный

случай: u=4

8-точечный

случай: u=5

8-точечный

случай: u=6

8-точечный

случай: u=7

N-мерное

преобразование

обладает

свойством сепарабельности

2D-визуализация

коэффициентов для

случая

8х8 (изображение

справа)•

Коэффициенты

A[8x8]

преобразования

вычисляются один

раз

2 способа

вычисления:•

Наивный, по

формуле

предыдущего

слайда

(вычисление

значения

коэффициента

путем подстановки

индексов

формулу)

использованием

сепарабельности•

Оба

способа

представлены

примере

Иерархия памяти cuda.nvidia.esyr.org/files/presentations/0830_cuda_texture.pdf ·...

Documents

"Сквозь слезы памяти»(памяти...

Вахта памяти

служители и иерархия

Анатолий Иванов. Иерархия разума...

нарушения памяти

Молекула памяти

Широкополосный доступ: уровень...

Альбом памяти

cuda. Иерархия памяти Глобальная...

Программно-аппаратная...

устройства памяти

Иерархия Архитектура

Венок памяти

Книга Памяти

Доступ к кейсам

Открытый доступ и цитирование,...

Хозяин памяти

version 1.4 1.5 для редизайна 01 · dash, php,...

1931 - Иерархия - ierarhiya.pdf · 2016. 8. 31. ·...

Тайное правительство. Иерархия...