cuda АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых...

21
CUDA ® АЛЬМАНАХ ДЕКАБРЬ 2015

Upload: others

Post on 22-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDAreg АЛЬМАНАХДЕКАБРЬ 2015

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 3

НОВОСТИ NVIDIA CUDA

Конкурс ldquoПоделись своей историей вычислений на GPUrdquo 4

Программа стипендий для аспирантов 5

Smilart и CUDA ndash распознавание лиц в реальном времени 6

Графические процессоры NVIDIA в основе новой машины глубокого обучения Facebook 7

Исследователи запускают совместный проект по созданию наиболее точной модели мозга дрозофилы 9

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA Институт системного программирования РАН 11 ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ 14

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDA 15

Оценка эффективности графических процессоров на примере квантово-химического моделирования комплекса хитозана ВВ Лазарев ВВ Спеле АВ Юлдашев 15 Суперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осциллятор ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин 17

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA 19

ВАКАНСИИ CUDA 20

КОНТАКТЫ 21

СОДЕРЖАНИЕ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 4

NVIDIA объявляет конкурс для участия необходимо написать короткую историю о вашем опыте использования вычислений на GPU и прикрепить документ в теме конкурса

Призы Победитель получит платформу Jetson участник занявший второе место - билет на посещение конференции GPU Technology Conference 2016 третье место ndash сувениры от компании NVIDIA

Максимальный объем одна страница А4 в формате doc

Сроки Работы принимаются до 15 февраля 2016 года

Оценка Победители будут выбраны общим закрытым голосованием которое продлится с 15 по 29 февраля 2016 года

Узнать подробнее и ознакомиться с правилами

НОВОСТИ NVIDIA CUDA КОНКУРС ldquoПОДЕЛИСЬ СВОЕЙ ИСТОРИЕЙ ВЫЧИСЛЕНИЙ НА GPUrdquo

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 5

Открыт прием заявок на 2016-2017 учебный год Ознакомьтесь с инструкциями подачи заявки на получение стипендии Срок подачи истекает 15 января 2016 года

Решайте самые сложные задачи в области визуальных вычислений

NVIDIA сотрудничает с компаниями - лидерами индустрии - для решения самых сложных вычислительных задач Наша работа приводит к кардинальным изменениям в таких отраслях как медицинская визуализация освоение космоса дизайн автомобилей и производство фильмов Нам нужны талантливые и изобретательные аспиранты которые не боятся трудностей и готовы решать самые сложные задачи в области визуальных вычислений

О Программе

Программа стипендий для аспирантов предоставляет финансирование в размере $25000 на каждого аспиранта Стипендиаты занимаются исследованиями которые могут привести к значительным достижениям в области высокопроизводительных вычислений Каждый год мы выбираем до десяти одаренных студентов желающих тесно сотрудничать с нами в самом начале своей карьеры Они получают не только финансирование для своих исследований но и возможность проводить работу имея доступ к продуктам технологиям и взаимодействию с лучшими специалистами NVIDIA

Критерии отбора

bull Соискатели стипендии должны закончить первый год аспирантуры на момент подачи заявки

bull Соискатели стипендии должны специализироваться в области информатики компьютерной инженерии системной архитектуры электронной инженерии или смежных дисциплинах

bull Соискатели стипендии должны быть вовлечены в исследования в рамках своей докторской диссертации

bull Соискатели стипендии должны являться аспирантами очной формы обучения на время получения стипендии

bull Обратите внимание стипендия направляется в университет стипендиата а не выплачивается напрямую стипендиату

Критерии оценивания

Каждая заявка будет оцениваться по следующим критериям квалификация соискателя качество исследовательской работы актуальность исследовательской работы для NVIDIA

Инструкции подачи заявки

Ваша заявка на получение стипендии для аспирантов должна включать в себя

bull План докторской диссертациикраткий отчет о научно-исследовательской работе на 1-2 страницах

bull Резюме с контактной информацией

bull Бланк Professor Nomination Form включая номинационное письмо (минимум 1 письмо максимально - 3 Вы можете отправить нам номинационное письмо не только от профессора но и от научного руководителяпреподавателя)

ПРОГРАММА СТИПЕНДИЙ ДЛЯ АСПИРАНТОВ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 6

Важно Предоставляйте файлы только в формате PDF и используйте в названии файлов только символы ASCII

Узнать подробности и Скачать бланки Sudent Submission Form и Professor Nomination Form можно пttо ссылке

SMILART И CUDA ndash РАСПОЗНАВАНИЕ ЛИЦ В РЕАЛЬНОМ ВРЕМЕНИ Smilart UG - эксперт в области алгоритмов анализа видеоматериалов а также мировой лидер в области систем биометрической идентификации человека по изображению лица для систем безопасности где требуется так называемое ldquoреальное времяrdquo отклика Для распознавания лиц в режиме реального времени компания использует технологии NVIDIA Один из таких проектов реализован в аэропорту Шереметьево

С отменой уголовной ответственности за контрабанду сотрудники таможенной службы аэропорта Шереметьево столкнулись с неожиданной проблемой резко усилился поток контрабандистов азиатского происхождения Проблема усугублялась научно доказанным фактом - человек узнаёт в лицо представителей других рас примерно в три раза хуже чем представителей своей собственной расы Там где человек не справляется на помощь пришло решение компании Smilart

Важно что система Smilart UG не требует подстройки под конкретную расу она одинаково эффективно работает на представителях всех рас и национальностей Головные уборы платки очки и бороды также не представляют собой помехи для решения SmilartИнсталляция представляет собой пример системы с некооперативной идентификацией то есть сотрудничества пассажира для корректной работы системы не требуется

При входе в laquoзеленый коридорraquo аэропорта установлены рамки аналогичные рамкам металлодетектора Внутри рамок размещены светодиодные источники света которые создают в небольшом пространстве внутри рамки освещённость порядка 1100+ люкс на лице пассажира Поскольку свет идёт сбоку он практически не раздражает проходящего через рамку человека и стимулирует его смотреть вперёд то есть прямо в камеру

Сама камера расположена на расстоянии 2-3 метров от рамки Каждую секунду она отправляет порядка 60 кадров в систему анализа видеоматериала Использование технологии NVIDIA CUDA для анализа полученных изображений позволяет обеспечить сверхбыструю обработку изображений - 50-75 кадров в секунду Таким образом распознавание лиц происходит в режиме реального времени Система узнаёт человека в тот самый

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 2: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 3

НОВОСТИ NVIDIA CUDA

Конкурс ldquoПоделись своей историей вычислений на GPUrdquo 4

Программа стипендий для аспирантов 5

Smilart и CUDA ndash распознавание лиц в реальном времени 6

Графические процессоры NVIDIA в основе новой машины глубокого обучения Facebook 7

Исследователи запускают совместный проект по созданию наиболее точной модели мозга дрозофилы 9

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA Институт системного программирования РАН 11 ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ 14

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDA 15

Оценка эффективности графических процессоров на примере квантово-химического моделирования комплекса хитозана ВВ Лазарев ВВ Спеле АВ Юлдашев 15 Суперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осциллятор ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин 17

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA 19

ВАКАНСИИ CUDA 20

КОНТАКТЫ 21

СОДЕРЖАНИЕ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 4

NVIDIA объявляет конкурс для участия необходимо написать короткую историю о вашем опыте использования вычислений на GPU и прикрепить документ в теме конкурса

Призы Победитель получит платформу Jetson участник занявший второе место - билет на посещение конференции GPU Technology Conference 2016 третье место ndash сувениры от компании NVIDIA

Максимальный объем одна страница А4 в формате doc

Сроки Работы принимаются до 15 февраля 2016 года

Оценка Победители будут выбраны общим закрытым голосованием которое продлится с 15 по 29 февраля 2016 года

Узнать подробнее и ознакомиться с правилами

НОВОСТИ NVIDIA CUDA КОНКУРС ldquoПОДЕЛИСЬ СВОЕЙ ИСТОРИЕЙ ВЫЧИСЛЕНИЙ НА GPUrdquo

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 5

Открыт прием заявок на 2016-2017 учебный год Ознакомьтесь с инструкциями подачи заявки на получение стипендии Срок подачи истекает 15 января 2016 года

Решайте самые сложные задачи в области визуальных вычислений

NVIDIA сотрудничает с компаниями - лидерами индустрии - для решения самых сложных вычислительных задач Наша работа приводит к кардинальным изменениям в таких отраслях как медицинская визуализация освоение космоса дизайн автомобилей и производство фильмов Нам нужны талантливые и изобретательные аспиранты которые не боятся трудностей и готовы решать самые сложные задачи в области визуальных вычислений

О Программе

Программа стипендий для аспирантов предоставляет финансирование в размере $25000 на каждого аспиранта Стипендиаты занимаются исследованиями которые могут привести к значительным достижениям в области высокопроизводительных вычислений Каждый год мы выбираем до десяти одаренных студентов желающих тесно сотрудничать с нами в самом начале своей карьеры Они получают не только финансирование для своих исследований но и возможность проводить работу имея доступ к продуктам технологиям и взаимодействию с лучшими специалистами NVIDIA

Критерии отбора

bull Соискатели стипендии должны закончить первый год аспирантуры на момент подачи заявки

bull Соискатели стипендии должны специализироваться в области информатики компьютерной инженерии системной архитектуры электронной инженерии или смежных дисциплинах

bull Соискатели стипендии должны быть вовлечены в исследования в рамках своей докторской диссертации

bull Соискатели стипендии должны являться аспирантами очной формы обучения на время получения стипендии

bull Обратите внимание стипендия направляется в университет стипендиата а не выплачивается напрямую стипендиату

Критерии оценивания

Каждая заявка будет оцениваться по следующим критериям квалификация соискателя качество исследовательской работы актуальность исследовательской работы для NVIDIA

Инструкции подачи заявки

Ваша заявка на получение стипендии для аспирантов должна включать в себя

bull План докторской диссертациикраткий отчет о научно-исследовательской работе на 1-2 страницах

bull Резюме с контактной информацией

bull Бланк Professor Nomination Form включая номинационное письмо (минимум 1 письмо максимально - 3 Вы можете отправить нам номинационное письмо не только от профессора но и от научного руководителяпреподавателя)

ПРОГРАММА СТИПЕНДИЙ ДЛЯ АСПИРАНТОВ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 6

Важно Предоставляйте файлы только в формате PDF и используйте в названии файлов только символы ASCII

Узнать подробности и Скачать бланки Sudent Submission Form и Professor Nomination Form можно пttо ссылке

SMILART И CUDA ndash РАСПОЗНАВАНИЕ ЛИЦ В РЕАЛЬНОМ ВРЕМЕНИ Smilart UG - эксперт в области алгоритмов анализа видеоматериалов а также мировой лидер в области систем биометрической идентификации человека по изображению лица для систем безопасности где требуется так называемое ldquoреальное времяrdquo отклика Для распознавания лиц в режиме реального времени компания использует технологии NVIDIA Один из таких проектов реализован в аэропорту Шереметьево

С отменой уголовной ответственности за контрабанду сотрудники таможенной службы аэропорта Шереметьево столкнулись с неожиданной проблемой резко усилился поток контрабандистов азиатского происхождения Проблема усугублялась научно доказанным фактом - человек узнаёт в лицо представителей других рас примерно в три раза хуже чем представителей своей собственной расы Там где человек не справляется на помощь пришло решение компании Smilart

Важно что система Smilart UG не требует подстройки под конкретную расу она одинаково эффективно работает на представителях всех рас и национальностей Головные уборы платки очки и бороды также не представляют собой помехи для решения SmilartИнсталляция представляет собой пример системы с некооперативной идентификацией то есть сотрудничества пассажира для корректной работы системы не требуется

При входе в laquoзеленый коридорraquo аэропорта установлены рамки аналогичные рамкам металлодетектора Внутри рамок размещены светодиодные источники света которые создают в небольшом пространстве внутри рамки освещённость порядка 1100+ люкс на лице пассажира Поскольку свет идёт сбоку он практически не раздражает проходящего через рамку человека и стимулирует его смотреть вперёд то есть прямо в камеру

Сама камера расположена на расстоянии 2-3 метров от рамки Каждую секунду она отправляет порядка 60 кадров в систему анализа видеоматериала Использование технологии NVIDIA CUDA для анализа полученных изображений позволяет обеспечить сверхбыструю обработку изображений - 50-75 кадров в секунду Таким образом распознавание лиц происходит в режиме реального времени Система узнаёт человека в тот самый

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 3: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 4

NVIDIA объявляет конкурс для участия необходимо написать короткую историю о вашем опыте использования вычислений на GPU и прикрепить документ в теме конкурса

Призы Победитель получит платформу Jetson участник занявший второе место - билет на посещение конференции GPU Technology Conference 2016 третье место ndash сувениры от компании NVIDIA

Максимальный объем одна страница А4 в формате doc

Сроки Работы принимаются до 15 февраля 2016 года

Оценка Победители будут выбраны общим закрытым голосованием которое продлится с 15 по 29 февраля 2016 года

Узнать подробнее и ознакомиться с правилами

НОВОСТИ NVIDIA CUDA КОНКУРС ldquoПОДЕЛИСЬ СВОЕЙ ИСТОРИЕЙ ВЫЧИСЛЕНИЙ НА GPUrdquo

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 5

Открыт прием заявок на 2016-2017 учебный год Ознакомьтесь с инструкциями подачи заявки на получение стипендии Срок подачи истекает 15 января 2016 года

Решайте самые сложные задачи в области визуальных вычислений

NVIDIA сотрудничает с компаниями - лидерами индустрии - для решения самых сложных вычислительных задач Наша работа приводит к кардинальным изменениям в таких отраслях как медицинская визуализация освоение космоса дизайн автомобилей и производство фильмов Нам нужны талантливые и изобретательные аспиранты которые не боятся трудностей и готовы решать самые сложные задачи в области визуальных вычислений

О Программе

Программа стипендий для аспирантов предоставляет финансирование в размере $25000 на каждого аспиранта Стипендиаты занимаются исследованиями которые могут привести к значительным достижениям в области высокопроизводительных вычислений Каждый год мы выбираем до десяти одаренных студентов желающих тесно сотрудничать с нами в самом начале своей карьеры Они получают не только финансирование для своих исследований но и возможность проводить работу имея доступ к продуктам технологиям и взаимодействию с лучшими специалистами NVIDIA

Критерии отбора

bull Соискатели стипендии должны закончить первый год аспирантуры на момент подачи заявки

bull Соискатели стипендии должны специализироваться в области информатики компьютерной инженерии системной архитектуры электронной инженерии или смежных дисциплинах

bull Соискатели стипендии должны быть вовлечены в исследования в рамках своей докторской диссертации

bull Соискатели стипендии должны являться аспирантами очной формы обучения на время получения стипендии

bull Обратите внимание стипендия направляется в университет стипендиата а не выплачивается напрямую стипендиату

Критерии оценивания

Каждая заявка будет оцениваться по следующим критериям квалификация соискателя качество исследовательской работы актуальность исследовательской работы для NVIDIA

Инструкции подачи заявки

Ваша заявка на получение стипендии для аспирантов должна включать в себя

bull План докторской диссертациикраткий отчет о научно-исследовательской работе на 1-2 страницах

bull Резюме с контактной информацией

bull Бланк Professor Nomination Form включая номинационное письмо (минимум 1 письмо максимально - 3 Вы можете отправить нам номинационное письмо не только от профессора но и от научного руководителяпреподавателя)

ПРОГРАММА СТИПЕНДИЙ ДЛЯ АСПИРАНТОВ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 6

Важно Предоставляйте файлы только в формате PDF и используйте в названии файлов только символы ASCII

Узнать подробности и Скачать бланки Sudent Submission Form и Professor Nomination Form можно пttо ссылке

SMILART И CUDA ndash РАСПОЗНАВАНИЕ ЛИЦ В РЕАЛЬНОМ ВРЕМЕНИ Smilart UG - эксперт в области алгоритмов анализа видеоматериалов а также мировой лидер в области систем биометрической идентификации человека по изображению лица для систем безопасности где требуется так называемое ldquoреальное времяrdquo отклика Для распознавания лиц в режиме реального времени компания использует технологии NVIDIA Один из таких проектов реализован в аэропорту Шереметьево

С отменой уголовной ответственности за контрабанду сотрудники таможенной службы аэропорта Шереметьево столкнулись с неожиданной проблемой резко усилился поток контрабандистов азиатского происхождения Проблема усугублялась научно доказанным фактом - человек узнаёт в лицо представителей других рас примерно в три раза хуже чем представителей своей собственной расы Там где человек не справляется на помощь пришло решение компании Smilart

Важно что система Smilart UG не требует подстройки под конкретную расу она одинаково эффективно работает на представителях всех рас и национальностей Головные уборы платки очки и бороды также не представляют собой помехи для решения SmilartИнсталляция представляет собой пример системы с некооперативной идентификацией то есть сотрудничества пассажира для корректной работы системы не требуется

При входе в laquoзеленый коридорraquo аэропорта установлены рамки аналогичные рамкам металлодетектора Внутри рамок размещены светодиодные источники света которые создают в небольшом пространстве внутри рамки освещённость порядка 1100+ люкс на лице пассажира Поскольку свет идёт сбоку он практически не раздражает проходящего через рамку человека и стимулирует его смотреть вперёд то есть прямо в камеру

Сама камера расположена на расстоянии 2-3 метров от рамки Каждую секунду она отправляет порядка 60 кадров в систему анализа видеоматериала Использование технологии NVIDIA CUDA для анализа полученных изображений позволяет обеспечить сверхбыструю обработку изображений - 50-75 кадров в секунду Таким образом распознавание лиц происходит в режиме реального времени Система узнаёт человека в тот самый

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 4: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 5

Открыт прием заявок на 2016-2017 учебный год Ознакомьтесь с инструкциями подачи заявки на получение стипендии Срок подачи истекает 15 января 2016 года

Решайте самые сложные задачи в области визуальных вычислений

NVIDIA сотрудничает с компаниями - лидерами индустрии - для решения самых сложных вычислительных задач Наша работа приводит к кардинальным изменениям в таких отраслях как медицинская визуализация освоение космоса дизайн автомобилей и производство фильмов Нам нужны талантливые и изобретательные аспиранты которые не боятся трудностей и готовы решать самые сложные задачи в области визуальных вычислений

О Программе

Программа стипендий для аспирантов предоставляет финансирование в размере $25000 на каждого аспиранта Стипендиаты занимаются исследованиями которые могут привести к значительным достижениям в области высокопроизводительных вычислений Каждый год мы выбираем до десяти одаренных студентов желающих тесно сотрудничать с нами в самом начале своей карьеры Они получают не только финансирование для своих исследований но и возможность проводить работу имея доступ к продуктам технологиям и взаимодействию с лучшими специалистами NVIDIA

Критерии отбора

bull Соискатели стипендии должны закончить первый год аспирантуры на момент подачи заявки

bull Соискатели стипендии должны специализироваться в области информатики компьютерной инженерии системной архитектуры электронной инженерии или смежных дисциплинах

bull Соискатели стипендии должны быть вовлечены в исследования в рамках своей докторской диссертации

bull Соискатели стипендии должны являться аспирантами очной формы обучения на время получения стипендии

bull Обратите внимание стипендия направляется в университет стипендиата а не выплачивается напрямую стипендиату

Критерии оценивания

Каждая заявка будет оцениваться по следующим критериям квалификация соискателя качество исследовательской работы актуальность исследовательской работы для NVIDIA

Инструкции подачи заявки

Ваша заявка на получение стипендии для аспирантов должна включать в себя

bull План докторской диссертациикраткий отчет о научно-исследовательской работе на 1-2 страницах

bull Резюме с контактной информацией

bull Бланк Professor Nomination Form включая номинационное письмо (минимум 1 письмо максимально - 3 Вы можете отправить нам номинационное письмо не только от профессора но и от научного руководителяпреподавателя)

ПРОГРАММА СТИПЕНДИЙ ДЛЯ АСПИРАНТОВ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 6

Важно Предоставляйте файлы только в формате PDF и используйте в названии файлов только символы ASCII

Узнать подробности и Скачать бланки Sudent Submission Form и Professor Nomination Form можно пttо ссылке

SMILART И CUDA ndash РАСПОЗНАВАНИЕ ЛИЦ В РЕАЛЬНОМ ВРЕМЕНИ Smilart UG - эксперт в области алгоритмов анализа видеоматериалов а также мировой лидер в области систем биометрической идентификации человека по изображению лица для систем безопасности где требуется так называемое ldquoреальное времяrdquo отклика Для распознавания лиц в режиме реального времени компания использует технологии NVIDIA Один из таких проектов реализован в аэропорту Шереметьево

С отменой уголовной ответственности за контрабанду сотрудники таможенной службы аэропорта Шереметьево столкнулись с неожиданной проблемой резко усилился поток контрабандистов азиатского происхождения Проблема усугублялась научно доказанным фактом - человек узнаёт в лицо представителей других рас примерно в три раза хуже чем представителей своей собственной расы Там где человек не справляется на помощь пришло решение компании Smilart

Важно что система Smilart UG не требует подстройки под конкретную расу она одинаково эффективно работает на представителях всех рас и национальностей Головные уборы платки очки и бороды также не представляют собой помехи для решения SmilartИнсталляция представляет собой пример системы с некооперативной идентификацией то есть сотрудничества пассажира для корректной работы системы не требуется

При входе в laquoзеленый коридорraquo аэропорта установлены рамки аналогичные рамкам металлодетектора Внутри рамок размещены светодиодные источники света которые создают в небольшом пространстве внутри рамки освещённость порядка 1100+ люкс на лице пассажира Поскольку свет идёт сбоку он практически не раздражает проходящего через рамку человека и стимулирует его смотреть вперёд то есть прямо в камеру

Сама камера расположена на расстоянии 2-3 метров от рамки Каждую секунду она отправляет порядка 60 кадров в систему анализа видеоматериала Использование технологии NVIDIA CUDA для анализа полученных изображений позволяет обеспечить сверхбыструю обработку изображений - 50-75 кадров в секунду Таким образом распознавание лиц происходит в режиме реального времени Система узнаёт человека в тот самый

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 5: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 6

Важно Предоставляйте файлы только в формате PDF и используйте в названии файлов только символы ASCII

Узнать подробности и Скачать бланки Sudent Submission Form и Professor Nomination Form можно пttо ссылке

SMILART И CUDA ndash РАСПОЗНАВАНИЕ ЛИЦ В РЕАЛЬНОМ ВРЕМЕНИ Smilart UG - эксперт в области алгоритмов анализа видеоматериалов а также мировой лидер в области систем биометрической идентификации человека по изображению лица для систем безопасности где требуется так называемое ldquoреальное времяrdquo отклика Для распознавания лиц в режиме реального времени компания использует технологии NVIDIA Один из таких проектов реализован в аэропорту Шереметьево

С отменой уголовной ответственности за контрабанду сотрудники таможенной службы аэропорта Шереметьево столкнулись с неожиданной проблемой резко усилился поток контрабандистов азиатского происхождения Проблема усугублялась научно доказанным фактом - человек узнаёт в лицо представителей других рас примерно в три раза хуже чем представителей своей собственной расы Там где человек не справляется на помощь пришло решение компании Smilart

Важно что система Smilart UG не требует подстройки под конкретную расу она одинаково эффективно работает на представителях всех рас и национальностей Головные уборы платки очки и бороды также не представляют собой помехи для решения SmilartИнсталляция представляет собой пример системы с некооперативной идентификацией то есть сотрудничества пассажира для корректной работы системы не требуется

При входе в laquoзеленый коридорraquo аэропорта установлены рамки аналогичные рамкам металлодетектора Внутри рамок размещены светодиодные источники света которые создают в небольшом пространстве внутри рамки освещённость порядка 1100+ люкс на лице пассажира Поскольку свет идёт сбоку он практически не раздражает проходящего через рамку человека и стимулирует его смотреть вперёд то есть прямо в камеру

Сама камера расположена на расстоянии 2-3 метров от рамки Каждую секунду она отправляет порядка 60 кадров в систему анализа видеоматериала Использование технологии NVIDIA CUDA для анализа полученных изображений позволяет обеспечить сверхбыструю обработку изображений - 50-75 кадров в секунду Таким образом распознавание лиц происходит в режиме реального времени Система узнаёт человека в тот самый

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 6: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 7

Новая вычислительная платформа создана специально для развития глубоких нейронных сетей

NVIDIA объявила о том что компания Facebook оснастит свою вычислительную систему нового поколения платформой ускоренных вычислений NVIDIAreg Teslareg которая позволит запускать широкий спектр приложений машинного обучения

Обучение комплексных глубоких нейронных сетей может занять несколько дней а иногда и недель даже на самых быстрых компьютерах Платформа Tesla позволяет сократить это время в 10-20 раз В результате разработчики смогут обучать более сложные сети что в свою очередь позволит предоставлять пользователям более широкие возможности

момент когда он проходит сквозь рамку Отсутствие задержек позволяет работникам таможни немедленно реагировать на совпадения лиц с базой данных контрабандистов

В настоящее время система Smilart внедрена в семи ldquoрукавахrdquo различных терминалов аэропорта Шереметьево В ближайших планах компании ndash дальнейшее развертывание системы в остальных аэропортах Москвы с последующим объединением базы правонарушителей

Подробнее о компании Smilart

ГРАФИЧЕСКИЕ ПРОЦЕССОРЫ NVIDIA В ОСНОВЕ НОВОЙ МАШИНЫ ГЛУБОКОГО ОБУЧЕНИЯ FACEBOOK

Facebook стала первой компанией взявшей на вооружение графические ускорители NVIDIA Tesla M40 специализированные ускорители для обучения нейронных сетей представленные NVIDIA в прошлом месяце Они станут ключевым компонентом новой вычислительной платформы Big Sur созданной командой Facebook AI Research (FAIR) специально для обучения нейронных сетей

laquoНаправление глубокого обучения (Deep Learning) положило начало новой эре вычислений - говорит Ян Бак (Ian Buck) вице-президент по ускоренным вычислениям в NVIDIA ndash Используя большие массивы данных (Big Data) и мощные графические процессоры алгоритмы глубокого обучения способны решать задачи решение которых раньше представлялось невозможным Сегодня мы находимся на пороге революции в широком спектре областей промышленности ndash от вэб-услуг и розницы до здравоохранения и автоиндустрии Мы рады что графические процессоры NVIDIA становятся драйвером развития экосистемы Deep Learning Наша цель ndash предоставить исследователям и компаниям самую продуктивную платформу которая позволит ускорить их замечательные проектыraquo

Помимо сокращения времени на обучение нейронных сетей графические процессоры обладают рядом других преимуществ Архитектурная совместимость между поколениями позволит в будущем легко модернизировать графическую систему для увеличения ее производительности А растущий парк систем на базе платформы Tesla открывает двери для сотрудничества исследователям из разных стран мира запуская новую волну открытий и инноваций в мире машинного обучения

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 7: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 8

Система Big Sur оптимизирована для машинного обучения

Инженеры NVIDIA и Facebook оптимизировали дизайн системы Big Sur чтобы обеспечить максимальную производительность системы для задач машинного обучения включая обучение больших нейронных сетей с помощью нескольких графических процессоров Tesla Big Sur ставшая вдвое быстрей существующей системы Facebook позволит компании обучать вдвое больше нейронных сетей а также создавать вдвое бОльшие нейронные сети что в свою очередь позволит создавать более точные модели и новые классы передовых приложений

laquoКлюч к знаниям которые необходимы для создания более умных машин находится в возможностях наших вычислительных систем - говорит Серкан Пиантино (Serkan Piantino) технический директор FAIR - Прогресс в области машинного обучения и искусственного интеллекта за последние несколько лет был достигнут в первую очередь благодаря использованию мощных графических процессоров и больших массивов данных при создании и обучении передовых моделейraquo

Применение графических процессоров Tesla M40 поможет Facebook добиться новых успехов в области машинного обучения и позволит командам в рамках этой организации применять глубокие нейронные сети для различных продуктов и услуг

Первая вычислительная архитектура с открытым кодом для создания систем с искусственным интеллектом

Big Sur ndash это первая вычислительная система специально созданная для исследований в области машинного обучения и искусственного интеллекта которая обладает архитектурой с открытым кодом

Нацеленная на открытую работу и сотрудничество с комьюнити в области искусственного интеллекта компания Facebook планирует в сотрудничестве со своими партнерами открыть спецификации Big Sur в рамках проекта Open Compute Project Такой подход позволит исследователям во всем мире обмениваться опытом и совершенствовать работу в области искусственного интеллекта ускоряя прогресс в машинном обучении благодаря мощным ускоренным вычислениям

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 8: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 9

ИССЛЕДОВАТЕЛИ ЗАПУСКАЮТ СОВМЕСТНЫЙ ПРОЕКТ ПО СОЗДАНИЮ НАИБОЛЕЕ ТОЧНОЙ МОДЕЛИ МОЗГА ДРОЗОФИЛЫ Исследователи из университета Шеффилда запустили амбициозный проект целью которого является создание первой в истории точной модели мозга мушки дрозофилы

Они разрабатывает открытую программную платформу которая позволит исследователям со всего мира предоставлять данные модели и инструменты для создания точной модели мозга мушки дрозофилы

Многие гены и белки обнаруженные в человеческом мозге так же присутствуют в мозге дрозофилы Точная модель мозга мушки может помочь глубже понять природу таких недугов как болезнь Альцгеймера или заболевание двигательных нейронов а также идентифицировать потенциальные лекарственные средства для их лечения

Мозг мушки дрозофилы Предоставлено Авторское право (c) 2006-2015 Hanchuan Peng and HHMI - Janelia Research Campus изображение распространяется по лицензии Vaa3D

laquoЕдиная программная платформа которую мы разрабатываем позволит исследовательскому сообществу объединить свои усилия и создать биологически достоверную модель мозга мушки дрозофилы намного быстрее Благодаря этой платформе станет возможной интеграция данных полученных от разных научных сообществ со всего мираraquo - поясняет Даниэль Кока (Daniel Coca) профессор кафедры нелинейных и сложных систем в университете Шеффилда и руководитель проекта в Великобритании

Проект совместно основан Научно-исследовательским советом по биотехнологии и биологическим наукам Соединенного Королевства и Национальным научным фондом США На его реализацию заложено pound12 миллиона В проекте участвуют исследователи из университета Шеффилда Колумбийского университета города Нью-Йорк исследовательские лаборатории Стэнфордского Оксфордского университета и Национального университета Цинхуа а также компания NVIDIA

Мушка дрозофила - одна из самых популярных организмов для изучения нейрокомпьютерных вычислений и функционирования соответствующих структур мозга Ее мозг имеет многочисленные функциональные сходства с нашим собственным мозгом и демонстрирует особенности которые могут быть экспериментально исследованы с помощью методов генной инженерии

Мозг дрозофилы имеет 135 000 нейронов по сравнению с около 86 миллиардами нейронов в человеческом мозге Поэтому он представляет собой не настолько трудную вычислительную задачу Ученые уверены что первая laquoчерноваяraquo модель мозга человека которая будет содержать существующие нервные цепи и карты синаптических связей может быть смоделирована в ближайшее десятилетие

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 9: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 10

Сравнительная диаграмма демонстрирующая разницу в размерах головного мозга человека и мозга мушки дрозофилы Предоставлено Луис Кросби (Louise Crosby)Университет Шеффилда

laquoВ настоящее время реализуется несколько огромных проектов по созданию точной модели человеческого мозга но работа над ними будет продолжаться еще в течение многих лет Мы уверены что в реализации этих проектов значительно поможет понимание того как работает мозг меньшего размераraquo - рассказывает Аурель Лазар (Aurel Lazar) профессор кафедры электронной инженерии в Колумбийском университете и руководитель проекта в США

Для моделирования такой сложной системы программное обеспечение будет использовать массивно параллельные вычислительные возможности графических процессоров NVIDIA

laquoМоделирование нейронной системы на уровне отдельных нейронов представляет собой сложнейшую вычислительную задачу Использование энергоэффективных параллельных вычислений на GPU позволит нам масштабировать симуляции проливая свет на возникающие биологические процессыraquo - объясняет доктор Пол Ричмонд стипендиат ректора университета Шеффилда и соисследователь проекта

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 10: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 11

ИССЛЕДОВАТЕЛЬСКИЕ И УЧЕБНЫЕ ЦЕНТРЫ CUDA

ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ РАНИнститут системного программирования Российской академии наук (ИСП РАН) - один из ведущих институтов Российской академии наук в области информационных технологий ИСП РАН проводит исследования в области параллельного и распределенного программирования компиляторных технологий инструментов кроссплатформенной разработки для встраиваемых систем баз данных (включая технологии семантического анализа) и других

Исследовательский центр CUDA в ИСП РАН создан на базе отдела компиляторных технологий обладающего знаниями и опытом использования компиляторных технологий для анализа и оптимизации полученными при выполнении проектов для различных заказчиков Исследовательский центр CUDA в ИСП РАН проводит исследование программных моделей и компиляторов для графических ускорителей NVIDIA в том числе для гетерогенных систем использующих MPI OpenMP и CUDA для получения параллельной масштабируемости на различных уровнях Ниже перечислены проекты выполненные в Центре с применением компиляторных технологий

SpMV на графических процессорах ИСП РАН имеет задел в области анализа приложений определенного класса (растровые графические библиотеки и умножение разреженных матриц) и разработке эффективных приложений с использованием OpenMP и CUDA Мы создали новый формат хранения разреженных матриц который обеспечивает эффективную реализацию SpMV на графических процессорах NVIDIA формат Sliced ELLPACK сочетающий в себе черты форматов ELLPACK и CSR позволяющий эффективно использовать графический процессор сокращая при этом размер накладных расходов по сравнению с форматом ELLPACK для случая с большим разбросом количества ненулевых элементов в строках Благодаря доработкам формата и автоматической настройке наша реализация SpMV для CUDA на большом количестве тестов превосходит по производительности библиотеки cusp и CUSPARSE

Распараллеливание циклов в GCC В исследовательском центре были разработаны и реализованы преобразования в рамках фреймворка для преобразований циклов компилятора GCC (GRAPHITE) которые позволяют автоматически генерировать код OpenCL из параллельных циклов для языков C C++ и Fortran При обнаружении гнезда циклов которое может быть распараллелено (в настоящее время это циклы не имеющие перекрестных зависимостей между итерациями) оно превращается в ядро OpenCL при этом автоматически добавляются все вызовы необходимые для создания и компиляции ядер а также копирования памяти Полученная в результате преобразований программа может выполняться на многоядерных графических процессорах

Тестирование проводилось на наборах тестов SPEC CPU 2000 и Polyhedron на архитектуре x86-64 и графических процессорах NVIDIA Результаты экспериментов показывают ускорение (на тестовом наборе SPEC CPU2000 с отключенной моделью стоимости wupwise и lucas показали ускорение 7 анализатор замедляется на 53 на PolyKernels некоторые ядра ускоряются в 3 раза а matmul ускоряется в 3 раза на четырехядерном CPU и в 39 раз на графическом процессоре) Как бы то ни было накладные расходы на запуск OpenCL вносят ощутимый вклад так что наибольший выигрыш может быть получен на вычислительных программах в которых основное время работы приходится на распараллеливаемое гнездо циклов

Текущие проекты Исследовательского центра CUDA в ИСП РАН

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 11: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 12

OpenFOAM на графических процессорах Производительность современных графических карт на порядок выше по сравнению с центральным процессором если рассматривать пропускную способность памяти и параллельных арифметико-логических устройств Это преимущество может быть использовано для проведения вычислений с использованием API таких как CUDA или OpenCL Тем не менее достижение ускорения в существующих приложениях может быть сложной задачей из-за ограниченного параллелизма и необходимости использовать разные алгоритмы и структуры данных на графических процессорах

Мы разработали и реализовали решатели систем линейных уравнений для разреженных матриц (метод сопряженных градиентов с предобуславливанием и метод бисопряженных градиентов) в пакете OpenFOAM с открытым исходным кодом широко используемом для численного решения задач механики сплошной среды Работа направлена на поиск способов оптимизации для метода сопряженных градиентов в частности на разработку эффективного предобуславливателя конвейеризацию и использование смешанной точности Реализация включает в себя оптимизации для графических процессоров например асинхронное вычисление предобуславливателя и изменение порядка хранения строкастолбец для матрицы AINV Планируется разработка решателей для блочных случаев в которых система уравнений объединяет разные типы переменных превращая матрицу в блочную

Вычисления в OpenMP с использованием NVIDIA GPU В спецификации OpenMP начиная с версии 40 включена поддержка параллельных вычислений на акселераторах части исходного кода отмеченные программистом с использованием директивы pragma omp target могут быть скомпилированы и выполнены на ускорителе например на графической карте с поддержкой CUDA Такие области могут использовать и другие директивы для получения параллельного кода на ускорителе например pragma omp parallel for

ИСП РАН разрабатывает средства для поддержки выполнения программ OpenMP с использованием графических ускорителей NVIDIA для компилятора GCC используя в качестве основы средства поддержки OpenMP для ускорителей Intel MIC и OpenACC для целевой архитектуры NVIDIA PTX в GCC Эти работы включают в себя перенос библиотеки libgomp и улучшение генерации кода для архитектуры ускорителя NVIDIA

Ведущие исследователиДфмн Арутюн Аветисян директор ИСП РАН Защитил докторскую степень в области разработки компиляторов в Российской академии наук В область его научных интересов входят компиляторные технологии высокопроизводительные и облачные вычисления Он руководит несколькими проектами в числе которых поддержка гетерогенных систем на уровне компиляторов и разработка параллельных приложений в биологии Он является ведущим исследователем в национальной программе laquoУниверситетский кластерraquo в частности технологической платформы (unihubru) которая предоставляет возможность создание широкого спектра сервисов на базе единой инфраструктуры например удаленный доступ к оборудованию создание предметно-ориентированных веб-лабораторий и тд

Андрей Белеванцев исследователь и руководитель группы в отделе компиляторных технологий ИСП РАН Окончил аспирантуру в ИСП РАН по направлению компиляторные технологии и защитил кандидатскую диссертацию в 2008 году Возглавляет рабочую группу GCC областью научных интересов является компиляторные оптимизации основанные на планировании инструкций анализ алиасов межпроцедурные оптимизации и параллельное программирование

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 12: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 13

Александр Монаков исследователь в отделе компиляторных технологий ИСП РАН Окончил МГУ им Ломоносова в 2008 году В настоящее время заканчивает работу над кандидатской диссертацией в ИСП РАН участвует в разработке эффективной реализации параллельного умножения разреженной матрицы на вектор средств поддержки автоматической генерации параллельного кода для определенных классов циклов в компиляторе GCC для графических ускорителей NVIDIA и разработке инструментальных средств для распараллеливания некоторых классов приложений

Сергей Гайсарян руководитель отдела компиляторных технологий в ИСП РАН и профессор кафедры системного программирования в МГУ им Ломоносова Защитил кандидатскую диссертацию в Московском государственном университете им Ломоносова Область научных интересов включает в себя параллельное и распределенное программирование и оптимизирующие компиляторы Он обладает обширными знаниями в этой области накопленными за десятилетия разработки компиляторов

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 13: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 14

ВЕБИНАРЫ НА АНГЛИЙСКОМ ЯЗЫКЕ Последние записи на английском языке

Free OpenACC Course

Real time Low Latency Feature Tracking with ArrayFire

More Science Less Programming with OpenACC

Deep Learning Courses

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 14: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 15

НАУЧНЫЕ РАБОТЫ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛЕНИЙ НА CUDAОЦЕНКА ЭФФЕКТИВНОСТИ ГРАФИЧЕСКИХ ПРОЦЕССОРОВ НА ПРИМЕРЕ КВАНТОВО-ХИМИЧЕСКОГО МОДЕЛИРОВАНИЯ КОМПЛЕКСА ХИТОЗАНА

ВВ Лазарев ВВ Спеле АВ Юлдашев

Уфимский государственный авиационный технический университет

Подробнее

В последние годы гибридные системы оснащенные графическими процессорами (GPU) NVIDIA стали рабочей платформой для решения ресурсоемких задач квантово-химического моделирования и молекулярной динамики [1] Это произошло благодаря появлению поддержки программно-аппаратной архитектуры CUDA и следовательно возможности проведения расчетов на GPU NVIDIA в ряде популярных прикладных пакетов к примеру GAMESS-US Кроме того появились новые пакеты ориентированные исключительно на GPU например TeraChem

В нашей работе показана возможность существенного ускорения вычислений на GPU на примере квантово-химического расчета оптимальной геометрии молекулярного комплекса хитозана Линейный полисахарид хитозан (ХТЗ) ndash производное природного биополимера хитина привлекает в последнее время пристальное внимание исследователей благодаря сочетанию ряда уникальных свойств Совместимость ХТЗ с тканями человека его способность к биоразложению бактериостатичность и возможность образования поликатионной наноразмерной структуры делают его полимером пригодным для использования в медицинских целях В качестве численного эксперимента проводилась оптимизация молекулярной структуры комплексов олигомеров ХТЗ с ацетат-ионами использовались фрагменты [ХТЗ]n состоящие из двух мономерных молекул 2-амино-2-дегидро-βD-глюкопиранозы соединенные β-14-глюкозидными связями (55 атомов) Расчет оптимальных геометрических параметров комплекса проводился методом теории функционала плотности в приближении B3LYP6-31++G(dp)

Оптимизационная задача решалась на одном из гибридных узлов (2 x CPU Intel Xeon E5-2670 + 2 x GPU NVIDIA K20) вычислительного кластера УГАТУ в пакете TeraChem 150k Для сравнения аналогичная задача была решена в пакете GAMESS-US (версия от 05122014г) на центральных процессорах 1-4 узлов кластера При проведении расчетов в GAMESS-US процессоры NVID-IA задействованы не были тк на данный момент в пакете не поддерживается решение оптимизационных задач с привлечением GPU Для корректной сравнительной оценки вводились одинаковые исходные данные координаты атомов метод расчета базисный набор и критерий сходимости Полученные результаты приведены в таблице 1 из которой следует что решение данной задачи на двух GPU K20 в пакете TeraChem производится в 58 раз быстрее чем на 4 узлах кластера в пакете GAMESS-US а один шаг алгоритма оптимизации проходит быстрее приблизительно в 2 раза

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 15: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 16

Таблица 1 Время решения оптимизационной задачи на различных программно-аппаратных платформах

П р о г р а м м н ы й комплекс

Наименование процессора

Кол-во процессоров

Количество оптимизационных

шагов

Время вычислений с

GAMESS-US Xeon E5-2670 2 101 57 416

8 101 17 300

TeraChem Tesla K20 1 35 4 703

2 35 2 985

В дальнейшем планируется использование GPU для моделирования комплексообразования ХТЗ в растворах поликарбоновых кислот что позволит выяснить природу образования олигомеров ХТЗ а также образующихся полиэлектролитных комплексов

Литература1Волохов АВ и др Использование гибридных вычислительных узлов на базе GPU TESLA C2075 при проведении расчетов в области вычислительной химии и молекулярной динамики Параллельные вычислительные технологии (ПаВТrsquo2013) труды международ научн конф Челябинск Издательский центр ЮУрГУ 2013 ndash C 308-311

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 16: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 17

СУПЕРКОМПЬЮТЕРНЫЕ МЕТОДЫ МОДЕЛИРОВАНИЯ СВЯЗАННОЙ КВАНТОВОЙ СИСТЕМЫ КУБИТ-ИЗМЕРИТЕЛЬНЫЙ ОСЦИЛЛЯТОР

ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

Подробнее

В настоящее время во многих лабораториях мира ведутся теоретические и экспериментальные исследования новых элементов памяти ndash квантовых битов (кубитов) Функционирование кубитов основано на использовании принципа суперпозиции и эффекта перепутывания (entanglement) состояний что отличает их от классических систем Кубиты претендуют стать базовыми элементами квантового компьютера который позволит осуществить экспоненциальное увеличение скорости вычислений в таких задачах как поиск в базах данных распознавание образов решение сложных математических задач и проблем криптографии Отметим важные практические результаты в области современных квантовых информационных технологий разработаны и созданы резонаторы с фантастической добротностью развита техника работы с единичными квантовыми объектами (уединенными атомами электронами и фотонами локальными спинами и тп позволяющая создавать кубиты и осуществлять контроль за ними) продемонстрировано перепутывание состояний пространственно удаленных квантовых объектов (более чем на 1 метр) осуществлена фильтрация перепутанных состояний и манипулирование ими Интерес к квантовым технологиям подтверждается созданием первых коммерческих проектов по выпуску квантового криптографического оборудования (швейцарская ldquoid Quantiquerdquo и американская ldquoMagiQ Technologiesrdquo компании) и первого прототипа адиабатического ldquoквантовогоrdquo компьютера (канадская компания ldquoD-Waverdquo)

Перспективными кандидатами на роль твердотельных кубитов могут служить сверхпроводниковые проволоки с встроенными джозефсоновскими переходами ndash laquoджозефсоновские кубитыraquo Такие системы обладают малой диссипацией хорошей устойчивостью к шумам и относительно простым способом управления состояниями что важно в квантовой информатике при передаче хранении и обработке информации За последние годы достигнуты впечатляющие успехи в технологии производства и управления состояниями джозефсоновских кубитов что позволило приблизиться к требованиям выполнение которых необходимо для создания на их основе квантового компьютера Отметим здесь что именно на основе джозефсоновских кубитов реализовано наиболее значимое ldquoкоммерческоеrdquo достижение последнего времени ndash выпуск компанией D-Wave машины (D-Wave 2Xtrade System) состоящей из массива более чем 1000 кубитов и позволяющий осуществлять так называемый ldquoквантовый отжигrdquo ndash эволюцию системы связанных кубитов к глобальному минимуму энергии

Актуальным и важным аспектом для изучения работы кубитов и построения квантовой логики является разработка методов по проведению неразрушающих измерений состояния кубита Современные методы позволяют осуществлять ldquoоднократныеrdquo измерения (single-shot measure-ments) над кубитами то есть мониторинг состояний открытой квантовой системы в реальном времени Благодаря этому стало возможным исследовать динамику и характеристики отдельных квантовых систем как для каждой реализации так и в среднем по ансамблю измерений Эти эксперименты стимулировали интерес к исследованию ряда нерешенных вопросов являющихся принципиальными для практической реализации протоколов квантовых вычислений В частности речь идет об исследовании процессов релаксации кубитов которые происходят в виде квантовых скачков об изучении процессов томографии состояний кубита и эффектов взаимного влияния измерительного устройства на процесс детектирования состояний кубита а также изучении динамики перепутанных состояний многокубитных систем в зависимости от управляющих параметров (в различных условиях резервуарах при различных шумах и тд) имитирующее ситуацию в реальных экспериментах

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 17: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 18

Моделирование влияния шумовых эффектов (окружения) на интерференционные картины населенностей кубитов путем численного решения уравнения для матрицы плотности квантовым методом Монте-Карло выполнено в работе laquoСуперкомпьютерные методы моделирования связанной квантовой системы кубит-измерительный осцилляторraquo ВП Гергель МВ Денисенко АВ Линев ДС Пашин АМ Сатанин

В указанной выше работе выполнено численное моделирование процесса детектирования состояния кубита нелинейным бифуркационным осциллятором выступающим в качестве измерительного прибора С вычислительной точки зрения данная задача является крайне затратной поскольку измерительный прибор работает в квазиклассическом режиме а это требует вовлечение в рассмотрение большого числа уровней иными словами - решения огромного числа связанных дифференциальных уравнений Для расчета результатов процессов измерений имитирующих процессы измерений проводимых в реальных laquoоднократныхraquo экспериментах используется метод квантовых траекторий (квантовый метод Монте-Карло) Данный метод позволяет изучить поведение системы в единичных актах измерения (реализациях) и исследовать переход к усредненной (статистической) динамике из первых принципов а также в этом случае провести сравнение результатов полученных с помощью решения уравнения для матрицы плотности и метода квантовых траекторий что позволяет проанализировать эффект влияния классического измерительного прибора (нелинейного осциллятора) на состояния кубита и промоделировать процесс неразрушающего измерения состояний включая laquoраспутываниеraquo суперпозиционного состояния кубита Авторами разработан программный комплекс который базируется на современных технологиях гетерогенных суперкомпьютерных вычислений с использованием графических ускорителей (GPU технология CUDA) и кластерных методах распараллеливания (MPI) позволяющий моделировать диссипативную динамику квантовых многоуровневых систем Кроме этого программный комплекс может быть использован для численного моделирования проводимых экспериментов например по ldquoоднократнымrdquo измерениям состояний кубитов а также для численного проектирования новых экспериментов и приборов квантовой оптики на начальной стадии исследований Практические вычисления были выполнены на суперкомпьютере laquoЛобачевскийraquo (ННГУ)

Рисунок Изображение (а) со сканирующего электронного микроскопа джозефсоновского кубита и измерительного осциллятора-реализованного в виде сверхпроводящих проволочек со слабыми связями (б) временная развертка последовательности подачи импульсов при проведении одного акта laquoоднократныхraquo измерений Синий прямоугольник - управляющий импульс записи ( ) зеленый прямоугольник - импульс ldquoзапиткиrdquo измерительного сигнала ( ) оранжевая прямая соответствует времени ожидания а красная прямая (начиная с tr) ndash считыванию информации ( ) Временные зависимости усредненные по 10000 реализациям населенности уровней измерительного осциллятора (в) и кубита (г)

Rabiτ

oscτreadoutτ

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 18: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 19

ПОЛЕЗНЫЕ РЕСУРСЫ ПО CUDA

Группа вконтакте wwwvkcomnvidiacuda

Новый каталог с 370 приложениями ускоряемыми на GPU можно скачать по ссылке

Материалы GPU Technology Conference 2015 доступны по ссылке

Форум Разработчиков NVIDIAприсоединяйтесь к Форуму CUDA-разработчиков делитесь своим опытом и узнавайтемного нового httpdevtalknvidiacom

Документация по CUDAСо списком документации по CUDA можно ознакомиться здесь

Обучение онлайнUdacity | Coursera | Курс на русском языке

Библиотеки с поддержкой GPU ускоренияСписок библиотек с поддержкой GPU ускорения от NVIDIA и партнеров

GPU Тест-Драйв Хотите бесплатно протестировать Tesla Зарегистрируйтесь здесь

Ускоряйте научные приложения с OpenACCПротестируйте компилятор PGI OpenACC бесплатно в течение месяца Подробнее

Книги посвященные CUDA и вычислениям на GPUСо списком книг посвященных CUDA и вычислениям на GPU можно ознакомиться здесь

СкачайтеCUDA httpdevelopernvidiacomcuda-downloads Nsight httpwwwnvidiacomobjectnsighthtml

Страница NVIDIA в vkcomhttpsvkcomnvidia

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 19: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 20

ВАКАНСИИ CUDA ПРОГРАММИСТ GPU (OPENCLCUDA)

ООО АЙФИЛ

Москва

ОбязанностиbullРазработка модулей на С++ с использованием OpenCL иилиCUDAbullНаписание небольших скриптов-хелперов (Python)

ТребованияbullАналитическое мышлениеbullСпособность быстро оценивать задачу предлагать алгоритмы решенияbullСпособность быстро найти нужную информациюbullХорошее знание С++ (+ принципы ООП и знание стандартной библиотеки)bullБазовый опыт использования OpenCL или (или большое желание этот опыт получить)bullУмение писать чистый понятный кодbullСпособность ориентироваться в чужом кодеbullБазовые знания о кросс-платформенной разработкеbullБазовое знакомство с любой VCS (mercurial git)

Будет большим плюсомbullБазовое знание OpenCVbullЗнания в области обработки сигналов иили анализа изображений

УсловияbullИнтересные задачи требуется как работа в области анализа данных обработки изображений и машинного обучения так и программирование ldquoобщего назначенияrdquo (desktop)bullРабота в офисе полный день или удалённая работа (по выбору)bullВозможность относительно гибкого графика (нет фиксированного времени началаконца дня главное отработать 40 часов в неделю)bullУровень оплаты обсуждается на собеседовании и зависит от квалификации кандидатаbullВозможны премии по результатам работы (до 50 зарплаты)bullОфис на западе Москвы недалеко от метроbullОформление по ТКbullИспытательный срок 2 месяцаbullПосле испытательного срока обсуждается соц пакет (питание фитнес и т п)

Если у вас имеются OpenSource проекты которые вы хотели бы продемонстрировать - укажите ссылку на репозитории в резюме или в сопроводительном письмеВозможна частичная занятость или удалённая работа (условия обсуждаются)

Подробнее

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom

Page 20: CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 · и недель даже на самых быстрых компьютерах. Платформа Tesla позволяет сократить

CUDA АЛЬМАНАХ ДЕКАБРЬ 2015 21

КОНТАКТЫ

Если вы хотите чтобы ваша статья

появилась в следующем выпуске

CUDA Альманах пишите нам на

Лидия Андреева

landreevanvidiacom

По вопросам приобретения NVIDIA GPU и

по прочим техническим

вопросам пишите нам на

Антон Джораев

adzhoraevnvidiacom