3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/part...

33
3. НАУЧНАЯ ИНФРАСТРУКТУРА

Upload: others

Post on 04-Jul-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

3. НАУЧНАЯ ИНФРАСТРУКТУРА

Page 2: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 109

Вступление

Дэрон Грин (DARON GREEN) | Microsoft Research

Внимание! В статьях третьей части этой книги встре-чаются такие драматические метафоры, как «взрыв», «цунами» и даже «большой взрыв», чтобы проиллю-стрировать, как научные исследования будут транс-

формироваться созданием и доступностью больших объемов научных данных. Хотя образы могут отличаться, у авторов общая цель — решить вопрос, как нам следует изменить наше отношение к компьютерной науке, чтобы справиться с этими объемами данных. Выбор слов вызван возможностью про-рывов в исследованиях, обеспеченных огромными наборами данных, но он также подразумевает и масштабы возможных потерь, если наша исследовательская инфраструктура не бу-дет готова к выполнению таких задач.

Видение Эбботта (Abbott) в отношении всех научных ис-следований приводит нас к основному вопросу: должен ли возникнуть «новый путь для развития науки» в свете увели-чения количества данных и их растущей доступности, необ-ходимости в обмене информацией и сотрудничестве, а также меняющейся роли компьютерной науки. Он прагматично смотрит на будущее развитие научного сообщества и скеп-тичен в отношении того, до какой степени исследователи должны стремиться охватить такие техники, как онтологии и другие семантические технологии. Избегая устрашающих предзнаменований, Эбботт отчетливо характеризует разрыв между предложением научных знаний и потребностью част-ного и правительственного секторов.

Саутен (Southan) и Кэмерон (Cameron) исследуют «цуна-ми» данных, появляющихся в базе данных EMBL-Bank — сер-

Page 3: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 111НАУЧНАЯ ИНФРАСТРУКТУРА110

Новый путь для науки?

Научные задачи 21 века усилят партнерство прави-тельства, индустрии и науки, которое образовалось и вызрело за последние сто лет или около того. На-пример, в США, начиная с образования Националь-

ного научного фонда (National Science Foundation) в 1950 г., система национальных исследовательских университетов расцвела и сегодня доминирует в сегменте фундаментальных исследований. (Сегмент прикладных исследований, намного больший по размеру, изначально финансировался и внедрял-ся в частном секторе.)

Успешность этой системы преувеличить невозможно, но в основном она работает в пределах отдельных научных дис-циплин и поощряет усилия отдельных ученых при помощи публикаций, продвижения и должностей в образовательных учреждениях. Кроме того, вечное «беспокойство» системы означает, что исследователи постоянно ищут новые идеи и новые пути финансирования [1, 2]. Неожиданным результа-том работы этой системы является растущий разрыв между предложением научных знаний и спросом на такие знания со стороны частного и государственного секторов [3, 4]. Вну-тренняя система поощрений в университетах, а также систе-ма обзора работ коллегами, предпочитает исследовательские проекты, имеющие непосредственный интерес для научного сообщества, но не обязательно находящиеся вне академиче-ских кругов.

НОВЫЕ ДВИЖИТЕЛИ

Пришло время заново изучить базовые структуры нашего ме-ханизма исследований. Например, с учетом острой необходи-мости в новых методах для исследования климата и энергии в контексте рационального использования природных ресур-

МАРК Р. ЭББОТТ (MARK R. ABBOTT) Университет штата Орегон (Oregon State University)

висе информации по нуклеотидным последовательностям. В 3-й части этой кни-ги в качестве параметра оценки для различных научных предметных областей используется область генетического секвенирования, где скорость производства данных очень высокая (в данном случае прирост на 200% в год), что приводит к большим изменениям в объединении, процессах, резервном копировании, архивировании, качестве и сохранении данных, и это далеко не все отдельные направления.

Ларус (Larus) и Гэннон (Gannon) вселяют оптимизм, отмечая, что объемы данных легко поддаются обработке при использовании многоядерных техно-логий — конечно же, при условии, что мы сможем разработать новые модели программирования и абстракции, чтобы сделать такие технические инновации эффективными в многоцелевых приложениях для научных исследований.

Затем мы снова вернемся к метафоре катастрофы, вызванной приливом дан-ных, когда Гэннон и Рид (Reed) будут обсуждать, как параллельность и облако могут помочь с проблемами масштабируемости определенных классов вычис-лительных задач.

Отсюда мы переходим к роли инструментов компьютерных процессов для управления ключевыми задачами в шквале данных. Гобл (Goble) и Де Рур (De Roure) определяют преимущества и задачи, связанные с применением вычисли-тельных процессов к научным исследованиям и совместной работе. В конечном счете они отмечают, что процессы иллюстрируют первичность метода как важ-нейшей технологии в исследованиях с фокусом на данные.

Фокс (Fox) и Хендлер (Hendler) видят «семантическую е-Науку» как очень важный элемент в интерпретации взаимосвязей сложных концепций, терми-нов и данных. После объяснения потенциальных преимуществ семантических инструментов в исследованиях с фокусом на данные они исследуют отдельные задачи для их плавного внедрения. Они отмечают нестандартное участие науч-ного сообщества в разработке требований, а также нехватку согласованного об-суждения применимости семантических веб-технологий к научному процессу.

Далее Хансен (Hansen) и другие приводят четкое описание препятствий для визуализации крупных и сложных наборов данных. Они рассматривают зна-комые темы процесса, масштабируемости, производительности приложения, источников и взаимодействия пользователя, но с точки зрения визуализации. Они отмечают, что текущие методы анализа и визуализации намного отстают от наших возможностей создания данных, и приходят к выводу о необходимости междисциплинарных навыков для решения различных задач, таких как авто-матическая интерпретация данных, неопределенность, сводные визуализации, проверки и подтверждения.

Завершая наше путешествие сквозь опасности и возможности, Парастатидис (Parastatidis) рассматривает проблему реализации расширенной исследователь-ской инфраструктуры, основанной на знаниях. Он считает, что такая возмож-ность появится при объединении традиционных научных компьютерных ин-струментов, веб-инструментов, а также при выборе семантических методов.

Page 4: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 113112

по асинхронному соединению RS-232, модему или гигабитной ЛВС, стоит ли на рабочем столе ученого графический терминал VT100 или современная многоя-дерная рабочая станция. Доступ к виртуализированным (но распределенным) хранилищам данных и вычислительным возможностям через сеть возможен при помощи относительно маломощных устройств.

С момента создания EOSDIS закон Мура действует уже 25 лет. Хотя в общем мы наблюдаем фокус на повышении производительности и стремительном со-кращении соотношения цены и производительности, темп быстрых технологи-ческих инноваций создал огромное давление на традиционные методы проведе-ния научных исследований. Огромные количества данных в значительной мере сократили ценность их отдельного элемента, и мы уже ограничены не данными, а способностью их понимания. «Большое количество данных» должно относить-ся не только к централизованным хранилищам, но также и к намного большим объемам данных, доступных по сети в офисах, лабораториях, домах, а также по-

сов, фундаментальное исследование глобальной системы климата сохраняет свою актуальность, но представители бизнеса и разработчики политик задают вопросы, которые намного более междисциплинарны, чем ранее. Такой новый метод более схож с разработкой сценария в поддержку оценки и управления рисками, чем с традиционным решением проблем и погоней за знаниями ради знаний.

В науке о климате спрос нацелен на обратную связь между изменением климата и социоэкономическими процессами, редкие (но очень действенные) события, а также разработку адаптивных политик и протоколов управления. Сторона предложения науки предпочитает исследования физических и биоло-гических аспектов климатической системы в континентальном или глобальном масштабе, а также сокращение неопределенности (например, [5]). Такое несоот-ветствие спроса и предложения нарушает возможность общества эффективно и своевременно реагировать на изменяющийся климат.

ПОСЛЕДНЯЯ ИСТОРИЯ

Инфраструктура информационных технологий (ИТ) 25-летней давности хоро-шо подходила для состояния науки того времени. Объемы данных были относи-тельно небольшими, и поэтому каждый их элемент был драгоценным. ИТ-систе-мы были достаточно дорогими и доступными только для экспертов. Основной процесс был связан с системой сбора данных (например, лаборатория или поле-вые датчики), перемещением в систему хранения, обработкой и анализом дан-ных, их визуализацией и публикацией.

На рисунке 1 показана архитектура информационной системы для систе-мы обзора Земли (Earth Observing System Data and Information System, EOSDIS) NASA конца 1980-х годов. Хотя многие считают, что EOSDIS была слишком ам-бициозной (она планировалась в расчете на 1 терабайт данных в день), основ-ной аргумент против нее заключался в том, что она слишком централизована для системы, которая должна управляться наукой. EOSDIS должна была стать фабрикой данных, работающей с набором четких требований с небольшой воз-можностью вливания знаний или технологии. В конечном счете спор был не о централизованности или децентрализованности, а о том, кто будет управлять требованиями: научное сообщество или подрядчик NASA. Базовая архитекту-ра, с хорошо определенными (и относительно умеренными) потоками данных, а также смесью централизованных и распределенных компонентов, осталась без изменений, даже при том, что Интернет и объемы онлайн-данных выросли в геометрической прогрессии.

СЕГОДНЯШНИЙ ДЕНЬ

Сегодня набор национальных центров суперкомпьютеров, особенно с появле-нием «облачных вычислений», выглядит очень похожим на архитектуру, пока-занную на рисунке 1. Не имеет значения, выполняется ли подключение к сети

Внешние/внутренниепользователи

Клиент

Внешние источники данных

Удаленные сервера данных

Мультимедийноераспространение

Поглощениеданных

Обработкаданных

Поискпоставщика

сервиса

Advertisements

Поиски доступк данным

Прямой доступ

Поиск и доступ

к данным

Поглощенныеданные

Входящие и исхо-дящие данные

Выданные запросы

Доступность данных

Распределенныйпоиск

Сервер данныхEOSDIS

РекламаРазмещение рекламы

ПланированиеПланы

Информация словарей

Другие веб-сайты

Другие веб-сайты

Коллекции данных

Управлениелокальной системой Информация

по управлениюсистемой

РИСУНОК 1.

Информационная система для системы обзора Земли (EOSDIS) NASA — план 1989 г.

Page 5: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 115114

Вместо хорошо определенных сетей и фабрик данных, объединенных с ин-дивидуальной системой публикации, опирающейся на обзор работ коллегами и систему авторских прав, этот новый метод исследований будет более свободным и менее прогнозируемым, по своему подходу к выявлению знаний напоминая экосистему. Таким образом, он предусматривает свободные сети потенциаль-ных услуг, быстрые инновации, и намного более тесное сотрудничество между теми, кто создает знания, и теми, кто их использует. Как и в любой экосистеме, появляющееся (а иногда и непрогнозируемое) поведение будет доминирующей характеристикой.

Наши существующие институты — включая федеральные агентства и ис-следовательские университеты — будут озадачены этими новыми структура-ми. Физическая структура университета или миллионы долларов федераль-ных грантов не будут требоваться для доступа к данным и вычислениям, как и к новым партнерам. Более того, строгость штатных должностей и их четкая фокусировка на личных достижениях в отдельной научной дисциплине могут работать против этих новых методов. Нам нужна организация, которая объеди-няет естественные науки с социоэкономикой, балансирует науку и технологию, фокусируется на системном мышлении, поддерживает гибкие междисципли-нарные методы для решения проблем в долговременной перспективе, интегри-рует создание и использование знаний, а также выравнивает индивидуальные и групповые достижения.

Такая новая организация может открыть интегрированные методы для устойчивого развития в будущем, которые будут направлены на понимание все-го многообразия вариантов будущего развития. Она будет фокусироваться на процессах глобального масштаба, заявленных на региональном уровне с четки-ми социально-экономическими последствиями. В отличие от традиционной ака-демической организации с ее относительно статическим набором профессор-ских должностей, новая организация сможет принимать на себя больше рисков, создавать и развивать новые партнерства, и привлекать талантливых специали-стов для решения конкретных задач. Мы соберем людей со всего мира, как в фильме «Миссия невыполнима», для решения конкретных проблем — в данном случае, вопросов изменения климата.

КАК ЭТО СДЕЛАТЬ

Как сегодняшние информационные технологии могут поддержать этот новый тип организации и новый тип науки? В эру EOSDIS предполагалось, что реля-ционные базы данных дадут основные сервисы, необходимые для управления большими объемами данных, поступающих со спутников системы обзора Земли. Технология баз данных не охватывает инновации системы, которой управляется наука, хотя она и дала основные сервисы для стандартных продуктов информа-ции системы обзора Земли. Сегодня семантически структурированные сети и онтологии предлагаются в качестве средства поддержки обнаружения знаний и взаимодействия. Однако, как и в случае с базами данных, возможно, что научное

средством датчиков и портативных устройств. Поэтому вычисления с использо-ванием большого количества данных должны рассматриваться, как нечто боль-шее, чем просто возможность хранения и перемещения более крупных объемов данных. Сложность этих новых наборов данных и увеличивающееся разнообра-зие таких потоков данных делает традиционную вычислительную модель с цен-тром обработки данных устаревшей для современных научных исследований.

ПОСЛЕДСТВИЯ ДЛЯ НАУКИ

Информационные технологии влияют на научное сообщество двумя способа-ми. Во-первых, они привели к массовости хранилищ данных и вычислительных мощностей. Такие сервисы являются разумным вариантом для научных задач, которые могут выполняться при помощи стандартных сервисов. Всегда намно-го экономичнее использовать низкодоходные и объемные сервисы при помощи централизованных механизмов, таких как облачные вычисления. Поэтому все больше университетов полагаются на такие сервисы для резервного копирова-ния данных, электронной почты, приложений для повышения производитель-ности офиса и других задач.

Второй путь, которым ИТ влияет на научное сообщество, — это радикальная персонализация. Имея персональный доступ к терафлопам вычислений и тера-байтам хранилищ, ученые могут создавать свои собственные вычислительные облака. Инновации и новые научные сервисы приходят из сетей, а не из управ-ляемых продуктами центров обработки данных. Более того, вскоре не только ученые, но огромное количество датчиков и лабораторных приборов будут под-ключены к Интернету со своими собственными локальными сервисами вычис-ления и хранения. Задача заключается в использовании мощности этой новой сети массивно распределенных сервисов знаний.

Сегодня научные открытия происходят не только за счет хорошо определен-ного и оживленного процесса тестирования гипотез. Большие объемы данных, комплексные и сложные в обнаружении взаимосвязи, интенсивность и смеще-ние взаимодействия дисциплин, а также новые типы публикации практически в реальном времени добавляют в научные методы обнаружение шаблонов и правил [6]. Мы можем увидеть схождение этого нового типа исследований с ис-пользованием большого количества данных и нового поколения возможностей информационных технологий, особенно в сфере науки о климате и связанных с ней политик.

Выравнивание спроса и предложения в науке в контексте продолжающейся научной неопределенности будет зависеть от поиска новых связей, преодолева-ющих языковые и культурные барьеры для возможности взаимодействия, и объ-единения моделей и данных для оценки сценариев. Этот процесс больше похож на сетевые игры, чем на традиционный научный метод. Для охвата важных эле-ментов сохранения данных, взаимодействия, источников и отчетности в крайне распределенном и насыщенном данными исследовательском сообществе требу-ются новые методы.

Page 6: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 117НАУЧНАЯ ИНФРАСТРУКТУРА116

КРИСТОФЕР САУТЕН (CHRISTOPHER SOUTHAN) ГРЭМ КЭМЕРОН (GRAHAM CAMERON) Европейская лаборатория молекулярной биологии (European Molecular Biology Laboratory, EMBL) — Европейский институт биоинформатики (European Bioinformatics Institute, EBI)

За пределами цунами: Разработка

инфраструктуры для данных наук о жизни

Научные революции трудно оценить, но скорость по-явления новых данных в науке увеличилась настоль-ко, что для оценки величины этого эффекта на все сферы достаточно изучить отдельную сферу наук о

жизни. На рисунке 1 на следующей странице иллюстрирует-ся огромное увеличение количества индивидуальных основа-ний, переданных мировым сообществом экспериментаторов в Базу данных по нуклеотидным последовательностям Евро-пейской лаборатории молекулярной биологии1 (EMBL-Bank). Количество поданной информации сейчас растет со скоро-стью 200% в год.

Опекунство над информацией выполняет Международ-ное партнерство по базам данных нуклеотидных последо-вательностей (International Nucleotide Sequence Database Collaboration, INSDC), которое состоит из японского банка данных ДНК (DNA Data Bank of Japan, DDBJ), GenBank в США и EMBL-Bank в Великобритании. Эти три хранилища обмени-ваются данными ежедневно. В мае 2009 г. общее количество составляло около 250 млрд баз в 160 млн записей.

Недавно переданный в EMBL-Bank документ под номе-ром FJ982430 иллюстрирует скорость образования данных и эффективность мировой инфраструктуры биоинформатики в ответ на кризис здоровья. Он содержит полную последова-

сообщество будет неохотно использовать эти сложные инструменты в любых на-правлениях, кроме наиболее обыденных задач.

Наконец, цифровые технологии могут предоставить только относительно ограниченные описания всего богатства и комплексности реального мира. Кро-ме того, для поиска необычного и неожиданного требуется креативность и оза-рения — процессы, которые сложно представить в жесткой цифровой системе. С другой стороны, простое применение основанных на использовании стати-стических корреляций, подобных PageRank1, не обязательно приведет к обна-ружению редкого и неожиданного. Однако новые ИТ-инструменты для мира, использующего большое количество данных, могут предоставить возможность «фильтрования» таких объемов данных до управляемого уровня, а также сер-висы визуализации и представления для упрощения получения креативных от-крытий и построения партнерских отношений.

Архитектура для вычислений с использованием большого количества дан-ных должна основываться на сервисах хранения, вычисления и представления в каждом узле взаимосвязанной сети. Предоставление стандартных систем с воз-можностью расширения, включающих в себя инновации, должно поддерживать формирование и развитие таких «экосистем» знаний с изменением науки о кли-мате и связанных с ней политик.

ССЫЛКИ

[1] D. S. Greenberg, Science, Money, and Politics: Political Triumph and Ethical Erosion. Chicago: University of Chicago Press, 2001.

[2] National Research Council, Assessing the Impacts of Changes in the Information Technology R&D Ecosystem: Retaining Leadership in an Increasingly Global Environment. Washington, D.C.: National Academies Press, 2009.

[3] D. Sarewitz and R. A. Pielke, Jr., «The neglected heart of science policy: reconciling supply of and demand for science», Environ. Sci. Policy, vol. 10, pp. 5—16, 2007, doi: 10.1016/ j.envsci.2006.10.001.

[4] L. Dilling, «Towards science in support of decision making: characterizing the supply of carbon cycle science», Environ. Sci. Policy, vol. 10, pp. 48—61, 2007, doi: 10.1016/j.envsci.2006.10.008.

[5] Intergovernmental Panel on Climate Change, Climate Change 2007: The Physical Science Basis. New York: Cambridge University Press, 2007.

[6] C. Anderson, «The End of Theory», Wired, vol. 16, no. 7, pp. 108—109, 2008.

1 Основной алгоритм поискового механизма Google. 1 www.ebi.ac.uk/embl

Page 7: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 119118

тельность подъединицы H1 из 1699 оснований от первого случая ново-го вируса гриппа H1N1 в Дании. Он был передан 4 мая 2009 г. — через несколько дней после диагностиро-вания первого инфицированного че-ловека. С момента начала мировой эпидемии H1N1 в 2009 г. было пере-дано намного больше последователь-ностей подъединиц вируса из США, Италии, Мексики, Канады, Дании и Израиля.

EMBL-Bank находится в Европей-ском институте биоинформатики, научной организации из Кембриджа, Великобритания, которая входит в состав Европейской лаборатории мо-лекулярной биологии. EBI является центром исследований и сервисов в биоинформатике. Он содержит био-логическую информацию, включая нуклеиновую кислоту, последова-тельности протеина и макромолеку-лярные структуры. Соседний Инсти-тут Сенгера (Wellcome Trust Sanger Institute) создает около 8% мировых данных о последовательностях. Оба

этих института в университетском городке Wellcome Trust Genome располагают учеными, которые создают данные и администрируют базы данных, в которые они поступают, биокураторами, предоставляющими аннотации, биоинформа-тиками, которые разрабатывают аналитические инструменты, и группами ис-следователей, которые ведут поиск биологических знаний и консолидируют их в ходе дальнейших экспериментов. Следовательно, это сообщество, где каждый день сталкиваются с проблемами, окружающими компьютерную инфраструк-туру, хранение и поиск данных, и где непрерывно изучаются варианты решений локального и глобального взаимодействия.

Общее название сервиса информации о нуклеотидных последовательно-стях — Европейский нуклеотидный архив (European Nucleotide Archive) [1]. В его состав входят EMBL-Bank и три других хранилища, которые были созданы для новых типов получаемых данных: Trace Archive для отслеживания данных от капиллярных приборов первого поколения, Short Read Archive для данных от приборов секвенирования следующего поколения и вспомогательный Trace Assembly Archive, в котором хранятся совмещения процессов считывания по-

следовательностей со ссылками на готовые по-следовательности генома в EMBL-Bank. Данные всех архивов подвергаются регулярному обмену с Национальным центром информации био-технологий (National Center for Biotechnology Information) в США. На рисунке 2 сравниваются размеры EMBL-Bank, Trace Archive и Short Read Archive.

ЗАДАЧИ СЕКВЕНИРОВАНИЯ СЛЕДУЮЩЕГО ПОКОЛЕНИЯ

Появление в 2005 г. так называемых приборов секвенирования следующего поколения, способ-ных производить миллионы операций считыва-ния последовательности ДНК за один проход, не только привело к огромному увеличению генетической информации, но и вывело био-информатику и исследования в области наук о жизни в общем на передний край развития инфраструктуры для хранения, перемещения, интерпретации и визуализации наборов данных в петамасштабе [2]. Short Read Archive, европей-ское хранилище для данных от этих машин, по-лучило 30 терабайт (Тб) данных в первые шесть месяцев работы — что эквивалентно почти 30% всей информации EMBL-Bank, накопленной за более чем 28 лет с момента начала сбора инфор-мации. Внедрение новых приборов и техниче-ских разработок не только увеличит количество

передаваемой в этот архив информации в ближайшие несколько лет, но и станет прелюдией прихода систем секвенирования ДНК «следующего-следующего по-коления» [3].

Для обеспечения этой потребности EBI увеличил объем хранилища с 2,5 тыс. Тб (2,5 Пб) в 2008 г. до 5 тыс. Тб (5 Пб) в 2009 г. — с учетом ежегодного удвоения. Даже если темп роста объемов сохранится, могут возникнуть другие узкие места, так как ограничения ввода-вывода переходят к другим частям инфраструктуры. Например, в таком масштабе традиционное резервное копирование становится непрактично медленным. Действительно, при гипотетической потере данных в EBI на восстановление понадобятся месяцы. Это означает, что более эффектив-ным вариантом становится потоковая репликация исходных данных с сохране-нием копий в нескольких местах. Другим примером узкого места является то, что технические достижения в скоростях передачи данных сейчас опережают

Масштаб в млрд

1982

1985

1990

2000

2005

2009

1995

Темпы роста EMBL-Bank

150

0

300

250

100

200

50

3 января 2009 г.:270,3 млрд

Коли

чест

во о

снов

аний

Дата выпуска

РИСУНОК 1.

Увеличение количества оснований, переданных в EMBL-Bank с 1982 г. по начало 2009 г.

1.7

0.27

1.5

75

1.9

30

Объем (тераоснований)

Капиллярные следыСчитывания следующих геномовСобранная последовательность

Объем (терабайт)

РИСУНОК 2.

Размер в объемах данных и но-мерах нуклеотидов EMBL-Bank, Trace Archive и Short Read Archive по состоянию на май 2009 г.

Page 8: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 121120

возможности записи на диск — около 70 мбит/с, без ожиданий существенного увеличения производительности. Эту проблему можно решить записью на не-сколько дисков, но при значительном увеличении стоимости.

Неумолимое повышение нагрузки вызывает необходимость постоянной оценки баланса между передачей выявленных данных в хранилища и локаль-ным хранением необработанных результатов приборов. Ученые на всех этапах процесса, экспериментаторы, операторы приборов, администраторы центров обработки данных, биоинформатики и биологи, анализирующие результаты, столкнутся с необходимостью участия в процессах принятия решений о стра-тегиях в отношении хранилищ. Например, в лабораториях, использующих высокопроизводительные приборы секвенирования, стоимость сохранения не-обработанных данных для конкретного эксперимента уже приближается к сто-имости повторения такого эксперимента. Исследователи могут отказываться от идеи удаления необработанных данных после обработки, но на это прагматич-ное решение стоит посмотреть повнимательнее. Решения, вызывающие меньше разногласий, включают в себя сортировку вариантов сокращения данных меж-ду необработанными результатами, вызовами баз, считыванием последователь-ностей, групп и последовательностей общих элементов генома. Примером та-кого решения может быть FASTQ, текстовый формат хранения нуклеотидных последовательностей и оценок их качества, с кодировкой единственным сим-волом ASCII. Разработанный в Институте Сенгера, он недавно стал стандартом для хранения результатов приборов секвенирования следующего поколения. Он может обеспечивать 200-кратное сокращение объема данных — то есть 99,5% необработанных данных можно отбрасывать. Сейчас ведутся разработки даже еще более сжатых представлений данных последовательности.

ГЕНОМЫ: СВОРАЧИВАНИЕ ПРОИЗВОДСТВЕННОЙ ЛИНИИ

Получение полных геномов намного опережает наше понимание биологии и эволюции. Впечатляющий прогресс показан на рисунке 3, который отображает увеличение проектов секвенирования геномов в онлайн-базе данных геномов (Genomes OnLine Database, GOLD).

При том, что иллюстрация создана на основе всех глобальных проектов секвенирования, многие из этих геномов доступны для анализа на веб-сайте Ensembl, который совместно поддерживают EBI и Институт Сенгера. На графи-ке видно, что к 2010 г. было начато намного более 5 тыс. проектов генома, и более чем в 1 тыс. были получены полные группы. Последний заметный пример — это геном коровы [4], полученный после генома цыпленка, за которым вскоре последуют все основные сельскохозяйственные виды. Они не только помогут расширить наше понимание эволюции и одомашнивания млекопитающих, но также ускорят генетические достижения для фермерского хозяйства и произ-водства пищевых продуктов.

ПОВТОРНОЕ СЕКВЕНИРОВАНИЕ ГЕНОМА ЧЕЛОВЕКА: ДАЛЬНЕЙШЕЕ УВЕЛИЧЕНИЕ МАСШТАБА ДАННЫХ

Недавние полногеномные изучения генетической изменчивости углубили наше понимание основных заболева-ний человека. Они мотивировали об-разование международного консор-циума для разработки расширенного каталога последовательностей для раз-личных народов. В следующие три года Институт Сенгера, Пекинский институт геномики (BGI Shenzhen) в Китае и Крупномасштабная програм-ма секвенирования генома (Large-Scale Genome Sequencing Program) в Национальном институте исследова-ния генома человека (National Human Genome Research Institute) США пла-нируют секвенировать не менее 1 тыс. геномов человека.

В 2008 г. в пробной фазе проекта создавалось около 1 тераоснований (триллион оснований) данных после-довательностей в месяц; это количе-ство должно удвоиться в 2009 г. Общее количество должно составить около 20 тераоснований. Необходимость в наличии около 30 байт дискового про-

странства на одно основание последовательности можно экстраполировать при-мерно в 500 ТБ данных для проекта в целом. Для сравнения, первоначальному проекту генома человека понадобилось около 10 лет для создания примерно 40 гигаоснований (миллиардов оснований) последовательности ДНК. В следующие два года в день будет секвенироваться до 10 млрд оснований, что сопоставимо примерно с двумя геномами человека (2,85 млрд на человека), каждые 24 часа. Завершенный набор данных из 6 триллионов оснований ДНК будет в 60 раз больше данных последовательности, показанных на рисунке 1 выше.

РАЗУМНОЕ ОСНОВАНИЕ ДЛЯ УПРАВЛЕНИЯ ДАННЫМИ: ПЕРЕХОД К НОВЫМ ЗНАНИЯМ

Еще до появления эскиза генома человека в 2001 г. биологические базы дан-ных перемещались с периферии в центр современных научных исследований,

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

4000

2500

1000

0

4500

3500

1500

2000

3000

500

Проекты секвенированиягенома в GOLD

Прое

кты

Год

Январь 2009 г.: 4370 проектов

Неполные

Полные

РИСУНОК 3.

Увеличение количества начатых и завершен-ных проектов генома с 1997 г. в онлайн-базе геномов (GOLD). Информация предоставлена GOLD.

Page 9: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 123122

что приводило к проблеме отставания возможности получения данных от воз-можности их создания. В результате возникла необ-ходимость в новых методах полного использования не только данных генома, но и других наборов высокопро-изводительных результиру-ющих множеств, которые хранятся в базах данных. Эти наборы результирую-щих множеств также стано-вятся более нейтральными к гипотезам в сравнении с традиционными сфокуси-рованными эксперимента-ми небольшого масштаба. Статистика использования сервисов EBI, показанная на рисунке 4, показывает, что биологическое сообщество при поддержке своих парт-неров — специалистов био-информатики — использу-ют эти ресурсы все чаще и чаще.

Веб-страницы, связанные с 63 базами данных, которые хранятся в EBI, сейчас опрашиваются более 3,5 млн раз в день, что составляет более полумиллиона уни-кальных пользователей в месяц. Хотя это не совпадает с ускорением накопления данных, подтверждения устойчивого увеличения в добыче данных предостав-ляются показателями программного доступа к веб-услугам, которые приближа-ются к 1 млн в месяц. Для еще большего упрощения использования данных EBI разрабатывает систему поиска EB-eye с использованием открытых стандартов, которая предоставит общую точку входа. За счет индексирования в различных форматах (таких как плоские файлы, XML-дампы и формат OBO), система пре-доставляет быстрый доступ и позволяет пользователю выполнять поиск по всем базам данных EBI или по отдельным выбранным источникам.

ЕВРОПЕЙСКИЕ ПЛАНЫ ПО КОНСОЛИДАЦИИ ИНФРАСТРУКТУРЫ

Ресурсы EBI эффективно реагируют на увеличение спроса со стороны созда-телей и пользователей данных, но для увеличения масштаба для наук о жизни в Европе требуется перспективное планирование. Это миссия проекта ELIXIR, направленного на обеспечение надежной распределенной инфраструктуры для максимального увеличения доступа к биологической информации, которая сей-час находится в более чем 500 базах данных по всей Европе. Проект решает не только проблемы управления данными, но и вопросы надежного финансиро-вания для сохранения коллекций данных и глобального сотрудничества. Также ожидается, что он создаст процессы для разработки коллекций для новых типов данных, с поддержкой взаимодействия инструментов биоинформатики и разра-боткой стандартов и онтологий биоинформатики.

Развитие проекта ELIXIR проходит параллельно с переходом в новую фазу, где высокопроизводительные вычисления с использованием большого количе-ства данных становятся важными для прогресса наук о жизни [5]. Точно пред-угадать последствия исследования невозможно, но можно дать определенные подсказки. Выполняя добычу данных не только во все более сложных наборах, созданных при секвенировании генома, о чем говорилось выше, но и в данных транскрипта, информации протеомики и результатах конструкционной гено-мики, биологи получат новые знания о процессах жизни и их развитии. Это в свою очередь даст новые возможности прогноза для синтетической и системной биологии. Помимо глубокого влияния на будущие научные исследования, такой управляемый данными прогресс также перейдет в более прикладные области науки — такие как фармацевтические исследования, биотехнологии, медици-на, здравоохранение, сельское хозяйство и экология — для повышения качества жизни каждого из нас.

ССЫЛКИ

[1] G. Cochrane et al., «Petabyte-scale innovations at the European Nucleotide Archive», Nucleic Acids Res., vol. 37, pp. D19—25, Jan. 2009, doi: 10.1093/nar/gkn765.

[2] E. R. Mardis, «The impact of next-generation sequencing technology on genetics», Trends Genet., vol. 24, no. 3, pp. 133—141, Mar. 2008, doi: 10.1016/j.physletb.2003.10.071.

[3] N. Blow, «DNA sequencing: generation next-next», Nat. Methods, vol. 5, pp. 267—274, 2008, doi: 10.1038/nmeth0308-267.

[4] Bovine Genome Sequencing and Analysis Consortium, «The genome sequence of taurine cattle: a window to ruminant biology and evolution», Science, vol. 324, no. 5926, pp. 522—528, Apr. 24, 2009, doi: 10.1145/1327452.1327492.

[5] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

CGI

2005 2006 2007 2008 20090

200,000

400,000

600,000

800,000

1,000,000

API

Увеличение доступа к EBI

Коли

чест

во за

дач

Год

РИСУНОК 4.

Веб-доступ (Общий шлюзовый интерфейс (Common Gateway Interface, CGI)) и использование веб-сервисов (интерфейс прикладного программирования (application programming interface, API)), зарегистрированные на сер-верах EBI с 2005 по 2009 г.

Page 10: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 125

ДЖЕЙМС ЛАРУС (JAMES LARUS) ДЕННИС ГЭННОН (DENNIS GANNON) Microsoft Research

Многоядерные вычисления и научные открытия

Во второй половине прошлого столетия параллельные компьютеры, параллельные вычисления и научные ис-следования развивались вместе. Постоянная необходи-мость исследователей и ученых в проведении большего

количества более объемных вычислений намного опередила возможности традиционных компьютеров. Единственный метод, который отвечает этой необходимости в параллельно-сти — вычисление более чем одной операции одновременно. С одной стороны, параллельность — простая и легкая задача для практической реализации. Создать параллельный ком-пьютер путем дублирования ключевых компонентов, таких как арифметический блок или даже процессор, не так уж и сложно. Но намного труднее создать хорошо сбалансирован-ную машину, которая не блокируется внутренними узкими местами. И основной проблемой было не аппаратное обеспе-чение, а программное. Проектировать, писать, отлаживать и настраивать параллельные программы намного сложнее, чем последовательные, и они еще не стали зрелой и распростра-ненной практикой.

ЭВОЛЮЦИЯ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ

Эволюция успешных поколений аппаратного обеспечения параллельного вычисления привела к переоценке параллель-ных алгоритмов и программного обеспечения. Первые ком-пьютеры, такие как IBM Stretch, Cray I и серия Control Data Cyber проявляли параллельность в виде векторных операций. Cray II, Encore, Alliant и множество поколений компьютеров IBM были созданы с несколькими процессорами и общей па-мятью. Так как выяснилось, что при использовании общей па-

Page 11: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 127126

мяти увеличивать количество процессоров сложно, конструкции развивались в системы, где память не была общей, и процессоры обменивались информацией при помощи передачи сообщений. Кластеры Beowulf, состоящие из стоек стан-дартных ПК, соединенных по сети Ethernet, возникли в качестве экономичного метода супервычислений. Сети увеличили пропускную способность и задержку, и такая форма распределенных вычислений стала основной для суперкомпью-теров. Другие системы, такие как многопотоковые платформы Cray, продемон-стрировали наличие различных возможностей решения проблемы параллель-ности с общей памятью. В то время как сообщество научных вычислений решало задачи программирования для каждого поколения этих экзотических машин, миру основных вычислений вполне хватало последовательного программиро-вания на машинах, где любой параллелизм скрыт от программиста в глубинах аппаратного обеспечения.

В последние несколько лет с появлением многоядерных компьютеров па-раллельные компьютеры вошли в основной поток вычислений. Ранее большая часть компьютеров была последовательной, и они выполняли одну операцию в единицу времени. Закон Мура вызвал улучшения в технологии полупроводни-ков, которая удваивает количество транзисторов на чипе каждые два года, что повысило тактовую частоту компьютеров в таком же объеме и позволило при-менять компьютеры для более сложных задач. В результате производительность компьютеров росла примерно на 40% в год, начиная с 1970-х гг., и этот темп под-ходил большинству разработчиков ПО и пользователям компьютеров. Такое постоянное развитие завершилось, так как при повышении тактовой частоты требуется больше мощности, и примерно на отметке 3 ГГц чипы достигли пре-делов экономичного охлаждения. Производители компьютерных чипов, такие как Intel, AMD, IBM и Sun, перешли к многоядерным процессорам, в которых каждое новое поколение транзисторов по закону Мура удваивает количество независимых процессоров на чипе. Каждый процессор работает не быстрее сво-его предшественника, а иногда и немного медленнее, но в целом многоядерный процессор может работать в два раза быстрее своего предшественника.

ПРОБЛЕМЫ ПАРАЛЛЕЛЬНОГО ПРОГРАММИРОВАНИЯ

Новое поколение компьютеров сталкивается с теми же проблемами программ-ного обеспечения, с которыми научное сообщество боролось на протяжении всей долгой истории параллельных компьютеров. Наиболее впечатляющее уни-версальное программное обеспечение написано для последовательных компью-теров, и на многоядерных оно не будет работать быстрее. Для использования всего потенциала этих машин требуется новое параллельное программное обе-спечение, которое сможет разбивать задачу на несколько частей, решать их бо-лее-менее независимо, и собирать результаты в общий ответ. Поиск лучших пу-тей для создания параллельного программного обеспечения в настоящее время является наиболее актуальной проблемой, с которой сталкивается сообщество разработчиков ПО, и полем для существенных исследований и разработок.

Научное и техническое сообщество могут выиграть от этих усилий и помочь в их развитии. В научном сообществе появилось множество техник параллельного программирования, и такой опыт повлиял на поиск новых методов программи-рования многоядерных компьютеров. Будущие достижения в области програм-мирования многоядерных компьютеров будут выгодны для всех разработчиков ПО, так как разница между вычислениями для передовых научных сообществ и вычислениями общего назначения стерлась неизбежностью параллельных вы-числений в качестве фундаментальной парадигмы программирования.

Одна из ключевых проблем параллельного программирования сегодня за-ключается в том, что оно, как правило, выполняется с очень низким уровнем обобщения. Программисты должны разбивать свой код на части, которые вы-полняются на отдельных процессорах и коммуницируют между собой при по-мощи записи в общую память или обмена сообщениями. Во многом это похоже на первые дни существования компьютеров, когда программы писались на язы-ках ассемблера для конкретного компьютера, а для работы на другом компью-тере их нужно было переписывать. В обеих ситуациях проблема заключалась не только в нехватке возможности повторного использования программ, но и в том, что разработка на языке ассемблера была менее производительной и устой-чивой к ошибкам, чем написание программ на языках более высокого уровня.

УСТРАНЕНИЕ ПРОБЛЕМ

Для повышения уровня создания параллельных программ ведутся исследова-ния по нескольким направлениям. Наиболее старой и хорошо определенной идеей является программирование с распараллеливанием данных. В этой пара-дигме программирования операция или последовательность операций приме-няется одновременно ко всем элементам в наборе данных. Глубина детализации операции может разниться от добавления двух чисел в параллельном сложении данных двух матриц до сложных расчетов добычи данных в вычислениях типа «map-reduce» [1]. Привлекательность вычислений с распараллеливанием дан-ных заключается в том, что параллельность практически полностью скрыта от программиста. Каждое вычисление выполняется в изоляции от других расчетов с другими данными, а код, определяющий вычисление, является последователь-ным. Разработчику не нужно заботиться о деталях перемещения данных и запу-ска вычислений, так как этим занимается исполняющая система. Графические процессоры предоставляют аппаратную поддержку для такого типа програм-мирования, и недавно появились графические процессоры общего назначения, которые выполняют высокопроизводительные числовые вычисления.

К сожалению, распараллеливание данных — это программная модель, ко-торая работает не для всех типов задач. Для некоторых вычислений требуется больше связи и координации. Например, при складывании протеина усилия на всех атомах рассчитываются параллельно, но локальные взаимодействия вы-числяются отличным от удаленных взаимодействий методом. Другие примеры вычислений, которые сложно записать в виде программ с распараллеливанием

Page 12: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 129128

данных, включают в себя различные формы адаптивного уплотнения расчетной сетки, которые используются во многих современных физических моделях, где локальные структуры, такие как сгустки вещества или трещины в структуре ма-териала, требуют более высокого пространственного разрешения, чем осталь-ная часть системы.

Другая идея, которая недавно привлекла внимание исследователей — это па-мять транзакций — механизм координации обмена данными в многоядерном компьютере. Обмен данными является богатым источником ошибок програм-мирования, так как разработчику нужно убедиться, что процессор, который изменяет значение данных, имеет эксклюзивный доступ к ним. Если другой процессор также пытается получить доступ к данным, одно из двух обновле-ний будет утеряно, и если процессор считывает данные слишком рано, он мо-жет увидеть несогласованное значение. Наиболее распространенным механиз-мом исключения этого типа ошибок является блокировка, которую использует программа для запрета одновременного доступа более чем одному процессору к определенному месту памяти. Но, к сожалению, блокировки являются низ-коуровневыми механизмами, которые легко и часто неправильно используются таким образом, что обеспечивают параллельный доступ и приводят к взаимной блокировке, которая замораживает выполнение программы.

Память транзакций является абстракцией более высокого уровня, позволяю-щей разработчику определить группу операторов программы, которая должна исполняться штучно — то есть если в это же время не выполняется другая часть программы. Поэтому вместо необходимости в установке блокировок для всех данных, к которым могут иметь доступ операторы, разработчик переносит эту нагрузку на исполняющую систему. Память транзакций является многообеща-ющей идеей, но на пути ее широкого распространения остается еще множество технических задач. Сейчас память транзакций является слишком дорогой для внедрения без поддержки в процессорах, и ее применимость и полезность в крупном реальном коде еще не продемонстрирована. Если эти вопросы удаст-ся решить, память транзакций обещает сделать многие аспекты многоядерного программирования намного более простыми и устойчивыми к ошибкам.

Использование языков функционального программирования является еще одной новой идеей. Эти языки воплощают собой стиль программирования, ко-торый практически исключает обновление состояния программы. Другими сло-вами, в этих языках переменной можно присвоить начальное значение, но затем это значение изменить невозможно. Вместо этого создается новая переменная с новым значением. Такой стиль программирования хорошо подходит для па-раллельного программирования, так как устраняет обновления, для которых требуется синхронизация между двумя процессорами. Параллельные функцио-нальные программы в общем используют изменчивое состояние только для свя-зи между параллельными процессорами, и для них требуются блокировки или память транзакций только для этой малой, отдельной части их данных.

До недавнего времени со сложностями использования параллельных ком-пьютеров для чего угодно, кроме наиболее сложных параллельных задач, боро-лись только научные и технические сообщества. Появление многоядерных про-цессоров изменило эту ситуацию и сделало параллельное программирование основной задачей для всех разработчиков программного обеспечения. Новые идеи и инструменты программирования, разработанные для основных про-грамм, скорее всего, также будут выгодны техническому сообществу и предо-ставят ему новые средства для получения преимуществ от постоянно растущей мощности многоядерных процессоров.

ССЫЛКИ

[1] Д. Гэннон (D. Gannon) и Д. Рид (D. Reed), «Параллельность и облако» в этом документе.

Page 13: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 131

ДЕННИС ГЭННОН (DENNIS GANNON), ДЭН РИД (DAN REED) Microsoft Research

Параллельность и облако

За последние 10 лет научные и технические исследова-ния при помощи компьютеров стали третьим столпом научного процесса, дополнив теорию и эксперимент. В нескольких национальных исследованиях выделялась

важность компьютерной науки как критического деблоки-ратора научных открытий и национальной конкурентоспо-собности в физике и биологии, медицине и здравоохранении, проектировании и производстве [1-3].

Компьютерная наука исторически фокусировалась на вы-числениях: создании и выполнении математических моделей естественных и искусственных процессов. Теперь компью-терная наука расширяется до анализа данных и управления потребностями и возможностями. Сегодня растущее цунами данных, с его объемами и разнообразием, может ошеломить нас. Управляемое недорогими, кажущимися вездесущими датчиками, широкополосными сетями и системами хранения большого объема, цунами несет данные датчиков, наблюда-ющих за нашей планетой из глубин океана, наземных прибо-ров и космических систем получения изображений; измере-ния окружающей среды; данные здравоохранения, которые оценивают биологические процессы и влияние окружающих условий. Проще говоря, мы переходим от малого количества данных к их избытку, что приводит к относительной нехватке внимания к любым отдельным данным и вызывает необходи-мость в отборе с помощью компьютеров.

Такая доступность различных данных переводит научные методы от традиционных, под управлением гипотез, к науке, основанной на исследованиях. Исследователи уже не спраши-вают, какой эксперимент они могут придумать, чтобы прове-рить гипотезу. Наоборот, они все чаще задаются вопросом, ка-кие корреляции можно получить из сохранившихся данных. Говоря более образно — какие знания можно получить, если

Page 14: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 133132

объединить данные различных дисциплин и предметных областей? Задача за-ключается в анализе многих петабайт данных в ограниченных масштабах вре-мени.

Возможность создания богатых и подробных моделей природных и искус-ственных феноменов, а также обработки больших объемов экспериментальных данных, созданных новым поколением научных приборов, управляемых вычис-лениями, делает компьютеры универсальным усилителем интеллекта, продвига-ющим все направления науки и техники и питающим инновационную экономи-ку. Последнее технологическое достижение компьютерной науки — облачные вычисления — позволяет размещать, обрабатывать и анализировать большие объемы междисциплинарных данных. Объединение вычислительных мощно-стей и хранилищ в очень крупных центрах обработки данных создает экономию в проектировании и строительстве, приобретении оборудования, а также опе-рациях и обслуживании, которая была недоступна при распределенности этих элементов. Кроме того, объединение и хранение устраняют множество техниче-ских и социологических барьеров, которые ограничивали междисциплинарный обмен знаниями и взаимодействие. Наконец, размещение в облаке упрощает задачу долговременного хранения данных — что особенно сложно для универ-ситетов и правительственных организаций, и критически важно для наших воз-можностей проведения продолжительных экспериментов.

Имеет смысл отметить, что современные центры обработки данных и су-перкомпьютеры похожи на близнецов, которых разделили после рождения. Они очень похожи по конструкции и организованы в виде сетей общающихся вычислительных узлов. Отдельные узлы каждого основаны на стандартных ми-кропроцессорах с множеством ядер, большой памяти и локальных дисках. Те и другие выполняют приложения, рассчитанные на использование параллельно-сти в большом количестве. Их разница заключается в том, как они развивались. Параллельные суперкомпьютеры разрабатывались в поддержку вычислений со случайными скачками мощности и для выполнения отдельных крупных расче-тов как можно быстрее, по одной задаче в единицу времени. В отличие от них, центры обработки данных «раздают» свою мощность и потребляют огромное количество входящих данных.

Параллельность может использоваться в облачных вычислениях двумя спо-собами. Первый — для доступа пользователей. Облачные приложения рассчита-ны на доступ в виде веб-сервисов, поэтому они организованы в форме двух или более слоев процессов. Один слой предоставляет интерфейс сервиса для браузе-ра пользователя или клиентского приложения. Такой слой «веб-роли» принима-ет запросы пользователей и управляет задачами, назначенными второму слою. Второй слой процессов, иногда называемый «ролью рабочего процесса», выпол-няет аналитические задачи для ответа на запросы пользователя. Одной веб-роли и одной роли рабочего процесса может быть достаточно для нескольких одно-временных пользователей, но если облачное приложение должно использовать-ся более широко — например, для задач поиска, реализации социальных сетей,

погодных сервисов, данных путешествий или онлайн-аукционов — оно должно поддерживать тысячи одновременных пользователей.

Второй способ использования параллельности подразумевает задачи анали-за данных, которые выполняет приложение. Во множестве сценариев анализа данных отдельный процессор или задачу для сканирования массивного набора данных или потока данных для поиска шаблона использовать непрактично — накладные расходы и задержка будут слишком велики. В таких случаях можно разделить данные между большим количеством процессоров, каждый из кото-рых может анализировать поднабор данных. Результаты затем объединяются и возвращаются пользователю.

Такой шаблон «map-reduce» часто применяется в приложениях центров обработки данных и в обширном семействе запросов анализа параллельных данных, которые используются в облачных вычислениях. Веб-поиск является каноническим примером такой двухфазной модели. Он включает в себя со-здание доступного для обнаружения индекса ключевых слов веб-содержимо-го с созданием копии сети и сортировкой содержимого в последовательности шагов «map-reduce». Такую модель параллельности поддерживают три ключе-вые технологии: Google имеет внутреннюю версию [4], Yahoo! имеет открытую версию Hadoop, Microsoft обладает инструментом «map-reduce», известным как DryadLINQ [5]. Dryad — это механизм поддержки выполнения распределенных наборов задач, которые могут настраиваться на произвольном ориентирован-ном ациклическом графе (directed acyclic graph, DAG). Язык интегрированных запросов (Language Integrated Query, LINQ), как расширение для C#, позволяет встраивать выражения с запросами в стиле SQL непосредственно в программы. Система DryadLINQ может автоматически компилировать эти запросы в Dryad DAG, которые могут автоматически выполняться в облаке.

Microsoft Windows Azure поддерживает комбинацию многопользовательско-го масштабирования и параллельности анализа данных. В Azure приложения созданы в виде «ролей» без памяти состояния, которые достают задачи из оче-редей, выполняют их, и затем устанавливают новые задачи или данные в другие очереди. Вычисления «map-reduce» в Azure состоят из двух наборов ролей рабо-чих процессов: менеджеры памяти, которые отбирают задачи по управлению из очереди и перемещают данные в хранилище Azure, и преобразователи, которые сокращают задачи, указывающие на данные в хранилище, которые необходимо сократить. При том, что DryadLINQ выполняет статические DAG, Azure может выполнять скрытые DAG, где узлы соответствуют ролям, а ссылки — сообще-ниям в очередях. Вычисления Azure могут также представлять параллельность, созданную очень большим количеством одновременных пользователей.

Такой же тип анализа данных «map-reduce» постоянно проявляется в круп-номасштабных процессах научного анализа. Например, рассмотрим задачу со-вмещения образца ДНК с тысячами известных последовательностей ДНК. Такой тип поиска — «сложная параллельная» задача, которая легко может быть уско-рена, если ее разделить на множество независимых задач поиска в поднаборах

Page 15: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 135НАУЧНАЯ ИНФРАСТРУКТУРА134

КЭРОЛ ГОБЛ (CAROLE GOBLE) Манчестерский университет (University of Manchester) ДЭВИД ДЕ РУР (DAVID DE ROURE) Саутгемптонский университет (University of Southampton)

данных. Подобным образом рассмотрим задачу поиска шаблонов в медицин-ских данных, например, аномалий на снимках фМРТ мозга или задачу поиска возможных погодных аномалий в потоках событий, поступающих от радаров.

И наконец, другое место, где параллельность может использоваться в цен-трах обработки данных — это уровень аппаратного обеспечения отдельного узла. Не только каждый узел имеет несколько процессоров, но и каждый про-цессор обычно имеет несколько ядер. Для многих задач анализа данных можно использовать параллельность на уровне инструкций. Например, отфильтровка шума из данных датчиков может выполняться с использованием быстрого пре-образования Фурье (БПФ) или других спектральных методов. Такие вычисления можно ускорить при использовании в каждом узле графических процессоров общего назначения. В зависимости от скорости доступа узла к данным такая обработка на основе графических процессоров общего назначения может по-зволить нам сократить количество узлов, необходимых для поддержания общей скорости обслуживания.

Всемирная паутина начиналась со свободной федерации простых веб-сер-веров, на каждом из которых находилась научная документация и данные для относительно небольшого количества исследователей. С ростом количества сер-веров в геометрической прогрессии и развитием мирового Интернета веб-поиск трансформировался из научного эксперимента в новую социальную и эконо-мическую силу. Эффективность поиска стала достижимой только за счет до-ступной параллельности в крупных центрах обработки данных. Мы вступаем в эпоху, когда вся наука управляется взрывом данных, и облачные вычисления с возможностью использования параллельности на многих уровнях стали фунда-ментально новой технологией для развития человеческих знаний.

ССЫЛКИ

[1] President’s Information Technology Advisory Committee, «Computational Science: Ensuring America’s Competitiveness», June 2005, www.nitrd.gov/pitac/reports/20050609_computational/ computational.pdf.

[2] D. A. Reed, Ed., «Workshop on The Roadmap for the Revitalization of High-End Computing», June 2003, www.cra.org/reports/supercomputing.pdf.

[3] S. L. Graham, M. Snir, and C. A. Patterson, Eds., Getting Up to Speed: The Future of Supercomputing, Washington, D.C.: National Academies Press, 2004, www.nap.edu/openbook.php?record_ id=11148.

[4] J. Dean and S. Ghemawat, «MapReduce: Simplified Data Processing on Large Clusters», OSDI’04: Sixth Symposium on Operating Systems Design and Implementation, San Francisco, CA, Dec. 2004, doi: 10.1145/1327452.1327492.

[5] Y. Yu., M. Isard, D. Fetterly, M. Budiu, Ú. Erlingsson, P. Kumar Gunda, and J. Currey, «DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language», OSDI’08 Eighth Symposium on Operating Systems Design and Implementation.

Влияние средств рабочих процессов на исследования,

ориентированные на данные

Мы живем в эпоху научных исследований, ориен-тированных на данные, когда гипотезы не толь-ко проверяются при помощи наборов данных и анализа, но и выдвигаются за счет объединения и

добычи уже доступных данных [1-3]. Ландшафт научных дан-ных быстро расширяется в масштабах и разнообразии. Если взять в качестве примера науки о жизни, высокопроизводи-тельные платформы секвенирования гена могут выдавать терабайты данных в одном эксперименте, и объемы данных будут еще более увеличиваться за счет автоматизации про-мышленного масштаба. С 2001 по 2009 г. количество баз дан-ных, заявленных в журнале Nucleic Acids Research, выросло с 218 до 1170 [4]. Наборы данных растут не только по размеру и количеству, они еще и частично скоординированы и зачастую несовместимы [5], что делает задачи обнаружения и интегра-ции очень сложными. В то же время мы используем более широкий спектр источников данных: современная биология получает знания из объединения различных типов данных (проетомики, метаболомики, транскриптомики, геномики), а также данных других дисциплин, таких как химия, клиниче-ская медицина и общественное здравоохранение, а системная биология соединяет многоуровневые данные с многоуровне-выми математическими моделями. Эти данные охватывают все типы: от структурированных записей в базах данных до опубликованных статей, необработанных числовых данных, изображений и описательных интерпретаций, которые ис-пользуются в нормативной лексике.

Page 16: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 137136

Создание данных в таких масштабах должно сопровождаться масштабиру-емыми методами обработки. Подготовка, управление и анализ данных являют-ся узкими местами, и этими навыками обладают далеко не все ученые. Рабочие процессы [6] предоставляют (1) систематические и автоматизированные сред-ства анализа различных наборов данных и приложений; (2) описание процес-са, достаточное для того, чтобы результаты были воспроизводимыми, и метод можно было просмотреть, проверить, повторить и адаптировать; (3) визуальный интерфейс сценариев, при помощи которого специалист компьютерной науки может создавать такие процессы без использования низкоуровневого програм-мирования; и (4) платформу интеграции и доступа для растущего количества независимых поставщиков источников, чтобы компьютерным ученым не нужно было специализироваться в каждом направлении. Таким образом, рабочий про-цесс становится парадигмой для поддержки науки в большом масштабе за счет управления процессами подготовки и анализа данных, а также предпочтитель-ным средством получения компьютерных знаний.

РАБОЧИЕ ПРОЦЕССЫ ОПРЕДЕЛЕНЫ

Рабочий процесс — это точное описание научной процедуры, и он состоит из множества шагов для координации различных задач, которые действуют подоб-но сложному сценарию [7]. Каждая задача представляет собой выполнение про-цесса вычисления, например, запуск программы, передача запроса в базу дан-ных, передача задания в вычислительное облако или grid-систему либо вызов сервиса через Интернет для использования удаленного источника. Результаты одной задачи используются в последующих в соответствии с предопределенной топологией графов, которая управляет потоком данных. На рисунке 1 показан пример рабочего процесса, закодированного в Taverna Workflow Workbench [8], который выполняет поиск генов, объединяя четыре публично доступных источ-ника данных из США, Европы и Японии: BioMart, Entrez, UniProt и KEGG.

Системы рабочих процессов обычно имеют три компонента: исполняющую платформу, набор для графического дизайна и средства разработки. Платфор-ма выполняет рабочий процесс от имени приложений и обрабатывает общие перекрестные задачи, включая (1) вызов служебных приложений и обработку гетерогенности типов данных и интерфейсов по различным вычислительным платформам; (2) мониторинг и восстановление после отказов; (3) оптимизацию памяти, хранилища и выполнения, включая одновременность и обеспечение параллельности; (4) обработку данных: распределение, установку ссылок, пере-мещение, потоковую передачу и резервирование; (5) регистрацию процессов и отслеживание источников данных; и (6) обеспечение безопасности и мониторинг политик доступа. Системы рабочих процессов требуются для поддержки про-цессов с длительным выполнением в непостоянных средах, и поэтому должны быть надежными, устойчивыми к ошибкам и иметь возможность восстановле-ния. Они также должны непрерывно развиваться, чтобы охватывать растущие

Get_pathwaysВвод данных рабочего процесса

Вывод результатов рабочего процесса

Ввод данных рабочего процесса

Вывод результатов рабочего процесса

kegg_pathway_release

binfo

merge_kegg_references

kegg_external_gene_reference

merge_pathway_list_1

merge_pathway_list_2merge_pathway_desc

remove_pathway_nulls

merge_entrez_genes

remove_Nulls

merge_genes_and_pathways

merge_genes_and_pathways_2

merge_uniprot_ids

REMOVE_NULLS_2

merge_genes_and_pathways_3

remove_duplicate_kegg_genes

gene_descriptions

gene_ids

merge_reports

reportmerged_pathways

regex_2

split_for_duplicates

species

getcurrentdatabase

concat_kegg_genes

split_gene_ids

remove_uniprot_duplicates remove_entrez_duplicates

remove_pathway_nulls_2

merge_gene_desc

remove_nulls_3

genes_in_qtl

mmusculus_gene_ensembl

create_report

pathway_descriptions

add_uniprot_to_string

Kegg_gene_ids

pathway_ids gene_descriptions

add_ncbi_to_string

Kegg_gene_ids_2

ensembl_database_releasekegg_pathway_release

regex

split_by_regex

Merge_pathway_desc

pathway_desc

Merge_pathways

concat_ids

pathway_desc

pathway_ids

Merge_gene_pathways

pathway_genes

lister

concat_gene_pathway_ids

get_pathways_by_genes1

remove_pathway_duplicates

chromosome_nameqtl_start_positionqtl_end_position

An_output_port An_input_port A_local_service Beanshell A_Soaplab_service String_constant A_Biomart_Service

Вывод результатов рабочего процесса

Ввод данных рабочего процесса

РИСУНОК 1.

Рабочий процесс Taverna объединяет несколько распределенных среди разных стран наборов дан-ных для идентификации генов-«кандидатов», которые могут отвечать за устойчивость к аф-риканскому трипаносомозу [11].

Page 17: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 139138

возможности базовых вычислительных ресурсов и хранилищ, предоставляя большие мощности для анализа.

Набор для графического дизайна предоставляет приложение визуальных сценариев для создания и обмена рабочими процессами и подготовки компо-нентов, которые должны быть включены в исполняемые шаги. Цель — защи-тить автора от сложностей базовых приложений и позволить ему разрабатывать и понимать рабочие процессы без привлечения специальных приложений или найма программистов. Это даст ученым возможность создавать свои собствен-ные процессы так, как им необходимо. И, наконец, средства разработки позво-ляют разработчикам расширить возможности системы и встраивать рабочие процессы в свои приложения, веб-порталы или базы данных. Такое встраивание трансформирует: у него есть потенциал бесшовно и незаметно добавить слож-ные знания в те инструменты, которые постоянно используются учеными.

Каждая система рабочих процессов имеет собственный язык, набор графи-ческого дизайна и программные компоненты; системы различаются своими исполняющими моделями и типами компонентов, которые они координируют [9]. Sedna является одним из нескольких языков выполнения бизнес-процессов (Business Process Execution Language, BPEL) промышленного стандарта для на-учных рабочих процессов [10]. Системы рабочих процессов общего назначения с открытым кодом — это Taverna1, Kepler2, Pegasus3 и Triana4.

Другие системы, такие как LONI Pipeline5 для нейровизуализации и ком-мерческая Pipeline Pilot6 для поиска новых лекарств, в большей степени ори-ентированы на конкретные применения и оптимизированы для поддержки специфических библиотек компонентов. Они нацелены на взаимодействующие приложения; другие системы рабочих процессов направлены на обеспечение вычислительных циклов или передачу задач в grid-системы. Например, Pegasus и DAGMan7 использовались для серии крупномасштабных экспериментов е-Науки, таких как прогнозирование землетрясений при помощи информации датчиков в проекте CyberShake8 Центра землетрясений Южной Калифорнии (Southern California Earthquake Center, SCEC).

ИСПОЛЬЗОВАНИЕ РАБОЧИХ ПРОЦЕССОВ

Рабочие процессы освобождают ученых от монотонной обработки данных, что-бы они могли сконцентрироваться на научных открытиях. Они берут на себя весь груз стандартных задач, они представляют вычислительные протоколы для проведения науки, ориентированной на данные, и они открывают использова-ние процессов и источников данных для более широкой группы ученых и разра-ботчиков научных приложений.

Рабочие процессы идеально подходят для систематического, аккуратного и повторяемого выполнения стандартных процедур: управление получением данных от датчиков или приборов; очистка, нормализация и проверка данных; безопасное и эффективное перемещение и архивирование данных; сравнение данных между повторяемыми процессами; а также регулярное обновление хранилищ данных. Например, в астрономическом исследовании Pan-STARRS9 используется Microsoft Trident Scientific Workflow Workbench10 — рабочие про-цессы для загрузки и проверки информации с телескопов, объем которой дости-гает около 30 ТБ в год. Рабочие процессы также подтвердили свою полезность в сохранении и обновлении коллекций и хранилищ данных, реагируя на измене-ния в базовых наборах данных. Например, медицинский центр Nijmegen пере-строил базу данных tGRAP по мутациям рецепторов, связанных с G-белком, при помощи инструмента интеллектуального анализа текстов в рабочих процессах Taverna.

На более высоком уровне рабочий процесс является подробным, точным и модульным выражением компьютерного экспериментального протокола. Ра-бочие процессы идеально подходят для сбора и накопления информации от распределенных наборов данных и алгоритмов, создающих данные — что яв-ляется основной деятельностью в аннотации набора данных; курировании дан-ных; и науке с множеством доказательств. На рисунке 1 показан рабочий про-цесс поиска несопоставимых наборов данных для обнаружения и объединения данных, относящихся к метаболическим путям, связанным с устойчивостью к африканскому трипаносомозу; связанные наборы данных соединялись потоком данных. В этом случае автоматизированная и систематическая обработка при помощи рабочего процесса смогла преодолеть недостатки ручной сортировки данных, вызывающей преждевременное исключение данных из анализа ввиду их большого количества, — и дала новые результаты [11].

Кроме объединения данных, рабочие процессы систематизируют добычу данных и обнаружение знаний в процессы и параметры прогностических алго-ритмов. Например, рабочие процессы LEAD11 управляются внешними событи-ями, которые создаются средствами добычи данных, выполняющими монито-

1 www.taverna.org.uk2 http://kepler-project.org3 http://pegasus.isi.edu4 www.trianacode.org5 http://pipeline.loni.ucla.edu6 http://accelrys.com/products/scitegic7 www.cs.wisc.edu/condor/dagman8 http://epicenter.usc.edu/cmeportal/CyberShake.html

9 http://pan-starrs.ifa.hawaii.edu10 http://research.microsoft.com/en-us/collaboration/tools/trident.aspx11 http://portal.leadproject.org

Page 18: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 141140

ринг групп инструментов для выявления существенных шаблонов и инициации анализа прогноза шторма; в Лаборатории реактивного движения (Jet Propulsion Laboratory) рабочие процессы Taverna используются для изучения конфигура-ций с множеством параметров для космических приборов.

Системы рабочих процессов не только объединяют данные, но и высвобо-ждают скрытые рабочие процессы, встроенные в приложение, преобразуя их в четкую и воспроизводимую спецификацию общего программного обеспечения и инфраструктуры.

Эксперты в области информатики используют системы рабочих процессов непосредственно для разработки рабочих процессов, занимающихся инфра-структурой; специалисты по информатике в науке используют их для проекти-рования и изучения новых исследовательских процедур; более широкая группа ученых использует подготовленные рабочие процессы с небольшими ограниче-ниями конфигурации, запущенные из приложений, или скрытые за веб-порта-лами.

НАУКА, ОРИЕНТИРОВАННАЯ НА ДАННЫЕ, ПОДДЕРЖИВАЮЩАЯ РАБОЧИЕ ПРОЦЕССЫ

Рабочие процессы предлагают техники, которые поддерживают новую пара-дигму науки с фокусом на данные. Они могут повторяться и воспроизводиться. Результаты и побочные данные могут вычисляться по необходимости при помо-щи последних источников, предоставляя виртуальные хранилища данных (или хранилища по требованию) за счет эффективной обработки распределенных запросов. Продуманные повторения рабочих процессов автоматически дают новые результаты при доступности новых исходных данных и новых результа-тов — а также новых методов. Сами рабочие процессы, как привилегирован-ная часть науки с фокусом на данные, могут создаваться и трансформироваться динамически в целях соответствия текущим потребностям. В разрезе большого потока данных рабочие процессы дают надежность, отчетность и возможность аудита. Объединяя рабочие процессы и записи об их выполнении с опублико-ванными результатами, мы можем продвигать систематические, объективные, прозрачные и сравнимые исследования, в которых результаты содержат инфор-мацию об источниках. Это может ускорить процесс научных открытий.

Для ускорения проектирования экспериментов рабочие процессы могут быть переконфигурированы и перенаправлены в виде новых компонентов или шаблонов. Для создания рабочих процессов требуются специализирован-ные знания, которые обычно отсутствуют у исследователей. Создание рабочих процессов — обычно сложная задача, так как они являются формой програм-мирования, для которой требуется определенное понимание наборов данных и инструментов управления ими [12]. Поэтому очень выгодно создавать общие коллекции рабочих процессов со стандартными методами обработки, которые можно мгновенно использовать для тех же или других целей, в целом или по

частям. Такое объединение экспертных знаний и ресурсов поможет продвигать техники и наилучшие практики. Специалисты могут создавать этапы приложе-ния, эксперты могут проектировать рабочие процессы и устанавливать параме-тры, а менее опытные пользователи получат преимущества от использования сложных протоколов.

Социальный веб-сайт myExperiment12 продемонстрировал, что при исполь-зовании инструментов обмена содержимым для хранилищ рабочих процессов мы можем поддержать социальное взаимодействие в отношении рабочих про-цессов и предоставить общественную поддержку для маркировки, комменти-рования, оценки и предоставления рекомендаций, а также объединения новых рабочих процессов с сохраненными ранее [13].

Это стало возможным благодаря поддержке науки, ориентированной на данные, которая может использоваться для решения сложных проблем. На-пример, даже если среда выполнения рабочего процесса уже не в состоянии его поддерживать, он может быть восстановлен путем экспертного и общественного курирования.

Рабочие процессы позволяют коллективно создавать науку, ориентирован-ную на данные, работая на различных уровнях. Они позволяют ученым взаи-модействовать посредством общих данных и сервисов, они предоставляют до-ступ для неспециалистов к сложным кодам и приложениям без их установки или управления ими. Следовательно, ученые могут использовать самые лучшие приложения, а не только те, с которыми они знакомы. Междисциплинарные ра-бочие процессы поощряют еще более широкое взаимодействие. В этом смысле система рабочих процессов является структурой повторного использования ин-струментов и наборов данных сообщества, которая уважает исходный код и пре-одолевает проблемы различных стилей программирования. Такие инициативы, как реестр веб-сервисов науки о жизни BioCatalogue13 и реестры компонентов в SCEC, поддерживают обнаружение компонентов. Дополнительную ценность создает возможность получения информации просто путем мониторинга источ-ников данных, сервисов и методов. Осуществляя автоматический мониторинг ресурсов, можно получать рекомендации для общей практики и оптимизации.

Тем не менее, остается еще множество проблем, кроме технических, связан-ных с крупномасштабным распределенным программным обеспечением [14]. Существует большое количество платформ рабочих процессов с различными возможностями и целями, которые не соответствуют стандартам. Рабочие про-цессы зачастую сложно создавать при помощи языков, которые находятся на недостаточном уровне абстракции, и для работы с которыми требуются слиш-ком глубокие знания базовой инфраструктуры. Возможность повторного ис-пользования рабочего процесса обычно ограничивается проектом, для которого он разрабатывался — или даже его автором — и он не может быть устойчивее

12 www.myexperiment.org13 www.biocatalogue.org

Page 19: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 143142

своих компонентов. Хотя рабочие процессы стимулируют поставщиков на пре-доставление прозрачных, надежных и проверенных сервисов данных, широко распространены отказы компонентов. При сбое сервиса или инфраструктуры происходит и сбой рабочего процесса. К сожалению, важной темой отладки не-исправных рабочих процессов часто пренебрегают. Современным платформам рабочих процессов не хватает корректно поддерживаемых быстрых процессов развертывания в приложениях пользователя, где они применяются, и кодов унаследованных приложений, которые необходимо интегрировать и которыми необходимо управлять.

ВЫВОД

Рабочие процессы затрагивают исследования, ориентированные на данные, че-тырьмя способами. Во-первых, они смещают научную практику. Например, в гипотезах, управляемых данными [1], анализ данных дает результаты, которые должны проверяться в лаборатории. Во-вторых, они имеют потенциал содей-ствия ученым в создании собственных сложных процессов обработки данных без необходимости ожидания требуемых инструментов от разработчиков про-граммного обеспечения. В-третьих, они предлагают систематическое получение данных с возможностью их сравнения и соотнесения с источником. И, наконец, разговоры о шквале данных [15] и науке, ориентированной на данные, можно охарактеризовать, как вопрос первичности данных или научной документации [16], но вместе с ними приходит и шквал методов: рабочие процессы иллюстри-руют первичность метода как другую важнейшую парадигму исследований, ориентированных на данные.

ССЫЛКИ

[1] D. B. Kell and S. G. Oliver, «Here is the evidence, now what is the hypothesis? The complementary roles of inductive and hypothesis-driven science in the post-genomic era», BioEssays, vol. 26, no. 1, pp. 99—105, 2004, doi: 10.1002/bies.10385.

[2] A. Halevy, P. Norvig, and F. Pereira, «The Unreasonable Effectiveness of Data», IEEE Intell. Syst., vol. 24, no. 2, pp. 8—12. 2009, doi: 10.1109/MIS.2009.36.

[3] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete», Wired, vol. 16, no. 7, June 23, 2008, www.wired.com/science/discoveries/magazine/16-07/ pb_theory.

[4] M. Y. Galperin and G. R. Cochrane, «Nucleic Acids Research annual Database Issue and the NAR online Molecular Biology Database Collection in 2009», Nucl. Acids Res., vol. 37 (Database issue), pp. D1—D4, doi: 10.1093/nar/gkn942.

[5] C. Goble and R. Stevens, «The State of the Nation in Data Integration in Bioinformatics», J. Biomed. Inform., vol. 41, no. 5, pp. 687—693, 2008.

[6] I. J. Taylor, E. Deelman, D. B. Gannon, and M. Shields, Eds., Workflows for e-Science: Scientific Workflows for Grids. London: Springer, 2007.

[7] P. Romano, «Automation of in-silico data analysis processes through workflow management systems», Brief Bioinform, vol. 9, no. 1, pp. 57—68, Jan. 2008, doi: 10.1093/bib/bbm056.

[8] T. Oinn, M. Greenwood, M. Addis, N. Alpdemir, J. Ferris, K. Glover, C. Goble, A. Goderis, D. Hull, D. Marvin, P. Li, P. Lord, M. Pocock, M. Senger, R. Stevens, A. Wipat, and C. Wroe, «Taverna: lessons in creating a workflow environment for the life sciences», Concurrency and Computation: Practice and Experience, vol. 18, no. 10, pp. 1067—1100, 2006, doi: 10.1002/cpe.v18:10.

[9] E. Deelman, D. Gannon, M. Shields, and I. Taylor, «Workflows and e-Science: An overview of workflow system features and capabilities», Future Gen. Comput. Syst., vol. 25, no. 5, pp. 528—540, May 2009, doi: 10.1016/j.future.2008.06.012.

[10] B. Wassermann, W. Emmerich, B. Butchart, N. Cameron, L. Chen, and J. Patel, «Sedna: a BPEL- based environment for visual scientific workflow modelling», in I. J. Taylor, E. Deelman, D. B. Gannon, and M. Shields, Eds., Workflows for e-Science: Scientific Workflows for Grids. London: Springer, 2007, pp. 428—449, doi: 10.1.1.103.7892.

[11] P. Fisher, C. Hedeler, K. Wolstencroft, H. Hulme, H. Noyes, S. Kemp, R. Stevens, and A. Brass, «A Systematic Strategy for Large-Scale Analysis of Genotype-Phenotype Correlations: Identification of candidate genes involved in African Trypanosomiasis», Nucleic Acids Res., vol. 35, no. 16, pp. 5625—5633, 2007, doi: 10.1093/nar/gkm623.

[12] A. Goderis, U. Sattler, P. Lord, and C. Goble, «Seven Bottlenecks to Workflow Reuse and Repurposing in The Semantic Web», ISWC 2005, pp. 323—337, doi: 10.1007/11574620_25.

[13] D. De Roure, C. Goble, and R. Stevens, «The Design and Realisation of the myExperiment Virtual Research Environment for Social Sharing of Workflows», Future Gen. Comput. Syst., vol. 25, pp. 561—567, 2009, doi: 10.1016/j.future.2008.06.010.

[14] Y. Gil, E. Deelman, M. Ellisman, T. Fahringer, G. Fox, D. Gannon, C. Goble, M. Livny, L. Moreau, and J. Myers, «Examining the Challenges of Scientific Workflows», Computer, vol. 40, pp. 24—32, 2007, doi: 10.1109/MC.2007.421.

[15] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[16] G. Erbach, «Data-centric view in e-Science information systems», Data Sci. J., vol. 5, pp. 219—222, 2006, doi: 10.2481/dsj.5.219.

Page 20: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 145

ПИТЕР ФОКС (PETER FOX) ДЖЕЙМС ХЕНДЛЕР (JAMES HENDLER) Политехнический институт Ренсселера (Rensselaer Polytechnic Institute)

Семантическая е-Наука: Значение кодирования

в улучшенной цифровыми методами науке следующего

поколения

Наука все больше зависит от данных, хотя традицион-ные технологии не были рассчитаны на масштабы и разнообразие данных, существующие в современ-ном мире. Такие проекты, как Большой адронный

коллайдер (Large Hadron Collider, LHC) и Австралийский путе-поисковый телескоп площадью в квадратный километр (Australian Square Kilometre Array Pathfinder, ASKAP) будут создавать петабайты данных, которые придется анализиро-вать сотням ученых из различных стран, которые общаются на разных языках. Цифровая или электронная наука — е-На-ука [1] сегодня становится крайне важной и получает широ-кое распространение.

Безусловно, наука с использованием больших объемов данных, как один из компонентов е-Науки, должна выходить за пределы хранилищ данных и закрытых систем, чтобы обе-спечить доступ к данным для пользователей, находящихся за пределами команд крупных проектов, большую интеграцию источников, и предоставить интерфейсы для тех, кто является специалистом в науке, но не является экспертом в управлении данными и вычислениях. С расцветом е-Науки и сокращени-ем барьеров для свободного и открытого доступа к данным возникают другие, более сложные вопросы — например: «Как использовать эти созданные другими данные?», или:

Page 21: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 147146

«Как использовать данные этого типа, который я никогда не видел, с данными, которыми я пользуюсь каждый день?», или: «Что делать, если мне понадобятся данные из другой дисциплины, но я не понимаю ее терминов?» Перечень таких вопросов большой и продолжает увеличиваться с ростом использования данных и информации и все большей связью наук со специализированными устройствами.

Важным аспектом в решении вопроса разнородности данных является то, что если вы понимаете «смысл» данных, вам намного проще их использовать. С ростом объемов, сложности и неоднородности источников данных, ученым все более требуются новые возможности, основанные на новых «семантических» методах (например, в форме онтологий — машинной кодировки терминов, кон-цепций и связи между ними). Семантические технологии набирают мощь в та-ких сферах е-Науки, как, например, солнечно-земная физика (см. рисунок 1), экология1, науки о море и океане2, здравоохранение и науки о жизни3. Разра-ботчикам инфраструктур е-Науки все более требуются семантические методо-логии, инструменты и промежуточное программное обеспечение. В свою оче-редь, они могут упрощать моделирование научных знаний, проверку гипотез на основе логики, семантическую интеграцию данных, составление приложений, а также интегрированное выявление знаний и анализ данных для различных предметных областей науки и систем, упомянутых выше, для использования учеными, студентами и, все в большей мере, неспециалистами.

Влияние сообщества искусственного интеллекта и растущее количество дан-ных, доступных в Интернете (в результате многие ученые используют Интернет в качестве своего основного «компьютера») привело исследователей семантиче-ского Интернета к фокусировке на формальных аспектах языков семантическо-го представления и на разработке семантических приложений общего назначе-ния. Языки стандартизируются, а сообщества, в свою очередь, используют эти языки для создания и использования онтологий — спецификаций концепций и терминов и их взаимосвязей (в формальном, доступном для машинного считы-вания смысле). Чтобы е-Наука стала полностью использовать большие объемы данных, для всех возможностей, которые сегодня требуются е-Науке — включая интеграцию, слияние и добычу данных; разработку, управление и выполнение рабочих процессов; охват источников и качества данных; проверку аутентично-сти данных, а также пригодность к конкретной цели — необходимо семантиче-ское представление и посредничество.

Необходимость в большем количестве семантики в е-Науке также возника-ет отчасти за счет все более распределенных и междисциплинарных задач со-временных исследований. Например, доступность данных (таких как снимки)

удаленного обнаружения с высоким пространственным разрешением от спут-ников для науки об экосистемах одновременно изменяет природу исследований и других направлений науки, например, экологии. Даже спутниковые наблю-дения с местными данными немедленно создают задачу интеграции данных. Среди вопросов, которые возникают у исследователей, использующих такие данные: «Как можно согласовать «точечные» данные с различными продуктами спутниковой информации — например, полосами захвата или координатными сетками?», «Как выполняется пространственная регистрация?», «Являются ли эти данные тем же самым, в том же самом вертикальном (и географическом) положении или в то же время, и имеет ли это значение?» Другому ученому, например, биологу, может понадобиться доступ к тем же данным с абсолютно другой перспективы, и он задаст другие вопросы: «Я нашел этот вид в неожи-

1 Например, Научное окружение для экологических знание (Science Environment for Ecological Knowledge, SEEK) и [2].2 Например, проект Взаимодействие морских метаданных (Marine Metadata Interoperability, MMI).3 Например, Группа семантического веб-здравоохранения и наук о жизни (Semantic Web Health Care and Life Sciences, HCLS) и [3].

РИСУНОК 1.

Виртуальная солнечно-земная обсерватория (Virtual Solar-Terrestrial Observatory, VSTO) обе-спечивает интеграцию данных между физическими параметрами, измеренными различными приборами. VSTO также использует независимую информацию координат для выбора подходя-щих типов отрисовки с использованием метода семантической е-Науки, без необходимости для пользователя знать базовые представления и структуру данных [4, 5].

Page 22: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 149148

данном месте. Каковы геофизические параметры — температура, влажность и так далее — в этой зоне, и как они изменялись последние недели, месяцы, годы?» Ответы на такие вопросы находятся в метаданных и самих данных. Возможно, более важным является тот факт, что продукты данных и информации все чаще становятся доступными посредством веб-сервисов, поэтому семантическая связь (то есть значение), которую мы ищем, должна сместиться от уровня данных к уровню Интернета и веб-сервисов.

Семантика не только добавляет четко описанные и зашифрованные в ком-пьютерной форме определения словарей, концепций и терминов, но и объясня-ет взаимосвязи между ними (особенно в Интернете, среди различных словарей, находящихся в разных документах или хранилищах) в декларативной (указан-ной) и условной (то есть основанной на правилах или логике) формах. Одна из текущих задач семантической е-Науки — баланс выразительности (семантиче-ского представления) и сложности определения терминов, которые использу-ются учеными и внедряются в полученных системах. Такой баланс зависит от приложения, что означает отсутствие единого решения для любых случаев при-менения. В свою очередь это вызывает необходимость в равноправном взаимо-действии ученых-физиков и ученых-компьютерщиков, а также разработчиков программного обеспечения, менеджеров и поставщиков данных.

В последние годы наблюдалось заметное продвижение в сетевых (т.е. XML) языках разметки, включая стабилизацию и стандартизацию. Ретроспективные данные и связанные с ними каталоги сегодня предоставляются в виде веб-сер-висов, а данные в реальном времени и близком к нему временном разрешении становятся стандартизированными с возникновением веб-сервисов датчиков. Это означает, что теперь широко доступны различные наборы данных. Стали развиваться центры обмена информацией, включая Центр обмена информаци-ей системы наблюдения Земли (Earth Observing System Clearinghouse, ECHO) и Глобальную систему наблюдения за планетой Земля (Global Earth Observation System of Systems, GEOSS) для наук о Земле, которые дополняют обширные ка-талоги реестров, такие как Генеральный каталог глобальных изменений (Global Change Master Directory, GCMD) NASA. Однако эти реестры остаются сильно ограниченными только синтаксическим представлением сервисов и базовых данных. Для их использования требуются интенсивные усилия пользователя — совмещение входящих данных, результатов, необходимых условий, а также зна-чений методов для сервисов.

Также увеличивается количество проектов и общественных инициатив по разработке моделей данных для улучшения низкоуровневого взаимодействия. Такие модели открывают предметные словари, которые полезны для общих предметных областей, но не всегда для смежных направлений, таких как записи и коллекции данных науки о Земле. Как указывалось в отчетах от международ-ного уровня до отдельных организаций, данные от новых миссий вместе с дан-ными из существующих источников все более используются синергетически с другими источниками наблюдений и моделирования. Так как такие источники

становятся доступными в форме сервисов, необходимость взаимодействия раз-личных словарей, сервисов и представлений методов сохраняется, а ограничения только синтаксиса (или начальных уровней семантики) становятся очевидными. Далее, с ростом потребности в информационных продуктах (представлении данных не только для научного использования) стремительно увеличивается необходимость доступа неспециалистов к информационным сервисам, осно-ванных на научных данных. В большинстве прикладных сфер проблема этой потребности не решена.

Профессионалы, занятые в текущих проектах (отмеченных ранее, таких как солнечно-земная физика, экология, науки о море и океане, здравоохранение и науки о жизни), начали смещать акценты взаимодействия с соглашений на уров-не «данные–элемент (синтаксиса)» на более высокий — научный, или семанти-ческий уровень. Результаты таких исследовательских проектов продемонстри-ровали возможности интеграции таких типов данных в междисциплинарных измерениях с различными приборами. Теперь, когда взаимодействие, основан-ное только на синтаксисе, больше не является последним словом, следующим логическим шагом будет использование семантики для поддержки на уровне данных как сервиса.

Участие научного сообщества в разработке конкретных требований для от-дельных направлений науки было недостаточным, несмотря на растущую ос-ведомленность о важности семантики для е-Науки с использованием большого количества данных. Ученые-исследователи все больше зависят от Интернета в отношении данных, но пока они даже не создали согласованной программы для исследования тенденций, возникающих на фоне семантических технологий, и для взаимодействия с исследователями семантически структурированного Ин-тернета. Чтобы помочь в создании такой программы, нам нужно разработать междисциплинарное пространство семантической е-Науки, которое стимули-рует рост и развитие научных приложений с использованием большого коли-чества данных на основании семантических методологий и технологий, а также связанных методов, основанных на знаниях. Для этого мы представляем призыв к действию, состоящий из четырех пунктов:

• Исследователи в науке должны работать вместе с коллегами из компьютер-ной науки и информатики для разработки требований для конкретной от-расли, а также внедрения и оценки языков, инструментов и приложений, которые разрабатываются для семантической е-Науки.

• Научные и профессиональные сообщества должны предоставить среду, в ко-торой может быть реализовано необходимое тесное взаимодействие между требованиями науки и возможностями информатики, и они должны пони-мать важность такой работы в развитии карьеры при помощи показателей, аналогичных индексу цитирования.

• Финансирующие организации должны все больше нацеливаться на создание сообществ заинтересованных сторон с акцентом на междисциплинарные ко-

Page 23: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 151НАУЧНАЯ ИНФРАСТРУКТУРА150

ЧАРЛЬЗ ХАНСЕН (CHARLES HANSEN) КРИС Р. ДЖОНСОН (CHRIS R. JOHNSON) ВАЛЕРИО ПАСКУЧЧИ (VALERIO PASCUCCI) КЛАУДИО Т. СИЛЬВА (CLAUDIO T. SILVA) Университет Юты (University of Utah)

манды исследователей и специалистов-практиков, которые необходимы для продвижения и сохранения усилий в направлении семантической е-Науки.

• Все участники — ученые, сообщества и финансисты — должны принимать участие в управлении контролируемыми словарями, таксономиями и онто-логиями, которые могут использоваться в научных приложениях для обеспе-чения распространения и эволюции знаний, зашифрованных в семантике.

Хотя во всех четырех сферах уже прилагаются начальные усилия, предстоит сделать намного больше. Этого требует сама природа решения вопросов расту-щей сложности современной науки.

ССЫЛКИ

[1] T. Hey and A. E. Trefethen, «Cyberinfrastructure for e-Science», Science, vol. 308, no. 5723, May 2005, pp. 817—821, doi: 10.1126/science.1110410.

[2] J. Madin, S. Bowers, M. Schildhauer, S. Krivov, D. Pennington, and F. Villa, «An Ontology for Describing and Synthesizing Ecological Observation Data», Ecol. Inf., vol. 2, no. 3, pp. 279—296, 2007, doi: 10.1016/j.ecoinf.2007.05.004.

[3] E. Neumann, «A Life Science Semantic Web: Are We There Yet?» Sci. STKE, p. 22, 2005, doi: 10.1126/stke.2832005pe22.

[4] P. Fox, D. McGuinness, L. Cinquini, P. West, J. Garcia, and J. Benedict, «Ontology-supported scientific data frameworks: The virtual solar-terrestrial observatory experience», Comput. Geosci., vol. 35, no. 4, pp. 724—738, 2009, doi: 10.1.1.141.1827.

[5] D. McGuinness, P. Fox, L. Cinquini, P. West, J. Garcia, J. L. Benedict, and D. Middleton, «The Virtual Solar-Terrestrial Observatory: A Deployed Semantic Web Application Case Study for Scientific Research», AI Mag., vol. 29, no. 1 , pp. 65—76, 2007, doi: 10.1145/1317353.1317355.

Научная визуализация с использованием больших

объемов данных

С момента появления компьютеров мир испытывает «большой взрыв» информации. Количество созда-ваемой информации растет в геометрической про-грессии. С 2003 г. цифровая информация составляет

90% всей созданной информации [1], намного опережая ко-личество данных на бумаге и пленке. Одной из величайших научных и технических задач 21 столетия будет понимание и эффективное использование этого растущего количества информации. Визуальный анализ данных, который обеспечи-вают интерактивные интерфейсы, позволяет выявлять и про-верять ожидаемые результаты, при этом также поддерживая случайные открытия в науке. Он позволяет проверять новые теоретические модели, обеспечивает сравнение моделей и наборов данных, поддерживает количественные и качествен-ные запросы, улучшает интерпретацию данных и упрощает процесс принятия решений. Ученые могут использовать си-стемы визуального анализа данных для изучения сценариев «что если», определения гипотез и исследования данных с ис-пользованием множества перспектив и предположений. Они могут определить связи между большим количеством атри-бутов и количественно оценить надежность гипотезы. Фак-тически визуальный анализ данных является неотъемлемой частью научных открытий, и он еще очень далек от конечного решения. Для будущих исследований остаются открытыми множество направлений. В этой статье мы описываем те на-правления визуального анализа данных, которые будут в цен-тре внимания в следующем десятилетии [2, 3].

Page 24: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 153152

VISUS: ПРОГРЕССИВНАЯ ПОТОКОВАЯ ПЕРЕДАЧА ДАННЫХ ДЛЯ МАСШТАБИРУЕМОГО ИЗУЧЕНИЯ ДАННЫХ

В последние годы компьютерные ученые с доступом к крупнейшим в мире су-перкомпьютерам успешно моделировали множество природных и искусствен-ных феноменов с беспрецедентной степенью деталировки. Такие процессы моделирования постоянно создают огромные количества данных. Например, процессы моделирования гидродинамического непостоянства, которые прово-дились в Ливерморской национальной лаборатории им. Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL) в начале 2002 г., образовали несколько де-сятков терабайт данных, как показано на рисунке 1. Эти данные необходимо визуализировать и проанализировать для проверки базовой модели, детального понимания феномена и получения новых знаний о его фундаментальной физи-ке. Поэтому для алгоритмов визуализации и анализа данных требуются новые, улучшенные конструкции, которые будут поддерживать высокую производи-тельность при обработке больших объемов данных.

Техники потоковой передачи данных и вычислений с использованием внеш-ней памяти решают проблемы перепроектирования алгоритмов и реструкту-ризации компоновки данных, необходимые для масштабируемой обработки больших объемов данных. Например, для создания статической системы клас-сификации ViSUS1, которая создает компоновку данных, поддерживающую иерархическое перемещение регулярных сеток различной размерности, ис-пользовались кривые заполнения пространства. Три особенности делают этот метод особенно привлекательным: (1) порядок данных не зависит от параметров

физического аппаратного обеспечения (метод нечувствительности к кэширова-нию), (2) переход от Z-порядка, который используется в классических методах баз данных, достигается при помощи простой последовательности манипуляций со строками битов, и (3) он не использует репликации данных. Этот метод ис-пользовался для прямой потоковой передачи данных и мониторинга крупно-масштабных процессов моделирования в ходе их выполнения в реальном вре-мени [4].

На рисунке 2 показана инфраструктура ViSUS, выполняющая потоковую пе-редачу данных кодов моделирования LLNL и их визуализацию в реальном вре-мени на установке Blue Gene/L в ходе выставки Supercomputing 2004 (где Blue Gene/L был представлен как новый самый быстрый суперкомпьютер в мире). Уникальная масштабируемость этого метода позволяет использовать одно осно-вание кода для множества различных применений, используя при этом большое количество устройств, от крупных дисплеев видеостены до рабочих станций, но-утбуков и портативных устройств, таких как iPhone.

Обобщение техник этого класса для неструктурированных сеток остается основной проблемой. Если говорить в общем, быстрое развитие и растущее раз-нообразие аппаратного обеспечения ставят большие задачи по проектированию программных инфраструктур, которые могут масштабироваться и адаптиро-ваться к различным вычислительным ресурсам и условиям работы. Оно под-нимает теоретические и практические вопросы, на которые будущим исследо-вателям визуализации и анализа для приложений с использованием большого количества данных необходимо будет найти ответы.

РИСУНОК 2.

Масштабируемость инфраструктуры ViSUS, которая используется для визуализации в раз-личных применениях (например, медицинские снимки, моделирование подземных пластов, мо-делирование климата, микроскопия, спутниковые снимки, цифровая фотография и крупномас-штабные научные модели) и с широким перечнем устройств (от iPhone до видеостены).

участоксмешивания

сила тяжести

тяжелая жидкость

легкая жидкость

t=0 t=200 t=400 t=700

РИСУНОК 1.

Интерактивная визуализация четырех временных шагов моделирования 11523 неустойчивости Релея-Тейлора. Сила тяжести управляет смешиванием более тяжелой жидкости, находящейся сверху более легкой. Две поверхности охватывают участок смешивания.

1 www.pascucci.org/visus

Page 25: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 155154

VISTRAILS: ИСТОЧНИКИ И ПОИСК ДАННЫХ

Поиск данных является творческим процессом, в котором исследователю необ-ходимо найти подходящие данные, визуализировать их и выявить взаимосвязи, общаться с коллегами при поиске решений и в итоге распространить результа-ты. С учетом объема данных и сложности анализа, которые присущи научным исследованиям, для лучшей поддержки творчества необходимы новые инстру-менты и расширение старых.

Возможность систематического охвата источников данных является ключе-вым требованием для таких инструментов. Источник (который также называ-ют контрольным следом или родословной) продукта данных содержит инфор-мацию о процессе и данных, которые использовались для получения продукта данных. Важность поддержания информации об источниках для продуктов данных в научном сообществе хорошо известна [5, 6]. Она предоставляет важ-ную документацию, которая является ключом к сохранению данных, определе-ния их качества и авторства, а также воспроизведения и проверки результатов. Доступность информации об источниках также поддерживает рефлективные обоснования, позволяя пользователям сохранять временные результаты, делать предположения на основании сохраненных знаний и создавать цепочки обосно-вания вперед или назад.

VisTrails2 — это система с открытым исходным кодом, предназначенная для поддержки исследовательских компьютерных задач, таких как визуализация, добыча и интеграция данных. VisTrails предоставляет расширенную инфра-структуру управления источниками данных и может легко комбинироваться с существующими инструментами и библиотеками. Новая концепция, которую мы привнесли с VisTrails — это понятие происхождения эволюции рабочего процесса [7]. В отличие от предыдущих систем рабочих процессов и визуализации, кото-рые поддерживают информацию об источниках данных только для полученных продуктов данных, VisTrails расценивает рабочие процессы как элементы дан-ных первого класса и сохраняет информацию их происхождения. VisTrails имеет возможность расширения. Подобно системам рабочих процессов, она позволяет создавать процессы, комбинирующие множество библиотек. Кроме того, ин-фраструктура информации происхождения VisTrails может интегрироваться с интерактивными инструментами, которые не так легко встраиваются в систему рабочих процессов [8].

На рисунке 3 показан пример исследовательской визуализации с использова-нием VisTrails. По центру VisTrails показывает все изменения, которые пользова-тель применяет к визуализациям. Каждый узел на дереве VisTrails соответствует процессу, а кромки между двумя узлами соответствуют изменениям, которые сделаны для трансформации родительского процесса в дочерний (например, при добавлении модуля или изменении значения параметра). Древовидное представление позволяет ученому вернуться к предыдущей версии интуитивно

понятным способом, отменить неправильные изменения, сравнить рабочие про-цессы и получить напоминания о действиях, которые привели к конкретному результату.

Спонтанные методы исследования данных, которые широко применяются в научном сообществе, имеют серьезные ограничения.

В частности, ученым и инженерам следует расширить свои усилия в управ-лении данными (например, сценарии, выполняющие кодировку компьютерных задач, необработанных данных, продуктов данных, изображений и заметок) и регистрировать источники, чтобы можно было получить ответы на базовые во-просы, такие как: «Кто создал продукт данных и когда? Когда и кем он изменял-ся? При помощи каких процессов он был создан? Получены ли два продукта данных из одних необработанных данных?» Такой процесс не только занимает много времени, но и подвержен ошибкам. Отсутствие сведений об источниках 2 http://vistrails.sci.utah.edu

РИСУНОК 3.

Пример исследовательской визуализации для изучения небесных тел, полученных в процессах космологического моделирования при помощи VisTrails. Полное происхождение процесса исследо-вания отображается в форме визуальных изменений. Подробные метаданные, включая тексто-вые примечания ученого, дату и время создания или изменения рабочего процесса, возможные метки с описанием, а также имя создавшего их пользователя также сохраняются.

Page 26: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 157156

затрудняет (а иногда делает невозможным) воспроизведение результатов и об-мен ими, решение проблем в партнерстве, проверку результатов с различными входящими данными, понимание процессов, которые использовались для реше-ния конкретной проблемы и повторное использование знаний, которые приме-

нялись в процессе анализа данных. Оно также существенно ограничивает долго-вечность продукта данных. Без полной и точной информации о том, как он был создан, его ценность ощутимо снижается.

Системы визуализации, нацеленные на науку, должны предоставлять гиб-кую структуру, которая не только позволяет ученым выполнять комплексный анализ больших наборов данных, но и сохраняет детальную информацию про-исхождения процесса анализа.

На рисунке 4 показан ParaView3 (инструмент анализа и визуализации для очень больших наборов данных) и VisTrails Provenance Explorer, которые нагляд-но показывают весь процесс исследования. Механизм отслеживания происхож-дения был внедрен вставкой кода мониторинга в механизм отмены и повтора действий ParaView, который захватывает изменения базовой спецификации процесса. По сути, последнее действие в списке отмены добавляется к vistrail в соответствующем месте, и команда отмены действия изменяет значение на «перемещение в дереве версий». Следует отметить, что представление на осно-вании изменений является и простым, и компактным — оно занимает намного меньше места, чем альтернативные методы хранения нескольких экземпляров или версий.

ТЕХНИКИ ВИЗУАЛИЗАЦИИ ПОТОКА

Точная количественная и качественная оценка феномена трехмерного нестаци-онарного потока необходима для различных научных, технических и медицин-ских применений. К счастью, во многих случаях анализ трехмерного векторного поля можно сократить до исследования двухмерных структур, образованных взаимодействием с границами рассматриваемого объекта. Типовыми примера-ми такого анализа потоков жидкостей являются аэродинамические поверхности и стабилизаторы в авиации, стенки двигателя и выхлопные трубы в автомобиль-ной промышленности и лопатки турбин в турбомашиностроении.

Другие применения в биомедицине фокусируются на взаимодействии био-электрических полей и поверхности органа. В каждом случае многочисленные модели, размеры и степень сложности которых растут, помогают ученым и ин-женерам более глубоко понять характеристики потока, которые относятся к их задачам. Специалисты в области научной визуализации сконцентрировали основную часть своих исследований на проектировании методов визуализации, которые передают локальные и глобальные структуры, возникающие в различ-ных пространственных и временных масштабах при моделировании нестаци-онарного потока. В частности, сделан акцент на интерактивность визуального анализа, который признан критическим аспектом эффективности предлагае-мых алгоритмов.

РИСУНОК 4.

Отображение происхождения в виде последовательности действий, которые изменяют процесс, дает возможность визуализации разницы между двумя рабочими процессами. Такая разница представляется в виде объединения рабочих процессов. Это и информативно, и интуитивно понятно, а также сокращает время на понимание функциональной разницы между двумя рабо-чими процессами.

3 www.paraview.org

Page 27: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 159158

Последняя тенденция в исследованиях визуализации потока — использова-ние графических процессоров для расчета методов пространства изображений при решении вопроса вычислительной сложности техник визуализации, кото-рые поддерживают потоки, обнаруженные на криволинейных поверхностях. Основным свойством такого метода является возможность эффективного по-лучения представления плотной структуры потока без вычисления параметри-зации поверхности. Это достигается проецированием в плоскость изображения потока, соответствующего видимой части поверхности, что позволяет выпол-нять последующее образование текстуры в пространстве изображения путем обратной интеграции и многократного смешивания. Хотя использование ча-стичной параметризации поверхности, полученной в результате проекции, дает впечатляющее повышение производительности, шаблоны текстуры, выходящие за видимую часть самостоятельно ограниченной поверхности, становятся несо-гласованными вследствие неполной параметризации поверхности.

Для решения этой проблемы мы ввели новую схему, которая в полной мере поддерживает создание высококачественных визуализаций на основе текстур для потоков, определенных на произвольных криволинейных поверхностях [9]. Наша схема под названием Flow Charts решает упомянутую ранее проблему пу-тем разделения поверхности на перекрывающиеся части, которые затем инди-видуально параметризуются в схемы и упаковываются в текстуру. Регион с пе-рекрытием дает каждой отдельной схеме четкое представление о ее окружении в потоке и о соответствии соседним схемам, что необходимо для аккуратного и согласованного переноса частиц. Векторное поле и отношение расположения частей представляются в виде текстур, что позволяет применять в графиче-

ских процессорах самые современные алгоритмы синтеза текстур, такие как GPUFLIC и UFAC.

На рисунке 5 показан результат моделирования высокоскоростного немец-кого междугородного поезда-экспресса (ICE), движущегося со скоростью около 250 км/ч, с боковым ветром с углом падения 30 градусов. Ветер вызывает об-разование завихрений на подветренной стороне поезда, что создает снижение давления, негативно влияющее на устойчивость поезда на рельсах. Эти структу-ры потока вызывают разделение и соединение шаблонов потока на поверхности поезда. Их можно четко увидеть на предложенных изображениях возле высту-пающих краев геометрии.

Эффективность физического представления можно увидеть в наборе дан-ных Кармана (рисунок 6), числовой модели классического феномена вихревой дорожки Кармана, где повторяющийся шаблон вихрей вызван разделением по-тока, проходящего через кольцевую преграду. Визуализация с переносом кра-сителя наложена на визуализацию плотной текстуры, где видны моментальные структуры потока, созданные алгоритмом GPUFLIC. Шаблоны, созданные ме-тодом переноса текстуры, размыты в результате диффузии и потери массы. В методе с установкой уровня в результате двоичного порога «краситель-фон» утрачены сложные структуры. Благодаря физическому представлению [10] ви-зуализация может четко передавать подробные структуры, которые не отобра-жаются при помощи традиционного метода переноса текстуры.

РИСУНОК 5.

Моделирование высокоскоростного поезда ICE. Слева: результат GPUFLIC. Посередине: конфигу-рации частей. Справа: схемы в пространстве текстуры.

РИСУНОК 6.

Визуализация набора данных Кармана при помощи переноса красителя. Левая колонка: физиче-ский перенос красителя. Средняя колонка: метод переноса при помощи текстур. Правая колонка: метод установки уровня. Последовательность времени — сверху вниз.

Page 28: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 161160

БУДУЩИЕ ЗАДАЧИ ВИЗУАЛИЗАЦИИ С ИСПОЛЬЗОВАНИЕМ БОЛЬШОГО КОЛИЧЕСТВА ДАННЫХ

Для получения информации из больших и сложных наборов данных, получен-ных из экспериментов и грядущих систем моделирования в пета- и экзамасшта-бе, требуется фундаментальный прогресс в техниках и системах визуализации. Эффективные инструменты анализа и визуализации данных для прогностиче-ского моделирования и обнаружения научных знаний должны быть основаны на прочном алгоритмическом и математическом фундаменте, а также долж-ны позволять ученым надежно характеризовать выдающиеся функции в своих данных. Основу извлечения функций и моделирования неопределенности при помощи формальных определений сложных форм, шаблонов и распределения в пространстве и времени в таких сферах, как топология, тензорный анализ вы-сокого порядка и статистика, будут составлять новые математические методы. В разработке методов расширенного анализа данных набирают важность тополо-гические методы ввиду их неоспоримой мощности в описании сложных форм в различных масштабах. Недавнее добавление надежных комбинаторных техник для топологического анализа позволило использовать топологию не только для представления новых феноменов, но и для обнаружения и оценки новых осо-бенностей, представляющих научный интерес.

Наши возможности анализа данных намного отстают от нашей способно-сти создания данных моделирования или наблюдений. Новые техники анализа визуальных данных должны динамически учитывать многоразмерное вероят-ностное распределение интересующих объемов данных. Для этого потребуют-ся новые входящие данные от математики, теории вероятности и статистики. Повышение точности моделей ставит новые задачи по визуализации созданных данных. Будет крайне важно разработать разумные полуавтоматические ал-горитмы и методологии визуализации, которые помогут фильтровать данные или представлять «сводные визуализации», чтобы ученые могли начинать ана-лизировать бесконечные наборы данных с помощью методологии, направлен-ной сверху вниз. Возможность полной оценки неопределенности в высокопро-изводительных компьютерных моделях даст новые возможности для проверки кодов моделирования. Таким образом, необходимо разработать техники репре-зентации, оценки, распространения и визуализации неопределенности, чтобы предоставить ученым надежные и проверяемые визуализации.

Чтобы исследователи могли получать информацию из этой развивающейся формы научных данных, требуются новые методы анализа визуальных данных и обнаружения знаний. Такие методы должны учитывать многомодельную при-роду данных; предоставлять ученым средства для простого перехода между обзором данных локальных и глобальных моделей; позволять смешивать тра-диционную научную визуализацию с визуализацией информации; выполнять проверку гипотез; а также решать задачи, возникающие при использовании большого разнообразия типов сеток и различных элементов многомодельного кода. Инструменты, которые используют семантическую информацию и скры-

вают подробности формата набора данных, будут критически важны для того, чтобы специалисты в области анализа и визуализации сконцентрировались на создании этих методов, а не увязли в представлениях отдельных данных [11].

БЛАГОДАРНОСТЬ

Публикация частично основана на работе, поддерживаемой DOE: VACET, DOE SDM, DOE C-SAFE Alliance Center, Национальный научный фонд (National Science Foundation) (гранты IIS-0746500, CNS-0751152, IIS-0713637, OCE-0424602, IIS-0534628, CNS-0514485, IIS-0513692, CNS-0524096, CCF-0401498, OISE-0405402, CNS-0615194, CNS-0551724, CCF-0541113, IIS-0513212, и CCF-0528201), Факуль-тетские награды IBM (IBM Faculty Awards) (2005, 2006 и 2007), NIH NCRR грант № 5P41RR012553-10 и награда №KUS-C1-016-04 от Научно-технологического университета имени короля Абдаллы (King Abdullah University of Science and Technology, KAUST). Авторы также благодарят Джулиану Фрейр (Juliana Freire) и команду VisTrails за помощь в подготовке третьей части этой статьи.

ССЫЛКИ

[1] C. R. Johnson, R. Moorhead, T. Munzner, H. Pfister, P. Rheingans, and T. S. Yoo, Eds., NIH-NSF Visualization Research Challenges Report, IEEE Press, ISBN 0-7695-2733-7, 2006, http://vgtc.org/ wpmu/techcom/national-initiatives/nihnsf-visualization-research-challenges-report-january-2006, doi: 10.1109/MCG.2006.44.

[2] NSF Blue Ribbon Panel Report on Simulation-Based Engineering Science (J. T. Oden, T. Belytschko, J. Fish, T. Hughes, C. R. Johnson, D. Keyes, A. Laub, L. Petzold, D. Srolovitz, and S. Yip), «Simulation-Based Engineering Science», 2006, www.nd.edu/~dddas/References/ SBES_Final_Report.pdf.

[3] NIH-NSF Visualization Research Challenges, http://erie.nlm.nih.gov/evc/meetings/vrc2004.

[4] V. Pascucci, D. E. Laney, R. J. Frank, F. Gygi, G. Scorzelli, L. Linsen, and B. Hamann, «Real-time monitoring of large scientific simulations», SAC, pp. 194—198, ACM, 2003, doi: 10.1.1.66.9717.

[5] S. B. Davidson and J. Freire, «Provenance and scientific workflows: challenges and opportunities», Proc. ACM SIGMOD, pp. 1345—1350, 2008, doi: 10.1.1.140.3264.

[6] J. Freire, D. Koop, E. Santos, and C. Silva, «Provenance for computational tasks: A survey», Comput. Sci. Eng, vol. 10, no. 3, pp. 11—21, 2008, doi: 10.1109/MCSE.2008.79.

[7] J. Freire, C. T. Silva, S. P. Callahan, E. Santos, C. E. Scheidegger, and H. T. Vo, «Managing rapidly-evolving scientific workflows», International Provenance and Annotation Workshop (IPAW), LNCS 4145, pp. 10—18, 2006, doi: 10.1.1.117.5530.

[8] C. Silva, J. Freire, and S. P. Callahan, «Provenance for visualizations: Reproducibility and beyond», IEEE Comput. Sci. Eng., 2007, doi: 10.1109/MCSE.2007.106.

Page 29: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 163НАУЧНАЯ ИНФРАСТРУКТУРА162

САВАС ПАРАСТАТИДИС (SAVAS PARASTATIDIS) Microsoft

[9] G.-S. Li, X. Tricoche, D. Weiskopf, and C. Hansen, «Flow charts: Visualization of vector fields on arbitrary surfaces», IEEE Trans. Visual. Comput. Graphics, vol. 14, no. 5, pp. 1067—1080, 2008, doi: 10.1109/TVCG.2008.58.

[10] G.-S. Li, C. Hansen, and X. Tricoche, «Physically-based dye advection for flow visualization. Comp. Graphics Forum J., vol. 27, no. 3, pp. 727—735, 2008, doi: 10.1111/j.1467-8659.2008.01201.x. [11] «Visualization and Knowledge Discovery: Report from the DOE/ASCR Workshop on Visual Analysis and Data Exploration at Extreme Scale», C. R. Johnson, R. Ross, S. Ahern, J. Ahrens, W. Bethel, K. L. Ma, M. Papka, J. van Rosendale, H. W. Shen, and J. Thomas, www.sci.utah.edu/vaw2007/DOE-Visualization-Report-2007.pdf, 2007.

Платформа для всего, что нам известно: создание

исследовательской инфраструктуры,

управляемой знаниями

Компьютерные системы стали жизненно важной частью современной исследовательской среды, поддерживая все аспекты цикла исследования [1]. Общество исполь-зует термины «е-Наука» и «е-Исследования», чтобы

отметить важную роль компьютерных технологий в методах проведения исследований, взаимодействия, обмена данными и документами, подачи заявок на финансирование, использо-вания устройств для автоматического и точного сбора данных экспериментов, внедрения новых поколений микроскопов и телескопов для повышения качества получаемых изображе-ний, а также архивирования различных данных для сохране-ния информации об источниках и долговременного хранения [2, 3].

Однако те же технологические прорывы в сборе, созда-нии, обмене и автоматизации данных, произошедшие благо-даря компьютерам, привели к беспрецедентному взрыву дан-ных — ситуации, применимой не только к исследованиям, но и к каждому из аспектов нашей цифровой жизни. Этот шквал данных, особенно в науке, принес с собой новые задачи для исследовательской инфраструктуры, как отмечали Джим Грей (Jim Gray) и Алекс Шалай (Alex Szalay) [4]. Потребность в обработке, передаче и хранении данных сегодня намного выше, чем несколько лет назад. Не секрет, что мы говорим о

Page 30: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 165164

возникновении новой исследовательской методологии — «четвертой парадиг-мы» — в науке.

ЧЕТВЕРТАЯ ПАРАДИГМА

При помощи технологии и автоматизации мы стараемся решать проблемы шквала данных. С возникновением Интернета в качестве платформы для при-ложений, обмена данными и взаимодействия были разрушены многие барьеры в методах проведения исследований и распространения их результатов. Появля-ющиеся инфраструктуры облачных вычислений (например, Amazon1) и новое поколение вычислительных платформ с использованием большого количества данных (например, DISC2, Google MapReduce3, Hadoop4 и Dryad5), направлены на управление и обработку больших объемов данных. Amazon даже предлагает сервис6 наподобие «sneakernet»7 для решения проблемы передачи большого ко-личества данных в свое облако. Такие компании, как Google, Yahoo! и Microsoft демонстрируют возможность накопления огромного количества данных из Ин-тернета и их хранения, управления и индексации с последующим построением привлекательных впечатлений от использования на их основе.

В первую очередь современные технологии фокусируются только на первой части цепочки «данные–информация–знания–мудрость»8. Компьютеры стали эффективными в хранении, управлении, индексации и вычислении (исследо-вании) данных. Они даже могут представить и обработать часть информации, скрытой за символами, которые используются для шифрования этих данных. Однако мы еще очень далеки от создания компьютерных систем, которые смо-гут автоматически обнаруживать, собирать, организовывать, анализировать, коррелировать, интерпретировать, понимать и объяснять информацию, кото-рая находится в Интернете, скрыта на дисках исследователей или существует только в нашей голове. У нас еще нет инфраструктуры, которая может управ-лять и обрабатывать знания в глобальном масштабе, которая могла бы служить фундаментом для создания сервисов и приложений, управляемых знаниями.

Таким образом, если четвертая парадигма связана с информацией и данны-ми, есть смысл предвидеть не очень отдаленное будущее, в котором мы начнем думать о задачах управления знаниями и машинного понимания в очень боль-

шом масштабе. Мы — исследователи — возможно, станем первыми, кто стол-кнется с этой задачей.

ИССЛЕДОВАТЕЛЬСКИЕ ИНФРАСТРУКТУРЫ, ОРИЕНТИРОВАННЫЕ НА ЗНАНИЯ

Работа сообщества Семантической паутины (Semantic Web)9 дала множество тех-нологий, помогающих в моделировании данных, представлении информации и взаимном обмене семантикой, всегда в контексте конкретного применения. Учитывая формальные основы некоторых из этих технологий (например, язык описания онтологий (Web Ontology Language, OWL), стало возможным внести возможности обоснования как минимум для некоторых связанных предметных областей (например, BioMoby10).

В своем развитии работа сообщества Семантической паутины будет и далее играть важную роль в совместном обмене информацией и знаниями. Что еще важнее, внимание будет смещаться к вычислительным аспектам семантическо-го понимания и знаний с широким распространением таких технологий, как среда описания ресурса (Resource Description Framework, RDF), OWL и микро-форматы. Задача, с которой мы столкнемся, будет заключаться в автоматизации сбора и объединения больших объемов семантически богатой информации и, что более важно, процессов, при помощи которых эта информация создается и анализируется. Сегодня нам следует задуматься о технологиях, которые нам понадобятся для семантического описания, анализа и комбинирования инфор-мации, а также алгоритмов, которые используются для ее создания или потре-бления, и все это в глобальном масштабе. Если сегодняшние сервисы облачных вычислений концентрируются на предложении масштабируемой платформы для вычислений, то завтрашние сервисы будут создаваться вокруг управления знаниями и их оценки.

Мы уже видим попытки понимания знаний, основанных на мировой инфор-мации. Такие сервисы, как OpenCyc11, Freebase12, Powerset13, True Knowledge14 и Wolfram|Alpha15, демонстрируют, как можно записывать факты, чтобы они могли комбинироваться и предоставляться в форме ответов на вопросы пользо-вателя. В частности, Wolfram|Alpha использует экспертов предметной области для шифрования вычислительных аспектов обработки данных и информации, собранных из Интернета и имеющих аннотации. Он демонстрирует, как на осно-

1 http://aws.amazon.com2 www.pdl.cmu.edu/DISC3 http://labs.google.com/papers/mapreduce.html4 http://hadoop.apache.org5 http://research.microsoft.com/en-us/projects/dryad6 http://aws.amazon.com/importexport7 http://en.wikipedia.org/wiki/Sneakernet8 http://en.wikipedia.org/wiki/DIKW

9 http://en.wikipedia.org/wiki/Semantic_Web10 www.biomoby.org11 www.opencyc.org12 www.freebase.com13 www.powerset.com14 www.trueknowledge.com15 www.wolframalpha.com

Page 31: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 167166

ве вычислительной инфраструктуры в комбинации с обработкой естественного языка можно создать ориентированный на потребителя сервис. Очень вероятно, что в ближайшем будущем появится множество подобных сервисов, которые будут изначально ориентированы на специализированные научно-технические сообщества и затем расширятся на все необходимые предметные области.

Как и в случае с другими ориентированными на сервис приложениями в Ин-тернете, использование сервисов компьютерных знаний для ученых будет важ-ным аспектом любой исследовательской инфраструктуры.

Проекты myGrid16 и myExperiment17 демонстрируют преимущества сбора и последующего обмена определений рабочих процессов в науке семантически обогащенным методом. Такие рабочие процессы эффективно документируют процесс, в котором создается информация исследования, а также шаги, кото-рые привели (или были безуспешными попытками) к заключению. Представьте себе возможности распространения этой идеи на все аспекты нашего взаимо-действия с информацией. Сегодня, когда кто-то вводит, например, «сравнение ВВП Бразилии и Японии» в качестве запроса в Wolfram|Alpha, механизм знает, как интерпретировать этот запрос и создать график сравнения ВВП (валового внутреннего продукта) двух стран. Если запрос выглядит как «Ford», механизм будет предполагать возможные интерпретации, но также предоставит и аль-тернативы (например, «человек», если необходима информация о Генри Форде или Джеральде Рудольфе Форде-младшем, или «компания», если необходима информация о Ford Motor Company). Контекст, в котором будет интерпретиро-ваться конкретная информация, важен для определения типа вычислений, кото-рые будут выполняться. Такие же идеи могут быть внедрены как часть глобаль-ной исследовательской инфраструктуры, где Wolfram|Alpha может стать одним из множества доступных сервисов, которые совместно работают в поддержку исследователей.

Исследовательское сообщество получит огромные выгоды от глобальной ин-фраструктуры, направленной на обмен знаниями, в которой все приложения и сервисы создаются с обменом и обработкой знаний в центре технологии. Это не говорит о необходимости новой попытки унификации и централизованно-го управления всеми представлениями знаний. Ученые всегда будут лучшими в представлении и объяснении знаний своей предметной области. Однако иссле-довательская инфраструктура должна включать в себя все предметные области и предоставлять необходимые средства для перекрестного связывания, корреля-ции и обнаружения информации семантическим способом.

Такая инфраструктура должна не только предоставлять правильный набор сервисов для доступа к информации с развитой семантикой, но и открывать компьютерные сервисы, работающие с мировыми знаниями. Исследователи смогут задавать вопросы, относящиеся к их специализации, и огромное количе-

ство знаний станет для них моментально доступно. Процессы приобретения и обмена знаниями должны быть автоматизированными, и связанные инструмен-ты (например, текстовый процессор, который записывает определение термина, данное автором18) еще более упростят вопросы анализа, исследования и публи-кации результатов. Обработка естественного языка поможет во взаимодействии с экосистемой информации, инструментов и сервисов, основанной на знаниях, как показано на рисунке 1.

Обратите внимание, что предлагаемая исследовательская инфраструктура не пытается реализовать задачу искусственного интеллекта (ИИ) — несмотря на

16 www.mygrid.org.uk17 www.myexperiment.org 18 http://ucsdbiolit.codeplex.com

Быстроеобнаружение Биоинформатика

Поиск АстрономияБазызнаний

Социальные сети Химия

Устройства Компьютерная наука

Хранилище

Экология

Рабочий стол/ОблакоИнструменты, сервисы,

приложенияИнструменты и сервисы

производительности

Представлениезнаний

Облако Amazon

Облако Google

Облако MicrosoftОблако с

правительственнымфинансированием

Био

Общие

Математика

ГрафыОписание

алгоритмови вычислений

Исследовательскаяинфраструктура, управляемая

знаниями (объяснение, выводы, корреляция фактов между предметными областями

РИСУНОК 1.

Высокоуровневый обзор исследовательской инфраструктуры, объединяющий базы знаний и ком-пьютерные сервисы.

Page 32: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 169168

то, что многие технологии сообщества Семантических вычислений19 (от модели-рования данных и представления знаний до обработки и понимания естествен-ного языка) возникли из многолетней работы в сфере ИИ.

Основной фокус предлагаемой киберинфраструктуры — автоматизирован-ное управление знаниями, а не интеллект.

СМЕШИВАНИЕ ЗНАНИЙ

Междисциплинарные исследования набирают обороты, особенно в результате действий е-Науки и киберинфрастуктуры. Технологии сыграли ведущую роль в изначальной поддержке взаимодействия, обмена информацией и управления данными в контексте исследовательского проекта. В будущем исследователям не понадобится думать о том, как их вопросы, предположения, теории, экспери-менты или данные коррелируют с существующими знаниями дисциплин одной научной отрасли или даже между отраслями.

Процесс комбинирования информации из существующих научных знаний, созданных различными исследователями, в разное время и в разных местах, включая особые методологии, которые использовались для получения выводов, должен быть автоматическим и полностью поддерживаться исследовательской инфраструктурой20. Например, для исследователя, доктора химических наук, постановка задач для компьютера при помощи указаний естественного языка, таких как «найти 100 тыс. молекул, подобных известным ингибиторам пепти-дазы ВИЧ, и затем рассчитать их электронные свойства и ввести их к мутантам уклонения вируса» должна быть обычным делом. Этот пример иллюстрирует использование обработки естественного языка и необходимость для исследова-телей в согласовании словарей в целях сбора знаний — что уже частично про-исходит во многих научных направлениях при использовании технологий Се-мантической паутины. Более того, пример иллюстрирует необходимость охвата вычислительных аспектов обработки существующих знаний и создания новых фактов.

Исследовательское сообщество уже начало работу по объединению существу-ющих элементов для реализации будущего, где машины смогут еще больше по-могать исследователям в управлении и обработке знаниями. Например, проект oreChem21 направлен на автоматизацию процесса, при помощи которого связан-ные с химией знания извлекаются из публикаций и представляются в форматах, поддерживающих машинную обработку, например, химический язык разметки

(Chemistry Markup Language, CML). При использовании онтологий, связанных с химией, исследователи смогут декларативно описывать вычисления, которые им необходимо выполнить на языке, поддерживающем машинную обработку.

Хотя такие проекты, как oreChem, не стараются реализовать крупномас-штабную инфраструктуру для научных знаний с возможностью вычисления, они являются первыми исследованиями в этом направлении. В будущем грани-цы предметных областей станут менее жесткими, и смеси междисциплинарных (компьютерных) знаний могут стать важным аспектом любой исследовательской инфраструктуры, управляемой исследованиями и поддерживающей семантику. Возможность перекрестной корреляции и использования перекрестных ссылок для информации, фактов, предположений и методологий из различных иссле-довательских областей в глобальном масштабе окажет огромную поддержку бу-дущим исследователям.

ПРИЗЫВ К ДЕЙСТВИЮ

Сегодня платформы, предлагающие вычислительные шаблоны MapReduce (та-кие как Hadoop и Dryad), упрощают для разработчиков проведение масштаб-ных вычислений с использованием большого количества данных. В будущем очень важно разработать эквивалентные платформы и шаблоны в поддержку действий, связанных со знаниями — таких как объединение, сбор, объяснение, выводы и интерпретация информации. Мы должны стараться предоставить ученым киберинфрастуктуру для легкого создания крупномасштабных прило-жений, способные исследовать научные знания со всего мира, представленные в компьютерной форме.

Совместный обмен информацией, будь то представление фактов или про-цессов, крайне важен для успешного обмена знаниями. Сообщества должны объединиться — и многие уже это делают — для согласования словарей в целях сбора фактов и информации, относящихся к области их специализации. Иссле-довательские инфраструктуры будущего создадут необходимые связи между такими словарями, и, согласно видению Тима Бернерса-Ли (Tim Berners-Lee) в отношении Семантической паутины, информация станет связанной, как часть глобальной сети фактов и процессов.

Будущие исследовательские инфраструктуры, управляемые знаниями, бу-дут более походить на мемекс Ванневара Буша (Vannevar Bush), чем сегодняш-ние компьютеры, управляемые данными. Как сказал Буш: «Появятся совсем но-вые формы энциклопедий, со смесью ассоциативных связей, готовые к передаче в мемекс, где они будут усиливаться» [7]. Сегодня мы очень близки к этому видению.

БЛАГОДАРНОСТЬ

Авторы выражают благодарность Питеру Мюррею Расту (Peter Murray Rust) из Кембриджского университета (University of Cambridge) за его пояснения по

19 Предполагается различие между общим методом вычисления, основанном на семантических техно-логиях (машинное обучение, нейронные сети, онтологии, логический вывод и проч.) и Семантической паутиной, как описано в [5] и [6], которая относится к специальной экосистеме технологий, таких как RDF и OWL. Технологии Семантической паутины считаются лишь одними из множества инструментов для создания решений, основанных на семантике и знаниях.20 При условии, что открытый доступ к исследовательской информации стал реальностью.21 http://research.microsoft.com/orechem

Page 33: 3. НАУЧНАЯ ИНФРАСТРУКТУРАdownload.microsoft.com/documents/rus/devcenter/Part 3...В эру EOSDIS предполагалось, что реля ционные

НАУЧНАЯ ИНФРАСТРУКТУРА170

проекту oreChem, Эвелин Вигас (Evelyne Viegas) (Microsoft Research) за вдохнов-ляющие дискуссии и отличные идеи по всем вопросам Семантических вычисле-ний и Тони Хею (Tony Hey) за его постоянную поддержку, ободрение и доверие.

ССЫЛКИ

[1] L. Dirks and T. Hey, «The Coming Revolution in Scholarly Communications & Cyberinfrastructure», CT Watch Q., vol. 3, no. 3, 2007.

[2] National Science Foundation, «Cyberinfrastructure Vision for 21st Century Discovery», March 2007.

[3] J. Taylor (n.d.), «UK eScience Programme», www.e-science.clrc.ac.uk.[4] J. Gray and A. Szalay, «eScience — A Transformed Scientific Method», Presentation

to the Computer Science and Technology Board of the National Research Council, Jan. 11, 2007, http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt. (Редакция расшифровки находится в этом томе).

[5] T. Berners-Lee, J. A. Hendler, and O. Lasilla, «The Semantic Web,» Scientific American, vol. 284, no. 5, pp. 35—43, May 2001, www.sciam.com/article.cfm?id=the-semantic-web.

[6] N. Shadbolt, W. Hall, and T. Berners-Lee, «The Semantic Web Revisited», IEEE Intell. Syst., vol. 21, no. 3, pp. 96—101, 2006, doi: 10.1109/MIS.2006.62.

[7] V. Bush, «As We May Think», The Atlantic, July 1945, doi: 10.3998/3336451.0001.101.