bellabs Home Page
  
 

ОБЗОР НОВЕЙШИХ ТЕХНОЛОГИЙ


О проекте

По заказу журнала «Секрет фирмы»

Статьи
Биометрия
GRID
Интеллектуальное здание
Нобелевские лауреаты 2003




 

КОМПЬЮТЕРНАЯ КОММУНАЛКА


Понятие Grid (англ. сетка, решетка) в настоящий момент ведет несколько странную жизнь. С одной стороны, знают о нем пока не многие (по крайней мере в сравнении с количеством пользователей другой «сетки» – Интернета). С другой – Grid называют «революционным решением», способным перевернуть наши представления о функциях и возможностях как Интернета, так и компьютерных технологий в целом.

Попробуем разобраться в идеологии Grid. Для этого нам придется преодолеть ряд препятствий, причем главным из них станет не технологическая сложность системы, а смешение различных аспектов проблемы.


 
 
К началу страницы

 

МЕТАКОМПЬЮТИНГ


До сих пор идею Grid нередко сводят к принципу так называемых распределенных вычислений или метакомпьютинга. Классическое определение метакомпьютинга гласит: «использование мощных вычислительных ресурсов, прозрачно доступных посредством коммуникационной среды».

Необязательно вникать в тонкости технологий, чтобы заметить очевидный факт неэффективности традиционного способа использования компьютерного парка, принадлежащего произвольно выбранной организации. В самом деле – ценные компьютерные ресурсы чаще всего используются оператором персонального компьютера крайне расточительно. Если вы, например, набираете текст в текстовом редакторе или скользите по просторам Интернета, а то и вовсе отвлеклись на совещание с коллегами – в каждом таком случае мощный современный процессор вашего компьютера, способный осилить несколько серьезных задач одновременно, откровенно скучает.

Проведенные исследования показали, что на предприятиях простаивают огромные ресурсы – как вычислительные мощности, так и системы хранения данных. Так, мейнфреймы бездействуют около 40% времени, UNIX-системы – почти 90%, а PC-платформы и вовсе 95%. Однако, если проблема лишь в том, что кто-то (в случае с компьютером – что-то) в вашей организации бездельничает в рабочее время – это еще полбеды. Нередко бездельникам сходит с рук их расслабленность – но лишь до тех пор, пока рядом не оказывается ответственный работник, тянущий на себе важнейшие обязанности и буквально «зашивающийся» под их грузом. Так же и в вашей организации – важнейшие задачи, требующие серьезных вычислительных усилий, нередко превосходят своим объемом выделенные для их обработки компьютерные мощности.

Отсюда родилась идея распределенных вычислений – не приобретая дополнительных машин, вы можете значительно повысить эффективность работы существующего парка компьютеров, если «научите» связанные сетью компьютеры работать сообща – в момент серьезного напряжения передавать части работы соседям.

Первыми решили исправить эту вопиющую бесхозяйственность по отношению к вычислительным ресурсам ученые, которым постоянно не хватает мощности компьютеров, и которые всегда выжимают из оборудования максимум возможного. Столкнувшись с ограничениями разрозненных суперкомпьютеров, они догадались ловить флопсов сетями (FLOPS, floating-point operations per second – количество операций с плавающей точкой в секунду).


 
 
К началу страницы

 

ДАЕШЬ КОММУНИСТИЧЕСКОЕ ЗАВТРА


Концепция Grid зародилась в контексте проблемы построения сверхмощных вычислительных установок. В 80-х годах для этого применялись суперкомпьютеры, однако, для решения ряда задач (прогнозирование природных явлений, обработка данных о высокоэнергетических ядерных реакциях, эволюция галактик и т.п.) требовались вычислительные мощности принципиально нового уровня.

В середине 90-х в академических кругах появились первые системы распределенных вычислений, которые быстро трансформировались в intraGrid, регулирующий отношения внутри научных сообществ (коллабораций). Эту первичную схему называют «альтруистической», поскольку в ней не играют решающей роли вопросы безопасности и проблемы взаиморасчетов за использование вычислительных ресурсов.

Наиболее амбициозный научный проект, использующим Grid-технологии, принят осенью 2001 года Европейской организацией по ядерным исследованиям ЦЕРН (CERN – European Organization For Nuclear Research). Имеется ввиду проект создания глобальной информационно-вычислительной инфраструктуры для обработки, хранения и анализа экспериментальных данных с Большого адронного коллайдера (БАК) – установки для изучения сталкивающихся частиц. Ускоритель БАК сооружается в туннеле с радиусом 27 км на глубине нескольких десятков метров. Его детекторы, «фотографирующие» столкновения, представляют собой огромные установки. Например, вес CMS, одного из четырех детекторов БАК, будет равен 12,5 тыс. тонн. Детектор будет заполнен разнообразной электроникой, регистрирующей разлетающиеся частицы.

Информация о регистрации пролетающих частиц проходит несколько этапов обработки в реальном времени и записывается в базу данных. Для ускорителя БАК одному событию будет соответствовать 1-2 Мбайт для детекторов общего назначения и до 1 Гбайт для специализированного детектора ALICE. Уникальна и частота поступления событий – 100-200 событий в секунду для каждого детектора БАК. Для того чтобы можно было сделать сколько-нибудь достоверный вывод, в зависимости от природы изучаемого явления и условий его наблюдения в экспериментах на БАК будет требоваться набор статистики от нескольких месяцев и до нескольких лет. Согласно прогнозам, совокупный объем данных, которые будут накапливаться в экспериментах на БАК, будет измеряться десятками петабайт.

Уже более тридцати лет международное сотрудничество является основной организационной формой экспериментов в физике высоких энергий. И эксперимент БАК проводится сообществом лабораторий и институтов всего мира, в том числе и учеными России.

Другим направлением развития альтруистических систем являются инициативы энтузиастов. Технология p-2-p (peer-to-peer – равный с равным), принесшая немало головной боли издателям аудиопродукции, оказалась весьма востребованной задачами, требующими огромного количества расчетов. Задачи, которые удается расчленить на независимые друг от друга части, можно решать, используя компьютеры добровольцев по всему миру. Софт для такого рода работы внешне представляет собой экранную заставку-скринсейвер. Как и всякий скринсейвер, он запустится, как только хозяин отлучится от работающего компьютера на некоторое время, то есть когда компьютер будет откровенно простаивать.

Наиболее, вероятно, известный p-2-p проект – SETI@home (Search for Extraterrestrial Intelligence). Цель его состоит в поиске инопланетного разума путем обработки сигналов, принимаемых радиотелескопом Аресибо, установленного в горах Пуэрто-Рико. Добровольному участнику проекта нужно загрузить программу и периодически получать из центра SETI фрагмент выловленного из космоса шума. Обработка фрагмента происходит на персональном компьютере, а результат высылается в центр SETI. Более 11 миллинов долларов внес в развитие проекта один из соучредителей Microsoft Пол Аллен. За неимением пойманных инопланетян, в настоящий момент проект гордится рекордом достигнутой вычислительной мощности: 4 миллиона добровольцев развили совокупную производительность 50 терафлопс. В мире нет суперкомпьютера, способного на такое.

Проект Distributed.net – одно из самых больших объединений пользователей, предоставляющих свои компьютеры для решения переборных задач. Основные проекты связаны с задачами взлома шифров (так называемый Вызов компании RSA Security – RSA Challenges). В настоящее время в distributed.net кипит работа по расшифровке фразы, закодированной с 64-битным ключом RC5-64. Всего требуется проверить 264 ключей – и за решение этой задачи RSA предлагает приз в 10 тысяч долларов.

Еще одним увлечением, радость от которого непонятна постороннему, является проект GIMPS (Great Internet Mersenne Prime Search). Смысл его состоит в поиске так называемых простых чисел Мерсенна (простых чисел вида 2P-1). Организация Electronic Frontier Foundation предлагает приз в 100 тысяч долларов за нахождение простого числа Мерсенна с числом цифр 10 миллионов.

Проект www.distributedfolding.org, посвященный моделированию белковых молекул, уникален тем, что позволяет участникам использовать не только компьютер, но и, например, игровую приставку Sony Playstation.


 
 
К началу страницы

 

ГЛОБАЛИСТЫ НА МАРШЕ


Поскольку Интернет связывает или в ближайшее время свяжет между собой чуть ли не «все компьютеры вообще» на нашей планете, то весьма логичной кажется идея сообща использовать всю фантастическую мощь и насыщенность глобальной системы. Технологии Grid делают сегодня самый важный шаг, претендуя на место ведущего направления дальнейшего развития всемирной паутины. Например, вице-президент IBM по технологиям Интернета Джон Патрик прямо называет Grid «следующей ступенью развития в естественной эволюции Интернета».

Чаще всего приводится аналогия с power grid – то есть с обычной сетью электропитания. Каждый может легко подключиться к электросети через розетку и взять электричества, сколько ему требуется, не задумываясь о том, откуда пришел ток, где расположена электростанция и знает ли провайдер о намерении использовать его ресурс в данный момент. Через приведенную аналогию можно осмыслить и дальнейшие шаги – оплату полученных ресурсов, приоритетное предоставление ресурсов в случае аварийного дефицита, отключение за неуплату и т.д.

Grid можно рассматривать как расширение Web, которое по своим функциям выходит за рамки совместного использования информации, давая возможность совместно использовать любые компьютерные ресурсы. Правда, прежде чем это станет реальностью, должны будут либо договориться между собой ведущие поставщики компьютерных систем, либо компьютерное сообщество решительно перейдет на свободно распространяемое программное обеспечение и предоставление ресурсов по запросу. Однако, работы по созданию всемирной сети нового поколения не останавливаются в ожидании лучших времен. Радикально переосмысливаются базовые принципы работы в Интернет.

На сегодняшний день Интернет остается средством индивидуальных коммуникаций, а компьютеры хранят и передают информацию, которая имеет смысл только для людей. Появление Web-служб создает основу для взаимодействия между приложениями, позволяя более эффективно использовать возможности Web за счет поддержки автоматизированных процессов, включая процессы межмашинного взаимодействия. В то же время, создается значительная сетевая инфраструктура обмена программами, вычислительными услугами и данными.

Заметим, кстати, что развитие Grid в направлении глобализации заставляет переосмыслить ранее высказанный и часто используемый в маркетинговых целях тезис об «эффективности использования ресурсов». В самом деле, серьезная система такого масштаба для обеспечения надежной работы неизбежно должна быть избыточна, в противном случае она не сможет эффективно противостоять пиковым нагрузкам или неожиданным сбоям. Таким образом, идея всемирного Grid по самой своей сути отличается от узко-корпоративной заботы «выжать все возможное» из простаивающего железа.

Главным становится довод о возможности аутсорсинга как метода экономии средств, выделяемых на содержание информационной инфраструктуры предприятия. Квалифицированные специалисты стоят дорого, и содержать их в штате организации, не специализирующейся на компьютерном бизнесе, весьма накладно. Когда специалисты были относительно дешевы, а коммуникации дороги, компании размещали их у себя. Когда коммуникации дешевеют, а специалисты дорожают, становится выгоднее покупать внешние услуги.

Аренда серверов и систем хранения — только первый шаг; основной эффект будет получен, когда заказчику не нужно будет инвестировать в развитие собственной инфраструктуры и собственных специалистов, как сегодня никому в голову не придет строить свою электростанцию, нанимать электриков и завозить мазут, чтобы освещать и обогревать супермаркет.


 
 
К началу страницы

 

КАК ЭТО РАБОТАЕТ


Базовым программным обеспечением Grid и международным стандартом де-факто является сегодня Globus, его взяли за основу в ведущих проектах Grid (IPG, NCSA, Gryphyn, DataGrid). Большая часть новых исследований и разработок в области Grid ориентируется именно на Globus.

Стандарты Web-служб заложили каркас Сети нового поколения, в котором определяющим будет тесное взаимодействие служб, практически не требующее участия человека. Основная задача, решаемая в Grid, — обеспечение доступа к ресурсам, а поскольку ресурсы распределенные, то функционирование обеспечивается специальной формой ПО — службами. В отличие от модели «клиент-сервер» тот или иной набор служб устанавливается здесь на каждом ресурсе. Программное обеспечение Grid делится на несколько слоев: адаптация ресурсов, связь, доступ к ресурсам, кооперация и координация.

1. Слой адаптации является той частью программного обеспечения Grid, которая работает на ресурсах и представляет их для использования вовне. Первая задача этого слоя — унификация ресурсов. Вторая задача – введение необходимых дополнительных средств локального управления ресурсами. Функциональные возможности вышележащих слоев в большой степени определяются множеством операций, реализованных в слое адаптации.

2. Слой связи объединяет протоколы коммуникации и безопасности. Протоколы коммуникации обеспечивают передачу данных, маршрутизацию и именование. Протоколы безопасности надстроены над коммуникационными, здесь решаются задачи аутентификации, защиты сообщений и авторизации.

3. Слой доступа к ресурсам определяет ряд протоколов и программных интерфейсов, которые делают возможным удаленное использование ресурсов Grid. С помощью средств этого слоя производится поиск ресурсов, дистанционная инициация, мониторинг и управление операциями. В отличие от кооперативного, слой доступа ограничен возможностью работы с индивидуальными ресурсами — без какого-либо учета глобального состояния Grid.

4. Слой кооперации строится над слоем удаленного доступа, позволяя, в отличие от последнего, взаимодействовать не с индивидуальным ресурсом, а с их совокупностью. На этом уровне Grid рассматривается уже как организованная среда.

5. Слой кооперации завершает превращение распределенных ресурсов в единую операционную среду с общими регламентами, стандартными протоколами и интеграционными службами. Однако, для практической организации работы Grid необходимо распределять ресурсы не только по пространству, но и по времени. Это функция слоя координации.


 
 
К началу страницы

 

ДЕЛО ЗА МАЛЫМ?


Сегодня Grid претендует на первые роли не только в научно-технической сфере, но и во Всемирной паутине вообще, которая сама начиналась как технология для научного сотрудничества, а впоследствии стала важнейшим средством ведения бизнеса. Аналогичную эволюцию испытывает и идея Grid, однако превращение Сети в инфраструктуру для производственной деятельности требует новых подходов.

В энциклопедии Britannica приведено следующее определение: «Grid — метод использования распределенных процессорных мощностей и распределенных систем хранения, ставший популярным благодаря схемам, позволяющим использовать незанятые вычислительные ресурсы, разбросанные по всему миру. Сегодня, в основном по причинам недостаточной безопасности, системы, построенные на принципах Grid, создаются чаще всего внутри предприятий; этот метод позволяет им более эффективно использовать вычислительные ресурсы».

Действительно, на пути массового коммерческого использования «максималистских» идей, высказываемых поклонниками Grid, еще немало препятствий. Они связанны, в первую очередь, с осторожным отношением бизнеса к кооперации, потенциально представляющей угрозу информационной и финансовой безопасности. Пока возможные пути сотрудничества осторожно изучаются. Универсального решения проблем безопасности, арбитража и биллинга еще нет, участники рынка пытаются договориться, установить некие общие «правила игры».

Кристиан Келлер, директор по продажам систем IBM в Центральной и Восточной Европе, на Ближнем Востоке и в Африке приводит пример возможного сотрудничества конкурирующих компаний: «Предположим, у BMW есть очень хорошая программа для моделирования crash-тестов, у VW программа слабее, но очень мощный компьютер, а у Mercedes средненькие программа и компьютер, зато огромная база фактических данных. Если объединить эти три элемента, можно значительно повысить качество моделирования.»

Сегодня ведущие мировые компании, такие как IBM, Sun Microsystems, HP, Oracle активно развивают решения для Grid. Они предлагают близкие по смыслу стратегии развития, направленные на значительную реструктуризацию корпоративной информационной инфраструктуры. Их инициативы называются по-разному, но по сути очень похожи – все современные стратегии прочно связаны с архитектурой Grid.


 
 
К началу страницы