Big Data 2014: Там, где данные всегда большие | Ofisp.org

Big Data 2014: Там, где данные всегда большие

28 Март 201407:28

Третий форум Big Data 2014, проведенный 20 марта издательством «Открытые системы», познакомил участников с новейшей практикой и проектами в области Больших Данных и стал площадкой для обсуждения актуальных проблем. С пленарным докладом на форуме выступил Массимо Ламанна, старший руководитель проектов группы сервисов и систем хранения данных департамента информационных технологий европейского центра ядерных исследований ЦЕРН.

«Физика высоких энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации», — подчеркнул Ламанна, пояснив, что экспериментальные установки Большого адронного коллайдера (Large Hadron Collider, LHC) генерируют ежегодно свыше 25 Тбайт «сырых» данных.

Информация, полученная в результате экспериментов, проведенных на коллайдере, хранится в центре обработки данных ЦЕРН (ЦОД нулевого уровня) и передается также в 11 центров первого уровня (см. «‘Тривиальный параллелизм’ в поисках модели мироздания», Computerworld Россия, № 43, 2007).

Экспериментальная информация содержится в иерархическом хранилище CASTOR (CERN Advanced STORage manager), разработанном в ЦЕРН для хранения файлов экспериментальных и других физических данных. Эта система, пояснил Ламанна, которая используется в продуктивном режиме уже много лет, теперь применяется также для LHC.

CASTOR имеет компонентную архитектуру, содержит центральную СУБД, обеспечивающую, в том числе, защиту от изменений компонентов, поддерживает единое пространство имен, формирует несколько копий файлов на лентах или в дисковых массивах. В состав CASTOR входит восемь роботизированных ленточных библиотек, содержащих до 14 тыс. картриджей каждая. В настоящее время в ЦЕРН насчитывается свыше 52 тыс. ленточных картриджей емкостью от 1 Тбайт до 5,5 Тбайт.

Для каждой экспериментальной установки LHC в CASTOR установили петабайтные дисковые массивы. На этапах ввода в действие адронного коллайдера были оптимизированы инструменты и протоколы работы с файлами данных, но это не полностью устранило проблемы, связанные с совмещением архивирования информации и оперативного доступа к файлам для анализа данных экспериментов.

Три года назад в ЦЕРНе ввели в действие систему хранения EOS (Exabyte Online Storage), содержащую восемь сотен дисковых серверов и более 17 тыс. дисковых накопителей, значительно снизившую время доступа к данным экспериментов. В EOS перенесена значительная часть сервисов, которые ранее поддерживались дисковыми массивами CASTOR. Система EOS, поддерживающая файловые и блочные протоколы, обладает функциональностью балансировки нагрузки и самовосстановления при выходе из строя отдельных дисков или серверов.

Постоянный рост объемов информации стимулирует повышение производительности и развитие функциональности комплексов хранения данных ЦЕРНа. Наряду с физической информацией, хранящейся в системах CASTOR и EOS, значительные объемы пространства хранилищ данных занимают директории около 30 тыс. пользователей, которые работают с файловыми системами AFS/DFS; служебная информация (AFS/NFS) ИТ-персонала, обеспечивающего поддержку инфраструктуры; резервное копирование данных серверов и настольных систем. Внедрение облачных технологий стимулирует использование блочных протоколов для хранения данных виртуальных машин OpenStack и сервисов AFS и NFS.

«Мы намерены использовать единую модель поддержки сервисов хранения, которая должна не зависеть от отказов дисков, серверов и сети, может поддерживать географическую репликацию данных и, наряду с этим, быть нейтральной по отношению к поставщикам оборудования, а также обеспечивать горизонтальное масштабирование на базе общедоступного ‘железа’» — подчеркнул Ламанна.

Для создания такой модели в ЦЕРНе ориентируются на технологию Ceph. Эта платформа хранения, основанная на программном обеспечении с открытым кодом, использует единый распределенный компьютерный кластер для организации объектного, блочного и файлового хранения, которое может масштабироваться до экзабайтного уровня.

Ceph содержит встроенные инструменты резервируемой репликации данных, которые обеспечивают высокий уровень надежности, а также обладает способностью балансировки нагрузки при изменении числа узлов в системе. Для поддержки ПО могут применяться серверы общего назначения.

Весной прошлого года объем хранящейся в ЦЕРНе физической информации превысил 100 Пбайт. Это данные не только LHC, но и других текущих и проведенных ранее экспериментов в области физики высоких энергий, а также магнитного альфа-спектрометра, расположенного на Международной космической станции. В CASTOR содержится около 88 Пбайт, в EOS – более 13 Пбайт.

В 2015 году, по словам Ламанна, планируется значительно, возможно до двух раз, увеличить производительность комплексов хранения данных.

Похожие материалы

28.04.2014
Госдума приняла закон, предусматривающий создание в России Национальной платежной системы (НПС) с участием Центробанка.
22.11.2016
Вы наверное заметили, что уже давненько сложно найти хороший сайт с онлайн азартными играми. Они открываются и почему-то быстро закрываются. Да и не все провайдеры позволяют заходить на такие сайты. Это связано в первую очередь с российским законодательством, согласно которому такая деятельность имеет ряд  ограничений. Не каждый даже виртуальный зал игровых автоматов имеет право вести такую деятельность.
09.10.2016
Если говорить кратко, то оформление интернет-магазина мало чем отличается от оформления любого другого вида бизнеса. Тут нужно просто выбрать, какую именно форму бизнеса вы хотите зарегистрировать: ИП или ООО. Потом выбираете систему налогообложения, решаете открывать расчетный счет в банке или нет.
25.12.2013
Российские власти планируют ужесточить наказание компаний за факты утечек персональных данных и обязать их сообщать о происшествиях данного плана в уполномоченный госорган. В Государственную думу внесен законопроект, направленный на ужесточение борьбы с утечками персональных данных. Он был разработан членами Совета Федерации во главе с председателем верхней палаты парламента Валентиной Матвиенко. Документ предлагает обязать российские компании сообщать о любых утечках конфиденциальной пользовательской информации в уполномоченный государственный орган.
21.04.2013
Компания Malwarebytes, которая занимается продуктами для защиты от вирусов, оказалась в центре скандала. Очередное обновление к ее продуктам, содержавшее недоработки, по ошибке приняло обычные системные файлы за вредоносный код. В результате были уничтожены данные на тысячах клиентских машин. Производитель уже признал факт выпуска бракованного обновления и заверил, что его распространение уже прекращено. Как написали представители Malwarebytes, из-за недоработки в очередном списке вирусных сигнатур пострадали тысячи компьютеров по всему миру.

Оборудование:

Общие характеристики Тип: Wi-Fi точка доступа Стандарт беспроводной связи: 802.11n, частота 2.4 ГГц...
→ Оставить отзыв
Для начала давайте определим что такое IPTV и мини-роутер. Мини-роутер (маршрутизатор) – сетевое...
→ Оставить отзыв
Подключение При подключении нового роутера к сети интернет необходимо подключить кабель провайдера...
→ Оставить отзыв
Сначала – посмотрим, что такое Wi-Fi 3G роутер вообще, и чем такие решения лучше «модемов». В...
→ Оставить отзыв