Big Data 2014: Там, где данные всегда большие | Ofisp.org

Big Data 2014: Там, где данные всегда большие

28 Март 201407:28

Третий форум Big Data 2014, проведенный 20 марта издательством «Открытые системы», познакомил участников с новейшей практикой и проектами в области Больших Данных и стал площадкой для обсуждения актуальных проблем. С пленарным докладом на форуме выступил Массимо Ламанна, старший руководитель проектов группы сервисов и систем хранения данных департамента информационных технологий европейского центра ядерных исследований ЦЕРН.

«Физика высоких энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации», — подчеркнул Ламанна, пояснив, что экспериментальные установки Большого адронного коллайдера (Large Hadron Collider, LHC) генерируют ежегодно свыше 25 Тбайт «сырых» данных.

Информация, полученная в результате экспериментов, проведенных на коллайдере, хранится в центре обработки данных ЦЕРН (ЦОД нулевого уровня) и передается также в 11 центров первого уровня (см. «‘Тривиальный параллелизм’ в поисках модели мироздания», Computerworld Россия, № 43, 2007).

Экспериментальная информация содержится в иерархическом хранилище CASTOR (CERN Advanced STORage manager), разработанном в ЦЕРН для хранения файлов экспериментальных и других физических данных. Эта система, пояснил Ламанна, которая используется в продуктивном режиме уже много лет, теперь применяется также для LHC.

CASTOR имеет компонентную архитектуру, содержит центральную СУБД, обеспечивающую, в том числе, защиту от изменений компонентов, поддерживает единое пространство имен, формирует несколько копий файлов на лентах или в дисковых массивах. В состав CASTOR входит восемь роботизированных ленточных библиотек, содержащих до 14 тыс. картриджей каждая. В настоящее время в ЦЕРН насчитывается свыше 52 тыс. ленточных картриджей емкостью от 1 Тбайт до 5,5 Тбайт.

Для каждой экспериментальной установки LHC в CASTOR установили петабайтные дисковые массивы. На этапах ввода в действие адронного коллайдера были оптимизированы инструменты и протоколы работы с файлами данных, но это не полностью устранило проблемы, связанные с совмещением архивирования информации и оперативного доступа к файлам для анализа данных экспериментов.

Три года назад в ЦЕРНе ввели в действие систему хранения EOS (Exabyte Online Storage), содержащую восемь сотен дисковых серверов и более 17 тыс. дисковых накопителей, значительно снизившую время доступа к данным экспериментов. В EOS перенесена значительная часть сервисов, которые ранее поддерживались дисковыми массивами CASTOR. Система EOS, поддерживающая файловые и блочные протоколы, обладает функциональностью балансировки нагрузки и самовосстановления при выходе из строя отдельных дисков или серверов.

Постоянный рост объемов информации стимулирует повышение производительности и развитие функциональности комплексов хранения данных ЦЕРНа. Наряду с физической информацией, хранящейся в системах CASTOR и EOS, значительные объемы пространства хранилищ данных занимают директории около 30 тыс. пользователей, которые работают с файловыми системами AFS/DFS; служебная информация (AFS/NFS) ИТ-персонала, обеспечивающего поддержку инфраструктуры; резервное копирование данных серверов и настольных систем. Внедрение облачных технологий стимулирует использование блочных протоколов для хранения данных виртуальных машин OpenStack и сервисов AFS и NFS.

«Мы намерены использовать единую модель поддержки сервисов хранения, которая должна не зависеть от отказов дисков, серверов и сети, может поддерживать географическую репликацию данных и, наряду с этим, быть нейтральной по отношению к поставщикам оборудования, а также обеспечивать горизонтальное масштабирование на базе общедоступного ‘железа’» — подчеркнул Ламанна.

Для создания такой модели в ЦЕРНе ориентируются на технологию Ceph. Эта платформа хранения, основанная на программном обеспечении с открытым кодом, использует единый распределенный компьютерный кластер для организации объектного, блочного и файлового хранения, которое может масштабироваться до экзабайтного уровня.

Ceph содержит встроенные инструменты резервируемой репликации данных, которые обеспечивают высокий уровень надежности, а также обладает способностью балансировки нагрузки при изменении числа узлов в системе. Для поддержки ПО могут применяться серверы общего назначения.

Весной прошлого года объем хранящейся в ЦЕРНе физической информации превысил 100 Пбайт. Это данные не только LHC, но и других текущих и проведенных ранее экспериментов в области физики высоких энергий, а также магнитного альфа-спектрометра, расположенного на Международной космической станции. В CASTOR содержится около 88 Пбайт, в EOS – более 13 Пбайт.

В 2015 году, по словам Ламанна, планируется значительно, возможно до двух раз, увеличить производительность комплексов хранения данных.

Похожие материалы

20.01.2014
Житель Швеции, 73-летний Бо Бергман, утверждает, что видит современный мир лучше молодого поколения, и благодаря своему опыту уверен — интернет необходимо закрыть.
31.07.2013
В июне доля спама в глобальном почтовом трафике по подсчетам «Лаборатории Касперского» составила 71,1%, что на 1,4% выше показателя за май. По сравнению с предыдущим месяцем доля вредоносных вложений снизилась на 1% и составила 1,8% от всего почтового трафика. При этом Россия заняла 1-е место по количеству срабатываний почтового антивируса. В июне спамеры особенно активно рассылали рекламу товаров и услуг, спрос на которые резко возрастает в летние месяцы.
21.04.2014
Носимые компьютеры в прошлом году сделали «огромный шаг вперед», и до 2018-го поставки «умных» наручных часов и других подобных устройств будут ежегодно увеличиваться на 78%, уверены в IDC. По прогнозу аналитиков, за нынешний год число проданных носимых устройств достигнет 19 млн, что втрое больше по сравнению с 2013-м. В 2018 же году поставки вырастут уже до 112 млн штук
13.12.2012
«Лаборатория Касперского» подписала соглашение с производителем мобильных процессоров Qualcomm о специальных условиях, на которых клиенты Qualcomm смогут предустанавливать защитное ПО Kaspersky Mobile Security и Kaspersky Tablet Security для Android. «Касперский» не разглашает подробностей соглашения, однако, как сообщил CNews директор по развитию мобильного бизнеса «Лаборатории Касперского» Кирилл Зеленский, подписанное соглашение носит глобальный характер, то есть касается производителей гаджетов, работающих во всем мире. «Особые условия» поставки защитных решений могут быть разными для разных производителей, и держатся в секрете. Известно, что они будут распространяться на вендоров, использующих процессоры семейства Qualcomm Snapdragon. Эти процессоры применяются, главным образом, в смартфонах среднего ценового диапазона, выпускаемых Samsung, Sony, HTC и LG.

Оборудование:

Общие характеристики Тип: Wi-Fi точка доступа Стандарт беспроводной связи: 802.11n, частота 2.4 ГГц...
→ Оставить отзыв
Для начала давайте определим что такое IPTV и мини-роутер. Мини-роутер (маршрутизатор) – сетевое...
→ Оставить отзыв
Подключение При подключении нового роутера к сети интернет необходимо подключить кабель провайдера...
→ Оставить отзыв
Сначала – посмотрим, что такое Wi-Fi 3G роутер вообще, и чем такие решения лучше «модемов». В...
→ Оставить отзыв