Big Data 2014: Там, где данные всегда большие | Ofisp.org

Big Data 2014: Там, где данные всегда большие

28 Март 201407:28

Третий форум Big Data 2014, проведенный 20 марта издательством «Открытые системы», познакомил участников с новейшей практикой и проектами в области Больших Данных и стал площадкой для обсуждения актуальных проблем. С пленарным докладом на форуме выступил Массимо Ламанна, старший руководитель проектов группы сервисов и систем хранения данных департамента информационных технологий европейского центра ядерных исследований ЦЕРН.

«Физика высоких энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации», — подчеркнул Ламанна, пояснив, что экспериментальные установки Большого адронного коллайдера (Large Hadron Collider, LHC) генерируют ежегодно свыше 25 Тбайт «сырых» данных.

Информация, полученная в результате экспериментов, проведенных на коллайдере, хранится в центре обработки данных ЦЕРН (ЦОД нулевого уровня) и передается также в 11 центров первого уровня (см. «‘Тривиальный параллелизм’ в поисках модели мироздания», Computerworld Россия, № 43, 2007).

Экспериментальная информация содержится в иерархическом хранилище CASTOR (CERN Advanced STORage manager), разработанном в ЦЕРН для хранения файлов экспериментальных и других физических данных. Эта система, пояснил Ламанна, которая используется в продуктивном режиме уже много лет, теперь применяется также для LHC.

CASTOR имеет компонентную архитектуру, содержит центральную СУБД, обеспечивающую, в том числе, защиту от изменений компонентов, поддерживает единое пространство имен, формирует несколько копий файлов на лентах или в дисковых массивах. В состав CASTOR входит восемь роботизированных ленточных библиотек, содержащих до 14 тыс. картриджей каждая. В настоящее время в ЦЕРН насчитывается свыше 52 тыс. ленточных картриджей емкостью от 1 Тбайт до 5,5 Тбайт.

Для каждой экспериментальной установки LHC в CASTOR установили петабайтные дисковые массивы. На этапах ввода в действие адронного коллайдера были оптимизированы инструменты и протоколы работы с файлами данных, но это не полностью устранило проблемы, связанные с совмещением архивирования информации и оперативного доступа к файлам для анализа данных экспериментов.

Три года назад в ЦЕРНе ввели в действие систему хранения EOS (Exabyte Online Storage), содержащую восемь сотен дисковых серверов и более 17 тыс. дисковых накопителей, значительно снизившую время доступа к данным экспериментов. В EOS перенесена значительная часть сервисов, которые ранее поддерживались дисковыми массивами CASTOR. Система EOS, поддерживающая файловые и блочные протоколы, обладает функциональностью балансировки нагрузки и самовосстановления при выходе из строя отдельных дисков или серверов.

Постоянный рост объемов информации стимулирует повышение производительности и развитие функциональности комплексов хранения данных ЦЕРНа. Наряду с физической информацией, хранящейся в системах CASTOR и EOS, значительные объемы пространства хранилищ данных занимают директории около 30 тыс. пользователей, которые работают с файловыми системами AFS/DFS; служебная информация (AFS/NFS) ИТ-персонала, обеспечивающего поддержку инфраструктуры; резервное копирование данных серверов и настольных систем. Внедрение облачных технологий стимулирует использование блочных протоколов для хранения данных виртуальных машин OpenStack и сервисов AFS и NFS.

«Мы намерены использовать единую модель поддержки сервисов хранения, которая должна не зависеть от отказов дисков, серверов и сети, может поддерживать географическую репликацию данных и, наряду с этим, быть нейтральной по отношению к поставщикам оборудования, а также обеспечивать горизонтальное масштабирование на базе общедоступного ‘железа’» — подчеркнул Ламанна.

Для создания такой модели в ЦЕРНе ориентируются на технологию Ceph. Эта платформа хранения, основанная на программном обеспечении с открытым кодом, использует единый распределенный компьютерный кластер для организации объектного, блочного и файлового хранения, которое может масштабироваться до экзабайтного уровня.

Ceph содержит встроенные инструменты резервируемой репликации данных, которые обеспечивают высокий уровень надежности, а также обладает способностью балансировки нагрузки при изменении числа узлов в системе. Для поддержки ПО могут применяться серверы общего назначения.

Весной прошлого года объем хранящейся в ЦЕРНе физической информации превысил 100 Пбайт. Это данные не только LHC, но и других текущих и проведенных ранее экспериментов в области физики высоких энергий, а также магнитного альфа-спектрометра, расположенного на Международной космической станции. В CASTOR содержится около 88 Пбайт, в EOS – более 13 Пбайт.

В 2015 году, по словам Ламанна, планируется значительно, возможно до двух раз, увеличить производительность комплексов хранения данных.

Похожие материалы

13.04.2013
Компания Google выплатила в качестве вознаграждения $31,336 разработчику Ральфу-Филиппу Вайманну (Ralf-Philipp Weinmann), обнаружившему четыре опасные уязвимости в операционной системе Chrome. Уязвимости были найдены в O3D – специальном плагине, который создает интерактивную 3D-графику приложений, запускаемых в окне браузера или в пользовательском XML-интерфейсе. Как отметил в блоге компании представитель Google Бен Генри (Ben Henry), обновление для Chrome 26, устраняющее обнаруженные бреши, будет выпущено в ближайшие несколько дней. По словам Генри, корпорация выплатила разработчику вознаграждение за обнаружение цепочки из трех ошибок, написание PoC-кода эксплоита, а также за подробное описание брешей. Отметим, что по программе выплаты вознаграждения за обнаруженные уязвимости в Chrome «the Chromium Vulnerability Rewards Program» минимальная выплата разработчикам составляет $500, однако компания обычно выплачивает не менее $1000, хотя иногда бывают и случаи, когда Google оценивает проделанную исследователями работу в миллионы долларов.
11.04.2014
С недавних пор доступ к интернету стал одной из основных потребностей человека. Поэтому ошибиться с провайдером означает чуть ли не лишить себя возможности нормально жить. Даже если вы не входите в число людей, которые большинство своего свободного времени проводят в сети, все же лучше перестраховаться и подключить интернет от авторитетного провайдера.
26.08.2016
Недавно киностудия «Союзмультфильм» получила запрет на использование своих продуктов в Интернете. Это решение было принято арбитражным судом столицы. Иск подали адвокаты Госфильмофонда России. Кстати, запретили не просто применять мультики без спросу, но и выдавать лицензию на это каким-то третьим лицам.
02.09.2013
По мнению исследователя из Microsoft Research, занимающегося технологиями взаимодействия человека с компьютером, со временем клавиатура станет иметь узкоспециализированное значение. Хотя она полностью не исчезнет, встретить ее можно будет гораздо реже. По мнению Энди Уилсона (Andy Wilson), старшего исследователя из Microsoft Research, со временем компьютерная клавиатура станет нишевым устройством. В Microsoft Research, исследовательском подразделении корпорации Microsoft, Уилсон занимается технологиями взаимодействия человека с вычислительными устройствами. В 2002 г.

Оборудование:

Общие характеристики Тип: Wi-Fi точка доступа Стандарт беспроводной связи: 802.11n, частота 2.4 ГГц...
→ Оставить отзыв
Для начала давайте определим что такое IPTV и мини-роутер. Мини-роутер (маршрутизатор) – сетевое...
→ Оставить отзыв
Подключение При подключении нового роутера к сети интернет необходимо подключить кабель провайдера...
→ Оставить отзыв
Сначала – посмотрим, что такое Wi-Fi 3G роутер вообще, и чем такие решения лучше «модемов». В...
→ Оставить отзыв