Big Data 2014: Там, где данные всегда большие | Ofisp.org

Big Data 2014: Там, где данные всегда большие

28 Март 201407:28

Третий форум Big Data 2014, проведенный 20 марта издательством «Открытые системы», познакомил участников с новейшей практикой и проектами в области Больших Данных и стал площадкой для обсуждения актуальных проблем. С пленарным докладом на форуме выступил Массимо Ламанна, старший руководитель проектов группы сервисов и систем хранения данных департамента информационных технологий европейского центра ядерных исследований ЦЕРН.

«Физика высоких энергий всегда требовала значительных вычислительных мощностей и обработки огромных объемов экспериментальной информации», — подчеркнул Ламанна, пояснив, что экспериментальные установки Большого адронного коллайдера (Large Hadron Collider, LHC) генерируют ежегодно свыше 25 Тбайт «сырых» данных.

Информация, полученная в результате экспериментов, проведенных на коллайдере, хранится в центре обработки данных ЦЕРН (ЦОД нулевого уровня) и передается также в 11 центров первого уровня (см. «‘Тривиальный параллелизм’ в поисках модели мироздания», Computerworld Россия, № 43, 2007).

Экспериментальная информация содержится в иерархическом хранилище CASTOR (CERN Advanced STORage manager), разработанном в ЦЕРН для хранения файлов экспериментальных и других физических данных. Эта система, пояснил Ламанна, которая используется в продуктивном режиме уже много лет, теперь применяется также для LHC.

CASTOR имеет компонентную архитектуру, содержит центральную СУБД, обеспечивающую, в том числе, защиту от изменений компонентов, поддерживает единое пространство имен, формирует несколько копий файлов на лентах или в дисковых массивах. В состав CASTOR входит восемь роботизированных ленточных библиотек, содержащих до 14 тыс. картриджей каждая. В настоящее время в ЦЕРН насчитывается свыше 52 тыс. ленточных картриджей емкостью от 1 Тбайт до 5,5 Тбайт.

Для каждой экспериментальной установки LHC в CASTOR установили петабайтные дисковые массивы. На этапах ввода в действие адронного коллайдера были оптимизированы инструменты и протоколы работы с файлами данных, но это не полностью устранило проблемы, связанные с совмещением архивирования информации и оперативного доступа к файлам для анализа данных экспериментов.

Три года назад в ЦЕРНе ввели в действие систему хранения EOS (Exabyte Online Storage), содержащую восемь сотен дисковых серверов и более 17 тыс. дисковых накопителей, значительно снизившую время доступа к данным экспериментов. В EOS перенесена значительная часть сервисов, которые ранее поддерживались дисковыми массивами CASTOR. Система EOS, поддерживающая файловые и блочные протоколы, обладает функциональностью балансировки нагрузки и самовосстановления при выходе из строя отдельных дисков или серверов.

Постоянный рост объемов информации стимулирует повышение производительности и развитие функциональности комплексов хранения данных ЦЕРНа. Наряду с физической информацией, хранящейся в системах CASTOR и EOS, значительные объемы пространства хранилищ данных занимают директории около 30 тыс. пользователей, которые работают с файловыми системами AFS/DFS; служебная информация (AFS/NFS) ИТ-персонала, обеспечивающего поддержку инфраструктуры; резервное копирование данных серверов и настольных систем. Внедрение облачных технологий стимулирует использование блочных протоколов для хранения данных виртуальных машин OpenStack и сервисов AFS и NFS.

«Мы намерены использовать единую модель поддержки сервисов хранения, которая должна не зависеть от отказов дисков, серверов и сети, может поддерживать географическую репликацию данных и, наряду с этим, быть нейтральной по отношению к поставщикам оборудования, а также обеспечивать горизонтальное масштабирование на базе общедоступного ‘железа’» — подчеркнул Ламанна.

Для создания такой модели в ЦЕРНе ориентируются на технологию Ceph. Эта платформа хранения, основанная на программном обеспечении с открытым кодом, использует единый распределенный компьютерный кластер для организации объектного, блочного и файлового хранения, которое может масштабироваться до экзабайтного уровня.

Ceph содержит встроенные инструменты резервируемой репликации данных, которые обеспечивают высокий уровень надежности, а также обладает способностью балансировки нагрузки при изменении числа узлов в системе. Для поддержки ПО могут применяться серверы общего назначения.

Весной прошлого года объем хранящейся в ЦЕРНе физической информации превысил 100 Пбайт. Это данные не только LHC, но и других текущих и проведенных ранее экспериментов в области физики высоких энергий, а также магнитного альфа-спектрометра, расположенного на Международной космической станции. В CASTOR содержится около 88 Пбайт, в EOS – более 13 Пбайт.

В 2015 году, по словам Ламанна, планируется значительно, возможно до двух раз, увеличить производительность комплексов хранения данных.

Похожие материалы

27.03.2014
Компания Google запустила новый сервис Helpouts, который призван стать площадкой, где пользователи смогут получить видеоконсультации по любому вопросу от удаления вирусов до починки телевизионного кабеля. Оказывать видеопомощь на Helpouts будут эксперты, при этом, в качестве последних могут выступать, как частные лица, так и организации. Географических рамок по местонахождению экспертов и языку консультирования нет, но на данный момент на сервисе доступны, как правило, англоязычные консультации, да и интерфейс Heplouts также на английском.
12.06.2013
Министр технологий и телекоммуникаций Пакистана Ануша Рахман Хан заявила, что если корпорация Google не удалит "кощунственные и нежелательные материалы" со своего видеохостинга YouTube, то пакистанские власти будут вынуждены блокировать доступ своим согражданам ко всем сайтам и сервисам компании. Однако, если Google согласится ввести для Пакистана специальный фильтр в YouTube, то блокировка видеохостинга может быть снята.Напомним, что властями Пакистана видеохостинг YouTube был заблокирован еще в сентябре прошлого года. Причиной этому послужило видео "Невиновность мусульман", вызвавшее волну массовых протестов у жителей арабских стран. В видео высмеивался глубоко почитаемый мусульманами пророк Мухаммед. Власти Пакистана имели намерение заблокировать видеохостинг YouTube еще в 2008 году, после того как туда были выложены видеозаписи с критикой ислама.
18.05.2014
StratoBus – масштабный проект европейских экспертов. Разработкой и созданием системы занимается французская Thales Alenia Space совместно с компаниями, специализирующимися в области навигации и связи. Проект представляет собой систему воздушных аппаратов многоцелевого использования. Воздушный аппарат будет находиться около 20 км от земли над уровнем движения авиалайнеров. Европейская команда создает эту систему для качественного Интернета и мобильной связи, радио и ТВ-сигналов, охране границ, системы GPS, наблюдения за природными изменениями на воде и суше.
28.03.2014
В Microsoft все-таки разработали версию Office для планшетов iPad, пусть по мнению многих и со слишком большим опозданием. О выходе офисного пакета для планшетов Apple было объявлено на пресс-конференции в Сан-Франциско, проведенной Сатья Наделлой, генеральным директором Microsoft. Сотрудник корпорации продемонстрировал работу Excel, Word и PowerPoint на iPad, сообщив что пакет уже доступен в Apple App Store. «Это прекрасный набор приложений», — заявил Наделла.
23.12.2013
«Опрос ВЦИОМа показал: интернет-сообщество позитивно оценило послание Путина - это очень интересный факт. Рунет перестает быть местом, где собираются любители покритиковать», - заявил газете ВЗГЛЯД политолог Николай Миронов. 

Оборудование:

Общие характеристики Тип: Wi-Fi точка доступа Стандарт беспроводной связи: 802.11n, частота 2.4 ГГц...
→ Оставить отзыв
Для начала давайте определим что такое IPTV и мини-роутер. Мини-роутер (маршрутизатор) – сетевое...
→ Оставить отзыв
Подключение При подключении нового роутера к сети интернет необходимо подключить кабель провайдера...
→ Оставить отзыв
Сначала – посмотрим, что такое Wi-Fi 3G роутер вообще, и чем такие решения лучше «модемов». В...
→ Оставить отзыв