Big Data 2014: Разнообразие источников | Ofisp.org

Big Data 2014: Разнообразие источников

12 апреля 201416:12

Для компании HP работа с данными является относительно новым направлением – решения в этой области появились в ее портфеле несколько лет назад, после приобретения компаний Autonomy и Vertica. Тем не менее компания уже приобрела репутацию сильного игрока на рынке аналитики Больших Данных и сейчас ищет себя в новой перспективной области объединения инструментов Больших Данных с функциями управления ИТ – сферы, где HP традиционно сильна.

В беседе во время форума Big Data 2014, организованного издательством «Открытые системы», Сергей Знаменский, ведущий консультант по продуктам HP Software Россия, рассказал о текущих и будущих возможностях решений HP по работе с Большими Данными.

- Сложилось ли в отрасли стандартное представление о том, что такое Большие Данные, с которым HP солидарна и которое поддерживают ваши системы?

Для каждой компании граница Больших Данных своя. Это некий технологический барьер, обозначающий, что за ним становится неэффективным использование традиционных универсальных баз данных. Неэффективность проявляется в том, что аналитические запросы исполняются часами, иногда сутками, поскольку массив данных слишком велик для обработки имеющимися средствами. В реальной жизни такая граница может варьироваться от нескольких терабайтов до нескольких десятков терабайтов и выше.

Однако значение имеет не только объем, но и скорость размножения данных, время их жизни. В компании должна быть определена политика по работе с данными, учитывающая особенности разных классов данных – структурированных и неструктурированных. НР предоставляет возможности работать и с теми и с другими. Решение НР Autonomy предназначено для анализа неструктурированных данных, но не дает возможности их хранения. Система HP Vertica позволяет решать задачи накопления и аналитической обработки структурированных данных. Недавно НР расширила функциональность этого решения – теперь в Vertica можно работать с неструктурированными текстовыми данными, в том числе с использованием языка SQL.

- Какое место занимает Vertica в корпоративном ландшафте работы с данными?

Vertica – это аналитическая база данных, которую надо стыковать с источниками данных, а также с BI-системами, осуществляющими обработку и представление аналитических запросов. Для этих целей Vertica поддерживает стандартные протоколы, она снабжена готовыми коннекторами для многих систем работы с данными, в том числе Hadoop, Microstrategy, Informatica, SAP Business Objects, Tableau и др.

Источники данных могут быть самыми разнообразными. Так, в телекоммуникационных компаниях система мониторинга производительности оборудования распределенной сети (например, по протоколу SNMP) может порождать огромные объемы данных, миллионы рабочих записей за короткие интервалы времени. Vertica позволяет их накапливать, чтобы иметь возможность анализировать в онлайн-режиме. Еще одна область применения для операторов связи – сохранение и анализ записей использования услуг, например атрибутов звонков по мобильному телефону.

Vertica не имеет пользовательских графических экранов, и это дает пользователю свободу выбора BI-системы – от сравнительно легких решений, например Tableau, до традиционных, таких как SAP Business Objects. Любые системы, которые поддерживают стандартные интерфейсы (SQL, ODBC, JDBC) могут выступать в качестве надстройки к Vertica.

- Способна ли Vertica работать с данными в реальном времени, ведь часто это бывает необходимо в задачах Больших Данных?

Нужно четко понимать границы реального времени в применении к той или иной системе. Рассмотрим, допустим, задачу защиты от мошенничества при совершении покупок через сеть мобильного доступа. Принимающая сторона должна успеть за время, пока транзакция еще не завершена, оценить ее атрибуты и понять, насколько она отличается от рядовых транзакций и может ли быть классифицирована как подозрительная. За несколько секунд в ходе выполнения транзакции необходимо сделать аналитический запрос к системе Больших Данных и на этой основе оценить, нужен ли дополнительный контроль, чтобы исключить мошенничество. Это пример системы, близкой к реальному времени.

Vertica имеет механизмы, поддерживающие анализ данных в таких условиях. Во-первых, кластеризация – Vertica обеспечивает распараллеливание запроса к большим объемам данных. Во-вторых, колоночное хранение данных. Но надо отметить также, что производильность Vertica напрямую зависит от производительности оборудования, на котором развернута система. Vertica ориентирована на использование серверов стандартной архитектуры Intel, и эффект от этой технологии проявится на самом заурядном оборудовании. Но если мы хотим конкурировать, скажем, с SAP HANA, то надо позаботиться о том, чтобы система была развернута на максимально производительной платформе из линейки стандартных серверов.

- Стратегическим направлением НР в последнее время стало продвижение конвергентных систем – программно-аппаратных комплексов, оптимизированных под определенные задачи. Vertica входит в состав таких решений?

Недавно НР анонсировала аппаратно-программный комплекс ConvergedSystem for Vertica. Но здесь стоит быть осторожным. Использование ПО Vertica на разных платформах дает большую гибкость заказчикам. Они могут, допустим, стартовую задачу реализовать на платформах с не самой высокой производительностью и получить эффект. Если потоки и объемы данных будут расти, то система может быть перенесена на более производительные ресурсы без существенных капитальных вложений, потому что оборудование сейчас достаточно дешево. Например, сегодня можно построить кластер для Vertica на базе HP ProLiant G8, а через какое-то время появится новое поколение этих серверов, и заказчик сможет, не останавливая кластер, заменить оборудование на системы более высокого класса.

- Есть ли спрос на Vertica в России?

В 2013 году мы наблюдали устойчивую тенденцию активизации продаж этого продукта. Спрос на Vertica наблюдается в первую очередь у компаний, часть бизнеса которых зависит от высоких технологий, в первую очередь от Интернета. У них возникает необходимость анализировать Большие Данные, автоматически поступающие из интернет-среды. Кроме того, системой начали активно интересоваться банки, операторы связи. Позитивным фактором является наличие полнофункциональной бесплатной реализации, Vertica Community Edition, которая имеет ограничения только по объему сырых данных. Заказчики могут начинать с нее, а затем, когда объемы данных вырастут, перейти на платную редакцию системы.

- В области программного обеспечения HP в первую очередь известна как производитель систем управления ИТ-инфраструктурой и поддержки процессов управления ИТ-сервисами. Есть ли примеры интеграции этих решений и технологий Больших Данных?

HP начинает использовать решения класса Больших Данных на своем традиционном поле управления ИТ, где накоплен значительный опыт. Первый пример – система Operational Analytics, которая с помощью Vertica анализирует Большие Данные из систем мониторинга ИТ-инфраструктуры, входящих в семейство HP BSM. Думаю, НР будет расширять эту интеграцию. Возьмем, скажем, традиционную систему сетевого мониторинга НР NNM. В случае развитой сети передачи данных потоки данных, которые в эту систему поступают, очень большие и, как правило, не агрегируются, то есть накапливаются лишь на какой-то интервал времени, а дальше пропадают. Аналитическая система класса Vertica позволила бы решить задачу сохранения и анализа таких данных в масштабе времени, близком к реальному.

Для НР возможность встраивать новые технологии в свои традиционные решения — это серьезный рыночный дифференциатор, выделяющий компанию среди конкурентов. Еще один пример – облачная ITSM-система HP Service Anywhere, которая использует Vertica в качестве встроенной аналитической базы данных, что позволяет быстрее строить отчетность. Кроме того, в Service Anywhere применяется платформа Autonomy IDOL. Эта система позволяет внести элемент искусственного интеллекта в обработку информации – распознавать скрытые смыслы, выявлять связи, делать статистический анализ. В Service Anywhere искусственный интеллект на основе IDOL используется для построения базы знаний – система дает подсказки пользователю, когда он заходит на портал самообслуживания и описывает свою внештатную ситуацию. IDOL пытается распознать смысл, используя в том числе дополнительную информацию, например предыдущие обращения этого пользователя.

В сфере автоматизации Help Desk и процессов ITSM сейчас предлагается множество решений, как правило очень похожих между собой, поскольку здесь сложно сделать что-то новое. Такие технологии, как Vertica и Autonomy, дают HP возможность сделать реальный скачок вперед.

Приведу еще один пример. В конце прошлого года на конференции НР Discover в Барселоне был представлен прототип решения под кодовым названием Titan. Это высокоуровневая экспертная система на базе технологий Больших Данных Vertica и Autonomy, которая позволяет на основе введенной информации бизнес-уровня делать анализ, выявлять скрытые связи, строить прогнозы и давать рекомендации. Думаю, в области управления ИТ будущее за такими решениями.

Похожие материалы

20.08.2014
Сегодняшний век полон разнообразными увлечениями и развлечениями. Люди, имеющие достаточно разностороннее мировозрение привыкли посещать самые разнообразные места, которые подразумевают как культурный, так и другие виды полезного отдыха. Для того, чтобы в любом месте выглядеть соответствующем образом, стоит в своем гардеробе иметь достаточно много одежды, которая подойдет для различных случаев.
29.04.2014
ОАО «ВымпелКом» (бренд «Билайн») приглашает всех москвичей и гостей города совершить прогулку по Москве-реке на речных трамвайчиках и прямо с борта корабля поделиться впечатлениями и фотографиями с помощью высокоскоростного WiFi. С начала мая и до конца сезона навигации 20 речных трамвайчиков Столичной судоходной компании, оборудованные высокоскоростным WiFi от «Билайн», будут курсировать по Москве-реке по традиционным маршрутам. Прогулка на речном трамвайчике является одним из наиболее популярных видов досуга в городе.
18.04.2014
Облачные услуги и решения на базе технологии обработки данных в оперативной памяти HANA стали главными новинками, представленными на очередном Форуме SAP в Москве. В этом году он собрал более 3 тыс. участников, в том числе около 2 тыс. представителей компаний и организаций — заказчиков SAP и более 500 партнеров.
05.11.2013
Сайт – это один из самых главных источников информации в сети интернет. При его создании и установке в специалистов часто возникают проблемы с самим заказчиком, ведь много из них хотят видеть в сайте не сопоставимые вещи. Так первый вопрос, который слышит разработчик, это в основном, сколько будет стоить сайт?
12.12.2015
Все современные мобильные устройства, компьютеры, телевизоры и прочую технику можно подключить к беспроводному интернету. Одни устройства подключаются автоматически, другие требуют специальных настроек или даже дополнительного оборудования. О том, как подключить компьютер к wifi и поговорим в этой статье.

Оборудование:

Общие характеристики Тип: Wi-Fi точка доступа Стандарт беспроводной связи: 802.11n, частота 2.4 ГГц...
→ Оставить отзыв
Для начала давайте определим что такое IPTV и мини-роутер. Мини-роутер (маршрутизатор) – сетевое...
→ Оставить отзыв
Подключение При подключении нового роутера к сети интернет необходимо подключить кабель провайдера...
→ Оставить отзыв
Сначала – посмотрим, что такое Wi-Fi 3G роутер вообще, и чем такие решения лучше «модемов». В...
→ Оставить отзыв