Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Системы базового уровня

Содержание:

Введение

Big Data или по-русски «большие данные», — термин, появившийся совсем недавно – всего шесть лет назад. Но это не значит, что само явление появилось тогда же. Большими данными принято называть огромные массивы информации со сложной неоднородной и\или неопределенной структурой. Иногда о Big Data говорят, как о неструктурированной информации, но это неверно – большие данные всегда имеют структуру, она может быть сложной из-за того, что данные поступают из разных источников и содержат совершенно различные сведения или вовсе неизвестной. То есть, как правило, привести это нагромождение в единую таблицу не представляется возможным.

Большие данные хотя и существуют уже несколько лет, ранее не представляли большой ценности, т.к. их обработка и анализ были затруднены – для этого требовались существенные вычислительные мощности, продолжительное временя и финансовые затраты. Все изменилось, когда появилась технология обработки многогигабайтных массивов информации в быстрой оперативной памяти. Прорыв в этой области связывают с выходом на рынок свободно распространяемой платформы Hadoop, включающей библиотеки, утилиты и фреймворки для работы с Big Data. Компоненты Hadoop используются сегодня в большинстве коммерческих платформ и систем таких компаний, как SAP, Oracle, IBM и так далее.

Сегодня термин Big Data, как правило, используется для обозначения не только самих массивов данных, но также инструментов для их обработки и потенциальной пользы, которая может быть получена в результате кропотливого анализа. Главные характеристики, отличающие Big Data от другого рода данных – три V: volume, velocity, variety. Первая – большие объемы, вторая – необходимость в быстрой обработке и высокая скорость накопления этих данных, третье – разнообразие. 

Большие данные в ритейле могут состоять из различных сведений о потребителях, истории их покупок, детальной информации с каждого чека, привлекших внимание скидках, фактов посещении разных магазинов и т.д. Банки и страховые компании также обладают возможностью собирать информацию о клиентах, их действиях, финансовых транзакциях и даже перемещениях как по городу, так и по миру. Банк может определить даты важных событий в жизни своих клиентов – свадьба, рождение ребенка, смена работы, переезд и т.д. Эти сведения можно использовать для увеличения продаж и работы над лояльностью клиентов.

Большие данные определяют развитие и коммунальной отрасли. Возможность собирать и анализировать информацию, поступающую со счетиков учета воды, газа и электроэнергии – это первый и главный шаг на пути к умного потрублению ресурсов как на уровне домохозяйств, так и в масштабе ЖКХ-компаний. Так, например, применение больших данных позволило эстонской распределительной компании Elektrilevi, совместно с Ericsson реализующей запуск интеллектуальной системы учета электроэнергии, всего за первые два года проекта повысить эффективность на 20%, сократить OPEX и CAPEX, и избегать дорогостоящих ошибок за счет оперативного обнаружения неисправностей.

В телекоме большие данные – это вся служебная информация с подключенных устройств, история использования сервисов, геолокационные сведения и даже весь трафик, который может быть проанализирован, вплоть до текстов SMS. У операторов есть доступ к такого рода информации, но по закону «О персональных данных», они не могут использовать ее без согласия владельца устройства. Но могут производить, например, полнотекстовый анализ трафика, очищенного от персональных сведений. Такого рода инструменты пока не используются операторами (разве что только при участии Роскомнадзора, который эксплуатирует систему, позволяющую обнаруживать отдельные ключевые слова и фразы). 

Главное, для чего используются большие данные в телекоме – более точная сегментация клиентов по типам, в соответствии с их потребительским поведением и предпочтениями. Маркетологи оператора, зная больше о клиентах, могут делать им более точные предложения, вовлекать их в использование дополнительных услуг, поддерживать лояльность, и тем самым больше на них зарабатывать. Общемировая тенденция такова, что размеры этих клиентских сегментов, которые помогает выявлять Big Data, становятся все точнее и меньше, вплоть до обращения с каждым отдельным клиентом, как с полноценным сегментом. Такой персонифицированный маркетинг – дело будущего, не только для российских операторов, но и для самых передовых иностранных. Но мышление маркетологов, подкрепляемое технологиями, движется именно в этом направлении, т.к. борьба за клиентов усиливается, и выигрывают те, кто умеет наладить личное взаимодействие с каждым потребителем.

Важность инструментов для повышения эффективности работы с клиентами демонстрирует тот факт, что сегмент Big Data растет на фоне спада в ИТ-индустрии в целом. По данным CNews в 2014 году этот рынок вырастет в РФ на 20-25%. Эксперты отмечают, что лишь около 10% компаний в России начали пробовать эти инструменты, тогда как, согласно исследованию Gartner, в мире таких примерно 30%.

Согласно опросу CNews Analytics, проведенному в первом полугодии 2014 года среди представителей банковского сектора, ритейла и телекома 44% компаний не применяют технологии больших данных, 31% применяют, 25% — планируют начать использовать. Аналитики опрашивали только представителей компаний, которые входят в сотню крупнейших в своей отрасли.

Помимо использования Big Data в маркетинговых целях, телеком-операторы (впрочем, как и банки) могут применять такие технологии для обнаружения и предотвращения случаев фрода (мошеннические действия киберпреступников, направленные на воровство финансовых средств). Кроме того, операторы, как обладатели огромного количества информации о потребителях, потенциально могут стать центром экономической экосистемы, предоставляя партнерским компаниям из других сфер доступ к клиентам. В самом простом случае оператор может стать каналом маркетинговых коммуникаций, то есть попросту рассылать рекламу компании-партнера. Но делать это не массово, а адресно, точно направляя сообщение тем людям, которые могут быть в нем заинтересованы. К примеру, скидки на покупки в новом магазине косметики будут предлагаться только женщинам, живущим неподалеку. Тем, кто тратит часы, простаивая в пробках на дорогах, может прийти реклама аудиокниг.

«Большая тройка» операторов мобильной связи – в числе первопроходцев, осваивающих технологии больших данных. По сведениям CNews, «Вымпелком» использует Big Data для повышения качества обслуживания, оптимизации каналов коммуникации с клиентами, аналитики и отчетности, анализа данных для развития сети, анализа М2М-данных, борьбы с мошенничеством и спамом, персонализации услуг. Мегафон – для геоаналитики, в маркетинге и продажах. МТС – в маркетинговых целях и для повышения продаж, для сегментации абонентской базы, персонализации услуг.

Сергей Федечкин, ведущий эксперт систем отчетности оператора «ВымпелКом» сообщает, что компания занимается бизнес-аналитикой уже около 10 лет, однако инструменты Big Data были освоены ею пару лет назад. «Применение технологий Big Data позволяет нам решать несколько задач, в том числе управлять и измерять качество оказания услуг на уровне каждого абонента, бороться со спамом и мобильным мошенничеством, формировать индивидуальные предложения продуктов и услуг, планировать развитие инфраструктуры связи, а также развивать розничную сеть и многое другое. Для работы с «большими данными» мы используем решение компании HortonWorks Data Platform (HDP)», — говорит Сергей Федечкин.

В будущем телекоммуникационным компаниям придется иметь дело с большими данными все чаще – распространение технологий М2М приведет к тому, что к 2020 году на планете будет гораздо больше подключенных устройств, чем людей. Согласно видению компании Ericsson К 2020 году в мире будет насчитываеться более 50 млрд подклбченных устройств. Каждое из таких устройств будет генерировать данные, и ежемесячный трафик только лишь мобильных данных превысит 25 ЭБ. В итоге объемы информации, созданной машинами и людьми, достигнет к 2020 году, по прогнозам IDC, 44 зеттабайт (Зеттабайт = десять в степени 21 байт). И проблемой станет даже их хранение, не говоря уж об обработке. Аналитики IDC считают, что хранилищ данных хватит лишь на 15% от всего объема информации. К апрелю текущего года Россия сгенерировала лишь 155 экзабайт в совокупности, или 2,4% от всего объема мировых данных. И в ближайшие семь лет, по мнению аналитиков, это соотношение сохранится.

Системы базового уровня 

Инструменты бизнес-анализа и управления данными — наверное, самые «заметные» компоненты экосистем больших данных в организациях. А уровнем ниже лежат сложные, развернутые локально или в облаке, интегрированные системы, которые служат платформой для приложений и которые обрабатывают громадные объемы данных и предоставляют вычислительную мощь, благодаря чему работают системы Big Data. 

Третья часть списка «Big Data 100» CRN/США включает 15 вендоров платформ больших данных, предлагающих локально развертываемые и облачные системы для построения систем обработки больших данных и управления этими системами. Сюда входят хранилища, склады и озера данных. 

Amazon Web Services 

Главный управляющий: Энди Джесси (Andy Jassy) 

AWS стала системой де-факто для управления данными многих бизнес-приложений. Поэтому неудивительно, что компания остается на траектории быстрого роста, сообщив недавно, что вышла на годовой уровень дохода 15 млрд. долл. 

Ее предложения на арене Big Data включают аналитические платформы Athena (сервис интерактивных запросов) и Elasticsearch (поисковый сервис), аналитику реального времени Kinesis Firehose, СУБД Amazon DynamoDB (NoSQL-типа) и Amazon Aurora (реляционная СУБД), облачное хранилище данных Redshift и систему бизнес-анализа QuickSight. 

В этом году AWS анонсировала новую функцию хранилищ данных, Redshift Spectrum, которая позволит заказчикам выполнять запросы к эксабайтным объемам данных, хранимых в облаке Amazon S3 (1 эксабайт = 1000 петабайт) 

BlueData Software 

Главный управляющий: Кумар Шриканти (Kumar Sreekanti) 
Санта-Клара, шт. Калифорния 
Год создания: 2012 

Платформа EPIC (Elastic Private Instant Clusters), разработанная компанией BlueData, использует технологию контейнеров Docker и предназначена для развертывания локальной инфраструктуры и приложений обработки больших данных в организациях. Она предоставляет Hadoop-как-услугу и Spark-как-услугу. 

Предложенный весной новый релиз BlueData EPIC дает возможность запускать рабочие нагрузки обработки больших данных в гибридной среде, объединяя локальные ресурсы и общедоступное облако. 

В январе компания сообщила, что в 2016 г. объем продаж вырос на 426% благодаря таким заказчикам, как State Farm Insurance, Barclays и Panera Bread. 

Cazena 

Главный управляющий: Прат Моге (Prat Moghe) 
Уолтем, шт. Массачусетс 
Год создания: 2014 

Платформа больших данных как услуга, предлагаемая стартапом Cazena, позволяет переместить всю обработку в облако лишь несколькими щелчками мыши, автоматизируя этот обычно долгий и сложный процесс. 

Cazena связывает облачные БД, механизмы аналитики, средства миграции данных, безопасности и др. в единую PaaS, работающую на базе Microsoft Azure и AWS. 

Компания предоставляет также облачные услуги озера и витрины данных, а в феврале предложила облачный сервис Data Science Sandbox, позволяющий строить, тестировать и запускать в работу аналитические приложения исследования данных. 

Компания привлекла к себе внимание (и финансирование), поскольку главный управляющий Прат Моге и члены правления Джит Саксена (Jit Saxena) и Джим Баум (Jim Baum) были учредителями Netezza, пионера разработки устройств-хранилищ данных (IBM купила эту компанию в 2010 г. за 1,7 млрд. долл.). 

Cloudera 

Главный управляющий: Том Райли (Tom Reilly) 
Пало-Альто, шт. Калифорния 
Год создания: 2008 

Cloudera — один из ведущих поставщиков дистрибутива Hadoop и разработчик сопутствующих инструментов и технологий для управления кластерами Hadoop и их защиты. 

Предложение компании включает ее флагманскую платформу Cloudera Enterprise Data Hub, базы данных Cloudera Analytic DB и Cloudera Operational DB. Только что было объявлено о релизе Cloudera Data Science Workbench, рабочего инструмента для исследователей данных с самообслуживанием. 

В этом году Cloudera подала заявку на IPO, готовясь стать открытой компанией; она планирует выпустить 15 млн. обыкновенных акций по цене 15,00 долл. за акцию. 

Dell Technologies 

Главный управляющий: Майкл Делл 
Раунд-Рок, шт. Техас 

Купив EMC за 58 млрд. долл., Dell имеет теперь широкий спектр предложений на арене Big Data, включая средства управления (Dell Master Data Management Services) и интеграции данных (Dell Boomi), оснащения инфраструктуры (серверы, СХД и сетевое оборудование), а также инструменты аналитики и бизнес-анализа (благодаря альянсу с NTT Data Services). 

Компания предлагает также технологии Big Data на основе соглашений с другими вендорами, в частности инструментарий Hadoop от Cloudera. 

ПО прогнозной аналитики Statistica, купленное Dell с компанией StatSoft в 2014 г., было продано частным инвестиционным фирмам вместе с Quest в 2016 г. 

Google 

Главный управляющий: Сундар Пичаи (Sundar Pichai) 
Маунтин-Вью, шт. Калифорния 

Платформа Google Cloud включает ряд инструментов управления большими данными и аналитики, в том числе аналитическую БД BigQuery, инструмент Cloud Datalab для визуального изучения и анализа больших массивов данных и управляемый сервис Cloud Dataproc для работы с Hadoop, MapReduce, Spark, Pig и Hive. 

Еще один сервис — инструмент очистки и подготовки данных Cloud DataPrep — проходит сейчас закрытое бета-тестирование. 

Hewlett Packard Enterprise 

Президент и главный управляющий: Мег Уитман 
Пало-Альто, шт. Калифорния 

Предложения HPE на арене больших данных включают платформы аналитики неструктурированных данных IDOL и расширенной аналитики Vertica, средства управления информацией и руководства данными, оборудование (HPE ConvergedSystem для Big Data и HPE Apollo) и ряд сервисов для работы с большими данными. 

Компания предлагает также системы обработки больших данных «под ключ»: HPE ConvergedSystem для SAP HANA и HPE ConvergedSystem 300 для Microsoft Analytics. 

Hortonworks 

Главный управляющий: Роб Бирден (Rob Bearden) 
Санта-Клара, шт. Калифорния 
Год создания: 2011 

Компания предлагает ряд инструментов управления большими данными, построенных на ее платформе Hortonworks Data Platform (HDP), которая, в свою очередь, базируется на Apache Hadoop. Предлагается также ПО Hortonworks DataFlow для сбора и анализа потоковых данных в реальном времени. 

В апреле стартовала версия HDP 2.6, способная предоставить оперативную аналитику реального времени с использованием информации, хранящейся в озере данных. 

IBM 

Президент и главный управляющий: Вирджиния Рометти 
Армонк, шт. Нью-Йорк 

Предложения IBM в области больших данных всё больше ориентированы на суперкомпьютер Watson: таковы ее платформа Watson Data и сервисы Watson Analytics. 

Предлагаются и автономные продукты: ПО прогнозной аналитики SPSS, база данных DB2, BI-платформа Cognos Analytics on Cloud, ПО BigInsights Hadoop и технология машинного обучения. 

В апреле компания расширила возможности анализа и обнаружения данных системы Watson в своем облаке IBM Cloud, предложив новый функционал в сервисе Watson Discovery и введя экспериментальную платформу Watson Company Profiler. 

Infoworks 

Главный управляющий: Амар Арсикере (Amar Arsikere) 
Сан-Хосе 
Год создания: 2014 

Infoworks предлагает хранилище данных на базе Hadoop, которое можно развернуть в локальной сети, а теперь и в облаке. 

В марте компания получила 15 млн. долл. во втором раунде финансирования. 

MapR Technologies 

Главный управляющий: Мэтт Миллз (Matt Mills) 
Сан-Хосе 
Год создания: 2009 

Компания MapR Technologies разрабатывает конвергентную платформу больших данных, которая объединяет Hadoop, Spark и механизм SQL-запросов Apache Drill с функциями базы данных реального времени, обработки потока событий и масштабируемого хранения. 

Поскольку Интернет вещей — один из главных драйверов спроса на технологии Big Data, в марте компания представила усеченную версию своей платформы, которая позволит собирать, обрабатывать и анализировать данные ближе к самим IoT-устройствам. 

Oracle 

Главные управляющие: Сафра Кац, Марк Херд 
Редвуд-Сити, шт. Калифорния 

Oracle — один из давних лидеров на арене Big Data со своей флагманской Oracle Database и реляционной базой данных MySQL, средствами управления и интеграции данных, технологией хранилищ данных и ПО бизнес-аналитики и визуализации. 

Что касается платформ для больших данных, то компания предлагает специализированное оборудование: Big Data Appliance, Exadata Database Machine и Exalytics In-Memory Machine. 

В апреле Oracle подписала соглашение о покупке Moat, разработчика облачной платформы сбора маркетинговых данных и аналитики, и планирует встроить эту технологию в свое облако Oracle Data Cloud. 

Ryft Systems 

Главный управляющий: Дез Уилсон (Des Wilson) 
Роквилл, шт. Мэриленд 
Год создания: 2000 

Компания разрабатывает линейку устройств — ускорителей обработки, использующих x86-совместимые процессоры и программируемые логические ИС (FPGA), а также библиотеку алгоритмов обнаружения данных и другие технологии, предоставляя систему высокопроизводительной аналитической обработки. Компания заявляет, что ее системы, в хостинговом варианте или установленные у заказчика, стократно (и более) превосходят по производительности другие аналитические платформы. 

Недавно компания подписала соглашение с Amazon Web Services, по которому AWS предоставит версию ее системы Ryft One для гетерогенного облака (Ryft Virtual) своим пользователям инстансов F1 в облаке Amazon EC2. 

Snowflake Computing 

Главный управляющий: Боб Мулья (Bob Muglia) 
Сан-Матео, шт. Калифорния 
Год создания: 2012 

Стартап Snowflake Computing запустил свой облачный сервис Snowflake Elastic Data Warehouse почти два года назад, предложив альтернативу традиционным хранилищам данных (в организациях), которые, как правило, сложны, дорогостоящи и требуют много времени на создание. 

5 апреля Snowflake получила 100 млн. долл. в четвертом раунде финансирования, общая сумма вложенных в нее инвестиций составила 205 млн. долл. 

Компания сообщила, что за последний финансовый год, завершившийся 31 января, количество ее заказчиков почти удвоилось, а сохраняемый ими общий объем данных увеличился на 300%. 

Teradata 

Президент и главный управляющий: Виктор Лунд (Victor Lund) 
Дейтон, шт. Огайо 
Год создания: 1979 

Teradata во многих отношениях была создателем истинных хранилищ данных, разрабатывая оборудование и ПО, специально предназначенные для этих целей, в отличие от конкурентов, которые приспосабливали свои системы обработки транзакций с тем, чтобы они могли служить такими хранилищами. 

Сегодня компания предлагает линейку специализированных платформ хранилищ данных, использующих ее СУБД Teradata Database, ПО бизнес-аналитики и другие продукты для больших данных. Системы работают в локальной среде организаций и в частном облаке. В марте компания предложила также SaaS-версию Teradata IntelliCloud. 

Teradata названа Лидером в «Магическом квадранте» Gartner 2017 г. в категории решений по управлению данными аналитики и занимает первое место по полноте видения.

Масштабируемая емкость системы хранения данных и доступ в режиме реального времени

Предложение T-Systems по анализу больших данных основано на эффективной динамически масштабируемой облачной платформе. Она является основой для разработки и предоставления инновационных  комплексных решений в среде больших данных. Простота интеграции и гибкое управление данными имеют важное значение для обработки огромных объемов данных, генерируемых в контексте M2M, Интернета вещей (IoT) и всеобщей цифровизации.

Платформа больших данных на основе Hadoop

Не существует никаких ограничений с точки зрения количества и типа источника данных. Для того чтобы интегрировать и агрегировать огромные объемы данных в различных форматах, T-Systems использует распределенную файловую систему Hadoop (HDFS) в качестве основы для своей платформы больших данных. Эта структура подходит для сбора, резервного копирования и обработки огромных неструктурированных объемов данных. В то же время, система Hadoop, может быть расширена до любого количества компьютеров (узлов). Это делает платформу очень гибкой и делает доступной огромную емкость памяти размером до десятков петабайт.

Аналитика в режиме реального времени 

Кроме того, T-Systems предлагает в режиме реального времени аналитику на основе SAP HANA. Все данные записываются непосредственно в оперативной памяти (RAM). Это обеспечивает чрезвычайно быстрый доступ и анализ в режиме реального времени. Оба решения будут объединены всеобъемлющей платформой больших данных для интеллектуального управления данными в зависимости от требований заказчика. Для заказчика это означает, что независимо от объема, разнообразия или скорость доступа T-Systems имеет подходящее решение для оптимальной агрегации, хранения и анализа данных.

Без облака нет больших данных

Облачные вычисления является движущей силой, а также ключевой технологией для больших объемов данных. Масштабируемые облачные ИКТ ресурсы обеспечивают экономичное резервное копирование больших массивов данных и неограниченный уровень их доступности. Собственные базы данных быстро достигают предела своих возможностей при обработке больших объемов данных, и инвестиционные затраты на создание собственной высокопроизводительной платформы больших объемов данных огромны. Чтобы помочь клиентам преодолеть эту проблему и повысить экономическую эффективность и гибкость, T-Systems предоставляет последние большие технологии передачи данных как платформа-как-сервис в облаке с высоким уровнем безопасности. Это означает, что компании могут использовать решение без какого-либо финансового риска.

От преобразования данных к их анализу

Платформы анализа больших данных являются частью комплексной облачной экосистемы T-Systems. Как ИКТтехнологии должны быть преобразованы, чтобы обеспечить интеграцию данных, поступающих через различные интерфейсы? Как информация может быть объединена, чтобы избежать накопления ненужных данных? Какая технология больших данных является наиболее подходящий для конкретных требований компании? T-Systemsподдерживает компании, отвечая на все эти вопросы, и предлагает консультационные услуги, начиная от миграции в облако до создания эффективной платформу больших данных для применения надлежащих аналитических средств. Это также включает в себя безопасность: все услуги и решения разрабатываются в соответствии с самыми высокими аспектами безопасности. T-Systems эксплуатирует современные облачные центры обработки данных для обеспечения резервного копирования данных и их конфиденциальности. Такой комплексный подход помогает компании T-Systemsреализовывать все элементы непрерывной услуги обработки данных и закладывает фундамент, который позволяет не только оптимально справиться с растущими объемами данных, но и задействовать новые возможности.

Партнеры по цифровизации

Кроме использования многолетней компетентности T-Systems, заказчики также извлекают выгоду от использования комплексной партнерской сети, в том числе таких крупных игроков рынка, как SAP и Cloudera. Вместе с этими партнерами, T-Systems совместно разрабатывает инновационные решения по цифровизации и обеспечивает единство технологического подхода. Платформа больших данных компании T-Systems основана самых современных технологиях, таких как Hadoop и SAP HANA. В качестве базовой платформы для агрегации больших объемов данных используется Cloudera Distribution Hadoop и лучшее в своем классе решения ETL.

Источники:

https://www.cnews.ru/articles/platformy_dlya_big_data_sravnenie_vendorov

https://www.polymedia.ru/bi/big-data.php

https://www.ibm.com/ru-ru/analytics/hadoop/big-data-analytics