[FAQ] Big Data: да что это всё-таки такое?!

Понятие Big Data сейчас встречается абсолютно на каждом углу — и каждому специалисту важно понимать, что это. Объясняем в формате вопрос-ответ

Персональные компьютеры изменили Америку, интернет изменил мир, но Большие данные преобразуют мир (с) Роберт Кринджли, «Thinking about Big Data»


Что такое данные?

Данные — это конкретные цифры, измеряемые величины. В природе — количество осадков и уровень влажности. В продажах — средний чек и LTV. В маркетинге — возраст и пол. В работе с клиентами — NPS и CSat.

Данные объективны и измеримы.

Предположения — субъективны и неизмеряемы.


Что такое большие данные?

Интересно! На самом «big data» переводится как «много информации», но дословный перевод прижился и стал устоявшимся термином.

Big data — набор инструментов, методов и подходов к обработке данных. Все они применяются для того, чтобы в дальнейшем использовать выводы из данных для решений конкретных задач.

К примеру, метеорологи собирают исторические погодные данные и текущие показатели погоды → обрабатывают их → могут спрогнозировать погоду в своем регионе на месяц вперед. Так большие данные помогают решать задачи в почти любых отраслях.


Big data включает и структурированные, и неструктурированные данные:

  • Структурированные: таблицы, списки, все, где информация подана в организованном и готовом к применению виде;
  • Неструктурированные: снимки спутников, камер слежения, видео, записи разговоров и так далее. Из них можно извлечь данные, но в таблицу их вписать не удастся. Для обработки неструктурированных Big data систему учат распознавать данные, используется искусственный интеллект и машинное обучение.

У Big data есть определяющие характеристики — так называемые 3V, выработанные в 2001 Meta Group:

  • volume — объем данных, их количество;
  • variety — вариативность, то есть разные типы данных;
  • velocity — быстрота, темпы прироста и обработки данных.

Сейчас некоторые склоняются уже к 4V, как к примеру, IBM Big Data Analytics.


[FAQ] Big Data: да что это всё-таки такое?!

А некоторые — даже к 6V.


[FAQ] Big Data: да что это всё-таки такое?!

Откуда они берутся?

Большую часть данных производим мы сами: когда общаемся в соцсетях, заходим на сайт и соглашаемся на использование куки, пользуемся GPS, оформляем заказы в интернет-магазинах. Это такой себе цифровой след.

Часть данных генерируют машины: когда мы подключаем смартфон с Wi-Fi в кафе, когда срабатывают датчики сигнализаций, когда оборудование предприятий фиксирует показатели работы. Эти данные собираются круглосуточно со всех уголков планеты — и фиксируют все происходящее.


Что может Big Data?

Биг дата помогает в масштабных вещах:

  • Открывать планеты. NASA на основе анализа данных моделирует будущие космические полеты;
  • Предсказывать чрезвычайные ситуации. Геологи и вулканологи на основе обработки огромного количества данных могут предсказывать следующие землетрясения и вырабатывать эффективные схемы поведения для населения, чтобы минимизировать опасность;
  • Расследовать происшествия. Jawbone определили эпицентр землетрясения в Калифорнии, обработав пользовательские данные с тысяч фитнес-браслетов, которые фиксируют время пробуждения. Логика была проста: чем раньше человек проснулся — тем ближе он к эпицентру. В итоге это позволило установить, откуда началось землетрясение. Такой пример нестандартного использования больших данных — настоящее мастерство.

Биг дата помогает в задачах поменьше:

  • Шевроле использует данные для того, чтобы улучшать модели авто. Для этого они устанавливают в машины датчики и собирают информацию про температуру масла, скорость движения, давление в шинах и так далее;
  • Яндекс.Пробки предсказывают пробки на дорогах на основе информации о трафике, загруженности остальных улиц и так далее;
  • Сервисы для кино- и сериаломанов помогают выбрать, что посмотреть, на основе интересов и истории просмотров;
  • Сайты знакомств сводят людей вместе на основе больших данных.

А некоторые превосходят сайты знакомств в этом при помощи еще больших данных…


Биг дата помогает и в узких бизнесовых задачах:

  • Сбербанк с 2014 года использует АС САФИ — систему анализа фотографий для идентификации клиентов банка, в основе которой — биометрическая платформа. Это помогает в 10 раз снизить случаи мошенничества;
  • ВТБ24 задействует Teradata, SAS Visual Analytics и SAS Marketing Optimizer в сегментации и управлении оттоком клиентов на основе больших данных; формировании финансовых отчетностей, анализе отзывов о бизнесе;
  • Магнитогорский металлургический комбинат внедрил сервис «Снайпер» на основе биг дата для оптимизации расходов. Он оптимизирует расход ферросплавов и других материалов, помогая экономить финансы на производственном процессе;
  • Google.Trends выдает прогноз сезонной активности спроса на основе, опять же, биг дата.

Интересные кейсы реального бизнеса также описаны в статье «Как большие данные перевернули бизнес предприятий» на Rusbase.


Как это работает?

Принцип работы больших данных в том, что чем больше вы знаете, тем точнее можете предсказывать, что будет дальше. Если вы знаете, что на протяжении 100 лет в вашем городе дожди начинались 10 октября (если летом было 26-28С) или 25 октября (если летом было 29-31С), то осадки в этом году вам тоже будет легко спрогнозировать. Это грубый пример, но примерно так большие данные и работают.


Сравнение данных и взаимосвязей между ними помогает находить неизвестные ранее закономерности. А значит, позволяет увидеть big picture и понять, как работает система в комплексе, как ею управлять и как предсказывать ее поведение.


Для этого на основе данных моделируются разные ситуации/кейсы/сценарии (в зависимости от сферы) и проводится симуляция. Что будет, если задать такие условия? А если температура будет выше на градус? А если влажность снизится на 10%? Система моделирует вероятный исход событий и показывает, как смена каждого конкретного параметра влияет на конечный (возможный) результат.

Само собой, процесс идет автоматизировано, учитывая, что задействуются терабайты данных и моделируются миллионы возможностей.


Как обрабатывают данные?

Сами по себе данные для человека бессмысленны. Человеческому мозгу сложно сделать выводы из таблицы продаж на 1000 строк, что уже говорить про терабайты разношерстных данных, часть из которых еще и не структурирована (как фото и видео).

Чтобы данные стали применимы, их обрабатывают — проводят анализ и получают результаты. Этими результатами уже может оперировать человек.


Основные техники и методы анализа данных:

  • распознавание образов;
  • прогнозная аналитика;
  • пространственный анализ;
  • статистический анализ;
  • Data Mining;
  • краудсорсинг;
  • машинное обучение;
  • нейронные сети;
  • имитационное моделирование;
  • визуализация аналитических данных, о которой мы уже писали.

Для всего этого используют специальные технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • аппаратные решения.

Часть из этих названий вы наверняка уже где-то слышали.


Кому нужны большие данные?

Иногда Big data представляют как обязательную вещь для бизнеса.

Это не так.

Большие данные — это не панацея, а развивающийся инструмент. Если компаниям типа ПриватБанка и Розетки имеет смысл внедрять большие данные, то локальному малому/среднему бизнесу зачастую это не нужно.


Во-первых, при малых объемах работы не будет ни «volume», ни «variety», ни «velocity».

Во-вторых, внедряемость подобных технологий для маленьких компаний обычно нецелесообразна.


Поэтому пока большие данные остаются прерогативой крупного бизнеса и исследовательских институтов. Впрочем, вспоминая трюк Jawbone с использованием информации из фитнес-браслетов… Нестандартное мышление, вероятно, сможет открыть большие данные и микробизнесу.


Почему большие данные стали так популярны?

Этому несколько причин.


Во-первых, они полезны клиентам. Большие данные делают рекламу более релевантной интересам пользователя, она не бесит и рекламирует полезные товары. Выбор в интернет-магазине становится удобнее: после покупки вам перестает показываться реклама того же товара (ну зачем вам еще один ноутбук, если вы только-только этот купили?). Зато появляется сопроводительная реклама новых мышек, ковриков, сумок под ноутбуки и других аксессуаров. Это полезно. Это не раздражает. Клиент спокоен — компания его не теряет.


Большие данные превращают рекламу из «впаривания» в «актуальный совет».


Во-вторых, они помогают конкурировать. Раньше маркетологи брендов при работе с целевой аудиторией опирались на «маленькие данные»: пол, возраст, география. Сейчас эти данные есть у всех компаний во всех отраслях. Отстраиваться от конкурентов стало сложнее, навязчивость рекламы выросла.

Little Data Big Data
Девушки 20-25 лет Девушки 20-25, которые учатся на 3 и выше курсе университетов и готовятся к магистратуре
Мужчины из Днепра Неженатые жители Днепра без постоянной пары, живут на съемном жилье, питаются через доставки еды

Большие данные помогают максимально точно идентифицировать своего клиента, таргетируется на него по множеству параметров: образу жизни, посещаемым заведениям, жизненной философии. Бизнесы точнее обращаются к своим клиентам и конкурентность качественно развивает рынок.


Так вы можете более точно определять свою аудиторию, выделять из нее самые эффективные сегменты, и, главное, будете знать, где и как к ним достучаться!


В-третьих, они помогают оценивать рекламу. Использование больших данных позволяет комплексно оценивать проводящиеся кампании, ювелирно корректировать их без остановки рекламной активности и четко знать эффективность каждого рекламного сообщения. А значит — расходы ниже, эффективность выше, окупаемость вложений растет, профит-профит.


Почему про них заговорили сейчас?

Этому, на самом деле, много причин. История появления биг дата (тогда еще безымянного концепта) и его развития до современного вида очень длинна и во многом завязана на реалиях рынка, технологическом развитии, прорывах отдельных компаний-евангелистов того времени.

В корне всего, правда, лежит только один факт: большие данные научились собирать и обрабатывать.

До «эпохи биг дата» В «эпоху биг дата»
Рекламу ползунков для детей показывали всем девушкам от 18 лет Кампании таргетируются в том числе на данные истории поиска: если женщина ищет «как ухаживать за новорожденным» или «как выбрать имя ребенку» — понятно, что она является реальной частью целевой аудитории
Машина ломалась и ее приходилось везти в сервис, чтобы вручную осматривать все детали по «симптомам» Электронные датчики отслеживают все важные показатели в автомобиле и сигнализируют, если хоть один процесс начинает идти не в штатном режиме
Люди заболевали и доктора ставили градусники, чтобы потом записать температуру в карту пациента На пациента устанавливаются десятки датчиков, которые автоматически измеряют температуру, давление, пульс; проводят повторный замер в определенный промежуток времени и отслеживают динамику состояния

Мало того, что их научились собирать — их научились обрабатывать. Терабайты, десятки терабайтов данных требуют колоссальных компьютерных мощностей для обработки. Еще пару десятилетий назад эти мощности не были доступны. Сейчас они дешевеют с каждым годом.

К примеру, по данным Mkomo стоимость хранения гигабайта информации снизилась в 450 раз с 2000 года.


[FAQ] Big Data: да что это всё-таки такое?!

Это позволяет внедрять большие данные компаниям для ежедневной работы — как Яндексу, который каждый день обрабатывает по 10 терабайт «больших данных, чтобы оперативно реагировать на поведение людей в поиске.


И что теперь?

Теперь вы знаете десяток способов, как большие данные используются в мире. Если видите в своей компании потенциал для их внедрения, имеет смысл углубляться в тему дальше. Если объективно большие данные пока не для вас, по крайней мере, теперь вы лучше понимаете рыночные и технологические реалии. В любом случае, «Самая большая сила в мире — информация», и с этим приходится считаться.


Что почитать про большие данные:

1. Статьи Роберта Кринджли (Robert X. Cringely) «Thinking about Big Data» на Cringely (на английском) или перевод части 1 и части 2 на Хабре.

2. «Big Data: большие возможности или большой обман».

3. Доклад McKinsey «Manufacturing: Analytics unleashes productivity and profitability», 2017 (на английском).

FacebookTwitterTelegramViberWhatsApp


Поделиться в соц. сетях:

Обратная связь