Янв 1, 2016 - Блог    No Comments

Большие данные. Вызовы современности

Всё, о чём бы вы хотели узнать, но не знали у кого спросить про технологии больших данных (big data).

slide3

Сегодня наблюдается большой интерес к технологиям больших данных класса Big Data. Это связано с постоянным увеличением потока информации, которым приходится оперировать бизнесу. Огромные массивы данных для многих организаций и даже частных лиц – это важный актив, но обрабатывать их с пользой, безопасно хранить с каждым днем становится все сложнее и дороже.

Технологии больших данныхКандидат физико-математических наук, руководитель проекта создания магистерской программы Big Data Analytics Новосибирского государственного университета Евгений Николаевич Павловский объясняет, что такое big data вообще, где используются большие данные, как они могут помочь вашему бизнесу. Не беспокойтесь – будет понятно, даже если у вас нет IT-тишного образования.

Что такое большие данные Big Data? Про это много говорят, но не все понимают, в чем смысл. Объясните, пожалуйста. 

— Говоря простым языком, Big Data – это когда вы собрали о том или ином явлении столько данных, что даже начинаете в них теряться, испытываете проблемы с тем, чтобы из этих данных получить что-то разумное. Дело в том, что в последние годы (примерно 10 лет) общество изменило своё понимание ценности цифровых данных, произошел определенный общественный сдвиг. Стало понятно, что правильно собирая данные, мы можем предсказывать будущее. Правильно обрабатывая информацию о поведении человека в Сети, ему можно предложить практически любую услугу, продукт и он с большой вероятностью его купит.

На этом, исключительно на этом, зарабатывают такие известные компании как Facebook, Google, ВКонтакте. Это детища именно этого общественного сдвига. Собирая данные о себе, о ходьбе, о пульсе и сне, вы сможете подобрать индивидуальную диету, понять свой организм и жить с ним в гармонии. Большие данные – большая ценность. Однако не всё так просто, как кажется на первый взгляд.

Чтобы из больших данных извлечь пользу, необходимо изучить множество технологий и методологий. В условиях постоянного прироста данных, польза, которую может осознать человек, относительно уменьшается. Поэтому и стараются убрать человека изо всех возможных цепочек обработки данных – так быстрее.

Мы скоро увидим, как машины будут принимать решения за нас и гораздо более эффективно. Например, тот же Яндекс уже прекрасно ориентирует нас на дорогах в объезд пробок. Или Google Now подсказывает, когда и куда надо поехать, предварительно проанализировав нашу электронную почту. Сейчас уже действует решение от Google, которое предлагает три варианта ответа на письма. Сегодня вы ещё выбираете, но скоро скажете: «А… сам выбирай ответ, я тебе доверяю, а мне некогда».

Итак, большие данные – это общественный феномен, означающий обращение человека к цифровым данным, как к новому источнику ценности и встраивание человека в систему приёма и передачи данных между машинами.

Насколько большие Big Data?
— В основном их определяют так: Big Data это насколько большие данные, что ваши текущие технологии не могут их обработать или извлечь ценность из них. Но это определение – ловушка. Потому что через такую формулировку очень легко вам чего-нибудь продать. Более правильным будет сказать, что Big Data определяются несколькими параметрами: объёмом, скоростью поступления новых данных, разнообразием.

Сам по себе объём ничего не говорит: 1Терабайт или 1Петабайт – это ни много, ни мало. Но в совокупности со скоростью и разнообразием это уже будет некоторый неуправляемый актив – как горячие угли в руках – подержать секунду вы их сможете, а потом уже обожжетесь. Так и с данными: записать 1Тб уже не проблема даже на домашних компьютерах. Но если 1Тб поступает вам каждый час – что делать? Какие данные из поступивших сохранять, а какие выбрасывать? А надо ли выбрасывать то, что накопили за 10 лет? А вдруг пригодится?

Применение big data, большие данные в бизнесе

Где большие данные используются? Как анализ больших данных может помочь бизнесу (малому, среднему, крупному). Какие задачи решает Big Data?

— Как и любые данные, цифровые служат человеку и машинам, чтобы принимать правильные решения. Анализ этой информации поможет понять основные закономерности в данных и спрогнозировать будущее. Поможет выявить ошибки и обнаружить неожиданные открытия.

Например, появились компании, которые дают кредиты людям с плохой кредитной историей. Почему? Как они зарабатывают? Люди проанализировали данные клиентов и поняли, что плохая кредитная история не всегда означает, что заёмщик не возвращает кредит. Напротив, она может свидетельствовать о том, что он весьма совестливый человек и вернёт кредит хоть и с опозданием, но и с большими процентами. Компания научилась отделять совсем безнадёжных заёмщиков от не совсем, и предлагает последним взять кредит. Таким образом, бизнес занял нишу, которую ранее никто не замечал. Люди просто внимательно проанализировали уже имевшиеся банковские данные.

Итак, какие задачи можно решать с помощью технологии больших данных Big Data:

  • Прогнозировать где и когда появится ваш клиент.
  • Предлагать эффективные действия, которые удержат/привлекут его.
  • Открывать новые бизнес-модели для действующего бизнеса.
  • Получать новые конкурентные преимущества, используя информацию, как актив.

Всегда ли хранение больших данных приводит к получению выгоды? В чем слабости Big Data?

— Конечно не всегда. Если собирать много данных и не тех, которые приносят пользу, то можно сформировать значительных размеров «помойку». В этом главная слабость и главный вызов Big Data: если собирать данные, соответствующие определённой цели, то при обработке этой информации вы вряд ли сможете решить другие задачи.

Прелесть больших данных в том, что вы можете привлечь другие источники данных и получить новую ценность на их связывании. Например, продажи колбасы зависят от показания термометра на улице. Другой пример: ваш профиль в социальных сетях сильно коррелирует с вашей кредитоспособностью, и некоторые банки уже принимают решение о кредитовании, основываясь на оценке ваших профилей в соцсетях. Однако заранее редко известно, какие данные следует собирать, а какие нет, чтобы решить вашу конкретную проблему. В этом-то и слабость: вы точно знаете, что половину данных вы можете выбросить, она бесполезна, но вы не знаете, какая это половина.

Даже если говорить о личных данных. Все мы храним по 10Гб фотографий, сделанных за последние 5-7 лет. Какая в этом ценность? Готовы ли мы платить за их хранение хотя бы по 100 руб. в месяц? Через пару месяцев крепко задумаемся – а может удалить 90% фотографий, ну не только, чтобы место освободить в облаке, но и чтобы расходы сократить. Тут-то и возникает вопрос – какие из фотографий оставить, а какие выбросить. И в определённый момент вы понимаете, что фотографий у вас 18 тысяч и даже за месяц вы их все не пересмотрите. Проблема! Как выбрать лучшие? Продолжайте платить 100 руб. в месяц или применяйте алгоритм, который любезно сам определит, какие фотографии понадобятся вам в будущем: освежить эмоции, показать внукам или найти НЛО, который вы как-то на снимке не заметили, а алгоритм заметил. Это и есть компромисс, на который надо будет пойти с деньгами или искусственным интеллектом за ваше будущее в мире Big Data.

Got anything to say? Go ahead and leave a comment!