Какво са големи данни?
Интернет на нещата Герой Голяма информация / / March 26, 2020
Последна актуализация на
Преобразуването на „големи данни“ в смислени резултати може да изглежда сложно. Но след като разберете какво е и как работи, това го прави смислен, не е толкова сложно.
През годините много модни думи стават модерни в много индустрии. Малко са тези, които са станали толкова популярни и за толкова дълго време като големи данни. Но какво точно са големите данни?
Големите данни се отнасят до виртуален океан от информация от различни източници, анализирани и филтрирани по такъв начин, че да се постигнат смислени и приложими резултати.
Процесът на конвертиране на „големи данни“ в смислени резултати може да изглежда сложен и труден. Обаче, след като разберете какво са големите данни и как работят, разбирането как да го направите смислен не изглежда толкова сложно.
Какво са големи данни?
Когато чуете хората да говорят за „големи данни“, обикновено е с много размахване на ръце и големи думи. Но когато свалите всички хиперболи, действителните „данни“ всъщност са многобройни потоци за въвеждане на данни.
За да разберете това, един пример може да помогне. Да речем, че управлявате компания за производство на чадъри. Вашият маркетинг отдел търси начин да прогнозира по-добре кога търсенето на пазара е на път да скочи.
Преди дните на големи данни маркетолозите изучават тенденциите на пазара, изпращат анкети на клиенти и много други дейности.
Те ще събират всички тези данни и ще ги съхраняват във вътрешните бази данни на собствената си компания. Някой може дори да отговаря за актуализирането на данните за маркетингови проучвания на годишна или тримесечна база.
Но появата на големи данни разширява възможностите за провеждане на този вид изследвания. По-специално големите данни са особено ефективни при идентифицирането на важни тенденции или събития в близко реално време.
Входните данни за този вид анализ на „големи данни“ могат да включват потоци от данни в реално време чрез писане на код, който се включва в Интерфейс за програмиране на приложения (API) на много различни компании, които оповестяват тези данни:
- Twitter и Facebook: Определете кога и защо хората обсъждат закупуването на чадъри.
- Метеорологично време: Идентифициране метеорологични условия или прогнози, които могат да се превърнат в по-високи продажби на чадър.
- Фондова борса: Сезонни промени в цената на суровините за производство на чадъри.
- Използване на уебсайта на клиента: Използване на информация от компютърни бисквитки на хората, които посещават фирмения каталог, за да разберат поведението на покупката.
- История на покупките на клиенти: Проследяване на географията и сезоните на тенденциите на продажбите от търговците на дребно.
За да използва големи данни, маркетинговият екип на тази компания ще трябва в някои случаи да инсталира нови технологии.
Големи данни и Интернет
Това може да включва технологията Internet of Things (IoT) при търговците на дребно, която проследява и отчита потребителското поведение. Или може да включва програмист да напише кода, необходим за взаимодействие с API на Twitter, за да филтрира туитове, които споменават „чадъри“ или името на компанията.
Всяка от тези технологии вече е достъпна благодарение на интернет. Интернет позволява на всеки да използва потоци от данни от цял свят.
Ето как може да работи настройката в нашия собствен пример в този случай.
Тази диаграма показва как данните се вливат в „езерото от данни“ на компанията от много различни източници. Входящите данни могат да бъдат структурирани по различен начин, но важното е да се съберат възможно най-много данни от всички източници.
Какво е езеро с данни?
За разлика от база данни, която съдържа структурирани данни, организирани в конкретни колони и редове, езерото с данни е масивно хранилище за много различни форми на данни.
Съхранените данни могат да бъдат структурирани или неструктурирани. Това означава, че може да има структурирани редове и колони или може. Данните могат да бъдат низове, които използват специфично форматиране за разделяне на данни. Всеки източник на данни може да изпраща данни в езеро с данни под каквато и да е форма.
Представете езеро с данни като масивна библиотека, която съдържа много форми на медия, като книги, изображения в микрофиши и видео на DVD.
Представете си инженер по дигитална интелигентност и анализ на данни като покровители на тази библиотека. Тези меценати могат да изтеглят цифрово данни от книги, микрофиши и DVD дискове и да намерят начини за смесване и комбиниране на тези данни и да научат нещата от това как данните корелират.
От тези знания излиза действителна, разумна интелигентност. Някои от тях от нашия пример могат да включват:
- Бъркането в Twitter и Facebook показват наближаваща буря в Ню Йорк, като хиляди клиенти планират да закупят чадъри.
- Данните за закупуване на компютърни бисквитки и машини за продажба на дребно показват, че купувачите в Калифорния са готови да платят повече за дизайнерски чадъри, отколкото хората във Вирджиния.
- Голяма приближаваща структура на буря показва, че по-голямата част от Източното крайбрежие ще бъде покрита с дъждовна буря в продължение на цяла седмица.
Всички тези обучения биха могли да подтикнат маркетинговия екип да инвестира в повече рекламна географска информация, където търсенето на чадъри от продажбите е много по-силно. Производствените операции биха могли също да насочат производствените си усилия към онези области на света, по-близо до местата, където продажбите са по-склонни да се покачат.
По този начин, използвайки големи данни, всяка компания може да оптимизира маркетинга и операциите си.
Какво е Hadoop?
Следващият въпрос е как компаниите обработват толкова големи обеми от данни и идентифицират тенденциите?
Този вид разбиване на данни изисква огромни компютърни ресурси. Толкова много, че компаниите вече не използват големи мейнфрейм компютри на място, както преди. Много от тези услуги сега са покупки от облака. Облачните разузнавателни услуги като Apache Hadoop предлагат много компютърни възли в голяма облачна мрежа. Всеки от тези възли допринася за мощността на обработка, необходима за анализ на масивни потоци от данни от множество източници.
Този вид обработваща мощ е сърцето на машинното или дигиталното разузнаване и анализа на данни. Hadoop е софтуерната рамка, която прави цялата тази мрежа от масивна изчислителна мощност работа, както се изисква за инженерите на дигиталното разузнаване.
След като изчислителният двигател произвежда разумна информация, те обикновено се доставят на компанията под формата на табла или отчети.
Големите данни не са просто Buzzwords
Истината е, че "големите данни" са нещо повече от корпоративно езиче. Много компании научават, че като използват по-добре данните, те могат да постигнат многобройни постижения.
- Производителите могат да подобрят критичните показатели за производство като добив, качество и ефективност.
- Търговците на дребно могат да изравнят по-добре маркетинговите, рекламните и бизнес инвестициите въз основа на сигналите на пазара.
- Дистрибуторите са в състояние да предвидят потенциални проблеми във веригата на доставки, за да разработят предварително планове за действие при извънредни ситуации.
- Новините могат бързо да идентифицират събития, които дават информация, като анализират публичните сигнали в интернет.
- Експерти по киберсигурност използвайте сигнали в интернет, за да идентифицирате кибератаки, докато те продължават.
Въпреки че голяма част от постигнатите големи данни през последните години остават практически невидими за обществеността, големите данни всъщност оказват значително влияние върху ежедневието на хората по целия свят.