Zaznacz stronę
  • Praktyczne przykłady
  • Co to jest analiza danych
  • Co to jest uczenie maszynowe
  • Czy firmy i instytucje tego potrzebują
  • Najważniejsze pojęcia ludzkim językiem

 

Firmy, organizacje, my wszyscy podejmujemy każdego dnia decyzje na podstawie danych i statystyk, które gdzieś usłyszeliśmy czy w przelocie przeczytaliśmy.

Każdy jest producentem danych. Symboliczny wyjazd w Bieszczady nie oznacza opuszczenia cyfrowej rzeczywistości. Tam też się jest jako Homo Interneticus. Niezależnie czy wyjeżdżamy w Bieszczady, wchodzimy do internetu czy do gabinetu lekarskiego stajemy się producentami danych. Każde miejsce pracy to statystyka – każde miejsce pracy obudowane jest danymi. Ta świadomość kolonizuje myślenie.

Algorytmy mielą ogromne ilości danych, które produkujemy.

Państwa, organizacje, firmy przestawiają się z oparcia na złożach naturalnych – na złoża danych. Dane to jest w tym momencie największe dobro gospodarcze.

Spływająca codziennie ilość danych łatwo przytłacza i powoduje dezorientację. Ludzie już dawno nie wyrabiają się z obsługą takiej ilości informacji. Takiej ilości danych człowiek nie jest w stanie przetworzyć.

To jak teraz wykorzystujemy dzisiaj dane jest zupełnie inne niż jeszcze kilka lat temu. Ilość dostępnych danych oraz możliwości ich przetwarzania wyszły sobie naprzeciw. Uczenie maszynowe to kolejny etap ewolucji analizy danych.

Dostępne są ogromne ilości danych oraz moce obliczeniowe pozwalające na wejrzenie do informacji i w rozwiązania, które były do niedawna poza zasięgiem.

Sprzęt w ostatnim czasie na tyle dorósł, że możemy analizować dane za pomocą komputerów, które mamy na biurku.

 

 

Analiza danych, uczenie maszynowe – co to jest?

 

Big Data

Termin „Big Data” zaczął funkcjonować w okolicy 2010r. Duże ilości danych są nazywane jako „Big data”. Nie ma granicy od której zaczynają się duże zbiory danych – czyli od kiedy można mówić o dużych zbiorach danych. Jedno można na pewno napisać: Big Data to taka ilość danych, której człowiek nie jest w stanie ogarnąć.

W Polsce mało kto ma Big Data. W Polsce większość firm ma Data. Niewiele firm ma taką ilość danych, żeby mogło dodać słowo Big.

Big Data – to jest zbieranie dużych danych i ich przetwarzanie. Czyli jest to dziedzina, która skupia się na technologiach pozwalających gromadzić dane oraz też je przetwarzać.

Technologia oznacza pomiar, pomiar oznacza wskaźniki, wskaźniki oznaczają Excela. To wszystko sprowadza się do Big Data.

 

Chmura

Chmura to są możliwości przechowywania danych i wykonywania operacji poza siedzibą firmy.

Teraz można wynająć za kilka lub kilkanaście dolarów komputer w chmurze, który jeszcze kilkanaście lat temu był dostępny wyłącznie dla największych instytutów naukowych na świecie.

W chmurze informacje / dane przechowuje, obrabia czy wykorzystuje zaledwie około 10% polskich firm – to dół tabeli w Europie. Jeśli już się korzysta – sprowadza się to głównie do wykorzystania w ramach poczty e-mail.

 

Sztuczna inteligencja – uczenie maszynowe

Słowa „sztuczna inteligencja” i „uczenie maszynowe” brzmią groźnie. Termin „sztuczna inteligencja” powstał w połowie XX wieku. Ta nazwa jest w gruncie rzeczy bardzo zakurzona. Sztuczna inteligencja nie jest zepchnięta w daleką przyszłość – to już się dzieje. Jest to obudowane wieloma buzzwordami i w konsekwencji usypia.

Sztuczna inteligencja jako dziedzina ma już dobre kilkadziesiąt lat – natomiast do niedawna była bardziej obietnicą niż realizacją. Faktyczna realizacja dzieje się od kilku ostatnich lat.

Google na ten moment prowadzi ponad 6000 niezależnych projektów związanych ze sztuczną inteligencją. Inni technogiganci też uczestniczą w tym nowym wyścigu zbrojeń.

Masywne (duże) przetwarzanie danych jest możliwe używając uczenia maszynowego. Uczenie maszynowe (machine learning) wyszło ze sztucznej inteligencji i jest częścią sztucznej inteligencji. Sztuczna inteligencja jest szerszą dziedziną od uczenia maszynowego.

Wolę posługiwać się terminem „sztuczna inteligencja” niż „uczenie maszynowe”. Termin „uczenie maszynowe” nie pobudza tak wyobraźni ale jest dla mnie bardziej odpowiedni.

Uczenie maszynowe czy szerzej sztuczna inteligencja to w praktyce nieskończona moc obliczeniowa.

Uczenie maszynowe to zdolność do uczenia się bez bycia zaprogramowanym – czyli algorytmy uczą się same. Uczenie maszynowe to dawanie komputerowi możliwości uczenia się zamiast go bezpośrednio zaprogramować.

Analiza danych i uczenie maszynowe już są stałym elementem pejzażu.

Są dane – jest uczenie maszynowe.
Nie ma danych – nie ma uczenia maszynowego.

W jakich branżach używa się uczenia maszynowego? Trudniej napisać, w której się nie używa.

Uczenie maszynowe to między innymi:

  • redukcja kosztów,
  • monitoring stanu zdrowia,
  • bariera podczas włamań cyfrowych,
  • monitoring zużycia maszyn,
  • szybsze pozyskiwanie informacji,
  • optymalizowanie procesów produkcyjnych.

Uczenie maszynowe to coraz tańsze przewidywanie – co nie oznacza, że to jest tanie. Tania i dobra analiza danych – to są dwie oddzielne analizy, które nie występują jednocześnie 🙂 Jeśli ktoś potrzebuje taniej i dobrej analizy to znaczy, że potrzebuje dwóch analiz 🙂 PS wysoka jakość jest lepiej zapamiętywana niż wysoka cena.

Maszyna szybciej przeliczy dane i bardziej efektywnie od człowieka. Maszyna sprawnie prześmignie się przez dane.

Nagłówki stron internetowych i gazet coraz bardziej entuzjazmują się określeniem „uczenie maszynowe”.

Jesteśmy otoczeni usługami wyposażonymi w uczenie maszynowe – np.: autokorekta podczas pisania na smartfonie to przykład uczenia maszynowego czy też filtr antyspamowy w skrzynce mailowej.

 

Internet of things (internet rzeczy)

Dla wielu organizacji brak danych to nie problem – jest za dużo danych co nie ułatwia podejmowania szybkich decyzji. Nowe źródła danych będą pojawiać się codziennie – np. z czujników urządzeń inteligentnych, czyli elektroniki używanej na co dzień – nazywane popularnie jako „Internet of things”.

Internet of things – czyli przedmioty pozyskują dane i wymieniają te dane nawzajem lub też wymieniają te dane z internetem. W skrócie: internet of things – to jest komunikacja między urządzeniami / maszynami.

Rzeczywistość z każdym dniem będzie coraz bardziej osensorowana.

Urządzenia będą komunikowały się online 24/7.

 

Jak to wygląda w organizacjach

Wyzwaniem jest przekształcenie tych dużych ilości danych w wartościowe informacje czy wnioski.

Analiza danych i uczenie maszynowe każdego dnia coraz bardziej sączy się do rzeczywistości biznesowej, do rzeczywistości w ogóle.

Kiedy firma, organizacja ma za sobą przepracowane dane łatwiej jest powiedzieć: „Robimy tak i tak bo wiemy”. Bez analizy danych można stwierdzić: „Robimy tak i tak bo nam się wydaje”.

Dane są jak wyniki badań diagnostycznych – nie ma co z nimi dyskutować. Osobną sprawą są wnioski, jakie się z nich wyciąga – czyli jakie decyzje biznesowe się podejmuje.

Organizacje, które nie przeproszą się z danymi stoją na topniejącej krze. Trzeba będzie przesiąść się z szampana na kompot.

Nadzieja to nie jest plan. Bez zaangażowania czasu w analizę danych organizacja będzie jechać na nadziei. Do czasu.

Firmy, żeby się przebić i utrzymać na powierzchni w cyfrowej rzeczywistości muszą się nieźle nakicać. Kreatywność musi się uzupełniać twardymi realiami – danymi / analizą danych. Na tym polu zaczyna rozgrywać się przewaga konkurencyjna.

Uczenie maszynowe to nie jest zapewnianie o przyszłości – to jest prognozowanie przyszłości.

Najpierw trzeba zrozumieć problem – dopiero potem go odwzorować w analizie danych.

W analizie danych nie chodzi o hermetyczne ekspertyzy – chodzi o rzeczowe i zrozumiałe przewidywania, które można zastosować tu i teraz. Analiza danych to nie kiwki intelektualne nad informacjami, których nie można praktycznie użyć.

Dane analizuje się po to by pozyskać informacje – a nie po to by ekscytować się nowymi narzędziami analitycznymi. Bez celów biznesowych nie ma co się zbliżać do danych i poświęcać im czasu. Na przykład górnicy nie kopią sobie w ziemi ot tak, gdzie popadnie – kopią w określonych miejscach w określonym celu. Analiza danych bez celu jest pracą na oślep.

Bezcelowy (niebiznesowy) wynik pracy z danymi jest jak zwycięstwo w grę Monopol – jest zwycięstwo ale realnie z tego nie ma żadnych profitów.

Konkretne dane trzeba przyłożyć do konkretnego biznesu. Brak znajomości danego biznesu oznacza brak sensu analizy danych. Wiedza biznesowa i spojrzenie na całość organizacji z wysokości helikoptera ma dużo większe znaczenie niż wodotryskowe narzędzia do analizy danych. Do tego helikoptera trzeba zabrać ze sobą dużą dawkę wyobraźni biznesowej.

Analiza danych bez konkretnego celu może być jedynie plastrem na sumienie.

Wyciąganie wniosków z danych to jedno – podjęcie decyzji na ich podstawie to drugie. Decyzje biznesowe na podstawie wniosków z danych mogą w konsekwencji oznaczać zainwestowanie dużych monet.

 

Analityk danych

Firma czy organizacja nie może mieć jedenastu napastników czy jedenastu obrońców. Coraz częściej na boisko wybiega analityk danych. Organizacje potrzebują różnych kompetencji – nie tylko technicznych, nie tylko marketingowych itd.

Analityk danych (data scientist) – to połączenie wielu umiejętności, które do niedawna były rozrzucone między wielu różnych specjalistów. Analityk danych – to jest ktoś, kto ma wiedzę matematyczną, statystyczną, z programowania oraz wiedzę domenową (czyli z konkretnej dziedziny). Analityk danych to jest po prostu ktoś, kto wie co te liczby oznaczają.

Nie ma jednej, zadekretowanej definicji „data scientist” (analityka danych). Każdy ma swoją definicję czym jest „data scientist” – często wygląda to jak „business scientist” bo jest to właśnie rozwiązywanie problemów biznesowych za pomocą danych.

Trudno odkleić wyniki analizy danych od ich zakomunikowania potem w zrozumiały sposób. Jeżeli wyników nie da się komunikatywnie przekazać odbiorcy / klientowi – to w gruncie rzeczy z tej wykonanej pracy nie można skorzystać. Jest to wówczas praca bezwartościowa.

Dane trzeba przetłumaczyć na to co przynosi korzyści.

Siła wniosków z danych jest tym słabsza im jest gorzej komunikowana.

Wnioski same się nie obronią – wnioski się broni.

Wyniki analizy danych i w ogóle same dane są tak długo nieistotne – jak długo nie można tego sprofitować.

Programista w uproszczeniu może się zabudować w piwnicy i pisać kod dla klientów bez większego kontaktu z nimi. Analityk danych musi być otwarty na klientów i rozwiązania biznesowe – czyli być frontem do biznesu. Musi rozumieć biznes, musi czytać biznes, musi komunikować się z biznesem ludzkim językiem.

Analityk danych – to jest konsultant biznesowy.

Technologia technologią ale bez człowieka analiza danych się nie odbywa i nie będzie się odbywać. Technologia to tylko narzędzie.

Do profesjonalizmu w analizie danych / w uczeniu maszynowym nie ma windy – są schody.

 

Nieprawidłowe dane

Przykład złych danych: swego czasu system diagnozowania cukrzycy został źle przeniesiony z USA do Europy. W środku tego europejskiego systemu były amerykańskie dane. Inaczej pisząc został „nakarmiony” amerykańskimi danymi. Ten system w Europie źle zadziałał i siłą rzeczy to się musiało tak skończyć ponieważ ze względu na liczbę ludzi z nadwagą w USA cukrzyca jest tam dużo częstszą chorobą niż w Europie. Na podstawie danych z USA system w Europie naddiagnozował cukrzycę na Europejczykach.

W Europie i USA pracowały te same systemy – z tym, że w Europie należy do niego aplikować dane Europejczyków, a do systemu amerykańskiego (takiego samego) trzeba wrzucać dane amerykanów. Wtedy należy spodziewać się prawidłowych wyników.

 

Narzędzia i technologie do analizy danych

Osobiście lubię używać do analizy danych języka Python i jego rozbudowany ekosystem. Drugim popularnym językiem jest R. Tak jak jest napięcie o to, który język jest lepszy czy Java czy .Net – podobnie jest między R i Python.

R został stworzony do analizy danych.
Python jest językiem bardziej uniwersalnym.

Siłą R jest to, że został przejęty przez Microsoft.
Siłą Python jest jego ekosystem i sam język jest przyjemniejszy.

Do gry w analizie danych i uczeniu maszynowym coraz bardziej wchodzą technogiganci – Amazon, Google, Microsoft i inni. Zaczynają się coraz bardziej rozpychać w tego typu platformach. Python czy R są i będą używane do danych ale platformy od technologicznych gigantów przyspieszają ofensywę na rynku. Część narzędzi zostanie przez nich rozwalcowana.

Analiza danych i uczenie maszynowe z roku na rok będzie coraz bardziej ogrodzona i zagarniana przez narzędzia i technologie dostarczane przez technogigantów.

Facebook i Google zgarnia budżety reklamowe – w przypadku narzędzi do danych zapowiada się nie inaczej jak podobna dominacja gigantów. Ich budżety i możliwości są miażdżące. Tam na szczycie nie ma tłoku – jest kilku graczy. Można się na to wkurzać ale to są źle zaangażowane emocje.

 

 

Podsumowanie

Na ten moment polskie firmy wykorzystują możliwości Big Data w skali 6% – W Unii Europejskiej Polska wyprzedza chyba tylko Cypr.

Technologia wygina rynek pracy i z roku na rok coraz bardziej ten rynek rozkręca. Istnieje już gotowość technologiczna, żeby zastąpić osoby pracujące przy kasie – to się nie dzieje na masową skalę ponieważ barierą jest mentalność, żeby to wdrożyć całkowicie. Podobnie jest z uczeniem maszynowym – dane mogą być od kilku lat przetwarzane maszynowo na dużą skalę ale to się nie dzieje w większości organizacji.

Dane są często gromadzone w organizacji chaotycznie – co utrudnia potem wyciąganie z nich wartości. To jest problem tzw. „silosów” – czyli działy organizacji oddzielone od siebie, które się ze sobą nie komunikują.

Dane nie są od polerowania ego kogoś w firmie – ich nieużywanie redukuje możliwości biznesowe. Tak jak w biznesie nie liczy się pomysł – tylko jego wykonanie. Podobnie tutaj jeśli chodzi o dane – od samych danych dużo ważniejsza jest ich interpretacja i wykorzystanie.

Jedną sprawą jest patrzenie w przeszłość, czyli w dane – a inną sprawą jest patrzenie w przyszłość, czyli wyciąganie wniosków z danych i zastosowanie w organizacji.

O technologiach publiczna dyskusja się zaczęła ale to jest dopiero teraz. Technologie już są szeroko stosowane ale niewiadomo kto za nie odpowiada – np. kto odpowiada za uczenie maszynowe. Jeżeli chodzi o technologie to nie ma już drogi wstecz, nie da się tego wygasić.

Jeśli chodzi o pozyskiwanie danych do niedawna łatwo było ześlizgnąć się w działania nieetyczne – teraz obowiązuje RODO o którym pisałem TUTAJ.

Z roku na rok coraz więcej firm przesiąka analizą danych. Analiza danych staje się normalną koniecznością biznesową.

W analizie danych nie chodzi o hermetyczne ekspertyzy – chodzi o rzeczowe i zrozumiałe przewidywania, które można zastosować tu i teraz.

Analiza danych to nie tylko liczby – to jest proces.

Nie wszystko co da się policzyć się liczy.

Jeśli są złe dane – uczenie maszynowe tego nie naprawi.

Z danych można wyciągnąć informacje, z informacji wiedzę, którą można zagospodarować do podejmowania decyzji biznesowych. Najpierw trzeba zobaczyć informacje w morzu danych.

Analiza danych to nie jest czytanie z gwiazd – to jest czytanie rzeczywistości.

W firmie można się kłócić z kimś o swoje racje – ale bez danych jest to kolejna osoba z opinią.

Dane to jest krwioobieg każdej organizacji. Świadomość danych przebija się do biznesu i instytucji.

Big Data, analiza danych, uczenie maszynowe – to wszystko nie jest cel, to jest środek.