Baviti se naukom koja istražuje podatke (Data Scientist) je najizazovniji posao 21. vijeka

Women In Data Science UNSA
Širite znanje

Podaci su svuda oko nas. Podaci se analiziraju i mogu pomoći da se unaprijedi zdravstvena zaštita, život u gradovima, produktivnost, sigurnost, inovativnost, transport, obrazovanje i mnoge druge oblasti od interesa za čovjeka i okolinu. Koje i kako podatke prikupljamo i analiziramo ovisi i kvalitet odluka koje donosimo o našoj budućnosti.

Okruženi smo podacima i sve ih je više. Mobiteli, ručni satovi, laptop računari, video kamere, foto aparati i razni drugi senzori koji mjere razne stvari konstantno kreiraju podatke. I sadržaj koji čitate je kreirao podatke u formatu linka, riječi i slova. Aplikacije mogu ovaj tekst pretvoriti u govor i onda to postaje audio format podatka. Naše akcije dok konzumiramo sadržaj na internetu ostavljaju tragove. Recimo, šta čitamo, gledamo ili slušamo, sa koje lokacije, koliko se zadržavamo na tekstu ili video materijalu i mnogo drugih podataka koji se kasnije il u realnom vremenu dostupni za analiziranje i strukturiranje. Još kad tome dodamo ekspanziju Interneta u razne uređaje (IoT), mrežne infrastrukture, kao 5G, kao rezultat imamo konstantnu eksploziju podataka.

A šta da radimo sa svim tim podacima? Hoćemo li ih naknadno istraživati ili trenutno u realnom vremenu? Šta želimo postići i koje ciljeve ostvariti analizom podataka? Kako efikasno predstaviti analizu ljudima kako bi jednostavnije razumjeli milione različitih podataka? Kako analizirati strukturirane, a kako nestrukturirane podatke? Kako da treniramo računare da nauče analizirati podatke? Odgovore na ova i mnoga druga slična pitanja u ovom digitalnom dobu mogu nam dati naučnice i naučnici koji se bave upravo podacima.

Čime se bavi nauka o podacima?

Postavlja se i pitanje koja je svrha ove nove oblasti istraživanja podataka? Evo da pokušamo kratko definisati. Naime naučnice i naučnici koji istražuju podatke imaju za cilj uvesti red u prikupljanju i analizi podataka, pronaći značenje i nove vrijednost posmatranih podataka. A malo detaljnija i preciznija verzija je da je nauka o podacima interdisciplinarno polje koje se koristi za ekstrakciju znanja i dovijanja uvida iz strukturnih i nestrukturnih podataka. Nalazi se na intersekciji između nekoliko dobro poznatih polja, kao sto su računarske nauke i informacione tehnologije, matematika i statistika, te domensko i poduzetničko znanje.

Postoje razni izvori podataka. Samo na internetu su dostupne razne baze podataka spremnih za obradu. Obradom se recimo može utvrditi vjerovatnoća ishoda poput ko će vjerovatno kupiti nešto ili ko predstavlja sigurnosnu prijetnju ili ko će vjerojatno razviti neku bolest ili dobro reagirati na novo liječenje. Podaci i analiza istih je u stanju da automatizuje procese poput dobijanja individualizovanih preporuka tokom kupovine, identifikacije prijatelja na fotografijama ili pružanja psihološke podrške sa AI chat botovima.

Koje primjene naučne obrade podataka imamo trenutno dostupne u društvu? Poznat je primjer sa digitalnim fotografijama i prepoznavanjem lica. Ako koristite Google Photos za čuvanje vaših porodičnih fotografija onda možete jednostavno naći sve fotografije sa traženim članom vaše porodice. Uz kratku podršku vas kao korisnika mašinsko učenje u pozadini ovog sistema je naučilo putem ML algoritama kako izgleda lice traženog člana porodice i tako jednostavno klasificira fotografije. Kada imate hiljade raznih porodičnih fotografija onda je ovo jako korisno. A broj fotografija konstantno raste.

Drugi primjer je filter za SPAM poruke. Mnogi od nas i nisu svjesni da primamo nekoliko puta više poruka negu što i vidimo u Inboxu. Za to su zaslužni SPAM filteri koji su omogućili da vidimo samo one nama bitne i to većinom od osoba o kojima smo informisani ili koje poznajemo. Savremeni SPAM filteri su ML algoritmi koji uče razlikovati bitno od manje bitnog i od totalno nebitnog. I to rade konstantno kako bi nama korisnicima dnevno dolazilo samo onoliko poruka koliko i očekujemo. A kako da napraviti svoj SPAM filter sa ML možete pogledati na ovom linku.

Trenutna “poplava” podataka vezanih za pandemiju je još jedno polje gdje nauka o podacima može pomoći da se zaustavi širenje virusa i umanji broj oboljelih. Mnoge države su uključile razne mobilne aplikacije koje na razne načine prate korisnike i njihovu interakciju. Uz informacije o pozitivnim na COVID.19 analizom prikupljenih podataka mogu se izolovati grupe i zaustaviti širenje virusa bez da se ugrozi privatnost. Sama analiza pretraga na google trends je nekima poslužila da predvide buduća žarišta pandemije. Naime, ako korisnici sa određene lokacije počnu u većem broju da traže po internetu informacije o simptomima, najbližim medicinskim ustanovama i lokacijama za testiranje, može se sa velikom vjerovatnoćom zaključiti da je to područje ugroženo. Kratko, analizom pretraga na Google može se poboljšati borba protiv pandemije

Šta se desi kad se žene dogovore da istražuju podatke?

Nadamo da ste dobili bolju sliku gdje se sve koristi nauka o podacima kako bi se mogli fokusirati na jedan događaj o ovoj temi. Naime, 19. juna je održana virtualna konferencija “Women in Data Science (WiDS) Sarajevo” koja je dio globalne konferencije “Women in Data Science”, koja se održava na Stanford Univerzitetu, kao i na preko 200 drugih lokacija širom svijeta.

Detaljnije o cilju konferencije i razvoju nauke o podacima u Bosni i Hercegovini pročitajte u intervju sa Amilom Akagić, ambasadoricom WiDS-a za Bosnu i Hercegovinu.

Tokom konferencije prezentovano je devet različitih istraživanja gdje su prisutni imali priliku čuti veoma interesantne prezentacije kao i pitanja na koje ova oblast u nauci tek treba da pruži odgovore. 

Za jednu virtualnu konferenciju gdje svi komuniciraju putem ZOOM platforme, bio je zavidan nivo interakcije, pitanja, diskusija. Mislim da zbog same tematike organizatorice i nisu izgubile na iskustvu u poređenju sa tradicionalnim konferencijama. U nastavku predstavljamo teme o kojima se razgovaralo:

  1. Belma Ibrahimović (Senior Data Scientist, Toptal) je istakla ulogu nauke o podacima i njen cilj rješava probleme uz pomoć podataka u datom kontekstu. Belma je istakla važnost sagledavanja problema koji se žali riješiti i krajnji cilj koji se žali postići prikupljanjem, analizom i upotrebom podataka. Pogledajte prezentaciju
  2. Melika Husić-Mehmedović (Profesorica na Ekonomskom fakultetu u Sarajevu) je predstavila istraživanje iz oblasti neuromarketinga gdje se ispituju podražaji u mozgu tokom izloženosti raznim marketing sadržajem i aktivnostima. Pogledajte prezentaciju
  3. Lejla Banjanović-Mehmedović (vanredna profesorica na Elektrotehničkom fakultetu Univerziteta u Tuzli) je govorila o analizi podataka i primjeni umjetne inteligencije (AI) u industriji, mobilnoj robotici i inteligentnim transportnim sistemima sa posebnim naglaskom na obradi podataka u realnom vremenu. Pogledajte prezentaciju
  4. Tokom prezentacije Hvale Vale (Asocijacija za progresivne komunikacije) postavljena su mnoga pitanja koja se tiču tehnološkog razvoja i etike. Koliko se recimo trka ka inovacijama i boljom produktivnošću suprotstavlja etičkim normama? Ko je vlasnik prikupljenih podataka drugih osoba? Pogledajte prezentaciju
  5. Adaleta Gicić (Šefica sektora za bankarstvo i mikrokredit u InfoStudio) je govorila o utjecaju i primjeni nauke o podacima na transformaciju bankarskog sektora. Fokus je bio na automatizaciji i upotrebi ML tehnologija u procjeni rizika prema korisnicima bankarskih usluga. Pogledajte prezentaciju
  6. Naida Agić (Machine Learning Specialist u NeuraLegion) je prezentovala problem lošijih podataka. Kroz primjer je prikazala kako se riješiti duplih pitanja na raznim online forumima korištenjem ML i NLP tehnika. Pogledajte prezentaciju
  7. Dušanka Bošković (vanredna profesorica na Elektrotehničkom fakultetu Univerziteta u Sarajevu) je istakla značaj vizualizacije podataka koja je bitna kako za samu efikasnu prezentaciju tako i sa aspekta kvalitetne analize i donošenja odluka na bazi podataka. Pogledajte prezentaciju
  8. Belma Muftić (Naučnica o podacima u Mistral) je predstavila upotrebu algoritama u obradi fotografija sa automatskih posmatračkih sistema za zaštitu i prevenciju od požara u Njemačkoj. Pogledajte prezentaciju
  9. Lejla Kasum (Master studij na Elektrotehničkom fakultetu u Sarajevu) je prezentovala rezultate analize koja je za cilj imala utjecaj uspjeha u srednjoj školi na uspjeh u prvoj godini studija. Pogledajte prezentaciju

Navedene prezentacije su pokazale da je ova oblast jako interesantna, izazovna i u budućnosti će predstavljat važnu oblast istraživanja.

O popularnosti ove oblasti govori i činjenica da je tokom #WiDS2020UNSA najavljena još jedna konferencija u BiH gdje će ponovo glavnu riječ voditi naučnici i naučnice o podacima. To je MeFDATA 2020 koja će se održati 24.10.2020. godine na Sarajevo School of Science and Technology. Snimak kompletne konferencije možete pogledati na ovom linku.


Širite znanje