ტექნოლოგია

მონაცემთა მეცნიერება და მისი გამოყენება

დეკემბერი 04, 2019

ავტორი: მიხეილ ნადარეიშვილი

მონაცემთა მეცნიერება, როგორც დარგი ბოლო წლებში ძალიან პოპულარული გახდა მსოფლიოში და საქართველოშიც ნელ-ნელა იკრებს ძალას. იმატებს ამ სფეროს პროფესიონალების მოთხოვნა ბაზარზე, სულ უფრო მეტი ადამიანი ცდილობს მიიღოს განათლება ამ სფეროში, ტარდება უფრო და უფრო მეტი ჰაკათონი, კონფერენცია და შეხვედრა და საბოლოოდ, ყალიბდება აქტიური და საინტერესო კომუნა ამ თემის გარშემო.


რა არის მონაცემთა მეცნიერება? რატომ გახდა ეს დარგი პოპულარული? რა მოთხოვნაა მონაცემთა მეცნიერებზე? ამის შესახებ ბლოგიდან შეიტყობთ.

რა არის მონაცემთა მეცნიერება


"სახელმძღვანელო განმარტების" მიხედვით, მონაცემთა მეცნიერება არის მულტიდისციპლინარული დარგი, რომელიც აერთიანებს მეცნიერულ მეთოდებსა და პროცესებს, რომლებიც გამოიყენება მონაცემების დამუშავებისთვის და მათგან ცოდნისა მიღებისთვის უფრო მარტივად კი, მონაცემთა მეცნიერება არის იმ ტექნიკების ერთობლიობა, რომლებიც საშუალებას გვაძლევს, ავაწყოთ სისტემები, რომლებსაც არსებულ ინფორმაციაზე დაყრდნობით ჭკვიანი გადაწყვეტილებების მიღება შეუძლიათ. უკეთესად რომ წარმოვიდგინოთ, რეალურად რას ემსახურება მონაცემთა მეცნიერება, გიზიარებთ მონაცემთა მეცნიერების გამოყენების ორ მაგალითს ისეთ სერვისებში, რომლებსაც ვიცნობთ და ყოველდღე ვიყენებთ.


Youtube-ის ვიდეოს რეკომენდაციის სისტემა საიტის სიცოცხლისა და შემოსავლის ერთ-ერთი მთავარი წყაროა. მისი დანერგვის შემდეგ მომხმარებლების ქცევა Youtube-ზე ძირეულად შეიცვალა - ახლა მომხმარებლები ვიდეოების 70%-ს არა პირდაპირი ძიებით, არამედ სწორედ რეკომენდაციის გზით ნახულობენ და საშუალოდ, ერთი მობილური მომხმარებელი Youtube-ის აპლიკაციაში ერთ საათზე მეტ დროს ატარებს მხოლოდ იმიტომ, რომ უწყვეტად უყურებს რეკომენდირებულ ვიდეოებს.

რეკომენდაციების სისტემა მონაცემთა მეცნიერების საშუალებით იქმნება — როდესაც თქვენ ვიდეოს უყურებთ, სისტემა ეძებს, თუ რას უყურეს სხვა მომხმარებლებმა ამ ვიდეოს ყურების შემდეგ, და ყველაზე პოპულარულ ვარიანტებს თქვენ გირჩევთ რეკომენდირებული ვიდეოების სახით. დროთა განმავლობაში სისტემა ისე დაიხვეწა და რეკომენდაციის სიზუსტე იმდენად გაიზარდა, რომ Youtube-ზე რეკომენდირებული ვიდეო უკვე პირდაპირ ირთვება.


საინტერესოა, რომ მონაცემების სწორად გამოყენებას ისეთი ინდუსტრიაშიც შეუძლია სარგებლის მოტანა, რომელიც ერთი შეხედვით სულაც არაა მაღალტექნოლოგიური. ბოლტი მონაცემებს თავისი ოპერირების ყველა ასპექტში იყენებს. აღსანიშნავია, მაგალითად, ოპტიმალური ფასის მოდელირება - იმის გამოთვლა, თუ რა ფასი უნდა დაადოს კომპანიამ მგზავრობას, რომ მძღოლიც დაინტერესებული იყოს, და მგზავრმაც არ თქვას უარი და ტრანსპორტირების სხვა მეთოდი არ აირჩიოს.

რა დისციპლინებს მოიცავს მონაცემთა მეცნიერება?


მონაცემთა მეცნიერება მულტიდისციპლინარული დარგია, და რამდენიმე დარგის თანაკვეთაზეა წარმოშობილი. იმისთვის, რომ მონაცემთა მეცნიერების პროდუქტი (მაგალითად, Youtube-ის რეკომენდაციის სისტემა) მივიღოთ, შემდეგი კომპეტენციებია საჭირო:


მონაცემთა დამუშავება


იმისთვის, რომ ჭკვიანი სისტემები შევქმნათ, საჭიროა, პირველ რიგში გვქონდეს გენერირებული ინფორმაციის მოზიდვის საშუალება, სხვადასხვა წყაროებიდან (მაგ., მობილური ტელეფონის გადაადგილების მონაცემები, ავტომატური სისტემების მიერ შექმნილი ინფორმაცია, გამოკითხვებიდან მოგროვებული ინფორმაცია, ა. შ.)  მიღებულ ინფორმაციას ვინახავთ და ანალიზისა და მოდელირებისთვის საჭირო ფორმაში მოგვყავს.


სტატისტიკური მოდელირება/მანქანური დასწავლა


იმის შემდეგ, რაც ინფორმაცია ანალიზისთვის მზადაა, ჩვენ გვჭირდება წინასწარ მოფიქრებული ალგორითმები, რომლების დანერგვის შემდეგაც მივიღებთ სისტემას, რომელიც ამ ინფორმაციიდან ჭკვიანი გადაწყვეტილებების მიღებას შეძლებს (ამინდის პროგნოზირება ამინდის მონაცემებიდან, სწორი პროდუქტის შეთავაზება Amazon.com-ზე შესული კლიენტისთვის, ა. შ.


კომპიუტერული პლატფორმა


მას შემდეგ, რაც ინფორმაციაც გვაქვს და თეორიული გზაც ვიცით, თუ როგორ უნდა ავაგოთ ჭკვიანი სისტემა, დარჩენილია, სისტემის რეალურად აგება. ამისთვის კი გვჭირდება პროგრამირების ენა და გარემო, რომელშიც ინფორმაციის შენახვა და მოდელირება იქნება შესაძლებელი

რატომ გახდა მონაცემთა მეცნიერება პოპულარული ახლა?


მონაცემთა მეცნიერების განვითარების ერთ-ერთი ძირითადი მამოძრავებელი ძალა გახლავთ ის, რომ ბოლო რამდენიმე ათწლეულის განმავლობაში მონაცემების დაგროვების, შენახვისა და ანალიზის ტექნოლოგიებში რევოლუციური ცვლილებები მოხდა. ამ ცვლილებებმა საშუალება მოგვცა, დაგვეგროვებინა ბევრად მეტი და მრავალფეროვანი ინფორმაცია. ერთი მხრივ გაციფრულდა ჩვენი ცხოვრების თითქმის ყველა ასპექტი, და ინფორმაციის დაგოვება შეიძლება ყველგან, მეორეს მხრივ კი განვითარდა და იაფი გახდა ინფორმაციის მატარებლები და ბევრად მეტი ინფორმაციის შენახვა შეგვიძლია ბევრად უფრო დიდხანს, ვიდრე ადრე.


იმის გასააზრებლად თუ რამდენად დიდი ინფორმაციის შენახვაა შესაძლებელი, გავიხსენოთ დაკვირვება, რომ მთელი ისტორიის მანძილზე დაგროვილი მონაცემების 90% ბოლო ორ წელიწადში დაგროვდა, სამომავლოდ კი მონაცემების ჯამური მოცულობის ყოველ ორ წელიწადში გაორმაგებას ველოდებით. მონაცემების მრავალფეროვნების წარმოდგენაში კი ქვემოთ მოცემული "ინტერნეტის ერთი წუთი" დაგვეხმარება.


შესაბამისად, მონაცემების მრავალფეროვნებისა და მათი დაგროვების სიჩქარის და მოდელირების ტექნიკებისა და შესაბამისი გამოთვლითი პლატფორმების განვითარების შედეგად მონაცემთა მეცნიერების გამოყენება დღეს თითქმის ყველა ინდუსტრიაში შეიძლება. და როგორც Youtube-ის შემთხვევაში მოხდა, მონაცემთა მეცნიერების პროდუქტების დანერგვის შემდეგ ხშირად ინდუსტრიები ძირეულად იცვლებიან.

მოთხოვნა მონაცემთა მეცნიერებზე


როგორც მოსალოდნელია, ბაზარზე ამ დარგის სპეციალისტებზე მოთხოვნა ძალიან მაღალია, მიწოდება კი - მიუხედავად იმისა, რომ ძალიან სწრაფად გამოჩნდა საკმაოდ ბევრი და კარგი ონლაინ თუ ტრადიციული საგანმანათლებლო რესურსი - ზედმეტად ნელა იზრდება.


ამერიკის დასაქმების ყველაზე პოპულარული ვებ-გვერდი — indeed.com-ის თანახმად, მონაცემთა მეცნიერებზე მოთხოვნა 2016 წლის ბოლოდან 2018 წლის ბოლომდე 70%-ით გაიზარდა. ეს მოთხოვნა ხელფასებშიც აისახება - Glassdoor-ის მიხედვით, 2018 წელს მონაცემთა მეცნიერება ყველაზე მაღალანაზღაურებადი პირველი სამსახური იყო უნივერსიტეტის დამთავრების შემდეგ.

თუმცა, მიუხედავად ასეთი ანაზღაურებისა, ნაპრალი მოთხოვნასა და მიწოდებას შორის მაინც ძალიან დიდია - LinkedIn-ის ინფორმაციით, 2018 წლის აგვისტოში ამერიკის მასშტაბით 151 000 მონაცემთა მეცნიერის პოზიცია ვერ შეივსო.


რომ შევაჯამოთ, მონაცემთა მეცნიერება, ანუ მეცნიერება იმის შესახებ, თუ როგორ უნდა ამოვიღოთ მონაცემებიდან გამოსადეგი ინფორმაცია, და როგორ შევქმნათ ჭკვიანი სისტემები, ჯერ კიდევ ადრეულ ფაზაშია. მისი პოპულარობა, შესაძლებლობები, გამოყენების არეალი და გავლენა ჩვენს ყოველდღიურ ცხოვრებაზე მომავალ წლებში სულ უფრო გაიზრდება და შესაბამისად გაზრდის მოთხოვნას ამ სფეროს პროფესიონალებზე.


თუ გიტაცებს მონაცემებთან მუშაობა, ვიზუალიზება, მოდელირება და ანალიტიკა, მოდი 7-8 დეკემბერს ორდღიან ახალგაზრდულ დატათონზე, ტექნოპარკში (ინოვაციების ქუჩა #7, ოქროყანა, თბილისი). იმუშავე ნამდვილ მონაცემებზე ხუთი სხვადასხვა ინდუსტრიიდან, დააგროვე გამოცდილება, და მიიღე პრიზი. წარმოდგენილი იქნება ნედლი მონაცემები საბანკო, სადაზღვევო, სახელმწიფო, საცალო ვაჭრობისა და უძრავი ქონების სფეროებიდან.


დარეგისტრირდი:   http://bit.ly/tbcdatathon