Senior Research Analyst в IBM Олександр Романко: «Аналіз великих даних буде популярним ще років 10 мінімум"
Олександр Романко — старший науковий співробітник компанії IBM Canada, за сумісництвом — професор Університету Торонто, викладач в Українському католицькому університеті (УКУ) та Київській школі економіки (KSE). Він є спікером топових міжнародних конференцій та мітапів, почесний директор Master of Business and Management in Artificial Intelligence and Data Analytics (MBAI) програми в KSE.
Олександр активно займається розвитком аналітики великих даних в Україні. Для DOU він розказав про тренди в аналітиці великих даних, найбільш перспективні сфери застосування методу та майбутнє наших персональних даних.
На конференції Data Science UA
«До універсального штучного інтелекту нам дуже далеко. Мінімум років 20»
Зараз популярні інструменти — машинне навчання та штучний інтелект. Чому так? По-перше, тому, що за останні
У сферах, де людям необхідно більше декількох секунд, щоб ухвалити рішення, аналітика даних та штучний інтелект поки не надто розвинені. Причина проста: для таких рішень необхідно більше даних, тому їх складно автоматизувати. Нейронна система може розпізнавати зображення, адже для її навчання достатньо даних. У сферах, де повні дані зібрати складно, або вони швидко застарівають, аналітика даних та штучний інтелект мають обмежені можливості для розвитку. Наприклад, людям складно прогнозувати погоду, фондовий ринок та ухвалювати рішення в особистому житті: говорити про те, що штучний інтелект може впоратися з цими задачами краще — зарано.
До того ж я вже згадав проблему застарілості чи неактуальності даних. Умовно кажучи, є дані, які не змінюються. Зображення — гарний приклад: через рік котик на зображенні не перетвориться на собачку або щось інше. А ось з даними про акції фондового ринку — складніше, бо вони застарівають буквально за секунду. Такі дані в тому самому вигляді навряд чи повторяться: на них немає сенсу навчати нейронні системи або інші алгоритми. Тому хайповими стають прості моделі машинного навчання, які застосовують зображення та тексти (тобто незмінні дані).
Аналіз даних, які швидко застарівають, зазвичай взагалі ні до чого не призводить. Щоб побудувати якісь тренди чи зрозуміти алгоритми, варто аналізувати не тільки дані, а й фактори, які впливають на те, що ми моделюємо. Які фактори впливають на погоду? На ціни облігацій? На наші персональні рішення? Нейронні мережі тут не допоможуть: вони рідко вказують причину, використовують лише певний тип даних.
І ось тут саме час згадати про нехайпові інструменти аналітики даних. До них можна віднести імітаційний аналіз за методами Монте-Карло, оптимізацію, графові моделі, тощо. Це ті методи, які враховують причинно-наслідкові зв’язки. Вони більш складні, і через це їх рідше застосовують.
Розглянемо це на прикладі цін на акції. Є така цікава книжка Пітера Новарро «Купуйте акції Starbucks, якщо в Бразилії дощить» («If It’s Raining in Brazil, Buy Starbucks»). Дивна назва, еге ж? Проте вона вдало описує всю складність застосування аналітичних методів, які базуються на причинно-наслідкових зв’язках.
В принципі суть назви легко пояснити: щоб визначитися, чи варто купувати акції Starbucks, треба бути в курсі погоди в Бразилії. Чому? Якщо в Бразилії дощить, кава буде рости швидше — ціни на неї впадуть, Starbucks купуватиме каву дешевше — ціни на продукцію впадуть, а ціни на акції Starbucks будуть рости.
Наче все логічно та зрозуміло, але щоб ці, на перший погляд, не зв’язані факти давали цілісну картину, необхідно бути фахівцем у цій сфері. Щоб визначити фактори, які впливають на процес ухвалення рішень у схожих випадках, треба майже досконало знати ринок та розумітися на принципах його функціонування. А для більшості факторів нам треба також визначити, які саме з усіх них драйвлять нашу цільову змінну. Чи може це зробити штучний інтелект? Поки що ні.
На конференції Data Science UA
Інший приклад — передбачення правопорушення: з одного боку, ми можемо перенести історичні дані про правопорушення на майбутнє і таким чином спробувати сформувати тенденції. Проте, якщо у нас немає пояснень, чому саме скоїли ті чи інші правопорушення, це — марна справа. Якщо не визначати фактори, які вплинули на той чи інший випадок в минулому, підстав стверджувати, що минулі злочини повторяться в майбутньому — немає. А таких факторів може бути безліч: від погоди в той день до подій, які відбувалися поряд, або соціального статусу нападника. Чи легко зібрати таку інформацію? Аж ніяк: або складно визначити самі фактори, які є важливими, або неможливо отримати повну інформацію про них.
Саме тому імітаційний аналіз за методами Монте-Карло або оптимізація набагато складніші і непопулярні: їхні алгоритми відрізняються від алгоритмів машинного навчання. Про них менше говорять, їм майже не навчають, хоча, їх також застосовують в деяких галузях. Вони не такі популярні, бо з ними все не так просто.
Порівняймо їх з нейронною мережею. Вона натренована, їй дали картинку— вона легко класифікувала, що саме на ній зображено. Навіть якщо ми не розуміємо, як працюють її алгоритми, їх можна застосовувати. А ось з вищенаведеними прикладами інакше: якщо ви не розумієте, як вони працюють, то не зможете їх застосувати. Адже перед тим, як подати дані на алгоритм, варто зробити низку складних кроків із визначення та вимірювання факторів, які впливають на те чи інше рішення.
Проте є також і галузі, де необхідно застосовувати саме такі методи аналізу. До прикладу, аналіз великих даних у медицині, безпілотні автомобілі, тощо. Адже в цих сферах треба аргументувати рішення: в медицині — пацієнту та регуляторним медичним органам; компаніям-виробникам автомобілів — пасажирам в суді у разі, якщо машина потрапить в аварію (на базі яких алгоритмів було прийнято рішення? Чому управління схибило?). Здебільшого ці методи аналізу даних необхідні у сферах, де ми маємо обов’язково обґрунтовувати свої рішення.
Це стратегічна аналітика, і вона знаходиться поза межами машинного навчання. Її методи розвивались довше, вона більш складна та менш хайпова. Проте це не значить, що вона не дієва чи не варта уваги.
Загалом я повторю думку, що вже озвучив: до універсального штучного інтелекту, тобто алгоритмів, які ухвалюватимуть рішення у різних галузях одночасно, нам дуже далеко. Мінімум — років 20, а то і взагалі ніколи. Тенденція така: штучний інтелект допоможе нам ухвалювати рішення у галузях, де нам необхідна одна чи декілька секунд, але навряд чи буде корисний у тому, де нам самим складно ухвалювати рішення.
«Світ усе більше усвідомлює, що поняття приватних даних скоро не існуватиме»
Аналітику даних можна застосовувати для різних цілей. Увесь світ впевнився у цьому під час виборів президента США у 2016 році. Змагання між умовно «добром» та «злом», добрими та поганцями буде завжди. І в аналітиці даних це змагання вже розпочалося: є алгоритми, які генерують фейкові дані (людей чи зображення) і які розпізнають їх. Поки все спрощується тим, що для генерації фейків треба більше часу, ніж для їх ідентифікації: щоб згенерувати фейк, треба дні, а алгоритму, який цей фейк розпізнає, необхідні секунди.
Тому поки що «білі» виграють. Та, з іншого боку, є великі проблеми у розповсюдженні алгоритмів, які відрізнятимуть фейкову інформацію. В одних ЗМІ такі алгоритми одразу застосують, в інших цього не станеться (з різних причин). Тому все залежить не стільки від алгоритмів, скільки від швидкості та масштабності їх розповсюдження на різні галузі нашого життя.
Насправді, з точки зору застосування алгоритмів, ситуація 2016 року була типовою: просто змінилась сфера їх застосування. Якщо аналіз даних раніше застосовували в маркетингу (профайлінг клієнтів та їх цілеспрямоване таргетування), то зовсім скоро може стати типовим профайлінг та таргетування виборців, що і зробили в Cambridge Analytica. Компанія не здійснила нічого нового: умовно, вони створили аплікаційну форму, де люди відповідали на питання та надавали доступ до своїх даних. І лише на останньому етапі Cambridge Analytica почали грати «по-чорному», порушивши угоду з Facebook та підтягнувши профілі друзів тих людей, що заповнили аплікацію. Загалом їм вдалося зібрати близько 50 млн профілів людей з усього світу, з яких відібрали лише мешканців США (а отже, потенційних виборців). Таких профілів виявилось близько 10 мільйонів: потім зробили кластерний аналіз, поділили їх на групи, таргетували — і до кожної групи доносили свій окремий меседж. Приблизно так працює маркетингова аналітика для кампаній промоції.
Отже, скоро застосування цих алгоритмів у політиці не буде новинкою: під час виборів президента України цього року також пробували щось подібне. Так, робилось це трошки інакше — не як у Cambridge Analytica. Наскільки я знаю, команда одного з кандидатів таргетувала аудиторію в соціальних мережах, але не настільки цілеспрямовано. На наступних виборах, можливо, навіть на парламентських, в Україні ці методи застосовуватимуть все більше і більше.
Те, що дані про нас збирають, варто сприйняти як факт. І якщо реально знайти джерела інформації про нас, загрегувати дані та створити профілі — чому б ні? А ось буде це «чорний» чи «білий» аналіз даних, залежить від того, чи давали ми доступ на використання наших даних. Якщо не давали — звісно, це «чорна» аналітика, якщо наче давали, але на інші цілі, то це «сіра», і «біла» — коли користувач давав дозвіл на обробку своїх даних саме з цією метою.
Агрегація даних — це великі гроші, а отже, і велика спокуса. Баз даних багато, актуальних та цілісних — менше, тих, що можна поєднати з іншими джерелами, профілями з соцмереж — ще менше.
На конференції Data Science UA
Повторюсь, законність аналізу даних залежить від того, чи давала людина доступ на їх обробку та використання. Сподіваюсь, ви усвідомлюєте, що всі, у кого є така можливість, збирають та зберігають дані про нас. Окрім баз даних, які очевидно володіють нашою персональною інформацією, — як-от Facebook, Instagram, Twitter, LinkedIn, — є багато менш очевидних: дані у провайдерів мобільного зв’язку, у банках, великих компаніях, ЖКГ, політичних партіях, державних установах тощо. Будь-яка транзакція означає, що наші дані вже є у рітейлера, в магазині. Зараз оператори мобільного зв’язку володіють не лише номером телефону та можуть відслідковувати наші переміщення: коли ми реєструємось на сайті, сервісі, купуємо квитки чи бронюємо готель через номер телефону, ці дані також зберігаються оператором. Тією чи іншою мірою так інформацію збирає кожна компанія, до якої потрапляють дані. Цього можна уникнути хіба що поїхавши на острів без зв’язку та інтернету. І то не факт, що у період такої ізоляції вам з океану не прийде пляшечка з записочкою: «Коли повернешся?».
Світ все більше усвідомлює, що поняття приватних даних скоро не існуватиме. Надаючи доступ на використання даних, часто ми отримуємо користь — послугу, сервіс або можливість комунікувати. Проте головна загроза — це злив даних: коли незрозуміло, хто та як використає їх у майбутньому.
Саме тому нова парадигма використання даних полягає у такому: замість того, щоб просто давати доступ до даних, ми надаємо доступ на використання даних у конкретній галузі. Це допоможе нівелювати загрози нецільового використання даних: гарантія, що наші дані не хакнуть чи не використають нам на шкоду.
Найбільш відомий інструмент контролю за використанням даних — це Загальний регламент із захисту даних у ЄС (GDPR). Інші країни також роблять системи регуляції та використання даних — подібні законодавчі ініціативи вже є в США та Канаді (неформально їх називають американське та канадське GDPR). Тобто держави також почали концентруватися на можливостях регуляції використання даних своїх громадян.
Звісно, є і невеликі винятки — здебільшого серед тоталітарних країн, таких як Китай, де держава може вилучити дані в будь-якого провайдера та використати їх навмання, без жодних пояснень.
Рано чи пізно кожна країна матиме подібний до GDPR документ. І хоча для користувачів такі обмеження лише на краще, для компаній це один з найбільших викликів для використання аналітики даних. Глобальним компаніям буде складно функціонувати, адже дані кожного користувача треба буде використовувати лише згідно з регламентом використання даних у його країні. Це велика імплементаційна проблема для компаній, які хочуть працювати з даними та зберігати їх. З одного боку, частково цю проблему можна вирішити, якщо дані не зберігати. З іншого — якщо не зберігати дані, то компанії втрачатимуть безліч можливостей і повинні будуть дуже часто збирати їх.
«В першу чергу раджу дивитися на Google, Amazon, Microsoft»
За цими ІТ-гігантами варто слідкувати, щоб бути в курсі трендів, нових рішень та алгоритмів аналітики даних. Хоча вони безпосередньо не мають відношення до аналітики даних, але нові технології та алгоритми, які можуть поліпшити роботу компанії, вони імплементують найпершими. Facebook також цікавий, але частіше за все вони розробляють алгоритми лише для себе. Звісно, серед компаній, на які варто звертати увагу, є і IBM.
Зараз вищезгадана трійка компаній використовує алгоритми машинного навчання та штучного інтелекту, застосовуючи власні хмарні сервіси, щоб компанія мала змогу скомпонувати будь-яке рішення. Умовно: я хочу зробити сервіс для вибору свого інвестиційного портфеля. Отже, перший інструмент, який я оберу — speech to text: людина дзвонить, говорить, що саме вона хоче. Система все це переводить в текст. Наступний інструмент — чат-бот: система обирає оптимальний портфель, а третій — озвучує через text to speech людині, яка хоче отримати необхідне оптимальне рішення. Тобто, розмова ведеться з системою штучного інтелекту, яка зібрана з трьох компонентів на хмарному сервісі. І такі рішення можна формувати дуже швидко.
Якщо говорити про стартапи, відомі в Україні, — то це Grammarly: в них найкраща (принаймні в Україні) система розуміння природної мови. Це їхня бізнес-модель, вони пробують працювати над корпусами української мови, адже розуміння природної мови зараз робиться буквально на десяти мовах — серед них, на жаль, немає української. Англійською є дуже багато корисних сервісів — той самий speech to text, який я вже згадував, синтаксичний розбір текстів, переклад тощо. А ось щодо нішових мов, де немає великого ринку — корпусів для них немає, і з ними важче працювати. Сподіваюсь, Grammarly це виправлять.
Крім Grammarly, Ring Ukraine (їх купив Amazon). В них є аналітика для безпеки домогосподарств. Найбільш відоме рішення — той самий дзвіночок (ring), з якого все і почалось: коли хтось намагається потрапити в ваш будинок, вам приходить повідомлення чи дзвінок. У системі є автоматичне розпізнавання людей, які приходять додому, а також шляхи, якими вони потрапили в будинок. Такі системи можна легко імплементувати у розумні будинки.
Тією чи іншою мірою кожен стартап та компанія намагаються імплементувати аналітику даних у свої рішення. Той самий Petcube аналізує, як краще гратися з домашніми тваринами, що їм подобається, а що — ні. За цими великими стартапами, що походять з України, також варто слідкувати.
У Courseyard є платформа для створення інтерактивних курсів та книжок. Вони застосовують аналітику для того, щоб створювати книжкові рекомендації. В деяких країнах вони імплементують систему навчання, де вчителі рекомендують читати електронні книги, школярі виконують домашні завдання дистанційно та записують відповіді голосом. І тепер компанія готує аналітику — які книжки рекомендувати дітям та вчителям.
«При розробці курсу ми аналізуємо вакансії, потім формуємо програму навчання»
Я беру участь у декількох освітніх проектах, тож мені дуже близька ця тема. Наразі в планах — зробити інтерактивні курси, де якраз і знадобиться аналітика даних. По суті, це модель, коли онлайн-курси підлаштовуються під кожного окремого слухача. Якщо спрощено, її можна уявити як нелінійний PowerPoint: системі зрозуміло, що людина пропустила частину матеріалу — тож їй треба додатково показати якусь частину курсу. Персоналізація навчання — напрямок, у якому ми просуваємось.
Зазвичай, онлайн-курси для всіх однакові — є відео, інтерфейс, завдання: вони не змінюються відповідно до потреб аудиторії. Ми ж працюємо над таргетуванням слухачів — не групи чи кластеру, а саме персональним таргетуванням, яке базуватиметься на аналітиці по кожній конкретній людині. Скільки часу вона провела за навчанням? Як виконала завдання? Як реагує на матеріал? Як взаємодіє з інтерактивними об’єктами? А потім, зібравши всю інформацію, підлаштувати навчальний процес під цю конкретну людину, залежно від відповіді на всі ці питання. Це дозволить користувачам за найменш короткий час засвоїти найбільшу можливу кількість інформації.
Наразі в Україні я співпрацюю з Українським католицьким університетом (УКУ) та Київською школою економіки (KSE): в УКУ — технічна магістратура з аналітики даних (англійською мовою), а в KSE — магістратура з бізнесу і менеджменту штучного інтелекту та аналітики даних, яка поєднує бізнесові та технічні навички. На мою думку, щоб бути успішним бізнес-аналітиком, недостатньо просто вміти програмувати чи розуміти алгоритми — також варто розбиратися в бізнесі. Як показує практика, більшість проектів у галузі машинного навчання чи аналітики даних не досягають успіху саме через неправильне планування, розрахування витрат чи відсутність валідації результату — не через брак технічних ресурсів.
KSE MBA open house
В цих програмах ми також застосовуємо аналітику даних — при розробці програми курсу ми аналізуємо вакансії таких великих агрегаторів даних, як work.ua, rabota.ua, headhunter.ua та деяких міжнародних, і визначаємо навички, які найчастіше зустрічаються у вакансіях (також є певна градація навичок: які саме з тих, що зустрічалися у вакансіях, були найбільш оплачувані?). Потім ми формуємо програму навчання, базуючись саме на навичках, які зустрічалися частіше. Відповідно, ми відпрацьовуємо гіпотезу: чим частіше згадується навичка, тим вона більш затребувана на ринку праці, тому її варто включити в навчальні курси. Це один з варіантів використання аналітики даних для навчання.
З огляду на ті дослідження, які ми проводили для формування навчальних курсів, необхідні навички можна розділити на два типи: бізнесові та технічні («м’які» та «жорсткі» навички). Це ті навички та вміння, на які варто звернути увагу, щоб стати аналітиком даних.
Технічні («жорсткі») навички:
- Як отримати дані? Як їх почистити?
- Вміти працювати з алгоритмами даних: мовами програмування, програмними продуктами, що дозволяють аналізувати та розкладати дані на кластери. Мова програмування для аналітики даних № 1 — це, звісно, Python. Є багато дискусій щодо її майбутнього та зауважень щодо того, що вона доволі проста. Але це і є одна з переваг Python: на цій мові можна навчати базового програмування, є багато бібліотек з аналітики даних та алгоритмів, які можна викликати з Python. Також вона може запускати алгоритми з більш складних та «серйозних» мов програмування, як C++ (дані передаються, обробляються у C++ та передаються назад до Python). І тренди показують, що частка Python для аналізу даних продовжує зростати. В аналітиці даних також застосовується мова програмування R: її частка теж зростає, проте лідером залишається Python. Звісно, не варто забувати про Excel: він залишається важливим інструментом аналітики, адже там можна робити візуалізацію, моделювати процеси тощо.
- Працювати з базами даних SQL.
- Працювати з технологіями big data.
- Варто розбиратися з enterprise пакетами, як SAS, SPS для аналітики даних.
Бізнесові («м’які») навички
Перед вами, як перед аналітиком, буде стояти багато різнопланових завдань. Тож, звісно, про базові «м’які» навички не варто забувати: комунікаційні, презентаційні навички, робота в команді тощо.
Проте є й інші специфічні навички. Аналітик даних має розуміти:
- як валідувати результати аналізу даних;
- як зробити результати аналітики даних практичними та застосувати в бізнесі;
- як запітчити тих, хто ухвалює рішення;
- як шукати креативні рішення в цій галузі;
Бо, як аналітик даних, ви можете стикатися з тим, що вам не поставлять задач: натомість скажуть, що існує проблема, і вам треба запропонувати найбільш логічне та ефективне рішення. Або інше: ось вам дані клієнта — проаналізуйте їх і скажіть, що можна цікавого з них зробити. Таке собі «здолайте дракона». Саме тому важлива креативність: як орієнтуватися в невідомості. Наголошую на цій навичці окремо. І, звісно, залежно від сфери роботи, — базове розуміння маркетингу, логістики, фінансів: не лише ключової сфери застосування, а й дотичних до неї, які варто буде враховувати.
«Найбільш складний, але перспективний напрям — персональна аналітика для медицини»
Найбільш перспективні сфери для застосування аналітики даних — звісно, маркетинг, фінанси та рітейл: там вже дуже багато процесів побудовано саме на аналітиці даних. Зараз торговельна та розважальна сфери ухвалюють рішення, спираючись на аналітику даних: де варто відкривати нове кафе чи аптеку? Це також справедливо не лише для рітейлу, а і для малого та середнього бізнесу: як на основі транзакцій запропонувати залучення більшої кількості клієнтів? Які програми лояльності необхідно впровадити? Умовно, це рішення для малого і середнього бізнесу, які базуються на аналітиці даних. Такий підхід до планування бізнесу дає більше шансів на прибутковість вашої справи.
Найбільш складний, але перспективний напрям — персональна аналітика для медицини: як ставити діагнози та призначати лікування, базуючись на даних. Це дорогі дослідницькі проекти: необхідно багато складних тестувань та вимірів. До того ж у сфері залишається невирішеним питання, як нівелювати людський фактор, коли причиною недостовірних даних може бути саме людина (співробітник).
Зараз фінансова та страхові сфери переповнені рішеннями, що засновані на аналітиці даних. Тобто тут складно конкурувати, проте це також напрями, де поліпшення чи оптимізація рішень будуть актуальними завжди. Visa, MasterCard уже давно розробляють рішення, базуючись на аналітиці даних транзакцій: формують програми для корпоративних клієнтів тощо.
Та ж сама розвідка: думаю, більшість українців знають Bellingcat — команду, яка досліджує військові конфлікти. У них дуже цікава бізнес-модель: спочатку вони агрегують інформацію з відкритих джерел, роблять її аналіз, презентують проект, а потім роблять закриті проекти для урядів, розвідувальних агенцій — тільки вже на платній основі. Найбільш відомий їхній проект — про те, звідки приїхав і куди поїхав «Бук». Загалом Україна у великому фокусі цієї організації: вони відслідковували по соцмережах кількість російських військових, що воювали на Донбасі (за нагородами, фото та геолокаціями).
Ця галузь також цікава та перспективна для розвитку аналітики даних. Тим паче, враховуючи факт, що саме з військової аналітики часів Другої світової і бере початок уся аналітика даних як напрям.
Освіта як ринок, що розвивається, — також перспективна для аналізу даних: навчання протягом усього життя (lifelong learning) — це вже не про майбутнє, а про теперішнє. Уже зрозуміло: щоб залишатися затребуваними, люди мають вчитися та перевчатися як тільки на це буде потреба. Інакше нас, як працівників, можна буде замінити штучним інтелектом. Тому креативність, емпатія, дизайн-мислення, вміння працювати з людьми — важливий пласт для персоналізації освіти: ці навички будуть необхідні скрізь як мінімум найближчі кілька десятків років, і саме вони будуть «візитною карткою» людей.
У цій сфері Україна має дуже великий потенціал, який ми поки що не використовуємо. У нас занадто багато регулювання та бюрократії, хоча за потенціалом наша освіта може бути не менш якісна, ніж в США та Канаді, але дешевша. Більшість країн дає дозвіл на роботу в країні навчання (так, усього приблизно 20 годин на тиждень, але менш з тим), що спрощує життя студентів та дає їм більше можливостей. Щоб отримати дозвіл на роботу в Україні, треба пройти ще той квест. І це лише невеликий аспект складнощів, з якими стикаються іноземці. Я вболіваю за освіту в Україні і сподіваюсь, що за десять років студенти їхатимуть не в Польшу, Німеччину, Канаду, а, навпаки, звідти — до України.
KSE MBA open house
Також зараз є низка інших ідей, пов’язаних з аналітикою, які намагаються реалізувати багато стартапів по всьому світу, і ще поки невідомо, в кого саме вийде. Це в першу чергу підбір розміру одягу та взуття онлайн, за вашим параметрами Це такий собі «Чорний лебідь», тож спостерігатимемо.
«Аналіз великих даних буде популярним ще років 10 мінімум, а застосовуватимуть його чи не в кожній галузі»
Чому аналітика даних взагалі є такою популярною? З одного боку, цей інструмент дозволяє вирішувати проблеми в усіх галузях — від бізнесу та урядового планування, до особистого життя. З іншого — завдяки великим даним це можна зробити відносно дешево. Раніше, щоб поліпшити якість медичного обслуговування, треба було будувати нові шпиталі, закуповувати додаткові машини швидкої допомоги тощо. Зараз, завдяки аналітиці даних, можна знайти менш витратні шляхи вирішення цих проблеми: наприклад, змінити маршрути пересування карет швидкої допомоги тощо.
Саме тому аналіз великих даних буде популярним ще років десять мінімум, а застосовуватимуть його чи не в кожній галузі. Рішення, побудовані на аналітиці даних, будуть корисними дуже довго (можливо, навіть нескінченно). Проте не варто чекати на прості рішення в кожній з цих сфер: я впевнений, що найбільш цікаві проекти лише розробляються зараз, і ми ще про них дізнаємось. У проектах на основі даних левова частка зусиль та часу вкладається саме у збір та обробку інформації: майбутнє нас здивує.
Варто також розуміти, що бізнеси, які не використовуватимуть дані, або програють конкурентам, або взагалі зникнуть. Так, регулювання ускладнить збір та обробку даних. Але без аналізу даних бізнеси та компанії можуть втратити конкурентну перевагу.
Бонус
Олександр також поділився переліком фільмів, які, на його думку, варто подивитися, щоб краще зрозуміти суть та вплив аналізу даних на життя:
«Гра в імітацію»
Фільм заснований на реальних подіях: показує, як зароджувалась аналітика даних під час Другої світової війни. В принципі з тих часів прийшло більшість алгоритмів, які ми до сих пір знаємо: той самий імітаційний аналіз за методами Монте-Карло, нейронні мережі, тощо. Хоч в фільмі більше уваги зосереджено на криптоаналітиці та розшифруванні німецького коду Енігма, але головні герої також вирішували і інші проблеми (хоч сам процес і не сильно був описаний, проте ці аспекти згадуються): як розташувати зенітні знаряддя над Лондоном, щоб збити якомога більше німецьких бомбардувальників; який оптимальний конвой англійських кораблів через Атлантику, щоб відбитися від німецьких підводних човнів, яким має бути шлях цього конвою, щоб зменшити ймовірність зустріти ці човни; на який час поставити затримку вибуху глибинної бомби, яку скидають з літаків на підводні човни, щоб збільшити ймовірність ураження німецьких підводних човнів (і по факту вони збільшили її мінімум у два рази).
З того періоду також відомий термін «помилка тих, хто вижив». Декілька воєнних років військові доводили, що правильно — вивчати ті літаки, що повернулися з боїв, фіксувати їх ушкодження і в цих місцях зміцнювати броню. Проте, коли вони показали цей метод фахівцям, стало зрозуміло, що це хибний шлях. Треба зміцнювати броню, базуючись на ураження тих літаків, які не повернулися, бо саме ці влучення були фатальними. Практика показала, що це був правильний шлях, а сама помилка отримала назву «помилка того, хто вижив».
«Людина, яка змінила все»
Фільм, заснований на реальних подіях. Це розповідь про випадок, завдяки якому світ дізнався про спортивну аналітику, яку зараз використовують усі спортивні команди. Як відслідковувати гравців в реальному часі? Як планувати взаємодію в команді, якщо це командні види спорту?
У фільмі розповідається про Оклендську бейсбольну команду «Атлетікс», менеджером якої зробили Біллі Біна. У команди малий бюджет, майже вдвічі менший за конкурентів, проте Білл не збирався здаватися. Він використав експертизу з Гарварду, щоб пошукати цікаві методи вирішення проблеми. Після того, як до команди приєднався економіст Пітер Бренд, вони почали шукати недооцінених гравців інших команд (за певним алгоритмом, розробленим Брендом) і купували їх за дешево. За рік, методом спроб та помилок, вони створили гарну команду... а що з того всього вийшло — краще дізнатися з фільму. І це приклад успіху аналітики даних: як за допомогою простих алгоритмів усе можна поліпшити в рази.
Серіал «Чорне дзеркало»
Так, цей серіал не дасть великого розуміння розвитку алгоритмів, проте розуміння того, що може і що не може відбутися в майбутньому, — безперечно цікаве та може наштовхнути на продуктивні роздуми.
«Особлива думка»
Більш світоглядний фільм, який, радше ставить перед глядачем питання щодо моральності тих чи інших методів, до чого вони можуть призвести, тощо. У фокусі фільму — історія про те, до чого може призвести той самий профайлінг людей, і що буде, якщо намагатимуться розрахувати схильності людини. У фільмі показана одна з небезпек, коли людей почнуть обмежувати в діях ще до того, як вони встигнуть скоїти злочин, бо згідно з аналізом даних, вони здатні вбити інших людей чи нашкодити їм.
«Термінатор»
Думаю, людей, які б не бачили цей фільм, дуже мало. Там і про штучний інтелект, і про нейронні системи, і про технології майбутнього, і, звісно, про аналіз даних.