Senior Data Scientist із Лондона – про ринок Британії та майбутнє великих даних

Дмитро Карамшук — Senior Data Scientist в Skyscanner. Ще навчаючись на магістратурі в КПІ, він разом з двома одногрупниками вирішив підзаробити. Так народився стартап Stanfy з річним оборотом близько $500 000. Попри перспективну роботу й хороші гроші, Дмитро покинув програмування та бізнес і зайнявся наукою. За шість років він здобув PhD в Інституті IMT Lucca в Італії, працював науковим співробітником Королівського коледжу Лондона, виступав на TEDx та зовсім скоро приїде до Києва на Kyiv Data Spring. В інтерв’ю для DOU Дмитро розповів про дірявий ринок Data Science в Британії, чому Київ не Лондон та що великі дані зроблять з нами в майбутньому.

— Ваш перший досвід у стартапах — Stanfy з 2005 по 2010 роки. Вашій команді вдалося вирости зі студентського проекту в повноцінну компанію з двадцятьма співробітниками. З чого все почалося?

Проект починався просто як лабораторна робота в КПІ. Нас було троє одногрупників — Олександр Тищенко, Павло Башмаков та я — ми вчилися на магістратурі. В той час мейнстримними були розподілені системи, Java й усе навколо цього. Якось ми сиділи в лабораторії з професором та виконували навчальні роботи. В голову прийшла думка — чому б на лабораторній не заробити гроші?

Тоді я грав в гурті HeartBlanch на бас-гітарі. Пам’ятаю, слухав «Heart of Steel», хеві-метал групи Manowar. Мені в голові засіла фраза з пісні «stand and fight». Я почав нею крутити й вийшло — Stanfy.

Ми зробили сайт, на якому всі курсові та інші роботи в університеті оформили як своє портфоліо. Дуже розумною мовою розповідали про ERP системи, distributed systems та інше. І воно пішло. Ми вирішили сконцентруватись на розробці додатків для iOS, шукаючи клієнтів як закордоном, так і серед знайомих в Україні. Набридали студентам, що теж приходили до лабораторії, бо постійно пропонували їм попрацювати з нами. Ми почали розростатись, і на нас почали з підозрою зиркати, мовляв, чим ви тут займаєтесь. Домовитись з університетом не вийшло, ми вирішили піти, зняли офіс й організували компанію. Одночасно писали замовникам код, шукали приміщення для роботи й працювали над магістерськими. Це був інтенсивний період.

Якби таке відбувалося в Лондоні, мабуть, місцевий університет намагався б нас підтримати, виділили б фінансову допомогу, посадили б в інкубатор. У певний момент ми брали кредити у друзів, але не більше. Інвестиції не залучали. Ми отримували прибуток фактично з перших місяців. Пам’ятаю, ми себе почували добре в фінансовому плані.

— Скільки вам заплатили за перший проект?

Близько $100. Ми тоді були неймовірно щасливі.

— Як виглядала ваша робота в той час?

Мені було десь двадцять один рік. Для зустрічей з клієнтами я завжди приписував собі кілька років, аби до мене ставились більш серйозно. Ми були маленькою аутсорсинговою компанією, яка сиділа на знятій квартирі й мала лише сайт в Інтернеті, а її клієнти десь дуже далеко. Сидиш в ізоляції, й про тебе ніхто не знає. З часом ми почали розуміти, що не єдині такі. Якби ми пройшлись по квартирах нашого будинку, впевнений, знайшлось би ще кілька таких контор.

Якось Павло Башмаков сказав, що треба жити навпаки: виходити з ізоляції, говорити про себе, знаходити такі ж команди з такими ж проблемами й обмінюватись досвідом. У той час почали з’являтись BarCamp’и, які позиціювали себе «не конференціями». Там не було чіткого порядку денного, лише декілька спікерів, а все інше формується на льоту, вписуючись на спеціальну дошку. Люди писали теми, якими б хотіли поділитись. Багато успішних стартаперів пройшли через ці «не конференції». З’явилося відчуття, що всі почали вилазити зі своїх печер, зауважувати один одного. Тоді зароджувалася стартап-тусовка.

— Чому ви пішли зі Stanfy?

Ідея отримати PhD у мене була ще до стартапу. Спочатку була думка зробити це паралельно з роботою, але мене відмовили знайомі. Мені ще не було 25 років, і я вже перейшов з розряду «хакати» системи до business development. У певний момент я втратив інтерес до своєї роботи. Хотілося в цьому житті ще спробувати зробити щось своїми руками.

Я почав дивитися, що у світі є цікавого й чим люди займаються. Вирішив зайнятись наукою. Але тоді було дуже складно зрозуміти, як це відбувається — яку тему обрати, як визначитися із закордонним університетом, як податись на програму. Щось в Інтернеті підчитаєш, але нічого конкретного. Бувало, що знаходив невеликі зустрічі людей, такі собі мітапи, де всі ділились досвідом. Щоб розібратися в усьому, знадобилося близько півроку. Зараз це значно відкритіше, адже існує багато інформації у вільному доступі щодо різних освітніх програм, шкіл, конференцій. Можна швидко сформувати розуміння й дізнатися, чим є наука, як вона робиться, спробувати її.

— По суті, ви закінчили університет й кинули роботу з доброю зарплатнею, яку створили самі з нуля, заради того, щоб поїхати вчитися?

Це дивно звучить, але схоже на це. Я продав свою частку в компанії та вийшов з бізнесу. В Інституті IMT Lucca в Італії у мене була стипендія 1000 євро. Це суттєво менше від заробітку в Stanfy, особливо враховуючи різницю у вартості проживання в Україні й Італії. Але я зовсім не шкодую.

— Чим ви керувалися, коли приймали таке рішення?

Я займався бізнесом, але відчував, що це можна зробити пізніше. Хотів спробувати себе як individual contributor. Звісно, було багато сумнівів. Можливо, на мене дещо вплинула література. У той час читав Гемінґвея. Його тексти спонукали подорожувати й щось змінювати.

Але одна справа просто переїхати в країну й залишитись там приїжджим, туристом. Інша — соціалізація. На мою думку, навчання в університеті — найкращий спосіб інтегруватися в суспільство. Адже це місце, де всі такі, як ти. Зазвичай, це невеличке студмістечко, де всі живуть в одному колегіумі й ні в кого немає іншого життя. Тому ви постійно проводите час разом. Різко збільшуються соціальна комунікація, й ці контакти згодом тобі допомагають. У моєму університеті італійців було менше третини. Пригадую, моя дружина теж поїхала здобувати PhD, але в Мілан. Там більшість студентів були місцеві. Її соціальний досвід був абсолютно інакший.

Після двох років в Італії я поїхав до Кембриджу як visiting researcher. Роботу науковим співробітником (research scientist) у Королівському коледжі Лондона я отримав після захисту диплома. На мій погляд, у Британії рівень наукових досліджень, розвитку науки, спонсорування цієї сфери був значно вищий, ніж в Італії. Тому після Кембриджу я собі поставив мету шукати позиції саме там.

— Швидко знайшли роботу?

Це було досить довго й складно, адже я півроку подавався на всі вакансії, які знаходив. Насправді, коли дізнався, що мене вибрали, я не очікував на такий результат. У цей час я також проходив інтерв’ю в компаніях, але вирішив, що варто погодитись саме на наукову роботу.

— Чим саме ви займались у Королівському коледжі?

Я працював над кількома проектами. Зазвичай на них виділяється грант. Тобто кожні рік-два ти маєш знаходити наступний грант. Це доволі складний стиль життя. Я працював з ВВС на сервісі iPlayer. Це як Netflix, але британський. Десь половина населення користується ним. Я займався аналізом даних платформи та її оптимізацією.

— Що у вас асоціюється з тим часом?

Завжди в науці твій основний результат — пейпер, який ти, після того як напишеш, подаєш на конференції. Престижна конференція — це серйозний конкурс з можливістю бути відібраним на неї не більше 15-20%. Швидше за все спочатку вам відмовлять. Але ви покращуєте свою роботу й надсилаєте знову. На це все іноді йдуть роки. Коли ви працюєте на новому проекті рік-півтора і вас нарешті зарахували на хорошу конференцію — це один з найкращих моментів. У той час я працював над двома статтями, й обидві схвалили.

— Як би ви описали ринок Data Science в Британії?

Ринок дуже швидко трансформується. П’ять років тому, коли я лише приїхав сюди, ситуація була зовсім інакшою. Більшість Data Scientists були вчені, які працювали в наукових організаціях. Ринок їх переманював на цікаві проекти та більші зарплати. Була тенденція, коли компанії шукали саме PhD в університетах з комп’ютерних наук чи фізики й робили їм пропозиції, від яких важко відмовитись. Це також була можливість попрацювати з реальними користувачами та даними. Зрештою так відбулось і зі мною у 2016 році — мене переманив Skyscanner.

Компанії конкурували між собою. Нерідко вони вважали, мовляв, треба наслідувати інших, інакше ми підемо з ринку. Але існував дефіцит кадрів. Коли в університетах це зрозуміли, почали латати цю дірку. Створили Data Science програми, щоб генерувати потік кадрів, який поступово насичує ринок.

Дослідники Королівського коледжу Лондона (King’s College London)

— Насичує досі?

Щоб був результат від цих програм, потрібно кілька років. Ситуація зміниться, проте зараз досі суттєво відчувається нестача працівників. Разом з цим не раз бувало, що компанії набирали Data Scientists лише тому, що це круто, проте зовсім не розуміли, навіщо їм потрібні такі спеціалісти. Тобто на хвилі мейнстриму. Буває, ще не сформована культура в середині компанії, яким чином ця команда науковців даних має співпрацювати з рештою відділів. Створення цієї внутрішньої культури й інтеграція науки даних у процеси кожної компанії — дуже складна проблема.

— Як інтегрувати науковців у середину інженерної компанії?

Є дуже багато підходів. Перший підхід — науковці працюють разом з інженерною командою й намагаються разом щось зробити. Другий — науковці сидять і працюють самі по собі, але виникає питання, яким чином узгодити з командою інженерів те, що вони напрацювали. Є гібридні підходи. Але найголовніше — єдиної формули не існує. Ми в Skyscanner разом з іншими компаніями пишемо блоги про те, що в нас працює, а що ні. Усі доволі відкриті в цьому плані й намагаються обмінюватися досвідом.

— Що думаєте про спільноту Data Science в Лондоні?

Вона дуже молода. Коли я лише переїхав до Лондона, були дуже популярними мітапи. Достатньо було створити подію з назвою Data Science, розмістити на meetup.com, і ти одразу отримуєш 100-200 відвідувачів. Але відвідавши 3-4 події, ти зауважуєш, що це, по суті, одні й ті самі обличчя. Усе це була одна тусовка. З того часу спільнота значно виросла, з’явилося багато цікавих конференцій та інших подій, наприклад, PyData, Re-work, Strata.

Також це все досі сильно пов’язане з університетами, в яких Data Science — частина екосистеми, у той час, як в Україні такі магістерські програми швидше виключення, як наприклад MSc in Data Science в УКУ. А ще важливо, щоб науковці, залишалися працювати в університетах після здобуття звання магістра. Data Science у компаніях — це можливість фокусуватися на задачах, які потрібно вирішити бізнесу сьогодні. Науковці ж в університетах (PhD програми та postdoctoral researchers) повинні займатися стратегічними дослідженнями, які знадобляться і бізнесу, і суспільству з перспективою в п’ять або більше років. Наприклад, тема, якою над якою я працював після ВВС, — вплив Твіттера на суспільну думку під час політичних подій. Це задачі, вирішення яких дадуть дуже серйозну перевагу країні в перспективі, але навряд чи принесуть швидкий комерційний результат. Досліджень цього рівня в Україні, на мою думку, майже не існує. Це і є одна з основних відмінностей між Британією і Україною.

— Якого висновку ви дійшли в дослідженні про Твіттер?

Я з товаришем, який зараз працює у Facebook, аналізував українські та російські новини у Твіттері під час подій на Майдані в 2013-2014 роках. Ми також почали збирати дані з різних агрегаторів новин. Ми аналізували тексти й хотіли зрозуміти, чи можна спрогнозувати, ким була написання стаття — прокремлівськими медіа, російською опозицією, українськими російськомовними ЗМІ.

У «International Encyclopedia of Propaganda» (Cole, R. (Ed.), 1998) описано кілька десятків видів пропаганди, способів маніпулювання суспільною думкою та інші психологічні прийоми. Наприклад, якщо ти хочеш демонізувати свого умовного ворога, то можеш не казати прямо, що певна людина погана. Але якщо ти використовуєш її ім’я в статтях з негативним контекстом, тоді на підсвідомому рівні люди починають негативно сприймати цю людину. Нашим глобальним завданням було спробувати перекласти ці абстрактні методи на математичні формули. Наприклад, ти можеш взяти проаналізувати шматок тексту й згодом сказати, мовляв, ось індикатори пропаганди. Ми показали, що можливо навчити machine learning алгоритму, який по шматку тексту зможе визначити його походження з доволі високою точністю.

— У році 2013 році ви виступали на TEDx з темою «Підкорюємо матрицю, або Як побудувати інтелектуальне місто». Як ви туди потрапили?

Я закінчував PhD й шукав форуми для поширення свого досвіду й тих результатів, які отримав у ході своїх досліджень. Дещо я публікував у журналі «New Scientist» та інших медіа. Мені хотілось також зібрати фідбек й зрозуміти, чи це цікаво. TEDx — це була моя ініціатива. Я запропонував своє дослідження щодо аналізу соціальних медій для урбаністичних цілей. Після довгих роздумів організатори схвалили мою кандидатуру. Це був надзвичайно корисний досвід. Особливо цікавою була підготовка, адже організатори добре працюють зі спікерами, аби їхній посил був якомога зрозумілішим, простішим й справді цікавим.

Дмитро з колегами зі Skyscanner у Флейні, Франція

— Як великі дані здатні змінити майбутнє нашого суспільства? Спробуйте змоделювати хороший та поганий сценарії.

Зараз є дуже яскравий приклад з Cambridge Analytica й Фейсбуком. Це приклад, який лиш вивів на поверхню цю проблему. А тепер спробуйте уявити, скільки всього не виходить на поверхню. Стає лячно, хоча б з точки зору приватності.

Поганий сценарій змоделювати легше, бо, можливо, про нього більше пишуть. Захакані вибори в Британії, зафейкані вибори в США, Росії та все інше. Нещодавно прочитав «Людина розумна. Історія людства від минулого до майбутнього» Ювала Ноя Харарі з Єрусалимсього університету. Кілька років тому він написав продовження — «Homo Deus: Коротка історія завтрашнього дня», де міркує про те, як люди будуть розвиватися в майбутньому, якщо еволюціонують як вид. Люди поступово почнуть більше довіряти технічним речам, ніж власному розуму.

Він наводить приклад, що в діагностиці ракових захворювань алгоритми роблять меншу похибку, ніж консиліум найкращих спеціалістів у цій сфері. Це означає, що поступово ми навіть не зауважимо, як все більше довірятимемо своє життя алгоритмам. Але це відбудеться не в одну мить. Дещо частково вже існує. Алгоритми визначатимуть, наприклад, куди тобі краще поїхати. Ми довіряємо алгоритмам, які показують нам інформацію в новинній стрічці на Facebook.

Тепер згадаємо результати президентських виборів у США. Багато інтелектуалів кажуть, мовляв, демократія зламалась, не працює, бо люди приймають безсенсові нераціональні рішення. Можливо, значно раціональніше буде робити вибори за допомогою алгоритмів, адже людей можна закидати фейками, популізмом, від чого вони діятимуть так, як потрібно маніпулятору. Алгоритми могли б об’єктивно оцінювати кандидатів за їхнім попереднім досвідом, і таким чином відбувались би вибори. Звісно, це не відбудеться завтра. Для цього необхідно багато випробувань.

Врешті-решт суспільство сильно залежатиме від алгоритмів. У такому суспільстві будуть інакші ризики. Наприклад, можна хакнути систему й маніпулювати цими алгоритмами. Домінуюча філософія в розвиненому світі базується на людині як найбільшій цінності, у якої є індивідуальність, власні судження, право голосу та інше. Коли наприклад, людина на 90% залежатиме від алгоритмів, тобто буде кіборгом, виникне питання, чи може вона мати всі ці права й називається людиною. Стандарти нашого уявлення про світ, людей у цьому світі та їхні права, потрібно буде переглянути. До яких катастроф та висновків це може призвести — невідомо. Але в основі цього закладені великі дані, що керуються алгоритмами.

— Чим життя в Лондоні відрізняється від життя в Києві?

Як у моїй індустрії, так і в культурному плані Лондон — одне з головних міст на планеті. Це одна з основних причин, чому я хотів переїхати саме сюди. За моїми спостереженнями, британці в Лондоні майже не живуть, вони частіше поселяються за містом і на роботу добираються на швидкісних поїздах, які дуже розвинуті.

Це місто без обмежень. Наш мер — з пакистанської сім’ї, дуже підтримує ЛГБТ спільноту. Якщо вулицею ітиме панк, навіть ніхто не зверне уваги. Це також надзвичайно комфортне місце для проживання експатів. Тут усі говорять з різними акцентами й виглядають інакше, мають різні релігійні переконання й різну сексуальну орієнтацію. Мені це дуже подобається. Якось, працюючи в лабораторії в Королівському коледжі, з десяти людей я був єдиним європейцем.

Я виріс у Києві. Там такої різноманітності культур майже не бачив, а вона розширює твоє уявлення про те, яким є світ, а також дає розуміння, що є дуже багато речей, про які ти не здогадувався. Один з найбільших мінусів у Лондоні — шалено високі ціни на нерухомість та великі витрати на проживання.

Дмитро зустрів колегу з Beijing Institute of Technology, Велика китайська стіна

Цікаво, що куди б я не поїхав у світі, всюди можна знати знайомих знайомих. Якось я приїхав до дружини в Індію, де вона займалася йогою в місті Майсур. Там я дізнався, що в мого колишнього наукового керівника є знайома в цьому місті. Ця жінка виявилася директоркою місцевої бізнес-школи. Таке само було в Китаї. У цих випадках ви одразу налагоджуєте контакт, вам, наприклад, можуть порадити екскурсію містом, відвідати вартісні місцеві заклади харчування, складуть хорошу компанію та розкажуть багато цікавого. До речі, Індія — єдина країна, де я вижив на вегетаріанський їжі і де мене вразило ставлення до природи. Є люди, які можуть, наприклад, поклонятись дуплу з гадюками, приносити туди квіти. В українському селі скоріш за все затовкли б ту змію. Мені здається, усього цього дуже не вистачає Україні.

Похожие статьи:
Получи полный набор знаний и умений для работы программистом на C#.NET. СТРУКТУРА КУРСА Теория — 68 часовПрактика — 67 часовКарьера —...
Оператор Tele2 вчера, 22 октября, открыл продажи в Московском регионе. По состоянию на 16:00 более 10 000 жителей столицы и области приобрели и...
Всем привет! Меня зовут Виктор, и я работаю менеджером проектов в компании Cogniance. Делюсь дюжиной интересных материалов...
Китайский регулятор TENAA опубликовал сведения об очередном не представленном официально смартфоне. Модель Vivo X6S...
Обычно я, как и остальные, перехожу на новую версию явы лишь через полгода-год после релиза. Но в этот раз,...
Яндекс.Метрика