Июнь 10

Які проблеми постають перед сучасним ML, хто такий хороший Data Scientist і чи становить AI загрозу правам людини. Дискусія на DOU

Під час чергового DOU-live на YouTube ми говорили про Machine Learning, Artificial Intelligence, Data Science з Дмитром Сподарецем, Head of R&D в VITech, AWS Machine Learning ISV Competency Partner, Михайлом Константіновим, Senior Deep Learning Research Engineer в Squad, AI Researcher, Data Scientist, Machine Learning Specialist, та Володимиром Кириченком, CTO в Xenoss, tech scale consulting.

Пропонуємо тези розмови. Також ви можете переглянути повний відеозапис.

Над чим працює спеціаліст з ML, AI, Data Science

У чому полягає робота інженера з Machine Learning, Artificial Intelligence або Data Science? Як би ви пояснили своїй бабусі, чим займаєтеся? (02:14)

Михайло Константінов: Все мы знаем, для чего нужны калькуляторы. Они помогают считать какие-то величины, множить несколько тысяч на несколько тысяч, желательно с десятками, что мы не можем сделать в уме. Вуаля, и мы посчитали какие-то значения. К тому же сэкономили нервы и силы. Ведь если ошибиться, это может дорого стоить.

Машинное обучение — это такой же калькулятор, только для задач посложнее. Например, распознавать объекты, понимать, что на изображении находится, насколько безопасно сейчас переходить дорогу, поворачивать автомобиль, происходит ли что-то страшное или запрещенное, нужно ли реагировать на это и так далее.

Володимир Кириченко: ML і DS — це така галузь, що вчиться з навколишнього світу і може виконувати запрограмовані дії.

Дмитро Сподарець: Если говорить непосредственно о DS как о науке, то добавлю, что это помощь компаниям. Мы помогаем им находить точки роста, инсайды тех данных, которые они собирают.

Проблеми ML

Які проблеми ML вирішуються у сучасному світі? (6:56)

Михайло Константінов: Проблемы, которые решаются сейчас, сложные, их тяжело классифицировать. Современное машинное обучение уже ушло далеко в Deep Learning и решает множество вопросов, начиная от простых задач, анализа табличных данных, поиска закономерностей до понимания изображений и текста.

Мне кажется, что тот успех, который был сделан за последние года, показал, что мы можем решать задачи компьютерного зрения так же хорошо, как когда-то могли находить некоторые закономерности в табличных данных, помогать строить предсказания (например, купит клиент что-то или не купит). Развитие в этой области не прекратилось. Нейронные сети научились распознавать изображения собачек и котиков намного лучше, чем это делает человек.

В 2015 году мы перешли этот рубеж. Но рубеж остался в плане понимания текста. Например, в большом литературном произведении нужно выяснить, что хотел сказать автор, возможно, написать рецензию.

В последние годы мы видим тенденцию того, что многие алгоритмы, такие как трансформеры и прочие лингвистические модели, плотно взялись за понимание текстов, а это может быть полезно для множества областей. К примеру, у вас большая компания и вы хотите читать отзывы и отслеживать только негатив. Тогда у вас должна быть система сентимент-анализа, чтобы реагировать только на негативные отзывы и быстро спасать бизнес, если вдруг что-то пошло не так. Кроме этого, возможно, у вас есть какая-нибудь Ева, как у «Новой почты», и она не является суперагентом в поддержании диалога, но тоже неплохо распознает речь и пытается как-то вас вести. По крайней мере может помочь отследить посылку. Сейчас мы наблюдаем синтез этих моделей.

Если взять крутые решения 2021 года, то это объединение компьютерного зрения и лингвистических моделей. Мы с вами способны угадывать, где котики и собачки, читать литературные произведения, потому что у нас в голове есть разные зоны. Так и современные нейронные сети могут генерировать по тексту изображения. Или, наоборот, по изображению давать текстовые описания. И мы заметили, что старые подходы обычной классификации не так хорошо работают, как если бы мы их решали, синтезируя две нейронные сети для задач компьютерного зрения и лингвистики. Я бы сказал, что это синтез в компьютерном зрении и NLP и он дает что-то новое.

Володимир Кириченко: У DS багато інвестує Sony Music. Наприклад, не так давно з’явилась модель, яка називається «28 загублених пісень» чи щось таке. Це альбом синтезованої з допомогою людини музики. Але вона синтезувалась, навчаючись з невеликих даних, наприклад текстів і музики Nirnava (це ж не великий семпл). Але результат вийшов такий, що і текст схожий на те, що його міг написати 20-річний Кобейн, і музика така, що її міг зіграти 20-річний Кобейн. Заспівала це реальна людина, допомогла з аранжуванням синтезованих музики і тексту теж людина.

Насправді, 95% генерованого машиною — непридатне, але 5% — це Курт Кобейн, який ожив у цифровому вигляді. Скоро Sony Music буде економити на виконавцях.

Дмитро Сподарець: Появился большой список задач, связанных с тем, как работают модели в продакшене, как мы их мониторим. Соответственно, еще одно новое направление — MLOps набирает обороты. И без него не можем отследить, как наша модель работает и как ее улучшить.

Регулювання ML з боку ЄС

Як ви ставитесь до ідеї ЄС регулювати сферу машинного навчання? (12:03)

Довідка: Європейський Союз стурбований можливістю створення систем штучного інтелекту, які можуть ухвалювати рішення. Проблема в тому, що хоч ці системи і забезпечують високу ймовірність ухвалення правильних рішень, однак вони повністю цього не гарантують. В ЄС кажуть, що це може створювати ризики для прав людини (наприклад, право на недоторканність, особисте і сімейне життя), а також загрожувати її життю і здоров’ю.

У проєкті комісії запропонували підхід, що заснований на оціненні ризиків використання таких систем. Якщо рівень визнано найвищим, то його заборонено застосовувати. Також заборонено підраховувати голоси за допомогою штучного інтелекту, використовувати «підсвідомі» методи, біометричну ідентифікацію тощо.

Такі вимоги до систем штучного інтелекту з високим ризиком їхньої оцінки будуть актуальні і для українських розробників, якщо вони планують бути присутніми на ринку Євросоюзу.

Є багато противників регулювання, адже ці ризики можливо усунути. А якщо вводити його, то ЄС втратить конкурентоздатність, бо, наприклад у Китаї давно використовують машинне навчання. Йдеться також про те, що Європа може програти у «гонці озброєнь».

Що ви знаєте про цю ідею ЄС і як ставитесь до неї?

Володимир Кириченко: В одній фантастичній книзі було футуристичне суспільство, де не було конфіденційності. Там прочитав промовисту річ: «Заради комфорту люди відмовились від приватності». Чому це відбулося? Бо всі системи, які розробляються, дають певний ступінь комфорту. Подивімось навіть не на ML, а на те, що ми використовуємо: наприклад, кредитна картка. Користування нею означає, що банк знає, що ми купили, за скільки, які бренди носимо, як одягаємось, де живемо, де буваємо.

Питання в тому, а чи реально досягти рівня приватності, який був у світі до ML. Навряд чи. Інше питання: ми, як і на зорі будь-якого розвитку, перебуваємо в «дикій» фазі, коли генеруємо системи, навіть не задумуючись, як вони впливають на життя певних людей. А будь-яка помилка матиме наслідки. Поки вони незначні, це не важливо, а коли загине людина, це буде серйозно. Тому це регулювання — перший крок до розуміння, а що таке нові права людини у цифровому світі, що таке приватність, чим ми згодні пожертвувати тощо.

Конфіденційністю можна легко жертвувати заради безпеки, адже безпека більш пріоритетна. Ми ставимо камери на поверхах будинків, а це означає, що всі наші сусіди можуть побачити, хто до нас приходить, куди ми йдемо, коли виходимо. З іншого боку, якщо хтось отримає доступ до розпізнавання, до відео, до даних, то він може цим скористатись у злочинних цілях.

Тому це регулювання — це крок у правильному напрямку, бо збалансування, звісно, відбудеться.

Михайло Константінов: Проблема ИИ и его регулирования очень важная. Существует некоторый страх перед ИИ, это действительно феномен.

Нужно понимать, кто регулирует ИИ, а кто его создает. Предположим, вы приходите в магазин, а там установлена камера наблюдения с каким-то особенным ИИ, который все знает и все понимает на уровне охранника-человека. Система создана для того, чтобы обеспечить безопасность в магазине. С одной стороны, мне бы не хотелось, чтобы моя личная жизнь стала публичной. С другой, если за мной будут наблюдать алгоритмы и мои данные и информация будет только для них, я буду знать, как работают протоколы, и буду уверен, что они соблюдаются, возможно, буду спокойней. Ведь на меня и так смотрят люди, которые могут распускать слухи. А теперь на меня смотрит алгоритм, который принимает решения, но мне не страшно, потому что это бездушная машина. Какая мне разница, что она обо мне подумает.

Ринок ML в Україні

Що відбувається з ринком DS та ML в Україні сьогодні і чи правда, що 90% проєктів завершуються на етапі Proof of concept або demo? (21:48)

Дмитро Сподарець: Если посмотреть на DS и ML, ИИ — то это в основном рисерч-работы. Много проектов мы создаем, разрабатываем, но большая часть списывается из-за того, что или экономически не выгодна, или еще не пришло время. Есть много факторов, при которых мы должны отказаться от разработки, которую сделали, как и в любом исследовании.

Рынок растет. У нас не так много вакансий, как в других странах, но понемногу увеличивается. Наши сервисно/аутсорсинговые компании больше заточены на разработку, которая не связанна с анализом данных, и только сейчас начинают брать эти проекты. У нас нет большого количества вузов, которые готовят хороших специалистов, соответственно есть голод на самих разработчиков. Их становится больше, и это хорошо.

Володимир Кириченко: Дослідницькі проєкти — це трохи інший профіль. Це R&D-центр, наголос на букві D — Development. Наразі в Україні немає відомих центрів.

Дмитро Сподарець: Для того чтобы делать рисерч, нужны финансы, и у нас не все компании готовы инвестировать в неизвестное. И, скорее всего, это придется просто списать.

Михайло Константінов: Я не знаю, откуда эта статистика, но думаю, она вполне адекватная. Даже у компаний, которые позволяют себе PoC и дают возможность исследователям вкладывать время и ресурсы в задачи, которые могут «взлететь», а могут и не «взлететь», много чего «не взлетает». И это нормально. Не все мысли вы говорите вслух, и это делает вас умным человеком. Возможно, если бы вы говорили все, что думаете, то ни к чему хорошему это бы не привело.

Напрямки ML

Який напрям обрати початківцю, який планує піти в сферу ML, AI, DS. Що зараз більш затребувано в світі та на українському ринку? (30:48)

Михайло Константінов: Я не смогу ответить статистически, кого больше на рынке. Я лишь могу назвать нескольких игроков, а дальше немножко порассуждать.

У нас на рынке есть классные компании, которые занимаются Computer Vision, например SQUAD, Reface. Кроме того, существуют и NLP-решения, например Grammarly — это тоже наш продукт высочайшего уровня. Таких по миру не так много, и они сконцентрированы здесь, что не может не радовать.

Выбирая направление — классический DS, Computer Vision или NLP, следует понимать, что без знаний классического DS вы, конечно, можете пойти в Deep Learning, но не будете понимать границ применимости. Например, зачем нужны нейронные сети там, где можно справиться без них. Для того чтобы построить быстрое решение для NLP, возможно, хватит мешка слов или каких-то других алгоритмов и не нужно будет использовать BERT или GPT. То же самое и про компьютерное зрение.

В целом ответ такой: идя в эту область, изучите матчасть, Deep Learning, DS, необходимый стек для того, чтобы двигаться дальше. В процессе этого, скорее всего, вы уже поймете, что вам нравиться больше.

Так случилось, что компьютерное зрение чуть более популярно, потому что всегда прикольнее что-то визуализировать, создавать трехмерные маски, много чего можно придумать с генерацией изображений и дипфейками. С точки зрения приложений на это больше спроса.

Но двигаться только в направлении CV — это однобоко, потому что если вы посмотрите на лучшие модели, которые сейчас есть в компьютерном зрении, то удивитесь, но многие из них не работали бы без NLP. Когда-то были сверточные сети, которые распознавали изображения, сейчас мы для этого используем трансформеры, и многие из них тренируются вместе с другими NLP-моделями. Я советую двигаться не самому по этому «океану», а пытаться действовать в рамках либо учебного заведения, либо курсов, либо менторства, чтобы вы не потерялись и в конечном счете развивались быстрее.

Володимир Кириченко: Це мені чомусь нагадує інше питання, яке ставили одному лектору в інституті. «Якою математикою краще займатись в сучасному світі, що зараз модно?». Він відповів: «Займайтесь такою математикою, від якої вас пре».

Ми зараз говоримо про креативну і наукову діяльність. Це не те, що питати себе: «А ким мені краще працювати — водієм фури чи водієм автобуса? Де кращі умови?». Можливо, розпізнавання текстів вам «зайде», Sentiment extraction, аналіз сенсів тощо. А можливо, сподобаються візуали. Якщо ви на фазі вибору — пробуйте. Що «зайде» — те ваше.

Вища освіта та базис

Чи впливає наявність профільної вищої освіти на зарплату і кар’єру? Які мови програмування радите вивчати, на що звернути увагу в математиці, які розділи? (36:23)

Володимир Кириченко: Я мало бачив хороших Data Scientist’ів, які не мали математичної освіти. Data Engineer — це інша річ.

Що таке профільна освіта? Це методика отримання знань. Що таке курси в Coursera з Data Science? Це теж методика отримання знань. Базова профільна вища освіта вам допоможе стати Data Scientist, але на початковому рівні.

Михайло Константінов: Когда я писал на DOU статью «С чего стоит начинать изучение и движение в Data Science и машинном обучении», еще там говорил, что сперва нужно понять, что интересует человека и чего он в этой области хочет. Возможно, это не совсем Data Science.

Я абсолютно согласен, что математический бэкграунд только приветствуется. Та математика, которая нужна для старта, простая. Брать градиенты, частные производные, умножать матрицы на векторы — это легко. С должным подходом к образованию можно понять некоторые моменты посложнее. Поэтому я бы не сказал, что тут надо зарываться в «глубинные» разделы математики. Это лишним не будет, ни в коем случае не отговариваю вас от этого, но вам с головой хватит алгебры, начала анализа, статистики, теории вероятности, базовой комбинаторики и линейной алгебры.

По языкам программирования. За Data Science я говорить не буду, его можно реализовывать на чем угодно — матлаб, R, Python, Java. Пишите, на чем удобнее, в зависимости от задачи. Cейчас существует большое количество фреймворков, которые переведены на другие языки, и начать свой путь можна почти на чем угодно.

Про курсы. Постарайтесь посмотреть какие-то уроки, фидбэки, возможно, есть какие-то лекции, доступные онлайн. Потому что люди разные, и для каждого человека важен разный подход к образованию. Многим хватает университетской программы, а потом сами занимаются. Я, например, сам учился и собирал эти крупицы знаний, сам их комбинировал, хотя, возможно, это более медленный подход.

Дмитро Сподарець: Если говорить про зарплату, то в Украине наличие PhD не будет влиять на нее. За границей это немножко влияет, но все-таки больше бонусов к зарплате дает наличие хороших публикаций и выступлений на топовых конференциях. Но, чтобы на них попасть, вы должны делать серьезные исследования. Это и есть подтверждение вашей квалификации.

Ресурси для вивчення Data Science

Ваш топ курсів у Data Science? Книги, ресурси? (59:26)

Михайло Константінов: Если готовы начать в классическом ключе, советую курс по ML от Andrew Ng на Coursera. Но он на октаве, на матлабе, а это те языки, на которых, скорее всего, вы не будете писать. Но фундаментально, если хотите получить базовые знания ML, это просто лучшее.

Есть открытые ютуб-лекции стэнфордского курса по компьютерному зрению, известный курс по сверточным нейронным сетям. Он еще и фундаментальный по Deep Learning.

Рассмотрите локальные варианты. В школе Projector есть открытые курсы на ютубе.

Дмитро Сподарець: Я к этому списку добавлю курсы от Open Data Science по ML, нейронным сетям и Deep Learning. Там есть чат в Slack, и во время обучения можно общаться и совместно выполнять проекты, искать ответы на вопросы, обсуждать.

Володимир Кириченко: Є такий Андрій Бурков, який займається ML. Він видав дві книжки: The Hundred-Page Machine Learning Book і Machine Learning Engineering. Вони не замінюють курс з певної теми, але можуть бути корисні як додатковий матеріал.

Практичний досвід і портфоліо

Більшість вакансій вимагає практичний досвід. Як напрацювати портфоліо? (42:32)

Дмитро Сподарець: Наверное, самый простой вариант — это Kaggle.

Володимир Кириченко: Треба розуміти: ти джуніор, тобі треба шукати проєкт, в якому беруть новачків. Це означає, що там будуть сеньори, які зможуть навчити. Для практики у DS, окрім Kaggle і профільних ресурсів, де можна позмагатися і щось спробувати, особливих рецептів немає. Приєднуєшся до проєкту, де є велика команда дослідників, і здобуваєш досвід.

Михайло Константінов: Существуют такие образовательные программы, которые могут дать базу и сэкономить вам время. Советую интегрироваться в комьюнити.

Пошук ментора

Де шукати ментора з Data Science початківцю-світчеру? (46:24)

Дмитро Сподарець: В Украине нескольно таких комьюнити. Одно из самых активных — datascience.ua, которое организовывает конференции, разные тусовки в Киеве. Если говорить про СНГ, то это Open Data Science сообщество, в котором сейчас больше 45 тыс. человек. Здесь же есть и учебные программы, и разные пет-проекты, куда можно подключится и набраться опыта. Оно самое близкое и крупное.

Михайло Константінов: Есть прекрасный чатик Kyiv Data Science. Не обещаю, что найдете в нем ментора, но там ведется оживленная беседа. Ну и в целом ребята собираются, общаются и что-то делают.

Володимир Кириченко: Додам, що ключова річ — це комунікація. Ви чимось займаєтесь, у вас є питання, на які хтось відповість. Вас скорегують, якщо це комусь цікаво: люди контактні, вони будуть з вами взаємодіяти, якщо ви з ними взаємодієте. Тому інтегруйтеся в ком’юніті.

Бекграунд для перекваліфікації

Який бекграунд повинен бути у розробника, щоб перекваліфікуватися у ML-спеціаліста, Data Scientist або Data Engineer? (48:08)

Володимир Кириченко: Бажано мати технічний бекграунд. Усе впирається в те, чи йому це цікаво і чи він готовий заповнити прогалини в досвіді та освіті.

Дмитро Сподарець: В зависимости от направления, иногда нужен хороший бекграунд именно в этой области, для которой решаются задачи. Важна и доменная область.

Володимир Кириченко: Я можу сказати з погляду людини, яка наймає Scientist’ів для різних проєктів. Мати профіль на Kaggle — це добре, при чому не обов’язково він має бути топовий. Відсутність профілю не вирок, бо люди різні, їм може бути нецікаво тренуватися, водночас вони є гарними спеціалістами. Важливо, що тобі сфера цікава.

Де компаніям шукати ML-спеціалістів

Де радите компаніям шукати ML-спеціалістів? Деякі компанії активно пропонують перепрофільовуватись розробникам у Data Scientists. Багато хто організовує стажування, курси тощо. Нині є два найпопулярніші варіанти: або виховувати спеціаліста з нуля, перепрофільовувати розробника, або наймати зовні. Який, з вашого досвіду, найпростіший, найефективніший спосіб пошуку ML-спеціалістів? (53:15)

Володимир Кириченко: Перепрофільовувати та вчити — це більш стратегічні інвестиції будь-якої компанії, бо це не відбудеться зразу, а на проєкти зазвичай потрібна людина вже.

Михайло Константінов: Если ваша компания достаточно популярна, найти ML-специалистов не сложно, они сами вас найдут и попытаются проникнуть и стать частью вас.

Но где искать специалистов? Сейчас огромное количество студентов, которые выпускаются с курсов, в джунах проблемы нет. Но тяжело найти сеньоров.

Как один из возможных вариантов — не пропускайте ML-конференции. Особенно живые и хорошие, там найдете людей, тоже живых и хороших.

Спілкування з бізнесом

Як ви відповідаєте бізнесу на питання, яку точність і за який час ви зможете досягти? Розмиті відповіді їх не влаштовують. (1:15:20)

Дмитро Сподарець: Если говорить про аутсорсинг, то мы смотрим на те точности, которые есть для похожего кейса, и показываем клиенту. Идеальный вариант — в районе 90%. Более 90% мы можем перепрыгнуть, но это будет проект по финансированию уровня Google или постройки команды такого плана.

Соответственно, смотрим на те данные, которые есть, создаем прототип модели, показываем, какую точность можем выдать, и дальше смотрим, как дойти до актуальной точности для бизнеса.

Володимир Кириченко: Треба дивитись, чи є у вас point of reference, чи є попередній досвід використання таких завдань. Якщо стикаєтеся із завданням, де немає точки, на яку можна спертися, то тут взаємодія з клієнтом має будуватися на розумінні, що це — дослідження, у нас нема point of reference щодо цього підходу і обробки даних, тому дані треба аналізувати.

Підрядник звертає увагу на результати, але дані на вході теж мають відповідати критеріям якості. Якщо ми впевнені, що так і є, ві, то можемо говорити про певні метрики з клієнтом. Якщо ж маємо невідомі дані та характеристики і клієнт не гарантує їхню якість, то це перехід у сферу дослідження проєктів, а такі проєкти можуть скінчитися відповіддю «Не працює/неможливо». Тому тут потрібно комунікувати.

Я розумію, що питання про те, як говорити з клієнтом, який вимагає певної точності. Але домовлятися з клієнтом дуже небезпечно, якщо він не гарантує якість вхідних даних, а у вас немає point of reference схожих проєктів.

Михайло Константінов: Если мы выбираем какое-то решение, конечно, не нужно лезть вглубь алгоритма. Но было бы хорошо на этапе PoC подготовить быстрое решение, на которое вашей команде не нужно тратить много сил. И показать клиенту, каких результатов можно достигнуть вот так вот в лоб. ужно рассказать, что есть метрики, которые будем использовать для оценки, и проговорить их.

Хто замовник?

Який типовий замовник для компанії, яка займається Data Science, чи замовляє послуги малий та середній бізнес? (51:01)

Володимир Кириченко: Типовий замовник — розвинений бізнес, в якому є дані і який намагається використати їх. Наприклад, дослідження щодо ідей, які вже згенеровані. Буває таке, що люди вибили бюджет під модний Data Science у своєму великому офісі й думають на рівні «що ми можемо з цими грошима», «як можна забенефітити — пропонуйте ідеї», але це рідко трапляється.

У стартапах це зазвичай так: або вони взагалі побудовані навколо задуму, в основі якого Data Science, або це компанії, в яких є елементи Data Science.

Взаємодія з клієнтами

Який відсоток часу у вашій роботі ви приділяєте спілкуванню з колегами і клієнтами? (1:06:15)

Дмитро Сподарець: У меня это практически основная работа. Я Head of R&D и работаю с командой, решаю вопросы или взаимодействую с клиентами совместно с маркетингом и продажами.

Михайло Константінов: Я работаю в продуктовой компании. И я совершенно не взаимодействую с клиентами. Когда я работал в аутсорсинговой компании, взаимодействовал.

Я больше расскажу про коммуникацию внутри команды. Тут все очень интересно, потому что команды бывают разные. Сейчас мои коллеги — это сильные ребята, мне не нужно их менторить. Мы как команда находимся на таком уровне, что я могу делегировать какие-то задачи и быть уверенным, что решения коллег будут ориентированными на продукт.

Оцінення впливу ML на проєкт

Як ви оцінюєте вплив ML на revenue проєкту? (1:11:03)

Володимир Кириченко: У нас є певні напрями, в яких результати роботи Data Science, Machine Learning і предиктивних моделей прямо транслюються в фінансові показники бізнесу. Залежно від моделі, буде різна середня ціна.

Михайло Константінов: Как-то на одной лекции Александр Обедников рассказывал про то, как руководить большой компанией, где много ML. На одном из его слайдов, который мне понравился, был маленький черный ящик, а вокруг очень много оберток вокруг этого ML. Если брать процентное соотношение, то для сервиса/продукта ML это важно.

Возьмем абстрактную компанию, которая занимается тем, что изменяет вас на фотографии до неузнаваемости, например. Там ML — это ядро, Deep Learning-алгоритм, который делает трансфер вас в другой пол, другой возраст. Можете тюнить себя, как в игре Sims, увеличивать глаза и нос при помощи ML. Но вам еще нужно мобильное приложение и база данных. Стоит понимать, что ML-решение часто ничем не отличается от инженерного решения бэкенда, по факту у вас бэкбэкенд. Есть маленький пакетик, вы делаете, чтобы он хорошо работал, а дальше огромное количество людей в другой компании занимается тем, чтобы этот пакетик приносил людям радость.

Дмитро Сподарець: Сама модель не живет, вокруг нее много всего. Поэтому не факт, что сама модель даст серьёзный вклад в ревенью.

Хто такий хороший Data Scientist

Що ви вкладаєте у поняття хорошого Data Scientist? Що він повинен знати та вміти? Що його відрізняє від дилетанта? (1:23:13)

Володимир Кириченко: На практиці я стикався з тим, що є PhD з Data Science, але вони, поки не зіткнулися з реальними проєктами, живуть у світі ідеальних умов. Ідеальні дані на вході, які можна проаналізувати, кореляції, які завжди мають практичні результати. Наприклад, колись я був у Data Science клубі у Ванкувері, в Канаді, і PhD просто гралися зі статистикою погоди. Намагалися щось передбачати на основі цього. Ці дані абсолютно об’єктивні, репрезентативні за багато років, і результати можуть мати теоретичну і практичну цінність. У цьому й проблема, бо на практиці, в реальних проєктах, такого не буває. Зазвичай дані погано репрезентативні, розбалансовані за класами, сама модель в окремому її використанні не працює, їй потрібні інтеграції. Хороший Data Scientist усе це розуміє.

Я бачив людей, які мають теоретичну кваліфікацію у Data Science і кажуть, що для того, щоб вирішити певне завдання, треба такі ось методи. І вони всі правильні, підхід класичний. Єдина проблема: він теоретичний і заснований на умовах ідеального світу, на практиці такого не буде.

Боротьба з вигоранням

Непросто битись головою об стіну, вирішуючи нетривіальні задачі, особливо за умови, що далі Proof of concept рішення не піде. Як ви боретесь з вигоранням і нестачею мотивації? (26:22)

Володимир Кириченко: Якщо вигоряння відбувається тому, що ви займаєтесь тим, чим вам займатися не цікаво, то не треба цим займатися, якщо є така можливість.

Також тут питання до правильно організованих проєктів. У проєкті з незрозуміло поставленими цілями щоденна рутина призводить до неприємних психологічних результатів, це ми називаємо вигоранням. Проєктів з DS багато, їх закінчують або Proof of concept, або підтвердженням, що концепт не буде працювати. Якщо ми візьмемо будь-яких вчених у будь-якій галузі науки, то вони займаються схожою роботою все своє життя. Вони беруть ідею, обробляють її, але вона може не спрацювати, і це нормально.

Коли працюємо у сфері DS, то маємо розуміти, що, якщо у нас дослідницький проєкт, то наша мета — спробувати щось зробити. Вчасно дійти висновку, що це працювати не буде, — теж успіх.

Тому правильна організація проєкту, розуміння цілей і зацікавлення — рецепт від вигоряння.

Дмитро Сподарець: Наше направление — это постоянные исследования и эксперименты. Если вы не готовы к неудачам, длинному пути, возможности остановить проект, если он не идет, то вам не сюда, вы здесь долго не сможете работать.

Михайло Константінов: На самом деле, жениться на своих проектах плохо, особенно в этой области. Дело даже касается не аутсорсинга, а больше продуктовых компаний.

Если понимать, что в нашей сфере негативный результат — это тоже результат, то это отлично. Несколько лет назад я пробовал одну идею и сильно расстроился, потому что она ни к чему не привела. Я пробовал еще и еще, но результата не было. В один момент осознал, что теперь знаю, что вот это вот не работает в этой области, это применить нельзя. И пока еще не выгорел.

Майбутнє ML

Чи варто переживати програмістам і тестувальникам, що їх замінить штучний інтелект у найближчі 5–10 років? (1:39:55)

Дмитро Сподарець: Через пять лет все может быть, потому что штучный интеллект уже умеет делать верстку, код тоже пытается писать. Музыку создает, картины рисует. В ближайшее время АІ будет становиться все ближе и ближе к людям и будет внедряться в большее количество областей, автоматизируя и улучшая наше качество жизни.

Володимир Кириченко: Сьогодні для нас стає більш доступним використання того, що було задорого ще рік тому. У перспективі проєктів буде все більше, дані будуть використовуватися частіше, сервісів, які працюють з Computer Vision синтезом, буде більше, бо ми розвиваємось, «залізо» також. Теоретичні моделі стають практично доступними.

Михайло Константінов: Отвечая на вопрос про 5 лет, я дам три ответа.

Первый будет для бабушки. Если б я бабушке хотел объяснить, где будет ML через 5 лет, то сказал бы: «Он будет везде, и ты, бабушка, перестанешь удивляться, и даже тебе это будет интересно. Ты возьмешь свой айфон, он распознает твое лицо, и ты будешь говорить голосом Алексе „сделай мне чай“. И она сделает тебе чай».

То, что я говорил бы бизнесу: «Благодаря всяким сервисам вам не нужно будет тратить много денег на ML-специалистов, потому что решения будут готовые и вам нужно будет просто воспользоваться конкретным сервисом».

Программисту, какому-нибудь DevOps, не надо будет что-то объяснять, он разберется с интерфейсом и воспользуется решением. Мне кажется, что будут готовые решения, типа ML под ключ, для большинства задач компьютерного зрения и для NLP. Исследования будут продолжаться, но для большинства задач бизнеса все будет решено, и это будет дешево, станет обычным технологическим стеком.

Для ресечеров, ребят, которым интересно заниматься машинным обучением: «Мы не будем удивляться zero-shot, и это то, что я называю обучением без обучения, когда для решения задач нам нужно 0 данных». Если мне нужно будет написать классификатор, к примеру человека, идущего по улице с лопатой, или человека, идущего по улице без лопаты, в каске или без каски, то это у меня займет несколько минут. И мне для этого нужно будет 0 данных. Через 5 лет это станет настолько обыденным во многих областях, и не только в компьютерном зрении и NLP, что, возможно, это приведет нас к новому скачку.