Kyivstar Tech шукає спеціалістів для команди, що розробляє українську LLM

Kyivstar Tech відкрила вакансії для фахівців, які працюватимуть над національною великою мовною моделлю (LLM). На зараз на DOU розміщені 6 вакансій.

Data Engineer (NLP-Focused)

Основні обов’язки:

  • Розробка та підтримка ETL/ELT-пайплайнів для збору, перетворення та зберігання великих обсягів текстових даних.
  • Впровадження сервісів вебскрейпінгу та збору даних для автоматизації отримання текстової та лінгвістичної інформації з вебу та інших зовнішніх джерел.
  • Реалізація специфічної обробки даних для NLP/LLM: очищення та нормалізація тексту, фільтрація токсичного контенту, дедуплікація, видалення персональних даних.
  • Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
  • Налаштування та управління хмарною інфраструктурою даних проєкту (data lakes, warehouses) та фреймворками обробки (AWS/GCP/Azure).
  • Автоматизація робочих процесів обробки даних та забезпечення їх масштабованості й надійності за допомогою інструментів, як-от Apache Airflow.
  • Підтримка та оптимізація аналітичних баз даних та шарів доступу до даних для ad-hoc аналізу та тренування моделей.
  • Співпраця з Data Scientists та NLP Engineers для створення наборів даних для моделей машинного навчання.
  • Впровадження перевірок якості даних, моніторингу, сповіщень та версіонування даних.
  • Управління безпекою даних, контролем доступу та відповідністю стандартам політики конфіденційності.

Вимоги:

  • 3+ роки досвіду на посаді Data Engineer або аналогічній ролі, пов’язаній зі створенням data-intensive пайплайнів.
  • Досвід роботи з лінгвістичними даними або підтримки NLP-проєктів (нормалізація тексту, робота з різними кодуваннями, стратегії токенізації). Розуміння підходу до обробки даних, подібного до FineWeb2.
  • Практичний досвід у розробці ETL/ELT-процесів та використанні фреймворків оркестрації, як-от Apache Airflow.
  • Впевнене володіння Python для обробки даних та розробки пайплайнів, досвід роботи з NLP-пакетами (spaCy, NLTK тощо) та SQL.
  • Досвід роботи з реляційними базами даних (PostgreSQL, MySQL), знайомство з NoSQL та технологіями великих даних (HDFS, Hive, Spark).
  • Практичний досвід роботи з хмарними платформами (AWS, GCP або Azure) для зберігання та обробки даних.
  • Знання практик забезпечення якості даних, досвід впровадження моніторингу для пайплайнів.
  • Здатність тісно співпрацювати з data scientists та розуміти вимоги ML-проєктів, хороші комунікативні навички.

Додаткові переваги:

  • Досвід роботи з фреймворками розподіленої обробки даних (Apache Spark, Databricks) та системами потокової передачі повідомлень (Kafka, Pub/Sub).
  • Глибокий досвід у вебскрейпінгу з використанням Scrapy, Selenium або Beautiful Soup.
  • Знання CI/CD для інженерії даних (GitHub Actions, Jenkins), досвід роботи з Docker та Kubernetes.
  • Досвід роботи з аналітичними платформами та BI-інструментами (Tableau, Looker).
  • Здатність самостійно вирішувати складні інженерні проблеми з даними та оптимізувати наявні пайплайни.

Senior Data Scientist/NLP Lead

Основні обов’язки:

  • Керування повним циклом розробки NLP та LLM моделей: від дослідження даних та прототипування до валідації та впровадження у продакшн.
  • Аналіз великих текстових наборів даних (українських та багатомовних) для виявлення інсайтів та створення якісних навчальних датасетів.
  • Розробка та впровадження NLP-алгоритмів для класифікації тексту, розпізнавання іменованих сутностей, семантичного пошуку та розмовного AI.
  • Створення метрик оцінки та фреймворків валідації для продуктивності моделей, включно з точністю, фактологічністю та упередженістю; проєктування A/B тестів.
  • Розгортання та інтеграція NLP-моделей у продакшн-системи у співпраці з інженерами, забезпечення їх масштабованості та ефективності.
  • Технічне лідерство та менторство для команди NLP/ML, перевірка коду та досліджень, підтримка найкращих практик в ML (версіонування, відтворюваність, документація).
  • Крос-функціональна співпраця з продакт-менеджерами та інженерами для узгодження NLP-рішень з цілями продукту та можливостями інфраструктури.

Вимоги:

  • 5+ років досвіду в data science або machine learning з сильним фокусом на NLP.
  • Підтверджений досвід розробки та впровадження NLP/ML моделей у продакшн-середовищі.
  • Глибоке розуміння технік та алгоритмів обробки природної мови, архітектур трансформерів, технік навчання та файн-тюнінгу LLM.
  • Досвід роботи з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та техніками їх оптимізації (квантизація, дистиляція знань).
  • Впевнене володіння Python та бібліотеками для data science (pandas, NumPy, scikit-learn), а також фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими датасетами (включно з SQL).
  • Досвід розгортання ML-моделей у продакшн, знайомство з MLOps-концепціями та інструментами (CI/CD, MLflow, Airflow).
  • Підтверджені навички технічного лідерства, менторства та ефективної комунікації.

Додаткові переваги:

  • Практичний досвід у створенні токенізаторів, техніках SFT та RLHF, а також оцінці токсичності, етичності та безпеки LLM.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Розуміння української мови та культурно-лінгвістичних нюансів для навчання та оцінки моделей.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань у швидкозмінному R&D середовищі.

AI QA Engineer

Основні обов’язки:

  • Розробка та виконання комплексних стратегій оцінки AI-моделей (NLP/LLM) для перевірки їх точності, узгодженості та справедливості.
  • Аналіз бенчмаркінгових наборів даних, виявлення прогалин та розробка SOTA-фреймворку для бенчмаркінгу української мови.
  • Впровадження автоматизованого та ручного тестування для додатків на базі LLM, включно зі створенням скриптів та суб’єктивною оцінкою результатів.
  • Створення та підтримка якісних тестових наборів даних, що відображають реальні сценарії використання та культурний контекст української мови.
  • Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
  • Визначення та відстеження ключових метрик продуктивності AI (точність, зв’язність, релевантність, затримка тощо).
  • Тісна співпраця з командою розробки AI для інтеграції QA в процес розробки та CI/CD пайплайни.
  • Аналіз та виявлення першопричин збоїв у роботі AI-моделей, надання детальних звітів про помилки.
  • Впровадження постійного моніторингу в продакшені для виявлення регресій та нових проблем.
  • Ведення вичерпної тестової документації, планів та звітів про результати оцінки кожної версії моделі.

Вимоги:

  • 3+ роки досвіду в QA/тестуванні, з яких частина зосереджена на AI/ML системах, та 2+ роки в аналізі даних.
  • Розуміння концепцій машинного навчання, специфічних викликів тестування AI-моделей та знайомство з фреймворками оцінки LLM.
  • Глибоке розуміння завдань NLP та поширених збоїв мовних моделей (галюцинації, упередження).
  • Впевнене володіння Python для автоматизації тестування; знайомство з фреймворками (PyTest) та бібліотеками (pandas, numpy, Hugging Face).
  • Досвід створення та управління тестовими наборами даних, включно з процесами анотації та маркування.
  • Сильні аналітичні навички та вміння виявляти закономірності в помилках моделей.
  • Відмінні комунікативні навички для документування помилок та обговорення проблем з розробниками.
  • Вільне володіння українською мовою є обов’язковим для оцінки коректності та нюансів відповідей.

Додаткові переваги:

  • Досвід роботи зі спеціалізованими інструментами для тестування AI та знайомство з техніками prompt engineering.
  • Вміння виконувати статистичний аналіз результатів продуктивності моделей (наприклад, для A/B тестів).
  • Досвід інтеграції тестів у CI/CD пайплайни для ML, знайомство з версіонуванням моделей.
  • Знання тестування AI-моделей на безпеку та відповідність стандартам (наприклад, атаки prompt injection).
  • Розуміння UX у контексті AI-продуктів та вміння передбачати нетипову взаємодію користувачів з AI.
  • Наявність сертифікатів у сфері QA, тестування ПЗ (ISTQB) або AI/ML.

Data Scientist (Benchmarking & Alignment)

Основні обов’язки:

  • Аналіз бенчмаркінгових наборів даних, розробка та підтримка комплексного фреймворку для бенчмаркінгу української мови.
  • Дослідження та інтеграція передових метрик для оцінки фактичної точності, логічного мислення, плавності мови, безпеки та узгодженості моделей.
  • Проєктування та підтримка фреймворків для виявлення галюцинацій, упереджень та інших збоїв у відповідях LLM.
  • Розробка пайплайнів для генерації синтетичних даних та adversarial-прикладів для перевірки надійності моделі.
  • Співпраця з анотаторами, лінгвістами та експертами для визначення завдань оцінки та збору якісного фідбеку.
  • Розробка інструментів та процесів для безперервної оцінки на етапах попереднього навчання, файн-тюнінгу та розгортання моделі.
  • Дослідження та розробка найкращих практик у пайплайнах навчання LLM.
  • Аналіз результатів бенчмаркінгу для виявлення сильних та слабких сторін моделі та можливостей для її покращення.
  • Документування методологій та поширення результатів серед внутрішніх команд.

Вимоги:

  • 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
  • Підтверджений досвід в оцінці ML-моделей та/або NLP-бенчмаркінгу.
  • Гарні знання технік та алгоритмів NLP, включно з embedding models, semantic search, transformers/LLMs, RAGs.
  • Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn) та фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Глибоке розуміння концепцій RLHF та пов’язаних з ними технік.
  • Розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
  • Досвід розгортання ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control).
  • Досвід роботи в крос-функціональному середовищі та сильні комунікативні навички.

Додаткові переваги:

  • Досвід роботи над безпекою, справедливістю та зменшенням упередженості в LLM.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Знайомство з українською мовою, її культурним контекстом та існуючими бенчмарками.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.

Data Scientist (Data Preparation & Pre-training)

Основні обов’язки:

  • Проєктування, прототипування та валідація етапів підготовки та трансформації даних для навчальних датасетів LLM (очищення, нормалізація, фільтрація, дедуплікація, видалення персональних даних).
  • Формування спеціалізованих датасетів SFT/RLHF з наявних даних, включно з аугментацією та маркуванням за допомогою LLM.
  • Аналіз великомасштабних необроблених джерел даних (текст, код) на предмет якості, охоплення та релевантності.
  • Розробка евристик, правил фільтрації та технік очищення для максимізації ефективності навчальних даних.
  • Співпраця з data engineers для передачі прототипів на автоматизацію та масштабування.
  • Дослідження та розробка найкращих практик та нових технік у пайплайнах навчання LLM.
  • Моніторинг та оцінка впливу якості даних на продуктивність моделі за допомогою експериментів та бенчмарків.
  • Документування методологій та поширення результатів серед внутрішніх команд.

Вимоги:

  • 3+ роки досвіду в Data Science або Machine Learning з фокусом на NLP.
  • Підтверджений досвід у попередній обробці, очищенні та інжинірингу ознак для великих наборів неструктурованих даних (текст, код тощо).
  • Гарні знання технік та алгоритмів NLP, включно з embedding models, transformers/LLMs, RAGs, та вимог до даних для їх навчання.
  • Впевнене володіння Python, бібліотеками для data science (pandas, scikit-learn, spaCy) та фреймворками глибокого навчання (PyTorch, TensorFlow).
  • Глибоке розуміння аналітики даних та статистики, досвід у проєктуванні експериментів (A/B тестування) та роботі з великими наборами даних (SQL).
  • Досвід розгортання ML-моделей у продакшені, знайомство з MLOps-концепціями та інструментами (CI/CD, version control).
  • Досвід роботи в крос-функціональному середовищі, сильні комунікативні навички та здатність до швидкого прототипування.

Додаткові переваги:

  • Знайомство з метриками оцінки мовних моделей (Perplexity, BLEU, ROUGE) та розуміння підходів до обробки даних, подібних до FineWeb2.
  • Публікації на конференціях з NLP/ML або внесок у відкриті NLP-проєкти.
  • Знайомство з українською мовою, її культурним контекстом та джерелами текстових даних.
  • Практичний досвід роботи з Docker, Kubernetes та інструментами для ML-воркфлоу (MLflow, Airflow).
  • Інноваційне мислення та здатність творчо підходити до відкритих AI-завдань.

MLOps Engineer (LLM Infrastructure)

Основні обов’язки:

  • Проєктування та впровадження сучасної, масштабованої ML-інфраструктури (хмарної або on-premises) для підтримки експериментів та розгортання NLP/LLM моделей.
  • Розробка end-to-end пайплайнів для навчання, валідації та розгортання моделей; автоматизація ML-воркфлоу за допомогою Docker та CI/CD.
  • Співпраця з Data Scientists та ML Engineers для розробки MLOps-рішень, що відповідають вимогам до продуктивності та затримок моделей.
  • Впровадження найкращих практик в MLOps: автоматизоване тестування, CI/CD для оновлень моделей та версіонування коду, даних і артефактів.
  • Налаштування моніторингу та сповіщень для розгорнутих моделей та пайплайнів даних для відстеження продуктивності та виявлення аномалій.
  • Управління та оптимізація середовищ розгортання на базі Kubernetes; контейнеризація ML-сервісів та їх оркестрація.
  • Підтримка інфраструктури як коду (Terraform, Ansible) для налаштування хмарних ресурсів та ML-інфраструктури.
  • Проведення код-рев’ю, менторство інших інженерів та усунення несправностей у всьому життєвому циклі ML.

Вимоги:

  • 4+ роки досвіду на позиціях DevOps, MLOps або ML Infrastructure; глибокі знання принципів software engineering та DevOps у контексті машинного навчання.
  • Значний досвід роботи з хмарними платформами (AWS, GCP або Azure) та інструментами Infrastructure-as-Code (Terraform, CloudFormation).
  • Впевнене володіння технологіями контейнеризації (Docker) та оркестрації (Kubernetes); досвід роботи з Helm.
  • Досвід впровадження CI/CD пайплайнів для ML-проєктів з використанням Jenkins, GitLab CI або GitHub Actions.
  • Сильні навички програмування на Python для написання пайплайнів та скриптів автоматизації.
  • Глибоке розуміння життєвого циклу машинного навчання; досвід створення або підтримки ML-пайплайнів (Kubeflow, Airflow).
  • Досвід налаштування моніторингу для додатків та моделей (Prometheus, Grafana) та впровадження сповіщень.
  • Базове розуміння найкращих практик безпеки при розгортанні ML, включно з шифруванням даних та контролем доступу.
  • Відмінні навички співпраці для роботи в крос-функціональних командах.

Додаткові переваги:

  • Попередній досвід розгортання або файн-тюнінгу великих мовних моделей у продакшені.
  • Досвід роботи з фреймворками розподілених обчислень (Ray) та обробки великих даних (Spark, Hadoop).
  • Досвід роботи з інструментами для відстеження експериментів та реєстру моделей (MLflow, Weights & Biases, DVC).
  • Знайомство з векторними базами даних (Pinecone, Weaviate, FAISS).
  • Досвід роботи з HPC-середовищами або локальними GPU-кластерами для навчання великих моделей.
  • Актуальні знання про останні розробки в MLOps та LLMOps.

Похожие статьи:
В преддверии праздников мы собрали благотворительные акции от фондов и IT-компаний, к которым могут присоединиться все...
[Катя Осадчук — СEO IT-рекрутингового агентства Indigo, экономист, профессиональный психолог и HR с более чем 10-летним опытом,...
В сети появились некоторые технические подробности о модели LG K7, которая также может иметь название LG M1. Известно, что...
Я займаюся Data Science понад 9 років, маю досвід роботи на посаді Data Science Team Lead, провела сотні інтерв’ю на позицію Data Scientist...
Злам Центробанку рф українською IT-армією, Twitter за платною підпискою, запуск українського безпілотника, бронювання...

Яндекс.Метрика