«Люди стали ламати Дія AI, щойно ми зарелізилися». Дмитро Овчаренко з Мінцифри — про національну LLM і захист персональних даних

Дмитро Овчаренко є технічним директором WINWIN AI Center of Excellence при Мінцифри. Його команда координує одразу кілька великих проєктів: від створення національної LLM у партнерстві з «Київстаром» і розробки чата Дія.AI до автоматизації внутрішніх процесів міністерств за допомогою ШІ.

В інтерв’ю DOU Дмитро розповів, коли ШІ-помічник вийде з бети, як вирішують питання із захистом персональних даних, що отримає «Київстар» за розробку національної LLM і як ШІ скоротив процес найму в Мінцифри на 45%.

«У нас не стоїть мета випустити одну LLM». Про національну модель і роль Мінцифри

— Розкажіть, будь ласка, на якому етапі зараз розробка LLM? У чому роль Мінцифри сьогодні?

По-перше, ми координуємо розробку LLM, а також створили етичний, технічний, мовознавчий та культурно-історичний борди. Ці люди сформують вимоги, як працюватиме модель. А далі «Київстар» відповідно до них втілюватиме рішення. Для контролю розробки LLM ми зробили координаційний комітет, туди входить Михайло Федоров, Олександр Комаров, ми з Данилом Цьвоком як керівники центру та керівники чотирьох бордів. Суть — зробити процес максимально публічним і прозорим.

По-друге, на Мінцифри лежить збір даних для тренування моделі. Нині ми на етапі внутрішнього збору даних. Від міністерства запустили опитувальник до центральних органів виконавчої влади та інших держустанов щодо корпусів даних, які вони мають.

Перший драфт моделі ми зможемо зарелізити, коли визначимося з архітектурою, попрацюємо з даними, потестуємо, доопрацюємо дані за культурно-історичними, етичними та іншими критеріями. І нагадаю, що ми не робимо національну LLM з нуля, а беремо опенсорсну модель з відкритими вагами і попередньо тренуємо її на великому корпусі українських даних.

«Серед відкритих питань — інтелектуальна власність та авторське право»

Без спеціального правового регулювання дуже складно зібрати валідований великий корпус української мови і випускати на основі нього різні моделі. Адже у нас не стоїть мета випустити одну модель, ми хочемо, щоб будь-яка установа могла зробити це на своєму боці. Нещодавно була новина, що Anthropic має виплатити письменникам 1,5 мільярда доларів за порушення авторського права. Не хотілося б вляпатися у схожу історію.

— А який найбільш можливий сценарій у нашому випадку?

Мені подобається приклад Японії, де на законодавчому рівні дозволили використовувати тексти, аудіо, відео для тренування моделей.

Європейські країни збирають відкриті корпуси, як і ми. Зокрема, нещодавно зарелізилася українська «Кобза», збірка корпусів українських текстів на декілька десятків мільярдів токенів. Це величезне надбання, яке побудовано на відкритих джерелах і яке вже можна використовувати.

А є корпуси текстів із закритою частиною на кшталт ГРАК, і без регулювання авторського права в контексті тренування LLM ми не зможемо їх вільно використовувати.

— Чи правильно я розумію, що наступний етап — закрити питання з IP?

Сьогодні ми загалом модеруємо збір даних. Поясню на прикладі КНУ Шевченка. У цьому виші може міститися кількасот гігабайтів текстових даних. Але навіть підстава, на якій вони передадуть цей корпус Мінцифри чи ДП «Дія», під питанням.

Крім «Київстару», є багато команд, які займаються опенсорсом і які хотіли б використовувати ці корпуси для наукової роботи. Або щоб випускати власні моделі. І тут треба визначитися, на яких умовах передавати дані третім сторонам. Загалом є чимало складних юридичних питань.

«„Київстар“ зможе запускати власні моделі для аудіопідтримки». Навіщо компанії розробка LLM

— «Київстар» фінансує розробку національної LLM. Що він отримає натомість як компанія? І що це означає для інших бізнесів?

Ми сколихнули ринок заявою про розробку LLM. І це добре, тому що у 2026 році я хотів би бачити реліз не одної моделі, а множину моделей різних масштабів, обов’язково open source. І я вважаю, що ґрунтовні дані — це серце процесу. Правильна робота з ними уможливить появу різних моделей.

«Національна LLM потрібна в майбутніх релізах Дія.AI»

Адже ми повинні мати модель в контурі, яка буде навчена та зафайнтюнена на державних сервісах. Оскільки послуги в Дія.AI безплатні, нам важливо зробити модель для великого навантаження, яка буде економічно доцільною.

Бізнес теж буде випускати свої моделі на основі національної LLM. Подумайте про величезні команди підтримки телеком-операторів «Київстар», Vodafone, Lifecell, їхні внутрішні процеси. Ніхто не заборонятиме їм створювати свої SLM. І це лише один з прикладів.

Попри те, що OpenAI, Anthropic, Google запевняють: у випадку корпоративних клієнтів дані не використовуються для донавчання LLM, внутрішні правила компаній забороняють передавати конфіденційні чи внутрішні дані у зовнішні мовні моделі. А національну модель, з гарним бенчмарком, бізнес може використовувати у своїй інфраструктурі.

Навіщо розробка LLM «Київстару»? Це про досвід: створення команди, яка сфокусується на розробці моделі. Завдяки цьому компанія отримає конкурентну перевагу й зможе запускати власні моделі для аудіопідтримки.

— LLM буде опенсорсна, але чи залишаться за «Київстаром» права на окремі технологічні рішення?

Поки що не можу прокоментувати.

— У скільки компанії це обходиться?

Команда отримує ринкову оплату. Орієнтовно це близько 10 людей. Щодо найдорожчої статті витрат — це інфраструктура. Ще немає точної суми, але йдеться про сотні тисяч доларів. Водночас міністерство може допомогти налагодити партнерства з європейськими центрами високопродуктивних обчислень (HPC), з якими реально підписати меморандуми про співпрацю. Власне, «Київстар» шукає способи.

Загалом щодо інфраструктури, то для тренування моделей поточних потужностей країни не вистачить. Тому перші наші експерименти будуть на HPC трійки клаудних провайдерів.

«Наша ціль — реалізувати Дія.AI в мобільному застосунку»

— «Протягом пів року „Дія“ стане чатом», — зазначав Михайло Федоров DOU навесні. Коли ШІ-помічник вийде з бети? Чи потрібна вже розроблена національна LLM, щоб він працював на повну?

Наша ціль — реалізувати Дія.AI в мобільному застосунку. Це найбільший виклик, тому що кількість користувачів на порталі сягає 6 мільйонів на рік, а в мобайлі це понад 22 мільйони користувачів.

Ми очікували навантаження на порталі у 150 тисяч запитів до асистента на місяць. Уже сьогодні видно, що буде 300 тисяч. В мобільній версії понад 310 тисяч запитів на день надходить на наш бек. І якщо хоча б 25% користувачів скористаються AI-помічником, навантаження буде величезним. Найбільший виклик — у масштабуванні архітектури, інтеграції з реєстрами, навантаженні та головне — безпеці.

Для прикладу: один з наших сервісів обробляє близько 8 мільйонів запитів на рік і потребує кількох етапів опрацювання. Будь-яка модель, яка забезпечує цей процес, запускається або на нашій інфраструктурі, або в хмарі. У будь-якому випадку це значні витрати. Ми не використовуємо бюджетні кошти для підтримки таких моделей, і саме це питання потребує окремого вирішення. Загалом AI буде всюди.

Наразі у чату понад 27 тисяч унікальних користувачів і 950 замовлених довідок про доходи.

— А ви вийдете з бети, коли Дія.АІ працюватиме на мобайлі?

Поки що треба порахувати задоволеність користувачів, зрозуміти масштаб. Розробка самого застосунку, AI-архітектури зайняла менше часу, ніж тестування і подальший фікс. Це дуже кропітка робота, і експертизи у випуску україномовного застосунку на українському ринку не багато. Маємо беклог простих і складних кейсів. Я поки що не готовий сказати, чи після випуску на mobile ми вийдемо з бети.

Я би це ще розтягнув у часі, зібрав би більше кейсів.

«Усю ключову функціональність Дія.AI розробив один інженер». Про команду

— А можете розповісти про команду і вартість розробки чату? Чи залучена людина в процес валідації інформації?

Усю ключову функціональність Дія.AI розробив один інженер. Передаю вітання тим, хто будує великі команди. На повній зайнятості в проєкті працює один Automation QA. Частково security-тестування виконувала внутрішня red team. Перформанс-тестування теж робили на парт-таймі за нашими тест-кейсами.

З боку партнера, який допомагав з фронтендом, була залучена одна людина — саме вона створила UI and back-end. З UI/UX дизайном допомагали в межах загальної екосистеми Мінцифри. І, звісно, DevOps: без їхньої підтримки нічого б не працювало, адже є багато питань безпеки.

Ідеться про контур порталу, де все максимально забюрократизовано й захищено. Доступ мають лише визначені спеціалісти. Ми самі не бачимо чатів і не маємо до них доступу — і це правильно. Єдине, що нам доступне, — це кількісні показники.

Персональні дані завжди шифруються, ми їх не бачимо. Тому їх немає ні в логах, ні в рев’ю, навіть коли потрібно розібрати якийсь окремий випадок. Уся інфраструктура розміщена на серверах ДП «Дія» в єдиному Kubernetes-кластері.

Наразі використовується модель Gemini — це не on-premise рішення. У найближчих планах — перехід на власну модель, яка повністю працюватиме в нашій інфраструктурі.

Вартість розробки складається виключно із зарплат команди. Для цього кейсу інфраструктуру додатково не розширювали.

Частина команди WINWIN AI Center of Excellence

— А наскільки відповіді АІ-помічника точні? Наскільки багато фальшивих відповідей?

У нас працює близько 150 сервісів лише у «Дії», а також ціла екосистема «Мрії». Асистент може взаємодіяти з цими сервісами, а також із Brave1, «Дія.Освіта», «Дія.Бізнес» тощо. Інформація дуже різноманітна, тому потрібні правильні підходи до бенчмаркінгу та оцінки якості. Нам пощастило, що спочатку ми запустили AI-асистента саме в підтримці користувачів.

Служба підтримки — це окремий сценарій використання. Її головне завдання — надавати понад 90% точних відповідей без галюцинацій. Архітектура тут відносно проста й стабільна. Найважливіше те, що люди готували базу питань і відповідей, а потім постійно проганяли бенчмарки та оцінювання. Вони фіксували відсоток галюцинацій і неправильних відповідей при будь-яких змінах. Це стало для нас основним тестом, на якому ми перевіряли роботу Дія.AI.

Другий тип тестування ми проводимо за принципом «LLM-as-a-judge». Це більш комплексний підхід: запит розбивається на складові, відповідь — так само, і за допомогою іншої LLM перевіряється, наскільки повно та точно покрите питання. Звичайно, результат ще не ідеальний — галюцинації залишаються, але це властивість будь-якої LLM. Тому супербагато уваги ми приділяємо тестуванню.

Щойно ми зарелізилися, люди взялися ламати Дія.AI, щоб показати баги. Я вважаю, що ми впоралися. Портал, по-перше, не впав, а по-друге, помічник дає справді валідні пояснення. Я теж користуюся помічником. Недавно мені треба було прописати дитину, і я не пішов з питаннями до підтримки, а скористався асистентом. Мені вдалося все вирішити за його рекомендаціями.

«Нам довелося розробити власну guardrail-модель». Про безпеку даних

— Захист персональних даних — питання, до якого завжди є велика недовіра. Як ви його забезпечуєте?

До процесу залучені як зовнішні інститути, так і внутрішні команди. Михайло особисто на кожній нараді наголошував: «Хлопці, персональні дані. Ви впевнені, що протестували? Покажіть результати, репорти, як відреагували». Це питання він тримав під власним контролем.

Найбільше занепокоєння викликає те, що модель працює у «хмарі». Проте політика Google декларує: дані користувачів (промпти й запити) не використовуються для донавчання. Ми будували систему за принципом zero trust. Навіть якщо модель розташована у нашій інфраструктурі, вона все одно не має доступу до реальних PII-даних.

У нашому контурі перед мовною моделлю працюють окремі натреновані класифікаційні моделі — своєрідні guardrails. Вони виявляють та маскують персональні дані. Тобто, якщо в запиті є, наприклад, ІПН, у Google Gemini він передається вже як тег [ІПН]. Модель розуміє, що це ідентифікатор, але оперує лише тегом, а не самим значенням. На рівні бекенду ми підставляємо реальні дані вже після отримання відповіді, щоб користувач отримав коректний результат.

Історія чатів зберігається у базі даних, але з дотриманням усіх сучасних практик: encryption at rest, додаткове шифрування кожного запису унікальним ключем користувача. Тобто навіть у випадку компрометації бази без ключа відновити інформацію неможливо. Модель ніколи не бачить персональних даних. Усі запити проходять попередню й подальшу обробку.

Безпека залишається постійним викликом. Це і інтеграція з державними реєстрами, і здатність самих реєстрів витримувати додаткове навантаження, і розвиток guardrail-моделей. Останні, до речі, погано працюють з українською мовою, тож нам довелося розробляти власне рішення та розгортати його в Україні. Я думаю, це був найбільший челендж.

«Голосовий інтерфейс обов’язково буде». Про послуги Дія.АІ

— А які послуги в Дія.АІ плануєте додавати наступними?

У нас є статистика 20 найпопулярніших послуг, які становлять 70 відсотків всіх запитів. Тому будемо обирати з першої десятки. Можливо, колись зробимо послуги, які будуть доступні тільки в чаті.

— Чи плануєте експортувати Дія.АІ, коли запустите на повну потужність?

Сьогодні Україна входить до п’ятірки світових лідерів із цифровізації держпослуг. Наш AI-асистент — перший у світі помічник національного масштабу, який не просто розказує про послуги, а надає їх. Далі плануємо нові можливості, зокрема проактивні сервіси. Наприклад, відкрили ФОП — асистент підкаже, які гранти доступні. Вступили до університету — він допоможе знайти міжнародні програми підтримки навчання.

Уся архітектура й продуктове бачення — інноваційні. Думаю, у майбутньому можна говорити й про експорт рішення. Але він буде можливий лише там, де країни досягли схожого рівня цифровізації.

«Натягнути» AI-асистент на державу, яка не має належної автоматизації, дуже складно

Тому поки що ми живемо у своєрідній «локальній бульбашці», де це стало стандартом, а багато країн іще суттєво відстають.

Найбільш схожий державний AI-асистент в публічному секторі сьогодні реалізований в Абу-Дабі. Але це не країна з 22 мільйонами користувачів у застосунку, тож у цьому сенсі ми маємо перевагу.

— Раніше говорили про інтерес до «Дії» з боку інших держав. Та наскільки відомо, жоден із кейсів поки не реалізовано.

Це питання краще уточнювати безпосередньо в команди «Дії», яка займається міжнародними проєктами.

— Чи плануєте робити голосовий інтерфейс? Чи військові зможуть використовувати його в польових умовах?

Голосовий інтерфейс обов’язково буде. Зараз ми досліджуємо користувацький досвід. Основне завдання на архітектурному рівні — подбати про якісний процесинг голосу: від speech-to-text до text-to-speech. Поки буде буде буде лише українська мова і суржик.

Інтерфейс має бути зручним для людей без технічних навичок і водночас оптимальним за вартістю, адже будь-який голосовий асистент потребує значних ресурсів. Саме тому для нас важлива підтримка великих технологічних компаній.

Далі будемо відпрацьовувати різні складні сценарії: робота з суржиком, низька якість зв’язку, шуми чи його втрата. Усе це ми обов’язково тестуватимемо.

«АІ скоротив процес найму в Мінцифри на 45%». Про автоматизацію всередині

— Якими ще проєктами займається WINWIN AI Center of Excellence і скільки людей у команді?

У нас чотири основні напрями роботи. Перший — це «Дія». Окрім Дія.AI, скоро представимо низку нових продуктів. Для мене особисто важливо, щоб люди могли прозоро спілкуватися з державою: щоб кожен міг не лише повідомити про проблему, а й отримати рішення. Наприклад, якщо у невеликому містечку не вивозять сміття, дороги в поганому стані чи в ЦНАПі відмовили у допомозі, ці відгуки потраплятимуть у систему й на дашборди до центральних, місцевих і виконавчих органів.

Другий напрям — внутрішні оптимізації. ДП «Дія» та «Мрія» працюють як ентерпрайзи. Тут за допомогою АІ ми автоматизували HR-процеси: від публікації вакансії до оферу чи відмови кандидату. Менеджери з найму та HR додають лише контекст до звітів, решту робить AI. Це скоротило процес найму на 45%, це понад 10 годин на вакансію.

Третій напрям — юридичні кейси. Мінцифри є органом цифрової експертизи: усі зміни до законодавства проходять через відповідний директорат. Ми маємо готувати аналітику для різних міністерств. Якщо раніше перевірка нормативно-правового акта займала 3–10 днів, то тепер аналіз готуємо максимум за 72 години.

«75% документів юристи аналізують за допомогою АІ»

Ми запустили це рішення п’ять місяців тому: юристи самі створюють промпти.

Загалом технічна продуктова команда на всі напрями налічує 15 людей. ШІ поступово стає ключовим фокусом і для інших міністерств, тож частина нашої команди, можливо, допомагатиме й там.

Ми вже синхронізували роботу з іншими міністерствами за системою OKR. Це працює чудово: буде спільний дашборд із прописаними цілями, де кожен зможе бачити, хто що виконав, а що ще в роботі.


Інтерв’ю було підготовлено до того, як з’явилася інформація про можливий злив даних у «Дії». Детальніше про цю ситуацію — у новині.

Похожие статьи:
Привіт! Мене звати Артем, я — PHP-програміст. У цій статті розглянемо основи XSLT і приклади його використання як шаблонизатора для...
224-й выпуск подкаста «Откровенно про IT карьеризм». В подкасте пойдет речь о карьере и программировании. В программе: Про...
Китайский регулятор TENAA сертифицировал очередной смартфон от компании ZTE. К сожалению, его название пока неизвестно, по...
Нові офіси планують відкрити всі великі IT-компанії України — ті, в яких працюють понад 1200 фахівців. Також...
Міжнародна сервісна ІТ-компанія EPAM опублікувала звіт про фінансові результати другого кварталу 2024 року....
Яндекс.Метрика