Коли вийде національна LLM і скільки коштує її розробка. Головні питання CTO ШІ-центру Мінцифри Дмитру Овчаренку
4 лютого у межах стратегії інновацій WINWIN Мінцифри оголосило про запуск AI Center of Excellence. ШІ-центр має стати ядром національної ШІ-екосистеми. У лютому 2025 року команда анонсувала перші продукти та цілі. Серед них — створення ШІ-асистентів у «Дії», «Мрії» та юридичних сервісах, зростання ШІ-стартапів на 50% на рік, а також запуск національної мовної моделі.
За технічне втілення відповідальний Дмитро Овчаренко, екскерівник GenAI-напряму в SoftServe. Він став CTO ШІ-центру. Ми поговорили з ним про те, що насправді стоїть за створенням української LLM: які елементи вона має містити, що мовна модель зможе робити і кому буде корисна, чи вистачає в Україні обчислювальних потужностей, на яких даних її навчатимуть і як навчити LLM правильно відповідати на запитання типу «Чий Крим?».
Також поговорили про архітектуру, бюджет, роль університетів, плани щодо відкритого коду, ризики атак і перспективу увійти в трійки країн світу за AI у публічному секторі.
Найбільша технічна конференція DOU Day вже
Купуй квиток зараз, бо потім — буде дорожче!
«На запитання „Чий Крим?“ відповідь має бути однозначною». Про національні LLM
— Що таке національна LLM і чим вона відрізняється від інших мовних моделей?
Національна LLM — це велика мовна модель, яка створюється з урахуванням мовних і культурних особливостей певної країни. Вона зазвичай базується на open-source архітектурах, таких як LLaMA, Mistral або Gemma, і доповнюється специфічними національними мовними корпусами.
Тренд на національні LLM розвивається паралельно з комерційними та опенсорс-рішеннями. Зараз національні LLM мають понад 15 країн: Саудівська Аравія, Польща, Сингапур, Казахстан, OAE, Японія тощо.
Є два підходи до створення національної LLM: взяти опенсорс-архітектуру й доповнювати її корпусами національного контексту, тобто специфічними мовними даними. Або ж тренувати модель з нуля.
Національна LLM може виконувати безліч функцій, як і комерційні моделі. Наприклад:
