Науковці випустили українську велику мовну модель Lapa LLM. Що про неї відомо

В Україні представили Lapa LLM v0.1.2 — велику мовну модель, яку з нуля адаптували для роботи з українською мовою. Над нею працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові.

Про це DOU повідомив один з розробників моделі, аспірант УКУ, Юрій Панів.

Основою мовної моделі стала архітектура Gemma-3-12B, а головна мета — зробити швидку, точну та повністю відкриту українську LLM, придатну для досліджень і комерційного використання.

Модель названа на честь Валентина Лапи — співавтора методу групового урахування аргументів, який став одним із теоретичних фундаментів сучасного Deep Learning.

Що відомо про Lapa LLM

За словами розробників, Lapa LLM відрізняється тим, що при її створенні повністю переписали токенізатор під українську. 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. Тепер для тих самих завдань потрібно у півтора раза менше токенів, а отже — менше обчислень. За швидкістю роботи з українською вона обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть в УКУ.

У тестах на бенчмарках Lapa LLM показала такі результати:

  • Переклад: модель досягла 33 BLEU на FLORES для напрямку англійська → українська та показала високий результат у зворотному напрямку.
  • Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів і описів зображень.
  • Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання — рівень, придатний для систем типу RAG.
  • Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.




За словами розробників, у деяких завданнях вона вже наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні. У версії 1.0 творці Lapa LLM планують перевершити її результати.

Розробники заявляють про прагнення до максимальної відкритості. Наразі саму модель можна вільно завантажити та використовувати в комерційних цілях. Водночас анонсували вихідний код для тренування та 25 навчальних датасетів. Перші 5 датасетів та частину коду для тренування автори вже опублікували на сторінці проєкту. Решту обіцяють викласти протягом тижня з часу релізу.

За словами команди, у процесі навчання застосовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.

Розробники зазначають, що Lapa LLM можна використовувати для:

  • створення корпоративних асистентів і чатботів українською;
  • машинного перекладу між українською та англійською;
  • побудови RAG-рішень для внутрішніх документів;
  • роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Далі науковці планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.

Створення Lapa LLM підтримали Comand.AI, ELEKS (у межах гранту пам’яті Олексія Скрипника) і HuggingFace, який надав команді корпоративну підписку для роботи з датасетами.

Внесено уточнення у фрагмент новини, що стосується статусу відкритості проєкту, зокрема фактичної доступності вихідного коду та датасетів.

Похожие статьи:
К открытию московского офиса "Google Дом" компания презентовала долгожданную новинку - голосовой помощник Google Now на русском языке....
Компания HTC представила сегодня очередной смартфон семейства HTC One. Модель под названием One M9s была представлена на родном для...
Два роки тому ми анонсували оновлений рейтинг роботодавців на jobs.dou.ua. І ось знову запрошуємо ІТ-спеціалістів узяти участь...
Сегодня знанием английского языка работодателя не удивишь. А вот незнанием — не только удивишь, но и расстроишь....
У 2019-му топ-50 виріс з 58 тисяч до 67 тисяч фахівців. За рік EPAM збільшив кількість спеціалістів на 1700 осіб і перетнув...
Яндекс.Метрика