Окт. 25

Науковці випустили українську велику мовну модель Lapa LLM. Що про неї відомо

В Україні представили Lapa LLM v0.1.2 — велику мовну модель, яку з нуля адаптували для роботи з українською мовою. Над нею працювали фахівці з Українського католицького університету, КПІ, Львівської політехніки та AGH University у Кракові.

Про це DOU повідомив один з розробників моделі, аспірант УКУ, Юрій Панів.

Основою мовної моделі стала архітектура Gemma-3-12B, а головна мета — зробити швидку, точну та повністю відкриту українську LLM, придатну для досліджень і комерційного використання.

Модель названа на честь Валентина Лапи — співавтора методу групового урахування аргументів, який став одним із теоретичних фундаментів сучасного Deep Learning.

Що відомо про Lapa LLM

За словами розробників, Lapa LLM відрізняється тим, що при її створенні повністю переписали токенізатор під українську. 80 тисяч із 250 тисяч токенів було замінено, завдяки чому обробка україномовного тексту стала ефективнішою. Тепер для тих самих завдань потрібно у півтора раза менше токенів, а отже — менше обчислень. За швидкістю роботи з українською вона обходить оригінальну Gemma та більшість закритих моделей аналогічного класу, кажуть в УКУ.

У тестах на бенчмарках Lapa LLM показала такі результати:

Переклад: модель досягла 33 BLEU на FLORES для напрямку англійська → українська та показала високий результат у зворотному напрямку.
Обробка зображень: у тесті MMZNO Lapa LLM увійшла до лідерів серед моделей свого класу за точністю розпізнавання україномовних підписів і описів зображень.
Summarization і Q&A: продемонструвала стабільну роботу з великими текстами, збереження контексту й точність при відповіді на запитання — рівень, придатний для систем типу RAG.
Виявлення пропаганди: модель показала послідовність у визначенні маніпулятивних наративів і упереджених формулювань, що підтверджує якість фільтрації даних під час претрейнінгу.

За словами розробників, у деяких завданнях вона вже наближається до MamayLM, яка вважається лідером серед українських мовних моделей на сьогодні. У версії 1.0 творці Lapa LLM планують перевершити її результати.

Розробники заявляють про прагнення до максимальної відкритості. Наразі саму модель можна вільно завантажити та використовувати в комерційних цілях. Водночас анонсували вихідний код для тренування та 25 навчальних датасетів. Перші 5 датасетів та частину коду для тренування автори вже опублікували на сторінці проєкту. Решту обіцяють викласти протягом тижня з часу релізу.

За словами команди, у процесі навчання застосовували відкриті українські корпуси та дані, оцінені за параметрами читабельності, граматики й відсутності дезінформації. На фінальних етапах використовувались якісні матеріали з бази відкритих даних Бібліотеки Гарварду.

Розробники зазначають, що Lapa LLM можна використовувати для:

створення корпоративних асистентів і чатботів українською;
машинного перекладу між українською та англійською;
побудови RAG-рішень для внутрішніх документів;
роботи з конфіденційними текстами без передавання їх на зовнішні сервери.

Далі науковці планують створити міркувальну (reasoning) версію моделі та розширити корпуси для аналізу зображень і програмування.

Створення Lapa LLM підтримали Comand.AI, ELEKS (у межах гранту пам’яті Олексія Скрипника) і HuggingFace, який надав команді корпоративну підписку для роботи з датасетами.

Внесено уточнення у фрагмент новини, що стосується статусу відкритості проєкту, зокрема фактичної доступності вихідного коду та датасетів.

Похожие статьи:

Внаслідок російської атаки на Київ помер інженер-програміст НАН України Сергій Колісник

Від поранень, отриманих внаслідок російської атаки на Печерський район Києва, помер Сергій Колісник. Він працював провідним...

8 февраля, Киев — Курсы для С# /.NET разработчиков в CyberBionic Systematics

Идет набор на курсы, которые начнутся 8 февраля 2016 года в CyberBionic Systematics. Приглашаем всех желающих пройти обучение по всей...

Представлен смартфон Huawei Mate 8

Как и ожидалось, состоялся анонс Huawei Mate 8, который компания назвала своим наиболее продвинутым флагманским смартфоном....

Как не поехать кукухой на позиции топ-менеджера, или Ментальное здоровье как главный принцип работы любого управленца

Существует огромное количество статей, научных трудов и практических советов по менеджменту в IT. Но найти...

Раптово помер співзасновник компанії ELEKS Олексій Скрипник

У Львові 23 лютого раптово помер Олексій Олексійович Скрипник, співзасновник та голова Наглядової ради...