Дек. 24

Запустили відкритий лідерборд для порівняння роботи LLM з українською мовою

В Україні з’явився відкритий лідерборд для порівняння великих мовних моделей за якістю роботи з українською мовою.

Його запустили розробники Lapa LLM у співпраці з командою MamayLM на базі бенчмарків, які використовували під час розробки. Про це повідомив один з розробників моделі Lapa LLM, аспірант УКУ, Юрій Панів.

Лідерборд показує, як різні LLM справляються з типовими завданнями українською: перекладом, стислим переказом, запитаннями-відповідями, логічними тестами, знаннями та математичними задачами. Дані відкриті — доступні не лише результати, а й код для відтворення тестів локально. На зараз лідерборд включає версії Lapa LLM, MamayLM, Qwen та Gemma.

У команді кажуть, що лідерборд планують розширювати. Серед наступних кроків — публікація повних логів бенчмарків, додавання оцінки візуальних задач, перевірка етичного елайнменту моделей, порівняння ефективності токенізаторів і відображення кількості параметрів. Також у планах — додати моделі, доступні через API, зокрема від OpenAI, Anthropic та Google, а також оцінювання квантованих версій LLM.

Сам лідерборд доступний на Hugging Face, а репозиторій з кодом — на GitHub. Користувачі можуть сортувати моделі за метриками, порівнювати їх між собою, будувати графіки й запускати ті самі тести у себе. Команда закликає розробників і дослідників залишати фідбек та пропозиції.

Розробники зазначають, що мета проєкту — поступово сформувати спільну, прозору основу для оцінки LLM з фокусом на українську мову.

Похожие статьи:

Максим Бахматов став новим CEO Techosystem. Він досі планує стати мером Києва

З 30 січня 2025 року посаду CEO української стартап-спільноти Techosystem обійняв Максим Бахматов. Він замінив на цій посаді Катерину Гречко, яка...

15 февраля, Киев — Курсы Linux администрирования

IT Education Center объявляет запись новых групп на курсы по Администрированию Linux. Начало обучения с 15.02.16 Программа подготовки Linux...

Front-Еnd дайджест #19: Yarn, Node v7 и Fiber

В выпуске: Progressive web-app на React.js с Эдди Османи, материалы по ELM, WebAssembly, MobX и Vue.js 2, а также конференции React Next, Reactive Conf, GraphQL Summit,...

«В аутсорсі краще бачиш тренди розвитку ІТ». Тарас Кльоба — про нові підходи в роботі з Big Data, хакатон НАТО та місце світчерів на ринку

Тарас Кльоба — Big Data Engineering Manager у SoftServe і співзасновник спільноти PostgreSQL Ukraine. Свого часу він облишив роботу...

Tele2 запускает новый тариф для московских абонентов

Оператор мобильной связи Tele2 объявил о расширении линейки пакетных тарифных планов в Московском регионе и...