Запустили відкритий лідерборд для порівняння роботи LLM з українською мовою

В Україні з’явився відкритий лідерборд для порівняння великих мовних моделей за якістю роботи з українською мовою.

Його запустили розробники Lapa LLM у співпраці з командою MamayLM на базі бенчмарків, які використовували під час розробки. Про це повідомив один з розробників моделі Lapa LLM, аспірант УКУ, Юрій Панів.

Лідерборд показує, як різні LLM справляються з типовими завданнями українською: перекладом, стислим переказом, запитаннями-відповідями, логічними тестами, знаннями та математичними задачами. Дані відкриті — доступні не лише результати, а й код для відтворення тестів локально. На зараз лідерборд включає версії Lapa LLM, MamayLM, Qwen та Gemma.

У команді кажуть, що лідерборд планують розширювати. Серед наступних кроків — публікація повних логів бенчмарків, додавання оцінки візуальних задач, перевірка етичного елайнменту моделей, порівняння ефективності токенізаторів і відображення кількості параметрів. Також у планах — додати моделі, доступні через API, зокрема від OpenAI, Anthropic та Google, а також оцінювання квантованих версій LLM.

Сам лідерборд доступний на Hugging Face, а репозиторій з кодом — на GitHub. Користувачі можуть сортувати моделі за метриками, порівнювати їх між собою, будувати графіки й запускати ті самі тести у себе. Команда закликає розробників і дослідників залишати фідбек та пропозиції.

Розробники зазначають, що мета проєкту — поступово сформувати спільну, прозору основу для оцінки LLM з фокусом на українську мову.

Похожие статьи:
У грудні ми провели чергове анонімне зарплатне опитування, в якому взяли участь 10 280 ІТ-спеціалістів. Представляємо третю статтю...
Наприкінці червня Верховна Рада прийняла законопроєкт № 8401 щодо скасування податкових пільг для бізнесу. Ця норма набуває...
I love spending time outdoors with Leon and Michelle, who are my 2 adorable children. However, living in the U.K is normally great but the weather is generally unpredicatable and this is why we bought an Airwave Pop up...
Как сообщил председатель правления директоров компании Quanta Computer Барри Лэм (Barry Lam), в настоящий момент второе поколение...
Міністерство цифрової трансформації разом із кластером оборонних технологій Brave1 оголосили про запуск Brave1 Market....
Яндекс.Метрика