Анонс корпусу БрУК сучасної української мови

Навздогін попередній колонці, присвяченій темі комп’ютерної обробки української мови, мене уповноважили зробити такий анонс:

Корпусна група БрУК та група lang-uk оголошують про співпрацю над відкритим корпусом сучасної української мови (БрУК). Корпусна група БрУК — це неформальне горизонтальне об’єднання лінгвістів та програмістів, яке існує вже близько двох років. Учасники групи працюють на засадах волонтерства і розробляють лише відкриті ресурси та інструменти. Трохи більше, ніж півроку тому, група оголосила про випуск Великого електронного словника української мови (ВЕСУМ), про який писали тут. Зараз група працює над створенням корпусу української мови та над покращенням підтримки української мови у LanguageTool.

Корпус БрУК — відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови. Він складається з якісних текстів, зібраних за суворими критеріями, та побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown. Роботу над корпусом розпочали волонтери корпусної групи БрУК, і ми, волонтери групи lang-uk, також долучаємось до роботи над ним за напрямком автоматизації процесів, програмування та пошуку фінансування. Поява цього корпусу, а також розробка анотацій для нього (таких як частин мови, дерев розбору речень, іменованих сутностей тощо) відкриє широке поле для подальших досліджень і розробок у галузі комп’ютерної лінгвістики для української, а також для застосування вже наявних для англійської та інших поширених мов інструментів обробки природнього тексту.

Група БрУК вікрита до приєднання лінгвістів-волонтерів для роботи над корпусом. Все, що потрібно: знання української мови, трішки часу, ентузіазм та відкритість. Натомість ви маєте можливість долучитись до створення засадничого проекту української комп’ютерної лінгвістики на найближче майбутнє та отримати великий досвід у сучасному NLP.

Як приєднатись

Будь ласка, завітайте на r2u.org.ua/corpus — там є контакти команди БрУКу, а також вимоги до добирання текстів до корпусу.

Контактна адреса групи: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.

Також існує спільнота у фейсбуці: www.facebook.com/r2u.org.ua/

Похожие статьи:
Поганий продакт-менеджер — хороший тато підприємець.Народна мудрість Привіт, мене звати Вова, і я — продакт-менеджер, автор подкасту...
Организатор: SmartMeСпикер: Васильев Алексей Релиз PostgreSQL 9.5 на носу. Что нового нам ждать? Как обновиться на новую версию с минимальным...
Здравствуйте, уважаемые читатели DOU. Меня зовут Константин Капралов и уже 7 месяцев я живу и работаю во Вроцлаве в продуктовой...
Власник компанії, яка забезпечує проведення онлайн-платежів через державний портал і застосунок «Дія», отримуючи з цього...
Приглашаем читателей DOU выразить свое мнение о работе в ИТ-отрасли в Украине. Этот опрос не о зарплатах...
Яндекс.Метрика