Анонс корпусу БрУК сучасної української мови

Навздогін попередній колонці, присвяченій темі комп’ютерної обробки української мови, мене уповноважили зробити такий анонс:

Корпусна група БрУК та група lang-uk оголошують про співпрацю над відкритим корпусом сучасної української мови (БрУК). Корпусна група БрУК — це неформальне горизонтальне об’єднання лінгвістів та програмістів, яке існує вже близько двох років. Учасники групи працюють на засадах волонтерства і розробляють лише відкриті ресурси та інструменти. Трохи більше, ніж півроку тому, група оголосила про випуск Великого електронного словника української мови (ВЕСУМ), про який писали тут. Зараз група працює над створенням корпусу української мови та над покращенням підтримки української мови у LanguageTool.

Корпус БрУК — відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови. Він складається з якісних текстів, зібраних за суворими критеріями, та побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown. Роботу над корпусом розпочали волонтери корпусної групи БрУК, і ми, волонтери групи lang-uk, також долучаємось до роботи над ним за напрямком автоматизації процесів, програмування та пошуку фінансування. Поява цього корпусу, а також розробка анотацій для нього (таких як частин мови, дерев розбору речень, іменованих сутностей тощо) відкриє широке поле для подальших досліджень і розробок у галузі комп’ютерної лінгвістики для української, а також для застосування вже наявних для англійської та інших поширених мов інструментів обробки природнього тексту.

Група БрУК вікрита до приєднання лінгвістів-волонтерів для роботи над корпусом. Все, що потрібно: знання української мови, трішки часу, ентузіазм та відкритість. Натомість ви маєте можливість долучитись до створення засадничого проекту української комп’ютерної лінгвістики на найближче майбутнє та отримати великий досвід у сучасному NLP.

Як приєднатись

Будь ласка, завітайте на r2u.org.ua/corpus — там є контакти команди БрУКу, а також вимоги до добирання текстів до корпусу.

Контактна адреса групи: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.

Також існує спільнота у фейсбуці: www.facebook.com/r2u.org.ua/

Похожие статьи:
У свіжому випуску новинного дайджесту DOU News розповідаємо про штучний інтелект, майбутнє українського ІТ, звільнення в Spotify та багато...
На IT-ринку все більше чути про те, що іноземні клієнти відмовляються працювати з українськими компаніями. Це поодинокі випадки...
[Павел Обод — основатель Growth Factory — обучающей платформы для IT-предпринимателей, организатор конференции Outsource People, CEO Sloboda Studio —...
У жовтні стартує онлайн-курс від EPAM для українських військових, які хочуть перекваліфікуватися в IT. Програма безплатна...
Печерський районний суд Києва визнав двох громадян винними у колабораціонізмі — веденні господарської діяльності...
Яндекс.Метрика