Анонс корпусу БрУК сучасної української мови

Навздогін попередній колонці, присвяченій темі комп’ютерної обробки української мови, мене уповноважили зробити такий анонс:

Корпусна група БрУК та група lang-uk оголошують про співпрацю над відкритим корпусом сучасної української мови (БрУК). Корпусна група БрУК — це неформальне горизонтальне об’єднання лінгвістів та програмістів, яке існує вже близько двох років. Учасники групи працюють на засадах волонтерства і розробляють лише відкриті ресурси та інструменти. Трохи більше, ніж півроку тому, група оголосила про випуск Великого електронного словника української мови (ВЕСУМ), про який писали тут. Зараз група працює над створенням корпусу української мови та над покращенням підтримки української мови у LanguageTool.

Корпус БрУК — відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови. Він складається з якісних текстів, зібраних за суворими критеріями, та побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown. Роботу над корпусом розпочали волонтери корпусної групи БрУК, і ми, волонтери групи lang-uk, також долучаємось до роботи над ним за напрямком автоматизації процесів, програмування та пошуку фінансування. Поява цього корпусу, а також розробка анотацій для нього (таких як частин мови, дерев розбору речень, іменованих сутностей тощо) відкриє широке поле для подальших досліджень і розробок у галузі комп’ютерної лінгвістики для української, а також для застосування вже наявних для англійської та інших поширених мов інструментів обробки природнього тексту.

Група БрУК вікрита до приєднання лінгвістів-волонтерів для роботи над корпусом. Все, що потрібно: знання української мови, трішки часу, ентузіазм та відкритість. Натомість ви маєте можливість долучитись до створення засадничого проекту української комп’ютерної лінгвістики на найближче майбутнє та отримати великий досвід у сучасному NLP.

Як приєднатись

Будь ласка, завітайте на r2u.org.ua/corpus — там є контакти команди БрУКу, а також вимоги до добирання текстів до корпусу.

Контактна адреса групи: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.

Також існує спільнота у фейсбуці: www.facebook.com/r2u.org.ua/

Похожие статьи:
Международная ассоциация IAOP опубликовала ежегодный рейтинг лучших аутсорсинговых компаний — The 2017 Global Outsourcing 100. В этом году в рейтинг...
У цій статті описано DDD-підхід для побудови Ruby on Rails проекту. Окрім того, надано приклад використання автоматичних додатків для...
Артем «Стенфорд» Романюков — командир підрозділу 15-ї окремої бригади артилерійської розвідки, для якої DOU збирає кошти...
Представляю огляд навчальних програм для тих, хто хоче почати свою кар’єру в ІТ. В цьому дайджесті зібрані можливості,...
До Дія City вже приєдналися 498 компаній. В Опендатабот проаналізували, із яких країн походять іноземні резиденти,...
Яндекс.Метрика