Навіщо розвивати українську мову в ІТ-секторі

[Від редакції: Олександр Краковецький — CEO компанії DevRain, співзасновник ДонорUA й Chatty, Microsoft Regional Director, Microsoft AI Most Valuable Professional, кандидат технічних наук. Ми звернулися до Олександра з проханням розповісти про ініціативи з розвитку української мови в IT. Також попросили висловити власну думку щодо того, чи важливо популяризувати державну мову в IT-галузі].

Disclaimer. У публікації я не торкаюся теми знання й використання англійської мови в ІТ-секторі. На моє переконання, це must have. Ідеально, саме англійська мова повинна стати другою державною в Україні. Я далекий від ідей націоналізму й не люблю, коли мовним питанням прикривають інші важливі проблеми. Я не проти російської мови, а проти ігнорування української. Враховуючи, що мовна тема потенційно вибухонебезпечна, я намагався висловлюватися максимально політкоректно й нейтрально.

Я народився у Вінниці в україномовній сім’ї, ходив до україномовної школи, дивився «Альфа» й «Трансформерів» у неперевершеному українському озвучуванні. І хоч такого шкільного предмета, як «російська мова» в мене не було, проблем з вивченням цієї мови я не мав. У Вінниці — типовий для центральної України мікс суржику, української й російської мов. Як і в інших містах, багато хто в публічному просторі намагався розмовляти російською, бо так «модно», а ще тому, щоб не дістати на горіхи від місцевої гопоти.

В університеті ситуація була схожа — 50/50. Дехто з викладачів намагався викладати російською, але цю ідею, передусім, не підтримала так звана «російськомовна» частина студентів. Можливо, тому, що насправді російськомовних там майже не було.

Тому я — класичний білінгв, що українською спілкувався в побуті та з україномовними друзями, а російською — в усіх інших місцях.

Попри те, що я на 100% технічна людина, завжди цікавився мовами й культурою інших народів. Подорожуючи світом, передусім, розпитую місцевих жителів, як вони живуть у багатомовному суспільстві, як ставляться до іноземців, чи складно експатові без знання локальної мови. Спойлер: ніде не люблять людей, які не хочуть учити мову тієї країни, де живеш. А ознайомившись із данським законом про національний прапор, усвідомив, що нашим націоналістам до данців ще дуже й дуже далеко.

Фото з конференції DeForum 2018, Київ

Мовна ситуація в IT і перехід на українську

Із замовниками я спілкувався англійською, з менеджментом — російською, з працівниками — українською. Досить типова ситуація в IT.

Паралельно почав проводити мітапи в межах Microsoft.NET User Group Vinnytsia. Українською.

Потім почав публікуватися на хабрі. Написав сотні статей, увійшовши в сотню найліпших авторів за всі часи, посідав другу позицію в загальному рейтингу авторів, опублікував книжку — збірку «Когда я говорил...». Російською.

Виступав на різних конференціях в Україні, РФ, Білорусі. Багато російськомовних колег приїжджали на українські конференції. Відповідно, виступав російською.

2011 року переїхав до Києва, де з мого оточення українською мало хто розмовляв. Той період майже весь був російськомовний.

Переломним моментом стала одна зі щорічних конференцій Microsoft, де мене дуже вкурвило те, що на заході, де мінімум 80% спікерів з України, не було жодного україномовного. Тому... я став першим і єдиним. Відтоді регулярно практикую здобуття неофіційного статусу «Єдиний україномовний спікер на українській конференції». Відразу скажу, що, з одного боку, сумно, з іншого — завжди дістаю подвійну порцію подяк. Не зайвим буде сказати, що ситуація повільно, але змінюється.

2014 року перед Майданом більшість наших замовників були з РФ. За кілька місяців ми звели це число до нуля. Потреба щодня спілкуватися російською мовою відпала сама собою. І цієї миті я на 100% перейшов на українську мову, крім випадків, де спілкування російською доцільне й виправдане.

Намагався писати статті для «Вікіпедії». Не склалося. Мої статті й правки постійно відкидали, а після кількох невдалих спроб спілкування з адмінами, спостерігав у прямому етері, як усі мої статті (англомовні зокрема) стирали. Не те, щоб я був одним з найліпших контрибуторів, але однаково жаль.

Я був один з ініціаторів створення сайту Ukrainian Language на Stack Exchange — Stack Overflow для української мови. Усе відбувалося в кілька етапів. Спочатку список тестових запитань і відповідей, потім — пошук «кістяка» команди, закрита альфа, закрита бета, відкрита бета тощо. На це пішло кілька місяців щоденної роботи. Аудиторію збирав скрізь в Інтернеті, зокрема й на DOU. Якоїсь миті ми були на межі провалу. Одному з адмінів не сподобалося, що я привів 80% усіх лідів. Але відступати не було куди — ми таки проштовхнули створення цього порталу. Сайт працює вже два роки. І я дуже тішуся з того, що все вдалося, і цей портал функціонує.

Наступним кроком стала відмова від російськомовних книжок. А щороку я купую 100–150 книжок (читаю, правда, у 5–10 разів менше). Тим паче, що україномовні книжки вдвічі-втричі дешевші за російськомовні.

Тішить той факт, що з’явилися нішеві українські ресурси: дуже якісні й щирі. Наприклад: Tokar.ua, The Ukrainians, «Куншт», Ukrainer та інші, які завжди залюбки читаю і по змозі підтримую фінансово.

Як заговорити українською

Російськомовній людині насправді легше навчитися чисто розмовляти українською. Україномовним громадянам потрібно боротися з говірками, суржиком і діалектами. Окей, боротися, можливо, й не потрібно. Але вважаю, що для людей, які виступають публічно, важливо говорити правильно.

Можу порекомендувати чудовий проект-антисуржик, а також книжки Олександра Авраменка «100 експрес-уроків української».

На одній з лекцій, де розповідали про видавничий бізнес, «експерти» всі як один радили писати російською, бо українською шансів стати популярним немає. Раджу читати Макса Кідрука, що пише українською дуже достойні твори і при цьому — досить популярний.

Труднощі та як їх подолати

Мова — динамічний організм. На жаль, зрозумілої стратегії, екосистеми, стандартизованої термінології та підходів до розв’язання мовних проблем немає (принаймні за межами академічного середовища). Крім того, нема й зрозумілого підходу щодо того, як нові слова повинні утворюватися й потрапляти в словники.

Наприклад, у США є правило — якщо слово вжито понад 1 млн разів у ЗМІ, телебаченні чи в онлайні, то його зобов’язані занести в словник.

Отак в американців нещодавно з’явилися нові слова:

  • to google — шукати щось в Інтернеті;
  • to friend / to unfriend — подружитися з кимось у соціальній мережі або вилучити когось із друзів у соціальній мережі тощо.

А ми й досі не знаємо, як правильно говорити: «застосунок» чи «додаток». Хоч не «аплікація» — і то добре.

Завжди акцентую увагу на тому, що українську мову погано представлено на світовій арені. Це вже спричинює цифрову нерівність.

Щоб змінити цю ситуацію, потрібно або обернути українців на англомовну націю, або активно розвивати напрям Natural Language Processing для української мови. Поки що і перший, і другий сценарій має утопічний вигляд. А це, своєю чергою, поглиблюватиме цифрову нерівність між Україною і світом.

Як це змінити?

Ми, як IT-компанія, постійно експериментуємо з алгоритмами й навіть створили ДонорUA.Бот, що допомагає визначити, чи може людина бути донором крові. Хоч і поганенько, але бот «розуміє» українську мову. Ще кілька прикладів NLP для української можна знайти тут. На жаль, у відкритому доступі майже немає великої кількості словників, наборів даних тощо. І це унеможливлює динамічний розвиток Ukrainian NLP.

Наш проект, ДонорUA, на 100% україномовний і ніколи не мав дублювання російською. За п’ять років функціонування проекту в нас не було жодної проблеми з цим.

Як Microsoft Regional Director (нагорода компанії Microsoft) лобіюю підтримку української мови в Azure Cognitive Services та інших сервісах. На жаль, для того, щоб щось змінити кардинально, зусиль однієї людини замало — повинен бути запит суспільства та бізнесу. А також велика кількість відкритих корпусів, словників, алгоритмів і бібліотек. Більшості цих матеріалів або немає, або вони недоступні публічно.

Також періодично я пишу про те, як ті чи інші сервіси на кшталт Facebook, Google чи Microsoft реагують на зміни в мовних налаштуваннях (наприклад, Google принципово підсовує російськомовні ресурси, навіть якщо ви вимкнули цю опцію), чому не можна довіряти офіційній мовній статистиці в Інтернеті і як працює налаштування локалізації в браузерах та операційній системі.

Щодо «українських» квот

Якби в нас була правова держава, можливо, більшість «мовних» законів були б не потрібні. Працював би здоровий глузд у парі з боязню залишитися без ліцензії, нарвалися на величезний штраф або залишитися без клієнтів. Але практика свідчить, що навіть закони в нас не завжди діють. А на рекомендації ніхто навіть не звертає увагу. Тому квоти потрібні.

З іншого боку, сама ідея квот мені принципово не подобається. Вважаю, що загальнонаціональні ЗМІ не можуть використовувати будь-яку іншу мову, крім державної. Водночас можуть існувати ЗМІ, які на 100% російськомовні або на 100% англомовні. І вони, і мовні «гібридні» канали повинні бути лише в платних кабельних або супутникових мережах, YouTube, — де завгодно, але не на загальнонаціональному рівні.

Бо ось що маємо.

Приходжу я на радіо до україномовного журналіста, щоб поговорити про український продукт для українців. Але саме ця передача підпадає під внутрішню «російську» квоту і ведучий переходить на російську.

Або коли українське видання просить написати для них статтю, яку я готую українською і яку потім перекладають з української на російську. І це все відбувається на тлі розмов, що локалізація кількома мовами — дорогий і невигідний процес.

Це нонсенс.

Такі закони правильні й з погляду економіки.

Наприклад, коли ви хочете одержати прокатне свідоцтво на показ свого фільму в Китаї або Німеччині, ви ЗОБОВ’ЯЗАНІ зробити китайське або німецьке дублювання, вести комунікацію, SMM китайською або німецькою. А отже, ви змушені наймати локальних носіїв цих мов і локальні компанії, що вам допомагатимуть. А це — прямі інвестиції в економіку тих країн.

Нині виходить, що перекладачі на українську чи з української, спеціалісти з озвучування не мають багато замовлень. Також немає величезної кількості компаній, які пропонують послуги з локалізації інтерфейсів, програмного забезпечення тощо. Через це економіка втрачає чимало грошей.

Така ситуація спричинює те, що більшість світових компаній не наймають україномовних людей, які могли б опікуватися українським ринком. Саме тому й сталися ці масові блокування у фейсбуці, а більшість світових компаній зараховують Україну до регіонів з центром у Москві (іноді в Польщі чи Ірландії), але точно не в Києві чи Львові. Багато світових сервісів не лише не має української локалізації чи україномовних продуктів, а й блокує доступ до своїх сервісів.

Є й інші напрацювання, про які говорити зараз не можу. Проте сподіваюся, що через деякий час і про них теж зможу розповісти.

Замість висновків

  1. Кілька років тому, виступаючи (російською) на одній з конференцій Microsoft в Росії, я дістав низькі оцінки від учасників. Виявилося, що проблема в тому, що слайди презентації були англійською, а не російською. В Україні такої проблеми немає.
  2. Україна більш орієнтована на глобальний ринок завдяки аутсорсу, а отже, знання англійської — мінімальний критерій здобуття роботи в більшості IT-компанії. Тому знання української/російської не принципові.
  3. Локальний ринок у нас такий мізерний, що будь-які мовні дискусії завершуються не розпочавшись. Нішеві продукти україномовні, більшість розробок — російськомовні (щоб охопити країни екссовка), а глобальні продукти — на 100% англомовні.

Звісно, у такій ситуації важко говорити про реальний розвиток NLP, персональних асистентів, систем машинного навчання в контексті української мови. Тому просунутіша частина використовуватиме закордонні розробки, а всі інші — російські, російськомовні сервіси або... ніякі.

Мені хочеться вірити, що ситуація змінюватиметься в ліпший бік. Як на рівні суспільства (що вже поступово відбувається), так і на рівні держави (тут складніше).

А поки радий був поділитися тими невеликими здобутками, які все ж вдалося зреалізувати.

Похожие статьи:
Всім привіт, мене звати Матвій, я працюю Data Scientist-ом. Моя робота складається з попередньої обробки даних, розвитку та розгортання...
У росії та на тимчасово окупованих територіях незаконно утримують щонайменше 1867 цивільних українців. Ця цифра не є повною,...
Представляємо фінальну статтю циклу про зарплати. У попередніх ми розглядали розробників і тестувальників. У цій статті...
Можно ли автоматизировать не тестирование, а процесс создания тестов? Конечно, это, как правило, более сложная задача,...
ДТЕК обіцяє відключення електроенергії не довше ніж на п’ять годин. JavaScript — найпопулярніша мова програмування...
Яндекс.Метрика