Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

Державна архівна служба України вперше передасть свої дані для тренування національної мовної моделі «Сяйво».

Йдеться про 10 терабайтів унікальних історичних матеріалів, державних документів і наукових текстів. Про це повідомили в Мінцифри.

Такий масив даних дорівнює 70 000 книжок. У міністерстві пояснили, що тренування LLM на україномовних джерелах дозволить моделі краще розуміти український контекст. На сьогодні більшість великих ШІ-помічників працюють переважно на англомовних даних, а українською часто просто перекладають відповіді.

Голова Укрдержархіву Анатолій Хромов заявив, що передані дані містять великий масив матеріалів різних історичних епох — друкованих і рукописних, українською та іншими мовами. За його словами, до кінця 2026 року кількість цифрових копій у держархівах має зрости зі 150 млн до понад 200 млн.

У Мінцифри кажуть, що створення великої мовної моделі є частиною ширшого проєкту з побудови ШІ-суверенітету. Зараз для цього збирають якісний масив даних. За даними відомства, свої матеріали вже надали понад 50 медіа, університетів та бібліотек.

Похожие статьи:
Sketch — векторний графічний редактор інтерфейсів для Apple’s macOS — оголосив про припинення всіх своїх продажів у росії через її війну...
У рубриці DOU Проектор всі охочі можуть презентувати свій продукт (як стартап, так і ламповий pet-проект). Якщо вам є про...
Президент України Володимир Зеленський обурився бронюванням 1,5 мільйона осіб, уряд до 15 листопада 2024 року...
Our technology-driven society has become more and more dependent on the Internet for its necessary information and entertainment. This is why today’s business environment has to include...
На базі Київської школи економіки (KSE) запустили магістерську програму «Безпілотні літальні апарати»,...

Яндекс.Метрика