Що буде з ШІ та машинним навчанням далі? Розповідають фахівці Meta, Microsoft, Adobe та PrimerAI
Машинне навчання давно не дивує, коли мова про комп’ютерний зір або обробку природної мови. Але стрімкий розвиток великих мовних моделей в останні роки спричинив навіть не спалах, а вибух інтересу до ML та штучного інтелекту. В індустрії не припиняються суперечки: вийде ШІ на новий щабель розвитку чи після короткотривалого хайпу опиниться на плато?
Про тренди та перспективи машинного навчання та штучного інтелекту ми запитали у фахівців Meta, Microsoft, Adobe, а також поспілкувалися з науковцем, який працює в невеликому ШІ-стартапі.
На що можна чекати від машинного навчання поза LLM? Як розшириться коло завдань, які здатен розв’язувати ШІ? Чи й надалі індустрія залежатиме від нечисельних виробників чипів? Які перспективи має професія промптінженера? Чи можуть технології ШІ принести шкоду в руках кіберзлочинців та урядів-вигнанців? Як розвиток комп’ютерного зору може зробити дрони ще більш небезпечними і що таке Reinforcement Learning? Про все це читайте в матеріалі.
«Наступні рівні розвитку ШІ будуть про візуал та аудіо»
Майк Пєтєлін (Mike Pietielin), Production Engineer в Meta
LLM були першим проривом у штучному інтелекті. Вони наробили галасу, і всі про них знають. Але наступні рівні розвитку ШІ будуть про візуал та аудіо. Це зачепить багато професій. Зокрема, я вважаю, що в наступні три роки ми побачимо, як штучний інтелект створює всю рекламу за людей.
OpenAI та Meta вже презентували моделі, які добре працюють із зображеннями, відео та звуком: Sora та Meta Movie Gen. Поки що найсучасніші аудіовізуальні моделі мають закритий код. Вони є великим інтелектуальним здобутком, і корпорації прагнуть першими побудувати революційні IT-продукти на їхній основі. На мою думку, наступного року варто чекати на появу користувацького досвіду, якого ми ще не бачили. А за декілька років корпорації будуть готові відкрити свої розробки в галузі аудіовізуального ШІ, що сприятиме ще більшому прогресу. Закритість технологій є ризиком, адже може призвести до наростання дистанції між FAANG та меншими компаніями.
Минулого місяця на Meta Connect презентували шолом змішаної реальності Meta Quest 3S та розумні окуляри. Під час презентації Марк Цукерберг продемонстрував, як на окулярах працює аудіопереклад розмови в режимі реального часу, завдяки якому кожен користувач може говорити своєю мовою. З часом ШІ зможе відтворювати навіть інтонацію.
Такі пристрої все ще є залежними від інтернету та з’єднання з дата-центром, оскільки робота штучного інтелекту для розпізнавання аудіовізуальних сигналів потребує великих обчислювальних ресурсів. Навіть на смартфонах процесори недостатньо сильні, що є стримувальним чинником для аудіовізуального ШІ. Складні обчислення доводиться проводити на кластерах, що робить критичним гарний інтернет. Далеко від вишки аудіовізуальні моделі не працюватимуть.
Ще більше проблема якісного інтернету стоїть перед розробниками дронів. З урахуванням всіх глушилок для якісної роботи комп’ютерного зору на дроні мають працювати власні обчислювальні юніти, які все одно будуть слабкими, або оптоволокно, але це дорого.
Інфраструктура ШІ є дуже дорогою. Нині в галузі штучного інтелекту в пріоритеті швидкість, а не вартість. Якщо ти Meta, тобі потрібно робити кроки швидше, ніж інші (або хтось пережене і буде інша Meta). У компаній FAANG є на це гроші, але поставки чипів від Nvidia розплановані на
Гадаю, що ми побачимо більше компаній, які випускають обчислювальні потужності. Але не GPU, як зараз, а спеціалізовані юніти під тренування ШІ на кшталт AIPU. В тому числі FAANG розроблятимуть власні інфраструктурні рішення та менше залежатимуть від Nvidia. Закон Мура продовжуватиме діяти, а інвестиції в інфраструктуру допоможуть FAANG ще більше зменшити вартість в порівнянні з компаніями, які покладатимуться на Nvidia.
Ще однією тенденцією в FAANG є розробка внутрішніх корпоративних LLM. В Meta існує LLM Metamate, яка натренована на внутрішньому коді та вікі. Коли ти чогось не знаєш, можеш запитати Metamate. Але проблемою є те, що такі LLM натреновані на відносно невеликому наборі даних, тобто на внутрішніх знаннях корпорації. Тож відповідь не буде такою відполірованою, як від ChatGPT, натренованої на всьому інтернеті. Є тенденція на розробку маленьких LLM, які мають гарне знання одного конкретного документа.
LLM сьогодні мають декілька шарів. Деякі з них покликані контролювати безпеку. Де-факто вони перевіряють промпт і аутпут.
Я думаю, що промпт-інженер — тимчасова професія, яка скоро зникне, адже вже зараз LLM здатна виконувати функції такого інженера. Людям, які не мають навичок промпт-інжинірингу, буде все простіше взаємодіяти зі штучним інтелектом.
Модель o1 від OpenAI вміє гарно мислити. На відміну від інших моделей, вона здатна розв’язувати абстрактні задачі. Зараз моделі допускають 1% «галюнів», і якщо треба розв’язати комплексну задачу з багатьох кроків, кожен наступний крок збільшує шанс некоректного результату. Задача зі 100 кроків майже завжди отримає хибну відповідь. о1 намагається боротися з цим, але все ще недостатньо вдало. У майбутньому ми можемо побачити швидшу та більш точну модель, яка даватиме гарні результати на комплексних задачах. Але про те, щоб LLM сама вибирала дані для тренування, поки що не йдеться.
Як правило,
За п’ять років ми зможемо стати свідками систем контенту, який згенерований спеціально для конкретного користувача та вкидатиме максимум дофаміну. Це змінить спосіб взаємодії з контентом: нині ми вибираємо, що споживати, а в майбутньому стане можливим все генерувати під нас. Це не є безпечним, адже викликає залежність, і тут знадобляться регуляції. Одним із застосувань ШІ може стати персональний асистент, що натренований на ваших даних, а тому знає, коли вам треба прийняти ліки чи піти до барбера.
«Дрони стануть більш автономними і ще більш небезпечними»
Нікіта Гладкіх, Ph.D., Staff Software Engineer в PrimerAI
Люди сходять з розуму по LLM, всі їх тренують. Є думка, що достатньо дати LLM більше даних на етапі тренування, і можна отримати штучний інтелект загального призначення, AGI. Водночас недавно вийшла стаття відомих інженерів з машинного навчання з Apple, яка предметно доводить, що LLM мають обмеження, і загальний інтелект недосяжний на цьому етапі. Скільки б даних ти не дав, ти цього не доб’єшся.
Чудові результати на бенчмарках найтоповіших LLM деякою мірою виникають тому, що дані, які використовуються для тестування, так чи інакше потрапляють у модель. Можна сказати, що модель перетренована і просто знає відповіді.
Нині в LLM вкладають багато грошей. Використані всі дані, які тільки є в загальному доступі. Результати вражають, але далі ми, найімовірніше, виходимо на плато.
Наступний етап — це корпоративні ШІ-системи. Ті самі Anthropic, Mistral або ChatGPT беруться за базу та дотреновуються на закритих даних, якими володіє компанія або уряд. Отримуємо обізнані корпоративні інструменти, які можуть підвищити продуктивність, наприклад, аналітиків даних. Але не програмістів. Спираючись на LLM, ти швидше пишеш синтаксично правильний код, але створюєш багато багів, ігноруючи корнер-кейси та припускаючись логічних помилок, критичних для бізнесу.
Дехто каже, що скоро програмісти будуть не потрібні, але я не бачу перспективи заміни програміста штучним інтелектом. Нещодавно вийшло велике дослідження, присвячене використанню Copilot. Результат буде холодних душем для багатьох євангелістів ШІ: LLM знижує ефективність програміста приблизно на 40%. Звичайно, до цих публікацій потрібно ставитись обережно, оскільки набагато більше досліджень свідчать про позитивний вплив ШІ. Особисто я бачу штучний інтелект як ще один інструмент, який за неправильного використання принесе більше шкоди, ніж користі. Хоча LLM може допомогти програмісту в тому, щоб розібратися у великій кодовій базі або зробити рутинну задачу.
Я витратив багато часу, щоб інтегрувати LLM в більш складний продукт, де є API, а ШІ покликаний давати відповідь через багато кроків. Це виявилося неочікувано складним завданням, тому що LLM хоч і непогано відповідають у форматі, в якому попросиш, але не завжди. Коли LLM дев’ять разів дає тобі валідний JSON, а на десятий раз помиляється, це проблема.
Інтеграція SDK та API для моделей буде покращуватися. Ми вже використовуємо structured output від ChatGPT, коли LLM гарантує відповідь у форматі, який ти задав. Я очікую, що ми будемо бачити багатокрокові інтеграції з різними моделями, коли закладаєш певний алгоритм, на кожному етапі отримуючи структуровану відповідь і використовуючи її на наступних кроках.
Зараз чимало стартапів працюють над власними LLM. Це зміниться, щойно structured output вийде з бети в OpenAI, а також з’явиться в інших провайдерів. Все більше стартапів переходитимуть до створення рішень, що формують багатоступеневі запити до наявних LLM. Кінцевий користувач отримає більш ефективне вирішення своїх задач. Такі системи будуть повільнішими, але й розумнішими. Це дуже схоже на o1-preview від ChatGPT, яка працює з затримкою, але, як показують бенчмарки, дає повнішу відповідь. Згадана стаття від Apple порушує питання, а чи не є ця модель просто натренована на бенчмарках?
В Anthropic та ChatGPT вже зараз є кешування запитів, що підвищує ефективність і знижує вартість розв’язання однотипних задач з різними вхідними даними. Використання вільних ресурсів LLM, коли запитів менше, в майбутньому даватиме можливість відправити багато запитів і отримати відповідь асинхронно.
Якщо раніше ти мав знати бази даних, веб, фреймворки, то тепер додається ще один домен: промпт-інжиніринг. Люди отримують непогані гроші за те, що пишуть запити в LLM. Більшість промпт-інженерів прийшли з Data Science, рідше з бекенд-розробки. Бекграунд в Data Science допомагає таким спеціалістам, тому що спілкування з LLM природною мовою є оманливим. Тобі здається, що вона тебе розуміє, а вона просто видає наступний токен, що матиме сенс з якоюсь імовірністю. Це не людина, і промпт-інженер повинен розуміти, які чинники мають значення.
Я мав неочевидний кейс, коли для того, щоб LLM дала відповідь «Так» чи «Ні», потрібно було попросити її зробити самарі даних, отриманих на вхід. Без цього результат був гіршим. Щоб зрозуміти, як перформить промпт, потрібен масштаб, тому це теж Data Science.
Не все зводиться до LLM. Нещодавно Apple розробила модель, яка дає змогу отримати високоякісну 3D-проєкцію простору з фотографії. Якщо це працює так, як вони заявляють, це прорив. Цей винахід вплине на оборонну сферу. Ми можемо повісити на дрон одну-єдину камеру без жодних Lidar, і дрон орієнтуватиметься в 3D-просторі. Дрони стануть більш автономними та ще більш небезпечними.
«Великі мовні моделі дають змогу тренувати малі спеціалізовані моделі»
Тарас Кльоба, Senior Partner Solutions Architect, Data & Artificial Intelligence в Microsoft
Можливо, це звучить дещо банально, але я щиро вірю, що штучний інтелект, зокрема великі мовні моделі (LLM), — це нова електрика. Як електрика під час Другої промислової революції змінила кожну галузь та аспект людського життя, так і LLM сьогодні входять у наше повсякдення, трансформуючи різноманітні сфери — від мікробіології до космосу.
П’ять місяців тому на конференції Microsoft Build продемонстрували, як моделі можуть коментувати те, що відбувається на екрані користувача. Сьогодні ці LLM здатні ще й виконувати прості задачі замість користувача. Прогрес іде вкрай швидко, і ми постійно спостерігаємо нові приклади використання LLM.
Нині великі мовні моделі дають змогу тренувати малі спеціалізовані моделі, що суттєво знижує вартість ШІ-інфраструктури. Прикладом є модель Phi-3.5 від Microsoft, яка може запускатися на мобільних пристроях. Великі моделі, такі як GPT-4, можуть генерувати або анотувати великі набори даних. Ці дані потім використовуються для тренування менших моделей без необхідності в ручному маркуванні, що знижує витрати часу та ресурсів.
Малі моделі навчаються імітувати поведінку великих, переймаючи їхні знання та патерни. Це допомагає отримати модель з подібними можливостями, але з меншою кількістю параметрів і меншою потребою в обчислювальних ресурсах. Використання ефективних алгоритмів та оптимізованих архітектур зменшує обчислювальні витрати. Такі техніки, як прунінг (видалення непотрібних параметрів) та квантизація (зменшення точності параметрів), допомагають зменшити розмір моделі без значної втрати точності.
Є моделі, треновані на даних з сайтів вразливостей та експлойтів, які здатні генерувати шкідливий код і отримувати інформацію з інших інструментів, що використовуються для проведення кібератак. Такі ШІ-моделі можуть автоматизувати процеси атак на інфраструктуру, перевершуючи людину за швидкістю та ефективністю. Більшість кібератак відбувається у вихідні або поза робочим часом, а шкідливі агенти на основі LLM можуть працювати цілодобово, підвищуючи ризик успішних атак.
Крім того, є ризик, що державні організації в країнах, які не дотримуються міжнародних стандартів і перебувають під санкціями, можуть розробляти для кібератак спеціалізовані моделі без належних запобіжників. Це може становити серйозну загрозу для глобальної кібербезпеки. У майбутньому може виникнути потреба використовувати моделі LLM для захисту інфраструктури, оскільки ШІ досягає такого рівня, коли може виконати завдання краще за людину.
«RL добре справляється з проблемами, що вимагають послідовного ухвалення рішень»
Владислав Щербина, Software Architect в Adobe
На тлі лінгвістичних моделей сьогодні трохи недооцінений Reinforcement Learning (RL). RL дає змогу системі досягати певних цілей, причому вони можуть бути специфічні і їх можливо комбінувати. У RL є агент, який відповідає за активне дослідження оточення та завжди робить дії, щоб на це зовнішнє середовище вплинути (або ні).
Уявімо робота, який має сенсори та систему з датчиками на кшталт MTU, камерами з обробкою зображень машинним зором і двигунами, відповідальними за операції з кінцівками робота. Поставимо за мету навчити робота ходити прямо. Це можливо за допомогою тренування функції винагороди за успіх: певну швидкість робота та його положення. Увімкненою ця система завжди «жива» і взаємодіє з середовищем, вибирає якісь дії.
RL добре справляється з проблемами, що вимагають послідовного ухвалення рішень, коли дії агента впливають на майбутні стани та результати. Reinforcement Learning дає змогу враховувати довгострокові наслідки дій, з часом навчаючись складних стратегій. Це схоже на навчання людей: організм людини по суті так само оптимізує процеси для отримання винагороди зараз або в майбутньому, і цих функцій нагород у нас багато.
Найскладніше — це пояснити RL-системі зв’язок між дією та винагородою. Процес навчання таких моделей називається Q-learning. Щоб дії RL-системи не призвели до катастрофи в реальному житті, її навчають в умовах симуляції. Якщо ми хочемо навчити робота брати склянку, він має спробувати всі можливі дії та дізнатися, що розбите скло — це погано. Так само навчаються діти, коли падають — засвоюють, що падати не потрібно.
Кожен агент тренується під конкретне завдання. А от об’єднавши цих агентів, можна створити багатофункціональну систему. Масштабування обмежується лише обчислювальними потужностями.
RL має широке застосування від трейдингу до хірургічних операцій. У біржовій торгівлі зв’язок між дією та винагородою найбільш очевидний, адже вимірюється отриманим прибутком. Приклади RL можна побачити у робототехніці (Boston Dynamics), іграх (Unity) та автономному водінні (Tesla).
Reinforcement Learning посилить будь-яку систему, де за допомогою фідбеку можна покращити результат. Якщо хтось зможе створити RL-систему широкого застосування, настільки ж універсальну та популярну, як ChatGPT, Reinforcement Learning може стати новою хайповою темою. Але не хочу нічого обіцяти. RL не новий і досі не став масовим, зокрема через те, що його дорого тренувати.