У мережу виклали деталі про архітектуру GPT-4. Пишуть, що цей огляд не офіційний, але достатньо ґрунтовний

У мережі зʼявилися технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною. Деталі спершу опублікували у Twitter (наразі тред видалили), а згодом скопіювали на Reddit і Treadreader.

Як йдеться в короткому описі на Reddit, GPT-4 має 1,8 трлн параметрів на 120 рівнях, що в десять разів більше, аніж має GPT-3. GPT-4 використовує модель MoE (Mixture of Experts) із 16 експертами, кожен із яких має приблизно 111 млрд параметрів. MoE дозволяє робити логічне виведення ефективніше, потребуючи близько 280 млрд параметрів і 560 TFLOPs. Для щільної (попередньої) моделі потрібні були 1,8 трлн параметрів і 3700 TFLOPs.

«Якщо у кількох словах, то модель в десять разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у три рази», — підсумовує видання ITC.

«Судячи з усього, оцінка в 1.8 трлн параметрів на 120 рівнях виявилася правдивою, як і робота в режимі групи експертів. Це не офіційний, але достовірний огляд. Спиратися на нього не варто, але обговорювати можна», — зазначають у популярному Telegram-каналі «addmeto», який пише про новини зі світу технологій.

Модель навчається приблизно на 13 трлн токенів із різних джерел. Здебільшого це інтернет, книги та наукові статті. Щоб зменшити витрати на навчання, OpenAI використовує тензорний і конвеєрний паралелізм. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.

Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника DaVinci. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.

Більше інформації про архітектуру GPT-4 можна переглянути за посиланням.


Нагадаємо, OpenAI повідомила, що з 6 липня всі клієнти, які платять за доступ до ChatGPT API, мають доступ до GPT-4. Також у компанії анонсували, що планують припинити підтримку старих моделей інтерфейсів Completions API, користувачам рекомендують впровадити Chat Completions API.

Компанія також робить загальнодоступними API-інтерфейси GPT-3.5 Turbo, DALL E і Whisper. Фахівці працюють над безпечною можливістю тонкого налаштування для GPT-4 та GPT-3.5 Turbo. В OpenAI зазначили, що ця функція буде доступна упродовж цього року.

Похожие статьи:
У свіжому дайджесті DOU News обговорюємо чутки про масштабні скорочення в Playtika, атаку українських дронів на авіабази рф, збитки Apple через...
Приглашаем вас посетить бесплатное вводное занятие по курсу Java от Brain Academy. Вводное занятие включает в себя базовую информацию о Java,...
CDTO Міноборони Катерина Черногоренко під час YouTube-інтерв’ю для DOU розповіла про роботу над реєстром військовослужбовців, який...
RubyC-2016 invites Rubyists to Kyiv! On 4-5th of June 2016 RubyC will take place in Kyiv for the fourth time! RubyC is the major Ukrainian conference devoted to Ruby, Ruby on Rails and related technologies. Organized...
В украинском IT не более 10% технических специалистов, которые осознанно отказались от высшего образования. Мы нашли...
Яндекс.Метрика