Ілон Маск приєднався до думки інших експертів у галузі штучного інтелекту про те, що реальних даних для навчання ШІ-моделей практично не залишилося.
"Ми вичерпали практично весь накопичений обсяг людських знань для навчання ШІ. Це сталося фактично минулого року", - заявив Маск під час трансляції бесіди з головою Stagwell Марком Пенном на платформі X.
Маск, власник компанії xAI, підтримав ідеї, які колишній головний науковий співробітник OpenAI Ілля Суцкевер озвучив на конференції з машинного навчання NeurIPS у грудні. Суцкевер, який заявив про досягнення "піку даних" в індустрії ШІ, передбачив, що брак навчальних даних змусить змінити наявні підходи до розроблення моделей.
Маск запропонував рішення - використання синтетичних даних, що генеруються самими ШІ-моделями. "Єдиний спосіб доповнити реальні дані - це синтетичні дані, де ШІ сам створює навчальні матеріали. Із синтетичними даними ШІ оцінюватиме себе сам і проходитиме через процес самонавчання", - зазначив він.
Великі технологічні компанії, включно з Microsoft, Meta, OpenAI і Anthropic, вже використовують синтетичні дані для навчання своїх флагманських ШІ-моделей. За оцінками Gartner, 60% даних, використовуваних для проєктів у сфері ШІ та аналітики у 2024 році, були згенеровані синтетично. Модель Microsoft Phi-4, відкритий код якої було опубліковано цього тижня, навчалася на комбінації синтетичних і реальних даних. Аналогічний підхід використовувався під час створення моделей Google Gemma. Anthropic застосувала синтетичні дані під час розроблення однієї зі своїх найефективніших систем - Claude 3.5 Sonnet, а Meta поліпшила останню серію моделей Llama за допомогою ШІ-генерованих даних.
Навчання на синтетичних даних має низку переваг, включно з економічною ефективністю. Стартап Writer стверджує, що їхня модель Palmyra X 004, розроблена майже повністю на синтетичних джерелах, коштувала лише $700 000 - порівняно з оціночною вартістю $4,6 мільйона за порівнянну модель OpenAI.
Однак існують і недоліки. Деякі дослідження показують, що синтетичні дані можуть призвести до "колапсу моделі", коли ШІ стає менш "креативним" і більш упередженим у своїх результатах, що в кінцевому підсумку може серйозно порушити його функціональність. Оскільки моделі створюють синтетичні дані на основі вже наявних, будь-які упередження й обмеження у вихідних даних відтворюватимуться в їхніх результатах.