ШІ Gemini виявився зовсім не таким хорошим в обробці великих обсягів даних, як заявляла Google

Нові дослідження ставлять під сумнів заяви Google про можливості великих мовних моделей моделей Gemini з обробки великих обсягів даних, показуючи, що їхня ефективність в аналізі довгих текстів і відео значно нижча за заявлену.

Нещодавні дослідження виявили суттєві недоліки в роботі флагманських генеративних моделей штучного інтелекту Google Gemini 1.5 Pro і 1.5 Flash, пише видання TechCrunch. Google неодноразово підкреслювала здатність Gemini обробляти величезні обсяги даних завдяки великому контекстному вікну, стверджуючи, що моделі можуть аналізувати документи об'ємом у сотні сторінок і шукати інформацію у відеозаписах. Однак два незалежних дослідження показали, що на практиці ці моделі справляються з такими завданнями набагато гірше.

Науковці з Массачусетського університету в Амхерсті (UMass Amherst), Інституту Аллена зі штучного інтелекту (Allen Institute for AI) і Прінстона (Princeton University) тестували Gemini на здатність відповідати на запитання щодо змісту художніх книг. Представлена для тесту книга містила близько 260 000 слів (близько 520 сторінок). Результати виявилися невтішними. Gemini 1.5 Pro правильно відповів тільки в 46,7 % випадків, а Gemini 1.5 Flash лише в 20 % випадків. Далі усереднивши результати, з'ясувалося, що жодна з моделей не змогла досягти точності відповідей на запитання, вищої за випадкову.

Маржена Карпінска (Marzena Karpinska), співавторка дослідження, зазначила: "Хоча такі моделі, як Gemini 1.5 Pro, технічно можуть опрацьовувати довгі контексти, ми бачили багато випадків, які вказували на те, що моделі насправді не розуміють змісту".

Друге дослідження, проведене вченими з Каліфорнійського університету в Санта-Барбарі, фокусувалося на здатності Gemini 1.5 Flash аналізувати відеоконтент, а точніше слайди із зображеннями. Результати також виявилися незадовільними - з 25 зображень ШІ дав правильні відповіді тільки в половині випадків, а при збільшенні кількості картинок точність відповідей знизилася до 30 %, що ставить під сумнів ефективність моделі в роботі з мультимедійними даними.

Щоправда, наголошується, що жодне з досліджень не пройшло процес рецензування, і до того ж не тестувалися найостанніші версії моделей з контекстом у 2 мільйони токенів. Проте отримані результати викликають серйозні питання щодо реальних можливостей генеративних моделей ШІ загалом, і щодо того, наскільки обґрунтованими є маркетингові заяви технологічних гігантів.

Ці дослідження з'явилися на тлі зростаючого скептицизму щодо генеративного ШІ. Так, нещодавні опитування міжнародної консалтингової компанії Boston Consulting Group засвідчили, що близько половини опитаних керівників вищої ланки не очікують істотного підвищення продуктивності від використання генеративного АІ та стурбовані можливими помилками й проблемами з безпекою даних.

Експерти ж закликають до розроблення більш об'єктивних критеріїв оцінювання можливостей ШІ та до більшої уваги й незалежної критики. Google поки що не прокоментував результатів цих досліджень.

ШІ Gemini виявився зовсім не таким хорошим в обробці великих обсягів даних, як заявляла Google

Обговорення новини

Попередні новини