Кілька компаній, що займаються розробкою систем штучного інтелекту, ігнорують ухвалений галуззю веб-стандарт, який дає змогу видавцям блокувати збирання свого контенту з метою його подальшого занесення до масивів для навчання генеративного ШІ. Про це повідомляє Reuters.
![](http://www.smartphone.ua/img/news/79713/ins/1719137557317.jpg)
Інформація про неправомірні дії розробників ШІ щодо сайтів ЗМІ з'явилася в рамках публічного розгляду ШІ-стартапу Perplexity і ресурсу Forbes, водночас компанії, які, імовірно, виявилися правопорушниками і постраждалими, не називаються. Ділове видання публічно звинуватило Perplexity в плагіаті матеріалів своїх розслідувань - у зведеннях, що складаються генеративним ШІ, виявляються матеріали Forbes без запитів дозволу і посилань на авторів. Пошуковий веб-сканер Perplexity, імовірно, ігнорує директиви, які вказуються видавцями у файлі robots.txt - поширений стандарт допомагає адміністраторам сайтів визначати, які розділи дозволено сканувати пошуковим роботам.
Про проблему повідомила компанія TollBit - стартап, який виступає посередником між ШІ-компаніями, що відчувають потребу в навчальних матеріалах, і відкритими для укладення ліцензійних угод видавцями. Perplexity - не єдиний порушник, який, ймовірно, ігнорує директиви robots.txt, вважають у TollBit. Зараз у базі посередника значаться 50 видавців, і "що більше журналів видавців ми приймаємо, то більше проявляється ця закономірність".
Протокол robots.txt був створений у середині дев'яностих років, щоб захистити сайти від перевантажень через пошукових роботів. Чіткого механізму правового примусу дотримуватися директив файлу не існує, але історично їх дотримувалися добровільно. Нещодавно robots.txt став основним інструментом, який видавці використовували, щоб не допустити безкоштовного включення їхнього контенту до масиву даних для генеративного ШІ. Цей контент використовується як для навчання ШІ, так і для створення зведень інформації на його основі в режимі реального часу.
Деякі видавці, включно з New York Times, намагаються засудити розробників ШІ за порушення авторських прав у зв'язку з використанням матеріалів для цих цілей. Інші підписують із творцями ШІ ліцензійні угоди. Сторони часто розходяться в думках щодо цінності матеріалів - деякі розробники навіть стверджують, що не порушують законів, отримуючи доступ до матеріалів ЗМІ безкоштовно.