Reddit намагається обмежити доступ Internet Archive до своїх спільнот

by Денис Нагорный
3 просмотры 3 minutes read
Reddit пытается ограничить доступ Internet Archive к своим сообществам

Відчутним побічним ефектом нової хвилі протекціонізму в інтернеті у відповідь на те, що інструменти ШІ витягують будь-які дані, які можуть, є те, що це може означати для ширшого доступу до даних і можливості дослідження історичних матеріалів, доступних в мережі.

Сьогодні Reddit оголосив про початок блокування ботів із «Wayback Machine» Інтернет-архіву через побоювання, що проєкти ШІ отримують доступ до контенту Reddit з цього ресурсу, який також є важливим джерелом інформації для багатьох журналістів та дослідників в інтернеті.

Інтернет-архів призначений для ведення точного обліку всього контенту (або його максимально можливої частини), який поширюється в інтернеті, що виконує важливе завдання пошуку та повторної перевірки довідкових даних. Цей некомерційний проєкт наразі зберігає дані приблизно про 866 мільярдів вебсторінок, і, враховуючи, що 38% усіх вебсторінок, доступних у 2013 році, тепер недоступні, проєкт відіграє важливу роль у збереженні нашої цифрової історії.

І хоча в минулому йому доводилося стикатися з різними труднощами, ця остання проблема може стати серйозним ударом, оскільки цінність захисту даних стає все більш важливим фактором для інтернет-джерел.

Reddit вже вжив низку заходів для контролю доступу до даних, зокрема реформував ціноутворення API ще у 2023 році.

І тепер він націлився на інші джерела доступу до даних.

Як пояснив Reddit виданню The Verge:

«Internet Archive надає послуги для відкритої мережі, але нам відомі випадки, коли компанії, що займаються ШІ, порушують політику платформи, зокрема й нашу, та викрадають дані з Wayback Machine».

У результаті The Wayback Machine більше не зможе сканувати інформацію про різні спільноти Reddit, а зможе індексувати лише головну сторінку Reddit.com. Це суттєво обмежить його можливості в цьому напрямку, і Reddit може стати першим з багатьох, хто запровадить суворіші обмеження доступу.

Звісно, деякі з основних соціальних платформ вже максимально захистили дані своїх користувачів, щоб завадити стороннім інструментам викрадати їхню інформацію та використовувати її в альтернативних цілях.

Наприклад, LinkedIn нещодавно здобула перемогу в суді над компанією, що збирала дані користувачів і використовувала їх для власної HR-платформи. LinkedIn і Meta вже подали позови проти кількох провайдерів, і ці судові процеси формують дедалі вагоміший юридичний прецедент проти збирання даних і несанкціонованого доступу. Докладніше — LinkedIn демонструє охоплення та рекламний потенціал брендів.

Однак проблема залишається щодо публічно розміщеного контенту та юридичних питань стосовно того, кому належить той контент, який перебуває у вільному доступі в інтернеті.

Internet Archive та інші подібні проєкти спочатку були доступними безкоштовно, і той факт, що вони збирають будь-які доступні сторінки та інформацію, становить певний ризик з точки зору доступу до даних. І якщо провайдери хочуть зберегти свою інформацію та контролювати її використання, їм, природно, слід вживати заходів для обмеження такого доступу.

Але це також означатиме меншу прозорість, менше розуміння та менше історичних орієнтирів для дослідників. А оскільки дедалі більше нашої взаємодії відбувається онлайн, з часом це може обернутися значними втратами.

Але дані — це нова нафта, і зі зростанням кількості проєктів ШІ цінність конфіденційних даних лише зростатиме.

Схоже, що ринковий тиск диктуватиме цей елемент, що може обмежити зусилля дослідників щодо розуміння ключових змін.

Related Posts

Leave a Comment