Reddit ограничивает доступ Internet Archive к контенту сообществ

Заметным побочным эффектом новой волны протекционизма в Интернете в ответ на то, что инструменты ИИ извлекают любые данные, которые они могут, является то, что это может означать для более широкого доступа к данным и возможности исследования исторических материалов, имеющихся в Интернете.

Сегодня Reddit объявил о начале блокировки ботов из «Wayback Machine» Архива Интернета из-за опасений, что проекты ИИ получают доступ к контенту Reddit с этого ресурса, который также является важным источником информации для многих журналистов и исследователей в Интернете.

Интернет-архив предназначен для ведения точного учёта всего контента (или его максимально возможной части), распространяемого в интернете, что служит важной задачей поиска и перепроверки справочных данных. Этот некоммерческий проект в настоящее время хранит данные примерно о 866 миллиардах веб-страниц, и, учитывая, что 38% всех веб-страниц, доступных в 2013 году, теперь недоступны , проект играет важную роль в сохранении нашей цифровой истории.

И хотя в прошлом ему приходилось сталкиваться с различными трудностями, эта последняя проблема может стать серьезным ударом, поскольку ценность защиты данных становится все более важным фактором для интернет-источников.

Reddit уже принял ряд мер по контролю доступа к данным, включая реформирование ценообразования API еще в 2023 году .

И теперь он нацелился на другие источники доступа к данным.

Как Reddit объяснил The Verge :

«Internet Archive предоставляет услуги для открытой сети, но нам известны случаи, когда компании, занимающиеся ИИ, нарушают политику платформы, в том числе и нашу, и похищают данные из Wayback Machine».

В результате The Wayback Machine больше не сможет сканировать информацию о различных сообществах Reddit, а сможет индексировать только главную страницу Reddit.com. Это значительно ограничит его возможности в этом направлении, и Reddit может стать первым из многих, кто введёт более строгие ограничения доступа.

Конечно, некоторые из основных социальных платформ уже максимально обезопасили данные своих пользователей, чтобы помешать сторонним инструментам красть их информацию и использовать ее в альтернативных целях.

Например, LinkedIn недавно одержала победу в суде над компанией, которая собирала данные пользователей и использовала их для своей собственной HR-платформы. LinkedIn и Meta уже подали иски против нескольких провайдеров, и эти судебные иски создают всё более весомый юридический прецедент против сбора данных и несанкционированного доступа. Подробности — LinkedIn демонстрирует охват и рекламный потенциал брендов.

Однако проблема остается в отношении публично размещенного контента и юридических вопросов относительно того, кому принадлежит тот контент, который находится в свободном доступе в Интернете.

Internet Archive и другие подобные проекты изначально доступны бесплатно, и тот факт, что они собирают любые доступные страницы и информацию, представляет определённый риск с точки зрения доступа к данным. И если провайдеры хотят сохранить свою информацию и контролировать её использование, им, естественно, следует принять меры для ограничения такого доступа.

Но это также будет означать меньшую прозрачность, меньше понимания и меньше исторических ориентиров для исследователей. А поскольку всё больше нашего взаимодействия происходит онлайн, со временем это может обернуться значительными потерями.

Но данные — это новая нефть, и по мере появления все большего количества проектов ИИ ценность конфиденциальных данных будет только расти.

Похоже, что рыночное давление будет диктовать этот элемент, что может ограничить усилия исследователей по пониманию ключевых изменений.

Reddit пытается ограничить доступ Internet Archive к своим сообществам

X делает Grok 4 бесплатным для всех пользователей, стремясь повысить интерес к своим предложениям в области искусственного интеллекта

TikTok запускает In-App Hub в честь нового альбома и тура Jonas Brothers

Related Posts