Nvidia обвинили в использовании пиратских книг из Anna's Archive

Американский технологический гигант Nvidia оказался в центре юридического противостояния, связанного с методами наполнения баз данных для своих интеллектуальных систем. В обновленном коллективном иске, инициированном группой литераторов, утверждается, что корпорация стремилась получить доступ к колоссальному собранию нелегального контента. Речь идет о платформе Anna's Archive, которая аккумулирует цифровые копии миллионов изданий, защищенных авторским правом.

Суть претензий

Как сообщает профильный ресурс TorrentFreak, истцы обнаружили свидетельства того, что разработчик графических процессоров рассматривал теневые библиотеки как приоритетный источник для совершенствования своих нейросетевых алгоритмов. Эти сведения стали частью расширенной жалобы, подчеркивающей систематический характер поиска бесплатных материалов для тренировки ИИ. Авторы настаивают, что коммерческий успех современных технологических решений напрямую базируется на использовании их интеллектуальной собственности без получения соответствующего разрешения или выплаты компенсаций.

Контекст

Проблема обучения больших языковых моделей (LLM) на нелицензионных текстах стала одной из самых острых в Кремниевой долине за последний год. Ранее индустрия уже сталкивалась с критикой из-за набора данных Books3, содержащего около 196 000 наименований из пиратских источников. Многие крупные игроки рынка, включая OpenAI и Meta, апеллировали к доктрине «добросовестного использования», однако правообладатели считают такой подход формой цифрового пиратства в промышленных масштабах. Случай с производителем чипов выделяется тем, что компания якобы целенаправленно пыталась обойти ограничения для доступа к наиболее полным архивам «серого» сегмента интернета.

Что это значит

Данный судебный процесс способен радикально изменить правила игры в сфере машинного обучения. Если требования истцов будут удовлетворены, это создаст прецедент, обязывающий технологические компании раскрывать происхождение каждого байта в своих обучающих выборках. Сейчас многие структуры скрывают источники информации, ссылаясь на коммерческую тайну. В будущем разработчикам может потребоваться проведение независимых аудитов для подтверждения легальности используемого контента.

Для бизнеса, чья рыночная капитализация во многом зависит от доминирования в сегменте ИИ-оборудования, подобные обвинения несут не только финансовые, но и операционные риски. В худшем случае корпорации придется полностью переобучать свои модели, исключая из них любые фрагменты, полученные из сомнительных источников. Это может замедлить темпы технологического прогресса, но одновременно обеспечит справедливое вознаграждение для создателей оригинальных произведений.