Databricks не смогла оспорить иск писателей о нарушении авторских прав при обучении нейросети

Databricks не смогла оспорить иск писателей о нарушении авторских прав при обучении нейросети

Дата публикации: 03.05.2026 Рубрика: Сфера услуг

Компания Databricks столкнулась с серьезными юридическими трудностями в рамках коллективного иска от группы писателей. Авторы утверждают, что при разработке большой языковой модели (LLM) DBRX использовалась база данных, содержащая около 196 000 пиратских копий книг. Судья окружного суда Северного округа Калифорнии Чарльз Брейер отклонил ходатайство компании о прекращении дела, признав доводы истцов достаточно вескими для продолжения разбирательства.

Предыстория конфликта и технические детали

В центре спора находится модель DBRX, выпущенная Databricks в марте 2024 года. Технологической основой для нее послужили наработки компании MosaicML, которую Databricks приобрела в 2023 году. Ранее MosaicML открыто заявляла об использовании набора данных RedPajama для обучения своих предыдущих моделей. Этот массив данных включал в себя печально известную базу Books3, которая позже была удалена с платформы Hugging Face из-за претензий правообладателей.

Несмотря на заявления Databricks о том, что авторы не могут доказать факт обучения конкретно модели DBRX на данных Books3, суд счел связь между продуктами MosaicML и новыми разработками компании очевидной. В материалах дела отмечается, что команда разработчиков, создававшая проблемные ранние модели, непосредственно руководила проектом DBRX.

Риски для бизнеса и возможные компенсации

Юристы подчеркивают, что последствия этого процесса могут стать катастрофическими для Databricks. Согласно американскому законодательству об авторском праве, предусмотрены значительные штрафы за каждое нарушение:

  • Размер компенсации может достигать 150 000 долларов за одно произведение (около 14 миллионов рублей по текущему курсу).
  • Общая сумма претензий при подтверждении умышленного нарушения может привести к ликвидации активов компании.
  • В список истцов вошли известные авторы, включая финалистку Пулитцеровской премии Ребекку Маккай и популярных писателей Джейсона Рейнольдса, Стюарта О’Нэна и Брайана Кина.

По мнению экспертов, для небольших технологических игроков подобные судебные разбирательства представляют экзистенциальную угрозу. В то время как такие гиганты, как Meta и Anthropic, смогли защититься в аналогичных спорах, ссылаясь на доктрину «добросовестного использования» (fair use), Databricks пока выбрала иную тактику защиты.

Аргументы защиты и позиция суда

Адвокаты Databricks называют претензии писателей «бессмысленными». В своем возражении они привели аналогию с автомобильной промышленностью: если автопроизводитель экспериментирует с технологиями очистки выбросов, используя запатентованный компонент, но в итоговой серийной машине этого компонента нет, владелец патента не может заявлять о нарушении прав на конечный продукт.

Однако сторона обвинения настаивает на том, что сам факт копирования книг в процессе разработки уже является нарушением. По словам обозревателей, судья Брейер требует от Databricks предоставления более детальной информации о каждом этапе обучения модели. Суду необходимо точно установить, что именно физически происходило с данными авторов на серверах компании.

В обзоре дела отмечается, что у Databricks остается два пути: либо доказать в суде «добросовестное использование» материалов, либо убедить следствие в том, что использование пиратских данных было случайной ошибкой, которая не оказала никакого влияния на финальный продукт и не нанесла реального ущерба авторам. На текущий момент компания предоставила тысячи страниц документов и терабайты данных, но этого оказалось недостаточно для закрытия дела.

Комментарии закрыты.