Nvidia trénovala AI na 500 TB knih, některé z nich upirátěné

Nové soudní dokumenty naznačují, že Nvidia mohla při trénování svých AI modelů sáhnout po datech z takzvaných „stínových knihoven“.

Reklama

Americký soud řeší hromadnou žalobu autorů, kteří Nvidii obviňují z porušení autorských práv při trénování jejích jazykových AI modelů. Nově zveřejněné podklady ukazují, že zaměstnanci firmy měli žádat o přístup k repozitáři Anna’s Archive – online knihovně, o níž bylo podle žaloby zřejmé, že obsahuje „miliony pirátských knih“. Přesto měl být přístup k datům schválen.

Podle dokumentů sdílených serverem TorrentFreak nabídla Anna’s Archive Nvidii také miliony knih z Internet Archive, které jsou běžně dostupné pouze v rámci digitálního půjčování. Žaloba tvrdí, že stažením těchto dat vznikly nelegální kopie chráněných děl. Autoři dále zmiňují i další zdroje jako Books3, LibGen, Sci-Hub nebo Z-Library.

Anna’s Archive se prezentuje jako „největší otevřená knihovna v historii“ a agreguje několik známých shadow knihoven – tedy archivů, které zpřístupňují jinak placený či chráněný obsah zdarma. Přímý důkaz, že Nvidia tato data skutečně použila, ale zatím chybí a firma se k aktuálním obviněním nevyjádřila.

Nvidia už dříve přiznala využití datasetu Books3 a brání se tím, že trénování AI spadá pod fair use. Podle firmy AI „nečte knihy“, ale pouze analyzuje statistické vzorce v datech. Právě o tom teď ale rozhodne soud – a výsledek může ovlivnit celý AI průmysl.

Reklama

Komentáře