Anthropic, Claude 훈련용으로 중고책 수백만 권을 잘라서 스캔하고 700만 권 | GeekNews

요약

️ 한 판사는 Anthropic이 AI 챗봇 Claude 훈련을 위해 수백만 권의 중고 도서를 구매하여 디지털화한 행위는 "매우 변형적(exceedingly transformative)"이므로 공정 사용에 해당한다고 판결했습니다.

그러나 Anthropic이 Library Genesis 등에서 700만 권 이상의 불법 복제 도서를 다운로드하여 훈련에 사용한 것은 명백한 저작권 침해로 규정되었습니다.

이번 판결은 AI 모델 훈련 데이터 소싱과 관련하여 저작권 적용에 대한 중요한 선례를 제시하며, 향후 AI 산업의 저작권 논란에 큰 영향을 미칠 것으로 평가됩니다.

상세 내용

미국 캘리포니아 북부 지방 법원의 William Alsup 판사는 Anthropic의 AI 챗봇 Claude 훈련 데이터 소싱 방식에 대한 중요한 판결을 내렸습니다. 이 판결은 AI 모델 훈련 시 저작권 적용에 대한 중요한 선례로 평가받고 있습니다.

핵심 판결 내용:

판사는 Anthropic이 Claude 훈련을 위해 사용한 두 가지 주요 도서 데이터 획득 방식에 대해 각각 다른 판단을 내렸습니다.

구매 도서 디지털화 및 활용 (공정 사용 인정):

* 방법론: Anthropic은 수백만 달러를 투자하여 대량의 중고 도서를 구매했습니다. 이들은 구매한 도서의 제본을 분리하고 페이지를 절단하여 디지털 파일로 변환했습니다. 변환된 파일은 Anthropic의 사내 리서치 라이브러리(internal research library)에 저장되었으며, 원본 물리적 도서는 처분되었습니다.
* 판사의 판단: 판사는 이 행위를 "매우 변형적(exceedingly transformative)"이라고 판단하며 공정 사용(fair use)에 해당한다고 인정했습니다. 판결문에서는 "Anthropic의 LLM은 기존 문서를 단순 복제하거나 대체하려는 것이 아니라, 완전히 다른 것을 창조하기 위해 학습한다"고 언급하며, 회사가 직접 구매한 도서를 디지털화하여 내부 라이브러리에 보관하고 AI 학습 데이터로 사용하는 것은 공정 사용이라고 명시했습니다. 이는 AI 모델이 원본 콘텐츠를 그대로 출력하는 것이 아니라, 이를 통해 학습하여 새로운 지식과 패턴을 생성하는 변형적 목적(transformative purpose)을 가지기 때문입니다.

* 방법론: Anthropic은 별도로 700만 권이 넘는 불법 복제 도서(pirated books)를 다운로드하여 Claude 모델 훈련에 이용했습니다. Anthropic의 공동 창립자 Ben Mann은 2021년에 Library Genesis에서 최소 500만 권의 도서를, 2022년에는 Pirate Library Mirror에서 최소 200만 권을 추가로 불법 다운로드했음을 인정했습니다. 공동 창립자 겸 CEO Dario Amodei는 "법적·관행적·비즈니스적 번거로움을 피하기 위해 도서를 훔치는(steal) 것을 더 선호"했다고 언급하기도 했습니다.
* 판사의 판단: 판사는 Anthropic이 해적판(불법 복제본) 도서를 데이터로 활용한 점에 대해 단호하게 비판하며 공정 사용이 아니라고 판단했습니다. "Anthropic는 중앙 라이브러리(central library)에서 불법 복제 도서를 사용할 권리가 없으며, 영구적·범용 라이브러리 구축이 자체적으로 공정 사용을 정당화하지 않는다"고 명시하며 명백한 저작권 침해(copyright infringement)임을 강조했습니다. 이는 불법적으로 획득된 저작물을 기반으로 하는 데이터셋 구축 행위는 그 자체로 저작권 위반이며, 이를 AI 훈련에 사용하는 것이 정당화될 수 없다는 입장입니다.

영향 및 선례:

이번 판결은 저작권 보호 도서를 AI 모델 훈련 데이터로 활용하는 것이 공정 사용에 포함되는지에 대한 첫 사례 중 하나로, AI 연구 및 저작권 해석에 전환점이 되는 판례로 평가됩니다. 특히, 구매한 도서를 변형적으로 활용하는 것은 허용될 수 있으나, 불법 복제본을 사용하는 것은 명확한 저작권 침해로 규정되어 향후 AI 학습 데이터 소싱 기준에 중요한 참고점이 될 것입니다. 이는 AI 업계에 데이터 수집 및 활용에 있어 합법적인 경로와 윤리적 기준을 준수해야 한다는 강력한 메시지를 전달하고 있습니다.

#AI #Copyright #LLM #Fair Use #Anthropic