New ChatGPT Models Seem to Leave Watermarks on Text

요약

Rumi 팀은 최신 ChatGPT 모델(GPT-o3, o4-mini)이 생성된 텍스트에 Narrow No-Break Space와 같은 특수 문자 워터마크를 삽입하는 것을 발견했습니다.

️ 이 워터마크는 육안으로는 보이지 않지만 특정 텍스트 편집기나 온라인 도구로 감지할 수 있으며, 간단한 찾기 및 바꾸기 작업으로 쉽게 제거 가능합니다.

️ OpenAI는 이 특수 문자를 워터마크가 아닌 "대규모 강화 학습의 특징"이라고 밝혔으며, 최근 업데이트에서는 이러한 문제가 해결된 것으로 보고되었습니다.

상세 내용

이 문서는 Rumi 팀이 GPT-o3 및 GPT-o4 mini 모델에서 생성된 텍스트에 특수 문자 워터마크가 삽입되는 현상을 발견했다고 보고합니다. 이 워터마크는 주로 Narrow No-Break Space (NNBSP) (Unicode U+202F)와 같은 특수 유니코드 문자로 구성되며, 이는 일반 공백과 시각적으로 동일하지만 다른 ASCII-codes 또는 유니코드 값을 가집니다. 이러한 워터마크는 특히 "Write a full essay on the Department of Education"과 같이 긴 응답에서 나타났으며, GPT-4o와 같은 이전 모델에서는 관찰되지 않았습니다.

핵심 방법론 (Core Methodology) 및 기술적 설명:
이 워터마킹은 텍스트 내에 육안으로는 보이지 않는 특정 유니코드 문자를 심는 방식을 사용합니다. 예를 들어, Narrow No-Break Space (NNBSP) (U+202F)는 일반 공백(U+0020)과 동일하게 렌더링되지만, 실제로는 다른 문자입니다. Rumi 팀은 이러한 워터마크가 무작위가 아닌 체계적인 패턴을 보이며 의도적인 구현을 시사한다고 설명합니다.
워터마크를 감지하는 방법은 특수 문자를 식별할 수 있는 도구를 사용하는 것입니다. 이는 다음과 같습니다:

온라인 도구 (Online tools): SoSciSurvey의 character viewer와 같은 웹 기반 도구에 텍스트를 붙여넣으면 숨겨진 특수 문자가 명확하게 표시됩니다.

코드 에디터 (Code editors): Sublime Text 또는 Visual Studio Code와 같은 텍스트/코드 에디터는 일반적으로 공백 문자를 시각적으로 다르게 표시하거나, 특정 설정에서 제어 문자(control characters)나 비인쇄 문자(non-printable characters)를 드러낼 수 있어, 일반 공백과 NNBSP를 구별할 수 있습니다. 예를 들어, 일부 에디터는 NNBSP를 작은 점이나 다른 기호로 표시합니다.

간단한 텍스트 분석 도구 (Simple text analysis tools): 표준이 아닌 유니코드 문자를 식별하도록 설계된 스크립트나 프로그램은 텍스트 내에서 U+202F와 같은 특정 유니코드 코드 포인트를 검색하여 존재 여부를 확인할 수 있습니다.

이러한 방법들을 통해 겉으로는 동일해 보이는 텍스트 내에서 숨겨진 NNBSP의 존재와 패턴을 파악하여, ChatGPT에서 복사된 텍스트임을 식별할 수 있습니다. 이 특수 문자는 Google Docs와 같은 다른 텍스트 에디터로 복사-붙여넣기 해도 유지됩니다.

OpenAI는 이 기능에 대해 공식 발표를 하지 않았지만, Rumi에 대한 공식 답변에서 이 특수 문자들이 워터마크가 아니며 단순히 "large-scale reinforcement learning의 특이점(quirk)"이라고 밝혔습니다. 그러나 Rumi는 이 게시물을 남겨두어 미래의 독자들이 이 문제를 인지할 수 있도록 했습니다. 최신 업데이트(2025년 4월 23일)에 따르면, Rumi의 테스트에서 더 이상 특수 문자가 나타나지 않아 문제가 해결된 것으로 보입니다.

이 발견은 특히 학계에 중요한 의미를 가집니다. ChatGPT가 학생들에게 무료로 제공되는 시점에, 이러한 보이지 않는 마커를 인지하지 못하고 AI가 생성한 콘텐츠를 그대로 사용하는 학생들은 적발될 위험에 처할 수 있습니다. 반면, 이러한 워터마크를 인지하고 간단한 find-and-replace 작업을 통해 제거할 수 있는 학생들은 AI 생성 텍스트를 자신의 작업물처럼 제출하는 데 상당한 이점을 얻어, AI 사용 여부에 따른 학생들 간의 불균형을 심화시킬 수 있습니다.

이 접근 방식의 장점은 부정확성이 입증된 AI detectors와 달리, 특수 문자를 통해 ChatGPT에서 복사된 텍스트임을 직접적으로 나타낼 수 있다는 점입니다. 학생들이 학술 논문에 자연적으로 Narrow No-Break Space 문자를 사용하지 않기 때문에 false positives의 가능성이 거의 없습니다. 그러나 단점은 사용자들이 쉽게 우회할 수 있어 일시적인(temporary) 조치일 가능성이 높다는 점입니다.

Rumi는 이러한 쉽게 우회 가능한 워터마크보다는, 여러 초안 및 검수 지점을 통해 아이디어의 발전을 추적하고, 과제에 맞춤형 AI를 통합하며, 연구 및 글쓰기 선택에 대한 성찰을 강조하고, 실시간 그룹 협업 및 동료 검토를 가능하게 하는 '과정 중심적 접근 방식(process-focused approach)'을 지지합니다. 이는 학문적 무결성(academic integrity)을 보다 효과적으로 다룰 뿐만 아니라, 학생들이 교실 밖에서도 활용할 수 있는 AI literacy 기술을 개발하는 데 도움이 된다고 주장합니다.

#AI #Watermarking #ChatGPT #LLM