Neural Computers
Paper

Neural Computers

Ernie Chang
2026.04.12
·Arxiv·by 이호민/AI
#AI#Computer Architecture#Machine Learning#Neural Computer#Runtime

핵심 포인트

  • 1이 논문은 computation, memory, I/O를 학습된 런타임 상태로 통합하는 새로운 기계 형태인 Neural Computer (NC)를 제안하며, 궁극적인 목표는 Completely Neural Computer (CNC)이다.
  • 2초기 NC 프로토타입은 CLI 및 GUI 인터페이스용 비디오 모델로 구현되었으며, I/O 정렬 및 단기 제어와 같은 초기 인터페이스 기본 요소를 학습할 수 있음을 보여주었다.
  • 3현재 NC는 높은 렌더링 충실도를 보이지만, 긴 시퀀스 추론, 안정적인 symbolic processing, 그리고 기능 재사용과 같은 핵심 과제를 안고 있으며, 특히 arithmetic probe에서 낮은 성능을 보인다.

본 논문은 계산(computation), 메모리(memory), I/O를 학습된 런타임 상태(learned runtime state)로 통합하는 새로운 기계 형태인 Neural Computers (NCs)를 제안한다. 이는 기존 컴퓨터의 명시적 프로그램 실행, 에이전트(agents)의 외부 실행 환경 제어, 월드 모델(world models)의 환경 역학 학습과는 달리, 모델 자체를 실행되는 컴퓨터로 만드는 것을 목표로 한다. 최종 목표는 완벽하게 신경망 기반의 컴퓨터(Completely Neural Computer, CNC)로, 안정적인 실행, 명시적 재프로그래밍, 그리고 내구성 있는 기능 재사용이 가능한 범용 시스템을 구현하는 것이다.

본 연구는 초기 NC 원시 기능(primitives)이 계측된 프로그램 상태 없이 수집된 I/O 트레이스(traces)로부터 학습될 수 있는지 탐구한다. 구체적으로, NC는 CLI (Command Line Interface) 및 GUI (Graphical User Interface) 설정에서 명령어, 픽셀, 그리고 사용자 행동(user actions)으로부터 화면 프레임(screen frames)을 롤아웃(roll out)하는 비디오 모델(video models)로 구현되었다. NC의 핵심 추상화는 hth_t를 실행 가능한 인터페이스 상태(executable interface state)와 작업 메모리(working memory)를 담는 단일 잠재 런타임 상태(latent runtime state)로 모델링하는 것이다. 이는 다음 방정식으로 정의된다:
ht=Fθ(ht1,xt,ut)h_t = F_\theta(h_{t-1}, x_t, u_t)
xt+1Gθ(ht)x_{t+1} \sim G_\theta(h_t)
여기서 FθF_\theta는 상태 업데이트 함수이고, GθG_\theta는 다음 프레임에 대한 분포를 매개변수화한다. 이 프레임워크는 xtx_t를 관측(observations), utu_t를 조건화 입력(conditioning input)으로 사용하여 월드 모델 용어와 유사한 업데이트-렌더링 루프(update-and-render loop)를 형성한다. 이 논문에서 NC 잠재 런타임 상태 hth_t는 모델의 시간 색인 비디오 잠재값 ztz_t로 구현된다.

두 가지 인터페이스별 NC 프로토타입이 연구되었다:

  1. NCCLIGen: 텍스트(자연어 또는 명령줄) 및 초기 프레임으로부터 터미널 상호작용을 모델링한다.
  2. NCGUIWorld: 최근 픽셀 및 동기화된 마우스/키보드 행동으로부터 데스크톱 상호작용을 모델링한다.

구현 및 방법론 (NCCLIGen 중심)
NCCLIGen은 Wan2.1 비디오 생성 모델을 기반으로 하며, NC 특정 조건화 및 행동 모듈이 추가되었다.

  • 데이터 파이프라인:
    • CLIGen (General): 공개된 asciinema .cast 궤적(trajectories)에서 구축되었다. 각 세션은 동기화된 타이밍과 ANSI 충실한 디코딩으로 터미널 프레임으로 렌더링된다. 프레임, 텍스트 버퍼(buffers), 키보드 이벤트 로그(logs)는 단일 모노토닉 클럭(monotonic clock)을 공유한다. Llama 3.1 70B를 사용하여 세 가지 스타일(semantic, regular, detailed)의 텍스트 설명(captions)이 생성되어 프롬프트(prompts)로 사용된다.
    • CLIGen (Clean): 오픈소스 vhs 툴킷을 사용하여 수집되었다. 이는 스크립트 실행을 통해 반복 가능한 터미널 시연을 가능하게 하며, Docker화된(Dockerized) 환경에서 더 깨끗하고 페이싱(pacing)이 좋은 트레이스를 캡처한다. 약 25만 개의 스크립트가 작성되었으며, 이 중 약 7.8만 개의 일반 트레이스(예: 패키지 설치, 로그 필터링, REPL 사용)와 약 5만 개의 Python 수학 유효성 검사 트레이스가 포함된다. 캡션은 원본 vhs 스크립트에서 직접 파생된다.
  • 모델 아키텍처: 텍스트-및-이미지-투-비디오(text-and-image-to-video) 생성으로 처리된다. 캡션과 첫 번째 터미널 프레임이 롤아웃을 조건화한다. 첫 번째 프레임은 VAE (Variational Autoencoder)를 통해 조건화 잠재값(conditioning latent)으로 인코딩된다. 동시에, CLIP (Contrastive Language-Image Pre-training) 이미지 인코더는 동일한 프레임에서 시각적 특징을 추출하고, 텍스트 인코더(예: T5)는 캡션을 임베딩(embeds)한다. 이러한 조건화 특징들은 확산 노이즈(diffusion noise)와 연결되고, 제로 초기화된 선형 레이어(linear layer)를 통해 투영되며, DiT (Diffusion Transformer) 스택에 의해 처리된다. 분리된 교차 주의(cross-attention)는 CLIP 및 텍스트 특징에서 파생된 결합 캡션 및 첫 번째 프레임 컨텍스트(context)를 주입한다. VAE는 터미널 프레임을 인코딩하고 디코딩한다.
  • 학습 상세: 기울기 체크포인팅(gradient checkpointing) 및 드롭아웃(dropout) 0.1이 프롬프트 인코더(prompt encoder), CLIP, VAE 모듈에 적용된다. 최적화에는 AdamW (학습률 5×1055 \times 10^{-5}, 가중치 감소(weight decay) 10210^{-2})가 사용되며, bfloat16 정밀도와 기울기 클리핑(gradient clipping) 1.0이 적용된다.

평가 및 결과 (NCCLIGen)

  1. 높은 충실도의 터미널 렌더링: NC는 실용적인 글꼴 크기(예: 13px)에서 높은 충실도의 터미널 렌더링을 유지하며, 가독성 있는 인터페이스 상태를 보존한다. Wan2.1 VAE는 터미널 내용에 적합하며, 13px 글꼴에서 PSNR 40.77 dB, SSIM 0.989의 높은 재구성 품질을 보인다.
  2. 프롬프트 특이성(Prompt specificity)의 효과: 상세하고 문자적인(literal) 캡션은 텍스트-투-픽셀(text-to-pixel) 정렬을 개선한다. "detailed" 캡션은 "semantic" 캡션에 비해 PSNR을 21.90 dB에서 26.89 dB로 약 5 dB 향상시킨다. 이는 터미널 프레임의 특성상 텍스트 배치에 크게 의존하기 때문에, 상세한 캡션이 정확한 텍스트-픽셀 정렬을 위한 스캐폴딩(scaffolding) 역할을 함을 시사한다.
  3. 학습 수렴(plateau) 및 성능: CLIGen (Clean) 데이터에서 PSNR/SSIM은 약 25k 스텝(steps)에서 빠르게 포화되며, 추가 학습 시에도 큰 개선이 없거나 오히려 약간 감소하기도 한다. 이는 학습 가능한 구조화된 패턴이 초기에 습득되며, 추가 개선을 위해서는 더 높은 품질의, 페이싱이 더 좋거나 정보가 더 풍부한 감독(supervision)이 필요함을 나타낸다.
  4. 문자 단위 텍스트 생성 정확도: Tesseract OCR을 사용하여 평가한 결과, 초기화 시 문자 정확도(character accuracy) 0.03에서 60k 스텝에서 0.54로 크게 증가했으며, 정확한 라인 일치(exact-line matches)는 0.01에서 0.31에 도달했다. 이는 NC가 단순히 시각적으로 그럴듯한(plausible) 이미지를 생성하는 것을 넘어, 터미널 문자 구조, 글꼴 렌더링, 공간 관계를 정확히 모델링하는 능력을 보여준다.
  5. 기본 CLI 추론 능력의 한계: 산술 프루브(arithmetic probe) 테스트에서, NCCLIGen은 4%의 정확도를 보였고, Wan2.1 및 Veo 3.1도 각각 0%와 2%로 매우 낮은 성능을 보였다. 이는 현재 비디오 기반 NC 구현에서 기본적인 상징적(symbolic) 추론 능력이 여전히 주요 병목임을 시사한다. 다만 Sora 2는 71%의 높은 정확도를 보여 주목할 만한 예외이다.
  6. RL(Reinforcement Learning) 없이 상징적 프루브 개선: 재프롬프팅(reprompting)을 통해 NCCLIGen의 산술 작업 정확도가 4%에서 83%로 향상될 수 있음이 입증되었다. 이는 시스템 레벨 조건화(system-level conditioning)가 상징적 추론 성능 향상에 효과적인 지렛대(lever)가 될 수 있음을 시사하며, RL 기반 학습 파이프라인(pipelines)의 보완책으로 작용할 수 있다. 이는 모델의 "추론" 능력이 실제로는 더 나은 사양(specification)과 지시 따르기(instruction-following)에서 비롯될 수 있음을 강조한다.

결론 및 향후 과제
현재 NC 프로토타입은 I/O 정렬(alignment) 및 짧은 시간 범위 제어(short-horizon control)와 같은 초기 런타임 원시 기능을 실현했다. 그러나 강건한 장기 추론(long-horizon reasoning), 신뢰할 수 있는 상징적 처리, 안정적인 기능 재사용, 명시적인 런타임 거버넌스(governance) 등은 여전히 해결해야 할 주요 과제이다. 이러한 도전 과제를 극복한다면 CNC는 현재의 에이전트, 월드 모델, 기존 컴퓨터를 넘어서는 새로운 컴퓨팅 패러다임을 확립할 수 있을 것이다.