Anthropic이 성능평가 테이크홈 과제를 오픈소스로 공개 | GeekNews
News

Anthropic이 성능평가 테이크홈 과제를 오픈소스로 공개 | GeekNews

neo
2026.01.22
·News·by 권준호
#LLM#Optimization#Benchmarking#AI#Recruiting

핵심 포인트

  • 1Anthropic은 Claude Opus 4.5의 최고 성능인 1487 사이클을 능가하는 오픈소스 성능 평가 과제를 공개하여 인재를 채용하고 있습니다.
  • 2이 과제는 Claude의 높은 성능으로 인해 4시간에서 2시간 제한으로 단축되었다가 현재는 느린 기준 코드로 제공되며, 참가자는 1487 사이클 이하로 최적화해야 합니다.
  • 3댓글에서는 ALU/VALU 균형 및 로드 대역폭 같은 저수준 최적화 문제 특성과, AI 에이전트들의 도전 및 채용 방식에 대한 다양한 의견이 제시되었습니다.

Anthropic은 자사의 성능 평가 테이크홈 과제를 오픈소스로 공개하였다. 이 과제의 핵심 목표는 참가자가 Claude Opus 4.5의 최고 성능인 1487 클록 사이클(simulated machine clock cycles) 이하로 코드를 최적화하는 것이다. 이 목표를 달성할 경우, 참가자는 코드와 이력서를 Anthropic의 채용 팀(performance-recruiting@anthropic.com)에 제출할 수 있다.

과제 배경 및 변경 이력:
초기 과제는 4시간 제한으로 시작했으나, Claude Opus 4.5가 대부분의 인간 참가자보다 우수한 성능을 보이면서 2시간 제한으로 단축되었다. 당시 2시간 버전은 18532 사이클의 시작 코드를 기반으로 했다. 현재 공개된 버전은 Claude Opus 4.5 출시 이후 새로운 기준 코드가 사용되기 시작한 것에 맞춰 최신 구조를 유지하되, 가장 느린 기준선 코드로 되돌려 제공된다. 즉, 이 과제는 인간이 AI의 성능을 능가할 수 있는지 시험하고, 동시에 우수한 최적화 능력을 가진 개발자를 발굴하기 위한 목적으로 설계되었다.

성능 벤치마크 (클록 사이클 단위):
모든 성능 수치는 시뮬레이션된 머신의 클록 사이클(clock cycles) 단위로 측정된다. 주요 Claude 모델들의 성능은 다음과 같다:

  • Claude Opus 4 (장시간 실행): 2164 사이클
  • Claude Opus 4.5 (일반 코드 세션, 인간 최고 수준 유사): 1790 사이클
  • Claude Opus 4.5 (2시간 테스트 하니스 실행): 1579 사이클
  • Claude Sonnet 4.5 (장시간 테스트 하니스 실행): 1548 사이클
  • Claude Opus 4.5 (11.5시간 하니스 실행): 1487 사이클 (이것이 인간 참가자가 넘어서야 할 목표치)
  • Claude Opus 4.5 (개선된 하니스 환경): 1363 사이클
인간 최고 성능은 위 수치보다 더 우수하다고 언급되었으나, 구체적인 수치는 공개되지 않았다.

핵심 과제 및 최적화 방법론:
이 과제는 저수준 코드 최적화 능력을 평가하는 문제로, ALU (Arithmetic Logic Unit)와 VALU (Vector ALU)의 균형을 찾아내고 load bandwidth와 같은 병목 현상을 해결하는 것이 중요하다. 참가자들은 micro-optimizations을 통해 clock cycles를 최소화해야 한다. 논의된 최적화 기법으로는 dynamic vector lane rotate, SIMD, PTX (Parallel Thread Execution) 코드 작성, speculative execution, vectorized hashing, staged static code 등이 있다. 문제의 기반 알고리즘은 명확히 밝혀지지 않았으나, 일부 참여자들은 random forest prediction과 유사한 형태일 수 있다고 추측하였다. 프로파일링 도구로는 Chrome tracing 또는 perfetto가 권장된다.

참여자 반응 및 시사점:

  • 난이도: 많은 참가자가 이 문제가 일반적인 Leetcode 문제와 달리 매우 특수하며, 고도의 저수준 최적화 지식과 경험을 요구한다고 평가했다. 이는 흔치 않은 분야이므로, 해당 경험이 없는 개발자들에게는 학습과 분석에 상당한 시간이 소요될 수 있다.
  • AI 성능: Claude Opus 4.5가 특정 시간 제한 내에서 인간보다 뛰어난 성능을 보였다는 점이 주목받았으며, 다른 AI 모델들(Gemini, GPT-5-2)도 이 과제를 해결하려 시도했다. GPT-5-2는 1606 사이클에 도달했으나, 목표치인 1487 사이클을 넘지는 못했다. Gemini는 루프에 빠지거나 비효율적인 모습을 보였다.
  • 채용 방식: performance-based recruitment의 흥미로운 사례로 평가받았다. 이는 단순 알고리즘 문제 해결 능력보다 실질적인 코드 최적화 역량을 직접적으로 평가하는 방식이다. 그러나 일부는 이것이 실제 채용 과정의 첫 단계일 뿐이며, 이후에는 다른 일반적인 인터뷰 절차를 거쳐야 할 것이라고 지적했다.
  • 시간 투자: 직장인에게는 이와 같은 최적화 과제에 일주일가량의 시간을 투자하는 것이 비현실적이라는 의견이 많았다. 반면, 최적화에 관심 있는 사람들에게는 매우 재미있고 도전적인 문제로 여겨졌다. 실제로 한 참가자는 수작업으로 1112 사이클을 달성했고, 다른 참가자는 1시간 만에 1137 사이클에 도달하며 900 사이클 이하 달성 가능성을 언급하기도 했다.