GitHub - actionbook/actionbook: Browser action engine for AI agents. 10× faster, resilient by design.
Service

GitHub - actionbook/actionbook: Browser action engine for AI agents. 10× faster, resilient by design.

actionbook
2026.02.11
·GitHub·by 권준호
#Action Engine#AI Agents#Browser Automation#LLM#RAG

핵심 포인트

  • 1Actionbook은 AI agents가 웹 페이지를 안정적으로 조작하는 데 겪는 느린 실행, 높은 토큰 비용 및 취약한 selectors 문제를 해결하는 browser action engine입니다.
  • 2이 시스템은 "Action manuals"과 필수 DOM selectors를 LLM에 직접 제공하여, 전체 HTML 대신 간결한 semantic JSON 정의를 통해 agents가 정확하게 작동하도록 지원합니다.
  • 3결과적으로 Actionbook은 agents의 실행 속도를 10배 향상하고 토큰 비용을 100배 절감하며, 웹 UI 변경에도 강력한 Resiliency를 제공하여 Universal Compatibility를 보장합니다.

Actionbook은 AI 에이전트(AI agents)를 위한 Browser Action Engine으로, 웹사이트를 즉시 조작할 수 있도록 최신 'Action manuals'와 최적화된 DOM 구조를 제공합니다. 기존 방식에서 AI 에이전트가 브라우저 작업을 수행할 때 겪는 문제점들을 해결하는 데 중점을 둡니다.

Why Actionbook? (문제점 및 해결 방안)

기존 방식은 다음과 같은 문제점을 가지고 있습니다:

  • Slow Execution: 에이전트가 전체 HTML 페이지(full HTML pages)를 파싱(parsing)하는 데 많은 시간을 소모합니다.
  • High Token Costs: 전체 DOM 트리(entire DOM trees)를 LLM에 전송하여 Context Window를 과도하게 사용하고 높은 Token 비용이 발생합니다.
  • Brittle Selectors: 웹사이트 UI(User Interface) 변경 시, 하드코딩(hardcoded)된 Selector와 에이전트 로직이 즉시 깨지는 경향이 있습니다.
  • Hallucinations: 복잡하고 비정형적인 DOM에 직면했을 때, LLM이 부정확한 작업을 추측(guess)하는 경우가 많습니다.

Actionbook은 이러한 문제들을 다음과 같이 해결합니다:

  • 10x Faster: 에이전트는 사전 계산(pre-computed)된 'Action manuals'에 접근하여 탐색 과정 없이 정확히 무엇을 해야 할지 인지합니다. 이는 action-builderknowledge-builder 서비스를 통해 특정 웹사이트와 작업에 대한 수동(manual)을 생성하고 유지 관리함으로써 가능합니다.
  • 100x Token Savings: 전체 HTML 페이지 대신, 관련 DOM 요소(related DOM elements)만 포함된 간결하고 의미론적인 JSON 정의(concise, semantic JSON definitions)를 에이전트에 제공합니다. 이는 LLM의 Context Window 사용을 극적으로 줄입니다.
  • Resilient Automation: 'Action manuals'는 지속적으로 유지 관리되고 버전 관리(versioned)됩니다. 웹사이트가 변경되더라도 에이전트의 로직이 아니라 해당 매뉴얼이 업데이트됩니다.
  • Universal Compatibility: OpenAI, Anthropic, Gemini 등 모든 LLM과 모든 AI Operator Framework와 호환됩니다.

Core Methodology (핵심 방법론)

Actionbook의 핵심은 'Action manuals'를 통해 AI 에이전트와 웹 브라우저 간의 효율적인 상호작용을 중개하는 것입니다.

  1. Manual Creation and Maintenance: Actionbook의 백엔드 시스템(주로 services/action-builderservices/knowledge-builder 구성 요소를 통해)은 특정 웹사이트와 해당 웹사이트에서 수행할 수 있는 작업(tasks)에 대한 'Action manuals'를 미리 생성하고 지속적으로 업데이트합니다. 이 매뉴얼에는 다음이 포함됩니다:
    • 특정 작업을 수행하는 방법에 대한 단계별 지침.
    • 해당 작업과 관련된 UI 요소(예: 버튼, 입력 필드)를 식별하기 위한 정밀하고 최신화된 DOM Selector.
    • 이 매뉴얼은 웹사이트 UI 변경 시 자동으로 업데이트되어 에이전트의 견고성을 보장합니다.
  1. Context Provisioning: AI 에이전트가 특정 웹 작업을 수행해야 할 때, Actionbook은 LLM에 웹 페이지의 전체 DOM을 직접 제공하는 대신, 사전에 준비된 다음 정보를 제공합니다:
    • 현재 에이전트의 목표와 관련된 'Action manual'.
    • 'Action manual'에 정의된 Selector를 사용하여 추출된 관련 DOM 요소들의 간결하고 구조화된 JSON 표현. 이는 원시 HTML보다 훨씬 적은 Token을 사용하며 LLM이 이해하기 쉽습니다.
  1. Agent Operation: LLM은 Actionbook이 제공하는 이 고도로 정제되고 목적에 맞는 정보를 기반으로, 추가적인 DOM 탐색이나 추측 없이 정확한 브라우저 작업을 추론하고 실행할 수 있습니다. 예를 들어, 특정 버튼을 클릭해야 한다면, 매뉴얼은 버튼의 의미론적 역할과 해당 DOM Selector를 명확히 제시하고, Actionbook은 해당 요소를 JSON으로 추출하여 LLM에 전달합니다.

Technical Architecture (기술 아키텍처)

Actionbook은 pnpm workspacesTurborepo를 활용하는 Monorepo 형태로 구축되어 있습니다. 주요 구성 요소는 다음과 같습니다:

  • services/db: PostgreSQL 데이터베이스를 관리합니다.
  • apps/api-service: API Endpoint를 제공합니다.
  • services/action-builder (Optional): 'Action manuals' 기록 및 구축을 담당합니다.
  • services/knowledge-builder (Optional): 지식 추출(knowledge extraction)을 담당합니다.

이러한 아키텍처는 매뉴얼의 생성, 관리, 그리고 에이전트에게 효율적으로 제공하는 과정을 지원합니다.

Integration Methods (통합 방법)

Actionbook은 다양한 통합 방법을 제공합니다:

  • CLI (Command Line Interface) (권장): AI 에이전트 및 일반 자동화에 적합합니다. Rust 기반의 CLI는 기존 시스템 브라우저(Chrome, Brave, Edge, Arc, Chromium)를 활용합니다.
  • MCP Server (Multi-Client Protocol Server): Cursor 및 Claude와 같은 AI IDE(Integrated Development Environment)에 적합합니다.
  • JavaScript SDK (Software Development Kit): 맞춤형 프로그래밍 통합을 위한 용도입니다.