How AI Impacts Skill Formation
Paper

How AI Impacts Skill Formation

Judy Hanwen Shen
2026.02.03
·Arxiv·by 이호민
#AI#Skill Formation#Software Engineering#Learning#Productivity

핵심 포인트

  • 1AI assistance는 새로운 `Trio` 라이브러리 학습자의 개념 이해, 코드 읽기, 디버깅 능력을 저해하여 퀴즈 점수를 17% 감소시켰다.
  • 2평균적으로 AI 사용은 유의미한 효율성 향상을 가져오지 못했으며, 이는 AI와의 상호작용에 소요된 추가 시간 때문이었다.
  • 3연구는 인지적 참여를 포함하는 세 가지 AI 상호작용 패턴이 학습 결과를 보존함을 발견하여, AI 활용 시 습득 능력을 유지하는 방식의 중요성을 강조한다.

본 연구는 AI 지원이 생산성에 미치는 영향과 함께, 새로운 스킬 습득 및 숙련도 형성에 미치는 영향을 탐구합니다. 특히 소프트웨어 엔지니어링 분야에서 AI 도구의 광범위한 채택을 배경으로, AI 지원이 즉각적인 생산성 향상을 가져오지만 장기적인 스킬 개발을 저해할 수 있다는 가설을 검증하고자 합니다. 이는 특히 초급 개발자들이 새로운 기술을 학습하는 과정에서 AI 의존이 심화될 경우, 핵심 역량 습득에 부정적인 영향을 미칠 수 있다는 우려에서 시작되었습니다.

주요 연구 질문은 다음과 같습니다:

  • RQ1: 새로운 스킬이 요구되는 코딩 작업에서 AI 지원이 생산성을 향상시키는가?
  • RQ2: AI 지원 사용이 이러한 새로운 스킬의 개발에 어떤 영향을 미치는가?

연구 결과:

연구 결과, AI 지원을 사용하여 작업을 완료한 참가자 그룹에서 학습 평가 점수가 평균 17% 감소하여, 개념적 이해, 코드 읽기, 디버깅 능력에 상당한 손상을 입는 것으로 나타났습니다 (Cohen’s d = 0.738, p = 0.010). 이는 두 등급 포인트 하락에 해당합니다. 반면, AI 지원이 작업 완료 시간에 통계적으로 유의미한 가속화를 가져오지 못했습니다. 생산성 향상이 미미했던 이유에 대해 심층적인 질적 분석(screen recording 분석) 결과, 일부 참가자들이 AI 어시스턴트와 상호작용하는 데 과도한 시간을 할애(최대 15개의 질문, 총 작업 시간의 30% 이상 질의 구성에 사용)했기 때문으로 분석되었습니다.

대조군 참가자들의 스킬 개발은 오류를 독립적으로 발견하고 해결하는 과정에서 향상되었음이 확인되었습니다. 연구는 6가지 AI 상호작용 패턴을 식별했으며, 이 중 3가지 패턴("Conceptual Inquiry", "Iterative AI Debugging", "Hybrid Code-Explanation")은 참가자들이 AI 지원을 사용하더라도 인지적으로 계속 참여하여 스킬 개발을 유지하는 데 도움이 된다는 것을 발견했습니다. 이러한 패턴은 더 많은 인지적 노력과 독립적인 사고(예: 설명 요청 또는 개념적 질문만 하기)를 수반하며 더 높은 학습 평가 점수로 이어졌습니다.

연구 방법론:

본 연구는 통제된 무작위 실험(randomized controlled experiment) 설계를 채택했습니다. 참가자들은 AI 지원에 접근할 수 있는 실험군과 AI 지원 없이 작업을 수행하는 대조군으로 무작위 배정되었습니다.

  1. Task Selection (작업 선택):
    • 주니어 소프트웨어 엔지니어가 직면할 수 있는 실제 업무 환경을 모방하기 위해 새로운 프로그래밍 라이브러리 학습을 task로 설정했습니다.
    • 선택된 라이브러리는 Python의 비동기 프로그래밍 라이브러리인 "Trio"입니다. 이 라이브러리는 asyncio보다 덜 알려져 있지만, nurseries, structured concurrency, error handling, memory channels와 같은 새로운 개념을 포함하고 있어 학습 실험에 적합합니다.
    • 총 두 가지 코딩 과제가 주어졌습니다: 하나는 Trio의 핵심 개념(nurseries, task 시작, 동시 실행)을 도입하는 타이머 구현, 다른 하나는 오류 처리와 메모리 채널을 포함하는 레코드 검색 함수 구현입니다.
    • 실험은 AI 어시스턴트 채팅 인터페이스가 내장된 온라인 인터뷰 플랫폼에서 진행되었습니다. AI 조건의 참가자들은 GPT-4o 기반의 코딩 어시스턴트에 접근할 수 있었고, 이 모델은 참가자의 현재 코드를 인식하고 필요시 전체 정답 코드를 생성할 수 있었습니다.
  1. Evaluation Design (평가 설계):
    • 컴퓨터 과학 교육 평가에 대한 메타 분석을 기반으로, 코딩 스킬 숙련도를 측정하기 위해 네 가지 유형의 질문을 고려했습니다:
      • Debugging (디버깅): 코드 오류 식별 및 진단 능력 (AI 생성 코드의 오류 감지 및 이해에 중요).
      • Code Reading (코드 읽기): 코드의 기능 이해 능력 (AI 작성 코드 검증에 중요).
      • Code Writing (코드 작성): 코드 작성 방식 선택 능력 (AI 도구 사용으로 중요도가 낮아질 수 있는 저수준 코딩 능력은 평가에서 제외).
      • Conceptual (개념적 이해): 도구 및 라이브러리의 핵심 원리 이해 능력 (AI 생성 코드가 적절한 디자인 패턴을 사용하는지 평가에 중요).
    • 총 7개의 Trio 핵심 개념을 포괄하는 디버깅, 코드 읽기, 개념적 질문으로 구성된 14문항(총 27점)의 퀴즈가 사용되었습니다. 코드 작성 질문은 의도적으로 제외하여 구문 오류가 평가에 미치는 영향을 줄였습니다. 퀴즈는 문항 반응 이론(item response theory)에 기반하여 여러 차례 파일럿 테스트를 거쳐 문항 간 상관관계, 평균 점수, 독립성을 확보했습니다.
  1. Study Design (연구 설계):
    • Warm-up Task: 모든 참가자는 Trio 지식이 필요 없는 워밍업 코딩 과제(문자열 리스트에 테두리 추가)를 수행하여 인터페이스에 익숙해지고 파이썬 숙련도를 측정했습니다.
    • Trio Task: 최대 35분 동안 두 가지 Trio 코딩 과제를 수행했습니다. 실험군 참가자는 AI 지원을 사용할 수 있었습니다.
    • Evaluation Stage: Trio 과제 완료 후, 모든 참가자는 AI 사용 없이 퀴즈를 풀고 설문조사를 완료했습니다.
    • Participants (참가자): 총 52명의 참가자(각 그룹 26명)가 참여했습니다. 참가자들은 1년 이상의 파이썬 경험, 주 1회 이상의 파이썬 코딩, AI 코딩 지원 사용 경험, Trio 라이브러리 미사용 경험을 가진 자들로 모집되었습니다. 참가자 특성(코딩 경력, 파이썬 사용 빈도, Asyncio 사용 경험, 비동기 프로그래밍 숙련도 등)은 두 그룹 간 균형이 이루어졌습니다.
    • Data Collection (데이터 수집): 코딩 플랫폼을 통해 사용자 키스트로크, AI 코딩 어시스턴트와의 상호작용 기록이 수집되었고, Google Forms를 통해 설문조사 응답이 수집되었습니다.
  1. Pilot Studies (파일럿 연구):
    • 총 4번의 파일럿 연구를 통해 본 연구의 설계가 개선되었습니다.
    • 비준수 문제(Non-Compliance): 초기 파일럿 연구에서는 대조군 참가자들이 AI를 사용하거나 퀴즈 풀이에 AI를 사용하는 등 높은 비준수율(35%, 25%)이 관찰되었습니다. 이를 해결하기 위해 플랫폼과 지시 사항을 개선하고, 스크린 레코딩을 통해 비준수 행위를 확인했습니다.
    • 문항 간 종속성(Local Item Dependence): 퀴즈 문항 간에 힌트가 될 수 있는 요소가 발견되어, 퀴즈를 여러 페이지로 나누고 문항 구성을 재조정하여 이 문제를 해결했습니다.
    • 작업 완료 방해 요소: 파이썬 구문 오류(예: try/except 블록, 문자열 형식 지정)가 Trio 학습과 무관하게 작업 완료를 방해하는 것이 확인되었습니다. 이에 본 연구에서는 구문 힌트를 제공하여 참가자들이 Trio 개념 학습에 집중할 수 있도록 했습니다.

이러한 개선 과정을 통해, 파일럿 D 연구에서는 AI 그룹이 작업을 더 빠르게 완료했으나(Cohen’s d=1.11, p=0.03), 지식 퀴즈에서는 유의미하게 낮은 점수(Cohen’s d=1.7, p=0.003)를 기록하여, 생산성-학습 간의 상충 관계(trade-off) 가능성을 시사하는 강력한 증거를 얻었습니다. 이 결과를 바탕으로 본 연구의 표본 크기 및 효과 크기 가정을 설정했습니다.

결론 및 시사점:

본 연구는 AI 지원이 생산성 향상의 "지름길"이 아니라 오히려 숙련도 형성, 특히 핵심 개념 이해 및 디버깅 능력과 같은 인지적 스킬 개발을 저해할 수 있음을 보여줍니다. AI 활용 방식에 따라 학습 결과가 크게 달라질 수 있으며, 인지적 참여를 유도하는 AI 상호작용 패턴은 학습을 보존할 수 있음을 시사합니다. 이러한 발견은 특히 안전이 중요한(safety-critical) 도메인에서 AI 지원 워크플로우를 도입할 때 스킬 형성을 보존하기 위한 신중한 접근이 필요함을 강조합니다.