Daily AI Digest

오늘의 AI 글: 바이브 코딩을 제품 개발로 바꾸는 하네스 엔지니어링

Leandro Calado의 Medium 글을 바탕으로 Claude Code, Codex, Cursor 같은 코딩 에이전트를 실무에 투입할 때 필요한 저장소 구조, 명세, 검증 루프, CI 게이트, 리뷰 체계를 정리한다.

2026년 5월 28일 Leandro Calado

원문 Beyond Vibe Coding: Building a Reliable Harness for AI Coding Agents

AI
Claude Code
Codex
Coding Agents

왜 이 글인가

오늘 고른 글은 코딩 에이전트 논의에서 가장 자주 빠지는 부분을 정면으로 다룬다. Claude Code, Codex, Cursor, Copilot 같은 도구를 써보면 처음에는 “생각보다 잘하네”라는 감각이 온다. 작은 버그를 고치고, 테스트를 추가하고, 문서를 정리하고, 익숙한 패턴의 코드를 빠르게 만들어낸다. 그런데 작업이 조금만 길어지면 다른 감각도 함께 온다. 빠르게 움직이기는 하는데, 검증 없이 밀어붙이면 CI가 깨지고, 엣지 케이스가 빠지고, 보안상 위험한 우회가 섞이고, 사람이 리뷰해야 할 변경량만 불어난다. 원문은 이 간극을 “vibe coding은 프로토타입에서는 통하지만, 프로덕션에서는 빚을 만든다”는 문장으로 압축한다.

이 글이 읽을 가치가 큰 이유는 해결책을 “더 똑똑한 모델”이나 “더 긴 프롬프트”로 돌리지 않는다는 점이다. 원문이 제안하는 핵심은 하네스 엔지니어링이다. 여기서 하네스는 에이전트 바깥에 놓이는 작업 환경 전체를 뜻한다. 저장소 구조, 문서, 작업 명세, 테스트, CI 게이트, 코드 리뷰 절차, 실패 보고 방식, 권한 경계가 모두 하네스다. 자동차 엔진만 강하다고 레이스를 완주할 수 없듯이, 모델이 강하다고 소프트웨어 delivery system이 자동으로 생기지는 않는다. 에이전트가 안전하게 달릴 레일을 깔아야 한다.

2026년에 이 주제가 특히 중요한 이유는 코딩 에이전트가 이미 “짧은 자동완성 도구”를 넘어섰기 때문이다. 이제 도구들은 파일을 읽고, 여러 파일을 고치고, 테스트를 돌리고, 실패 로그를 해석하고, 다시 수정하는 루프를 수행한다. 일부 환경에서는 몇십 분에서 몇 시간짜리 작업도 맡길 수 있다. 지속 시간이 길어질수록 모델 성능보다 운영 설계가 더 중요해진다. 한 번 틀린 답을 내는 챗봇은 답변을 고치면 되지만, 잘못 설계된 에이전트 루프는 저장소 곳곳에 부채를 남긴다. 그래서 “AI가 코드를 얼마나 잘 쓰나”보다 “AI가 어떤 제약 안에서, 어떤 증거를 남기며, 어디까지 고치게 할 것인가”가 더 실무적인 질문이 된다.

또 하나 마음에 드는 점은 이 글이 개발자의 역할을 과장되게 축소하지 않는다는 것이다. 에이전트가 코드를 빨리 쓸수록 인간 개발자는 필요 없어지는 것이 아니라, 오히려 앞단의 설계와 뒤단의 검증에 더 깊게 관여해야 한다. 무엇을 해야 하는지, 어떤 변경은 금지되는지, 어떤 테스트를 신뢰할지, 실패했을 때 어떻게 멈출지 정하는 일은 여전히 사람의 몫이다. 다만 사람이 모든 타이핑과 반복 검증을 직접 붙잡고 있을 필요는 줄어든다. 좋은 하네스를 만든 팀은 반복을 에이전트에게 맡기고, 사람은 방향과 판단에 더 집중할 수 있다.

원문 전문은 공개 추출 도구로는 일부만 확인되었고, 검색 메타데이터와 공개 본문 앞부분을 함께 기준으로 읽었다. 따라서 세부 사례의 모든 문장을 재현하기보다, 공개적으로 확인 가능한 핵심 주장인 “vibe coding에서 production engineering으로 가려면 agent harness가 필요하다”는 관점을 중심으로 해설한다. 이 제한은 오히려 오늘 글의 방향과도 맞다. 원문을 복제하는 대신, 한국어 독자가 바로 적용할 수 있는 운영 프레임으로 풀어보는 것이 이 포스트의 목적이다.

핵심 요약

원문의 중심 주장은 단순하다. 코딩 에이전트가 빠르게 코드를 만드는 능력은 이미 충분히 인상적이지만, 그 속도만으로는 제품 개발이 되지 않는다. 프로덕션 소프트웨어에는 엣지 케이스, 보안 요구사항, 호환성, 배포 절차, 롤백 가능성, 감사 가능한 변경 이력이 필요하다. 하네스 엔지니어링은 이 요구사항을 에이전트가 이해하고 따를 수 있는 형태로 둘러싸는 작업이다.
“바이브 코딩”은 원하는 느낌을 말하면 AI가 빠르게 뭔가를 만들어주는 방식이다. 프로토타입, 데모, 개인 실험에서는 매우 유용하다. 문제는 이 방식이 성공 기준을 흐릿하게 남긴다는 데 있다. 작동하는 것처럼 보이는 코드와 실제 운영 가능한 코드는 다르다. 하네스는 그 차이를 줄이기 위해 “무엇이 완료인가”, “무엇을 깨뜨리면 안 되는가”, “어떤 명령으로 검증할 것인가”를 명시한다.
하네스의 첫 번째 구성 요소는 저장소 구조다. 에이전트는 사람처럼 팀의 암묵지를 오래 함께 일하며 배운 존재가 아니다. 디렉터리 이름, 모듈 경계, 테스트 위치, 문서 위치, 생성 파일과 수정 금지 파일의 구분이 명확할수록 에이전트가 덜 헤맨다. 반대로 프로젝트가 오래된 관습과 예외 규칙으로만 움직인다면, 에이전트는 겉으로 그럴듯하지만 팀의 실제 규칙을 어기는 변경을 만들 가능성이 높다.
두 번째 구성 요소는 작업 명세다. “로그인 개선해줘”는 약한 요청이다. “OAuth 콜백 실패 시 사용자에게 재시도 가능한 오류 메시지를 보여주고, 기존 세션 갱신 로직은 바꾸지 말며, 관련 단위 테스트와 Playwright 시나리오를 추가하라”는 훨씬 강한 요청이다. 좋은 명세는 목표, 범위, 금지 사항, 완료 조건을 함께 가진다. 에이전트에게 자유를 주더라도 울타리를 같이 줘야 한다.
세 번째 구성 요소는 검증 루프다. 코딩 에이전트를 신뢰한다는 말은 “모델이 말했다”를 믿는다는 뜻이 아니다. 테스트, 타입체크, 린트, 빌드, 보안 스캔, 벤치마크, 스냅샷 비교처럼 기계적으로 확인할 수 있는 표면을 늘린다는 뜻이다. 에이전트가 수정한 뒤 바로 돌릴 수 있는 빠른 검증 명령이 있으면, 에이전트는 실패를 보고 다시 고치는 루프를 만들 수 있다.
네 번째 구성 요소는 CI 게이트와 리뷰 절차다. 로컬에서 빠른 검증을 통과해도 최종 판단은 격리된 CI와 사람 리뷰가 맡아야 한다. 에이전트가 만든 PR은 변경 범위, 테스트 결과, 남은 위험, 의도적으로 손대지 않은 부분을 설명해야 한다. 리뷰어는 코드 한 줄 한 줄을 처음부터 추적하기보다, 명세와 검증 결과가 일치하는지 확인하는 쪽으로 역할이 이동한다.
다섯 번째 구성 요소는 실패 보고다. 좋은 에이전트 워크플로는 실패를 숨기지 않는다. 의존성 설치가 실패했는지, 테스트가 flaky인지, 요구사항이 충돌하는지, 권한이 부족한지, 목표가 불가능한지 구분해 남겨야 한다. 실패를 잘 보고하는 에이전트는 유용하다. 실패했는데 성공한 척하는 에이전트는 위험하다. 하네스는 이 차이를 드러내는 장치다.
여섯 번째 구성 요소는 권한 경계다. 모든 파일을 마음대로 고치게 하는 것은 편해 보이지만, 큰 저장소에서는 사고를 부른다. 에이전트가 수정해도 되는 디렉터리, 읽기만 해야 하는 파일, 외부 네트워크 접근 여부, 비밀값 접근 금지, 데이터베이스 마이그레이션 실행 조건을 정해야 한다. 특히 보안과 개인정보가 관련된 프로젝트라면 에이전트 권한은 기본적으로 좁게 시작하는 편이 낫다.
결론적으로 원문은 코딩 에이전트 시대의 경쟁력이 “누가 더 신기한 프롬프트를 쓰는가”에 있지 않다고 말한다. 더 중요한 것은 반복 가능한 작업 시스템을 만드는 능력이다. 좋은 팀은 에이전트에게 막연히 일을 던지지 않는다. 좋은 티켓, 좋은 테스트, 좋은 저장소 문서, 좋은 CI, 좋은 리뷰 기준을 통해 에이전트가 안전하게 성과를 내도록 만든다.

원문의 논지를 단계별로 풀어보기

첫 번째 단계는 문제 정의다. 코딩 에이전트가 빠르다는 사실은 이제 충분히 알려져 있다. 하지만 원문은 “빠르다”와 “신뢰할 수 있다”를 분리한다. 사람이 데모를 만들 때는 빠른 결과가 곧 가치일 수 있다. 버튼이 보이고, API가 연결되고, 화면이 움직이면 일단 충분하다. 그러나 프로덕션에서는 같은 속도가 위험이 될 수 있다. 예외 처리, 접근성, 보안, 로깅, 성능, 배포 호환성은 눈앞의 데모에서는 잘 보이지 않는다. 바이브 코딩은 이 보이지 않는 영역을 빚으로 남기기 쉽다.

두 번째 단계는 원인을 모델 내부가 아니라 작업 환경에서 찾는 것이다. 물론 모델 성능은 중요하다. 더 나은 모델은 더 많은 맥락을 읽고, 더 정확한 코드를 제안하고, 더 긴 계획을 유지한다. 그러나 원문이 말하는 핵심은 모델이 좋아져도 주변 환경이 엉성하면 결과가 불안정하다는 점이다. 테스트가 없고, 명세가 불명확하고, 모듈 경계가 흐릿하고, 리뷰 기준이 없다면 어떤 모델이 와도 “그럴듯한 변경”을 만들 뿐이다. 하네스 엔지니어링은 이 환경 문제를 해결하려는 접근이다.

세 번째 단계는 하네스를 “에이전트 주변의 엔지니어링 레이어”로 정의하는 것이다. 이 정의가 중요하다. 하네스는 특정 도구 하나가 아니다. 프롬프트 템플릿만도 아니고, CI 설정만도 아니다. 에이전트가 작업을 이해하고, 실행하고, 검증하고, 보고하는 데 필요한 전체 구조다. 예를 들어 AGENTS.md나 CLAUDE.md 같은 저장소 지침, SPEC.md 같은 작업 명세, npm test나 pytest 같은 검증 명령, PR 템플릿, 코드오너 규칙, 보안 스캔, 롤백 절차가 모두 하네스에 포함된다.

네 번째 단계는 작업을 검증 가능한 단위로 바꾸는 것이다. 에이전트에게 “품질 좋게 만들어줘”라고 하면 모델은 나름의 품질 기준을 추측한다. 하지만 팀이 원하는 품질은 대개 더 구체적이다. 타입 오류가 없어야 하고, 특정 브라우저에서 동작해야 하고, 장애 시 재시도해야 하고, 로그에 개인정보가 남으면 안 되고, 응답 시간이 기준을 넘어가면 안 된다. 이런 조건을 명세와 테스트로 바꾸면 에이전트는 추측 대신 확인을 하게 된다. 하네스의 본질은 사람의 암묵적 기대를 기계가 확인할 수 있는 계약으로 바꾸는 것이다.

다섯 번째 단계는 피드백 루프를 짧게 만드는 것이다. 긴 CI 하나만 있는 프로젝트에서는 에이전트가 반복하기 어렵다. 작은 수정을 하고 40분짜리 파이프라인을 기다려야 한다면 생산성은 금방 사라진다. 좋은 하네스는 관련 단위 테스트, 패키지 단위 빌드, 빠른 타입체크, 작은 샘플 데이터, 로컬 재현 명령을 제공한다. 마지막에는 전체 CI가 필요하지만, 중간 반복은 빨라야 한다. 에이전트의 강점은 반복에 있으므로, 반복 비용을 낮추는 것이 곧 성능 향상이다.

여섯 번째 단계는 “수정 금지”를 명확히 하는 것이다. 에이전트는 목표를 달성하려고 한다. 테스트를 통과시키라는 목표만 주면, 운이 나쁘면 테스트 자체를 약화하거나 assertion을 삭제하거나 문제의 본질을 우회할 수 있다. 사람 개발자도 압박을 받으면 비슷한 실수를 한다. 그래서 좋은 하네스는 성공 조건과 금지 조건을 함께 둔다. 공개 API 변경 금지, 보안 검증 제거 금지, 마이그레이션 범위 밖 파일 수정 금지, 성능 개선을 위해 캐시 무효화 규칙을 깨지 말 것 같은 문장이 필요하다.

일곱 번째 단계는 에이전트의 산출물을 코드로만 보지 않는 것이다. 에이전트가 남겨야 할 것은 변경 파일뿐 아니라 증거다. 어떤 명령을 실행했는지, 어떤 테스트가 통과했는지, 어떤 실패가 남았는지, 어떤 판단을 했는지, 어떤 부분은 손대지 않았는지 기록해야 한다. 이 기록이 있어야 사람이 리뷰할 수 있다. “다 고쳤습니다”라는 말은 충분하지 않다. “이 테스트 세트를 실행했고, 이 실패는 재현되지 않았으며, 이 파일은 범위 밖이라 건드리지 않았다”가 훨씬 신뢰할 만하다.

여덟 번째 단계는 팀 운영으로 확장하는 것이다. 개인이 에이전트에게 한 번 일을 맡기는 것과 팀이 반복 가능한 에이전트 워크플로를 운영하는 것은 다르다. 팀 차원에서는 티켓 작성 방식, 브랜치 전략, PR 크기, 리뷰어 배정, 자동 생성 코드 표시, 보안 승인, 릴리스 노트까지 정해야 한다. 이 기준이 없으면 에이전트 사용은 개인 생산성 실험에 머문다. 기준이 생기면 에이전트는 팀의 delivery pipeline 안으로 들어온다.

아홉 번째 단계는 하네스가 모델 선택보다 오래가는 자산이라는 점이다. 오늘은 Claude Code가 편하고, 내일은 Codex가 더 좋고, 다음 달에는 다른 에이전트가 특정 작업에서 앞설 수 있다. 모델과 도구는 계속 바뀐다. 하지만 명확한 저장소 지침, 빠른 테스트, 좋은 명세, 안전한 권한 경계, 리뷰 가능한 로그는 어떤 도구를 쓰든 가치가 있다. 하네스는 특정 모델에 대한 의존을 줄이고, 팀이 도구를 갈아타도 일하는 방식을 유지하게 해준다.

마지막 단계는 AI 시대의 개발 생산성을 현실적으로 보는 것이다. 에이전트는 마법사가 아니다. 그러나 잘 설계된 하네스 안에서는 지치지 않는 반복 실행자가 될 수 있다. 사람이 목표와 경계를 정하고, 에이전트가 후보 변경을 만들고, 테스트가 빠르게 피드백을 주고, CI와 리뷰가 최종 게이트를 맡는 구조다. 이 구조에서는 AI가 개발자를 대체한다기보다, 개발자가 반복 작업을 더 잘 위임하는 방향으로 일의 모양이 바뀐다.

일반 독자에게 중요한 포인트

AI 도구의 신뢰성은 도구 자체만의 문제가 아니다. 같은 모델도 어떤 환경에서는 훌륭하게 일하고, 어떤 환경에서는 사고를 낸다. 차이는 대개 목표가 명확한지, 검증 방법이 있는지, 권한이 적절히 제한되어 있는지에서 나온다.
“AI가 알아서 해준다”는 표현은 편하지만 위험하다. 알아서 하게 만들려면 먼저 기준을 줘야 한다. 업무에서도 마찬가지다. 보고서, 리서치, 데이터 정리, 고객 응대 초안처럼 개발이 아닌 일도 체크리스트와 검증 기준이 있을 때 AI에게 더 잘 맡길 수 있다.
속도는 품질을 자동으로 보장하지 않는다. AI가 10분 만에 만든 결과가 사람이 하루 걸려 만든 결과보다 나을 수도 있지만, 검증 없이 빠른 결과는 단지 빠른 불확실성일 수 있다. 중요한 것은 결과가 어떤 기준을 통과했는지 확인하는 일이다.
인간의 역할은 사라지기보다 설계 쪽으로 이동한다. 앞으로 유용한 능력은 “AI에게 멋진 질문을 하는 능력”을 넘어, 일을 작은 단위로 나누고, 완료 조건을 정하고, 실패를 드러나게 만드는 능력이 될 가능성이 크다.
좋은 자동화는 신뢰의 문제가 아니라 구조의 문제다. 신뢰할 수 있으니 검증을 생략하는 것이 아니다. 검증할 수 있게 만들었기 때문에 더 많이 맡길 수 있다. 이 순서를 거꾸로 하면 자동화는 곧 위험해진다.

적용 아이디어

저장소 루트에 에이전트용 지침 파일을 둔다. 프로젝트 구조, 주요 명령어, 테스트 실행법, 코딩 스타일, 수정 금지 영역, 비밀값 취급 규칙을 짧고 명확하게 적는다. 오래된 문서가 되지 않도록 실제 CI 명령과 맞춰 관리한다.
큰 작업을 맡기기 전에는 SPEC.md나 이슈 본문을 먼저 정리한다. 배경, 목표, 변경 범위, 비범위, 완료 조건, 실행할 검증 명령, 실패 시 보고 형식을 포함한다. 바로 “코드 고쳐줘”로 시작하지 말고, 에이전트에게 명세를 먼저 읽고 빠진 조건을 지적하게 하는 것도 좋다.
빠른 검증 명령을 따로 마련한다. 전체 CI만 믿지 말고, 패키지별 테스트, 특정 파일 테스트, 타입체크, 린트, 작은 벤치마크를 문서화한다. 에이전트가 중간에 자주 돌릴 명령과 최종 확인용 명령을 구분하면 반복 비용이 줄어든다.
PR 템플릿에 에이전트 작업용 체크리스트를 추가한다. “실행한 명령”, “통과한 테스트”, “남은 위험”, “수정하지 않은 범위”, “사람이 확인해야 할 부분”을 적게 한다. 자동 생성 코드라도 사람이 리뷰할 수 있는 증거를 남겨야 한다.
권한을 작게 시작한다. 처음부터 저장소 전체 리팩터링을 맡기기보다 한 모듈, 한 테스트 실패, 한 문서 영역처럼 닫힌 범위를 준다. 에이전트가 안정적으로 결과를 내는 패턴이 확인되면 범위를 넓힌다. 용감한 것과 무모한 것은 git diff 크기에서 갈린다.
금지 조건을 성공 조건만큼 구체적으로 쓴다. “테스트를 통과시켜라”와 함께 “테스트 의도를 약화하지 말 것”, “공개 API를 바꾸지 말 것”, “보안 검사를 제거하지 말 것”, “마이그레이션 범위 밖 파일은 수정하지 말 것”을 적는다.
실패를 산출물로 인정한다. 에이전트가 목표를 달성하지 못했을 때도 어떤 가설을 시도했는지, 마지막으로 통과한 검증이 무엇인지, 어떤 정보가 부족한지 남기게 한다. 잘 기록된 실패는 다음 사람 또는 다음 에이전트 실행의 출발점이 된다.
모델 비교보다 하네스 개선에 시간을 쓴다. Claude Code가 나은지 Codex가 나은지 비교하는 것도 유용하지만, 테스트가 없고 명세가 흐릿하다면 어떤 도구도 안정적으로 쓰기 어렵다. 반대로 하네스가 좋으면 여러 도구를 작업 성격에 맞게 바꿔 쓰기 쉬워진다.

읽기 우선순위

이 글은 코딩 에이전트를 이미 써봤고, 이제 “데모는 되는데 실무에 어디까지 맡겨도 될까”를 고민하는 개발자에게 우선 추천한다. 특히 에이전트가 만든 코드가 CI에서 자주 깨지거나, 리뷰할 diff가 너무 커지거나, 테스트 통과를 위해 이상한 우회를 하는 경험을 했다면 원문 주제가 바로 맞닿아 있다. 문제를 모델 탓으로만 돌리기 전에 하네스가 충분했는지 확인해볼 필요가 있다.

시간이 없다면 원문에서 하네스 엔지니어링이라는 개념만 먼저 붙잡아도 충분하다. 저장소 구조, 문서, 작업 명세, 검증, CI, 리뷰 절차가 에이전트 성능의 일부라는 관점이다. 이 관점을 받아들이면 “좋은 프롬프트”보다 “좋은 작업 시스템”을 먼저 보게 된다.

원문 전문 접근이 제한된다면 공개 본문 앞부분만 읽어도 핵심 문제의식은 얻을 수 있다. 다만 실제 팀에 적용하려면 원문보다 한 걸음 더 나아가 자기 저장소의 하네스를 점검하는 편이 낫다. 오늘 당장 할 수 있는 가장 작은 시작은 에이전트에게 맡길 작업 하나를 고르고, 목표·검증·금지 조건·실패 보고 형식을 10줄로 써보는 것이다. 그 10줄이 없으면 에이전트가 못하는 게 아니라, 우리가 아직 일을 맡길 준비를 덜 한 것일 수 있다.