Daily Knowledge
오늘의 지식: 굿하트의 법칙, 숫자가 목표가 되는 순간 망가지는 이유
성과지표, 시험 점수, 알고리즘 최적화, 조직 평가를 이해하는 데 꼭 필요한 굿하트의 법칙을 현대적인 사례와 함께 읽는다.
왜 오늘 이 주제인가
현대인은 숫자 속에서 산다. 회사에서는 매출, 전환율, 활성 사용자, 잔존율, 생산성, OKR 달성률을 본다. 학교에서는 시험 점수와 등급을 본다. 병원은 대기 시간, 재입원율, 환자 만족도를 본다. 유튜브와 인스타그램은 조회수, 시청 지속 시간, 좋아요, 공유 수를 본다. 심지어 개인도 걸음 수, 수면 점수, 체지방률, 독서 권수, 투자 수익률로 자기 삶을 측정한다. 숫자는 현실을 단순하게 보여준다. 그래서 편리하고, 그래서 위험하다.
‘굿하트의 법칙(Goodhart’s law)’은 이 위험을 한 문장으로 찌른다. 널리 알려진 표현은 “측정 지표가 목표가 되는 순간, 그 지표는 좋은 측정 지표이기를 멈춘다”는 것이다. 원래는 영국 경제학자 찰스 굿하트가 1970년대 통화정책을 논하며 제기한 생각에서 출발했다. 어떤 통계적 관계가 관찰될 때, 정부나 조직이 그것을 통제 목표로 삼는 순간 사람들의 행동이 바뀌고, 결국 그 관계 자체가 무너진다는 이야기다.
이 법칙이 오늘 특히 중요한 이유는 우리가 어느 때보다 많은 것을 측정하고, 그 숫자로 더 많은 결정을 내리기 때문이다. 데이터 기반 의사결정은 분명 강력하다. 감으로만 움직이는 조직보다, 실제 현상을 계량해보는 조직이 더 빨리 배운다. 문제는 숫자를 현실의 창문으로 쓰는 것과 숫자 자체를 현실로 착각하는 것이 다르다는 데 있다. 지표는 지도이고 현실은 영토다. 지도가 유용하다고 해서 지도 위의 선을 칠하는 일이 곧 길을 고치는 일은 아니다.
굿하트의 법칙은 “숫자를 믿지 말라”는 반데이터주의가 아니다. 오히려 숫자를 진지하게 다루자는 말에 가깝다. 좋은 지표는 관찰을 돕지만, 나쁜 인센티브와 결합하면 사람을 속이게 만들고, 조직을 좁게 만들고, 현실을 왜곡한다. 시험 점수를 올리려다 배움이 사라지고, 고객 만족도를 올리려다 불만을 기록하지 않게 되고, 조회수를 올리려다 콘텐츠의 깊이가 얕아지는 일은 모두 같은 구조를 가진다. 숫자가 목적이 되는 순간, 사람은 목적이 아니라 숫자를 최적화한다.
핵심 배경
굿하트의 법칙은 영국 경제학자 찰스 굿하트(Charles Goodhart)의 이름에서 왔다. 그는 영국 중앙은행과 통화정책 연구에 깊이 관여한 경제학자였고, 1975년 “Problems of Monetary Management: The U.K. Experience”에서 훗날 굿하트의 법칙으로 불릴 핵심 아이디어를 제시했다. 원래 문맥은 통화량 같은 경제 지표였다. 중앙은행이 어떤 통화 지표와 경제 상황 사이의 관계를 발견하고, 그 지표를 직접 통제하려고 하면 금융기관과 시장 참여자들이 그 규칙에 맞춰 행동을 바꾼다. 그러면 예전에 안정적으로 보였던 통계적 관계가 더 이상 같은 의미를 갖지 않게 된다.
오늘날 대중적으로 유명한 문장, “When a measure becomes a target, it ceases to be a good measure”는 인류학자 마릴린 스트래선(Marilyn Strathern)이 평가와 감사 문화에 대해 논하며 널리 퍼뜨린 표현으로 자주 인용된다. 의학 교육 분야의 한 논문은 굿하트의 법칙을 소개하며, 원래 형태를 “통제 목적으로 압력이 가해지면 관찰된 통계적 규칙성은 무너지는 경향이 있다”는 식으로 설명한다. 핵심은 단순하다. 지표가 조용히 관찰될 때와, 그 지표에 보상·처벌·승진·평판이 걸릴 때는 전혀 다른 세계가 된다는 것이다.
비슷한 생각은 사회과학자 도널드 캠벨(Donald T. Campbell)의 ‘캠벨의 법칙’에도 담겨 있다. 캠벨은 어떤 양적 사회 지표가 사회적 의사결정에 더 많이 쓰일수록 부패 압력에 더 취약해지고, 그 지표가 감시하려던 사회적 과정을 오히려 왜곡할 가능성이 커진다고 보았다. 굿하트가 경제정책의 언어로 말한 것을 캠벨은 교육, 행정, 사회정책의 언어로 말한 셈이다. 두 법칙은 모두 인간이 수동적인 데이터 포인트가 아니라는 사실을 강조한다. 사람은 자신이 측정된다는 사실을 알면 행동을 바꾼다.
가장 쉬운 예는 시험이다. 시험은 원래 학생이 어떤 내용을 얼마나 이해했는지 살피기 위한 도구다. 그런데 특정 시험 점수가 입시, 취업, 학교 평가, 교사 평가의 핵심 목표가 되면 상황이 바뀐다. 학생은 이해보다 점수 획득 기술을 익히고, 교사는 넓은 배움보다 출제 가능성이 높은 부분에 수업을 맞추며, 기관은 점수에 불리한 학생을 배제하거나 통계를 예쁘게 보이게 만들 유혹을 받는다. 시험이 쓸모없다는 뜻이 아니다. 시험 점수만을 목표로 만들면, 점수가 원래 측정하려던 배움과 점점 멀어질 수 있다는 뜻이다.
조직에서도 같은 일이 벌어진다. 고객센터에 “통화 시간을 줄이라”는 지표를 주면 상담원은 문제를 깊이 해결하기보다 빨리 끊는 방향으로 압박을 받을 수 있다. 영업팀에 “이번 분기 신규 계약 수”만 강조하면 장기적으로 부실한 고객까지 무리하게 끌어올 수 있다. 개발팀에 “처리한 티켓 수”만 보상하면 어려운 설계 문제보다 작은 티켓을 많이 닫는 행동이 유리해진다. 병원에 “대기 시간”만 강하게 걸면 빠른 분류는 좋아질 수 있지만, 복잡한 환자를 충분히 보지 못하는 부작용이 생길 수 있다.
디지털 플랫폼은 굿하트의 법칙이 가장 선명하게 보이는 공간이다. 조회수는 사람들이 관심을 보인다는 신호다. 하지만 조회수가 곧 목표가 되면 제목은 더 자극적으로 변하고, 내용은 더 짧고 분노를 유발하는 방향으로 기울 수 있다. 체류 시간은 콘텐츠가 몰입감을 준다는 신호일 수 있다. 하지만 체류 시간이 목표가 되면 플랫폼은 유익함보다 중독성을 최적화할 수 있다. 좋아요와 공유는 사회적 반응의 지표지만, 그것이 목표가 되면 사람들은 실제 생각보다 반응을 얻기 쉬운 정체성, 분노, 냉소, 과장을 연기하게 된다.
중요한 점은 굿하트의 법칙이 ‘사람들이 나빠서’ 생기는 현상만은 아니라는 것이다. 대부분의 왜곡은 평범한 적응에서 시작된다. 사람은 보상받는 방향으로 움직인다. 조직은 평가받는 기준을 맞추려 한다. 알고리즘은 주어진 목적함수를 최적화한다. 지표를 만든 사람은 “우리가 진짜 원하는 좋은 결과를 이 숫자가 대리해줄 것”이라고 생각하지만, 일단 숫자에 압력이 걸리면 현실은 그 숫자 주변으로 재배열된다. 그래서 지표 설계는 기술 문제가 아니라 인간 행동과 제도 설계의 문제다.
사람들이 자주 놓치는 포인트
-
지표는 나쁜 것이 아니라 불완전한 것이다. 굿하트의 법칙을 안다고 해서 모든 KPI와 데이터 분석을 버려야 하는 것은 아니다. 지표는 복잡한 현실을 보기 위한 렌즈다. 다만 렌즈를 눈이라고 착각하면 문제가 생긴다.
-
가장 위험한 지표는 ‘거의 맞는’ 지표다. 완전히 엉뚱한 숫자는 금방 의심받는다. 하지만 매출, 점수, 조회수, 논문 수처럼 어느 정도 의미가 있는 숫자는 쉽게 절대화된다. 현실과 꽤 닮았기 때문에 오히려 더 오래 사람을 속인다.
-
사람은 측정에 반응한다. 지표가 공개되고 보상과 처벌이 붙으면, 사람들은 의식적이든 무의식적이든 그 지표를 관리한다. 이것은 부정행위만을 뜻하지 않는다. 업무 우선순위, 보고 방식, 고객 응대, 학습 전략이 모두 바뀐다.
-
숫자가 좋아졌는데 실제가 나빠질 수 있다. 고객 불만 접수 건수가 줄었다고 고객이 더 행복해진 것은 아닐 수 있다. 불만을 접수하기 어렵게 만들었을 수도 있다. 버그 수가 줄었다고 제품이 안정된 것은 아닐 수 있다. 버그를 덜 기록하고 있을 수도 있다.
-
단일 지표는 특히 취약하다. 하나의 숫자만 목표가 되면 게임하기 쉽다. 균형 잡힌 여러 지표, 정성적 검토, 현장 관찰, 장기 추적이 함께 있어야 왜곡을 줄일 수 있다. 물론 지표를 너무 많이 만들면 아무도 무엇이 중요한지 모르게 되는 반대 문제가 생긴다.
-
좋은 의도도 면책 사유가 아니다. 교육의 질을 높이기 위해 시험을 만들고, 의료 품질을 높이기 위해 평가를 만들고, 조직의 성과를 높이기 위해 KPI를 만든다. 하지만 좋은 의도가 나쁜 인센티브를 자동으로 상쇄하지는 않는다. 제도는 의도가 아니라 실제 행동을 통해 평가해야 한다.
현대적으로 읽는 법
굿하트의 법칙을 현대적으로 읽는 첫 번째 방법은 “이 숫자가 무엇의 대리변수인가?”라고 묻는 것이다. 매출은 고객 가치의 대리변수일 수 있지만, 단기 매출이 언제나 장기 신뢰를 뜻하지는 않는다. 조회수는 관심의 대리변수일 수 있지만, 관심이 곧 이해나 존중을 뜻하지는 않는다. 수면 점수는 회복의 대리변수일 수 있지만, 앱 점수를 맞추는 데 집착하느라 오히려 불안해질 수도 있다. 모든 지표 뒤에는 원래 보고 싶었던 진짜 현상이 있다. 그 진짜 현상을 잊는 순간 숫자가 주인이 된다.
두 번째는 지표를 목표가 아니라 대화의 출발점으로 쓰는 것이다. 좋은 조직은 지표가 나빠졌을 때 바로 사람을 혼내기보다, 왜 그런 숫자가 나왔는지 묻는다. 어떤 고객군이 바뀌었는가, 측정 방식이 달라졌는가, 현장의 부담이 커졌는가, 숫자가 포착하지 못하는 품질 문제가 있는가. 지표는 경보음이지 판결문이 아니다. 경보음이 울렸다고 건물을 탓할 수도 없고, 경보음을 꺼버린다고 화재가 사라지는 것도 아니다.
세 번째는 보상 구조를 조심스럽게 설계하는 것이다. 사람에게 “이 숫자만 맞추면 된다”고 말하면 사람은 정말 그 숫자만 맞춘다. 그래서 좋은 지표 설계는 결과 지표와 과정 지표, 단기 지표와 장기 지표, 양적 지표와 질적 판단을 함께 본다. 예를 들어 고객센터라면 평균 처리 시간만 볼 것이 아니라 재문의율, 고객 설명의 명확성, 어려운 사례 처리 품질도 함께 봐야 한다. 개발팀이라면 배포 횟수나 티켓 수만이 아니라 장애율, 유지보수성, 사용자 문제 해결 여부도 봐야 한다.
네 번째는 개인의 자기관리에도 적용할 수 있다. 독서 권수를 목표로 삼으면 얇은 책만 고르게 될 수 있다. 운동 칼로리를 목표로 삼으면 몸의 회복 신호를 무시할 수 있다. 생산성 앱의 완료 체크 수를 목표로 삼으면 중요한 생각보다 자잘한 일을 많이 처리하게 된다. 개인 지표는 동기부여에 도움이 되지만, 삶의 목적을 대신할 수는 없다. “나는 이 숫자를 왜 보고 있나?”라는 질문을 주기적으로 던지는 편이 좋다.
다섯 번째는 인공지능과 알고리즘을 이해하는 데 있다. 머신러닝 시스템은 대개 어떤 목표 함수를 최적화한다. 추천 알고리즘이 체류 시간을 목표로 삼으면, 꼭 좋은 콘텐츠가 아니라 오래 붙잡아두는 콘텐츠를 밀어줄 수 있다. 채용 알고리즘이 과거 합격자와의 유사성을 목표로 삼으면, 기존 조직의 편향을 더 세련된 형태로 반복할 수 있다. AI의 문제는 기계가 감정을 갖는 데서만 오지 않는다. 훨씬 현실적인 문제는 우리가 엉성한 목표를 주고, 기계가 그것을 너무 성실하게 최적화하는 데서 온다.
마지막으로 굿하트의 법칙은 겸손한 관리의 원칙을 가르친다. 우리는 숫자가 있으면 통제하고 있다고 느낀다. 하지만 숫자는 현실의 일부를 압축한 신호일 뿐이다. 좋은 관리자는 숫자를 보되, 숫자가 만들어내는 행동까지 본다. 좋은 시민은 순위와 점수와 그래프를 읽되, 그 뒤에서 무엇이 제외되었는지 묻는다. 좋은 개인은 자기 삶을 기록하되, 기록을 위해 사는 사람이 되지 않는다. 측정은 현실을 밝히는 조명이어야지, 현실이 그 조명에 맞춰 연기해야 하는 무대가 되어서는 안 된다.
더 알아보기
- Journal of Graduate Medical Education: “When a Measure Becomes a Target, It Ceases to be a Good Measure”
- Wikipedia: Goodhart’s law
- CNA: Goodhart’s Law—Recognizing and Mitigating Manipulation of Measures in Analysis
- Psych Safety: Goodhart’s Law, Campbell’s Law, and the Cobra Effect
오늘의 한 문장
숫자는 현실을 보게 해주는 창문이지만, 그 창문을 목표로 만들면 사람들은 풍경이 아니라 유리를 닦기 시작한다.