(번역) Dan 에게 물어봐! - 맥주와 기저귀의 판매량 사이의 관계를 데이터 마이닝을 이용하여 찾아낸 이야기의 "진실"은 무엇인가?



이 글은 University of Northern Iowa 의 교수이자 JMWAIS.org 와 DSSResources.com 에디터이신 Daniel J. Power 교수님에게 허락을 받아 2002년 11월 10일자 DSS NewsAsk Dan! - What is the “true story” about data mining, beer and diapers? 를 번역한 것입니다. 첫 번역이라 오역이 많을 수 있으니 가급적이면 원문을 참고 바랍니다.

시간을 내어 번역을 도와주신 randomness 에게 감사의 말을 전합니다.

Dan 에게 물어봐! by Daniel J. Power

맥주와 기저귀의 판매량 사이의 관계를 데이터 마이닝을 이용하여 찾아낸 이야기의 “진실”은 무엇인가?

이것은 유명한 의사결정지원의 예와 관련하여 자주 거론되는 질문 중 하나이다. 데이터 마이닝을 이용하여 맥주와 기저귀의 상관관계를 찾아내는 이 이야기는 이야기되고 다시 이야기되면서 다른 전설이나 “터무니 없이 과장된 이야기” 처럼 내용이 덧붙여졌다. 그 이야기를 처음 들었을 때가 정확히 기억나지는 않지만 나 또한 이 이야기를 자주 언급했고 스스로 내용을 더 추가하기도 하였다. 아래는 이 이야기의 여러 버전들이다.

The Financial Times of London (1996.02.07) 의 기사다. “데이터 마이닝의 활용분야를 논할 때 자주 인용되는 예는 맥주 브랜드와 아기 기저귀 브랜드 사이에 많은 고객들의 강한 상관관계를 찾은 미국의 큰 슈퍼마켓 체인점의 케이스다. 기저귀를 구입한 대부분의 손님들이 맥주도 구매하였다. 세계에서 가설을 가장 잘 세우는 사람이었어도 이 상관관계를 유추하기는 어려웠겠지만 데이터 마이닝은 이 관계가 실재한다는 것을 보여주었고 판매점은 제품들을 선반에서 가까이 이동시킴으로써 이를 활용 할 수 있었다.”

UCLA 의 Bill Palace (1996년 여름) 는 그의 웹 강의 노트를 이렇게 작성했다. “데이터 마이닝의 활용 예시로 중서부의 식료품 체인이 오라클 소프트웨어의 데이터 마이닝 기능을 활용하여 그 지역의 구매 패턴을 분석한 사례가 있습니다. 그들은 남자들이 목요일과 토요일에 기저귀를 살 때면 맥주도 사는 경향이 있다는 것을 찾아내었습니다. 뿐만 아니라 분석은 사람들이 일반적으로 토요일에 장을 보는 것도 보고 목요일에는 몇몇 가지의 상품만을 구매하는 것을 보여주었습니다. 그 소매업자는 다가오는 주말을 위해서 맥주를 매입해야 한다고 판단을 내렸습니다. 그 식료품 체인은 이 새롭게 발견된 정보를 아마 수익을 증가시키는 다양한 방법으로 이용할 수 있었습니다. 예를 들자면 그들은 맥주를 기저귀와 가까운 거리에 비치함으로써 목요일과 같은 매출이 적은 날에도 두 물건이 제 가격에 팔릴 수 있다고 자신할 수 있었습니다.”

Hermiz 와 Manganaris (1999) 는 이렇게 서술했다. “가장 많이 반복되는 (대부분 조작되었을) 데이터 마이닝 스토리는 장바구니에서 맥주와 기저귀가 같이 나타나는 것을 발견했다는 것이다. 설명은 이러하다. 아빠들이 기저귀 심부름을 왔을 때 종종 그들이 좋아하는 맥주 여섯팩을 보상으로 사간다는 것이다.“

또한 제8회 연례 버지니아 고등학교 프로그래밍 대회 (2001) 에서는 맥주와 기저귀라는 이름의 문제가 출제되었다. 그 문제설명은 이렇게 시작한다. “상점 주인은 오랫동안 고객의 거래기록을 분석하는 것이 자신의 이익을 증가시킬 수 있음을 발견했다. 예를들어 어떤 상품을 같이 판매되는 횟수가 많은 다른 상품 가까이 두는 것이 이 상품들에 대한 구매를 촉진한다는 것이다. 확실히 우유와 시리얼은 빈번하게 같이 구매가 일어난다. 그러나 어떠한 패턴은 이보다는 덜 명백하다. 예를들어 기저귀와 맥주를 같이 구매하는 경우이다. 주어진 구매기록들에서 함께 구매가 일어나는 상품의 쌍을 찾아라.”

웹이나 데이터 마이닝 책에서도 이 이야기의 다른 버전들도 찾을 수 있다. 학생들의 질문과 내 스스로의 호기심으로 나는 이 이야기의 진실을 찾기로 결심했다. 2002년 7월 나는 NCR 의 한 부서인 Teradata 에서 후원하는 데이터 마이닝의 과거와 현재, 미래에 대해 생중계하는 인터넷방송에 대하여 미디어 자문을 받았다. 이 인터넷방송은 맥주와 기저귀 연구의 10주년과 데이터 마이닝의 전설이 시작되었음을 기념하고 있었다. 나는 2002년 7월 31일의 라이브 이벤트에는 참석할 수 없었으나 발행된 인터넷방송을 보았고 사회자였던 Teradata 의 Holly Michael 이 2002년 9월에 나에게 당시의 방송 기록을 보내주었다.

MindMeld, Inc. 의 CEO 인 Thomas Blischok 는 네 명의 토론자 중 한명이었다. Blischok 은 맥주와 기저귀의 전설이 시작된 원본 연구를 다루었다. Holly Michael 은 이 전설을 요약하면서 인터넷방송을 시작했다. 그녀의 이야기를 이러했다. “대형컴퓨터가 매장 구매 데이터를 조사하는 중이었다. 여기서 오후의 매매기록에서 맥주와 기저귀 간에 예상보다 높은 생소한 상관관계를 찾아냈고 추측하건대 이 데이터는 젊은 아빠들이 직장에서 집으로 가는 길에 유아용품을 사가는 스스로를 위해서 무엇인가를 구매한 것 같다는 것을 시사하였다. 소매업자들은 이 상관관계를 듣고 두 제품의 구매를 촉진하기 위해 위치를 재정렬하였다고 한다.”

Holly 는 1990년대 초반 Oslo Drug 의 데이터 마이닝 프로젝트를 설명한 Thom Blischok 에게 순서를 넘겼다. Thom 은 Oslo Drug 가 데이터 마이닝에서 선구적인 회사 중 하나임을 언급하였다. 그는 “우리가 그들 조직의 고위 경영팀과 협력하는 경우 우리는 그들이 완전히 새로운 판매전략을 수립하도록 돕습니다. 기존의 판매전략은 바이어에 의해 구입되고 판매되었던 것에 반하여 우리는 상점에서 팔리는 것을 사는데 초점을 맞춘 판매 전략을 제시하였습니다.” 라고 말했다.

Blischok 에 따르면 “그들의 고위 경영팀은 비전이 있었고 그들의 비전은 소비자의 수요를 중심으로 매장을 재창조하는 전략을 중축으로 하고 있었습니다. 이것이 전설의 시작이죠. 우리는 120만개의 장바구니를 분석했는데 여기서 장바구니란 당신이 실제 카트에 넣고 계산대에서 계산한 물건들을 말합니다. 그리고 이것들은 약 25개의 점포에서의 거래기록에 해당하죠. NCR 입장에서의 우리의 전략은 주어진 쇼핑 환경에서 사람들이 무엇을 사는지 찾아내는 것이었습니다.”

전설에 대한 이야기는? Blischok 가 말했다. “그래요, 이야기로 다시 돌아가자면, 우리는 소비자들이 오후 5시에서 7시 사이에 맥주와 기저귀를 사는 것을 발견했습니다. 이것은 소매업자들이 그 전까지 본적이 없는 인사이트였습니다. 그리고 이건 우리가 왜곡한게 아니라 실제로 일어난 일이었습니다. 이러한 초기 개척 과정에서 Osco 가 발견한 것은 모든 결정에서 소비자의 선호도를 중심으로 기반하여 매장을 다시 디자인하는 것이 가능하다는 것이었습니다. 그 경영팀은 이를 수용하고 변화의 기회를 얻었음을 쉽게 이해했습니다. 하지만 실제로 그들이 맥주와 기저귀의 관계를 이용하여 따로 조치한 것은 없습니다. 대신에 그들이 한 것은 그들의 상품기획 과정의 재설계를 보수적으로 시작했다는 겁니다.”

샌디에고에 있는 Teradata 데이터 마이닝 랩의 임원인 Mike Grote 은 Blischok 의 발표에 2002년의 데이터 마이닝을 덧붙였다. Mike 는 이렇게 이야기 했다. “우리가 오늘 기자회견의 목적으로 활용하기 위해 맥주와 기저귀의 이야기를 생각한다면 여기에는 틀림없이 오늘날의 데이터 마이닝 기술의 수준에 반하는 한계가 존재합니다. 최신식의 도구와 쿼리 생성 도구의 맥락에서 생각했을 때 Thom 과 그의 팀은 훨씬 더 많은 수의 거래기록을 확인해볼 수 있었고 함께 일어나는 다른 특별한 구매 기록을 찾았을 것입니다. 그래서 무엇을 보여주고 우리는 어떻게 오늘날의 문제 접근 방식과 대조할 것인가요? 글쎄요, 아마도 우리가 오늘날 그 문제를 다루는 것은 우리가 사건이 같이 발생하는지 확인할 수 있게 해주는 것뿐만 아니라 하나의 사건이 다른 사건이 일어날 가능성을 극적으로 증가시키거나 하나의 구매가 극적으로 다른 구매가 일어날 기회를 극적으로 증가시키는 결정을 할 수 있도록 해주는 몇몇의 추가적인 툴을 사용하는 것입니다.“

모든 사람이 위 설명에 동의하는가? YES and NO! John Earle 는 www.riggs.com 에 1998년 12월 21일에 투고했다. “나는 Teradata 에서 일했고 신화(myth) 가 시작되는데 기여한 사람이다. 우리는 Osco Drugs 를 위해 데이터 분석을 해왔었다… 함께 구매가 일어나는 상품간의 연관성을 찾고 있었고 우리는 연관성에 영향을 어떻게 미치는지 보기 위해 상점에서의 상품 이동에 따른 테스트를 제안했다. …우리의 두려움을 모르는 리더인 Thom Blischok 는 전망에 대해 이야기 할 때와 언론에서 실제 관계성 실험과 우리의 가설에 구분을 두지 않았다. 우리의 일은 시스템의 가치를 파는 것이었다. 판매에 있어서 사실은 종종 미신에 의해 흐려지기 마련이다.”

HP Labs 의 Tom Fawcett 는 2000년 6월 14일 (수) 에 KDnuggets.com 에 “기저귀와 맥주” 의 기원에 대하여 글을 썼다. Fawcett 는 Lounette 의 예의 기원에 대한 제 3자로서의 설명을 Ronny Kohavi 를 통하여 제공했다. 그의 글은 Thom Blischok 을 반박했다. “기저귀와 맥주의 예는 상상에 불과하다. 내가 알고 있는 한에서 그들이 분석한 어떤 데이터도 이를 지원한 적이 없다.”

Ronny Kohavi 는 2000년 7월 6일에 www.kdnuggets.com 의 이메일에 썼다. “1998년 ICML 의 초대 강연에서 맥주와 기저귀의 예를 더 추적해보았다. http://robotics.stanford.edu/~ronnyk/chasm.pdf 의 21번째 슬라이드를 확인해보라. 기본적으로 나는 Blischok 의 그룹에서 쿼리를 실행했던 사람을 찾았다. K. Heath 는 특히 수익적인 유아용품을 포함한 두 개의 아이템 쌍을 찾기 위해 SQL 의 self join 을 실행했다 (1990). 그녀는 50개 매장의 하루간 데이터에서 맥주와 기저귀의 패턴을 찾아냈다. 그녀와 이야기할 때 그녀는 이 패턴을 중요하게 생각하지는 않지만 흥미롭다고 얘기했다.”

그래서 사실은 무엇인가? 1992년 Teradata 리테일 컨설팅 그룹의 매니저인 Thomas Blischok 와 그의 직원들은 25개의 Osco Drug 매장에서 나온 120만개의 구매기록을 분석했다. 데이터베이스 쿼리는 연관성을 발견하기 위해 개발되었다. 그 분석결과는 “오후 5시에서 7시 사이의 소비자는 맥주와 기저귀를 구매한다는 것을 발견했다.” 였다. Osco 의 매니저는 선반에서 제품을 가까이 이동시키는 식으로 맥주와 기저귀의 관계를 이용하지 않았다. 이 쿼리 도구를 이용한 의사결정 지원 연구는 연관성을 찾아내기 위해 실시되었다. 이야기의 진실은 전설과 비교하여 꽤나 볼품없다.

혹시 누군가 당신에게 “데이터 마이닝, 맥주와 기저귀” 에 대한 이야기를 물어본다면 당신은 이제 사실을 알고 있다. 대부분의 사람들이 말하는 그 이야기는 사실 소설이나 전설이다. 당신은 계속해서 그 이야기를 말할 수 있으나 당신이 어떻게 말할지라도 “데이터 마이닝, 맥주와 기저귀” 의 이야기는 현재 데이터마이닝 기술의 의사결정 지원의 가능성에 대한 좋은 예가 아니라는 것을 기억해야 한다.

References