온라인 학습

  1. 경제교육
  2. 온라인 학습
참고
플레이 버튼을 클릭하시면 바로 동영상 열람이 가능합니다. ※ 전체화면으로 보기 원하실때는 동영상 우측 하단의 확대버튼을 클릭하여주세요.
제목
빅데이터의 이해
학습주제
지급결제·IT
대상
일반인
설명

- 빅데이터의 이해


  o 강사: 한국은행 전산정보국 부장 김한성

교육자료
안녕하세요? 이번 시간에는 빅데이터의 이해에 대해 알아보겠습니다. 오늘의 학습목표는 다음과 같습니다. 첫째, 빅데이터의 개념을 이해할 수 있습니다. 둘째, 빅데이터의 생성과 변천에 대해 이해할 수 있습니다. 이를 통하여 빅데이터 개념을 좀 더 구체적으로 이해할 수 있을 것입니다. 셋째, 빅데이터 분석에 대해 파악할 수 있습니다. 빅데이터가 어떻게 활용되는 지를 생각해봅니다. 이러한 학습목표를 달성하기 위해 4차산업혁명으로 명명할 만큼 디지털 패러다임의 변화가 가속화되는 상황에서 우리는 왜 빅데이터에 주목하는 가를 ‘중앙은행의 입장’에서 설명을 드립니다. 또한 ‘빅데이터가 사고의 도구로서 어떻게 우리의 창의적 사고를 도울 수 있는 지를 구체적 사례를 들면서 살펴보겠습니다.
(시작)
빅데이터! 이 말을 들으면 여러분은 무엇을 떠올리시나요, 저의 경우는 코끼리가 연상됩니다. 마치 인도에서 전해 내려오는 이야기로 눈먼 현자들이 만지면서 설명하는 코끼리와 비숫하지 않을까요. 우리가 빅데이터를 잘 이해하기 위해서는 빅데이터의 생성과 변천을 살펴보는 것이 도움이 될 것입니다. 빅데이터라는 용어를 처음으로 만들어 낸 것은 아마도 2000년대 초 정보폭발을 가장 먼저 경험한 천문학과 게놈연구 분야라 할 수 있습니다. 거대한 규모의 데이터를 처리하기 위하여 엔지니어들은 컴퓨터 메모리 및 데이터베이스 등 프레임워크를 변형하여 이른바 맵리듀스, 하둡 등과 같은 빅데이터 기술을 등장시킵니다. 이후 빅데이터 기술은 인터넷기업을 중심으로 앞다투어 활용되면서, 더욱 빠르게, 더 많은 데이터가 생성되고 수집되면서 빅데이터는 ‘큰 데이터’의 의미로 부각됩니다. 그리고 앞서 빅데이터 기술로 큰 데이터 처리가 용이해지면서 작은 데이터에서는 불가능했던 새로운 예측 및 의사결정을 위한 분석방법으로서 빅데이터가 자리를 잡게 됩니다. 이러한 빅데이터 분석은 새로운 발견을 가능케 하는 과학적 사고방식과도 매우 유사합니다. 과거에 소수만이 논증과 추론을 통하여 획득한 창의적 사고를 이제는 대중적으로 가능케 하는 상황이 도래하고 있습니다.
우리가 빅데이터에 주목해야하는 가장 큰 이유는, IT에 힘입어 우리가 살아가는 경제 사회가 매우 빠르게 디지털화로 재편되기 때문입니다. 즉 4차산업혁명으로 불리울 만큼 급변하는 IT영역은 우리의 삶의 방식과 소통의 방식을 매우 빠르게 그리고 광범위하게 바꾸어 가고 있습니다. 빅데이터, 모바일컴퓨팅, Iot와 같은 새로운 정보기술이 일시적 현상이 아닌 추세적인 가운데 금융 및 경제의 패러다임을 바꾸어 가면서 경제주체의 행동은 물론 시장, 상품 서비스 등에 영향을 미치고 있습니다. 한 예로, “개인소비자” 로서의 경제주체의 행동양식은 SNS 이용이 확산되면서 “공동구매자”로 변화되어가고, 나아가 3D프린팅이 점차로 대중화 되는 시점에서는 “개인공급자”로 변화할 것입니다. 또한 상품 및 서비스 주기가 단축되면서 고용 및 물가 그리고 생산을 포함한 경제구조가 지금껏 경험하지 못한 빠른 속도로 변화하므로 이에 대한 관심을 가질 수 밖에 없습니다.
특히 지난 2007-2008년에 촉발된 글로벌 금융위기를 겪으면서 중앙은행 업무와 관련하여 주목할 만한 네 가지 변화를 경험합니다. 첫째, 이른바 지금껏 경험하지 못한 금융경제 상황의 변화, 둘째, 이에 대응한 중앙은행의 새로운 역할의 변화, 셋째, 새로운 발견을 가능케 하는 생각의 변화, 그리고 마지막으로, 이러한 변화를 촉진하고 해결책을 찾아가도록 새로운 기회를 제공하는 IT의 변화가 그것입니다. 이들 네 가지 변화는 마치 중앙은행을 중심으로 직렬현상처럼 발생하여 중앙은행도 빅데이터에 관심을 갖지 않을 수 없게 되었습니다.
앞서 말씀드린 네 가지 직렬현상의 첫 번째는 글로벌 금융위기를 거치면서 변화된 금융경제 상황입니다. 글로벌 금융위기는 우리에게 익숙한 금융거시경제 지표만으로는 변화하는 금융경제 현상을 충분히 파악할 수 없다는 것을 깨닫게 하였습니다. 이른바 데이터 갭(data gap)입니다. 감독과 규제 밖에서 일어나는 유사금융기관 및 파생금융시장 움직임에 대하여 마치 갈라진 두 개의 절벽을 연결한 다리가 끊긴 채 건너편에 무슨 일이 일어나는지 관심이 없었던 것입니다.
두번째는 중앙은행 역할의 변화입니다. 글로벌 금융위기 동안에 금융회사 및 금융시장 참가자들의 지나친 욕심과 잘못된 행동이 금융시스템을 위협하는 것을 경험하면서 중앙은행은 최종대부자로서 금융시스템 안정을 지키도록 보다 적극적인 역할을 수행해야 한다는 요구가 커졌습니다. 이에 중앙은행은 전통적으로 중시한 물가안정과 경제성장 외에 새로운 정책목표로 “금융안정”을 추가하여 그 역할을 수행하고 있습니다.
세번째는 생각의 변화입니다. 지난 십수년간 중앙은행은 금융경제현상을 이해하고 설명하는 데 있어 “연역적 접근”이 지배적이었습니다. 한 예를 들면, 우리가 잘 알고 있는 화폐수량이론 MV=PQ가 있습니다. 아시겠지만 화폐수량식은 항등식입니다. 우리가 알고 있는 일반적 이론에 대한 실증분석을 특정 데이터만을 갖고 검증하면서 우리가 알고 있는 것을 재확인 합니다. 통화가 늘면 물가가 오른다는 결론입니다.
그러나 금융위기를 겪으면서 우리는 통화를 늘리더라도 물가가 오르지 않는 상황을 경험하고 있습니다. 우리는 이미 일어난 일이지만 알지 못하는 것이 많다는 것을 발견합니다. 또한 지금 당면한 문제를 해결하는 데 있어 지금껏 우리가 알고 있는 지식과 경험이 그다지 유용하지도 못하다는 점을 배웁니다. 따라서 일반화된 이론적 주장에 얽매이지 않고 데이터가 말하는 패턴에서 당면한 문제에 대한 해결책을 찾는 생산적인 사고가 필요합니다. 그 동안 우리는 주입식 교육에 의해서 습관적으로 연역적 사고에 길들여져 버렸습니다. 그리고 자신만의 경험을 바탕으로 귀납적 결론에 쉽게 도달합니다. 우리가 그 동안 줄 곧 주장하였던 것들에 대한 전제와 가정이 현실과 부합되는지를 포함하여 새로운 발전이 가능한 사고의 변화가 필요해졌습니다.
마지막으로 IT가 만들어낸 기회의 변화입니다. 지난 30년간에 CPU, 통신 대역폭, 스토리지의 발전은 전례 없이 큰 데이터를 만들어 내고 있습니다. 그리고 빅데이터를 수집하고 관리하는 기술도 발전하였습니다. 이러한 빅데이터 기술, 빅데이터 환경은 글로벌 금융위기 이후 일어난 위기를 기회로 변화시킬 수 있는, 즉 패자를 승자로 바꾸는 Game changer로서의 역할을 할 것으로 기대하는 것입니다.
지금부터는 빅데이터가 창의적 사고로 우리를 어떻게 도울 수 있는지를 살펴볼 것입니다. 이 과정에서 학습, 데이터, 알고리즘 등 사고의 도구를 구성하는 것들에 대한 예를 소개할 것입니다. 먼저 학습에 대한 설명입니다. “살아남는 것은 힘이 세거나 영리한 동물이 아니라 변화에 잘 적응하는 것이다” 라는 말이 있습니다. 여러분은 동의하십니까? 빙하기, 혹한을 견디기 위하여 진화된 맘모스 vs 도구를 이용하여 털옷을 만들고 불을 지피면서 추위를 견뎌낸 학습하는 인류를 생각해봅니다. 오랜 빙하기에 진화를 거듭한 맘모스, 그러나 기후가 갑자기 따뜻해진 간빙기에 커다란 몸집은 땅에 달라붙은 이끼를 먹는 일을 어렵게 만들었고 두터운 털은 더위를 피하지 못하고 결국 멸종하고 맙니다. 그러나 인류는 두터운 털옷을 벗어 던짐으로써 더위에 맞섰고 사냥 도구, 음식저장 도구를 만들어 살아 남습니다. 진화는 변화하는 환경에 가장 최선으로 적합화되지만 많은 시간을 필요로 합니다. 갑작스런 변화에는 적응하기가 어렵습니다. 도구를 만들어 활용하는 학습이 진화보다는 빠른 변화에 더 적합하다는 사실을 말씀 드립니다.
데이터는 관찰의 결과입니다. 그리고 데이터는 사고의 단서입니다. 우리는 더 많은 데이터를 필요로 합니다. 그 이유는 세상을 더 넓게 바라보자는 의미입니다. 이미 보유하고 있으나 아직 사용하지 않는 데이터, 이른바 dark data 데이터가 생성되었지만 이용상 접근이 제한되는 데이터, 공공부문의 open data 그리고 우리의 다양한 활동을 담고 있는 텍스트, 소리 및 영상 등과 같이 다루기가 불편한 데이터들을 우리는 필요로 합니다. 나아가 새로운 데이터를 만드는 일(datafication)에도 주목합니다. 왜냐하면 이미 알고 있는 데이터를 뛰어넘어 새로운 데이터를 만들어 가면서 혁신에 다다를 수 있기 때문입니다. 그 한 예로 Apple iTunes를 소개합니다. 음악 감상을 생각해보면 이전에는 LP 그리고 portable 카세트 테이프에 음악을 담아서 감상했습니다. 그리고 더 많은 음악을 담을 수 있는 CD/DVD로 발전합니다. 그러나 이는 책상 위에 놓여있는 음악을 호주머니 속에 넣는 변화 일 뿐입니다. 그러나 Apple은 iTune을 통하여 음악파일을 데이터화함으로 상업적 성공을 거둡니다. 디지털 음악파일에 곡명, 앨범, 연주가, 장르, 선호여부 등 다양한 데이터 속성을 입힘으로서 새로운 가치를 창출한 것입니다.
새로운 데이터가 우리의 관찰과 사고를 어떻게 확장하는 지에 대한 몇 가지 예를 소개합니다. 우선 Fed의 웃음이라는 데이터입니다. 미국 중앙은행인 Fed는 FOMC 회의록을 5년이 지나면 공개합니다. 이 회의록에는 위원들의 발언내용은 물론 웃음까지도 기록합니다. 그림에 나타난 데이터에 따르면 2000년 이후 1,865 페이지 분량의 FOMC회의록을 들여다 보니 매 회의마다 웃음이 터진 횟수가 평균 25번으로 나타납니다. 이는 금융위기 직전인 2007년초 FOMC회의에서 보여준 45번의 웃음의 절반 수준입니다. 금융위기 직전 2007년초까지 FOMC는 무릎을 치는 즐거운 시간이었는지 모르겠지만 그즈음 주식시장에서는 베어스턴스가 30억 달러를 쏟아부으며 헤지펀드를 살려내는 동안에 베어스턴스 주가는 2달러 하락하는데 그치는 등 무엇이 다가오는지를 알지 못하였습니다. 거의 모든 사람들이 어둠 속에 갇혀 있었습니다.
앞서 Fed웃음은 미국의 통화당국이 금융경제현상을 얼마나 안일하게 보는지를 나타내는 지표로 정의할 수 있겠습니다. 이처럼 새로운 데이터인 Fed의 웃음이 유효한 관찰의 결과인지를 살펴보기 위하여 미국 주택가격 움직임을 나타내는 Case-Shiller Price Index(CSPI)와 비교를 해봅니다. 보시면 두 지표가 얼추 비숫한 추이를 나타냅니다. Fed 웃음지표가 CSPI보다 민감하게 그러나 약간 후행하는 모습을 보이고 있습니다.
새로운 데이터를 하나 더 소개하겠습니다. 정책불확실성 지표입니다. 이 데이터는 국내 주요 일간 신문 자료에서 금융경제 불확실성을 상징하는 단어를 추출하여 그 빈도, 즉 전체기사에 차지하는 기사 비율로 정의합니다. 앞서의 FOMC회의록과 같이 신문기사를 구성하는 텍스트 테이터는 형태소분석이라는 데이터 마이닝 절차를 통하여 분석을 하게 됩니다. 형태소분석이란 다루기 힘든 텍스트 데이터를 보다 처리가 용이한 정형적 데이터로 변환하는 과정입니다.
정책불확실성 지표를 도출한 결과를 살펴보면 다음과 같습니다. 표를 보면 신문기사에서 나타난 미국, 침체라는 단어를 조합하여 정책불확실성 지표를 생성합니다. 그리고 이 지표와 증권시장의 불확실성을 나타내는 대표적 지표인 KOSPI 변동성 추이와 비교해 보니 두 지표간 상관성이 0.87 정도로 나타나고 있습니다. 물론 시산된 단어조합이 정책불확실성을 나타내는 지표로 신뢰할 수 있기 위해서는 추가적인 검증 작업이 필요로 합니다. 그러나 우리가 지금까지 간과해왔던 자료이면서, 매일 또는 실시간으로 생성되는 데이터화하여 지표를 만드는 노력을 지속한다면 적시에 그리고 다양한 관점에서 금융경제현상을 모니터링하는 것이 가능하겠습니다.
데이터 분석은 원리를 찾는 일입니다. 원리는 자연과 사회를 이해하고 예측하여 문제해결 및 새로운 사실을 탐구하는 사고의 도구입니다. 데이터를 관찰의 결과라 한다면 우리는 세상을 보다 넓게 보기 위하여 더 많은 데이터가 필요합니다. 그리고 데이터가 말하는 것에 유의하면서 사고의 확장을 통하여 문제해결 및 탐구를 합니다. 이때 사고의 확장은 데이터와 알고리즘의 함수로 표현되는 Intelligence, 지성, 사고능력에 의존합니다.
알고리즘은 사고의 확장을 위한 변수입니다. 알고리즘이란 “어떤 문제의 해결을 위하여, 입력된 자료를 토대로 하여 원하는 출력을 유도하여 내는 규칙의 집합”으로 정의할 수 있습니다. 오늘날 전문 지식의 양은 늘어나지만 학문간 교류는 오히려 줄어들어 종합적 이해를 어렵게 하고 있습니다. 이에 다른 분야의 지식을 활용하는 통섭적 접근이 필요합니다. 알고리즘 활용을 위한 예로써 LA방범 활동에 대한 내용을 소개합니다. 데이터 과학과 기계학습을 적용하여 미국 LA지역에서 강도와 도둑이 발생할 장소를 예측합니다. 여기에는 범죄발생의 근친성, 자기보복적 성격이 지진발생 원리와 유사하다는 점에 착안하여 지진발생 예측 알고리즘을 적용하였습니다. 그 결과 범죄발생 가능성이 높은 지역을 실시간으로 예측하여 방범활동을 강화함으로써 지역 범죄율을 20-30% 감소하였습니다. 빅데이터는 강도와 도둑이 수학적 공식을 따른다는 것을 새롭게 발견합니다.
보시는 자료와 같이 범죄 발생 가능성이 높은 지역을 실시간으로 예측하여 지도에 빨간색으로 표시하여 알려줍니다.
다음은 새로운 상관성의 발견을 통한 사고의 확장 사례를 소개할까 합니다. 국고채 수익률은 모든 채권의 기준 수익률로 경제의 기초여건을 반영합니다. 즉, 경제가 회복될 것으로 기대되면 상승하고, 침체가 예상되면 하락합니다. 우리가 알고 있는 국고채 수익률 움직임의 패턴입니다. 우리나라 국고채 수익률(5년만기)을 기준으로 상관성이 높은 검색 자료데이터를 Google correlate를 통하여 찾으면 인도에서 영업활동을 하는 금융기관 HSBC가 드러납니다. 그림에서 보듯이 두 데이터가 매우 유사하게 움직이면서 기간중 상관계수가 0.9에 가깝습니다. 우리는 새로운 상관성의 발견을 통하여 국고채 수익률에 숨겨진 움직임에 대한 단서를 얻습니다. 그리고 새로운 질문을 상상합니다. “인도가 우리나라 증권시장에 대한 관심이 높은가”, “인도지역의 투자자들이 한국 주식시장에 대한 정보를 그 지역의 증권투자기관인 HSBC가 작성한 보고서에서 많이 의존하고 있는가” 지금껏 경험과 지식으로는 이러한 질문을 하기가 어렵지만 빅데이터는 새로운 발견을 위한 질문을 합니다. 그리고 이러한 질문은 하나의 가설로써 우리의 확인을 기다립니다.
앞서 여러 사례를 통하여 빅데이터는 불확실한 상황에서 우리가 이미 알고 있는, 경험한 것들에서 안주하는 것이 아니라 우리가 모르는 낯선 데이터를 통하여 새로운 발견을 위한 질문을 가능케 한다는 점을 보여드렸습니다. 이번에는 빅데이터 분석이 어떠한지를 전통적 데이터분석과 비교해 살펴보도록 하겠습니다.
먼저, 전통적 데이터 분석은 정형적인 숫자 데이터를 대상으로 제한된 데이터 범위에서 주어진 질문에 대한 답을 찾습니다. 변수간 사전적 관계를 반영하여 모형을 구성하고 모형내 모수를 추정하고 추정된 통계량이 적합하면 그 모형을 갖고 설명합니다.
그러나 빅데이터 분석은 문자, 음성, 영상 등 새로운 데이터 원천을 포함한 표본이 아닌 전체 데이터를 고려합니다. 특히 분석대상에 있어 전통적인 분석은 주로 우리가 한 일 만을 분석대상으로 삼는 반면에 빅데이터 분석은 우리가 한 일은 물론 우리 주위에서는 일어나는 일을 폭넓고 상세하게 분석하고 있습니다.
지금까지 빅데이터가 창의적 사고의 도구로써 우리를 어떻게 도울 수 있는지를 살펴보았습니다. “창의적 사고” 란 문제 해결을 위한 새로운 해법을 발견하는 사고입니다. 따라서 모든 문제에는 단 하나의 해법이 있다던가 가장 좋은 해법이 이미 발견되었다는 것에 안주하지 않습니다. 이런 점에서 빅데이터는 새로운 발견을 가능케 하는 사고의 도구로써 이미 일어났지만 알지 못하는 것을 발견하면서 우리가 당면한 문제를 해결하는 데 기여할 것입니다. 나아가 미지에 일어날 상황에 대한 예측력도 높아질 것입니다.
빅데이터 분석은 과학적 사고방식과도 매우 흡사합니다. 설록 홈즈의 추리방식, 케플러의 행성타원궤도 발견등 역사상 기록되는 많은 과학적 발명과 발견이 가능했던 추론과도 일치합니다. 이들 발견과 발명은 일어날 수 있는 가능한 상황에 대한 가설을 세우고, 이를 면밀히 관찰하고, 그 가운데 필연적 결과 도출이 가능한 것을 제외하고 모든 것을 하나씩 제거하면서 얻어진 것들입니다. 이제 우리는 빅데이터를 사고의 도구로써 좀 더 적극적으로 활용한다면 과거에 소수만이 할 수 있었던 창의적 사고를 좀 더 대중적으로 가능케 할 수 있을 것으로 기대합니다.
이번 시간에는 빅데이터의 이해에 대해 알아보았습니다. 오늘의 학습 내용을 정리하며 수업을 마무리 하시기 바랍니다.

콘텐츠 만족도

문서 처음으로 이동