[이전 포스트…]
[To be a Data Scientist] 0. 프로젝트를 시작하면서..
[To Be a Data Scientist] 1. 데이터 과학은 무엇인가? (1)
0. 우선…
저번 포스트에서 언급한 이번 포스팅의 주제는 통계적 추론 / 탐색적 데이터분석 / 데이터 과학 이었습니다. 하지만 부족한 공부와 과중한 업무로 인해 아직 충분히 지식이 쌓이지 않은 점과, 저번 포스팅에서 다루지 못한 이야기가 조금 더 남아 있어서 먼저 짚고 넘어가는 시간을 갖도록 하겠습니다.
요지는… 시간을 조금 더 주세요… <(_ _ )>
1. 복습 +@
저번 포스팅을 통해서 살펴본 현대의 하드웨어와 인프라의 발전은 우리의 삶을 데이터화(Datafication) 하기 시작했습니다. 많은분들이 알고 있다시피 쇼핑, 뉴스읽기, 음악감상, 인터넷 검색 등 모든 온라인 활동이 각 서비스제공자를 통해서 기록되고 있습니다.
동시의 우리의 오프라인 활동도 온라인 활동과 비슷하게 데이터화 되기 시작했습니다. 금융, 의료산업, 약제산업, 생명공학, 사회복지, 정부, 교육 등 거의 모든 분야에서 데이터의 영향력이 점점 커지고 있습니다. 어떤 경우에는 수집된 데이터가 ‘빅’이라고 간주될 만큼 많기도 하고 다른 대부분의 경우는 그렇지 않습니다(데이터 과학에서 데이터의 크기는(빅이냐 아니냐) 수 많은 이슈중에 하나일 뿐입니다. 쉽게 생각할 수 있는 빅데이터 분석 = 데이터과학 이라는 등식은 성립되지 않는다는 이야기이기도 하고요)
데이터화를 통해 여러 분야에서 데이터 상품들이 나오기 시작합니다. 대표적으로는 아마존의 추천 시스템, 페이스북의 친구추천이, 금융분야의 신용등급 평가, 트레이딩 알고리즘이, 교육분야의 뉴튼(www.knewton.com) 이나 칸 아카데미(www.khanacademy.org)에서 이루어지고 있는 개인화된 학습과 평가시스템이 있습니다. 우리 정부의 ‘정부 3.0’ 도 그러한 트렌드를 반영하려고 하고 있지요.
1.1 데이터화
1922년에 창간된 저명한 국제관계 분야 저널인 포린 어페어스 2013년 5/6월호에서 케네스 닐 쿠키어 kenneth Neil Cukier와 빅터 메이어-쉔버거 Victor Mayer-Schoenberger는 “빅데이터의 등장” 이라는 논문을 발표합니다. 그 논문에서 데이터화의 개념에 관해 논합니다. 페이스북이 어떻게 ‘좋아요’를 가지고 친구 관계를 측정하고 추천하는지에 대한 사례가 나옵니다. 온라인이든 아니든 우리가 하는 모든 행동이 훗날의 분석을 위해 누군가의 데이터 창고에 저장되고 있습니다. 아마 우리가 취하는 행동 하나가 여러서비스에 저장되고 판매(!)될 것입니다
이 논문에서는 데이터화를 ‘삶의 모든 측면을 포착해서 그것을 데이터로 바꾸는 과정’이라고 정의합니다. 예를 들면 ‘구글의 증강현실 안경은 시선을 데이터화하고, 트위터는 생각의 조각들을 데이터화 하며 링크드인은 전문가 네트워크를 데이터화한다’고 말합니다.
데이터화는 굉장히 흥미로운 개념입니다. 우리는 온/오프라인 상에서 살아가는 시간동안에 우리 자신이 데이터화되고 있거나, 아니면 우리의 행동이 데이터화되고 있습니다. 페이스북에서 누르는 ‘좋아요’버튼, 단순 서핑을 통해서 모이는 브라우저 쿠키정보, 각종 상점에 남기는 카드결제 정보와 FitBit 같은 웨어러블 정보를 통해서 쌓이는 각종 정보들… 일일히 나열할 수 없을 만큼 다채로운 데이터가 우리 하루의 삶을 통해서 나올 수 있습니다(꽤나 지루한 하루를 보내더라도 말이죠… )
명시적 동의 아래 기꺼이 참여하는 SNS부터 일방적인 감시나 스토킹에 이르기까지 소위 의도성의 스펙트럼은 무척이나 넓지만 그것은 모두 데이터화며, 그 데이터는 정보주체의 의도와 무관하게 이용되곤 합니다 (연락 끊긴지 오래된 초등학교 동창생을 발견하려고 좋아요 버튼을 누르는 페이스북 유저는 없을 것입니다…. 아마도?). 인용된 논문에서 데이터화에 대해 저자들의 관점에서 한문장으로 표현한 부분이 있습니다.
“일단 대상을 데이터화하면, 우리는 그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다“
여기에 우리가 반복적으로 연구하고 반복적으로 문제를 제기할 중요한 질문이 담겨 있습니다. ‘우리’는 누구를 가리키는 것이며, 그것은 어떤 종류의 ‘가치’를 의미하는가? 위에 나열한 여러가지 사례들로 볼 때, 일반적으로 ‘우리’는 개발자나 사업가들이 될 것이고 ‘가치’는 자동화를 통해서 향상된 효율성과 같은 것을 의미할 것입니다.
2. 주위에서 벌어지고 있는 일들
데이터과학이란 무엇인가? 그것은 새로운 현상인가 아니면 통계학이나 분석학에 새로운 이름표를 붙인 것에 불과한가? 그것은 진짜인가 아니면 순전히 과장된 열기인가? 만약 새로운 현상이고 진짜라면, 그것은 도대체 무엇을 의미하는가?
위에 나열한 주제들은 지금도 활발히 논의가 진행중인 사항들입니다. 대학교 연구실보다 기업의 사무실에서 먼저 이슈가 되고 활발한 연구가 이루어진 분야이니 만큼 이 산업에서 무슨일이 벌어지고 있는지 확인을 하고 싶다면 온라인상에서 어떤 토론들이 이뤄지고 있는지 알아보는 것이 많은 도움이 될 것입니다. 예를 들면 쿼라(www.quora.com)에서는 2010년부터 “What is Data Science”라는 주제로 토론이 진행되고 있습니다(https://www.quora.com/topic/Data-Science). 책에서 인용한 메타마켓 MetaMarket의 CEO인 마이크 드리스콜 Mike Driscoll이 제시한 해답은 이렇습니다.
현실에서 보듯이 데이터과학은 레드 불과 같은 각성음료에 의지해서 날밤을 새우는 해킹과, 에스프레소에 의해 영감을 받는 통계학의 혼합이다.
그러나 데이터 과학은 단순히 해킹이 아니다. 배쉬(Bash)와 피그(Pig)스크립트의 디버깅을 끝낼 때, 거의 모든 해커는 비-유클리드적 거리 척도 non-euclidean distance metrics에 관심을 갖지 않는다.
그렇다고 데이터 과학은 단순히 통계학도 아니다. 왜나햐면 완벽한 모델을 이론화하고 난 후에는 탭으로 구분된 데이터 파일을 R로 읽어 들이는 통계학자는 거의 없기 때문이다.
데이터과학은 데이터의 토목공학이다. 그것의 수행자들은 이론적인 이해와 더불어 도구와 자료에 관한 실무적 지식을 갖추고 있다.
이렇게 설명한 다음에 드라스콜은 2010년에 드루 콘웨이 Drew Conway가 제시한 데이터 과학 벤다이어 그램을 인용합니다.
3. 데이터 과학자 프로필
이 책에서 데이터 과학자 프로필이라는 도표가 나옵니다. 데이터과학 분야 자체가 융합 학문이고 한사람이 모든 역량을 다 가질 수는 없기 때문에 어떤 과제를 해결하기 위해서는 팀을 이루는 것이 이상적일 것입니다. 여기서 데이터 과학자 프로필은 더 균형 잡힌 팀을 꾸리는데 도움이 됩니다.
다음은 책의 저자인 레이첼의 데이터 과학자 프로필입니다.
이 표는 데이터 과학자가 다뤄야할(혹은 다루게 될) 기술과 학문에 대해서 자신이 직접 프로필을 만들어 볼 수 있게 도와줍니다. 이렇게 작성된 프로필은 팀을 꾸릴 때 도움이 될 수 있는데요…
위에 그림에서 보는 것 처럼 각기 다른 역량을 가진 사람들이 모여서 모든 분야에서 일정 이상의 수준을 가진 ‘팀’을 만들 수 있습니다. 이렇게 다양한 사람들로 한 팀을 이루면 아무래도 특정한 문제를 더 잘 해결할 수 있지 않을까요?
마무리 하면서….
의도치 않게 개론적인 내용만 두편을 쓰게 됐네요 ㅎㅎ
읽으시는 분들의 입장으로는 연재가 너무 느린데다가 별 내용이 없어서 지루하실 것 같네요 ㅠㅠ
다음 포스팅 부터는 본격적으로 공부할 내용들이 나올 예정이니 같이 공부해봤으면 좋겠네요.
[다음 포스팅은….]
통계적 추론 / 탐색적 데이터분석
(*) 이 연재는 데이터 과학의 개념조차 없는 개발자가 각종 삽질을 통해서 배워가는 과정을 가감 없이 게시하는 장이 될 것입니다.
(**) 때문에 정확하지 않은 개념이나 어휘들이 등장할 확률이 농후하니 논문이나 저널 등에 참조하지 마시기를 권하며(ㅋ) 오류들은 댓글을 통해 알려주고 수정하도록 독려하셔서 어린양이 길을 잃지 않도록 도와주세요…