Posted in iOS 개발 이야기

Realm 사용 시 앱스토어 리뷰 리젝 주의사항

1. 발견

(언제나 그렇듯이) 예상치 못한 이슈들로 개발기간을 훌쩍 넘긴 채 (죄송스럽게) 계속 작업하고  있는 “픽트리 성경 iOS” 앱을 어느정도 마무리 단계에 접어들었습니다. 기능상 구현은 완료 됐고, 성경데이터 정리와 기타 UI 정리가 남은 상태에서 테스트 겸 앱스토어에 리뷰신청을 했는데…

“두둥”

스크린샷 2016-07-06 오후 3.09.21

리젝이다… ㅠ_ㅠ

2. 해결

사유를 읽어보니

너가 만든 앱은 설치 후 실행만 해도 사용자의 iCloud  저장소를 6.3메가나 사용하고 있어! 이건 우리 정책을 위반 하는거야!

라고 하네요…

제가 만든 앱에서 사용자가 iCloud를 사용해서 사용자 데이터를 백업하는 부분이 있기는 하지만… 6.3메가라니! 이상하단 생각에 우선 Next Steps 를 읽어보니 어떤 파일이 백업되고 있는지 알아내는 코드를 알려줍니다.

우선 앱이 설치되고 실행되면 가장 먼저 실행하는 코드가 담긴 AppDelegate.swift 파일에서 어떤 파일들이 백업의 대상이 되고 있나 살펴봅니다.


func application(application: UIApplication, didFinishLaunchingWithOptions launchOptions: [NSObject: AnyObject]?) -> Bool {
var URL:NSURL
var completeFilePath:String
for file in documents {
completeFilePath = basePath + "/" + file
URL = NSURL(fileURLWithPath: completeFilePath)
print(URL)
}
}

위에 코드를 입력하고 로그를 확인하면 지금 iCloud 백업의 대상이 되는 파일을을 알 수 있습니다.
제 경우에는 유저데이터를 관리하기 위해서 사용한 Realm 의 디폴트 저장소가 멋대로 백업 대상에 들어있었습니다.

이제 원인을 알았으니 해결할 차례!

문제는 Realm 에서 자동으로 저장하는 디폴트 저장소가 백업이 자동으로 요구되는 위치라는 것. 그럼 위치를 옮겨서 Realm 저장소를 저장하면 해결 되지 않을까… 해서


override init() {
let realmPath = NSSearchPathForDirectoriesInDomains(.CachesDirectory, .UserDomainMask, true)[0]
self.myDB = try! Realm(fileURL: NSURL(fileURLWithPath: realmPath + "/data.realm"))
}

이렇게 fileURL을 캐시 저장 디렉토리로 옮겨서 다시 앱스토어에 올리니

“성 to the 공”

스크린샷 2016-07-06 오후 3.29.22

 

P.S.

사실은 해결은 했지만 그리 개운한 방법은 아닌 것 같다. 내가 알기로는 캐시영역에 있는 데이터들은 디바이스의 용량이 한계치까지 모자르게 되면 지워질 수도 있다고 알고 있어서…

다른 방법도 리서치 해봐야지…

Posted in 기획 & 운영, 스크랩

아마존은 왜 소셜 미디어인가? (Why Amazon is Social Media?)

Organic Media Lab

<이전 포스트: 어디까지 보여줄 것인가?>

아마존이 무슨 회사인지 물으면 대부분의 사람들은 여전히 ‘책파는 회사’라고 답한다. 아직 한국시장에 본격적으로 진출하지 않았기 때문에 어떤 회사인지 관심 갖는 사람도 많지 않다. 하지만 2012년도 거래규모(GMV)가 970억불에 달하는 아마존은 이미 월마트를 위협하고 있고 심지어 구글, 페이스북, 애플의 경쟁사로도 거론되고 있다. 모바일, 컨텐츠, 클라우드 서비스 시장 등에서 이들과 본격적인 경쟁을 시작했기 때문이다. 하지만 필자가 아마존에 주목하는 이유는 이미 공개된 비즈니스 전략이나 성장 규모 때문이 아니다.

아마존은 이미 단순한 상거래를 넘어서는 사용자 참여 기반의 서비스 모델을 갖고 있다. 이번 글에서는 아마존 서비스의 작동원리를 살펴보고 아마존이 왜 ‘소셜 미디어’인지 알아보는 시간을 갖는다. 이 과정에서 커머스 모델과 소셜 미디어가 어떻게 연결될 수 있는지 이해하는 것은 물론, 두 서비스 영역의 미래에 대해 상상해 보는 시간이 되기 바란다.

View original post 1,218 more words

Posted in CSM, 소규모 프로젝트

[CSM] 인트로…

0. CSM(가제)

Cafe Stock Manager 의 약자 입니다. 직관적인 이름에서 보시다시피 카페 재고관리에 도움이 되는 앱을 만들어 보려고 합니다.

최근에 지인이 카페 창업을 했습니다. 저도 그 즈음에 이직을 위해서 회사를 그만두고 나오게 되서 자연스럽게 카페에 자주 찾아가게 됐는데 거기서 직원분들이 재고 조사하고 정리하는 과정이 아무래도 영 불편해 보이더라고요.  카페마다 다르겠지만 코팅된 재고조사표에 네임펜으로 작성하고 휴지로 지우는 방식으로 기록을 남깁니다.

인터넷으로 좀 더 조사해보니 대부분의 카페가 재고조사를 비슷한 방식으로 하고 그 결과를 엑셀로 옮겨서 관리 하는 정도가 데이터를 가지고 있는 전부였어요.  재고 증감에 대한 데이터도 뭔가 재밌는게 많이 나올 것 같기도 하고 해서 …

앱을 만들기로 했습니다.

1. 설계

앱을 설계 하면서 정한 이번 프로젝트의 모토는 (1) 개발은 무조건 빠르게!! (2) 무조건 자바스크립트!! 입니다.
요즘 워낙 자바스크립트 기반의 프레임워크가 많이 나와서 언젠가 한번은 시도 해보고 싶었던 방식이기도 했고요. 그런 이유로 이번 앱의 구조는 다음과 같이 정하려고 합니다.

1.1 클라이언트

하이브리드 앱 프레임워크는 자바스크립트를 이용하면서 각 플랫폼의 네이티브 코드를 생성해 주는 녀석들 중에서 요즘 핫한 React-Native로 결정했습니다. React에서 MVC 디자인패턴에 도전(?) 하는 패턴으로 내놓은 Flux패턴을 사용해보고 싶은 욕심도 한몫 했네요.

1. 2 백앤드

Node.js의 등장으로 자바스크립트를 사용해서 서버코드를 작성할 수 있게 되면서 서버 개발의 진입 장벽이 많이 낮아진 것은 사실이지만, 실제로 서비스 가능한 서버를 작성하고 유지보수 하는 것은 여전히 부담스러운 것이 현실이죠. (만에 하나) 서비스가 성장하게 된다면 문제는 더욱 커지겠고요.  이것 저것 알아보던 중에 AWS를 사용해서 서버 없는 아키텍쳐를 만드는 글들을 보면서 이번 프로젝트에 적용해 보자는 결심을 했습니다.

AWS기반으로 백앤드를 구현하면서 많은 부분들이 편해지기는 했지만, 여전히 유저 관리 및 인증 관련해서 이슈들이 산더미 처럼 남아있습니다…. (ㅠ_ㅠ)
하지만! 요즘 귀찮은건 남이 거의다 해주더라고요… ㅎㅎ 제가 찾은 서비스는 Auth0.com에서 제공해주는 유저 인증 및 관리 서비스입니다. 각종 플랫폼 별로 문서 정리가 상당한 수준으로 되어 있고 각 플랫폼 별로 Seed Project도 제공해주고 있어서 빠른 개발을 위해 사용하기로 결정 했습니다.

1.3 아키텍쳐 구성

위에 말한 프레임워크들을 사용한다면 기본 적인 구조는 아래 그림과 같겠네요…

스크린샷 2016-04-18 오후 5.21.57
이런 모양이 되겠네요

 

[참고 링크]

Flux 공식문서 번역본

개발자들이 말하는 AWS 기반 ‘서버 없는 아키텍처’

Single Sign On & Token Based Authentication – Auth0

Posted in To be a Data Scientist

[TBDS] 1. 데이터 과학은 무엇인가? (2)

[이전 포스트…]
[To be a Data Scientist] 0. 프로젝트를 시작하면서..
[To Be a Data Scientist] 1. 데이터 과학은 무엇인가? (1)

0. 우선…

저번 포스트에서 언급한 이번 포스팅의 주제는 통계적 추론 / 탐색적 데이터분석 / 데이터 과학 이었습니다. 하지만 부족한 공부와 과중한 업무로 인해 아직 충분히 지식이 쌓이지 않은 점과, 저번 포스팅에서 다루지 못한 이야기가 조금 더 남아 있어서 먼저 짚고 넘어가는 시간을 갖도록 하겠습니다.
요지는… 시간을 조금 더 주세요…  <(_ _ )>

1. 복습 +@

저번 포스팅을 통해서 살펴본 현대의 하드웨어와 인프라의 발전은 우리의 삶을 데이터화(Datafication) 하기 시작했습니다. 많은분들이 알고 있다시피 쇼핑, 뉴스읽기, 음악감상, 인터넷 검색 등 모든 온라인 활동이 각 서비스제공자를 통해서 기록되고 있습니다.

동시의 우리의 오프라인 활동도 온라인 활동과 비슷하게 데이터화 되기 시작했습니다. 금융, 의료산업, 약제산업, 생명공학, 사회복지, 정부, 교육 등 거의 모든 분야에서 데이터의 영향력이 점점 커지고 있습니다. 어떤 경우에는 수집된 데이터가 ‘빅’이라고 간주될 만큼 많기도 하고 다른 대부분의 경우는 그렇지 않습니다(데이터 과학에서 데이터의 크기는(빅이냐 아니냐) 수 많은 이슈중에 하나일 뿐입니다. 쉽게 생각할 수 있는 빅데이터 분석 = 데이터과학 이라는 등식은 성립되지 않는다는 이야기이기도 하고요)

데이터화를 통해 여러 분야에서 데이터 상품들이 나오기 시작합니다. 대표적으로는 아마존의 추천 시스템, 페이스북의 친구추천이,  금융분야의 신용등급 평가, 트레이딩 알고리즘이, 교육분야의 뉴튼(www.knewton.com) 이나 칸 아카데미(www.khanacademy.org)에서 이루어지고 있는 개인화된 학습과 평가시스템이 있습니다. 우리 정부의 ‘정부 3.0’ 도 그러한 트렌드를 반영하려고 하고 있지요.

1.1 데이터화

1922년에 창간된 저명한 국제관계 분야 저널인 포린 어페어스 2013년 5/6월호에서 케네스 닐 쿠키어 kenneth Neil Cukier와 빅터 메이어-쉔버거 Victor Mayer-Schoenberger는 “빅데이터의 등장” 이라는 논문을 발표합니다. 그 논문에서 데이터화의 개념에 관해 논합니다. 페이스북이 어떻게 ‘좋아요’를 가지고 친구 관계를 측정하고 추천하는지에 대한 사례가 나옵니다. 온라인이든 아니든 우리가 하는 모든 행동이 훗날의 분석을 위해 누군가의 데이터 창고에 저장되고 있습니다. 아마 우리가 취하는 행동 하나가 여러서비스에 저장되고 판매(!)될 것입니다

이 논문에서는 데이터화를 ‘삶의 모든 측면을 포착해서 그것을 데이터로 바꾸는 과정’이라고 정의합니다. 예를 들면 ‘구글의 증강현실 안경은 시선을 데이터화하고, 트위터는 생각의 조각들을 데이터화 하며 링크드인은 전문가 네트워크를 데이터화한다’고 말합니다.

데이터화는 굉장히 흥미로운 개념입니다. 우리는 온/오프라인 상에서 살아가는 시간동안에 우리 자신이 데이터화되고 있거나, 아니면 우리의 행동이 데이터화되고 있습니다. 페이스북에서 누르는 ‘좋아요’버튼, 단순 서핑을 통해서 모이는 브라우저 쿠키정보, 각종 상점에 남기는 카드결제 정보와 FitBit 같은 웨어러블 정보를 통해서 쌓이는 각종 정보들… 일일히 나열할 수 없을 만큼 다채로운 데이터가 우리 하루의 삶을 통해서 나올 수 있습니다(꽤나 지루한 하루를 보내더라도 말이죠… )

명시적 동의 아래 기꺼이 참여하는 SNS부터 일방적인 감시나 스토킹에 이르기까지 소위 의도성의 스펙트럼은 무척이나 넓지만 그것은 모두 데이터화며, 그 데이터는 정보주체의 의도와 무관하게 이용되곤 합니다 (연락 끊긴지 오래된 초등학교 동창생을 발견하려고 좋아요 버튼을 누르는 페이스북 유저는  없을 것입니다…. 아마도?). 인용된 논문에서 데이터화에 대해 저자들의 관점에서 한문장으로 표현한 부분이 있습니다.

일단 대상을 데이터화하면, 우리그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다

여기에 우리가 반복적으로 연구하고 반복적으로 문제를 제기할 중요한 질문이 담겨 있습니다. ‘우리’는 누구를 가리키는 것이며, 그것은 어떤 종류의 ‘가치’를 의미하는가? 위에 나열한 여러가지 사례들로 볼 때, 일반적으로 ‘우리’는 개발자나 사업가들이 될 것이고 ‘가치’는 자동화를 통해서 향상된 효율성과 같은 것을 의미할 것입니다.

2. 주위에서 벌어지고 있는 일들

데이터과학이란 무엇인가? 그것은 새로운 현상인가 아니면 통계학이나 분석학에 새로운 이름표를 붙인 것에 불과한가? 그것은 진짜인가 아니면 순전히 과장된 열기인가? 만약 새로운 현상이고 진짜라면, 그것은 도대체 무엇을 의미하는가?

위에 나열한 주제들은 지금도 활발히 논의가 진행중인 사항들입니다. 대학교 연구실보다 기업의 사무실에서 먼저 이슈가 되고 활발한 연구가 이루어진 분야이니 만큼 이 산업에서 무슨일이 벌어지고 있는지 확인을 하고 싶다면 온라인상에서 어떤 토론들이 이뤄지고 있는지 알아보는 것이 많은 도움이 될 것입니다. 예를 들면 쿼라(www.quora.com)에서는 2010년부터 “What is Data Science”라는 주제로 토론이 진행되고 있습니다(https://www.quora.com/topic/Data-Science). 책에서 인용한 메타마켓 MetaMarket의 CEO인 마이크 드리스콜 Mike Driscoll이 제시한 해답은 이렇습니다.

현실에서 보듯이 데이터과학은 레드 불과 같은 각성음료에 의지해서 날밤을 새우는 해킹과, 에스프레소에 의해 영감을 받는 통계학의 혼합이다.

그러나 데이터 과학은 단순히 해킹이 아니다. 배쉬(Bash)와 피그(Pig)스크립트의 디버깅을 끝낼 때, 거의 모든 해커는 비-유클리드적 거리 척도 non-euclidean distance metrics에 관심을 갖지 않는다.

그렇다고 데이터 과학은 단순히 통계학도 아니다. 왜나햐면 완벽한 모델을 이론화하고 난 후에는 탭으로 구분된 데이터 파일을 R로 읽어 들이는 통계학자는 거의 없기 때문이다.

데이터과학은 데이터의 토목공학이다. 그것의 수행자들은 이론적인 이해와 더불어 도구와 자료에 관한 실무적 지식을 갖추고 있다.

이렇게 설명한 다음에 드라스콜은 2010년에 드루 콘웨이 Drew Conway가 제시한 데이터 과학 벤다이어 그램을 인용합니다.

스크린샷 2016-03-26 오전 10.45.52

 

3. 데이터 과학자 프로필

이 책에서 데이터 과학자 프로필이라는 도표가 나옵니다. 데이터과학 분야 자체가 융합 학문이고 한사람이 모든 역량을 다 가질 수는 없기 때문에 어떤 과제를 해결하기 위해서는 팀을 이루는 것이 이상적일 것입니다. 여기서 데이터 과학자 프로필은 더 균형 잡힌 팀을 꾸리는데 도움이 됩니다.
다음은 책의 저자인 레이첼의 데이터 과학자 프로필입니다.

dnds_0102

이 표는 데이터 과학자가 다뤄야할(혹은 다루게 될) 기술과 학문에 대해서 자신이 직접 프로필을 만들어 볼 수 있게 도와줍니다. 이렇게 작성된 프로필은 팀을 꾸릴 때 도움이 될 수 있는데요…

dst_pf.png

위에 그림에서 보는 것 처럼 각기 다른 역량을 가진 사람들이 모여서 모든 분야에서 일정 이상의 수준을 가진 ‘팀’을 만들 수 있습니다. 이렇게 다양한 사람들로 한 팀을 이루면 아무래도 특정한 문제를 더 잘 해결할 수 있지 않을까요?

마무리 하면서….

의도치 않게 개론적인 내용만 두편을 쓰게 됐네요 ㅎㅎ
읽으시는 분들의 입장으로는 연재가 너무 느린데다가 별 내용이 없어서 지루하실 것 같네요 ㅠㅠ
다음 포스팅 부터는 본격적으로 공부할 내용들이 나올 예정이니 같이 공부해봤으면 좋겠네요.

[다음 포스팅은….]

통계적 추론 / 탐색적 데이터분석

 

(*) 이 연재는 데이터 과학의 개념조차 없는 개발자가 각종 삽질을 통해서 배워가는 과정을 가감 없이 게시하는 장이 될 것입니다.
(**) 때문에 정확하지 않은 개념이나 어휘들이 등장할 확률이 농후하니 논문이나 저널 등에 참조하지 마시기를 권하며(ㅋ) 오류들은 댓글을 통해 알려주고 수정하도록 독려하셔서 어린양이 길을 잃지 않도록 도와주세요…

Posted in To be a Data Scientist

[TBDS] 1. 데이터 과학은 무엇인가? (1)

[이전 포스트…]
[To be a Data Scientist] 0. 프로젝트를 시작하면서..

1. 빅데이터, 데이터 과학의 열풍

이제 IT관련 언론 뿐만 아니라 9시 뉴스에서도 “빅데이터”, “머신러닝” 등의 용어들을 심심치 않게 볼 수 있고 거대 기업들의 데이터 분석 및 활용 사례들을 보고 있으면 마치 우리가 신세계로 들어가는 입구에서 살고 있다는 생각이 들곤 합니다.  (이글을 쓰고 있는 시점은 특히 알파고와 이세돌9단과의 대결 때문에 이런 기분이 더욱 강하게 드는 것 같습니다) 페이스북이 어떻게 나보다 내 친구들의 소재를 더 잘 알고 있고, 어떻게 인터넷 쇼핑몰은 내가 사고 싶은 물건을 나보다 더 잘 알고 있는걸까? 이런 관심들이 관련업계 종사자 뿐만 안니라 전 국민적으로 퍼져가면서 마치 데이터 과학이 미래를 여는 열쇠인 것 처럼 이야기 하는 사람들이 나타나고, 반대로 단순한 거품으로 취급 하는 사람들의 목소리도 점점 커지고 있습니다. 우리는 두가지 의견 사이 어딘가에 있는 진실을 찾는 작업을 하려고 합니다.

2. 한 발 떨어져서 보기

책의 저자인 레이첼 슈트는 이 책을 통해서 데이터 과학이 가지고 있는 가치에 대해서 이렇게 표현합니다.

달리 말하자면, 그 열풍의 주위에는 어떤 진실이 존재한다. 그것은 새롭지만, 잘못하다간 꽃피워 보지도 못하고 사라질 수도 있는, 망가지기 쉬운 학문의 새싹이다. 그런데 언젠가 실망으로 끝나게 될 비현실적인 기대를 키우면서 그것이 특효약으로 간주되고 있다. (30페이지)

데이터 과학은 이제 막 태동하기 시작하는 학문인데 과도한 기대를 받고 있는 것 같습니다. 게다가 그러한 과도한 기대가 충족 되지 못했을 때의 반동으로 인해서 정말 가치 있고 연구할 만한 지식들이 거품취급당하고 잊혀지지 않을까 우려되기도 하고요

3. 왜 지금일까?

(아마 이미 많이 들어보셨겠지만, 반복하자면…)

스마트폰이 생활의 중심에 들어오게 되면서 기업이 사용자를 데이터화 하는데 있어서 훨씬 방대하고 정교한 데이터를 수집할 수 있는 여건이 조성되었습니다. 인터넷 쇼핑몰을 예로 들자면, 예전에는 모니터 앞에서 마우스를 굴리고 있는 고객들만 만날 수 있었고, 그 사람들의 데이터만 모을 수 있었지만 이제는 달리는 버스에서부터 회사 화장실까지,  나른한 점심 시간부터 침대에서 눈감는 시간까지 거의 모든 시간과 장소를 아우르는 범위에서 고객들의 데이터를 모을 수 있게 되었습니다. 출퇴근 시간대의 사람들은 무슨 카테고리의 상품을 많이 열람하는지, 장바구니에 물건이 가장 많이 담기는 시간대는 몇시인지 등등 모을 수 있는 데이터의 종류가 획기적으로 다양해 졌다는 이야기입니다.

동시에  AWS(Amazon Web Service)와 같은 클라우드 컴퓨팅 환경과 NoSQL계열의 DB의 등장 등으로 인해 예전에 비하면 상대적으로 매우 저렴한 비용으로 고사양의 컴퓨팅 환경을 구성할 수 있게 되면서 구글이나 페이스북처럼 큰 회사들 뿐 아니라 (지금은 커졌지만) 에어비앤비나 우버같은 스타트업들도 자신의 서비스에서 데이터를 모으고 분석하며 활용하는 것이 가능해졌습니다.

4. 그래서… 데이터 과학이 뭔데?

(솔직히 아직 잘 모르겠지만..)

지금은 예전과는 비교할 수 없을 정도의 다양하고 방대한 데이터를 비교적 싼 가격으로 빠르게 모으고 처리할 수 있어졌습니다. 위에서 설명한 이러한 배경을 이해하면 데이터 과학이라는 개념이 점점 윤곽을 보이기 시작합니다. 데이터 과학은 이전에는 전혀 없었던 새로운 개념의 탄생이라거나 IT업계에서 이야기하는 은총알(Silver Bullet : 새로운 기술이 나타날 때 마다 그 기술이 모든 문제를 해결해 줄 것처럼 부풀려지는 현상)이 아닙니다.

데이터 과학은 이전 까지 우리가 잘 해오던 것들(1), 하지만 각자의 분야(컴퓨터과학이나 통계학 마케팅 사회과학 등등…)에서 열심히 해오던 일들을 같이 모여서 머리를 맞대고 더 정교하고 치밀하게 해보자는 취지에서 시작된 학문입니다. 이제 막 태동하기 시작한 학문이기도 하고 학문의 시작점이 입문자마다 다 다르기 때문에 (2) 데이터 과학을 배우려고 해도 마땅히 커리큘럼을 찾기 힘든것이 현실입니다.

하지만 그 만큼 매력적이고 실용적인 학문이기도 하기 때문에 앞으로 발전 가능성이 무궁무진 하다고도 할 수 있겠네요

[다음 포스팅은….]

(아직 잘 모르겠지만)

통계적 추론 / 탐색적 데이터분석 / 데이터 과학 과정 등을 담을 예정입니다.
(벌써부터 두렵다…)

(1) CRM은 통해 모은 고객의 목소리를 사업에 반영했다던가, 3일 전에 올린 배너의 클릭률이 바닥을 보여서 배너 표출 방식이나 디자인을 개선 한다던가, 고객의 분포를 분석해서 더 많은 잠재고객이 있는 곳으로 타겟팅 광고를 한다던가 하는…

(2) (데이터 과학에 입문하는) 컴퓨터 공학자 / 통계학자 / 사회학자 / 혹은 스타트업의 마케팅 담당자 등등… 각자가 알고 있는 지식이 다르고 알고자 하는 지식이나 기술도 조금씩 다를 수 밖에 없다.

 

(*) 이 연재는 데이터 과학의 개념조차 없는 개발자가 각종 삽질을 통해서 배워가는 과정을 가감 없이 게시하는 장이 될 것입니다.
(**) 때문에 정확하지 않은 개념이나 어휘들이 등장할 확률이 농후하니 논문이나 저널 등에 참조하지 마시기를 권하며(ㅋ) 오류들은 댓글을 통해 알려주고 수정하도록 독려하셔서 어린양이 길을 잃지 않도록 도와주세요…

Posted in To be a Data Scientist

[To be a Data Scientist] 0. 프로젝트를 시작하면서..

  1. 아마존이나 구글 같은 회사에서 관련 뉴스를 볼 때 마다 계속 배우고  싶었던 분야중에 하나가 데이터 과학이었는데, 얼마 전 서점에서 엄청 충동적으로 책을 한권 구입하면서 공부를 시작하게 된다.
  2. 하지만 정작 “엑셀이나 RDB나 NoSQL같은 도구를 사용해서 데이터를 (엄청 많이)모으고 그걸 (어찌저찌) 조작하다보면 원하는 데이터를 (멋지게) 만들 수 있다.” 정도가 내가 알고 있는 데이터 과학의 전부다.
  3. 그래서 책을 펴자마자 나오는 내용이 내가 기대했던 R이나 Hadoop 관련 내용이 아니라 온갖 수학 공식과 도표/그래프 등등 인걸 봤을 때 적지 않은 당혹감과 배신감(?)을 느낀다.
  4. “나한텐 무리야”라는 마음으로 책을 덮는다.
  5. 근데 책이 너무 비싸다.
  6. 뭐라도 배워봐야지….

이런 불순한 동기로 연재를 시작 합니다.

무지 쓸데 없는 머릿말로 글을 여는 이유는, 제가 무언가를 새로 배워보려고 할 때 1~5번 과정을 겪으며 포기하는 경우가 상당히 많았기 때문에 혹시라도 같은 과정으로 데이터 과학을 배우기를 포기하신 분이 있다면 서로 위로를 받고 같이 힘내보자는 의미로 적어봤습니다.

제가 구입한 책은 컬롬비아 대학에서 교제로 사용하고 있다는 “Doing Data Science(레이첼 슈트, 캐시오닐 지음, 한빛 미디어 2014)” 입니다.

저는 지금부터 이 책의 순서와 내용을 중심으로 제가 아는대로, 이해한 대로 글을 적어내릴 예정입니다. 저는 좋은 개발자도 아니고 그 외 분야는 문외한이기 때문에 글이 개판일 확률이 무지 많아요… ㅋ 이 자료들을 레퍼런스로 쓰지 마시고 같이 완성해 간다는 생각으로 댓글도 달아주시고 소통하면서 같이 완성해가면 좋을 것 같아요.

그럼  첫글은 여기까지~!