Showing posts with label big data. Show all posts
Showing posts with label big data. Show all posts

Wednesday, November 19, 2014

[lecture] DataDay@선릉 세번째 (data analysis for actions)



Subject
데이터를 접근해서 체계적으로 쌓고 이를 활용해서 인사이트를 얻는 데까지의
데이터 활용 프로세스의 전반적인 내용에 대한 다양한 주제의 발표로 이루어집니다.
Place
D.CAMP 6th Fl.
Time
November 18, 2014 (Tue) 19:30~21:30
Speaker
[meeting: link]
고객 관리를 위한 오퍼링 효과 분석 (권정민,데이터 분석가)
Strata+HadoopWorld NY 2014 트위터로 둘러보기 (엄태욱, 데이터 프로그래머)
스타트업을 위한 지표 - 기본 개념과 활용 (서하연, 지표 전문가)
Host
twitter@DataDay_Seoul
Focus
data analysis for actions
  1. Strata+HadoopWorld NY 2014 트위터로 둘러보기 (presentation slide: link) [엄태욱, Data Programmer]
    1. lesson
      1. coding in data science
        1. data scientists need to solve problems through data analysis and data coding
        2. knowing how to code prevents faking data (read Faking Big Data #strataconf)
      2. empathic data interpretation: “walk in your data’s shoes” by @jeggers
      3. prompt usage of data: data needs to be utilized on collection when they are fresh
      4. behavior over identity: “Nowadays it’s not your identity that’s being tracked, it’s your behavior.” by Rachel Kalmar (@grapealope)
      5. users over data: “Focus on your users first, then your data.” by Emil Ong (@OngEmil)
    2. personal takeaway
      1. be user-oriented
      2. coding is required for data science


  1. 세바시 429회 데이터로 세상이 다시 한번 바뀝니다 (YouTube video: link) [하용호, Data Scientist @SKT]
    1. lesson: attention is the rarest resource and being able to match with that attention is the advantage a company will have
    2. personal takeaway: provide useful action items to users as soon as users find you


  1. 지표의 개념과 활용 (presentation: link) [서하연, CEO @Alex & Company]
    1. lesson:
      1. KPI = 지표 (key performance indicator); 1~2개의 숫자로 어떤 상태를 알려줌
        1. 개념
          1. key: 핵심 (the number of KPI is handful amount)
          2. performance: 성과
          3. indicator: 상태 like litmus paper
        2. e.g. BMI
      2. 지표의 작동 메커니즘
        1. 좋은 지표는 현상을 잘 설명하고, 사람의 행동을 바꿔야 함
        2. 지표: 활동을 숫자로 나타낸 것
          1. 활동의 예: 수동 집계, 시스템 카운트, 로그 가공, 숫자 아닌 경우도 있음
            1. e.g. 직원의 성실도: 기준 (e.g. 지각 정도)
          2. 숫자로 표현되면서 일어나는 일: 객관화 (크고 작음이 명확해짐, 공통의 기준이 생김), 비교 (지표 공유가 활발해짐, 지표를 평가 도구로 사용하게 됨)
          3. 지표에 평가가 연계될 때, 지표는 행동을 변화시킨다!
            1. 활동 (업무, 전략)-> 수치화 (표현, 객관화) -> 비교 -> 평가
            2. e.g. “숫자 피드백은 인간의 행동을 바꾸는 수단"- 토마스 괴테
            3. Appendix
              1. 숫자가 우리를 원하지 않는 방향으로 이끌기도 함
                1. 숫자 (친구 수, 좋아요 수/조회 수)-> 반응 (좋아요 얼마나 받는 지 체크함)
              2. Facebook Demetricator 벤자민 그로서
                1. 효과: 핵심에 집중할 수 있었음
            4. negative case: “매출”을 지표로 잡았더니, 주문 조작과 물량 푸쉬가 일어나기 시작
            5. positive case: “해결 건수"에서 “혜택 받는 시민의 수"로 지표를 바꿨더니 시간 걸리더라도 어려운 일 처리
      3. 지표를 완전하게 하는 것들
        1. #1. 목표값:
          1. 숫자가 목표를 만날 때, indicator가 됩니다.
          2. 목표값은 무엇을 언제까지 실행할 지 결정하는 데 도움을 줍니다.
          3. 지표는 스타트업 특성 상 수시로 변경되는 비즈니스 모델과 전략의 기준이 된다. e.g. Uber의 KPI (가동률 (%)-> 언제까지? 목표값 (60%))
        2. #2. 관련지표:
          1. KPI는 장기판의 말과 같습니다. (혼자서 돌아다닐 수는 있지만 이길 수는 없어요.)
          2. 단일 업무에는 하나의 KPI를, 전략 실행을 위해서는 KPI set이 필요
          3. e.g. Uber- 다운로드 수-> 활동유저 수-> 승차 유저 수-> 추천 유저 수
        3. #3. 디멘젼 (쪼개서 보기)
          1. 지표는 대표값입니다. 활용을 위해서는 피팅이 필요합니다.
          2. 데이터를 확보할 수 있다면 대표값 활용을 피하고 쪼개서 보세요.
          3. Appendix: “평균적인 가정에 기초한 계획은 평균적으로 잘못된다" - Sam Savage
            1. meaning 지표는 현상을 설명하기 어려움
            2. 세상의 대부분은 정규분포가 아님
          4. 완전체가 된 지표의 모습
            1. before: 승차 유저 수 4,351명
            2. after: (디멘젼 분석: 지역별 승차유저 수 파악) 다운로드 수 - 활동유저 수 - 승차유저 수
              1. e.g. 지난 주 TV 광고가 효과가 있어서 다운로드 증가하고 승차 유저도 늘었구나, 광고 타켓 고객이 많은
            3. 허상 지표도 완전체가 되면, 쓸모가 있게 됨
          5. 지표와 데이터 분석의 관계는?
            1. 선행지표 분석, 이탈 분석
    2. personal takeaway: concept of KPI, importance of 완전체 KPI and connection to related and relevant KPI


  1. 고객 관리를 위한 오퍼링 효과 분석- 과연 ‘이게’ ‘제대로" 먹혔을까? [권정민 cojette@gmail.com, Data Analyst @SK planet]
    1. lesson
      1. offering 개념: classical strategy of CRM 즉 프로모션/이벤트 (예. 쿠폰, 찌라시)
        1. 5W 1H: 타겟 고객들에게 (who) 적절할 때 (when) 우리 서비스/매장에서 (where) 적절한 benefit을 (what) 가능한 방법으로 (how) 제공; 목적 (why)은 LTV 증가/신규 고개 유입/이탈 고객 방지/서비스 인지도 상승
        2. 적용: 고객을 분류-> offering 차별화
      2. 기본 고객 관리
        1. 고객의 전반적인 lifetime 영향을 미치는 속성 구분 (e.g. 빨리빠져나갈 사람)
        2. 관련 데이터 수집 (e.g. 어떤 dungeon에선 이탈이 심함)
        3. 지속적인 모니터링 및 현 상황에 대한 고객 관리 목표 설정
      3. targetting
        1. 목적 종류 (신제품 추천, 신규 고객 유도, 이탈 예상 고객군 관리 등)에 해당하는 고객군 생성 및 분류
        2. 기본 속성(인구통계학 정보) 및 과거의 로그 데이터를 통한 고객군 생성
          1. e.g. 서울 지역에선 먹히는 데, 타 지역에선 먹히지 않음
        3. basic selection (rule-based: e.g. DOB, 20~30 women), classification, clustering,
      4. campaign
        1. 각각의 고객군에게 적합한 혜택을 제공함으로써 해당 목적에 도달할 수 있도록 함
          1. e.g. 프로모션, 이벤트 등을 통한 특별한 혜택 제공 (e.g. 나가려는 유저에게 쉬운 monster 제공)
        2. 제공할 campaign의 효과 및 고객군과의 적합도 등의 파악 + 예측 필요
      5. multivariate testing (similar to A/B testing)
        1. 초반 피크가 이후에까지 영향을 준다고 볼 수 없으나 장기적인 관측 필요 (e.g. 쿠폰은 일회성)
        2. campaign 속성이 매번 변하므로 지속적 활용 어려움
      6. 캠페인과 서비스 변경- 지속성
        1. 일회성으로 끝나는 건 아닌가?
        2. campaign 효과를 보기 위해 오래 기다릴 수 없는데?
        3. 캠페인 안해도 상관없는 것?
        4. 대조군을 만들 수 없는가?
        5. 한꺼번에 여러 종류 campaign 진행해야 되는데?
    2. personal takeaway: study new tool for offering evaluation (multivariate test + time-series causal analysis (CausalImpact: 시계열 분석))

Tuesday, October 21, 2014

[info] 정보 패턴 분석=> 연관성 도출=> 의사 결정 활용=> OKR

<source: http://premium.chosun.com/site/data/html_dir/2014/10/19/2014101902729.html?outlink=facebook> 
정보의 패턴을 분석해 연관성을 가져오고, 이를 의사 결정에 활용하는 빅 데이터 활용 좋아요.
1. 미국 샌프란시스코시 범죄 지도: 8년간 발생한 200여 종 범죄로부터 범죄 유형과 발생 지역 분석 => 경찰력 효율적 배치 => 범죄 예측 정확도 70%
2. 구글의 독감 트렌드: 전 세계 이용자 독감 관련 검색 실태 분석 => 해당 국가/지역 실제 독감 창궐 시기 예측 => 독감 예측과 실제 발생 일치
3. 빅 데이터를 활용한 식중독 예방: 12년간 부산,울산,경남 식중독 발생 이력, 원인균, 지역, 발생 음식, 날씨 분석 => 기숙사 유무, 지하수 사용 여부, 쓰레기 소각장 식당 거리 자료에 따른 학교 선정 예방 컨설팅 => 올 상반기에 작년 대비 식중독 환자 수 69.2% 줌


Thursday, April 3, 2014

[lecture] Policy to Create Businesses through Opening Up Public Data

Title
Policy to Create Businesses through Opening Up Public Data
Place
KAIST Dogok Software Grad School Chin’s AMP Hall 103-ho
Time
April 3, 2014 5PM~7PM
Speaker
Yong Suk Lee
Organizer
KAIST Software Graduate School
Focus
available public data

I.       Message
1.       Common examples of open data
1)      GPS data: street navigation
2)      Transportation data: Seoul Bus iPhone app
2.       Concepts of openness: open everything except 8 categories of information (e.g. corporate private info)
3.       Data providers- data.go.kr (c.f. data.gov, data.gov.uk)
4.       Best practice
1)      Inside Korea- Smart Big Board for national emergency watch, Vitamin MD (MediLatte), SweetTracker (스마트택배), 모두컴퍼니 (모두의 주차장)
2)      Outside of Korea- Zillow (real estate info)
  Date combination=> Zestimate: real estate + GIS info (Maponics)+ population stat info + academic sector info (via GreatSchools)
5.       Data quality effort
1)      For project managers, visit or call
  issues at www.gooddata.kr 1600-2187
  use one-stop service at www.data.go.kr 1566-0025
2)      governmental standardization effort: category (e.g. parking lot-> address, phone number), term (W/C, bathroom-> restroom)
6.       Cases utilizing big data into actions
1)      Google: flu trend-> vaccine
2)      Amazon: purchase suggestion-> more purchasing
3)      Seoul City: night time phone frequency-> night time bus routing
4)      Small and Medium Business Administration: commercial area information system-> locationing businesses in lower rent and selling hot items in local area
7.       Others
1)      Open Data Barometer (ODB): more data needs to be opened in Korea [news: linksource: link]

II.      Takeaway
1.       New cases of big data: MediLatte, 스마트택배, 모두의주차장