- ALL YOU NEED is DATA -/Certificate

GCC Part1. 기초: 어디에나 존재하는 데이터

제심심 2024. 3. 20. 17:00

 

학습 목표

  • 데이터, 데이터 분석, 데이터 생태계 등 데이터 애널리틱스와 관련된 주요 개념의 정의 및 설명
  • 분석적 사고의 자체 평가를 실시하여 분석적 사고를 적용하는 구체적인 예 제시
  • 데이터 애널리틱스에서 스프레드시트, 쿼리 언어, 데이터 시각화 도구의 역할에 대해 토의
  • 구체적인 직무/직책과 관련해 데이터 애널리스트의 역할 설명

 

모듈 별 주제

Module 1. 데이터 애널리틱스 개론

Module 2. 데이터 분석가 : 역할, 핵심 자질, 분석적 사고, 데이터 기반 의사결정

Module 3. 데이터 : 데이터 라이프 사이클, 데이터 분석 사이클, 사용 도구

Module 4. 데이터 분석 도구 : 스프레트 시트, SQL, 시각화 툴

Module 5. 다양한 산업에서의 데이터 분석가 : 산업과 직무, 공정성의 중요성,

 


 

Module 1. 데이터 애널리틱스 개론

 

개념 정리

데이터란?

  • 정보의 모음 : 숫자, 사진, 동영상, 단어, 측정항목, 관측값 등 / GPS, 걸음수, 검색어… (구글 35억건, Youtube 20억 사용자)
  • 세계에서 가장 중요한 리소스(The Economist)

데이터 분석?

  • 결론을 도출하고 예측하고 정보에 기반한 의사결정을 내리기 위해 데이터를 수집, 변환, 구성하는 작업
  • 데이터가 영향력을 갖도록 하는 작업 > 현재 세계에선 어마어마한 양의 데이터가 생성되고 데이터를 사용함
  • 다른 사람들에게 유용한 정보를 공유하여, 기업이 업무를 완전히 재고하게 하거나 완전히 새로운 방향을 제시 (환경의 변화로 인해 모든 비즈니스 방법론이 쓸모없어졌을 수도 있음) > 비즈니스가 한 단계 도약하도록 아하모먼트를 만들어냄
  • 통계에 뿌리를 둔 학문

데이터 애널리스트?

  • 정보에 기반한 의사결정을 내릴 수 있도록 데이터를 수집, 변환, 구성하는 사람
  • 셜록홈즈 “데이터! 데이터! 데이터! 진흙 없이는 벽돌을 만들 수 없는 법이오”
    • 데이터란 집을 짓는 벽돌 그자체 > 훌륭한 DA의 자질은 많은 정보 습득에 관심을 가지는 것

데이터 분석과 데이터 사이언스의 차이

  데이터 분석 데이터 사이언스
주요 목표 데이터에서 의미 있는 통찰력을 추출하여 조직의 의사 결정을 안내 (기존 질문에 대한 답을 찾음) 알고리즘과 통계 모델을 사용 및 새로운 모델링 방법을 개발하여 원시 데이터를 의미 있는 결론으로 바꿈 (새로운 질문을 만들어냄)
주요 업무 예산 책정, 예측, 제품 개발 등 데이터 랭글링 , 프로그래밍, 통계 모델링

 

  데이터 애널리스트 데이터 과학자 데이터 스페셜리스트
문제
해결
기존 도구 및 방법을 사용하여 기존 유형의 데이터 관련 문제 해결 새로운 도구 및 모델 개발, 개방형 질문 던지기, 새로운 유형의 데이터 수집 문제 해결 및 데이터 관리를 위한 도구로 데이터베이스에 관한 깊이 있는 지식 활용
분석 수집된 데이터를 분석하여 이해관계자가 더 나은 의사결정을 내릴 수 있도록 지원 복잡한 데이터를 분석 및 해석하여 비즈니스 예측 데이터 애널리틱스 또는 비즈니스 운영에 사용할 수 있는 대규모 데이터 구성
기타
관련 스킬
• 데이터베이스 쿼리
• 데이터 시각화
• 대시보드, 보고서
• 스프레드시트
• 고급 통계
• 머신러닝
• 딥 러닝
• 데이터 최적화
• 프로그래밍
• 데이터 조작
• 정보 보안
• 데이터 모델
• 데이터 확장성
• 재해 복구

 

 

데이터 분석analysis과 데이터 애널리틱스analytics의 차이

  • 데이터 분석 : 결론을 도출하고 예측하고 정보에 기반한 의사결정을 내리기 위해 데이터를 수집, 변환, 구성하는 작업
  • 데이터 애널리틱스 : = 데이터 과학 / 데이터를 관리하고 사용하는 일을 비롯해 데이터 작업자가 매일 사용하는 도구, 방법까지 포함하는 매우 광범위한 개념

 

데이터 기반 의사결정이란?

  • 사실을 기반으로 비즈니스 전략을 도출하는 일
    • 해결해야 하는 문제(비즈니스의 니즈)를 바탕으로, 데이터를 찾고 분석하여 추세/패턴/관계를 파악
    • 비즈니스 문제를 해결하기 위해 내리는 결정과 사용하는 스킬에 더 큰 확신을 주고, 기회가 왔을 때 보다 적극적으로 대처할 수 있도록 도와주고, 목표를 향해 나아갈 때 시간과 노력을 절약시켜줌
  • 데이터 자체는 결코 인간의 경험, 관측, 직관을 데이터와 함께 활용할 때보다 강력할 수 없다
    • 그러나 경험 바탕의 의사결정은 결정 편향을 야기한다
    • 예) 도심 일부의 재개발 사업을 입찰하는 프로젝트 사례 : 기획자는 사업을 따내고 지원금을 받기 위해 이전 프로젝트 경험을 살려 몇몇 건물을 보존하는 내용을 포함함. 그러나 민간 기부금이 부족했고 끝내 사업 파트너를 구하지 못함. 역사적인 건물들은 결국 정부와의 값비싼 분쟁과 오랜 지연 끝에 철거
  • " 이 프로젝트의 성공을 어떻게 정의할 수 있을까?" :
    • 어떤 종류의 결과가 필요한가?
    • 정보를 받을 대상은 누구인가?
    • 묻는 질문에 제대로 답하고 있는가?
    • 얼마나 빨리 결정을 내려야 하는가?
  • 데이터 기반 의사결정을 최대한 활용하려면 비즈니스 문제를 잘 아는 사람들, 도메인 전문가에게서 유용한 정보를 확보

도메인 전문가subject matter experts란?

  • 데이터 분석 결과를 살펴보고 비일관성을 파악하고 불확실한 부분을 해석하여 결정을 검증하는 능력을 갖춤

 

의사결정을 위한 데이터 분석 4 타입

  1. 기술(설명)분석 descriptive " 무슨 일이 일어났나요? " : 현재 무슨 일이 일어났는지 간결하게 설명(시각화 유용)
  2. 진단 분석 "왜 이런 일이 일어났나요? : 변수 간 상관관계를 밝혀, 인과 관계 결정
  3. 예측 분석 "미래에는 어떤 일이 일어날까요? : 시나리오 기반 전략 수립
  4. 처방적 분석 " 다음엔 무엇을 해야할까요? : 앞선 내용을 바탕으로 AB Test, 마케팅 활동 연장 결정 등

 

생태계란?

  • 상호작용하는 요소의 모음 / 열대 우림의 정글, 호주의 넓은 사막 지역인 아웃백처럼 광활하거나 물웅덩이 속 올챙이, 피부 속 박테리아처럼 작을 수도

데이터 생태계란?

  • 데이터를 생성, 관리, 저장, 구성, 분석, 공유하기 위해 상호작용하는 다양한 요소로 구성 / 하드웨어와 소프트웨어 도구를 비롯해 도구의 사용자 포함

 

 

비즈니스 분석 사례

기업에서의 데이터 분석 목적

  • 과정 개선 / 기회와 추세 파악 / 신제품 출시 / 고객 응대 / 신중한 의사결정

1. HR 애널리틱스

  1. 질문 : " 어떻게 기업의 신입 사원 근속률을 개선할 수 있을까? "
  2. 준비 : 신입 사원 대상 온라인 설문조사 / 채용 및 온보딩, 전반적인 보상 등 비즈니스 절차에 대한 직원 만족도
  3. 처리 : 원시 데이터에 액세스할 수 없지만, 요약된 데이터 또는 집계된 데이터는 볼 수 있도록
  4. 분석
    • 특정 절차에 대한 신입 사원의 경험이 전반적인 직무 만족도를 나타내는 핵심 지표임을 알게 됨
    • 길고 복잡한 채용 절차를 경험한 직원들이 회사를 떠날 가능성이 가장 높았음
    • 회사에 남을 가능성이 가장 높은 직원은 효율적이고 투명한 평가 및 피드백 절차를 경험한 직원
  5. 공유 : 부하 직원의 인원이 최소 기준을 충족한 관리자에게 먼저 제시하여 전체 맥락을 파악하도록 > 팀에 결과 전달
  6. 조치 : 모든 신입 사원 채용 및 평가 과정을 표준화 후 1년 후 동일 설문조사 (근속률 향상)

2. Google People Analytics 

  • 매니저 역할이 가치가 있을까?
    • 과거 성과 자료와 직원 설문조사 그래프 > 매니저에 대해 긍정적으로 생각(일반적이라 더 파고들어봄)
      • 사분위수로 나누자, 최상위와 최하위 분위수 사이의 차이가 크다는 점을 발견
      • 최고의 매니저가 있는 팀은 훨씬 만족도가 높고 더 생산적이고 Google에서 계속 일하고 싶어 할 가능성이 컸음 > 이를 통해 매니저의 존재가 가치가 있으며 큰 차이를 만든다는 사실을 확인
    • 훌륭한 매니저의 자질 > 두 단계를 추가하여 더 많은 데이터를 수집
      • 1 수상프로그램 : 직원들이 선호하는 매니저 추천 > 예시 데이터 제공
      • 2 인터뷰 : 데이터 그래프에서 최상위와 최하위 분위수에 표시된 매니저를 인터뷰
    • 분석을 통해 얻은 유용한 정보를 공유하고 이러한 특성을 고려하여 매니저를 평가하는 절차

3. Microsoft 의 생산성 및 협업 개선 사례

  • 2015 엔지니어링 그룹 사무실 이전을 통해 직원 간 대면 상호 작용을 촉진하는 것이 어떻게 직원 성과를 높이고 비용을 절감할 수 있는지 발견
  • 가설
    • 1,200명으로 구성된 그룹을 5개 건물에서 4개 건물로 줄이면, 건물당 직원 수를 늘리고 직원이 회의를 위해 이동하는 데 필요한 거리를 줄여 협업을 향상할 수 있다는 가설
    • 이전 연구 기반으로 함 : 부분적으로 사람들이 서로 더 가까이 있을 때 협업할 가능성이 더 높다
  • 결과
    • 직원 달력에 첨부된 메타데이터를 조사한 결과, 이동으로 인해 회의 이동 시간이 46% 단축되었음을 확인
    • 재배치된 모든 직원을 대상으로 주당 총 100시간을 절약하고 직원 시간을 연간 520,000달러 절약한 것으로 해석
    • 팀이 서로 가까워지면서 더 자주 회의를 하는 것으로 나타났으며, 1인당 평균 주간 회의 횟수는 14회에서 18회로 증가했고 평균 회의 시간도 0.85시간에서 0.77시간으로 소폭 감소
    • 이전을 통해 직원 간의 협업이 향상되고 운영 효율성이 향상

4. Uber의 고객 지원 강화

  • COTA(Customer Obsession Ticket Assistant) : 자연어처리 및 머신러닝을 활용한 상담원이 지원 티켓에 응답할 때 속도와 정확성 향상 지원 도구 > 티켓 해결 시간을 10% 단축하는 결과
  • COTA v2 : v1과의 A/B 테스트를 통한 도구 성능 검증 > 앞서 v1에 대한 AA테스트 1주일 간 진행 후, 치료군에 v2 액세스 권한 부여하여 1달동안 AB테스트 > 티켓당 평균 처리 시간이 상대적으로 약 7% 감소, 고객 만족도 점수 소폭 향상

5. 블루에이프런의 주문 및 레시피 예측( 식사 키트 배달 서비스 )

  • 매주 회사는 구독자에게 식단을 제공하는 서비스에서, 수요 예측을 통해 제품 부패를 방지하고 주문을 이행
  • 과정
    • 고객 관련 기능, 레시피 관련 기능 및 계절성 기능이라는 세 가지 범주로 분류되는 여러 변수를 고려하는 알고리즘
      • 고객 관련 기능 : 특정 사용자의 주문 빈도를 나타내는 과거 데이터를 설명
      • 레시피 관련 기능 : 구독자의 과거 레시피 선호도에 초점을 맞춰 회사가 향후 어떤 식사를 주문할지 추론할 수 있도록
      • 계절성 특성 : 구매 패턴을 조사하여 연중 시기에 따라 주문률이 높아지거나 낮아질 수 있는 시기를 결정
  • 결과
    • 회귀분석 수요예측모델 결과 > MSE 6% 미만
    • 사용자 경험을 개선하고, 시간이 지남에 따라 가입자의 취향이 어떻게 변하는지 파악하고, 선호도 변화가 레시피 제공에 의해 어떻게 영향을 받는지 인식

6. PepsiCo의 소비자 타겟팅

  • 전 세계 200개 이상 국가의 소매업체에 제품을 공급하며 매일 10억 명의 고객에게 서비스를 제공
  • 과정
    • 특정 지역의 소비자가 적절한 수량과 유형의 제품을 사용할 수 있도록 하기 위해 빅 데이터와 예측 분석을 사용
    • 클라우드 기반 데이터 및 분석 플랫폼 Pep Worx : 특정 PepsiCo 브랜드 또는 제품에 큰 관심을 가질 가능성이 있는 미국 내 쇼핑객을 식별 > 특정 소매업체를 식별하고 고유한 고객을 타겟팅
  • 결과 : 타겟 유저가 출시 후 첫 12개월 동안 제품 매출 성장의 80%를 주도함

출처 / Harvard Business School‘4 Examples of Business Analytics in Action’

7.. 비영리단체 영향력 조사

  • 트래커를 사용하여 기사 주제, 클릭 수, 웹 트래픽, 댓글, 공유 수 등을 모니터링 > 기사 개선 방안 제시

 

3가지 학문으로서의 데이터 사이언스 | Google Cloud의 Decision Intelligence팀 캐시

  • 데이터 사이언스는 세가지 학문의 결합 : 머신러닝, 통계, 애널리틱스
  • 통계 : 불확실한 상태에서 몇 가지 중요한 결정을 내리고 싶다면
    • 통계의 우수성은 엄격함에 있음, 조심성이 많고 엄격한 편이라면 통계를 추천
    • 통계학자는 본질적으로 철학자이며 인식론자, 의사결정권자가 잘못된 결론에 도달하지 않도록 매우 주의를 기울임
  • 머신러닝 : 결정을 자동화하고 싶다면, 불확실한 상태에서 수많은 결정을 내리고 싶다면
    • 머신러닝과 AI 엔지니어의 우수성은 성과에서 비롯
    • 누군가가 여러분에게 "당신이 99.99999% 정확도로 작업을 처리하는 자동화 시스템을 만들 수 없을 것이라 확신한다"고 말했을 때 여러분이 "어디 한번 지켜봐"라고 대답하신다면
  • 애널리틱스 : 얼마나 많은 결정을 내리고 싶은지 모르겠다면, 미지의 모험을 좋아한다면
    • 애널리스트의 우수성은 속도
    • 방대한 양의 데이터를 빨리 탐색하고 알아낼 만한 가치가 있으며 원석같이 잠재적으로 유용한 정보를 발견해서 의사결정권자에게 제공하고 싶나요?
    • 탐색 과정에서 마주하는 모호성에서 재미를 느끼시나요?
    • 다양한 분야의 작업을 처리하고 다양한 데이터 소스를 살펴보고 방대한 양의 정보를 철저히 따져보는 데 재미를 느끼고 동시에 중요하고 유용한 정보를 놓치지 않으실 수 있나요?
    • 혹은 "여기에 많은 데이터가 있습니다 아무도 들여다본 적이 없는데요 뭔가 이익이 될만한 정보를 찾아보세요"라는 요청을 받게 된다면 잘 처리하실 수 있으신가요?
    • 창의적인 개방형 프로젝트를 잘 해내실 수 있나요?

완벽주의를 추구하기보다는 탐색의 즐거움과 스릴을 만끽하세요. 정답에 대해 걱정하지 마세요.

여러분이 선물과도 같은 데이터를 얼마나 빨리 풀어서 재미있는 무언가를 찾아낼 수 있을지 생각해보세요.

 

 


 

Module 2. 데이터 분석가 : 역할, 핵심 자질, 분석적 사고, 데이터 기반 의사결정

개념 정리

 

분석 스킬? 사실을 통한 문제 해결과 관련된 특성characteristics이자 자질qualities

 

핵심 분석 스킬 5가지

  1. 호기심이란? 적절한 질문을 통해 무언가에 관해 더 많이 알고자 하는 마음
    • 호기심이 많은 사람은 보통 새로운 도전과 경험을 찾아 나서고 이는 곧 지식으로 이어짐
  2. 맥락 이해란? ‘큰 그림’에서 정보가 어디에 있는지 이해하는 스킬  / 사물을 카테고리로 그룹화하는 방법과 관련된 분석 스킬
    • 맥락이란, 어떤 대상이 존재하거나 발생하는 상황 / 구조나 환경
    • 제대로 집중하지 않으면 맥락에서 벗어난 사실을 눈치채지 못할 수도 있음 >> 잘 듣고 전체적인 그림을 이해하려고 해야
    • 식료품 구매 목록 : 밀가루, 설탕, 이스트와 같은 항목을 함께 묶는 행동 등 > 진열대에서 시간을 절약
  3. 기술적 사고방식technical mindset이란? 큰일을 작은 단계로 나누는 스킬
    • 대상을 더 작은 단계나 부분으로 나누고, 체계적이고 논리적인 방식으로 처리할 수 있는 능력
  4. 데이터 설계Design란? 데이터 및 정보를 구성하는 방법을 생각하는 스킬
    • 정보를 구성하는 방법 / DB 와 관련
    • 휴대전화에서 연락처를 정리하는 방식 : 빠르고 간단하게 연락처에 전화를 걸거나 문자를 보낼 수 있도록 명확하고 논리적인 목록을 설계
  5. 데이터 전략strategy이란? 데이터 분석에 관련된 "사람, 프로세스, 도구"를 관리하는 스킬
    • 데이터를 접근하고 활용하는 과정의 최적화
      • 사람 관리 > 현재 문제의 해결책을 찾을 수 있도록 사람들에게 알맞은 데이터를 사용하는 방법 공유
      • 프로세스 관리 > 해결책을 찾는 과정이 명확하고 접근 가능한지 확인
      • 도구 관리 > 작업에 적합한 기술을 사용\

 

분석적 사고? 문제를 식별하고 정의한 다음, 데이터를 단계별로 체계적으로 사용하여, 문제를 해결하는 과정

 

분석적 사고의 다섯 가지 측면

  1. 시각화visualization
    • 정보를 시각적으로 표현하는 과정 > 정보를 보다 효과적으로 설명하는데 도움을 주는 능력
  2. 전략strategy
    • 사용할 수 있는 데이터가 너무 많기 때문에 초점과 궤도를 유지하려면 전략적 사고방식을 따라야 함
    • 전략을 수립하여 달성하고자 하는 목표와 달성 방법을 수월하게 파악할 수 있음
    • 데이터의 품질과 유용성을 개선하는 데도 도움이 됨 > 전략에 따라 필요한/유용한 정보를 취사선택하여 가공할 수 있음
  3. 문제지향성problem-orientation
    • 프로젝트 전반에서 해결해야 할 문제를 가장 우선시하여, 문제 식별, 설명, 해결하는 접근법을 사용
    • 재고 부족 문제를 해결하기 위해, 여러 전략과 절차를 사용하지만 최우선은 문제의 해결
    • 질문을 통해 의사소통을 개선하고 해결책을 찾는 시간을 절약 > 제품 사용 경험에 관한 고객 설문조사를 시행하는 등 질문을 통해 정보를 얻고 해결
  4. 상관관계correlatoin
    • 항상 염두에 두어야 하는 사실 > 상관관계는 인과관계와 다르다
    • 두 데이터가 같은 방향으로 나아가는 추세를 보이더라도 반드시 서로 관련이 있는 것은 아님
  5. 거시적/미시적 사고방식 big-picture and detail-oriented thinking
    • 거시적 사고방식은 퍼즐 전체, 미시적 사고방식은 퍼즐 조각
    • 거시적 사고방식을 통해 새로운 아이디어나 혁신을 발견
    • 미시적 사고방식을 통해 모든 측면과 세부사항을 살펴 계획을 실행

데이터 분석가가 자주 하는 질문 3가지

  • 데이터 분석에서 가장 중요한 것은 상황에 맞게 사고하기 (분석적, 창의적, 비판적)
  1. '문제의 근본 원인root cause은 무엇인가?’ > 5 why 기법
  2. '프로세스에서 놓치고 있는 부분은 어디인가?' > 격차분석 기법
  3. '이전에 고려하지 않은 것은 무엇인가?

 

5 why 기법

블루베리 파이를 만들려고 하는데 블루베리를 얻을 수가 없다

1. '왜 블루베리 파이를 만들 수 없는가?' 매장에 블루베리가 없다
2. '왜 매장에 블루베리가 없는가?'올해 블루베리 수확량이 충분하지 않다
3. '왜 열매 수확량이 충분하지 않은가?' 새들이 블루베리를 모두 쪼아 먹었다
4. 새들이 일반적으로는 오디를 선호하여 블루베리를 먹지 않지만 올해는 뽕나무에 오디가 열리지 않아 새들이 그 대신 블루베리를 먹었다
5. 늦은 서리로 인해 뽕나무가 상하여 열매를 맺지 못했기 때문

>> 블루베리 파이를 만들 수 없는 이유, 몇 달 전 내린 늦은 서리 때문

 

 

 

격차 분석 기법 Gap analysis

  • 원하는 목표와 비교하여 현재의 위치가 어디인지 파악하고, 현재와 미래 상태 사이에 존재하는 격차를 확인 > 그 격차를 어떻게 메울지 결정
    • 기업의 현재 성과를 기대되는 성과로 평가하는 방법론(구조화된 프레임워크)
    • 목표를 달성 (제품 개선이나 효율성 증진) 하고 리소스를 가장 잘 사용하고 있는지, 현재 프로세스의 작동 방식을 확인하여 평가하는 기법
  • 예시
    • SWOT 분석
    • 벤치마킹 : 최고기업과 비교하여 목표 수립
    • 마인드 매핑 : 중앙에서 관련 측면, 목표 및 활동으로 분기 (연결, 격차 및 기회를 보다 명확하게)
    • PERT 기법 : 일정에 따라 작업을 평가하는 프로그램 평가 및 검토 기술
    • 피쉬본 다이어그램 : 결과로 향하는 다양한 원인 분기 분석
    • 내들러-투시만 모델 : 하나의 비즈니스 프로세스가 다른 비즈니스 프로세스에 어떻게 영향을 미치는지 자세히 살펴보고 효율성을 저하시킬 수 있는 격차를 식별
    • 맥킨지 7S 모델 : 비즈니스 내부의 7가지 중요한 사항을 확인

PERT / 피쉬본 / 내들러-투시만 / 맥킨지 7S 

 

출처 What is gap Analysis / Mindonmap https://www.mindonmap.com/ko/blog/what-is-gap-analysis/

 

  •  

 

Module 3. 데이터 : 데이터 라이프 사이클, 데이터 분석 사이클, 사용 도구

 

 

데이터 라이프 사이클  6단계

  1. 계획 : 필요한 데이터 유형, 데이터 관리 방법, 데이터 책임자를 결정
    • 분석 프로젝트 발생 전 과정 : 필요한 데이터 유형, 라이프 사이클 전반에 걸쳐 데이터를 관리할 방법, 데이터 책임자를 결정하고 최적의 결과를 정의
  2. 캡처 : 다양한 소스에서 데이터를 수집 혹은 불러오기
    • 다양한 소스에서 데이터를 수집하여 조직에 가져오는 단계 : 수집 방법 무한, 외부 리소스에서 가져올 수 있음
    • 고객 정보가 담긴 데이터베이스를 유지, 관리하는 경우 데이터 무결성, 신뢰성, 개인정보 보호 보장 정말 중요
  3. 관리 : 데이터를 유지하고 관리
    • 데이터 관리 방법, 저장 방법, 저장 위치, 데이터를 안전하게 저장하는 데 사용하는 도구, 데이터를 적절하게 유지하기 위해 취하는 조치
  4. 분석 : 데이터를 사용하여 문제를 해결하고, 의사결정을 내리고, 비즈니스 목표를 지원
  5. 보관 : 장기적으로 저장하거나 향후 참고를 위해 관련 데이터를 보관
    • 가용 데이터지만 다시 사용할 일이 없어 특정 위치에 저장
    • 더 이상 유용하지 않고 업무와 관련이 없는 가용 데이터를 모두 정리해두어야 한다면? 주변에 두는 것보다는 보관하는 것이 더 합리적
  6. 폐기 : 저장소에서 데이터를 삭제하고 데이터의 공유 사본을 모두 삭제
    • 안전한 데이터 삭제 소프트웨어를 사용하여 데이터를 폐기
    • 회사의 개인정보뿐만 아니라 고객의 개인정보를 보호하기 위한 중요한 작업

 

데이터 분석 6단계

  • ASK 질문: 비즈니스 과제/목표/질문
    • 해결해야 할 문제를 정의하고 이해관계자의 기대치를 온전히 이해했는지 확인
    • 1 ‘ 해결하려는 문제는 무엇인가?' 2 '이 분석의 목적은 무엇인가?' 3 '결과적으로 무엇을 알고자 하는가?'
    • 문제 정의는 현재 상황을 살펴보고 이상적인 상황과 어떻게 다른지 확인한다는 의미 / 일반적으로 현재 상황에서는 없애야 할 장애물이나 수정해야 할 오류가 존재
    • 이해관계자는 프로젝트에 시간과 자원을 투자했고 결과에 관심이 있는 사람(매니저, 프로젝트 후원자, 영업 파트너 등 / 모두 공통적으로 결정을 내리는 데 도움이 되고 조치와 전략에 영향을 미치고 이루고자 하는 구체적인 목표가 있음
    • 예) 비즈니스 리스크 분석 : 모든 유형의 리스크를 알고 싶어 하는지 아니면 허리케인이나 토네이도와 같이 날씨에 관련된 리스크만 알고 싶어 하는지
    • 올바른 진행을 위해, 데이터 애널리스트는 강력한 의사소통 전략을 개발 필요 있음
      • 질문 단계에서 이해관계자의 기대치를 파악하면 문제의 증상 뿐만 아니라 문제 자체에 계속 집중할 수 있음
      • 효과적인 질문을 하고 이해관계자와 협력하여 문제를 정의하는 방법 및 결과를 흥미롭게 공유하는 데 도움이 되는 전략 등
  • PREPARE 준비: 데이터 생성, 수집, 보관, 데이터 관리
    • 데이터 애널리스트가 예정된 분석 과정에서 사용할 데이터를 수집하고 저장하는 단계
    • 핵심적인 질문에 답하려면 어떤 데이터(유형)가 필요한지 생각해야
      • 정량적 데이터 or 정성적 데이터 / 특정 시점에 관한 횡단 분석 데이터이거나 장기간에 걸친 종단 분석 데이터일 수도
      • 필요한 데이터를 어떻게 수집할 것인지, 데이터가 있는 경우 데이터를 활용할 자격을 얻고 책임감 있게 사용하기 위해 해당 데이터 소유자와 협력할 수 있는가
    • 데이터와 결과가 객관적이고 편향되지 않아야만 하는 이유 : 분석에 따라 내린 모든 결정은 항상 사실에 기반하고 공정하고 치우치지 말아야
  • PROCESS 처리: 데이터 정리/데이터 무결성
    • 구조, 유형, 특이한 점, 뉘앙스를 이해하고 잠재력 파악 ( 적절하고 책임감 있게 분석하기 위함 )
      • 데이터의 유용성은 데이터의 구조화 수준에 달려 있음
    • 일반적으로 데이터를 정리하고 더 유용한 형식으로 변환하고, 두 개 이상의 데이터 세트를 결합하여 정보를 더 완전하게 만들고, 정보를 왜곡할 수 있는 모든 오류와 부정확한 값( 데이터 포인트 특이점 )을 삭제하는 과정 
    • 세부사항이 알맞은지 파악하는 단계 : 오타, 비일관성, 누락되거나 부정확한 데이터 수정
    • 품질 보증 검사를 실시 : 계획한 데이터가 모두 있는지, 데이터가 무작위random로 누락되었거나 조직적systamic으로 누락되어 데이터 수집 활동에 오류가 있을 가능성이 있는지, 필요한 경우 모든 데이터를 알맞게 코딩했는지, 다르게 처리해야 하는 특이점이 있는지
  • ANALYZE 분석: 데이터 탐색, 시각화, 분석
    • 유용한 결론을 도출하고 예측하고 정보에 기반한 의사결정을 내릴 수 있도록 도구를 사용하여 데이터를 수집, 변환, 구성하는 작업
    • 최대한 객관적이고 편향되지 않은 방식으로 분석
      • 맨 처음에 답을 찾기 위해 던진 질문을 기반으로 앞서 먼저 계획했던 일련의 분석을 실시
      • 가장 어려운 점은 애널리스트로서 패턴을 찾는 훈련을 받았다는 것 > 시간이 지나면서 업무에 능숙해질수록 주어진 데이터에서 얻을만한 정보를 직감적으로 알기 시작하거나 남몰래 의심하거나
      • 바로 이때가 데이터 애널리스트가 한 발짝 물러서서 데이터가 스스로 말하도록 기다려야 하는 순간 > 데이터 애널리스트는 스토리텔러이지만 스토리의 주인은 애널리스트가 아니라는 사실
    • 두가지 강력한 도구 : 스프레드시트와 구조적 쿼리 언어(SQL=시퀄)
  • SHARE 공유: 결과 전달 및 해석
    • 결과를 해석하고 다른 사람들과 공유하여 이해관계자가 효과적인 데이터 기반 의사결정을 내리도록 돕는 방법
      • 일반적으로 가장 먼저 대략적인 결과를 경영진과 공유 > 경영진이 조직의 감정이나 생각을 관망할 수 있도록 하고 경영진이 팀과 각 직원의 감정이나 생각을 이해하기 위해 데이터를 자세히 살펴볼 때 놀랄 일이 없도록 보장하기 위해서
    • 다른 사람들이 데이터의 스토리를 이해하도록 하는 데 시각화가 필수인 이유 : 알맞은 시각 자료를 사용하면 사실 정보와 수치가 훨씬 보기 쉬워지고 복잡한 개념을 이해하기 쉬워짐
    • 다양한 유형의 시각 자료와 몇 가지 훌륭한 데이터 시각화 도구, 좋은 슬라이드 쇼를 만들고 질문에 대답할 준비를 잘 갖추는 방법 등 발표 스킬
    • R : 데이터 조작, 계산, 시각화에 널리 사용되는 도구
  • ACT 조치: 유용한 정보를 기반으로 문제를 해결하기 위한 작업
    • 데이터에 기반한 유용한 정보를 모두 사용하여 어떤 해결책을 도입할지 결정
      • 적절한 질문, 데이터 수집, 분석, 공유 등 모든 단계는 지금까지 알아낸 정보를 기반으로 조치를 취하지 않는다면 아무런 의미가 없음
      • 조직에서는 직원의 경험을 일부 개선하기 위해 일련의 해결책을 고안하고, 동시에 개별 팀에서는 조직의 노력을 뒷받침하거나 팀의 강점과 기회를 살릴 수 있는 영역을 개선할 무언가를 도입하기 위해 부가적인 역할과 책임을 담당

 

Module 4. 데이터 분석 도구 : 스프레트 시트, SQL, 시각화 툴

 

쿼리

쿼리란 데이터베이스의 데이터 또는 정보에 관한 요청

데이터베이스를 쿼리한다는 말은 SQL을 사용하여 질문이나 요청을 전달한다는 의미

데이터베이스와 동일한 언어를 사용하면 언제든지 데이터베이스와 정보를 교환할 수 있습니다.

SQL을 비롯한 모든 프로그래밍 언어는 구문이라고 알려진 고유한 지침을 따릅니다.

BigQuery : Google Cloud Platform의 데이터 웨어하우스

 

 

구문statement은 모든 필수 단어, 기호, 구두점을 비롯하여 이들의 적절한 위치를 포함하는 미리 정해진 언어 체계

소문자만으로 작성해도 되며, 단어 사이의 공백을 신경 쓰지 않아도 되나, 대문자나 들여쓰기를 사용하면 가독성이 좋아짐

 

세미콜론문 종결 기호이며 ANSI(미국 국립 표준 협회)의 SQL-92 표준에 따라 모든 SQL 데이터베이스에서 채택이 권장되는 공통 구문( 모든 SQL 데이터베이스에서 세미콜론을 채택하는 것은 아님)

주석 진행할 작업에 관한 전반적인 설명, 작업 방법에 관한 단계별 메모, 여러 매개변수나 조건을 설정한 이유 등 / -- 혹은 /* */ 사이 (# 은 DB에 따라)

AS 쿼리를 실행하는 동안에만 유지

 

W3Schools SQL Tutorial:SQL 튜토리얼

SQL Cheat Sheet: PostgreSQL에서 사용되는 표준 SQL 구문 목록

 

 

데이터 시각화

시각화 자료를 만든 주된 이유는 상대방이 데이터를 더 쉽게 이해할 수 있도록 만들기 위함

> 이해관계자에게는 데이터에 할애할 시간이 충분하지 않을 수도 있으니 이 시간을 의미 있게 만들어야 

 

나이팅게일 차트

  • 1850년대 크림 전쟁 동안에 매일 수천 명의 군인 사망 > 나이팅게일은 사망자 수를 줄일 방법을 찾고자
  • 대부분의 군인이 예방이 가능한 질병으로 인해 사망한다는 사실을 발견 > 병원 운영자들을 설득하기 위해 나이팅게일은 수개월간의 사망자 수를 보여주는 차트 만듦

파란색 섹션 = 예방 가능한 질병으로 인한 사망자 수

 

 

새로운 스킬을 습득하면서 겪는 어려움 

앤지, Google 엔지니어링팀의 프로그램 매니저, 피플 애널리틱스팀의 연구원

 

이전 SI회사 여러 다양한 회사를 위해 일하면서 고객이 자사의 데이터를 이해하도록 도움(분석 용병)

 

SQL 같은 새로운 데이터 언어를 배울 때마다 부모님께서 얼마나 힘드셨을지 생각합니다

30대에 미국으로 이민 온 부모님께서 아주 기본적인 일을 하기 위해 도움을 요청하셨던 것처럼 저도 옆에 있는 데이터 애널리스트에게 SQL 문을 작성하는 방법과 테이블에서 데이터를 가져오는 방법을 질문하면 됩니다

 

할 수 있다는 마음가짐도움을 요청해도 괜찮다는 사실이 저에게 정말 도움이 되었습니다

 

 


Module 5. 다양한 산업에서의 데이터 분석가 : 산업과 직무, 공정성의 중요성

 

개념 정의

 

비즈니스 작업은 데이터 분석을 활용해 해답을 찾는 비즈니스 질문이나 문제

  • 모든 사례에는 살펴봐야 할 논점이 있거나 대답해야 할 질문이나 해결해야 할 문제가 있음

논점Issue은 주제나 조사 대상

질문Question은 정보를 발견하기 위해 고안

문제Problem는 해결해야 할 장애물이나 의문

의사결정은 결론 중에 선택하는 행위

 

데이터 없이 결정을 내렸다면, 관측값과 기억에 의존하여 장기적인 문제를 해결하지 못했을 것

데이터를 통해 문제와 그 원인에 대한 완전한 전체 그림을 볼 수 있고, 이전에는 결코 볼 수 없었던 새롭고 놀라운 해결책을 찾을 수 있음

 

공정성Fainess은 분석이 편향을 형성하거나 강화하지 않도록 하는 것

 

때로는 데이터에 근거한 결론이 사실이지만 공정하지 않을 수 있음

  • 복잡한 사회적 맥락은 결론에 편향을 형성할 수 있음 
  • 예) 남성 중심적인 분위기로 악명 높은 회사 > 이 회사에서 우수한 직원이 누구인지 알아보려고 직원 성과와 사내 문화에 관한 데이터를 수집 > 데이터는 회사에서 우수한 직원은 남성뿐이라는 결과를 보여줌 > 따라서 더 많은 남성을 고용해야 한다는 결론

 

공정하지 않은 이유

1. 사내 문화와 관련해 이용 가능한 모든 데이터 중 일부를 고려하지 않아, 그림이 완전할 수 없습니다 > 데이터의 편향성

2.  데이터에 영향을 주는 다른 주변 요소를 생각하지 않아, 결론에 건강하지 않은 업무 환경에서 다른 성 정체성의 직원들이 겪는 어려움이 고려되지 않았습니다

 

사내 문화가 얼마나 해로운지 인정하거나 해결할 필요성을 이해하지 못하고, 특정 직원들이 회사 안에서 실패할 수밖에 없는 이유를 이해하지 못할 것

 

 

윤리적인 데이터 분석

  • 수집된 데이터를 보고 사내 문화로 인해 일부 직원이 우수한 성과를 내기 어려우며, 회사에서는 실적을 높이려면 그 문제를 해결해야 한다고 결론을 내릴 것
  • 이 회사에서 일부 직원들의 성과가 낮다는 사실을 파악하고, 이를 기반으로 미래의 지원자 다수를 차별하기보다성과가 낮은 이유를 질문 ( 보이는 그대로의 성급한 결론이 아닌 역의 이유 역시 질문 

 

공정성 확보를 위한 제안

  • 여성 집단 데이터를 오버샘플링하여 비교하면 소수집단의 결과 편향을 줄일 수 있음
  • 성과 평가 지표(팀워크, 리더십, 혁신 등)를 다양화하여 기여도를 더 정확하게 반영할 수 있음
  • 평가 데이터 수집 과정의 편향성을 줄이기 위해 360도 평가 등 다면적 피드백 시스템을 도입할 수 있음
  • 다양한 요인을 체계적으로 분석하여 성과 차이의 근본 원인을 파악할 수 있으며, 성과 지표 외에도 업무에 관한 다양한 공정성 지표(업무 분담 횟수 대비 성과, 특정 업무에 대한 집중도)를 활용할 수 있음

 

공정성을 잘 고려한 예시 : 하버드 대학교의 데이터 과학자 팀

  • 스트로크 벨트라고 불리는 미국의 지역에 거주하며 심혈관 질환 위험군 환자를 추적하는 모바일 플랫폼 개발
  • 이 지역에 사는 사람들의 위험 가능성이 높은 데는 다양한 이유가 있기에, 데이터 과학자들은 공정성이 이 프로젝트의 우선순위가 되어야 한다고 인지하고 공정성을 프로젝트 모델에 포함함 > 최대한 공정성을 보장하기 위해 몇 가지 공정성 지표를 활용
  1. 사회 과학자와 협업하여 팀 구성
  2. 인종적 편향의 가능성 피하고자 별도의 시스템에서 자기 보고식 데이터를 수집, 샘플 모집단의 대표성을 확보하기 위해 해당 모델에 비주류 그룹이 포함되도록 비주류 그룹을 과대 샘플링Oversampling

 

공정하지 않은 예시와 이유, 수정 사항

 

1. 고등학교 행정팀은 교직원의 능력을 제고하기 위해 모든 교사에게 워크숍에 참석할 기회를 제공했습니다. 필수 참석은 아니었지만 행정팀에서는 교사들에게 참석을 권장했습니다. 교직원 43명 중 19명이 워크숍에 참석하기로 했습니다.

학년말에 행정팀은 모든 교직원의 교사 성과에 관한 데이터를 수집했습니다. 데이터는 학생 설문조사를 통해 수집했습니다. 설문조사에서 학생들은 각 교사의 능력을 1(매우 나쁨)에서 6(매우 좋음)의 척도로 평가하도록 요청받았습니다.

행정팀은 워크숍에 참석한 교사의 데이터를 참석하지 않은 교사의 데이터와 비교했습니다. 비교 결과 워크숍에 참석한 교사의 평균 점수는 4.95점이었고, 참석하지 않은 교사의 평균 점수는 4.22점이었습니다. 행정팀은 워크숍이 성공적이었다는 결론을 내렸습니다.

 

>> 참석 대상을 무작위로 선정하지 않았기 때문에 참석과 평가점수 사이의 인과관계를 추론하는 것은 적절하지 않음

평가 점수 차이에 다른 요인이 포함될 가능성이 있음 (예 : 워크숍 참석 대상군이 더 의욕적일 가능성)

또한 설문조사 응답과 참석 사이에 직접적인 관련이 없음 (워크샵 효과가 아닌 전반적인 능력에 관한 질문)

따라서 워크샵 참여군을 무작위로 선정하고, 설문조사에서 교사 능력이 아닌 워크샵 대상 기법의 효과 등 직접적 항목으로 데이터 수집해야 함

 

2. 자동차 회사가 자율주행 자동차 프로토타입의 주행 능력을 테스트하고 있습니다. 다양한 유형의 도로, 특히 경주로, 산길, 비포장도로에서 테스트를 실시합니다.

연구원들은 낮에만 프로토타입을 테스트합니다. 수집하는 두 가지 유형의 데이터는 주행 중 자동차의 센서 데이터와 자동차 카메라의 주행 동영상 데이터입니다.

초기 테스트 후에 데이터를 검토합니다. 결과는 새로운 자율주행차가 모든 도로에서 성능 기준을 충족함을 보여줍니다. 결과적으로 자동차는 다양한 기상 조건에서의 주행을 포함하는 다음 테스트 단계를 진행할 수 있습니다.

 

>> 특정 도로 및 특정 시간대에서의 제한적 조건에서 측정한 결과이기에 수집 조건이 편향되어 보편성을 보장할 수 없음

특히 동영상 데이터는 밤의 효과가 다를 가능성이 높음

따라서 임의의 시간대에서의 주행 능력을 완전하게 볼 수 있도록 일반 도로 및 야간 테스트를 추가하도록 요청해야 함

 

 

3. 놀이공원이 시설에 새로운 놀이기구를 추가할 계획입니다. 먼저 방문객이 놀이공원에 원하는 새로운 기구의 유형을 파악해야 합니다. 방문객의 관심사를 이해하기 위해 놀이공원은 설문조사를 만듭니다.

방문객이 모든 질문에 답할 시간이 충분하도록 대기가 긴 롤러코스터 근처에서 설문조사를 배포하기로 합니다. 이 설문조사 데이터를 수집한 후 대부분의 응답자가 놀이공원에 더 많은 롤러코스터를 원한다는 사실을 알게 되었습니다. 대부분의 방문객이 선호하므로 롤러코스터를 더 추가해야 한다고 결론을 내립니다.

 

>> 롤러코스터 이용객은 긴 대기에도 불구하고 이용할 의지가 있는 롤러코스터 선호도가 높은 군일 가능성이 높으며, 현재 대기로 인한 불편을 겪고 있기에 증대 필요성을 더 크게 느낄 것임

따라서 모든 방문객을 대상으로 선호도를 조사(예 놀이공원 출입구)하여 샘플링 편향을 줄일 수 있고, 추가적으로 현재 방문객이 아닌 미방문 고객 중에서도 특정 놀이기구 추가 시 방문 의향이 높아질 지 설문조사를 통해 조사할 수 있음 

 

 

 

다양한 산업의 이용 사례

모든 산업에는 데이터 애널리스트가 각각 다르게 다루어야 하는 특정 데이터 요구사항이 있으며,
같은 데이터라도 목적에 따라 분석 질문 자체가 달라진다

 

1. 코카콜라

  • 소비자 피드백으로 수집한 데이터를 사용하여 서로 다른 관심사를 가진 다양한 대중이 공감할 이야기로 광고를 만듦
  • 스마트 코카콜라 자판기 : 인공지능과 데이터 분석 도구 > 사람들이 생각해낸 다양한 종류의 맛 조합을 모두 살펴보고 신제품을 위한 아이디어

2. Google

  • 모든 종류의 데이터를 사용하여 웹사이트의 신뢰성과 정확성을 판단하고 어떤 검색에서든 가장 유용한 결과를 얻을 수 있도록
  • Google Cloud의 디시전 인텔리전스팀 : 응용 데이터 사이언스와 사회 과학, 경영 과학을 합친 분야 / Google Cloud와 고객이 데이터로 영향력을 행사하여 비즈니스와 세상을 더 이롭게 만들도록

3. 도시 동물원과 수족관

  • 지역 기후 데이터를 기반으로 일일 방문자 수를 예측
  • 비가 오는 날에 방문자 수가 많이 감소 >  비가 언제 올지 정확하게 몰라, 직원을 배치하기 까다로웠음
  • 동물원에서 수년간의 날씨 레코드를 받아 해당 데이터를 사용하여 미래의 날씨 패턴을 정확하게 예측
  • 인원의 수요를 더 정확하게 예측하고 관리할 수 있었기 때문에 방문자에게 더 나은 경험을 제공할 수 있었고 동물을 위한 더 나은 환경을 마련하기 위해 더 많은 리소스를 투입할 수 있었음

4. 의료 산업

  • 내원 데이터를 보고 병원과 의원이 환자가 몰리는 시간대를 예측
  • 지역 시립 병원에서 대기 시간이 너무 길다는 불만 > 각 시간대에 필요한 의료진 수를 결정

 

다양한 산업에서의 데이터 애널리스트

  • 산업, 도구, 위치, 통근, 기업 문화
  • 산업과 도구
    • 기업에 관심이 있는 이유와 어떻게 기업의 요구사항을 해결할 수 있는지, 데이터 애널리틱스 분야에서 일하려는 동기와 관련하여 
  • 기업 문화
    • 팀으로 일하는 것과 혼자 일하는 것 중 무엇을 선호하시나요?
    • 정해진 루틴을 좋아하시나요 아니면 새 프로젝트를 통해 새로운 무언가를 시도하는 것을 즐기시나요?
    • 여러분의 가치와 회사의 가치가 일치하나요?

 

조이: 데이터 애널리스트가 되는 방법

REWS(real estate, workplace services / 부동산과 사무실 서비스) 의 애널리틱스 프로그램 매니저

인력 관리 팀 > 비즈니스 인텔리전스 팀

 

데이터 직무에서 흥미로웠던 점

  1. 문제 해결 : 복잡한 문제, 미스터리, 수수께끼를 풀고 답을 찾아 해결책을 도출하는 일
  2. 사람과 함께 일하고 사람을 도울 수 있다는 점

애널리틱스에서 성공의 핵심은 기술적 측면과 개인적인 측면의 조화

  • 커리어를 시작할 때 기술 쪽에 좀 더 집중 : 질문에 대답할 수 있는 적절한 기술적인 지식을 갖추기
  • 시간이 지날수록 다른 측면도 똑같이 성장시킬 필요가 있다 : 근육을 사용하는 것처럼 사람 간의 상호작용과 기술이라는 두 영역을 모두 성장시킬 기회를 얻을 수 있었음 

 

 

토니: 데이터 애널리틱스 커리어 지원

토니 : 파이낸스 프로그램 매니저

 

데이터에서 유용한 정보를 도출할 줄 아는 능력은 모든 회사 조직에서 주요 역할의 핵심

  • 커리어의 처음 2년 동안은 핵심 스킬을 개발하여 탁월한 제너럴리스트로 성장
  • 그다음 2~5년 동안은 직무와 관련된 아주 구체적인 무언가를 배움 : 도메인 혹은 기술
  • 예) 재무 분석용 대규모 데이터 세트를 조작할 수 있는 SQL 전문가, 또는 금융 부서에 입사한다고 해도 흔히 비즈니스라고 부르는 분야에서 근무할 수도

 

  • 현재는 청년들과 함께하면서 이들이 커리어의 출발점을 찾도록 돕는 데 열정 발휘
  • 커리어의 처음 2년 동안 매니저와 직속 관리 시스템을 통해 아무런 지원을 받지 못했음
  • 여러분이 잠재력과 능력이 많은 사람이라면, 여러분의 능력이 발전하도록 도와주고 여러분이 성장하는 모습을 진심으로 보고 싶어 하는 환경에 있어야

 

레이첼 : 데이터 탐정

Verily의 비즈니스 시스템 및 애널리틱스 리드 / 금융 데이터 애널리스트

  • 모든 금융 정보 즉, 지출과 수익의 모든 정보를 사용해 유용한 정보를 얻고 보고서를 만들어 비즈니스 리더가 현재 업무를 이해할 수 있도록 도움
  • 비즈니스 부서별로 손익 계산서 보고서 만들도록 돕는 업무 : 각 부서의 예산이 얼마인지, 해당 예산을 얼마나 지출하는지를 실시간 확인

 

데이터 애널리틱스에서 기억해야 할 가장 중요한 사실 =  '데이터는 데이터다'

  • 데이터는 살아있는 생물과 같다 > 데이터 포인트가 많으면 처음 작업할 때는 의미를 도출해내기가 부담스러울 수 있음 > 그렇기 때문에 데이터 애널리스트의 전문성이 필요
  • 인내하라 > 여러분의 관점이 맞지 않으면 다른 관점을 찾아보세요, 다른 방법으로 끝까지 시도해보세요, 다른 질문을 시도해보면 결국 데이터를 통해 답을 찾고 여러분이 원하는 유용한 정보를 얻게 될 것

 

 

알렉스: 공정하고 윤리적인 데이터 의사결정

윤리적 AI팀의 리서치 과학자

 

데이터 윤리는 피해 감소가 아닌 이익의 측면에서, 어떻게 하면 데이터를 사용하여 사람들의 삶을 개선할 수 있을까

> 누가 데이터를 수집하는가, 왜 수집하는가, 어떻게 수집하는가, 어떤 목적으로 수집하는가

 

데이터는 단순히 웹에 배포하는 요소가 아닌 사람이기에, 데이터가 대표하는 사람들에 대한 책임을 가지고 사람들의 데이터를 안전하게 보호할 방법을 깊이 고려해야 함 

 

개인정보를 어떻게 보호해야 할까요?

사용자와 소비자가 자신의 데이터를 보다 직접 제어할 수 있도록 메커니즘을 마련하는 방안도 생각해야

데이터를 모두 수집했으니 믿어달라고 말하는 것만으로는 충분하지 않음

사람들이 데이터 제공에 동의하고 동의를 철회하거나 삭제하도록 요청할 수 있는 실현 가능한 방안을 마련

 

미래에는 데이터가 더 늘어날 것이고, 데이터가 늘어나는 한 데이터 보호 문제는 더욱 민감해지고 점점 중요해질 것

 

 

마무리 : 데이터 애널리스트의 태도

많은 데이터 애널리스트는 모든 정보가 갖춰지지 않은 상황에서도 처음부터 완벽하게 작업하기 위해 애씁니다

질문을 하는 대신 실수로 이어질 수 있는 추측을 하죠

이보다는 겸손하게 호기심을 가지고 질문을 해야 합니다

가장 좋은 리소스는 매니저와 자신의 팀입니다

 

결론적으로 모든 정보를 다 알 필요는 없습니다

그리고 결코 나쁜 질문이란 없습니다

데이터 애널리스트의 가장 중요한 자질 한 가지는 열린 마음으로 학습하는 태도입니다