[데이터 분석] 데이터 분석이란 무엇인가 What Is Data Analysis?
데이터 분석이란 무엇일가?
실무에 들어가기 전 데이터 분석이 무엇이고, 어떤 과정으로 이뤄지는지에 대하여 공부해보기 위하여 링크에 작성된 내용을 정리해보았다.
데이터 분석이란 무엇인가?
데이터 분석은 유용한 정보를 수집하기 위해 데이터를 사용하는 작업 방식으로, 정보에 입각한 결정(Informed Decision)을 내리는데 사용될 수 있다.
데이터 분석 과정 Data Analysis Process
Data Companies가 이용 가능한 데이터의 양과 이의 복잡성이 지속적으로 증가하기 떄문에, 데이터의 가치를 활용할 수 있는 효과적이고 효율적인 방법을 찾을 필요가 있다. 분석 방법은 일반적으로 여러번의 반복적인 과정을 거친다. 그 과정은 다음과 같다.
- 답변하고자 하는 비즈니스 질문을 식별한다. 회사가 해결하고자 하는 문제가 무엇인가요? 무엇을, 그리고 어떻게 측정해야하나요?
- 식별된 질문에 답변하기 위하여 필요한 원시 데이터(raw data)들을 수집 해야한다. 데이터 수집은 회사 내 고객 관계 관리(CRM) 소프트웨어나 정부 기관 기록 또는 소셜 미디어의 응용프로그램 개발 인터페이스(API)를 통해 얻을 수 있다.
- 분석을 위해 데이터를 정리한다. 여기서 중복되거나 비정상적인 데이터를 제거하고, 일관적이지 않은 데이터를 조정하며, 데이터 구조 및 형식을 표준화한다. 또 공백 또는 기타 구문 오류를 처리한다.
- 데이터를 분석한다. 다양한 데이터 분석 기술 및 도구를 이용하여 데이터를 처리하여 데이터의 추세, 상관 관계, 특이치 및 변동을 찾을 수 있다. 이 단계에서 데이터 마이닝을 이용하여 데이터베이스 내의 패턴을 찾거나 데이터 시각화 소프트웨어를 이용하여 데이터를 이해하기 쉬운 그래픽 형식으로 변환할 수 있다.
- 분석 결과를 해석하여 데이터가 원래 질문에 얼마나 잘 응답됐는지 확인한다. 데이터를 기반으로 어떤 추천을 할 수 있는가. 결론의 제약사항에는 무엇이 있는가.
데이터 분석 유형 Types of data analysis
데이터는 질문에 응답하고, 의사 결정을 돕기 위해 여러가지 다양한 방법으로 사용될 수 있다. 이러한 과정을 실무에서 일반적으로 사용되는 네 가지 범주로 그룹화할 수 있는데, 각 데이터 분석 방법을 실제 환경에서 어떻게 사용하는지에 대하여 예제와 함께 확인한다.
기술적 분석 Descriptive analysis
기술적 분석은 우리에게 무슨 일이 발생하였는지를 말해준다. 이는 통계를 제시함으로써 양적 데이터를 설명하거나 요약하는데 유용하게 쓰인다. 예를 들어, 통계 분석을 통해 직원 전체의 매출 분포와 직원당 평균 판매 수치를 확인할 수 있다.
“무슨 일이 일어났나요?” 기술적 분석은 이 질문에 답한다.
진단적 분석 Diagnostic Analysis
만약 기술적 분석이 “무엇”을 결정한다면, 진단적 분석은 “왜”를 결정한다. 병원에 이례적으로 환자가 많이 몰려든다고 가정해보자. 데이터를 파보면 이러한 환자들이 특정 바이러스에 대한 증상들을 공유하는지가 드러날 것이다. 이를 통해 환자 유입을 유발한 감염원(그 이유)을 확인할 수 있을 것이다.
“왜 이런 일이 일어났나요?” 진단적 분석은 이 질문에 답한다.
예측적 분석 Predictive Analysis
지금까지는 과거에 발생한 일을 조사하고 결론을 도출하는 분석 유형을 살펴보았다. 하지만, 예측적 분석은 미래를 예측하기 위하여 사용한다. 예측적 분석을 사용하여 특정 제품이 매년 9월과 10월에 사이에 최고 판매량을 기록한다는 것을 확인하고, 다음 해에도 비슷하게 고점을 기록할 것임을 예측할 수 있다.
“무슨 일이 일어날까요?” 예측적 분석은 이 질문에 답한다.
규범적 분석 Prescriptive analysis
규범적 분석은 앞서 말한 분석들을 통해 얻은 인사이트를 바탕으로 회사가 어떻게 행동해야하는가?에 대한 권장 사항을 만든다. 위의 예제를 사용하여, 규범적 분석은 높은 판매량을 기록한 달의 성과를 기반으로 침체기에 새로운 성장 기회를 얻는데 활용하자는 시장 계획을 제시할 수 있다.
“우리가 뭘 해야하나요?” 규범적 분석은 이 질문에 답한다.
마지막 유형은 데이터 중심 의사 결정(Data-Driven Decision-Making, DDDM) 개념이 작용한다.