본문 바로가기
혼공학습단9기

혼자 공부하는 데이터 분석 with 파이썬 : 1주차(Chapter 01)

by 이두스 2023. 1. 8.

1주차(1/2~1/8)은 <혼자 공부하는 데이터 분석 with 파이썬> 도서의 Chapter 01부분을 학습하는 것이다.

Chapter 01은 다음과 같은 파트로 구성되어 있다.

 

Chapter 01 데이터 분석을 시작하며

-1 데이터 분석이란

-2 구글 코랩과 주피터 노트북

-3 이 도서가 얼마나 인기가 좋을까요?

 

그럼 이번 챕터에서 배운 내용을 정리해보겠다. 

 

-1 데이터 분석이란

 

먼저 첫번째인 '데이터 분석이란'이다. 데이터 분석과 데이터 과학에 대한 차이를 알려주고, 데이터 분석에 필요한 과정과 도구를 설명해준다.

 

- 데이터 분석과 데이터 과학의 차이

특징 데이터 분석 데이터 과학
범주 비교적 소규모 대규모
목표  의사 결정을 돕기 위한 통찰을 제공하는 일 문제 해결을 위해 최선의 솔루션을 만드는 일
주요 기술 컴퓨터 과학, 통계학, 시각화 등 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등
빅데이터 사용 사용

https://www.sisense.com/blog/data-science-vs-data-analytics/

이 표가 가장 인상깊었다.

이 교재는 데이터 분석에 관한 내용을 다룰 것이다.

데이터 분석을 통계학 관점에서 기술통계, 탐색적 데이터 분석, 가설검정의 세 가지로 나눈다.

 

- 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법

- 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법

- 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계방법

 

- 데이터 분석가

데이터 분석가는 (1) 프로그래밍 (2) 수학, 통계 (3) 도메인 지식을 모두 다 알아야 한다.

 

- 데이터 분석을 위한 도구

주로 R과 파이썬을 사용한다. 이 교재는 구글 코랩에서 파이썬을 사용할 예정이다.

 

-2 구글 코랩과 주피터 노트북

 

두번째는 구글 코랩과 주피터 노트북이다. 이 교재는 구글 코랩을 가지고 실습하기 때문에 구글 코랩이 무엇이고 이를 어떻게 사용하는지에 대해 설명해준다. 

 

구글 코랩은 웹 브라우저에서 무료로 파이썬 프로그램을 테스트하고 저장할 수 있는 서비스이다.

한 셀에 코드를 작성하면 바로 아래에 결과를 볼 수 있다. 또한 마크다운으로 텍스트도 작성할 수 있다.

실행은 구글 클라우드 서버에서 하고, 작성한 노트북은 구글 드라이브에 자동저장이 된다.

어느 브라우저던 간에 구글 로그인만 되어 있다면 사용할 수 있다. 

 

사실 이미 알고 있어서 정리할 게 없다

 

-3 이 도서가 얼마나 인기가 좋을까요?

 

이 부분부터 구글 코랩을 사용할 부분이 있다. 그래서 구글 코랩에 책 내용과 코딩을 다 정리하였다.

https://colab.research.google.com/drive/1looebXz-n6Lxj2nhYxamjl7SOC4MBp0u?usp=sharing 

 

혼공데분_1주차.ipynb

Colaboratory notebook

colab.research.google.com

 


 

기본미션 (p81의 확인 문제 4번 풀고 인증)

p81 확인 문제 4번

각각 틀린 이유

1 = 기본값은 6이다

2 = 열 이름이다

4 = 모든 열을 지정하지 않아도 된다.

 

선택미션 (p71~73 남산 도서관 데이터를 코랩에서 데이터 프레임으로 출력하고 캡처하기)

구글 코랩 실행 결과