1주차(1/2~1/8)은 <혼자 공부하는 데이터 분석 with 파이썬> 도서의 Chapter 01부분을 학습하는 것이다.
Chapter 01은 다음과 같은 파트로 구성되어 있다.
Chapter 01 데이터 분석을 시작하며
-1 데이터 분석이란
-2 구글 코랩과 주피터 노트북
-3 이 도서가 얼마나 인기가 좋을까요?
그럼 이번 챕터에서 배운 내용을 정리해보겠다.
-1 데이터 분석이란
먼저 첫번째인 '데이터 분석이란'이다. 데이터 분석과 데이터 과학에 대한 차이를 알려주고, 데이터 분석에 필요한 과정과 도구를 설명해준다.
- 데이터 분석과 데이터 과학의 차이
특징 | 데이터 분석 | 데이터 과학 |
범주 | 비교적 소규모 | 대규모 |
목표 | 의사 결정을 돕기 위한 통찰을 제공하는 일 | 문제 해결을 위해 최선의 솔루션을 만드는 일 |
주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
빅데이터 | 사용 | 사용 |
https://www.sisense.com/blog/data-science-vs-data-analytics/
이 표가 가장 인상깊었다.
이 교재는 데이터 분석에 관한 내용을 다룰 것이다.
데이터 분석을 통계학 관점에서 기술통계, 탐색적 데이터 분석, 가설검정의 세 가지로 나눈다.
- 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
- 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법
- 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계방법
- 데이터 분석가
데이터 분석가는 (1) 프로그래밍 (2) 수학, 통계 (3) 도메인 지식을 모두 다 알아야 한다.
- 데이터 분석을 위한 도구
주로 R과 파이썬을 사용한다. 이 교재는 구글 코랩에서 파이썬을 사용할 예정이다.
-2 구글 코랩과 주피터 노트북
두번째는 구글 코랩과 주피터 노트북이다. 이 교재는 구글 코랩을 가지고 실습하기 때문에 구글 코랩이 무엇이고 이를 어떻게 사용하는지에 대해 설명해준다.
구글 코랩은 웹 브라우저에서 무료로 파이썬 프로그램을 테스트하고 저장할 수 있는 서비스이다.
한 셀에 코드를 작성하면 바로 아래에 결과를 볼 수 있다. 또한 마크다운으로 텍스트도 작성할 수 있다.
실행은 구글 클라우드 서버에서 하고, 작성한 노트북은 구글 드라이브에 자동저장이 된다.
어느 브라우저던 간에 구글 로그인만 되어 있다면 사용할 수 있다.
사실 이미 알고 있어서 정리할 게 없다
-3 이 도서가 얼마나 인기가 좋을까요?
이 부분부터 구글 코랩을 사용할 부분이 있다. 그래서 구글 코랩에 책 내용과 코딩을 다 정리하였다.
https://colab.research.google.com/drive/1looebXz-n6Lxj2nhYxamjl7SOC4MBp0u?usp=sharing
기본미션 (p81의 확인 문제 4번 풀고 인증)
각각 틀린 이유
1 = 기본값은 6이다
2 = 열 이름이다
4 = 모든 열을 지정하지 않아도 된다.
선택미션 (p71~73 남산 도서관 데이터를 코랩에서 데이터 프레임으로 출력하고 캡처하기)
'Data Analysis > 혼공학습단9기' 카테고리의 다른 글
혼자 공부하는 데이터 분석 with 파이썬: 4주차(Chapter 04-1) (0) | 2023.02.19 |
---|---|
혼자 공부하는 데이터 분석 with 파이썬: 3주차(Chapter 03-2) (0) | 2023.01.26 |
혼자 공부하는 데이터 분석 with 파이썬: 3주차(Chapter 03-1) (0) | 2023.01.25 |
혼자 공부하는 데이터 분석 with 파이썬: 2주차(Chapter 02-2) (0) | 2023.01.15 |
혼자 공부하는 데이터 분석 with 파이썬 : 2주차(Chapter 02-1) (0) | 2023.01.11 |