본문 바로가기

분류 전체보기14

혼자 공부하는 데이터 분석 with 파이썬: 5주차(Chapter 05-1) Chapter 05 "데이터 시각화하기" Chapter 05-1의 주제는 '맷플롯립 기본 요소 알아보기' 이다. 전체적으로 배울 내용은 다음과 같다 피겨 rcParams subplot 05-1 맷플롯립 기본 요소 알아보기 필요한 파일 다운로드 import gdown import pandas as pd # ns_book7 다운 gdown.download('https://bit.ly/3pK7iuu','ns_book7.csv', quiet = False) # pandas dataframe ns_book7 = pd.read_csv('ns_book7.csv', low_memory = False) ns_book7.head() Figure 객체 모든 그래프 구성 요소를 담고 있는 최상위 객체 scatter()로 산점.. 2023. 2. 19.
혼자 공부하는 데이터 분석 with 파이썬: 4주차(Chapter 04-2) Chapter04 "데이터 요약하기" Chapter 04-2의 주제는 '분표 요약하기' 이다. 실습전 다운로드 import gdown import pandas as pd # 04-1에서 만든 ns_book7 다운 gdown.download('http://bit.ly/3pK7iuu', 'ns_book7.csv', quiet = False) # pandas로 불러오기 ns_book7 = pd.read_csv('ns_book7.csv', low_memory=False) ns_book7.head() 산점도 그리기 산점도: 데이터를 화면에 뿌리듯 그리는 그래프 두 변수 혹은 두 가지 특성 값을 직교 좌표계에 점으로 나타낸 그래프 scatter() 함수 산점도를 그려준다 scatter() 함수를 호출한 다음 sho.. 2023. 2. 19.
혼자 공부하는 데이터 분석 with 파이썬: 4주차(Chapter 04-1) Chapter04 "데이터 요약하기" Chapter 04-1의 주제는 '통계로 요약하기' 이다. 기술통계 구하기 기술통계(요약통계): 자료의 내용을 압축하여 설명하는 방법 시각화까지 아우르는 데이터 분석이 탐색적 데이터 분석 import pandas as pd import gdown # 03-2에서 만든 데이터 다운로드 gdown.download('https://bit.ly/3736JW1','ns_book6.csv', quiet = False) ns_book6 = pd.read_csv('ns_book6.csv', low_memory = False) ns_book6.head() describe() 메서드 : 수치형 열에 대한 요약 통계 # describe() 메서드 ns_book6.describe() 도서.. 2023. 2. 19.
혼자 공부하는 데이터 분석 with 파이썬: 3주차(Chapter 03-2) Chapter03 "데이터 정제하기" Chapter 03-2의 주제는 '잘못된 데이터 수정하기' 이다. 판다스에서 누락된 값은 NaN이라고 표시한다. NaN을 찾는 방법과 NaN을 수정하는 방법을 배울 예정 데이터 프레임 정보 요약 확인하기 먼저 03-1에서 처리한 남산도서관 데이터를 가져온다. import gdown gdown.download('https://bit.ly/3GisL6J','ns_book4.csv',quiet = False) import pandas as pd ns_book4 = pd.read_csv('ns_book4.csv',low_memory = False) 요약 정보는 아래와 같이 확인한다. # ns_book4의 요약 정보 ns_book4.info() 누락된 값 처리하기 누락된 값 .. 2023. 1. 26.
혼자 공부하는 데이터 분석 with 파이썬: 3주차(Chapter 03-1) Chapter03 "데이터 정제하기" 데이터 정제란 데이터에서 손상되거나 부정확한 부분을 수정하고, 불필요한 데이터를 삭제하거나 불완전한 값을 교체하는 등의 작업이다. Chapter 03도 2개로 나누어 글을 작성하려 한다. Chapter 03-1의 주제는 '불필요한 데이터 삭제하기' 이다. 03-1 불필요한 데이터 삭제하기 열 삭제하기 먼저 남산도서관 데이터를 가져온다. # gdown으로 다운로드 import gdown gdown.download('https://bit.ly/3RhoNho','ns_202104.csv',quiet=False) # 판다스로 저장 import pandas as pd ns_df = pd.read_csv('ns_202104.csv',low_memory=False) ns_df.h.. 2023. 1. 25.
혼자 공부하는 데이터 분석 with 파이썬: 2주차(Chapter 02-2) Chapter 02-2는 "웹 스크래핑"에 대해 알아본다. 도서 쪽수를 찾아서 웹 스크래핑(또는 웹 크롤링) : 프로그램으로 웹사이트이 페이지를 옮겨 가면서 데이터를 추출하는 작업 사이트에서 직접 데이터를 찾는 것은 API로 url에 파라미터를 붙여서 찾는 것과는 조금 다름. Yes24 사이트에서 는 도서 제목이나 ISBN으로 검색을 해서 도서 상세 페이지로 넘어감. 검색 결과 페이지 가져오기 import gdown gdown.download('https://bit.ly/3q9SZix', '20s_best_book.json',quiet=False) import pandas as pd books_df = pd.read_json('20s_best_book.json') books_df.head() # 열이 많.. 2023. 1. 15.