혼자 공부하는 데이터 분석 with 파이썬
#혼공학습단 #혼공 #혼공분석
# | 진도 | 기본 미션 | 선택 미션 |
4주차 (1/30 ~ 2/5) |
Chapter 04 | p. 279의 확인 문제 5번 풀고 인증하기 | Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기 |
Chapter 04 데이터 요약하기
04-1 통계로 요약하기
__기술통계 구하기
__평균 구하기
__중앙값 구하기
__최솟값, 최댓값 구하기
__분위수 구하기
__분산 구하기
__표준편차 구하기
__최빈값 구하기
__[문제해결 과정] 데이터프레임에서 기술통계 구하기
[좀 더 알아보기] 넘파이의 기술통계 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
04-2 분포 요약하기
__산점도 그리기
__히스토그램 그리기
__상자 수염 그림 그리기
__[문제해결 과정] 통계량을 시각적으로 표현하기
[좀 더 알아보기] 판다스의 그래프 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
I. 미션
1. 기본 미션 - p. 279의 확인 문제 5번 풀고 인증하기
p.279 문제 5: ns_book7 남산 도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 '발행년도' 열의 히스토그램을 그려 보세요.
2. 선택 미션 - Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기
평균
- 데이터값을 모두 더한 후 데이터 개수로 나눈 값.
- 메서드: Series.mean()
중앙값
- 전체 뎅터를 크기 순서대로 일렬로 늘어 놓았을 때 중앙에 위치한 값. 데이터 개수가 짝수일 때는 두 데이터의 평균.
- 메서드: numpy.mean()
최솟값
최대값
분위수
- 데이터를 순서대로 늘어 놓았을 때 이를 균등한 간격으로 나누는 기준점. (예) 이분위수는 전체 데이터를 두 구간, 4분위수는 네 구간으로 나눔.
분산
- 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량.
- 메서드: var()
표준편차
- 분산에 제곱근을 한 것. 수식기호는 s.
- 메서드: std()
최빈값
- 데이터에서 가장 많이 등장하는 값.
- 메서드: mode()