본문 바로가기
Code/혼공단-9기

혼공단 9기 - 혼공분석 - 4주차

by Beyonder 2023. 2. 5.

혼자 공부하는 데이터 분석 with 파이썬

#혼공학습단 #혼공 #혼공분석

# 진도 기본 미션 선택 미션
4주차
(1/30 ~ 2/5)
Chapter 04 p. 279의 확인 문제 5번 풀고 인증하기 Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

Chapter 04 데이터 요약하기

 

04-1 통계로 요약하기

__기술통계 구하기

__평균 구하기

__중앙값 구하기

__최솟값, 최댓값 구하기

__분위수 구하기

__분산 구하기

__표준편차 구하기

__최빈값 구하기

__[문제해결 과정] 데이터프레임에서 기술통계 구하기

[좀 더 알아보기] 넘파이의 기술통계 함수

[6가지 키워드로 정리하는 핵심 포인트]

[표로 정리하는 핵심 함수와 메서드]

[확인 문제]

 

04-2 분포 요약하기

__산점도 그리기

__히스토그램 그리기

__상자 수염 그림 그리기

__[문제해결 과정] 통계량을 시각적으로 표현하기

[좀 더 알아보기] 판다스의 그래프 함수

[6가지 키워드로 정리하는 핵심 포인트]

[표로 정리하는 핵심 함수와 메서드]

[확인 문제]

 

 

I. 미션

1. 기본 미션 - p. 279의 확인 문제 5번 풀고 인증하기

p.279 문제 5:  ns_book7 남산 도서관 대출 데이터에서 1980년~2022년 사이에 발행된 도서를 선택하여 다음과 같은 '발행년도' 열의 히스토그램을 그려 보세요.

2. 선택 미션 - Ch.04(04-1)에서 배운 8가지 기술통계량(평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값)의 개념을 정리하기

평균

  • 데이터값을 모두 더한 후 데이터 개수로 나눈 값.
  • 메서드: Series.mean()

중앙값

  • 전체 뎅터를 크기 순서대로 일렬로 늘어 놓았을 때 중앙에 위치한 값.  데이터 개수가 짝수일 때는 두 데이터의 평균.
  • 메서드: numpy.mean()

최솟값

최대값

분위수

  • 데이터를 순서대로 늘어 놓았을 때 이를 균등한 간격으로 나누는 기준점. (예) 이분위수는 전체 데이터를 두 구간, 4분위수는 네 구간으로 나눔.

분산

  • 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량.
  • 메서드: var()

표준편차

  • 분산에 제곱근을 한 것.  수식기호는 s.
  • 메서드: std()

최빈값

  • 데이터에서 가장 많이 등장하는 값.
  • 메서드: mode()