
코딩 자율학습 잔재미코딩의 파이썬 데이터 분석 입문 - 예스24
핵심만 쏙쏙! 반복 학습으로 데이터 인재로 거듭나기이 책은 데이터 분석을 체계적으로 익히려는 분과 파이썬을 배웠지만 다음 단계로 무엇을 해야 할지 고민인 분을 위한 책이다. 파이썬 데이
www.yes24.com
|
1주차
|
1일
|
2일
|
3일
|
4일
|
5일
|
|
목차
|
1장 데이터 분석을 시작하기 전에
1.1 데이터 분석 과정 살펴보기
1.2 데이터 분석 도구 살펴보기
2장 개발 환경 구축하기
2.1 아나콘다 설치하기
2.2 주피터 노트북 사용하기
|
3장 데이터 분석을 위한 파이썬
3.1 파이썬 기본 문법
3.2 파이썬 데이터 구조
3.3 실습: 파이썬 기본 문법과 데이터 구조 활용
|
4장 Pandas 기초 배우기
4.1 Pandas 사용하기
4.2 시리즈 다루기
4.3 데이터프레임 다루기
|
5장 Pandas 기능 사용하기
5.1 데이터 불러오기
5.2 데이터 확인하기
|
5장 Pandas 기능 사용하기
5.3 개별 통계치 구하기
5.4 객체/메서드/속성 이해하기
|
Part 1 - 데이터 분석 준비하기
1장 데이터 분석을 시작하기 전에
- 데이터 분석을 배우기 전 전체 과정을 이해하고 현재 자신의 위치를 파악해 향후 학습 목표 설정
1.1 데이터 분석 과정 살펴보기
- 파이썬: 단순하고 직관적인 문법, 다양한 라이브러리, 실무 활용

1.1.1 1단계: 데이터 수집
- 파이썬: 웹사이트 데이터 자동 수집(크롤링)
- Open API
- 엑셀
1.1.2 2단계; 데이터 저장
- 관계형 데이터베이스
- NoSQL (Not Only SQL) 데이터베이스: 비정형 데이터(JSON, 문서, 이미지)
1.1.3 3단계: 데이터 전처리와 분석
1. 데이터 베이스에서 조건에 맞는 데이터 추출하기
- 필터링
- 집계
- 조인
2. 파이썬을 활용해 데이터 분석하기
파이썬으로 수행할 수 있는 작업
- 데이터 전처리
- EDA(탐색적 데이터 분석)
- 데이터 시각화
더 깊이 있는 데이터 이해와 비즈니스 인사이트를 얻을 수 있는 작업
- 고급 통계 분석
- 특성 엔지니어링
- 데이터 시각화 고도화
1.1.4 4단계: 머신러닝을 활용한 미래 예측 및 의사 결정 모델 개발
주요 머신러닝 기법
- 분류(classification): 사전 정의한 범주로 나눔
- 회귀(regression): 연속적 숫자 값 예측
- 군집화(clustering): 유사 특성 그룹으로 나눔
1.1.5 5단계: 딥러닝을 활용한 고급 분석 및 예측
- 딥러닝 기초
- PyTorch
- 트랜스포머와 딥러닝 활용
1.2 데이터 분석 도구 살펴보기
1.2.1 Pandas
- 데이터 구조 제공
- 시리즈
- 데이터프레임
- 데이터 처리 기능
- 데이터 분석 기능
- 데이터 입출력 지원
- 시각화 연동
주요 이점
- 빠른 대용량 데이터 처리
- 작업 자동화
- 데이터 전처리를 위한 기능 제공
- 강력한 데이터 처리 및 분석 기능 제공
- 시계열 데이터 처리 지원
- 다른 라이브러리와의 호환성
- 활발한 커뮤니티와 지속적인 발전
1.2.2 Plotly
Plotly로 만든 그래프는 다음의 다양한 기능 제공
- 마우스 확대/축소
- 데이터 포인트 정보 제공
- 특정 데이터 선택
2장 개발 환경 구축하기
2.1 아나콘다 설치하기
설치 전 주의 사항
- 사용자 ID가 한글인 경우: 영문 소문자 ID 추천
- 회사 PC인 경우: 개인 PC에 설치 추천
2.2 주피터 노트북 사용하기
2.2.1 주피터 노트북 실행 방법
2.2.2 주피터 노트북 사용법
- 확장자
- 폴더와 파일
- 셀
- 주피터 노트북의 기능
- 코드를 셀 단위로 실행할 수 있음
- 변수 값을 쉽게 확인할 수 있음
- 주피터 노트북을 닫았다가 열면 코드들 다시 실행해야 함
- 한 셀이 실행 중이면 다른 셀은 실행할 수 없음
3장 데이터 분석을 위한 파이썬
3.1 파이썬 기본 문법
- 데이터 분석시 자주 활용되는 파이썬 기본 문법.
3.1.1 변수
- 변수 선언과 사용
변수명 = 값
- 자료형
3.1.2 조건문
if 조건:
실행할_코드
elif 조건:
실행할_코드
else:
실행할_코드
3.1.3 반복문
- for 문
for 변수 in 범위:
반복할_코드
- while 문
while 조건:
반복할_코드
3.1.4 함수
- 함수 정의화 호출
def 함수명(): # 함수 정의
실행할_코드
함수명() #함수 호출
- 매개변수와 반환값
- 매개변수(parameter): 함수가 입력값을 받을 때 사용하는 변수
- 인자(argument): 함수 호출시 전달하는 값
- 반환값(return value): 함수가 결과흘 호출한 곳으로 반환하는 값
def greet(name):
print("안녕하세요. " + name + " 님!"
greet("홍길동")

- 내장 함수/사용자 정의 함수/메서드
객체명.메서드명()

3.2 파이썬 데이터 구조
3.2.1 리스트
- 리스트 선언
리스트명 = [요소1, 요소2, ...]

- 리스트 요소의 접근/수정/추가/삭제

3.2.2 튜플
- 튜플 선언과 요소 접근
튜플명 = {요소1, 요소2, ...}

- 튜플의 불변성

- 딕셔너리 선언
딕셔너리명 = {키1: 값1, 키2: 값2, ...}
- 딕셔너리 값의 접근 및 변경

- 딕셔너리 요소의 추가 및 삭제

3.2.4 세트
- 중복을 허용하지 않아 동일한 값을 여러 번 포함할 수 없음.
- 순서가 없는 집합으로, 세트의 요소는 특정 순서로 정렬되지 않음.
- 데이터의 존재 여부를 빠르게 확인 가능
- 세트는 중괄호({})를 사용해 선언, 각 요소는 쉼표(,)로 구분
세트 선언
세트명 = {요소1, 요소2, ...}

- 세트 요소의 추가 및 삭제

3.3 실습: 파이썬 기본 문법과 데이터 구조 활용
3.3.1 변수와 조건문: 점수에 따른 등급 출력하기
- 사용자 입력 받기, 조건문으로 등급 결정, 결과 출력

3.3.2 반복문: 1부터 10까지 숫자 출력하기
- for 문 사용

- while 문 사용

3.3.3 데이터 구조: 학생 성적 관리 프로그램

Part 2 - Pandas 다루기
4장 Pandas 기초 배우기
Pandas의 기본 사용법과 주요 데이터 구조 학습
4.1 Pandas 사용하기
4.1.1 라이브러리 임포트하기
import 라이브러리명
# pip 패키지 관리
# 패키지/라이브러리 설치
pip install 패키지명(또는 라이브러리 명)
# 최신 버전으로 업그레이드
pip install --upgrade 패키지명(또는 라이브러리 명)
# 불필요 패키지/라이브러리 제거
pip uninstall 패키지명(또는 라이브러리 명)
# 설치된 패키지/라이브러리 목록 확인
pip list

4.1.2 별칭 사용하기

4.2 시리즈 다루기
4.2.1 시리즈란
4.2.2 시리즈 생성하기
pd.Series(데이터)


4.2.3 인덱스 지정하기
pd.Series(데이터, index=인덱스)

4.2.4 데이터 접근하기
시리즈명[인덱스]

4.3 데이터프레임 다루기
4.3.1 데이터프레임이란
행과 열로 구성된 2차원 데이터 구조
- 인덱스(index)
- 열(column)
- 행(row)
4.3.2 데이터프레임 생성하기
pd.DataFrame(데이터)

pd.DataFrame(데이터, index=인덱스, columns=열_이름)

4.3.3 실습: 특정 열 데이터 접근하기

- 단일 열 접근하기
변수명 = df[열_이름]

- 여러 열 접근하기
변수명 = df[[열_이름1, 열_이름2,...]]

4.3.4 실습: 특정 행 데이터 접근하기
- loc 인덱서: 인덱스 이름(행의 레이블)을 사용해 데이터에 접근
변수명=df.loc[인덱스_이름]

- iloc 인덱서: 행의 위치(0부터 시작)를 사용해 데이터에 접근
변수명.iloc[행_위치]

4.3.5 실습: 특정 행과 열 데이터 한 번에 읽어 오기
- loc 인덱서: 인덱스 이름과 열 이름을 사용해 데이터 선택
변수명.loc[인덱스_이름, 열_이름]

- iloc 인덱서: 행과 열의 정수형 위치를 사용해 데이터를 선택
변수명.iloc[행_위치, 열_위치]

5장 Pandas 기능 사용하기
5.1 데이터 불러오기
5.1.1 CSV 파일 불러오기
pd.read_csv(파일_경로)

5.1.2 엑셀 파일 불러오기
pd.read_excel(파일_경로)

5.1.3 데이터 불러올 때 유용한 옵션
- 특정 열만 불러오기
pd.함수명(파일명, usecols=열_이름)
pd.함수명(파일명, usecols=[열_이름1, 열_이름2, ...])

- 헤더 없는 파일 불러오기

5.2 데이터 확인하기
데이터 확인이 중요한 이유
- 데이터의 구조 파악
- 데이터의 내용 파악
- 데이터 품질 확인
- 분석 방향 설정
5.2.1 초반 데이터 확인하기: head()
변수명.head() # 처음 5개 행 출력
변수명.head(n) # 처음 n개 행 출력

5.2.2 후반 데이터 확인하기: tail()
변수명.tail() # 마지막 5개 행 출력
변수명.tail(n) # 마지막 n개 행 출력

5.2.3 통계 요약하기: describe()
데이터를 간단히 요약해 한눈에 파악할 수 있도록 통계 정보를 제공.
변수명.describe() # 기본(수치형) 통계 출력
변수명.describe(include='all') # 전체(수치형/비수치형) 통계 출력


5.2.4 데이터 크기 확인하기: shape
shape는 함수가 아닌 속성(attribute) - 데이터 프레임에 포함된 변수로 볼 수 있음. 엑셀의 행, 열의 갯수를 나타냄.

5.3 개별 통계치 구하기
5.3.1 평균 구하기: mean()
변수명.mean() # 전체 평균 계산
변수명[열_이름].mean() # 지정한 열의 평균 계산

5.3.2 최댓값 구하기: max()
변수명.max()
변수명[열_이름].max()

5.3.3 최솟값 구하기: min()
변수명.max()
변수명[열_이름).max()

5.3.4 데이터 모두 더하기: sum()
- 문자열 데이터: 문자열을 이어 붙임
- 불 데이터: True는 1로, False는 0으로
- 수치형 데이터: 수치형 ㅔ이터만 합산하려면 numeric_only=True 옵션 사용
변수명.sum()
변수명.sum(numeric_only=True) # 수치형 데이터만 더하기
변수명[열_이름].sum(numeric_only=True) # 지정한 열만 더하기

5.4 객체/메서드/속성 이해하기
- 객체(object) - df
- 메서드(method) - df.head()
- 속성(attribute) - shape