본문 바로가기
Code/길벗 학습단 14기 - 파이썬 데이터 분석

길벗 학습단 14기 - 파이썬 데이터 분석 - 1주차 학습후기

by Beyonder 2025. 4. 6.

 

코딩 자율학습 잔재미코딩의 파이썬 데이터 분석 입문 - 예스24

핵심만 쏙쏙! 반복 학습으로 데이터 인재로 거듭나기이 책은 데이터 분석을 체계적으로 익히려는 분과 파이썬을 배웠지만 다음 단계로 무엇을 해야 할지 고민인 분을 위한 책이다. 파이썬 데이

www.yes24.com

 

1주차
1일
2일
3일
4일
5일
목차
1장 데이터 분석을 시작하기 전에
1.1 데이터 분석 과정 살펴보기
1.2 데이터 분석 도구 살펴보기
2장 개발 환경 구축하기
2.1 아나콘다 설치하기
2.2 주피터 노트북 사용하기
3장 데이터 분석을 위한 파이썬
3.1 파이썬 기본 문법
3.2 파이썬 데이터 구조
3.3 실습: 파이썬 기본 문법과 데이터 구조 활용
4장 Pandas 기초 배우기
4.1 Pandas 사용하기
4.2 시리즈 다루기
4.3 데이터프레임 다루기
5장 Pandas 기능 사용하기
5.1 데이터 불러오기
5.2 데이터 확인하기
5장 Pandas 기능 사용하기
5.3 개별 통계치 구하기
5.4 객체/메서드/속성 이해하기

 

Part 1 - 데이터 분석 준비하기

1장 데이터 분석을 시작하기 전에

  • 데이터 분석을 배우기 전 전체 과정을 이해하고 현재 자신의 위치를 파악해 향후 학습 목표 설정

1.1 데이터 분석 과정 살펴보기

  • 파이썬: 단순하고 직관적인 문법, 다양한 라이브러리, 실무 활용
\

1.1.1 1단계: 데이터 수집

  • 파이썬: 웹사이트 데이터 자동 수집(크롤링)
  • Open API
  • 엑셀

1.1.2 2단계; 데이터 저장

  • 관계형 데이터베이스
  • NoSQL (Not Only SQL) 데이터베이스: 비정형 데이터(JSON, 문서, 이미지)

1.1.3 3단계: 데이터 전처리와 분석

1. 데이터 베이스에서 조건에 맞는 데이터 추출하기

  • 필터링
  • 집계
  • 조인

2. 파이썬을 활용해 데이터 분석하기

파이썬으로 수행할 수 있는 작업

  • 데이터 전처리
  • EDA(탐색적 데이터 분석)
  • 데이터 시각화

더 깊이 있는 데이터 이해와 비즈니스 인사이트를 얻을 수 있는 작업

  • 고급 통계 분석
  • 특성 엔지니어링
  • 데이터 시각화 고도화

1.1.4 4단계: 머신러닝을 활용한 미래 예측 및 의사 결정 모델 개발

주요 머신러닝 기법

  • 분류(classification): 사전 정의한 범주로 나눔
  • 회귀(regression): 연속적 숫자 값 예측
  • 군집화(clustering): 유사 특성 그룹으로 나눔

1.1.5 5단계: 딥러닝을 활용한 고급 분석 및 예측

  • 딥러닝 기초
  • PyTorch
  • 트랜스포머와 딥러닝 활용

1.2 데이터 분석 도구 살펴보기

1.2.1 Pandas

  • 데이터 구조 제공
    • 시리즈
    • 데이터프레임
  • 데이터 처리 기능
  • 데이터 분석 기능
  • 데이터 입출력 지원
  • 시각화 연동

주요 이점

  • 빠른 대용량 데이터 처리
  • 작업 자동화
  • 데이터 전처리를 위한 기능 제공
  • 강력한 데이터 처리 및 분석 기능 제공
  • 시계열 데이터 처리 지원
  • 다른 라이브러리와의 호환성
  • 활발한 커뮤니티와 지속적인 발전

1.2.2 Plotly

Plotly로 만든 그래프는 다음의 다양한 기능 제공

  • 마우스 확대/축소
  • 데이터 포인트 정보 제공
  • 특정 데이터 선택

2장 개발 환경 구축하기

2.1 아나콘다 설치하기

설치 전 주의 사항

  • 사용자 ID가 한글인 경우: 영문 소문자 ID 추천
  • 회사 PC인 경우: 개인 PC에 설치 추천

2.2 주피터 노트북 사용하기

2.2.1 주피터 노트북 실행 방법

2.2.2 주피터 노트북 사용법

  • 확장자
  • 폴더와 파일
  • 주피터 노트북의 기능
    1. 코드를 셀 단위로 실행할 수 있음
    2. 변수 값을 쉽게 확인할 수 있음
    3. 주피터 노트북을 닫았다가 열면 코드들 다시 실행해야 함
    4. 한 셀이 실행 중이면 다른 셀은 실행할 수 없음

3장 데이터 분석을 위한 파이썬

3.1 파이썬 기본 문법

  • 데이터 분석시 자주 활용되는 파이썬 기본 문법.

3.1.1 변수

  • 변수 선언과 사용
변수명 = 값
  • 자료형

3.1.2 조건문

if 조건:
	실행할_코드
elif 조건:
	실행할_코드
else:
	실행할_코드

 

 3.1.3 반복문

  • for 문
 for 변수 in 범위:
 	반복할_코드

 

  • while 문
while 조건:
	반복할_코드

 

3.1.4 함수

  • 함수 정의화 호출
def 함수명():  # 함수 정의
	실행할_코드

함수명()	#함수 호출
  • 매개변수와 반환값
    • 매개변수(parameter):  함수가 입력값을 받을 때 사용하는 변수
    • 인자(argument):  함수 호출시 전달하는 값
    • 반환값(return value):  함수가 결과흘 호출한 곳으로 반환하는 값
def greet(name):
	print("안녕하세요. " + name + " 님!"
greet("홍길동")

 

  • 내장 함수/사용자 정의 함수/메서드
객체명.메서드명()

 

3.2 파이썬 데이터 구조

3.2.1 리스트

  • 리스트 선언
리스트명 = [요소1, 요소2, ...]
    • 리스트 요소의 접근/수정/추가/삭제

 

3.2.2 튜플

  • 튜플 선언과 요소 접근
튜플명 = {요소1, 요소2, ...}
  • 튜플의 불변성
  • 딕셔너리 선언
딕셔너리명 = {키1: 값1, 키2: 값2, ...}
  •  딕셔너리 값의 접근 및 변경
  • 딕셔너리 요소의 추가 및 삭제

 

3.2.4 세트

  • 중복을 허용하지 않아 동일한 값을 여러 번 포함할 수 없음.
  • 순서가 없는 집합으로, 세트의 요소는 특정 순서로 정렬되지 않음.
  • 데이터의 존재 여부를 빠르게 확인 가능
  • 세트는 중괄호({})를 사용해 선언, 각 요소는 쉼표(,)로 구분

세트 선언

세트명 = {요소1, 요소2, ...}
  • 세트 요소의 추가 및 삭제


 

3.3 실습: 파이썬 기본 문법과 데이터 구조 활용

3.3.1 변수와 조건문: 점수에 따른 등급 출력하기

  • 사용자 입력 받기, 조건문으로 등급 결정, 결과 출력

3.3.2 반복문: 1부터 10까지 숫자 출력하기

  • for 문 사용
  • while 문 사용

 

3.3.3 데이터 구조: 학생 성적 관리 프로그램

Part 2 - Pandas 다루기

4장 Pandas 기초 배우기

Pandas의 기본 사용법과 주요 데이터 구조 학습

4.1 Pandas 사용하기

4.1.1 라이브러리 임포트하기

import 라이브러리명
# pip 패키지 관리

# 패키지/라이브러리 설치
pip install 패키지명(또는 라이브러리 명)

# 최신 버전으로 업그레이드
pip install --upgrade 패키지명(또는 라이브러리 명)

# 불필요 패키지/라이브러리 제거
pip uninstall 패키지명(또는 라이브러리 명)

# 설치된 패키지/라이브러리 목록 확인
pip list

4.1.2 별칭 사용하기

4.2 시리즈 다루기

4.2.1 시리즈란

4.2.2 시리즈 생성하기

pd.Series(데이터)

 

4.2.3 인덱스 지정하기

pd.Series(데이터, index=인덱스)

4.2.4  데이터 접근하기

시리즈명[인덱스]

4.3 데이터프레임 다루기

4.3.1 데이터프레임이란

행과 열로 구성된 2차원 데이터 구조

  • 인덱스(index)
  • 열(column)
  • 행(row)

4.3.2 데이터프레임 생성하기

pd.DataFrame(데이터)
pd.DataFrame(데이터, index=인덱스, columns=열_이름)

 

4.3.3 실습: 특정 열 데이터 접근하기

  • 단일 열 접근하기
변수명 = df[열_이름]
  • 여러 열 접근하기
변수명 = df[[열_이름1, 열_이름2,...]]
\

4.3.4 실습: 특정 행 데이터 접근하기

  • loc 인덱서: 인덱스 이름(행의 레이블)을 사용해 데이터에 접근
변수명=df.loc[인덱스_이름]
  • iloc 인덱서:  행의 위치(0부터 시작)를 사용해 데이터에 접근
변수명.iloc[행_위치]

 

 4.3.5 실습: 특정 행과 열 데이터 한 번에 읽어 오기

  • loc 인덱서: 인덱스 이름과 열 이름을 사용해 데이터 선택
변수명.loc[인덱스_이름, 열_이름]
  • iloc 인덱서: 행과 열의 정수형 위치를 사용해 데이터를 선택
변수명.iloc[행_위치, 열_위치]

 

 

 

5장 Pandas 기능 사용하기

5.1 데이터 불러오기

5.1.1 CSV 파일 불러오기

pd.read_csv(파일_경로)

 

5.1.2 엑셀 파일 불러오기

pd.read_excel(파일_경로)

 

5.1.3 데이터 불러올 때 유용한 옵션

  • 특정 열만 불러오기
pd.함수명(파일명, usecols=열_이름)
pd.함수명(파일명, usecols=[열_이름1, 열_이름2, ...])
  • 헤더 없는 파일 불러오기

5.2 데이터 확인하기

데이터 확인이 중요한 이유

  1. 데이터의 구조 파악
  2. 데이터의 내용 파악
  3. 데이터 품질 확인
  4. 분석 방향 설정

5.2.1 초반 데이터 확인하기: head()

변수명.head()  # 처음 5개 행 출력
변수명.head(n) # 처음 n개 행 출력

5.2.2 후반 데이터 확인하기: tail()

변수명.tail()  # 마지막 5개 행 출력
변수명.tail(n) # 마지막 n개 행 출력

 

5.2.3 통계 요약하기: describe()

데이터를 간단히 요약해 한눈에 파악할 수 있도록 통계 정보를 제공.

변수명.describe()  # 기본(수치형) 통계 출력
변수명.describe(include='all')  # 전체(수치형/비수치형) 통계 출력

 

5.2.4 데이터 크기 확인하기: shape

shape는 함수가 아닌 속성(attribute) - 데이터 프레임에 포함된 변수로 볼 수 있음.  엑셀의 행, 열의 갯수를 나타냄.

5.3 개별 통계치 구하기

5.3.1 평균 구하기: mean()

변수명.mean()  # 전체 평균 계산
변수명[열_이름].mean() # 지정한 열의 평균 계산

5.3.2 최댓값 구하기: max()

변수명.max()
변수명[열_이름].max()

5.3.3 최솟값 구하기: min()

변수명.max()
변수명[열_이름).max()

5.3.4 데이터 모두 더하기: sum()

  • 문자열 데이터: 문자열을 이어 붙임
  • 불 데이터: True는 1로, False는 0으로
  • 수치형 데이터: 수치형 ㅔ이터만 합산하려면 numeric_only=True 옵션 사용
변수명.sum()
변수명.sum(numeric_only=True) # 수치형 데이터만 더하기
변수명[열_이름].sum(numeric_only=True) # 지정한 열만 더하기

5.4 객체/메서드/속성 이해하기

  1. 객체(object) - df
  2. 메서드(method) - df.head()
  3. 속성(attribute) - shape