
https://www.yes24.com/product/goods/142258696
혼자 만들면서 공부하는 파이썬 - 예스24
“파이썬을 배워서 어디에 활용할 수 있을지 궁금했나요?”나의 신용카드 내역 분석, 우리 아파트 실거래가 시각화해보기, 맛집 지도 웹 앱 만들기 등 생활 속 15가지 파이썬 프로젝트를 직접 완
www.yes24.com
✅혼자 만들면서 공부하는 파이썬
| # | 진도 | 기본 숙제(필수) | 추가 숙제(선택) |
| 6주차 (8/11 ~ 8/17) |
Chapter 13 | Ch.13(13-3) 웹 크롤링으로 HTML에서 기사 텍스트 추출하기 | Ch.13(13-3) AI 기반의 기사 번역 앱 만들기(p.415~) |
기본 숙제(필수) - Ch.13(13-3) 웹 크롤링으로 HTML에서 기사 텍스트 추출하기





추가 숙제(선택) - Ch.13(13-3) AI 기반의 기사 번역 앱 만들기(p.415~)


Chapter 13. 생성형 AI 기사 번역 앱
13-3. 기사 번역 웹 앱 만들기
- 웹 크롤링: 웹사이트 전체 구조를 파학하고 주로 검색엔진에서 대규모 데이터 수집
- 웹 스크레이핑: 특정 페이지에서 필요한 정보를 선별적으로 추출
- trafilatura 패키지: 웹 크롤링과 웹 스크레이핑에 사용. 특히 HTML 문서에서 텍스트를 효율적으로 추출. playwright 패키지의 경우 브라우저 개발자 도구를 사용해 추출찰 텍스트의 HTML 요소를 분석해야 했으나, trafilatua는 이러한 분석 과정을 생략할 수 있어 원하는 데이터를 더 쉽게 추출가능.
__텍스트 추출하기
trafilatura 패키지가 제공하는 몇 가지 함수
- fetch_url(): 주어진 URL에 접속하여 HTML을 수집
- extract(): 주어전 HTML에서 텍스트를 추출
- extract_metadata(): 주어진 HTML에서, 제목, 작성자, 이미지 등 메타데이터를 추출





__기사 번역 웹 앱 만들기



