본문 바로가기
CRAWLING + DISCORD BOT

프로젝트(2)_파이썬 웹 크롤링_개발환경설치

by olbiizl_ 2021. 9. 30.

 

본격적으로 저희 프로젝트의 결과물이 생성된 과정에 대하여 

설명하는 글을 쓰려고 합니다.

저와 비슷한 프로젝트를 진행하는 분들은 제 게시물 잘 따라와보세요 !


웹 크롤링(Web Crawling)이란 ?

컴퓨터 소프트웨어 기술로, 웹 사이트에서 원하는 정보를 추출하는 것

 

저희는 웹 크롤링이라는 방법으로 이캠퍼스 페이지에서 필요한 부분만 추출할 것입니다. 

크롤링의 방법에는 여러가지가 존재하는데 그 중에서

HTML 페이지를 파싱하고,

필요한 데이터만 추출하는 기법 을 사용할게요.

(파싱 : 어떤 페이지에서 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것)

 

HTML 페이지를 파싱하는 방법으로 크롤링을 하기 위해서는

크롤링할 페이지의 html 파일이 있어야 합니다.

원하는 페이지에서 F12 버튼만 누른다면 html 파일이 들어있는 콘솔창이 뜹니다.


(왼쪽)페이지 (오른쪽)콘솔창

앞으로 이 콘솔창을 통해 크롤링을 진행할거예요.


(왼쪽)페이지 (오른쪽)콘솔창

상단의 화살표 버튼을 누르면 페이지에서 원하는 위치를 클릭했을 때,

콘솔창에서 해당 부분의 html 태그를 보여주게 됩니다.

이 태그를 추출해오는 방식으로 크롤링을 진행하게 됩니다.


크롤링을 하려면 개발환경을 설치해야 합니다.

 

1. 파이썬 설치

저희는 파이썬 웹 크롤링을 진행하기 때문에 가장 기본적인

파이썬이 설치되어있어야 합니다. 없다면 아래의 링크에서 최신 버전 설치 !

https://www.python.org/

 

Welcome to Python.org

The official home of the Python Programming Language

www.python.org


2. BeautifulSoup4 라이브러리 설치

 

BeautifulSoup4 : 파이썬으로 웹을 크롤링해서 파싱할 수 있게 만들어주는 오픈소스 라이브러리

 

py -m pip install Beautifulsoup4

CMD(명령 프롬프트 창)에서

파이썬이 설치되어 있는 경로로 이동한 후[ex) cd ./python.exe ]

위의 코드를 입력하면 BeautifulSoup4 라이브러리가 설치됩니다.

 

이 때, WARNING : You are using pip version --- 의 오류가 발생한다면

pip의 버전이 낮기 때문이므로 아래의 코드를 입력하고 다시 설치해주시면 됩니다.

py -m pip install --upgrade pip


3. Requests 모듈 설치

 

py -m pip install requests

 

Requests : 파이썬용 HTTP 라이브버리 (아래의 코드로 requests모듈을 설치해주세요 !)

 

HTTP란 HTML 문서와 같은 리소스를 가져올 수 있도록 도와주는 프로토콜로

HTTP의 대표적인 요청방식에는 GETPOST가 있습니다.

 

GET 메소드 : 클라이언트가 서버로 리소스로부터 정보를 요청하기 위해 사용

POST 메소드 : 클라이언트가 서버로 리소스를 생성 or 업데이트 하기 위해 데이터 전송에 사용

 

GET 메소드는 서버로 정보를 요청할 때 URL에 변수(데이터)를 포함시켜 요청하는 반면,

POST 메소드는 URL에 변수(데이터)를 노출하지 않고 요청합니다.

URL로 정보가 넘어가는 과정에서 개인정보와 같은 중요한 정보를 GET 방식으로 전송하면

그대로 노출되는 문제가 발생할 수 있기 때문에 POST 메소드GET 메소드에 비해 보안에 더 강합니다.

 

크롤링의 과정에서 우리는 이캠퍼스의 개인정보를 데이터 변수에 넣어줄 예정이기 때문에 

보안에 더 강한 POST 메소드를 사용하는 HTTP 라이브러리를 활용하겠습니다.


Beautifulsoup4 라이브러리와 Requests 모듈을 설치했다면

웹 크롤링을 하기 위한 준비는 완료되었습니다.

설치된 두 개의 개발환경을 사용하기 위해서는 사용하겠다는 선언을 해줘야겠죠?

import requests    #requests 모듈 선언
from bs4 import Beautifulsoup as bs  #Beautifulsoup4 라이브러리 선언 (Beautifulsoup 대신 bs 사용)

위 코드를 통해 라이브러리와 모듈을 import하면 본격적으로 웹 크롤링을 시작할 수 있습니다.


이렇게 설치한 개발환경을 바탕으로 차근차근 HTML 태그를 찾아 우리에게 필요한

강의진도현황과 과제제출현황 만을 추출해내보겠습니다.

본격적인 웹 크롤링 과정은 다음 게시물에서 확인해주세요!

 

오늘도 💙많관부💙


오늘도 역시나 제 플메 햄의 블로그도 가져와봤어요

정말 더더욱 자세하답니다. CLICK 👇👇

https://blog.naver.com/hyunbini02/222521458269

 

프로젝트(1)_파이썬 웹 크롤링(Web Crawling) 시작하기

안녕하세요! 프로젝트 첫 번째 글, 파이썬 웹 크롤링에 대해 본격적으로 글을 써보도록 하겠습니다!! 현재 ...

blog.naver.com

 

반응형