[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 requests 모듈 설치 / Beautiful Soup 모듈 설치

Developer/Python - 웹 스크래핑

[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 requests 모듈 설치 / Beautiful Soup 모듈 설치

미음제

2021. 2. 4. 22:04

파이썬으로 웹 스크래퍼 만들기

Part 1 이론

Part 2 파이썬으로 웹 스크래퍼 만들기

Part 3 Django를 사용하기 위해 알면 좋은 것

파이썬으로 웹 스크래퍼 만들기는 위와 같은

3개의 Part로 나누어 진행한다.

이 전 글 보기

2021/02/04 - [Developer/Python] - [파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 웹 스크래핑이란

Part 2 파이썬으로 웹 스크래퍼 만들기

웹 스크래퍼를 만들기 위한

단계는 다음과 같다.

1. url로 접근(python을 통해)

2. 페이지 수 파악, 각 페이지에 하나씩 들어가기

(검색 조건, 몇 개가 검색될지 설정)

3. indeed 정보 추출 후 stackoverflow 추출

(번갈아가며 x)

4. 가져온 정보 엑셀 시트에 정리

정보를 추출하기위해

라이브러리나 모듈을 사용할 수 있는데

requests라는 모듈을 사용한다.

Requests

requests.readthedocs.io/en/master/

Requests: HTTP for Humans™ — Requests 2.25.1 documentation

Requests: HTTP for Humans™ Release v2.25.1. (Installation) Requests is an elegant and simple HTTP library for Python, built for human beings. Behold, the power of Requests: >>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) >>> r.

requests.readthedocs.io

Requests 설치 방법

python -m pip install requests

requests를 사용하는 방법은

다음에서 자세히 살펴볼 수 있다.

github.com/psf/requests

psf/requests

A simple, yet elegant HTTP library. Contribute to psf/requests development by creating an account on GitHub.

github.com

웹 스크래퍼를 만들기 위해서

requests를 import 한 후

결과를 저장할 변수를 선언한다.

import requests

결과를 담을 변수 = requests.get('복사한 url')

.get() 함수는

requests의 object안에 있는

function이다.

indeed에서 정보를

추출해야 하기 때문에

다음과 같이 코드를 작성한다.

import requests

indeed_result = requests.get(
    'https://kr.indeed.com/%EC%B7%A8%EC%97%85?q=%ED%8C%8C%EC%9D%B4%EC%8D%AC&limit=50')

그리고 print를 해보면

추출한 정보를 확인할 수 있다.

print(indeed_result.text)

이렇게 결과 뒤에 .text를 붙여주면

그 결과의 html 전체를 가져온다.

여기서 추출한 html에서

정보를 추출하는 것이다.

Beautiful Soup

www.crummy.com/software/BeautifulSoup/bs4/doc/

Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation

Non-pretty printing If you just want a string, with no fancy formatting, you can call str() on a BeautifulSoup object (unicode() in Python 2), or on a Tag within it: str(soup) # ' I linked to example.com ' str(soup.a) # ' I linked to example.com ' The str(

www.crummy.com

Beautiful Soup은

html에서 정보를 추출하기 위한

package이다.

Beautiful Soup 설치방법

pip install beautifulsoup4

스크래퍼를 만들기 위한

모듈과 패키지는 설치 완료했다.

다음엔 우리의 코드가

정보를 추출해 올 url에서

몇 개의 페이지가 있는지

알 수 있게 해주도록 한다.

'Developer > Python - 웹 스크래핑' 카테고리의 다른 글

[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 정보 추출 Extracting 2 (0)	2021.02.09
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 정보 추출 Extracting (0)	2021.02.04
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 웹 스크래핑이란 (0)	2021.02.04
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 1 Modules(모듈) (0)	2021.02.02
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 1 조건문, for 루프 (0)	2021.02.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

개발이 하고싶은, 첼시를 좋아하는