[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 strip()으로 공백 지우기
미음제
·2021. 2. 16. 22:03
파이썬으로 웹 스크래퍼 만들기
Part 1 이론
Part 2 파이썬으로 웹 스크래퍼 만들기
Part 3 Django를 사용하기 위해 알면 좋은 것
파이썬으로 웹 스크래퍼 만들기는 위와 같은
3개의 Part로 나누어 진행한다.
이 전 글 보기
2021/02/14 - [Developer/Python] - [파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 Company 추출하기
Part 2 파이썬으로 웹 스크래퍼 만들기
title과 company를
추출하고 나서
출력해보면
다음처럼 출력된다.
지난 글까지의 과정에서
일자리 정보를 추출하는 for문을
새로운 함수로 정의해준다.
indeed.py
extract_jobs()함수
def extract_jobs(html): # 인자로 soup을 준다.
title = html.find("h2", {"class": "title"}).find("a")["title"]
company = html.find("div", {"class": "sjcl"}).find("span")
company_anchor = company.find("a")
if company_anchor is not None:
company = company_anchor.string
else:
company = company.string
return {'title': title, 'company': company}
def extract_indeed_jobs(last_page):
jobs = []
# for page in range(last_page):
result = requests.get(f"{URL}&start={0*LIMIT}")
soup = BeautifulSoup(result.text, 'html.parser')
results = soup.find_all("div", {"class": "jobsearch-SerpJobCard"})
for result in results:
job = extract_jobs(result)
print(job)
return jobs
그러고 나서 출력해보면
다음과 같이
dictionary의 형태로
출력된다.
company옆에
\n이 출력되는데
줄 바꿈 공백을 제거하기 위해
strip()함수를 사용한다.
extract_jobs()함수에서
company = company.strip()
strip()함수를 통해
공백이 제거된 상태로
출력된 것을 확인할 수 있다.
반응형
'Developer > Python - 웹 스크래핑' 카테고리의 다른 글
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 id 추출하기 (0) | 2021.02.16 |
---|---|
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 Location 추출하기 (0) | 2021.02.16 |
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 Company 추출하기 (0) | 2021.02.14 |
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 Title 추출하기 (0) | 2021.02.14 |
[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 페이지 요청 (0) | 2021.02.09 |