[파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 strip()으로 공백 지우기

미음제

·

2021. 2. 16. 22:03

파이썬으로 웹 스크래퍼 만들기

 

Part 1 이론

Part 2 파이썬으로 웹 스크래퍼 만들기

Part 3 Django를 사용하기 위해 알면 좋은 것

 

파이썬으로 웹 스크래퍼 만들기는 위와 같은

3개의 Part로 나누어 진행한다.

 

이 전 글 보기

2021/02/14 - [Developer/Python] - [파이썬] 파이썬으로 웹 스크래퍼 만들기, Part 2 Company 추출하기


Part 2 파이썬으로 웹 스크래퍼 만들기

title과 company를

추출하고 나서

출력해보면

다음처럼 출력된다.

 

지난 글까지의 과정에서

일자리 정보를 추출하는 for문을

새로운 함수로 정의해준다.

 

indeed.py

extract_jobs()함수

def extract_jobs(html):  # 인자로 soup을 준다.
    title = html.find("h2", {"class": "title"}).find("a")["title"]
    company = html.find("div", {"class": "sjcl"}).find("span")
    company_anchor = company.find("a")
    if company_anchor is not None:
        company = company_anchor.string
    else:
        company = company.string
    return {'title': title, 'company': company}

def extract_indeed_jobs(last_page):
    jobs = []
    # for page in range(last_page):
    result = requests.get(f"{URL}&start={0*LIMIT}")
    soup = BeautifulSoup(result.text, 'html.parser')
    results = soup.find_all("div", {"class": "jobsearch-SerpJobCard"})
    for result in results:
        job = extract_jobs(result)
        print(job)
    return jobs

그러고 나서 출력해보면

다음과 같이

dictionary의 형태로

출력된다.

 

company옆에

\n이 출력되는데

줄 바꿈 공백을 제거하기 위해

strip()함수를 사용한다.

 

extract_jobs()함수에서

company = company.strip()

strip()함수를 통해

공백이 제거된 상태로

출력된 것을 확인할 수 있다.

 

 

반응형