지마켓 컴퓨터/가전 부분 베스트 상품 타이틀과 가격 추출하기
import requests
from bs4 import BeautifulSoup
res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06') : 어디에서 어떻게 페이지 주소가 달라지는지도 유심히 보기
soup = BeautifulSoup(res.content, 'html.parser')
bestitem = soup.select('div.best-list li') : 집합 관계에서 A에 대한 abc추출, B에 대한 abc추출 이렇게 하려면 크게 A B C ... 를 추출한 후에 각각에서 abc를 뽑아내야 하기 때문에 상하위 구조 잘 보고 태그 결정하기
for i in bestitem :
name = i.select_one('a.itemname')
price = i.select_one('.item_price strong') : 가격이라도 정가, 세일가 등등 다를 수 있으므로 공통되는 것이 뭔지 정확히 알기
print(name.get_text() , price.get_text())
상품 상세 페이지의 판매업체까지 추출하기
import requests
from bs4 import BeautifulSoup
res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06')
soup = BeautifulSoup(res.content, 'html.parser')
bestitem = soup.select('div.best-list li')
for i in bestitem :
name = i.select_one('a.itemname')
price = i.select_one('.item_price strong')
res_info = requests.get(name['href']) : name태그 하위에 각 상세페이지 주소 있고, 그거 가져오려면 ['하위태그']
soup_info = BeautifulSoup(res_info.content, 'html.parser')
seller = soup_info.select_one('span.text__seller > a')
print(name.get_text() , price.get_text(), seller.get_text())
엑셀 파일로 정리하기
import requests
from bs4 import BeautifulSoup
import openpyxl
'크롤링 > 기본 문법' 카테고리의 다른 글
[크롤링 기본] 정규표현식 (0) | 2022.08.20 |
---|---|
[크롤링 기본] JSON 포맷과 XML 포맷 (0) | 2022.08.15 |
[크롤링 기본] Open/Rest API (0) | 2022.08.15 |
[크롤링 기본] 엑셀 파일로 저장하기 (0) | 2022.08.12 |
[크롤링 기본] HTTP response code (0) | 2022.08.12 |