[파이썬] 웹 크롤링 및 스크랩핑 주의사항

웹 크롤링 및 스크랩핑 시 주의사항

- 다음(Daum)

User-agent: *
Disallow: /

모든 봇들에 대해서 "/" 접근을 차단한다는 뜻입니다.

- 네이버(Naver)

User-agent: *
Disallow: /
Allow : /$

※ Allow: /

: 모든 봇들에 대해서 모든 페이지에 접근이 가능하다는 뜻입니다.

- 구글(Google)

# AdsBot
User-agent: AdsBot-Google
Disallow: /maps/api/js/

AdsBot-Google 봇만 /maps/api/js/ 접근할 수 없다는 뜻입니다. 즉 특정 봇들에 대해서도 접근 차단이 가능합니다.

- 잦은 Request 요청으로 서버 부하가 발생하지 않도록 고려해야 합니다. 제공되는 data api를 활용하면 서버에 부하를 주지 않고도 체계적으로 찾을 수 있습니다.

- 페이지 구조나 위치가 변경이 될 경우 정상적으로 동작이 되지 않을 수 있습니다.

개발자 도구 등을 이용해서 페이지 구조에 맞게 다시 수정할 필요가 있습니다.

[파이썬] 웹 크롤링 vs 웹 스크랩핑 (0)	2022.06.09
[파이썬] 에러 및 예외 처리 (0)	2022.03.25