본문 바로가기
Programming 개발은 구글로/Python

[파이썬] 웹 크롤링 및 스크랩핑 주의사항

by 40대직장인 2022. 6. 10.

웹 크롤링 및 스크랩핑 시 주의사항

1. 웹 크롤링 권한 확인(robots.txt)

 - 다음(Daum)

User-agent: *
Disallow: /

모든 봇들에 대해서 "/" 접근을 차단한다는 뜻입니다.

 

 - 네이버(Naver)

User-agent: *
Disallow: /
Allow : /$ 

※ Allow: / 

: 모든 봇들에 대해서 모든 페이지에 접근이 가능하다는 뜻입니다.

 

 - 구글(Google)

# AdsBot
User-agent: AdsBot-Google
Disallow: /maps/api/js/

AdsBot-Google 봇만 /maps/api/js/ 접근할 수 없다는 뜻입니다. 즉 특정 봇들에 대해서도 접근 차단이 가능합니다.

2. 크롤러 분류 

  • 상태 유무 - 로그인등의 상태 확인
  • Javascript 유무 - Javascript 사용 가능

3. 서버 부하

 - 잦은 Request 요청으로 서버 부하가 발생하지 않도록 고려해야 합니다. 제공되는 data api를 활용하면 서버에 부하를 주지 않고도 체계적으로 찾을 수 있습니다.

4. 콘텐츠 저작권

 - 특정 이미지, 논문, 음성 데이터 등 저작권 확인이 필요합니다. 특히 상업적으로 사용 시 주의가 필요합니다.

5. 페이지 구조 변경 가능성

 -  페이지 구조나 위치가 변경이 될 경우 정상적으로 동작이 되지 않을 수 있습니다.

개발자 도구 등을 이용해서 페이지 구조에 맞게 다시 수정할 필요가 있습니다.

 

 

 

2022.06.09 - [Programming Python[파이썬]] - [파이썬] 웹 크롤링 vs 웹 스크랩핑

 

 

 

댓글