웹 크롤링 및 스크랩핑 시 주의사항
1. 웹 크롤링 권한 확인(robots.txt)
- 다음(Daum)
User-agent: * Disallow: / |
모든 봇들에 대해서 "/" 접근을 차단한다는 뜻입니다.
- 네이버(Naver)
User-agent: * Disallow: / Allow : /$ |
※ Allow: /
: 모든 봇들에 대해서 모든 페이지에 접근이 가능하다는 뜻입니다.
- 구글(Google)
# AdsBot User-agent: AdsBot-Google Disallow: /maps/api/js/ |
AdsBot-Google 봇만 /maps/api/js/ 접근할 수 없다는 뜻입니다. 즉 특정 봇들에 대해서도 접근 차단이 가능합니다.
2. 크롤러 분류
- 상태 유무 - 로그인등의 상태 확인
- Javascript 유무 - Javascript 사용 가능
3. 서버 부하
- 잦은 Request 요청으로 서버 부하가 발생하지 않도록 고려해야 합니다. 제공되는 data api를 활용하면 서버에 부하를 주지 않고도 체계적으로 찾을 수 있습니다.
4. 콘텐츠 저작권
- 특정 이미지, 논문, 음성 데이터 등 저작권 확인이 필요합니다. 특히 상업적으로 사용 시 주의가 필요합니다.
5. 페이지 구조 변경 가능성
- 페이지 구조나 위치가 변경이 될 경우 정상적으로 동작이 되지 않을 수 있습니다.
개발자 도구 등을 이용해서 페이지 구조에 맞게 다시 수정할 필요가 있습니다.
2022.06.09 - [Programming Python[파이썬]] - [파이썬] 웹 크롤링 vs 웹 스크랩핑
'Programming 개발은 구글로 > Python' 카테고리의 다른 글
[파이썬] 웹 크롤링 vs 웹 스크랩핑 (0) | 2022.06.09 |
---|---|
[파이썬] 에러 및 예외 처리 (0) | 2022.03.25 |
댓글