본문 바로가기

Programming 개발은 구글로/Python3

[파이썬] 웹 크롤링 및 스크랩핑 주의사항 웹 크롤링 및 스크랩핑 시 주의사항 1. 웹 크롤링 권한 확인(robots.txt) - 다음(Daum) User-agent: * Disallow: / 모든 봇들에 대해서 "/" 접근을 차단한다는 뜻입니다. - 네이버(Naver) User-agent: * Disallow: / Allow : /$ ※ Allow: / : 모든 봇들에 대해서 모든 페이지에 접근이 가능하다는 뜻입니다. - 구글(Google) # AdsBot User-agent: AdsBot-Google Disallow: /maps/api/js/ AdsBot-Google 봇만 /maps/api/js/ 접근할 수 없다는 뜻입니다. 즉 특정 봇들에 대해서도 접근 차단이 가능합니다. 2. 크롤러 분류 상태 유무 - 로그인등의 상태 확인 Javascri.. 2022. 6. 10.
[파이썬] 웹 크롤링 vs 웹 스크랩핑 웹 크롤링 vs 웹 스크랩핑 1. 웹 크롤링(Crawling) 방대한 범위에서 데이터를 정해진 규칙대로 수집, 데이터의 양을 우선으로 한다. 웹 크롤러(자동화 봇)가 일정규칙으로 웹페이지 탐색 ※ 웹 크롤러: 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색하면서 스스로 웹 페이지를 탐색할 수 있는 프로그램 2. 웹 스크랩핑(Scraping) 작은 범위에서 타켓이 되는 데이터를 명확하게 수집한다. 웹 사이트 상에서 원하는 정보를 추출하는 기술로 특정 웹 사이트 또는 페이지에서 특정 정보 검색 🟩 크롬 개발자 도구 크롬 오른쪽 상단 더보기 탭 - 도구 더보기 - 개발자 도구(Ctrl+Shift+i) CSS Selector - Elements Tab HTTP 처리과정 - Network Tab 2022. 6. 9.
[파이썬] 에러 및 예외 처리 파이썬 에러 및 예외 처리 문법적으로 에러가 없지만, 코드 실행(런타임) 프로세스에서 발생하는 예외 처리도 중요함. linter: 소스 코드를 분석해 오류나 오타, 잠재적인 버그를 찾아주는 도구이다. # 예외 종류 - SyntaxError: 문법 오류 - NameError: 참조 변수가 없는 경우 발생 - ZeroDivisionError: 0으로 나누는 경우 발생 - IndexError(Index out of range): 인덱스 범위 Over - KeyError: 정의되지 않은 Key 조회 시 발생 - AttributeError: Module, Calss 잘못된 속성 사용 시 발생 - ValueError : 참조값이 없는 경우 발생 - FileNotFoundError: no serarch file or.. 2022. 3. 25.
728x90