셀레니움 크롤러 기본 사용법

셀레니움 전반에 관하여 간략하게 정리한다. 이 문서는 셀레니움 버전 3 기준이다. 최근 4버전이 출시되었으나 사용방법이 약간 다르니 이 부분을 확인하길 바란다. 사용 방법이나 예시는 따로 링크를 남기고 꾸준히 업데이트 하도록 하겠다. 아래 기능들만 익히면 웹상의 원하는 거의 대부분의 업무의 자동화가 가능할 것이다. 이하는 최신버전을 기준으로 코드를 정리하였다. 목차 셀레니움 소개 설치 – install 드라이버 – … Read more

데스크탑에 있는 파일을 셀레니움에 드래그 앤 드롭하는 방법

PC에 있는 파일을 업로드등을 할 때 셀레니움에 드래그 앤 드롭해야할 때가 있다. 파이썬에서 자동으로 할 수 있는 방법을 인터넷을 찾던 중 아주 좋은 소스를 발견하여 올린다. 리스트 형식으로 여러개의 파일을 올릴 수도 있다. 출처 : https://gist.github.com/florentbr/349b1ab024ca9f3de56e6bf8af2ac69e  

셀레니움 웹 크롤링 봇 탐지 우회 2탄 네이버 로그인 캡차 피하기

이 글은 지난 시간에 다룬 셀레니움 웹 크롤링 봇 탐지 우회 글을 기초로 하고 있으니 처음 오신 분들은 위 글을 먼저 보길 권한다. 네이버에서 로그인을 시도하면 로봇임을 탐지하는 캡차(captcha) 가 뜬다. 이를 뜨지 않게하고 네이버에 온전히 로그인하는 방법을 소개한다. 목차 네이버 로그인 캡챠가 뜨는 이유 캡챠가 안뜨게 하는법 복붙 크롬 자동 계정 입력 이용   … Read more

셀레니움 웹 크롤링 봇 탐지 우회

셀레니움을 사용하다보면 어떤 웹사이트에서는 작동이 되지 않거나, 혹은 봇이 탐지되었다고 거부를 당하는 일이 있다. 셀레니움 웹 크롤링 봇 탐지 우회하는 방법을 찾아 이곳까지 왔다면 정말 제대로 찾아왔다. 웹사이트마다 접속자 Bot이라고 인식하는 방법은 여러가지가 있기 때문에 웹사이트마다 봇으로 인식되어 거부당하는 것을 하나로 설명할 수 없다. 다만! 봇으로 인식되지 않게 하는 해결책은 이 글 하나로 90%를 커버할 … Read more

셀레니움 설치와 크롬 드라이버 자동 처리

셀레니움을 사용할 때는 드라이버가 필요하다. 파이어폭스는 geckodriver, 크롬은 chromedriver, 그외 PhantomJS 등 브라우저마다 각각의 드라이버가 필요하다. 이 드라이버는 버전이 업그레이드 될때마다 번거롭게 다운 받아주어야 하는데 파이썬 코드로 이러한 번거로움을 날려버릴 수 있다. 이 글은 우리가 가장 많이 사용하는 구글의 크롬(chrome)을 기준으로 설명한다. 목차 셀레니움 크롤링 소개 설치 크롬드라이버 다운로드 자동다운로드 처리 코드 셀레니움 크롤링 소개 … Read more

셀레니움 wait 개념 이해하기 (implicitly wait VS explicitly wait)

이 문서는 셀레니움 wait 에 관한 implicitly wait 와 explicitly wait 에 대해서 다루고 있습니다. 셀레니움 사용법 전반에 대해서 알아보시려면 셀레니움 크롤러 기본 사용법을 확인하시기 바랍니다. 목차 셀레니움 wait 의 개념 implicitly Wait VS Explicitly Wait time.sleep Implicitly Wait Explicitly Wait 셀레니움 wait 의 개념 wait 는 말 그대로 ‘기다리라’는 뜻이다. 초보자들이 wait 의 개념을 … Read more