R + Crawling (크롤링)
-
R 크롤링 R Language / R Studio 설치R + Crawling (크롤링) 2020. 2. 9. 13:02
이 페이지에서는 R language & RStudio 설치방법만 알아보겠습니다 우선 R을 설치하기 전 권장사항이 있습니다(거의 필수) 사용하시는 PC / User / 작업 폴더 이름을 영어로만 지정해주세요 R을 포함한 다른 도구를 사용할 때도 권장합니다 어떤식으로든 문제가 일어나는 부분이고 실제로 꽤 많은 오류 해결법이기도 합니다 ( Code자체는 한글을 사용해도 무방합니다. 개인적으로 가독성을 위해 한글을 많이 사용하려 합니다) 그럼 R language를 설치하겠습니다 https://www.r-project.org/로 이동합니다 R: The R Project for Statistical Computing The R Project for Statistical Computing Getting Started..
-
R 크롤링 필요 도구들 (Web crawling with R and necessary tools)R + Crawling (크롤링) 2020. 2. 7. 17:53
1. 웹 크롤링이란? 웹 크롤링은 웹 페이지에서 보이는 data(contents라고도 합니다)를 유저의 편의에 따라 수집하는 것을 말합니다 웹 크롤링 방식과 사용도구에 따라 크롤링 방식(process)은 조금씩 상이할 수 있지만 대체적으로 아래와 같은 방식을 따릅니다 (1) HTTP Request(요청) GET / POST 방식의 HTTP 통신 또는 RSelenium(셀레늄) (2) HTTP Response(응답) 응답 결과 확인(상태코드로 확인가능합니다) 응답 받은 객체를 텍스트로 출력하여 수집하려는 데이터인지 확인 (3) 데이터 추출 및 전처리 응답 받은 객체를 HTML로 변환 CSS / XPath를 이용하여 HTML 요소 위치 설정 설정한 HTML 요소 위치에서 수집하려는 데이터 추출 (주로, 텍스..