분류 전체보기
-
R 크롤링 디시인사이드 (DC Inside) GET / POST + Selenium (셀레니움)R + Crawling (크롤링) 2020. 2. 10. 10:49
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 이외에도 더 필요한 패키지 및 라이브러리는 그때 그때 언급하겠습니다. 사실 R로 다양한 작업을 하다보면 필요한 라이브러리는 구분하지 않고 Rstudio를 실행할때 한꺼번에 불어오는 편입니다.(시간도 많이 걸리지 않아 굳이 구분하는 것보다는 편리하기 때문이죠. 저 같은 경우는 50개 가까운 라이브러리를 불러..
-
R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기R + Crawling (크롤링) 2020. 2. 9. 15:42
R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tistory.com/6 를 참고해주시길 바랍니다 Java설치 이후에 C드라이브에 r-selenium폴더를 만들어 아래 3파일을 다운 받습니다 (폴더 이름을 r-selenium로 지정하였습니다. 이름은 상관없지만 가능하면 C드라이브에 지정하는것 편리합니다) Selenium standalone server gecko driver chrome driver 1. Selenium이란? Selenium의 정의는 구글링으로 찾아보실 수 있을겁니다. 해당 분야 전문가가 아니라면 단순하게 셀레니움은 "브라우저(browser) 자동화"를 가능하게 하는 프로그램이라 생각하시면 됩니다. 굉장히 흉악한 성능을 발휘합..
-
R 크롤링 rjava 설치하기R + Crawling (크롤링) 2020. 2. 9. 14:32
1. Java 설치 R language를 사용하기 위해서 종종 Java가 필요할 때가 있습니다 Selenium이나 한글 자연어 분석 package인 KoNLP을 사용할 때도 필수입니다 (package는 R의 특정 기능을 활용하기 위한 "도구모음"이라고 생각하시면 됩니다) 그럼 Java를 다운 받습니다 1) Java 다운받기 https://www.java.com/ko/download/manual.jsp 에 접속하여 Java를 다운받습니다 모든 운영 체제용 Java 다운로드 모든 운영 체제용 Java 다운로드 권장 사항 Version 8 Update 241 릴리스 날짜: 2020년 1월 14일 Oracle Java 중요 라이센스 업데이트 Oracle Java 라이센스는 2019년 4월 16일 릴리스부터 변경..
-
R 크롤링 R Language / R Studio 설치R + Crawling (크롤링) 2020. 2. 9. 13:02
이 페이지에서는 R language & RStudio 설치방법만 알아보겠습니다 우선 R을 설치하기 전 권장사항이 있습니다(거의 필수) 사용하시는 PC / User / 작업 폴더 이름을 영어로만 지정해주세요 R을 포함한 다른 도구를 사용할 때도 권장합니다 어떤식으로든 문제가 일어나는 부분이고 실제로 꽤 많은 오류 해결법이기도 합니다 ( Code자체는 한글을 사용해도 무방합니다. 개인적으로 가독성을 위해 한글을 많이 사용하려 합니다) 그럼 R language를 설치하겠습니다 https://www.r-project.org/로 이동합니다 R: The R Project for Statistical Computing The R Project for Statistical Computing Getting Started..
-
Crawling with python 3 준비(1)Python 2020. 2. 9. 00:48
1. 웹 크롤링이란? 리서치의 영역에서 정보를 수집하는 것은 기본 중에 기본입니다. 우리는 단순하게 데스크 리서치를 통해 정보를 수집할 수도 있습니다만, 그러한 단순 작업을 반복하는 것은 그 누구도 원하지 않습니다. 웹 크롤링은 웹 사이트에 있는 정보들에 쉽게 수집할 수 있는 자동화 기술을 의미합니다. 2. 웹 크롤링의 필요성 예를 들어보죠. 우리는 '2020년 1월 한 달간 있었던 이슈'를 정리하고 싶습니다. 그러기위해 '각 신문사에서 나왔던 뉴스'를 수집하여 정리하기로 합니다. 각 신문사 별 사이트에 들어가서, 최대한 제목만 보고 자료를 모으는데, 처음 100개까지는 어렵지 않았는데, 1000개가 되고 10000개가 되니 힘들고, 지루하고, 회의감이 듭니다. 웹 크롤링은 이럴 때 필요합니다. 컴퓨터가..
-
R 크롤링 필요 도구들 (Web crawling with R and necessary tools)R + Crawling (크롤링) 2020. 2. 7. 17:53
1. 웹 크롤링이란? 웹 크롤링은 웹 페이지에서 보이는 data(contents라고도 합니다)를 유저의 편의에 따라 수집하는 것을 말합니다 웹 크롤링 방식과 사용도구에 따라 크롤링 방식(process)은 조금씩 상이할 수 있지만 대체적으로 아래와 같은 방식을 따릅니다 (1) HTTP Request(요청) GET / POST 방식의 HTTP 통신 또는 RSelenium(셀레늄) (2) HTTP Response(응답) 응답 결과 확인(상태코드로 확인가능합니다) 응답 받은 객체를 텍스트로 출력하여 수집하려는 데이터인지 확인 (3) 데이터 추출 및 전처리 응답 받은 객체를 HTML로 변환 CSS / XPath를 이용하여 HTML 요소 위치 설정 설정한 HTML 요소 위치에서 수집하려는 데이터 추출 (주로, 텍스..