분류 전체보기
-
R 크롤링 뽐뿌 (ppomppu) GET / POST + Selenium (셀레니움)R + Crawling (크롤링) 2020. 2. 23. 14:39
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 뽐뿌 사이트를 크롤링 하도록 하겠습니다 검색 키워드는 "갤럭시 폴드"로 하겠습니다 http://www.ppomppu.co.kr/index.php 뽐뿌 사람이 좋아 함께하는 곳... 뽐뿌! 쇼핑특가, 휴대폰 정보의 중심지 www.ppomppu.co.kr "갤럭시 폴드"를 검색합시다 아래와 같은 검색 결과가 ..
-
R 로 좋아하는 노래가사( lyrics ) 텍스트 마이닝 ( text mining ) 하기 + 의미연결망 분석(Semantic Network Analysis)R + Textmining (텍스트마이닝) 2020. 2. 20. 14:13
필요 라이브러리(library) library(base64enc) library(arules) library(KoNLP) library(NIADic) library(RmecabKo) library(tidyverse) library(igraph) #### 의미연결망 (Semantic Network Analysis)란? 언어 네트워크 분석이라고도 하는 의미연결망 분석은 사회현상을 탐구하는 데 있어 행위자들의 관계 구조를 통해 특징을 밝혀내는 사회연결망 분석(Social Network Analysis)를 활용한 기법으로 행위자의 대상이 아닌 그들의 언어를 분석하여 단어간의 상호작용 관계 구조를 분석하는 것을 말합니다 (출처 : 빅데이터 관련 신문기사의 의미연결망 분석_최윤정, 권상희) 굉장히 어려울 수도 있는..
-
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 ( text mining ) 하기 + 연관 분석 ( Association Rules )R + Textmining (텍스트마이닝) 2020. 2. 19. 14:52
필요 라이브러리(library) library(base64enc) library(arules) library(KoNLP) library(NIADic) library(RmecabKo) library(rtweet) library(tidyverse) library(igraph) library(twitteR) 앞에 게시글에서 추출한 게시글 데이터는 https://r-pyomega.tistory.com/16?category=875331 R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 트윗 크롤링 (Crawling) 우리나라에서는 다소 제한적으로 사용되어지지만, 좋아하는 연예인(특히, 아이돌)의 소식을 알고 싶거나 팬들끼리 소통할 때 트위터(twitter..
-
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 워드 크라우드 (wordcloud)R + Textmining (텍스트마이닝) 2020. 2. 14. 18:38
필요 라이브러리(library) library(base64enc) library(KoNLP) library(NIADic) library(RmecabKo) library(rtweet) library(tidyverse) library(igraph) library(twitteR) #### KoNLP 사전작업 install_mecab("C:/Rlibs/mecab") devtools::install_github('haven-jeon/NIADic/NIADic', build_vignettes = TRUE) Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_241') buildDictionary(ext_dic = "woorimalsam") useNIADic() 앞에 게시글에..
-
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 트윗 크롤링 (Crawling)R + Textmining (텍스트마이닝) 2020. 2. 14. 17:22
우리나라에서는 다소 제한적으로 사용되어지지만, 좋아하는 연예인(특히, 아이돌)의 소식을 알고 싶거나 팬들끼리 소통할 때 트위터(twitter)는 아마도 오늘날 가장 많이 활용하는 SNS일겁니다. 서양권과 특히, 일본에서 가장 보편적으로 사용하는 SNS이기도 한 트위터는 그 특성(retweet)때문에 온라인 상에서 가장 많은 데이터를 생산하는 어플리케이션 중 하나라고 생각이 됩니다 이번 게시글에서는 트위터로 좋아하는 연예인을 게시글을 모으는 방법과 이를 활용하여 시각화까지 해보도록 합시다 (이번글은 한글만 하겠습니다. 영어는 아직 다 코딩을 못했네요 중간에 막혀서...) 필요한 library는 아래와 같습니다 미처 언급하지 못한 library와 package는 그때그때 처리해주시길 바랍니다 library(..
-
KoNLP package install error 패키지 설치 오류 (2020. 1. 15. 이후) 및 해결방법R + Textmining (텍스트마이닝) 2020. 2. 12. 17:00
현재 한글 텍스트 마이닝에서 가장 사랑받는(아니 거의 필수인) "KoNLP" package가 코드 내부적인 문제로 CRAN에서 삭제되었습니다 몇년간 의심없이 써온 package가 삭제되었다는 사실에 적잖이 당황했습니다만.. 구글링으로 여러 고수님들의 도움을 받아 간신히 해결하였습니다 (실제로는 https://cran.r-project.org/src/contrib/Archive/KoNLP/ 에 아카이브 되어있는 상태입니다만 일반적인 방법인 install.package()로는 설치가 불가합니다) Index of /src/contrib/Archive/KoNLP cran.r-project.org 참조한 방법을 소개합니다 1. github버전으로 설치(저는 이 방법으로 해결하지 못했습니다) https://www...
-
R 크롤링 클리앙(Clien) GET / POST + Selenium (셀레니움)R + Crawling (크롤링) 2020. 2. 11. 17:01
클리앙에서 "갤럭시 폴드" 통합검색 결과를 크롤링 해보겠습니다 크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 클리앙에 접속하여 통합검색 창에 "갤럭시 폴드"를 검색합니다 https://www.clien.net/service/search?q=갤럭시%20폴드 클리앙 : 검색 통합검색결과 ※ 검색결과 목록의 게시판명을 클릭하면 해당 게시판의 상세검색을 할 ..
-
R 크롤링 디시인사이드 (DC Inside) GET / POST 방식R + Crawling (크롤링) 2020. 2. 10. 13:25
#### 각키갤 GET/POST방식 링크_각키 % html_nodes("span.title_subject") %>% html_text() if (length(제목.각키.tmp) == 0) { 제목_각키 % html_nodes("span.nickname") %>% html_nodes("em") %>% html_text() if (length(제목.각키.tmp) == 0) { 작성자_각키 % html_text() if (length(날짜.각키.tmp) == 0) { 날짜_각키 % html_text() if (length(본문.각키.tmp) == 0) { 본문_각키