아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(profileR) #### 두 집단(Group 1, Group 2)에 대한 공변량을 제외한 MANOVA의 결과를 요약하라 실습에 사용할 데이터를 불러오겠습니다 stu % head() student 데이터는 공변량으로 5개영역(N,S,NS,NA,SS)와 표준화 검사(PPVT, RPMT, SAT)로 구성되어 있습니다 바로 공변량을 MANOVA 결과를 뽑아보도록 하겠습니다 가장 많이 사용하는 검정방법인 "Wilks", "Pillai", "Hotelling-Lawley", "Roy" 모두 사용해봅시다 stu_..
교차분석은 검증하고자 하는 변수가 모두 범주형자료(categorical data) 일 때, 두 변수 간 연관성을 판단하는 분석입니다 설문지 데이터를 분석하는데 있어 가장 널리 쓰이며, 유의한 변수를 가려낼 때 가장 먼저 배우는 분석 기법이 아닐까 싶습니다 교차분석의 정의와 원리는 다른 자료가 많기에 굳이 설명드리지 않겠습니다 다만, 설문지 데이터를 다루게 되면 교차분석 굉장히 많이 해야하는 경우가 발생합니다 설문지의 질문이 많아질 경우 관심있는 변수(종속변수)에 영향을 주는 변수(독립변수)를 하나하나 가려내야하는 경우가 발생합니다 이럴 경우 SPSS나 엑셀로 하나씩 P-value를 확인하려면 시간이 어마어마하게 걸립니다 이를 대처하는 R코드를 소개하겠습니다 사회과학을 공부하시거나 설문지 데이터를 다루는 ..
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(car) library(multifluo) library(chemometrics) library(DMwR) library(tidyr) library(data.table) library(corrplot) library(factoextra) library(FactoMineR) #### Q-Q plot의 직선성을 상관계수로 검토하라 ### 일변량 데이터 상관계수 일변량 데이터는 cor()함수와 qqnorm()함수로 상관계수를 구하여 직선성을 구할 수 있습니다 실습에 사용할 데이터를 불러오겠습니다 klpga
인기 포스트
-
R 크롤링 rjava 설치하기R + Crawling (크롤링) 2020.02.09 14:32
1. Java 설치 R language를 사용하기 위해서 종종 Java가 필요할 때가 있습니다 Selenium이나 한글 자연어 분석 package인 KoNLP을 사용할 때도 필수입니다 (package는 R의 특정 기능을 활용하기 위한 "도구모음"이라고 생각하시면 됩니다) 그럼 Java를 다운 받습니다 1) Java 다운받기 https://www.java.com/ko/download/manual.jsp 에 접속하여 Java를 다운받습니다 모든 운영 체제용 Java 다운로드 모든 운영 체제용 Java 다운로드 권장 사항 Version 8 Update 241 릴리스 날짜: 2020년 1월 14일 Oracle Java 중요 라이센스 업데이트 Oracle Java 라이센스는 2019년 4월 16일 릴리스부터 변경..
-
KoNLP package install error 패키지 설치 오류 (2020. 1. 15. 이후) 및 해결방법R + Textmining (텍스트마이닝) 2020.02.12 17:00
현재 한글 텍스트 마이닝에서 가장 사랑받는(아니 거의 필수인) "KoNLP" package가 코드 내부적인 문제로 CRAN에서 삭제되었습니다 몇년간 의심없이 써온 package가 삭제되었다는 사실에 적잖이 당황했습니다만.. 구글링으로 여러 고수님들의 도움을 받아 간신히 해결하였습니다 (실제로는 https://cran.r-project.org/src/contrib/Archive/KoNLP/ 에 아카이브 되어있는 상태입니다만 일반적인 방법인 install.package()로는 설치가 불가합니다) Index of /src/contrib/Archive/KoNLP cran.r-project.org 참조한 방법을 소개합니다 1. github버전으로 설치(저는 이 방법으로 해결하지 못했습니다) https://www...
-
R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기R + Crawling (크롤링) 2020.02.09 15:42
R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tistory.com/6 를 참고해주시길 바랍니다 Java설치 이후에 C드라이브에 r-selenium폴더를 만들어 아래 3파일을 다운 받습니다 (폴더 이름을 r-selenium로 지정하였습니다. 이름은 상관없지만 가능하면 C드라이브에 지정하는것 편리합니다) Selenium standalone server gecko driver chrome driver 1. Selenium이란? Selenium의 정의는 구글링으로 찾아보실 수 있을겁니다. 해당 분야 전문가가 아니라면 단순하게 셀레니움은 "브라우저(browser) 자동화"를 가능하게 하는 프로그램이라 생각하시면 됩니다. 굉장히 흉악한 성능을 발휘합..
-
R 다변량 통계 분석 - 3. 다변량 정규성 이상치 검토(outlier) classical Mahalanobis distance, robust Mahalanobis distance, Local Outlier Factors, 이상치 제거 (outlier cut-off)R + Statsitic (통계학) 2020.04.28 20:23
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(car) library(multifluo) library(chemometrics) library(DMwR) #### 다변량 정규성에 영향을 미치는 이상치 검토하기 ### 마할라노비스 거리(mahalanobis distance)로 이상치 구하기 마할라노비스 거리로 examScor 데이터의 이상치를 구해보겠습니다 library(chemometrics)를 불러옵니다 이야기 전개를 쉽게하기 위해 두 개념을 살펴보고 가겠습니다 # 마할라노비스 거리(Mahalanobis distance) https://en.wi..
-
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 트윗 크롤링 (Crawling)R + Textmining (텍스트마이닝) 2020.02.14 17:22
우리나라에서는 다소 제한적으로 사용되어지지만, 좋아하는 연예인(특히, 아이돌)의 소식을 알고 싶거나 팬들끼리 소통할 때 트위터(twitter)는 아마도 오늘날 가장 많이 활용하는 SNS일겁니다. 서양권과 특히, 일본에서 가장 보편적으로 사용하는 SNS이기도 한 트위터는 그 특성(retweet)때문에 온라인 상에서 가장 많은 데이터를 생산하는 어플리케이션 중 하나라고 생각이 됩니다 이번 게시글에서는 트위터로 좋아하는 연예인을 게시글을 모으는 방법과 이를 활용하여 시각화까지 해보도록 합시다 (이번글은 한글만 하겠습니다. 영어는 아직 다 코딩을 못했네요 중간에 막혀서...) 필요한 library는 아래와 같습니다 미처 언급하지 못한 library와 package는 그때그때 처리해주시길 바랍니다 library(..
최근 포스트
-
R 다변량 통계 분석 - 5. 프로파일 분석, 다변량 정규성 검정, Profile Analysis, Multivariate Normal
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(profileR) #### 두 집단(Group 1, Group 2)에 대한 공변량을 제외한 MANOVA의 결과를 요약하라 실습에 사용할 데이터를 불러오겠습니다 stu % head() student 데이터는 공변량으로 5개영역(N,S,NS,NA,SS)와 표준화 검사(PPVT, RPMT, SAT)로 구성되어 있습니다 바로 공변량을 MANOVA 결과를 뽑아보도록 하겠습니다 가장 많이 사용하는 검정방법인 "Wilks", "Pillai", "Hotelling-Lawley", "Roy" 모두 사용해봅시다 stu_..
-
R 교차분석(crosstable) p-value 추출 설문지 데이터
교차분석은 검증하고자 하는 변수가 모두 범주형자료(categorical data) 일 때, 두 변수 간 연관성을 판단하는 분석입니다 설문지 데이터를 분석하는데 있어 가장 널리 쓰이며, 유의한 변수를 가려낼 때 가장 먼저 배우는 분석 기법이 아닐까 싶습니다 교차분석의 정의와 원리는 다른 자료가 많기에 굳이 설명드리지 않겠습니다 다만, 설문지 데이터를 다루게 되면 교차분석 굉장히 많이 해야하는 경우가 발생합니다 설문지의 질문이 많아질 경우 관심있는 변수(종속변수)에 영향을 주는 변수(독립변수)를 하나하나 가려내야하는 경우가 발생합니다 이럴 경우 SPSS나 엑셀로 하나씩 P-value를 확인하려면 시간이 어마어마하게 걸립니다 이를 대처하는 R코드를 소개하겠습니다 사회과학을 공부하시거나 설문지 데이터를 다루는 ..
-
R 네이버 뉴스(Naver News) Selenium (셀레니움) + 기사 댓글
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
-
R 네이버 뉴스(Naver News) Selenium (셀레니움) + 기사 본문
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
-
R 다변량 통계 분석 - 4. 다변량 정규성 검정, 상관계수, 직선성, 주성분 분석, 주성분 정규성, correlation, qqplot, Principal component analysis, PCA, screeplot, biplot
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(car) library(multifluo) library(chemometrics) library(DMwR) library(tidyr) library(data.table) library(corrplot) library(factoextra) library(FactoMineR) #### Q-Q plot의 직선성을 상관계수로 검토하라 ### 일변량 데이터 상관계수 일변량 데이터는 cor()함수와 qqnorm()함수로 상관계수를 구하여 직선성을 구할 수 있습니다 실습에 사용할 데이터를 불러오겠습니다 klpga
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(profileR) #### 두 집단(Group 1, Group 2)에 대한 공변량을 제외한 MANOVA의 결과를 요약하라 실습에 사용할 데이터를 불러오겠습니다 stu % head() student 데이터는 공변량으로 5개영역(N,S,NS,NA,SS)와 표준화 검사(PPVT, RPMT, SAT)로 구성되어 있습니다 바로 공변량을 MANOVA 결과를 뽑아보도록 하겠습니다 가장 많이 사용하는 검정방법인 "Wilks", "Pillai", "Hotelling-Lawley", "Roy" 모두 사용해봅시다 stu_..
교차분석은 검증하고자 하는 변수가 모두 범주형자료(categorical data) 일 때, 두 변수 간 연관성을 판단하는 분석입니다 설문지 데이터를 분석하는데 있어 가장 널리 쓰이며, 유의한 변수를 가려낼 때 가장 먼저 배우는 분석 기법이 아닐까 싶습니다 교차분석의 정의와 원리는 다른 자료가 많기에 굳이 설명드리지 않겠습니다 다만, 설문지 데이터를 다루게 되면 교차분석 굉장히 많이 해야하는 경우가 발생합니다 설문지의 질문이 많아질 경우 관심있는 변수(종속변수)에 영향을 주는 변수(독립변수)를 하나하나 가려내야하는 경우가 발생합니다 이럴 경우 SPSS나 엑셀로 하나씩 P-value를 확인하려면 시간이 어마어마하게 걸립니다 이를 대처하는 R코드를 소개하겠습니다 사회과학을 공부하시거나 설문지 데이터를 다루는 ..
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
크롤링에 필요한 패키지(package)와 라이브러리(library)는 아래와 같습니다 install.packages(c("dplyr", "httr", "jsonlite", "rJava", "RSelenium", "stringr") library(dplyr) library(httr) library(jsonlite) library(rJava) library(RSelenium) library(stringr) 셀레니움(Selenium)을 실행해봅시다 https://r-pyomega.tistory.com/7?category=873554 R 크롤링 RSelenium (셀레니움) 을 크롬에서 구동하기 R에서 Selenium을 구동하려면 Java를 설치해야 합니다. Java설치는 https://r-pyomega.tis..
아래 내용은 에서 대부분 발췌하였습니다 다변량 통계 분석에서 정규성 검정, 시각화 방법 등에 필요한 라이브러리 입니다 library(MVT) library(MVN) library(dplyr) library(car) library(multifluo) library(chemometrics) library(DMwR) library(tidyr) library(data.table) library(corrplot) library(factoextra) library(FactoMineR) #### Q-Q plot의 직선성을 상관계수로 검토하라 ### 일변량 데이터 상관계수 일변량 데이터는 cor()함수와 qqnorm()함수로 상관계수를 구하여 직선성을 구할 수 있습니다 실습에 사용할 데이터를 불러오겠습니다 klpga