R 로 좋아하는 노래가사( lyrics ) 텍스트 마이닝 ( text mining ) 하기 + 의미연결망 분석(Semantic Network Analysis)

R + Textmining (텍스트마이닝) 2020. 2. 20. 14:13

필요 라이브러리(library)

library(base64enc)
library(arules)
library(KoNLP)
library(NIADic)
library(RmecabKo)
library(tidyverse)
library(igraph)

#### 의미연결망 (Semantic Network Analysis)란?

언어 네트워크 분석이라고도 하는 의미연결망 분석은 사회현상을 탐구하는 데 있어 행위자들의 관계 구조를 통해 특징을 밝혀내는 사회연결망 분석(Social Network Analysis)를 활용한 기법으로 행위자의 대상이 아닌 그들의 언어를 분석하여 단어간의 상호작용 관계 구조를 분석하는 것을 말합니다 (출처 : 빅데이터 관련 신문기사의 의미연결망 분석_최윤정, 권상희)

굉장히 어려울 수도 있는 설명입니다만 쉽게 말해 텍스트의 구조를 밝혀내어 어떤 텍스트가 강한 영향을 가지는지 파악하고 텍스트간의 관계를 파악하는데 그 목적이 있는 분석 기법이라고 할 수 있겠습니다

#### KoNLP 사전작업

install_mecab("C:/Rlibs/mecab")

devtools::install_github('haven-jeon/NIADic/NIADic', build_vignettes = TRUE)

Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_241')

buildDictionary(ext_dic = "woorimalsam")

useNIADic()

#### 텍스트 파일 불러오기

fiesta <- readLines("D:/fiesta.txt")

텍스트 파일을 불러올때 많이 하는 실수입니다. 텍스트가 있는 마지막 줄에서 엔터(Enter)를 눌러 커서를 밑으로 내려서 제일 왼쪽에 위치시켜야 R로 불러올 때 오류가 나지 않습니다. 왜 그런지 아시는 분은 아직 만나뵙지 못했습니다... 저도 궁금하더군요,

#### 한글 - 품사별 처리

fiesta <- fiesta %>% SimplePos09()

fiesta에 SimplePos09( )를 적용하여 품사별로 뽑아냅니다

개인적으로 extraNoun, nouns보다는

품사별 추출이 가능한 SimplePos09를 선호합니다

아래는 SimplePos09와 SimplePos22에 대한 인포그래픽입니다

#### 데이터 셋 만들기

fiesta <- fiesta %>%
             melt() %>%
             as_tibble() %>%
             select(3,1)   ## 3열과 1열 추출

SimplePos09( )로 추출한 단어를 데이터 셋으로 만들어 봅시다

#### 명사 용언 수식언만 추출하기

## 명사 추출

fiesta_명사 <- fiesta %>%
mutate(명사=str_match(value,'([가-힣]+)/N')[,2]) %>% ## "명사" variable을 만들고 한글만 저장

na.omit() %>% ## ([가-힣]+)/P') 한글 중 용언(P)만을 선택하는 정규표현식

mutate(글자수=str_length(명사)) %>% ## "글자수" variable을 만듭니다

filter(str_length(명사)>=2) ## 2글자 이상만 추려냅니다

## 용언 추출

fiesta_용언 <- fiesta %>%
mutate(용언=str_match(value,'([가-힣]+)/P')[,2]) %>% ## "용언" variable을 만들고 한글만 저장
na.omit() %>% ## ([가-힣]+)/P') 한글 중 용언(P)만을 선택하는 정규표현식

mutate(글자수=str_length(용언)) %>% ## "글자수" variable을 만듭니다
filter(str_length(용언)>=2) ## 2글자 이상만 추려냅니다

## 수식언 추출

fiesta_수식언 <- fiesta %>%
                mutate(수식언=str_match(value,'([가-힣]+)/M')[,2]) %>%   ## "수식언" variable을 만들고 한글만 저장
                na.omit() %>%   ## ([가-힣]+)/M') 한글 중 수식언(M)만을 선택하는 정규표현식
                mutate(글자수=str_length(수식언)) %>%  ## "글자수" variable을 만듭니다
                filter(str_length(수식언)>=2) ## 2글자 이상만 추려냅니다

#### 품사 추출 파일을 모아 데이터 프레임(Data Frame)으로 만들기

fiesta_의미 <- bind_rows(fiesta_명사,
fiesta_용언,
fiesta_수식언)

View(fiesta_의미)

데이터 프레임을 확인합시다

#### 품사별 추출

fiesta_의미_명사 <- fiesta_의미 %>%
select(3, 1) %>% ## 3열(명사)과 1열 추출
na.omit()

fiesta_의미_용언 <- fiesta_의미 %>%
select(5, 1) %>% ## 5열(용언)과 1열 추출
na.omit()

fiesta_의미_수식언 <-fiesta_의미 %>%
select(6, 1) %>% ## 6열(수식언)과 1열 추출
na.omit()

#### 품사별 글자수를 "단어"로 통합

fiesta_의미_명사 <- rename(fiesta_의미_명사,
c(단어 = 명사))

## 명사, 용언, 수식언을 "단어"변수로 통합하기 위해 변수명 "단어"로 변경

fiesta_의미_용언 <- rename(fiesta_의미_용언,
c(단어 = 용언))

## 명사, 용언, 수식언을 "단어"변수로 통합하기 위해 변수명 "단어"로 변경

fiesta_의미_수식언 <- rename(fiesta_의미_수식언,
c(단어 = 수식언))

## 명사, 용언, 수식언을 "단어"변수로 통합하기 위해 변수명 "단어"로 변경

fiesta_의미_단어 <- bind_rows(fiesta_의미_명사,
fiesta_의미_용언,
fiesta_의미_수식언)

## 변경한 변수명 "단어"로 기준으로 통합

그럼 데이터 프레임을 확인합시다

#### 그래프 그리기

단어_의미df <- fiesta_의미_단어 %>% graph_from_data_frame()

## igraph 형태에 맞게 데이터프레임을 변환합니다. 감이 안오신다면 결과를 확인하면 됩니다

[1]행 기지개 -> 1은

"기지개"를 1행에서 추출하였다는 뜻입니다

V(단어_의미df)$type <- bipartite_mapping(단어_의미df)$type

## bipartite_mapping( )함수는 양자간(TRUE / FALSE)로 구성하는 그래프를 그려주는 함수입니다

## V( ) 함수는 vertex sequence를 생성하는 함수입니다. vertex의 사전적 의미는 "꼭짓점"인데, 그래프에서 확인할 수 있습니다

## matrix로 변환

단어_의미m <- as_incidence_matrix(단어_의미df ) %*% t(as_incidence_matrix(단어_의미df)) ## matrix로 변환 합니다

matrix를 확인합시다

View(단어_의미m)

matrix의 주대각선( [ i, i ]에 위치한 원소의 집합 )에 원소가 들어가 있습니다

이렇게 되면 의미연결이

기지개 -> 기지개

축제 -> 축제

이런식으로 나타납니다. 일종의 자기공선성 비독립적이라고 해야할까요. 적당한 말이 떠오르지 않는데..

아무튼 제대로된 단어간의 의미를 파악할 수 없습니다. 이를 "0"으로 처리합니다

## 주대각선을 "0"으로 처리

diag(단어_의미m) <- 0

제대로 처리하였습니다

## 인접 행렬(adjacency matrix)로 변환

단어_의미m <- 단어_의미m %>% graph_from_adjacency_matrix()

인접행렬이 뭔지 잘 모르겠지만, 결과 값을 보면 이해될껍니다

결과를 확인합시다

이를 그래프로 시각화합니다

#### 시각화

단어_의미m %>% plot()

3그룹의 단어 집단이 상당히 뭉쳐있습니다 잘 보이지 않네요;;(꽤 큰 크기로 저장했는데...)

좀 더 보기 편하게 다듬어 봅니다

단어_의미m %>%
  as_tbl_graph() %>%
  ggraph() +
  geom_edge_link(aes(start_cap = label_rect(node1.name), end_cap = label_rect(node2.name))) +
  geom_node_text(aes(label=name))

간단히 해석해봅시다

대부분의 단어가 가장 오른쪽 그룹은 "지금" "순간" "모든" "축제"를 기준으로 연결되어있습니다

왼쪽 중간 그룹은 관련 단어가 비교적 수평적으로 연결되어있군요

다음에는 감성분석(Sentiment Analysis)를 포스팅 하겠습니다

저작자표시 비영리 변경금지 (새창열림)

'R + Textmining (텍스트마이닝)' 카테고리의 다른 글

R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 ( text mining ) 하기 + 연관 분석 ( Association Rules ) (0)	2020.02.19
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 워드 크라우드 (wordcloud) (1)	2020.02.14
R rtweet 트위터 (twitter) 로 좋아하는 연예인 텍스트 마이닝 (text mining) 하기 + 트윗 크롤링 (Crawling) (0)	2020.02.14
KoNLP package install error 패키지 설치 오류 (2020. 1. 15. 이후) 및 해결방법 (0)	2020.02.12

ABOUT ME

R/Python은 겉치레가 아니야 R/Python은 겉치레가 아니야

'R + Textmining (텍스트마이닝)' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'R + Textmining (텍스트마이닝)' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바