Hey Tech
[논문 리뷰] Leem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems. 본문
[논문 리뷰] Leem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems.
Tony Park (토니) 2021. 9. 20. 16:42
오늘은 모바일 뱅킹 App 리뷰 텍스트마이닝 관련 논문을 방법론 위주로 빠르게 리뷰해 보겠습니다.
그럼 바로 시작하죠!
📚 논문 출처 APA
Leem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems.
💡 요약
카카오뱅크 앱 리뷰 텍스트마이닝을(키워드 추출, 토픽 모델링, 감정분석) 통해 모바일 뱅킹 앱 서비스 퀄리티 평가한 논문
1. 데이터 수집 및 전처리
1.1. Data collection
- 데이터: 카카오 뱅크 고객 리뷰 3,900건
- 수집 출처: 구글 플레이 스토어
- 수집 방법: WebHarvy 웹 크롤링 솔루션 활용
- 수집일: 2019년 1월 1일 ~ 2019년 12월 31일
1.2. Data preprocessing
1) 불필요한 리뷰(e.g., 광고, 스팸, 단순하고 반복적인 리뷰) 제거
2) 리뷰 문장 tokenization
3) 뱅킹서비스와 무관한 단어(a.k.a. 불용어) 제거
4) tokenized word에서 명사, 형용사, 부사만 추출
2. 데이터 분석 방법론
2.1. Sentiment analysis
- 맥락을 고려해 리뷰 내용이 긍정적인지(positive), 부정적인지(negative) 극성(polarity)을 분류하는 방법론
- 머신러닝(Naive Bayes) 기반 Classifier 모델링(train : test = 7 : 3)
- TEXTOM 툴 활용(i.e., 빅데이터 분석 솔루션)
- 평가 지표로서 Accuracy, Precision, Recall, F-score 활용
2.2. Mobile banking service quality
- 퀄리티 측정을 위해 5가지 척도 활용(Arcand, PromTep, Brun, Rajaobelina, 2017; Puriwat & Tripopsakul, 2017)
1) security/privacy
2) practicity
3) design/aesthetics
4) sociality
5) enjoyment
- WordNet 2.1을 활용해 퀄리티 측정을 위한 키워드 도출(i.e., lexical database로서 어휘 간의 의미관계 추출)
- Netminer 4.0을 활용해 키워드 추출 빈도 및 네트워크 분석(i.e., semantic network 분석 솔루션)
- 서비스 퀄리티의 총합은 아래 수식 1과 같이 산출(ArcandDua, Cao, Yu, Levy, 2013)
- \(N_{Pi}\)는 앞서 머신러닝 기반 감정 Classifier에서 분류된 긍정적인 리뷰의 개수, \(N_{ni}\)는 부정적인 리뷰 개수를 의미
3. 분석결과
3.1. Term Frequency
- 리뷰에서 2개 이상의 단어가 포함되거나 TF-IDF(Term Frequency - Inverse Document Frequency) 값이 0.5 이상인 단어 200개 추출
- 추출한 200개 단어와 문장 내 동시 출현한 단어 간의 네트워크 분석 수행(Word Co-occurrence Network Analysis)
- 네트워크에서 단어 노드의 크기가 클수록 출현 빈도가 높은 단어이며, 단어 간의 연결망이(i.e., edge or link) 두꺼울수록 동시 출현한 빈도를 의미
- 워드 클라우드 시각화 사용
3.2. Sentiment Analysis
- Sentiment Classifier에 의해 전체 중 78.2%가 긍정적인 리뷰, 17.1%가 부정적인 리뷰로 분류
3.3. Topic modeling
- 구체적인 Complaint 분석을 위해 부정적인 리뷰로 분류된 전체 중 17.1% 리뷰에 대해 LDA 토픽 모델링 수행(alpha = 8.33, beta = 0.02)
- 정확한 토픽 추출을 위해 TF-IDF >= 0.5, 문장 내 최소 단어 수 >=2인 리뷰만 활용
- MCMC (Monte Carlo Markov-chain) 알고리즘을 활용해 Gibbs 샘플링 1,000회 수행
3.4. Mobile bank service quality
- 모바일 은행 서비스 퀄리티 척도별 관련 키워드 미리 정의
- 해당 키워드가 고객이 어떤 감정(긍정적 또는 부정적)을 갖고 언급했는지에 따라 해당 키워드별 frequency 계산
- 수식 1에 따라 서비스 퀄리티 총합 산출
👨💻 나의 의견
"동시출현 단어 네트워크 분석 활용의 아쉬움"
본 논문은 count-based 키워드 산출 방법론인 동시출현 단어 네트워크 분석과 워드 클라우드를 시각화하였지만, 단어 간의 연결망을 통해 심층적인 의미를 분석하지 않았다 점에 아쉬움이 남습니다. 즉, 본 논문은 어떤 서비스 퀄리티 평가 항목의 키워드가 몇 회나, 어떤 고객 만족도와 함께 출현했는지만 분석했다는 점 때문입니다. 또한, 본 논문에서 사용한 LDA 토픽 모델링은 문서 내에서 키워드 추출에는 유용한 방법론이지만, 키워드가 어떤 동사나 형용사 등과 함께 등장했는지 파악하기 어려워 맥락을 이해하는 것이 어렵다는 한계가 있습니다(Cho, Kang, Jeong, 2016).
반면, 단어는 어떤 단어와 함께 등장했는지에 따라 그 의미가 결정된다는 점에서(Chae, Lim, Kang, 2015; Tao, Guo, Huang, 2020), 동시출현 단어 네트워크 분석은 키워드가 어떤 단어들과 함께 등장했는지 파악할 수 있어 리뷰 내용의 맥락을 이해하는 데 유용한 방법론입니다. 따라서 평가 항목과 관련한 키워드이며 빈출 단어일지라도 다른 어떤 단어와 함께 등장했는지 네트워크 분석 등을 통해 심층적으로 분석하는 절차를 거쳐야만 리뷰에서 숨은 의미를 정확하게 발굴해 낼 수 있습니다.
📚 참고문헌
[1] Arcand, M., PromTep, S., Brun, I., & Rajaobelina, L. (2017). Mobile banking service quality and customer relationships. International Journal of Bank Marketing.
[2] Chae, S. H., Lim, J. I., & Kang, J. (2015). A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce. Journal of Intelligence and Information Systems, 21(4), 53-77.
[3] Cho, H., Kang, J., & Jeong, D. Y. (2016). An Exploratory Study on Mobile App Review through Comparative Analysis between South Korea and US. Journal of Information Technology Services, 15(2), 169-184.
[4] Duan, W., Cao, Q., Yu, Y., & Levy, S. (2013, January). Mining online user-generated content: using sentiment analysis technique to study hotel service quality. In 2013 46th Hawaii International Conference on System Sciences (pp. 3119-3128). IEEE.
[5] Leem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems.
[6] Puriwat, W., & Tripopsakul, S. (2017). Mobile banking adoption in Thailand: an integration of technology acceptance model and mobile service quality.
[7] Tao, C., Guo, H., & Huang, Z. (2020). Identifying security issues for mobile applications based on user review summarization. Information and Software Technology, 122, 106290.
👨💻 맞춤 서비스
저희 AI/BigData 분석 솔루션 전문 브랜드 <데이터워너원 DATA101>에서는
맞춤형 데이터 수집부터 통계분석, 텍스트마이닝, AI 모델링, 논문작성을 지원해 드립니다 :)
자세한 내용은 아래 링크를 참고해 주세요!
포스팅 내용에 오류가 있다면 아래에 댓글 남겨주시면 감사드리겠습니다.
그럼 오늘도 건강하고 즐거운 하루 보내시길 바랍니다.
고맙습니다 :)
'AI & 빅데이터 > 자연어처리(NLP)' 카테고리의 다른 글
[NLP] 문서 단어 행렬(DTM) 개념 이해 (0) | 2022.03.24 |
---|---|
[NLP] Bag of Words(BoW) 개념 및 실습 (0) | 2022.03.23 |
[파이썬/NLP] 문자열 치환하기 (찾아바꾸기) (0) | 2021.02.16 |
[파이썬/NLP] 이모티콘을 텍스트로, 텍스트를 이모티콘으로 변환하기! (0) | 2021.02.01 |
[NLP] KoNLPy Mecab 고유명사 등록 방법 (1) | 2021.01.24 |