R을 활용하여 왕의 남자 시나리오 분석을 진행해보겠습니다. 각 주인공별로 대화, 지문을 분류하여 시나리오에서 차지하는 캐릭터들의 중요도를 시각화하였습니다. 왕의 남자 시나리오 분석 1. 인물별 대화 빈도수 2. 인물별 대화 길이 3….
이 포스팅은 R을 활용한 기사 댓글 분석 내용입니다. ‘타다’ 관련한 기사 댓글 분석으로 해당 내용은 R 텍스트 마이닝 책을 참고했으며 자세한 내용은 아래 책을 참고해보시기 바랍니다. [Do It! R 텍스트…
이번 포스팅은 R 언어를 활용한 영화 추격자 분석 결과를 설명해드리겠습니다. 인물들의 등장 빈도수에 따른 시나리오에서의 비중과 대화, 행동 빈도수로 등장인물들의 중요도를 데이타 분석 관점에서 확인해 보겠습니다. 추격자는 2008년 개봉한 스릴러…
이번 포스팅은 R 언어를 활용한 택시운전사 영화 분석 결과를 설명해드리겠습니다. 인물들의 등장 빈도수에 따른 비중과 대화, 행동 빈도수로 등장인물들의 중요도를 데이타 분석 관점에서 확인해 보겠습니다. 택시운전사는 2017년 개봉한 영화입니다. 1980년…
R 언어를 활용한 영화 말아톤 시나리오 분석 결과를 설명해드리겠습니다. 인물들의 등장 빈도수에 따른 비중과 대화, 행동 빈도수로 등장인물들의 중요도를 데이타 분석 관점에서 확인해 보겠습니다. 말아톤은 2005년 개봉한 영화입니다. 자폐증을 앓고…
오늘은 R 정규표현식 문자 분석하는 방법에 대해 알아보겠습니다. 문자 파싱은 여러 다양한 형태를 요구하기 때문에 정규식을 제대로 이해하고 사용할 줄 알아야 텍스트 마이닝에서 좋은 데이타를 얻을 수 있습니다. 쉼표 등…
문자열의 패턴을 간결하게 기술하는 방식을 정규표현식이라고 합니다. 특정 패턴의 텍스트 분석을 하기 위해서는 해당 표현을 이해하고 작성할 수 있어야 코드양과 비용과 시간을 줄일 수 있습니다. 이제 R 정규표현식에 대해 살펴보겠습니다….
이전 시간에 이어 R 언어를 활용하여 영화 시나리오 분석하는 프로젝트를 진행해보도록 하겠습니다. R로 영화 시나리오 씬구분하는 방법을 진행해보겠습니다. 로딩한 시나리오 샘플데이타를 씬 별로 분류해서 데이타를 생성하는 방법을 알아보겠습니다. 시나리오 로딩에…
R을 활용하여 영화 시나리오 분석하는 프로젝트를 진행해보도록 하겠습니다. 데이타 분석에 많이 활용하는 R 언어를 이용해보고자 합니다. 먼저 R 영화 시나리오 로딩을 진행해보겠습니다. 작업 디렉토리를 설정하고 대본의 형식을 간략히 살펴본 후…
R 토픽 모델링이란 LDA 알고리즘을 활용해 문서를 특정 토픽으로 분류하고 문서들을 나누는 기법입니다. 문서의 의미와 맥락을 이해하는 되며 LDA는 토픽 모델링에 가장 많이 사용되는 방법입니다. 1. 토픽 모델링 개념 알아보기…