RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      GA와 PSO 군집화 앙상블 기법을 이용한 무형유산 문서의 시대적 분석 연구

      한글로보기

      https://www.riss.kr/link?id=T14575630

      • 0

        상세조회
      • 0

        다운로드
      서지정보 열기
      • 내보내기
      • 내책장담기
      • 공유하기
      • 오류접수

      부가정보

      국문 초록 (Abstract)

      본 연구에서는 무형유산의 활용을 위하여 무형유산 문서의 시대적 분석 시스템을 제안하였다. 이 시스템은 본 연구에서 새롭게 제안한 문서 특징 추출 기법과 문서 군집화 기법 그리고 기 ...

      본 연구에서는 무형유산의 활용을 위하여 무형유산 문서의 시대적 분석 시스템을 제안하였다. 이 시스템은 본 연구에서 새롭게 제안한 문서 특징 추출 기법과 문서 군집화 기법 그리고 기 연구 및 발표된 CNN(Convolutional Neural Network) 기반 텍스트 분류 기법 등, 크게 3가지로 구성되며 연구 과정은 다음과 같다.
      첫째, 워드넷 유사도가 포함된 문장 신호화와 이산 푸리에 변환을 적용한 문서 특징 추출 기법을 제안하였으며 성능 입증을 위해 표절 문장 탐색에 적용하였다. 실험은 표절 탐색 분야의 저명한 워크숍인 PAN에서 제공하는 공식적인 데이터 셋(2013-corpus)을 사용하였다. 실험 결과, 기 발표된 11개의 표절 문장 탐색 기법 중 4번째로 우수한 성능을 보였다. 특히, 벡터 공간 모델 기반 표절 문장 탐색 기법보다 약 5.1%~27.4% 성능이 향상 되었다. 이러한 연구 결과는 이산 푸리에 변환을 적용한 특징 추출 기법을 문장에서 문서로 확장할 수 있음을 보여준다.
      둘째, 문서 군집화를 위해 본 연구에서는 유전자 알고리즘(GA, Genetic Algorithms)과 입자 군집 최적화(PSO, Particle Swarm Optimization)의 탐색 능력을 결합한 군집화 앙상블 기법을 제안하였다. 실험을 위해 Reuters-21578 및 20-Newsgroups 문서 집단을 4개의 하위 데이터 셋으로 나누었으며 F-measure를 통해 3가지 경우 (best-case, worst-case, average)에 대한 성능을 비교하였다. 실험 결과, 제안된 기법이 3가지 모든 경우에서 다른 문서 군집화 기법보다 높은 성능을 보였다. 또한, GA와 PSO 군집화 앙상블 기법에 이산 푸리에 변환 기반 문서 특징 추출 기법을 적용하였을 경우 4개의 데이터 셋에 대해 약 2.27%, 5.41%, 2.07%, 4.94% 성능이 향상 되었다. 특히, 더 많은 색인어를 가진 데이터 셋과 서로 관련된 용어로 이루어진 데이터 셋에서 높은 성능 향상을 보였다.
      마지막으로, 제안된 기법들과 기 연구 및 발표된 CNN을 통한 텍스트 분류 기법을 활용하여 무형유산 문서의 시대적 분석 시스템을 제안하였다. 본 연구에서는 한국 역사에 관련된 문서들을 삼국시대, 고려, 조선 3개의 시대 분류에 초점을 맞추었다. 시대별 문서를 제공하는 기관(한국사 LOD, 한국민속대백과사전, 온라인한국민족문화대백과사전)에서 문서를 수집하여 학습 데이터를 구성하고 CNN을 통해 시대 분류 모델을 생성하였으며 실험 결과 86%의 분류율을 보였다. 또한, 국내외 있어 가장 활발히 운영되고 있는 무형유산 온라인 목록화 시스템인 이치피디아에서 설화 및 전설 중심으로 무형유산 문서들을 CNN을 통해 시대적으로 분류하고 제안한 GA와 PSO 군집화 앙상블 기법을 통하여 시대별 주제 흐름 분석을 시도한 결과 인물과 자연/동물/기타에 대한 시대적 흐름을 파악할 수 있었다.

      더보기

      다국어 초록 (Multilingual Abstract)

      In this study, we propose a chronological analysis system of intangible cultural heritage text documents. This system consists of three methods: two methods, a text document feature extraction and a text document clustering, are newly proposed in this...

      In this study, we propose a chronological analysis system of intangible cultural heritage text documents. This system consists of three methods: two methods, a text document feature extraction and a text document clustering, are newly proposed in this study, the other CNN (Convolutional Neural Network) for text classification. The detailed research steps are as follows.
      Firstly, a method of text document feature extraction using a Discrete Fourier Transform (DFT) with sentence signaling including WordNet similarity measure is proposed and applied to detecting plagiarized sentences. The data set, 2013-Corpus, provided by PAN which is the one of well-known workshops for text plagiarism is used in our experiments. Our method is fourth ranked among the eleven most outstanding plagiarism detection methods. Especially, our method shows performance improvements in the detection of plagiarized sentences by 5.1% to 27.4% compared to the plagiarized sentence detection methods based on the vector space model based. This results show this feature extraction method for sentences can be extended for documents.
      Secondly, we propose an ensemble clustering method that combines both GA (Genetic Algorithms) and PSO (Particle Swarm Optimization) for text document clustering in order to properly use their optimization algorithm features. To test the effectiveness of our method, we conduct experiments on four subsets of standard Reuters-21578 and 20 Newsgroups datasets. We also compare our method with three cases (best-case, worst-case, and average) using F-measure. The experimental results show that our proposed method achieves better performance than other text document clustering algorithms in all the three cases. Moreover, when a DFT-based text document feature extraction is applied to the GA and PSO ensemble clustering method, the performances are improved in four data sets by 2.27%, 5.41%, 2.07%, and 4.94%. In particular, it shows the high performance in the datasets that have more indexed terms which are closely related to each other’s.
      Finally, we propose a chronological analysis system of intangible cultural heritage text documents by utilizing the proposed methods for text document feature extraction and text document clustering, and CNN for text classification. We focus on classifying Korean historical documents into three era such as Three States (Silla, Goguryeo, Baekje), Goryeo dynasty, and Joseon dynasty. The training data set is collected from Korean history LOD, Korean folk culture encyclopedia, Korean culture encyclopedia and etc. we create the chronological classification model trough CNN document classification method. The result shows that our method performs with 86% accuracy. In addition, the intangible cultural heritage text documents of Korean folk tales and legends in ICHPEDIA, the most active intangible cultural heritage online inventory system in domestic and foreign countries, are classified by chronological criteria using CNN. We analyze the chronologically classified documents applying the proposed GA and PSO ensemble clustering method. As a result, we can identify a chronological topic trends related to people and nature/animal/others.

      더보기

      목차 (Table of Contents)

      • 1 서론 1
      • 2 무형유산과 이치피디아 5
      • 2.1 무형유산의 중요성 5
      • 2.2 이치피디아 6
      • 2.3 무형유산 시대적 분석의 필요성 13
      • 1 서론 1
      • 2 무형유산과 이치피디아 5
      • 2.1 무형유산의 중요성 5
      • 2.2 이치피디아 6
      • 2.3 무형유산 시대적 분석의 필요성 13
      • 2.4 이치피디아 무형유산 문서 특징 14
      • 3 GA와 PSO 군집화 앙상블 기법 17
      • 3.1 이산 푸리에 변환 기반 문서 특징 추출 18
      • 3.1.1 문서 특징 추출 18
      • 3.1.2 벡터 공간 모델과 문서 유사도 측정 방법 19
      • 3.1.3 이산 푸리에 변환 기반 텍스트 특징 추출 기법 21
      • 3.1.4 이산 푸리에 변환 기반 텍스트 특징 추출 기법 성능 실험 29
      • 3.2 자동 개체 분할 기반의 GA와 PSO 군집화 앙상블 기법 36
      • 3.2.1 군집화 문제 36
      • 3.2.2 문서 군집화 기법 38
      • 3.2.3 앙상블 기법 40
      • 3.2.4 집합 형식의 개체 표현 42
      • 3.2.5 문서 군집화를 위한 적합도 함수 44
      • 3.2.6 GA를 이용한 문서 군집화 46
      • 3.2.7 PSO를 이용한 문서 군집화 54
      • 3.2.8 자동 개체 분할 기반의 앙상블 기법 58
      • 3.3 실험 결과 및 분석 62
      • 3.3.1 테스트 셋 62
      • 3.3.2 파라미터 설정 65
      • 3.3.3 문서 군집화 실험 결과 67
      • 4 CNN과 GA와 PSO 군집화 앙상블 기법을 이용한 무형유산 시대별 주제 흐름 분석 81
      • 4.1 CNN을 통한 텍스트 분류 81
      • 4.1.1 인공 신경망 81
      • 4.1.2 딥 러닝과 CNN 83
      • 4.1.3 TensorFlow 86
      • 4.1.4 기 연구 및 발표된 CNN을 통한 텍스트 분류 88
      • 4.2 CNN을 통한 무형유산 문서 시대 분류 90
      • 4.2.1 학습 데이터 수집 및 구성 90
      • 4.2.2 학습 데이터와 무형유산 문서의 한글 색인어 추출 97
      • 4.2.3 구현 및 성능 실험 결과 98
      • 4.3 GA와 PSO 군집화 앙상블 기법을 이용한 무형유산 시대별 주제 흐름 분석 103
      • 4.3.1 전체 구조 103
      • 4.3.2 분석 결과 104
      • 5 결론 및 향후 연구 107
      • 참고문헌 112
      • 요약(국문초록) 120
      • 부록 1. PSO를 이용한 문서 군집화의 파라미터 조합 실험 122
      • 부록 2. GA와 PSO 군집화 앙상블 기법의 파라미터 조합 실험 126
      • 감사의 글 128
      더보기

      참고문헌 (Reference) 논문관계도

      1 오일석, "패턴인식", 교보문고:, 2008

      2 배영호, "한국 전통주의 문화", 동아시아식생활학회, 동아시아식생활학회 학술발표대 회논문집, pp. 35-51, 2006

      1 오일석, "패턴인식", 교보문고:, 2008

      2 배영호, "한국 전통주의 문화", 동아시아식생활학회, 동아시아식생활학회 학술발표대 회논문집, pp. 35-51, 2006

      더보기

      분석정보

      View

      상세정보조회

      0

      Usage

      원문다운로드

      0

      대출신청

      0

      복사신청

      0

      EDDS신청

      0

      동일 주제 내 활용도 TOP

      더보기

      주제

      연도별 연구동향

      연도별 활용동향

      연관논문

      연구자 네트워크맵

      공동연구자 (7)

      유사연구자 (20) 활용도상위20명

      이 자료와 함께 이용한 RISS 자료

      나만을 위한 추천자료

      해외이동버튼