1. 텍스트 마이닝(Text Mining)이란?

2023. 2. 7. 20:08텍스트 마이닝 Text Minig

텍스트의 정의 - google


텍스트 마이닝 Text Mining 이란?

-텍스트에서 고품질 정보를 추출하는 프로세스

-텍스트 자료로부터 유용한 정보를 추출하려 분석하기 위한 도구

-텍스트 데이터로부터 새로운 고급 정보를 이끌어내는 과정

 

즉, 텍스트 마이닝이란 말그대로 텍스트데이터에서 패턴,관계를 추출해 가치있는 것들을 채굴하는것이다.

 

 

 

텍스트마이닝을 통해

-사용자의 글을 분석해 특정 상품이나 서비스에 대한 선호도 및 여론의 방향을 파악할 수 있다.

-긴 글 속에서 가치있는 정보만 추출해내 다른 연구에 이용할 수 있다.

 

 

우리는 실생활에서 가장 밀접해있는 SNS에서도 쉽게 "글"을 볼 수 있다. 

글 뿐만 아니라 다양한 정보들은 비정형 데이터로 저장되어 있다.

이러한 비정형 데이터들은 데이터 마이닝 기법을 적용하기에 어려움이 있다. 데이터 구조가 뚜렷하게 정의되어있지 않기 때문이다. 

정형 데이터의 경우 데이터 마이닝이라는 기법을 이용하는 반면,

비정형/반정형 데이터들을 분석하기 위한 방법으로 "텍스트 마이닝"을 이용할 수 있다.

 

 

 

텍스트 마이닝을 하기 위해서는 

1. 문장 형태의 비정형 데이터를 정형화하는 데이터 전처리 기술이 필요하다.

2. 유의미한 정보들(선호도 등)을 파악할 수 있도록 긍정, 부정을 인지하는 단어에 대한 노하우가 필요하다. 

 

 

 

텍스트 마이닝의 기술 체계

-자연어 처리 기술

-문서 처리 기술

-데이터 마이닝 기술

-시각화

-데이터베이스

-기계학

 

 

텍스트 마이닝을 하는데 있어서, 요구되는 기술들은 많다.

각 기술들에 관련해서 자세한 내용은 다른 포스트에서 알아보도록 하자.

 

 

 

텍스트 마이닝의 일반적인 기술 5가지

1. 정보 추출

-많은 텍스트 데이터에서 의미있는 정보를 추출하는 프로세스

-속성, 관계 등 을 식별하고 추출함

-추출된 정보는 DB에 저장

 

2. 정보 검색

-구체적인 특정 단어 또는 구 세트를 기반으로 관련 패턴을 추출

-알고리즘을 이용해 사용자의 행동 추적 및 팔로우 > 관련 데이터 수집

-대표적인 예시: Google 검색 엔진

 

3. 분류

-지도 학습의 한 형태

-미리 정의된 주제 묶음으로 정렬됨

 

4. 클러스터링 (군집화)

-고유한 구조를 찾고 하위 그룹으로 구성해 추가 분석을 진행

 

5. 요

-최종 사용자에게 유용할 수 있는 정보가 포함된 특정 텍스트의 압축 버전을 자동으로 생성하는 프로세스

-상당한 양의 정보를 포함하는 텍스트 요약을 간결한 형식으로 모으기 위함.

 

 

 

텍스트 마이닝 하는 방법 (순서)

1. 텍스트 데이터 수집

2. 텍스트 전처리

3. 토큰화

4. 특징 값 추출

5. 데이터 분석

 


요약하자면,

 

우리는 끊임없이 생성되고 있는 데이들에 파묻혀 살고있다.

그러한 거대한 데이터들에는 우리가 궁금해하고 필요한 데이터들이 존재할 수도 있다.

 

그 많고 많은 데이터들 중 우리가 필요로 하는 데이터들을 추출하려면 어떻게 해야할까?

바로 텍스트 마이닝기법을 사용해보자.

비정형/반정형 데이터에서 유의미한 정보를 추출해내기 위한 기법이다.

 


 

https://iamdaisy.tistory.com/29

 

텍스트 마이닝의 이해

[텍스트 마이닝의 개념 ] 1. 개요 텍스트 마이닝은 비정형 데이터 마이닝의 유형 중 하나입니다. 텍스트 마이닝은 비정형 및 반정형 데이터에 대하여 자연어 처리 기술과 문서 처리 기술을 적용

iamdaisy.tistory.com

https://www.tibco.com/ko/reference-center/what-is-text-mining

 

텍스트 마이닝이란 무엇입니까?

홈 Reference Center 관련 용어 텍스트 마이닝이란 무엇입니까? 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스입니다. 일부 서클에서는 텍스트 데이터 마이닝이라고도 하며 어떤 면

www.tibco.com

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gkenq&logNo=10183413152

 

텍스트마이닝(Text Mining)

텍스트마이닝(Text Mining)이란 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 ...

blog.naver.com

https://blog.naver.com/PostView.nhn?blogId=jinis_stat&logNo=221671837442

 

텍스트 마이닝(Text Mining) 이란?

텍스트 마이닝이란? 텍스트 마이닝을 영어사전 그대로 풀이하면, "문서(Text)의 채굴(Mining)"...

blog.naver.com

 

'텍스트 마이닝 Text Minig' 카테고리의 다른 글

0. 시작  (0) 2023.02.07