Categories: All

by kim hyungjun 7 years ago

386

웹 크롤러

데이터 수집 및 분석을 위해 웹 크롤러를 사용하여 한글 형태소를 추출하고, 이를 통해 트위터와 같은 플랫폼에서 한글 단어를 토큰화한다. 이 과정에서 정규식을 이용해 한글과 URL을 추출하고, 추출된 데이터를 배열에 저장한 후, 이를 데이터베이스에 저장하여 관리한다. 저장된 데이터는 Word Cloud로 시각화하여 단어의 빈도와 중요성을 쉽게 파악할 수 있게 한다.

웹 크롤러

웹 크롤러

한글 형태소

트위터 형태소
예제 : https://github.com/twitter/twitter-korean-text
토큰화)NOUN 토큰값 = 한글 단어

서버

MSSQL

홈페이지(C#)

정규식으로 한글 추출
추출한 한글,URL DB저장
정규식으로 URL 추출
배열로 URL주소들 저장

배열로 저장한 URL값 DB에 있는지 확인

다음 URL

Word Cloud로 단어 표현