리눅스 wordcount를 사용해서 데이터 값 시각화하기

이번 포스팅은 hadoop의 wordcount를 통해서 빅데이터 값을 시각화하는 것을 진행하려한다.

필자는 데이터가 무수히 많은 txt파일에서 같은 단어들이 몇번 사용되었는지 알아보려한다.

txt파일만을 관리하기 위한 in1이라는 폴더를 만든다.

- hadoop fs -mkdir in1을 통해 hadoop경로에 in1이라는 폴더를 생성

- hadoop fs -lsr을 통해 생성된 파일을 확인한다.

hadoop경로에는 CHANGES.txt라는 파일이 존재하며 그 파일을 in1으로 옮긴다.

- hadoop fs -put CHANGES.txt /user/root/in1 을 통해 in1폴더로 파일을 이동.

[CHANGES.txt파일을 확인]

[파일이 이동하여 잘 저장된 것을 확인]

wordcount를 사용

- hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/in1/CHANGES.txt out 를 입력

- hadoop에서 jar의 파일을 사용할 것이며 hadoop-examples-1.0.4.jar폴더 내에 있는 wordcount를 사용하여 CHANGES.txt를 분석하고 분석 결과를 out이라는 파일에 결과값을 저장한다 (이때 결과값의 파일이름은 항상 default값으로 part-r-00000로 저장된다.)

-hadoop fs -lsr 로 분석한 결과가 저장되었는지 확인.

[해당 명령을 통해 out이라는 곳에 분석한 결과를 저장한다.]

[정확하게 수행한 결과가 part-r-00000의 이름으로 저장된 것을 확인할 수 있었다.]

실제로 이 데이터들을 엑셀을 이용해서 시각화하기 위해 결과파일을 윈도우에 존재하는 공유폴더로 Temp폴더에 sample이란 이름으로 결과 파일을 저장한다.

- hadoop fs -cat /user/root/out/part-r-00000>>/mnt/hgfs/Temp/sample 을 통해 공유폴더인 Temp에 하둡에서 분석한 결과파일을 sample이란 파일의 이름으로 저장한다.

- Temp경로로 이동하여 해당 파일이 생성되었는지 확인

[결과파일을 Temp폴더에 저장]

[Temp 경로로 이동해서 실제로 파일이 저장되었는지 확인]

엑셀의 그래프로 시각화하기

윈도우에 존재하는 Temp폴더내의 sample파일을 엑셀로 열어서 시각화한다.

현재 sample파일에는 CHANGES.txt파일에서 동일한 단어가 사용된 횟수가 적혀있고

필자는 내림차순으로 정렬하여 상위 20개를 그래프로 표현하려한다.

[상위 20개를 그래프를 이용하여 시각화한 사진]

이런식으로 시각화하여 사용자가 편리하게 확인하고 파악할 수 있도록 할 수 있다.

저작자표시 (새창열림)

'리눅스' 카테고리의 다른 글

리눅스 Makefile (0)	2019.11.26
리눅스 - Hive (0)	2019.11.26
리눅스 하둡1 (0)	2019.11.26
리눅스 ssh key 생성 (0)	2019.11.25
리눅스 간단한 예제 (0)	2019.11.22

리눅스 wordcount를 사용해서 데이터 값 시각화하기

'리눅스' 카테고리의 다른 글

관련글