본문 바로가기
리눅스

리눅스 wordcount를 사용해서 데이터 값 시각화하기

by 엄킹 2019. 11. 26.
반응형



이번 포스팅은 hadoop의 wordcount를 통해서 빅데이터 값을 시각화하는 것을 진행하려한다.


필자는 데이터가 무수히 많은 txt파일에서 같은 단어들이 몇번 사용되었는지 알아보려한다.






txt파일만을 관리하기 위한 in1이라는 폴더를 만든다.


- hadoop fs -mkdir in1을 통해 hadoop경로에 in1이라는 폴더를 생성

- hadoop fs -lsr을 통해 생성된 파일을 확인한다.








hadoop경로에는 CHANGES.txt라는 파일이 존재하며 그 파일을 in1으로 옮긴다.


- hadoop fs -put CHANGES.txt /user/root/in1 을 통해 in1폴더로 파일을 이동.



[CHANGES.txt파일을 확인]



[파일이 이동하여 잘 저장된 것을 확인]





wordcount를 사용


- hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/in1/CHANGES.txt out 를 입력


- hadoop에서 jar의 파일을 사용할 것이며 hadoop-examples-1.0.4.jar폴더 내에 있는 wordcount를 사용하여 CHANGES.txt를 분석하고 분석 결과를 out이라는 파일에 결과값을 저장한다 (이때 결과값의 파일이름은 항상 default값으로 part-r-00000로 저장된다.)


-hadoop fs -lsr 로 분석한 결과가 저장되었는지 확인.



[해당 명령을 통해 out이라는 곳에 분석한 결과를 저장한다.]






[정확하게 수행한 결과가 part-r-00000의 이름으로 저장된 것을 확인할 수 있었다.]






실제로 이 데이터들을 엑셀을 이용해서 시각화하기 위해 결과파일을 윈도우에 존재하는 공유폴더로 Temp폴더에 sample이란 이름으로 결과 파일을 저장한다.


- hadoop fs -cat /user/root/out/part-r-00000>>/mnt/hgfs/Temp/sample 을 통해 공유폴더인 Temp에 하둡에서 분석한 결과파일을        sample이란 파일의 이름으로 저장한다.


- Temp경로로 이동하여 해당 파일이 생성되었는지 확인



[결과파일을 Temp폴더에 저장]





[Temp 경로로 이동해서 실제로 파일이 저장되었는지 확인]




엑셀의 그래프로 시각화하기


윈도우에 존재하는 Temp폴더내의 sample파일을 엑셀로 열어서 시각화한다.




현재 sample파일에는 CHANGES.txt파일에서  동일한 단어가 사용된 횟수가 적혀있고


필자는 내림차순으로 정렬하여 상위 20개를 그래프로 표현하려한다.





[상위 20개를 그래프를 이용하여 시각화한 사진]


이런식으로 시각화하여 사용자가 편리하게 확인하고 파악할 수 있도록 할 수 있다.


반응형

'리눅스' 카테고리의 다른 글

리눅스 Makefile  (0) 2019.11.26
리눅스 - Hive  (0) 2019.11.26
리눅스 하둡1  (0) 2019.11.26
리눅스 ssh key 생성  (0) 2019.11.25
리눅스 간단한 예제  (0) 2019.11.22