IT world

리눅스 wordcount를 사용해서 데이터 값 시각화하기 본문

리눅스

리눅스 wordcount를 사용해서 데이터 값 시각화하기

엄킹 2019. 11. 26. 15:50



이번 포스팅은 hadoop의 wordcount를 통해서 빅데이터 값을 시각화하는 것을 진행하려한다.


필자는 데이터가 무수히 많은 txt파일에서 같은 단어들이 몇번 사용되었는지 알아보려한다.






txt파일만을 관리하기 위한 in1이라는 폴더를 만든다.


- hadoop fs -mkdir in1을 통해 hadoop경로에 in1이라는 폴더를 생성

- hadoop fs -lsr을 통해 생성된 파일을 확인한다.








hadoop경로에는 CHANGES.txt라는 파일이 존재하며 그 파일을 in1으로 옮긴다.


- hadoop fs -put CHANGES.txt /user/root/in1 을 통해 in1폴더로 파일을 이동.



[CHANGES.txt파일을 확인]



[파일이 이동하여 잘 저장된 것을 확인]





wordcount를 사용


- hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/in1/CHANGES.txt out 를 입력


- hadoop에서 jar의 파일을 사용할 것이며 hadoop-examples-1.0.4.jar폴더 내에 있는 wordcount를 사용하여 CHANGES.txt를 분석하고 분석 결과를 out이라는 파일에 결과값을 저장한다 (이때 결과값의 파일이름은 항상 default값으로 part-r-00000로 저장된다.)


-hadoop fs -lsr 로 분석한 결과가 저장되었는지 확인.



[해당 명령을 통해 out이라는 곳에 분석한 결과를 저장한다.]






[정확하게 수행한 결과가 part-r-00000의 이름으로 저장된 것을 확인할 수 있었다.]






실제로 이 데이터들을 엑셀을 이용해서 시각화하기 위해 결과파일을 윈도우에 존재하는 공유폴더로 Temp폴더에 sample이란 이름으로 결과 파일을 저장한다.


- hadoop fs -cat /user/root/out/part-r-00000>>/mnt/hgfs/Temp/sample 을 통해 공유폴더인 Temp에 하둡에서 분석한 결과파일을        sample이란 파일의 이름으로 저장한다.


- Temp경로로 이동하여 해당 파일이 생성되었는지 확인



[결과파일을 Temp폴더에 저장]





[Temp 경로로 이동해서 실제로 파일이 저장되었는지 확인]




엑셀의 그래프로 시각화하기


윈도우에 존재하는 Temp폴더내의 sample파일을 엑셀로 열어서 시각화한다.




현재 sample파일에는 CHANGES.txt파일에서  동일한 단어가 사용된 횟수가 적혀있고


필자는 내림차순으로 정렬하여 상위 20개를 그래프로 표현하려한다.





[상위 20개를 그래프를 이용하여 시각화한 사진]


이런식으로 시각화하여 사용자가 편리하게 확인하고 파악할 수 있도록 할 수 있다.


'리눅스' 카테고리의 다른 글

리눅스 Makefile  (0) 2019.11.26
리눅스 - Hive  (0) 2019.11.26
리눅스 하둡1  (0) 2019.11.26
리눅스 ssh key 생성  (0) 2019.11.25
리눅스 간단한 예제  (0) 2019.11.22
Comments