일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 추상 클래스
- PYTHON
- Keras
- choice
- 맴버연산자
- ITER
- cache locality
- Colab
- mnist
- neural network
- 메서드채이닝
- Next.js
- nextjs
- 인공신경망
- 실수
- 비공개 속성
- 정적 메서드
- self
- 메서드
- class
- randrange
- 깃모지
- __init__
- 식별연산자
- 정수
- 캐시의 지역성
- 구글코랩
- f-string
- built-in function
- gitmoji
- Today
- Total
IT world
리눅스 wordcount를 사용해서 데이터 값 시각화하기 본문
이번 포스팅은 hadoop의 wordcount를 통해서 빅데이터 값을 시각화하는 것을 진행하려한다.
필자는 데이터가 무수히 많은 txt파일에서 같은 단어들이 몇번 사용되었는지 알아보려한다.
txt파일만을 관리하기 위한 in1이라는 폴더를 만든다.
- hadoop fs -mkdir in1을 통해 hadoop경로에 in1이라는 폴더를 생성
- hadoop fs -lsr을 통해 생성된 파일을 확인한다.
hadoop경로에는 CHANGES.txt라는 파일이 존재하며 그 파일을 in1으로 옮긴다.
- hadoop fs -put CHANGES.txt /user/root/in1 을 통해 in1폴더로 파일을 이동.
[CHANGES.txt파일을 확인]
[파일이 이동하여 잘 저장된 것을 확인]
wordcount를 사용
- hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/in1/CHANGES.txt out 를 입력
- hadoop에서 jar의 파일을 사용할 것이며 hadoop-examples-1.0.4.jar폴더 내에 있는 wordcount를 사용하여 CHANGES.txt를 분석하고 분석 결과를 out이라는 파일에 결과값을 저장한다 (이때 결과값의 파일이름은 항상 default값으로 part-r-00000로 저장된다.)
-hadoop fs -lsr 로 분석한 결과가 저장되었는지 확인.
[해당 명령을 통해 out이라는 곳에 분석한 결과를 저장한다.]
[정확하게 수행한 결과가 part-r-00000의 이름으로 저장된 것을 확인할 수 있었다.]
실제로 이 데이터들을 엑셀을 이용해서 시각화하기 위해 결과파일을 윈도우에 존재하는 공유폴더로 Temp폴더에 sample이란 이름으로 결과 파일을 저장한다.
- hadoop fs -cat /user/root/out/part-r-00000>>/mnt/hgfs/Temp/sample 을 통해 공유폴더인 Temp에 하둡에서 분석한 결과파일을 sample이란 파일의 이름으로 저장한다.
- Temp경로로 이동하여 해당 파일이 생성되었는지 확인
[결과파일을 Temp폴더에 저장]
[Temp 경로로 이동해서 실제로 파일이 저장되었는지 확인]
엑셀의 그래프로 시각화하기
윈도우에 존재하는 Temp폴더내의 sample파일을 엑셀로 열어서 시각화한다.
현재 sample파일에는 CHANGES.txt파일에서 동일한 단어가 사용된 횟수가 적혀있고
필자는 내림차순으로 정렬하여 상위 20개를 그래프로 표현하려한다.
[상위 20개를 그래프를 이용하여 시각화한 사진]
이런식으로 시각화하여 사용자가 편리하게 확인하고 파악할 수 있도록 할 수 있다.
'리눅스' 카테고리의 다른 글
리눅스 Makefile (0) | 2019.11.26 |
---|---|
리눅스 - Hive (0) | 2019.11.26 |
리눅스 하둡1 (0) | 2019.11.26 |
리눅스 ssh key 생성 (0) | 2019.11.25 |
리눅스 간단한 예제 (0) | 2019.11.22 |