IT world

R-Graph 본문

코딩/R Language

R-Graph

엄킹 2020. 1. 6. 17:29

Graph

그래프 : 데이터를 보기 쉽게 그림으로 표현한 것.

- 데이터 원 자료나 통계표는 숫자와 문자로 구성되어 있어 의미를 한눈에 파악하기 어려움


그래프의 장점 

- 데이터 전체의 특성을 쉽게 이해할 수 있다.

- 데이터의 추세와 경향성을 파악할 수 있다.

- 그래프를 만드는 과정에서 새로운 패턴을 발견하기도 한다.








1.  Scatter Plot (산점도)


x축과 y축에 데이터를 점으로 표현한 그래프로 연속 값으로된 두 변수의 관계를 표현한다.


기본 문법 : plot(x, y, main, xlab, ylab, xlim, ylim, axes)


예) mtcars 데이터 프레임을 이용하여 wt(중량)과 mpg(연비)의 관계에 대해서 알아본다.


- 상관 관계를 알아보기 위해 cor()함수를 이용하여 mtcars의 wt와, mpg의 관계를 알아본다,


[wt와 mpg의 상관관계]

 

- 그림을 보면 -0.867..의 결과값이 출력되었고 -1.0에 가까울 수록 역상관관계이며 wt와 mpg는 역상관 관계임을 확인하였다.


- 산점도 그래프를 이용하여 전체적으로 중량이 무거울 수록 연비가 낮다는 경향성을 확인할 수 있었다.



[코드]


      [그래프 - 역상관관계이며 중량이 무거울수록 연비가 낮음을 확인]






2. Pie Chart


전체에 대한 각 데이터의 기여도를 비율로 표현하고자 할 때 사용

- 타 그래프에 비해 비율 파악에는 유리하지만, 정확한 수치 데이터를 파악할 때는 막대 그래프를 사용하는 것이 효과적.


기본 문법: pie(x, labels, radius, main, col, clockwise)




예) 최근 시험 결과 다음과 같은 학점을 받은 데이터가 있다고 가정한 후 데이터셋을 만들고 pie chart로 비율을 시각화 해본다.


[시험 결과 각 학점에 대한 학생의 수]



- pie chart를 사용하기 위해 데이터프레임을 생성하여 비교하고자 하는 데이터 셋을 확보한다.


[데이터 프레임 생성]


- pie chart를 생성하기 위해 pie() 함수를 사용하여 그래프 생성

* 이때 col=rainbow(4) 대신 col=c("blue","green","yellow","red")를 사용하여 사용자가 색상을 지정할 수 있다.


[코드]

[pie chart 그래프]





 pie차트 응용!


# 응용1 : pie chart 라벨을 비율로 대체 

- 각각 A,B,C,D가 어느정도 비율을 차지하는지 수치로 확인하기. # 비율 파생변수를 생성하여 해당 변수를 label값으로 사용할 것 이다.



[해당 변수들이 차지하는 비율을 알기위한 코드 작성 및 결과 출력 - 출력결과는 A~D 순]


- pie 차트 출력


[코드]


[A~D로 표시되던 영역이 각각의 비율 값으로 표시됨]



# 응용2 : 범례표시

- legend()함수를 사용하여 위치, 라벨명, 표현되는 색상을 작성해준다.


[코드]

[범례가 오른쪽 상단에 설정 된 것을 확인할 수 있다.]







3. Bar Chart


일정 기간 동안의 데이터 변화 혹은 항목간의 값을 비교하고자 할 때 사용되며 각 값들은 면적을 가진 막대기 형태로 표시


기본 문법 : barplot(H, xlab, ylab, main, name.arg, col)




예) sample 함수를 통해 무작위 수를 추출하여 데이터셋을 만들고 해당 데이터를 통해 bar chart를 생성


- 그래프를 생성하기 위한 데이터 셋 생성

1:20을 통해 1~20사이의 숫자 중 무작위로 6개를 추출하며  rep=T 는 복원추출허용하는 것이다.


[코드]


- 막대그래프의 각각의 bar에 대한 이름 생성


[코드]


- bar chart 생성

[코드]

    [그래프]




 bar 차트 응용!


#응용 : 매트릭스를 응용하면 그룹 바차트(혹은 Stacked Bar Chart)를 만들어 낼 수 있다. 

- 각 바에는 하나의 열에 해당하는 각각의 값들이 표현된다. 


- bar 차트를 생성하기 위한 데이터를 생성하고 matrix로 전달하여 그룹 바차트를 생성하기 위한 코드 작성


[코드]


[현재 rev2의 구조를 보여주며 martrix 형태로 데이터가 존재하고 있다.]



- bar차트를 생성하며 col를 설정하여 각각의 바 그래프 내에 다수의 값이 시각화되어있음을 확인 


각 바의 색상은 하나의 열의 값을 표현한 것 과 같다. 즉 현재 1열은 9, 20, 8의 값을 가지고 있는데 MAR 막대그래프를 확인하면 수치값이 동일한 것을 확인할 수 있다.


[코드]

[그래프]




4. Histogram


범위로 묶은 변수의 빈도를 표현. 바 차트와 비슷하지만 히스토그램은 연속범위를 그룹화하며 히스토그램의 각 막대는 해당 범위 내에 있는 값의 수의 높이를 표현한다.


기본 문법 : hist(v, main, xlab, xlim, ylim, breaks, col, border)


예)wstudent라는 학생들의 정보가 담긴 데이터 프레임 사용하여 그래프를 생성 (wstudent.xlsx라는 엑셀 파일을 이용함)


- wstudent의 height 변수를 사용하여 그래프를 생성



[코드]



   [그래프]



'코딩 > R Language' 카테고리의 다른 글

R Language(R 프로그래밍 언어란)  (0) 2020.01.03
Comments