데이터 시각화 2가지 – 그래프와 데이터

여기서는 데이터 시각화 중요한 요소인 그래프와 데이터에 대해 알아보겠습니다. 데이타를 그래프로 표현하는 것은 데이타 시각화에 있어서 매우 중요합니다. 그에 따라 적절한 그래프 형식을 선택해야 합니다. 이를 위해서는 데이타의 성격을 명확히 이해하는 것이 필요합니다.

데이터 시각화 – 그래프

  1. 막대그래프 : 양의 대소를 나타낸다.
  2. 꺾은선 그래프 : 변화를 나타낸다.
  3. 원그래프 : 비율을 나타낸다.
  4. 띠그래프 : 비율을 비교한다.

1. 막대그래프

  • 양의 대소를 비교하는 데 적합하다.

2. 꺾은선 그래프

  • 변화를 나타내는 데 적합하다.
  • 주의할 점은 변화 정도에 대한 이미지를 그래프 작성자가 축간격을 조작해서 자세히 보지 않으면 눈속임이 가능하다. 예를 들어 같은 변화량이라도 가로축을 넓히면 훨씬 완만하게 보일 수도 있다.

3. 원그래프

  • 각각의 항목이 어느 정도 비율을 차지하는지 나타내기에 적합하다.

4. 띠그래프

  • 비율이 어떻게 변화했는지를 비교하는 데 적합

데이터

1. 질적 데이터

  • ‘카테고리컬 데이터’라고 불리며 혈액형, 선호하는 음식 등 헤아릴 수 없는 변량(질적 변량)으로 이루어진다.

2. 양적 데이터

  • 숫자를 더하거나 빼는 것에 의미가 있는 변량(양적 변량)으로 이루어진 데이터
  1. 이산형 데이터
    1. 주사위 눈, 자동차 대수, 사람 수 등과 같이 듬성듬성한 값만 얻을 수 있는 것
    2. 주사위 1, 2 사이에는 중간값이 없다.
  2. 연속형 데이터
    1. 사람의 키, 체중, 시간 등과 같은 연속하는 값
    2. 사람키 170과 180 사이에는 중간값이 존재한다.

3. 데이터 정리 순서

  1. 도수분포표로 정리한다.
  2. 히스토그램을 만든다.

데이터 시각화 – 도수분포표

  1. 계급 : 데이터를 몇 개의 동등한 폭으로 나눈 구간
  2. 계급값 : 각 계급의 중앙값
  3. 도수 : 각각의 계급에 들어가는 데이터의 수
  4. 상대도수 : 도수의 합계에 대한 각 계급 도수의 비율
  5. 누적상대도수 : 그 계급 이하의 상대도수의 합계
  • 도수분포표는 각 계급마다 도수, 상대도수, 누적상대도수 등을 정리한 표이다.
  • 계급의 폭이 너무 좁으면 표가 복작해지고 반대로 너무 넓으면 데이터의 경향을 알기 힘들다.
  • 계급의 폭은 1,2,5,10,20,50 등에서 자르기 좋은 값을 선택한다.
  • 계급 수가 5~20의 범위 내에 있게 한다.
  • 계급의 종류가 너무 많거나 너무 적거나 하지 않게 한다.
  • 도수분포표 예시 – 시험 결과(도수분포표)
계급(점)계급값(점)도수(명)상대도수누적상대도수
이상 ~ 미만
10~201510.0250.025
20~302530.0750.100
30~403550.1250.225
40~504540.1000.325
50~605570.1750.500
60~706540.1000.600
70~807530.0750.675
80~908570.1750.825
90~1009560.1501.000
합계401.00

데이터 시각화 – 도수분포표 참고 시 주의점

  1. 도수분포표에서는 각 데이터의 구체적인 값은 알 수 없다.
  2. 상대도수는 ‘도수의 합계에 대한 각 계급 도수의 비율’이다.

상대도수 = 주목하고 있는 계급의 도수 / 도수의 합계

  1. 주목하는 계급 이하(이상)가 전체의 몇 % 이하(이상)가 되는지를 알고 싶을 때는 누적상대도수를 보자.
    1. ‘10 이상 ~ 60미만’인 누적 도수는 0.500
    2. 이 의미는 60점 미만인 학생이 전체의 50%를 차지하고 있음을 의미한다.

데이터 시각화 – 히스토그램

  • 히스토그램이란 도수분포표의 계급을 가로축으로, 도수를 세로축으로 한 막대그래프(기둥 모양 그래프)를 말한다.
  • 꺾은선그래프로 누적상대도수를 추가할 수 있다.
  • 도수가 완전히 같은 경우는 누적상대도수의 꺾은선그래프는 직선이 된다.

히스토그램 그릴 때 주의점

  1. 최초와 최후 계급의 이웃은 한 계급 분만큼 띄운다.
  2. 히스토그램에서는 세로막대의 간격을 띄우지 않는다.

데이터 시각화 참고 자료

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Back to top