3./데이타통계처리

데이타통계처리 #4-1

Hailey Han 2025. 3. 24. 19:42
728x90

1.평균계산

source01  지우기(변수삭제)

  • 변환>변수계산>평균계산하기>소수점

2.코딩변경

  • 같은변수코딩변경: 덮어쓰기를 하는 것.
  • 다른변수코딩변경: 이미 해봤음(역P_1). 원본데이터 냅두고 다른변수로 만드는게 대부분.
  • 평균점수를 '등급'으로 다른변수로 만들거임.
  • 변환>다른변수코딩변경
  • 이상이하만 되는데 '미만'? 79점 이하가 아님. 원데이터가 소수점 첫째자리니까 안전하게 79.99'이하로 만들어야 함.
  • '최저값에서 다름 값까지 범위':79.99
  • 새로운값, '값:C' 입력. 문자이기에 '출력변수가 문자열임'에 체크 필요!.
  • 90미만: 80.99 미만, 다음값에서 최고값까지 범위 '90' 입력.
  • 대부분 숫자로 나뉘지만, 등급으로도 나눌 수 있다~!
  • 행 '등급'에 까만색a가 있다? 문자열이다 (명목형 자동설정)을 의미함.
  • 분석>기술통계>빈도분석>등급>차트> 원형/퍼센트 > 계속>확인 > 결측값이 없어서 퍼센트/유효퍼센트가 같음.
  • B이하는 몇퍼센트? 96.9%,

3. 시각적 구간화

  • 명목형이면 시각적구간화 적용불가. 그래서 측도 변경 필요함.
  • 이번엔 '수리영역' 사용.
  • 변수이름 '수리영역등급, 결측값 없고, 스캔된 케이스 64, 최대 95 최소 63'
  • 지난시간엔 격자에서 나누고 상한끝점 제외를 했었음. '다른변수코딩'은 '이하'만 되는데, 여기는 '미만'도 가능. '레이블만들기' 수정해서 사용가능함. 오늘은 '절단점 만들기'를 할거임
  • 절단점만들기 클릭: 처음 절단점 위치70절단점수, '너비'는 저절로 폭을 알려줌.
  • 상한끝점 포함이면(이하, 초과)를 의미함.
  • 처음 절단점 위치70, 절단점 수 3, 너비 8.333(자동), 상한끝점 포함이여서 '이하'로 자동지정
  • 재설정누르고, 막대/빈도로 지정.
  • ** - 모든 시험과제의 답은 같다: 87+ 라고 쓰고 생각(논문)에서만 87이상이라고 할 것.

4. 실습문제: BMI지수 만들기

  • 변수계산 '키_BMI': '(키/100) * * 2' 키cm를 m단위로 바꾸고 제곱한것과 같게 함.
  • BMI지수 더한 변수 만들기: '몸무게/키_BMI'
  • 이 지수를 5단계로 나누자(저체중~고도비만): 시각적구간화사용
  • 상한끝점제외,
  • 막대/퍼센트 : 고도비만은 없음.

5. 순위변수생성

변환 > 순위변수생성 > 수리영역 >

  • 낮음: 공동1등 나올 수 있다.
  • 생각해보니 새 변수 이름이 없다. 이런 경우 SPSS가 순위변수 만들어줌. 'R수리' Rank of 수리영역 > 오름차수를 보니 1등 2명(낮은순위로 했을 경우), 평균(1.5명), 높음(2등,2등)

6. 자동코딩변경

  • 등급(a,b,c)를 등급에따라 IQ1과 평균에 차이가 있는지 알고싶다.
  • 메뉴분석>평균비교>일원배치분산분석>
  • '등급' 변수가 없다? 문자형 데이터는 분산분석에 사용할 수 없다.ㅠㅠ. 척도를 근데 순서형으로 바꿀수도 없음. ㅠㅠ. 이럴때 abc를 숫자값으로 바꾸어 버리면 됨. 이때 사용하는게 '자동코딩변경'
  • 자동코딩변경> '등급숫자' 새이름 > 최저값( a=1,b=2..) . '값레이블'로 바뀐거 확인 가능.
  • 빈도분석에서 결과 확인.

7.nba 2008-2009 file

  • team, player 는 문자열로 되어있다. case는 461개이지만, 이건 소속된 팀원 수. 몇개 팀인지 알려면> 팀을 오름차순 정렬해서 (?) 가 아님. > 빈도분석도 가능한데 많음 > '자동코딩변경'을 하면 됨.
  • 새변수 '숫자팀'. 최저값(a=1) , '값 레이블'을 통해 몇개팀으로 이루어졌는지 확인 가능. 30개 팀인거 확인.
  • 이제 팀간 연봉차이가 궁금하다? -> 팀 명을 숫자변수로 해서 바꾸고 분산분석하면 됨. > 여기서 '문자'는 들어오지 않는 것을 확인해야함!
  • 옵션/기술통계/