데이타통계처리 #4-1

3./데이타통계처리

데이타통계처리 #4-1

Hailey Han 2025. 3. 24. 19:42

728x90

1.평균계산

source01 지우기(변수삭제)

변환>변수계산>평균계산하기>소수점

2.코딩변경

같은변수코딩변경: 덮어쓰기를 하는 것.
다른변수코딩변경: 이미 해봤음(역P_1). 원본데이터 냅두고 다른변수로 만드는게 대부분.
평균점수를 '등급'으로 다른변수로 만들거임.
변환>다른변수코딩변경
이상이하만 되는데 '미만'? 79점 이하가 아님. 원데이터가 소수점 첫째자리니까 안전하게 79.99'이하로 만들어야 함.
'최저값에서 다름 값까지 범위':79.99
새로운값, '값:C' 입력. 문자이기에 '출력변수가 문자열임'에 체크 필요!.
90미만: 80.99 미만, 다음값에서 최고값까지 범위 '90' 입력.
대부분 숫자로 나뉘지만, 등급으로도 나눌 수 있다~!
행 '등급'에 까만색a가 있다? 문자열이다 (명목형 자동설정)을 의미함.
분석>기술통계>빈도분석>등급>차트> 원형/퍼센트 > 계속>확인 > 결측값이 없어서 퍼센트/유효퍼센트가 같음.
B이하는 몇퍼센트? 96.9%,

3. 시각적 구간화

명목형이면 시각적구간화 적용불가. 그래서 측도 변경 필요함.
이번엔 '수리영역' 사용.
변수이름 '수리영역등급, 결측값 없고, 스캔된 케이스 64, 최대 95 최소 63'
지난시간엔 격자에서 나누고 상한끝점 제외를 했었음. '다른변수코딩'은 '이하'만 되는데, 여기는 '미만'도 가능. '레이블만들기' 수정해서 사용가능함. 오늘은 '절단점 만들기'를 할거임
절단점만들기 클릭: 처음 절단점 위치70절단점수, '너비'는 저절로 폭을 알려줌.
상한끝점 포함이면(이하, 초과)를 의미함.
처음 절단점 위치70, 절단점 수 3, 너비 8.333(자동), 상한끝점 포함이여서 '이하'로 자동지정
재설정누르고, 막대/빈도로 지정.
** - 모든 시험과제의 답은 같다: 87+ 라고 쓰고 생각(논문)에서만 87이상이라고 할 것.

4. 실습문제: BMI지수 만들기

변수계산 '키_BMI': '(키/100) * * 2' 키cm를 m단위로 바꾸고 제곱한것과 같게 함.
BMI지수 더한 변수 만들기: '몸무게/키_BMI'
이 지수를 5단계로 나누자(저체중~고도비만): 시각적구간화사용
상한끝점제외,
막대/퍼센트 : 고도비만은 없음.

5. 순위변수생성

변환 > 순위변수생성 > 수리영역 >

낮음: 공동1등 나올 수 있다.
생각해보니 새 변수 이름이 없다. 이런 경우 SPSS가 순위변수 만들어줌. 'R수리' Rank of 수리영역 > 오름차수를 보니 1등 2명(낮은순위로 했을 경우), 평균(1.5명), 높음(2등,2등)

6. 자동코딩변경

등급(a,b,c)를 등급에따라 IQ1과 평균에 차이가 있는지 알고싶다.
메뉴분석>평균비교>일원배치분산분석>
'등급' 변수가 없다? 문자형 데이터는 분산분석에 사용할 수 없다.ㅠㅠ. 척도를 근데 순서형으로 바꿀수도 없음. ㅠㅠ. 이럴때 abc를 숫자값으로 바꾸어 버리면 됨. 이때 사용하는게 '자동코딩변경'
자동코딩변경> '등급숫자' 새이름 > 최저값( a=1,b=2..) . '값레이블'로 바뀐거 확인 가능.
빈도분석에서 결과 확인.

7.nba 2008-2009 file

team, player 는 문자열로 되어있다. case는 461개이지만, 이건 소속된 팀원 수. 몇개 팀인지 알려면> 팀을 오름차순 정렬해서 (?) 가 아님. > 빈도분석도 가능한데 많음 > '자동코딩변경'을 하면 됨.
새변수 '숫자팀'. 최저값(a=1) , '값 레이블'을 통해 몇개팀으로 이루어졌는지 확인 가능. 30개 팀인거 확인.
이제 팀간 연봉차이가 궁금하다? -> 팀 명을 숫자변수로 해서 바꾸고 분산분석하면 됨. > 여기서 '문자'는 들어오지 않는 것을 확인해야함!
옵션/기술통계/

저작자표시 비영리 변경금지 (새창열림)