통계학이란
1. 통계학
: 데이터에 관한 학문
- 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약하고, 분석하여
-> 불확실한 현상에 대한 결론을 찾는 학문
- 데이터란 세상을 이해하는 창
- 어떤 현상을 이해하기 위해 그 현상을 관찰해 데이터를 수집
- 전통적인 데이터 수집 방법: 관찰, 설문조사, 실험 등
- 현대의 데이터 수집 방법: 컴퓨터와 정보통신 기술의 발달로 매일 방대한 양의 데이터가 생산됨
-> 데이터 폭발
=> 데이터에서 쓸모있는 정보를 얻기 위한 별도의 과정이 필요
2. 통계학의 역할
1) 데이터 수집
: 알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용
2) 데이터 요약
: 데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용
-> 기술통계
3) 추론
: 데이터를 이용해 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화
-> 추측통계(추론통계)
3. 데이터의 요소
1) 데이터: 하나 이상의 변수에 대한 관찰값의 모음
2) 데이터의 기본 요소
- 단위(unit): 관측되는 개별 대상
- 변수(variable): 각 단위에 대해 관측되는 특성
- 관찰값(observation): 각 단위로부터 관측한 특성의 값
통계학의 주요 개념
1. 모집단과 표본
1) 모집단(pupulation)
: 관심 대상이 되는 모든 개체의 모임
2) 표본(sample)
: 모집단을 알기 위해 실제로 관측한 모집단의 일부
2. 모수와 통계량
1) 모수(parameter)
: 모집단의 특성을 나타내는 대푯값
2) 통계량(statistic)
: 표본의 특성을 나타내는 대푯값
3. 모집단과 모수
1) 모집단: 대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다
2) 모집단의 종류
- 유한 모집단: 개체 수가 유한개
- 무한 모집단: 개체 수가 무한개
3) 모수
- 값이 고정되어 있다
- 대부분의 경우 값을 알 수 없다
cf. 예외: 개체수가 작은 유한모집단인 경우 모든 개체를 조사하면 모수를 알아낼 수 있다
4. 표본과 통계량
1) 표본
: 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요
2) 단순랜덤표집(sample random sampling)
: 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법
3) 통계량
- 모수를 추정하기 위해 표본에서 얻은 값
- 표본을 새로 뽑으면 통계량의 값이 달라질 수 있다
R의 데이터 형태와 연산
1. 객체의 생성과 저장
| 객체명<-저장하고싶은값 |

2. 벡터(vector)
1) 벡터: 어떤 요소(값)들이 일렬로 늘어선 것
2) 벡터를 만드는 법
- c() 함수 안에 벡터의 각 요소를 쉼표로 구분해 넣는다
- seq() 등의 함수를 이용한다
| height<-c(165, 151, 162, 160, 151, 152, 159, 163, 143, 161) | |
| d<-1:9 | 1부터 9까지 나열 |
| e<-seq(1, 9, 2) | 1에서 9까지 2씩 나열 |
| f<-rep(10, 5) | 10을 5번 반복 |
| g<-c(d, f) | d와 f가 들어간 벡터 |
| h<-c(4:1, seq(0, 9, 3)) | 4부터 1까지 나열하고 0부터 9까지 3씩 나 ->함수를 섞어 사용하는 것도 가능 |

3) 벡터의 연산
: 벡터들 간 사칙연산 가능
- 벡터의 길이가 같은 경우: 각 벡터에서 같은 위치에 있는 숫자끼리 연산
- 벡터의 길이가 다른 경우: 길이가 짧은 벡터의 각 요소를 앞에서부터 재활용하면서 연산(경고메세지 출력)

3. 데이터형
- 숫자형: 사칙연산 가능
- 범주형: factor() 또는 as.factor()를 이용해 생성
- 문자형: as.character()를 이용해 생성
- 논리형: TRUE 또는 FALSE 값을 가짐


4. 행렬(matrix)
: 벡터 여러개의 모임
- 행렬의 요소들은 데이터형이 모두 같아야 한다
- cbind(), rbind(), matrix() 함수를 이용해 생성
1) 행렬의 연산 가능
- 행렬의 곱셈: %*% 형태로 사용
- solve() 역행렬
2) 행렬의 일부 값 출력
- s[1, 2]: 1행 2열 값
- s[1, ]: 1행 모두 출력
- s[, 2]: 2열 전체 출력

- 행렬과 비슷하나 데이터형이 다른 벡터들도 하나의 데이터프레임에 저장 가능
- data.frame() 함수를 이용해 생성
- dat$name: 데이터프레임을 불러낼 수 있다

https://developernew.tistory.com/453
R과 RStudio 설치 및 시작
R이란 - 통계 분석과 그래프 작성에 쓰이는 무료 소프트웨어- Windows, MacOS, Linux 등 다양한 컴퓨터 환경에 쉽게 설치, 사용 가능- R development core team에 의해 유지, 개선 - 누구나 새로운 함수를 개발
developernew.tistory.com
'AI > 통계학개론' 카테고리의 다른 글
| R과 RStudio 설치 및 시작 (0) | 2026.04.02 |
|---|