AI/통계학개론

통계학개론 01 데이터와 통계학(1)

Ayel 2026. 4. 2. 22:33

 

 

통계학이란

 

 

1. 통계학

: 데이터에 관한 학문

 

- 불확실한 현상을 이해하기 위해 데이터를 수집하고, 데이터 패턴을 요약하고, 분석하여

-> 불확실한 현상에 대한 결론을 찾는 학문

 

- 데이터란 세상을 이해하는 창

- 어떤 현상을 이해하기 위해 그 현상을 관찰해 데이터를 수집

 

- 전통적인 데이터 수집 방법: 관찰, 설문조사, 실험 등

 

- 현대의 데이터 수집 방법: 컴퓨터와 정보통신 기술의 발달로 매일 방대한 양의 데이터가 생산됨

-> 데이터 폭발

=> 데이터에서 쓸모있는 정보를 얻기 위한 별도의 과정이 필요

 

 

2. 통계학의 역할

 

1) 데이터 수집

: 알고 싶은 현상을 왜곡되지 않게, 잘 반영하는 데이터를 수집하기 위해 통계적 원리를 사용

 

2) 데이터 요약

: 데이터가 가진 특징과 패턴을 정확하고 효과적으로 드러내기 위한 통계적 방법을 사용

-> 기술통계

 

3) 추론

: 데이터를 이용해 우리의 관심 대상에 대해 추측하고 그 추측의 신뢰성을 계량화

-> 추측통계(추론통계)

 


3. 데이터의 요소

 

1) 데이터: 하나 이상의 변수에 대한 관찰값의 모음

 

2) 데이터의 기본 요소

- 단위(unit): 관측되는 개별 대상

- 변수(variable): 각 단위에 대해 관측되는 특성

- 관찰값(observation): 각 단위로부터 관측한 특성의 값

 

 

통계학의 주요 개념

 

 

1. 모집단과 표본

 

1) 모집단(pupulation)

: 관심 대상이 되는 모든 개체의 모임

 

2) 표본(sample)

: 모집단을 알기 위해 실제로 관측한 모집단의 일부

 

 

2. 모수와 통계량

 

1) 모수(parameter)

: 모집단의 특성을 나타내는 대푯값

 

2) 통계량(statistic)

: 표본의 특성을 나타내는 대푯값

 

 

3. 모집단과 모수

 

1) 모집단: 대부분의 경우 모집단은 너무 커서 모든 개체를 조사할 수 없다

 

2) 모집단의 종류

- 유한 모집단: 개체 수가 유한개

- 무한 모집단: 개체 수가 무한개

 

3) 모수

- 값이 고정되어 있다

- 대부분의 경우 값을 알 수 없다

cf. 예외: 개체수가 작은 유한모집단인 경우 모든 개체를 조사하면 모수를 알아낼 수 있다

 

 

4. 표본과 통계량

 

1) 표본

: 모집단을 잘 반영하는 표본을 뽑는 것은 매우 중요

 

2) 단순랜덤표집(sample random sampling)

: 유한모집단에서 n개의 개체로 이루어진 가능한 모든 부분집합이 표본으로 선택될 확률이 같도록 설계된 표본 표집 방법

 

3) 통계량

- 모수를 추정하기 위해 표본에서 얻은 값

- 표본을 새로 뽑으면 통계량의 값이 달라질 수 있다

 

 

R의 데이터 형태와 연산

 

 

1. 객체의 생성과 저장

객체명<-저장하고싶은값

 

 

 

2. 벡터(vector)

 

1) 벡터: 어떤 요소(값)들이 일렬로 늘어선 것

 

2) 벡터를 만드는 법

- c() 함수 안에 벡터의 각 요소를 쉼표로 구분해 넣는다

- seq() 등의 함수를 이용한다

 

height<-c(165, 151, 162, 160, 151, 152, 159, 163, 143, 161)  
d<-1:9 1부터 9까지 나열
e<-seq(1, 9, 2) 1에서 9까지 2씩 나열
f<-rep(10, 5) 10을 5번 반복
g<-c(d, f) d와 f가 들어간 벡터
h<-c(4:1, seq(0, 9, 3)) 4부터 1까지 나열하고 0부터 9까지 3씩 나
->함수를 섞어 사용하는 것도 가능

 

 

 

3) 벡터의 연산

: 벡터들 간 사칙연산 가능

 

- 벡터의 길이가 같은 경우: 각 벡터에서 같은 위치에 있는 숫자끼리 연산

- 벡터의 길이가 다른 경우: 길이가 짧은 벡터의 각 요소를 앞에서부터 재활용하면서 연산(경고메세지 출력)

 

 

 

3. 데이터형

 

- 숫자형: 사칙연산 가능

- 범주형: factor() 또는 as.factor()를 이용해 생성

- 문자형: as.character()를 이용해 생성

- 논리형: TRUE 또는 FALSE 값을 가짐

 

 

 

 

4. 행렬(matrix)

: 벡터 여러개의 모임

 

- 행렬의 요소들은 데이터형이 모두 같아야 한다

- cbind(), rbind(), matrix() 함수를 이용해 생성

 

1) 행렬의 연산 가능

- 행렬의 곱셈: %*% 형태로 사용

- solve() 역행렬

 

2) 행렬의 일부 값 출력

- s[1, 2]: 1행 2열 값

- s[1, ]: 1행 모두 출력

- s[, 2]: 2열 전체 출력

 

 

 

- 행렬과 비슷하나 데이터형이 다른 벡터들도 하나의 데이터프레임에 저장 가능

- data.frame() 함수를 이용해 생성

 

- dat$name: 데이터프레임을 불러낼 수 있다

 

 

 

 

https://developernew.tistory.com/453

 

R과 RStudio 설치 및 시작

R이란 - 통계 분석과 그래프 작성에 쓰이는 무료 소프트웨어- Windows, MacOS, Linux 등 다양한 컴퓨터 환경에 쉽게 설치, 사용 가능- R development core team에 의해 유지, 개선 - 누구나 새로운 함수를 개발

developernew.tistory.com

 

 

 

'AI > 통계학개론' 카테고리의 다른 글

R과 RStudio 설치 및 시작  (0) 2026.04.02