은닉 마르코프 모델
: 순차데이터를 확률적으로 모델링하는 생성 모델
마르코프 모델
: 상태로 이루어진 Sequence를 상태전이확률로 표현한 것
마르코프 가정
: 시간 t에서 관측은 가장 최근 r개의 관측에만 의존한다는 가정
A 상태전이확률 행렬, B 방출확률 행렬
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
인공지능
: 사람이 해야할 일을 기계가 대신할 수 있는 모든 자동화에 해당한다.
머신러닝
: 명시적으로 규칙을 프로그래밍 하지 않고 데이터로부터 의사결정을 위한 패턴을 스스로 학습한다.
딥러닝
: 인공신경망 기반의 모델로, 비정형 데이터로부터 특징 추출 및 판단까지 기계가 한 번에 수행한다.
프로그래밍 vs. 머신러닝
전통적인 프로그래밍 :
데이터와 규칙이 결합하여 출력을 생성한다.
규칙/로직(White-box)으로 출력한다.
개수가 너무 많고 복잡한 규칙이 많아서 유지하는 것이 어렵다.
머신러닝 :
데이터와 출력이 함께 들어가서 규칙을 생성한다.
모델(Black-box)로 출력한다.
알고리즘 기반으로 패턴을 추출할 수 있기 때문에 유지하는 것이 쉽다.
머신러닝 용어
데이터 : 문서, 사진, 음성, 동영상, 데이터베이스 등
데이터 탐색 : 데이터 모델링 전에 데이터 변수 별 특징 탐색 및 데이터의 분포적 특징 이해
결측치 : 데이터를 수집하다보면 일부 데이터가 수집되지 않고 결측치로 남아 있는데, 이러한 부분 보정이 필요하다.
이상치 : 관측치 중에서 다른 관측치와 크게 차이나는 관측치들은 모델링 전 처리가 필요하다.
데이터 타입 및 변환 : 데이터셋 안의 여러 종류 데이터들을 분석 가능한 형태로 변환 후 사용해야 한다.
특징 : 각각의 아이템을 설명하는데 사용되는 구분 가능한 특성
특징 벡터 : 어떤 대상을 표현하는 특징으로 이루어진 n차원의 벡터
특징 추출 : 주요 특징 벡터 추출, 특징 추출 기법 등을 사용한다.
정규화 : 데이터 변수들의 단위가 크게 다를 경우 모델 학습에 영향을 주는 경우가 있어 정규화한다.
데이터 샘플링 : 가지고 있는 데이터를 일부분 추출하는 것이다.
학습 데이터셋 : 학습에 사용하는 데이터의 집합이다.
머신러닝 흐름도
학습과 예측 단계로 구성된다.
학습을 통해 모델을 생성하고 생성된 모델을 통해 예측을 수행한다.
머신러닝의 종류
학습의 형태에 따라 3가지 학습 방법으로 구분한다.
지도 학습, 비지도 학습, 강화 학습
지도 학습 :
주어진 입력과 정해진 출력 간의 관계를 학습한다.
각 데이터에 레이블을 붙인다.(수작업)
결과를 수동으로 사람이 검토해야하는 비용이 감소한다.
지도 학습의 장단점 :
장점 :
이전의 경험으로부터 데이터 출력 생성
다양한 유형의 문제 해결에 도움이 된다.
단점 :
출력에 반드시 레이블이 있는 데이터들을 사용해야 한다.
일반적으로 많은 시간이 걸린다.
빅데이터의 경우 엄청난 시간이 걸릴 수도 있다.
비지도 학습 :
주어진 입력에 대응하는 출력정보 없이 학습한다.
데이터 분류에 대한 정보가 전혀 없이 데이터를 분류하고자 할 때 사용하는 학습 방법이다.
규칙성을 스스로 찾아내는 것이 학습의 주요 목표이다.
비지도 학습의 장단점 :
장점 :
학습데이터에 레이블이 없는 데이터 사용가능하다.
단점 :
정확성이 낮고 결과 검증에 많은 비용이 발생한다.
계산복잡도가 높다.
강화학습 :
시행착오를 통해 보상하는 행동 학습한다.
보상이 주어지는 문제 해결에 매우 효과적이다.
머신러닝 기술의 적용 분야
분류 : 데이터로부터 레이블을 예측한다.
회귀 : 데이터 분석을 통해 값을 예측한다.
군집 : 데이터로부터 의미 있는 그룹을 나눈다.
분류
유사한 특성을 가진 데이터들끼리 미리 정의된 카테고리로 분류한다.
2개로 분류하는 것은 이항분류, 그 이상은 다항분류이다.
레이블이 범주,클래스 등 이산적 데이터일 경우 분류분석이 사용된다.
회귀
회귀란 변수들 사이의 관계를 추정하기 위한 통계적 방법이다.
회귀는 학습데이터를 이용해 결과 값을 예측하는 것을 의미한다.
레이블이 연속적인 수치형 데이터일 경우 회귀 분석이 사용된다.
분류와 회귀의 차이점
분류는 일정한 기준에 따라 명백하게 구분 짓는 것이다.
반면 회귀는 오차 제곱의 합을 최소화하는 직선을 긋는 작업이다.
군집
군집은 서로 비슷한 개체 집합을 동일한 그룹으로 그룹화하는 작업이다.
카테고리는 미리 정의되어 있지 않다.
선형회귀의 종류
- 단순선형회귀 : 하나의 x값만으로 y값을 설명할 수 있을 때
- 다중선형회귀 : x값이 여러 개 필요할 때
단순선형회귀
회귀직선
최소제곱법 : 회귀직선에서 절편, 기울기 추정
- 추정된 회귀식
- 잔차 : 실제 관측자료와 추정된 회귀직선의 차이
- 최소제곱법 : 잔차를 제곱한 값들의 합이 최소가 되도록 해 기울기, 절편 구하는 방법
적합도 검증 (성능평가)
- MAE : 평균절대오차
실제값과 예측값 차이를 절대값으로 변환해서 평균을 구한다.
값이 극적으로 커지지 않는다.
절대값을 취하기 때문에 모델이 실제보다 낮은 값으로 예측했는지 높은 값으로 예측했는지 알 수 없다.
- MSE : 평균제곱오차 (제곱하는 이유는 미분하기 쉽게 하기 위해서)
잔차에 제곱을 사용해서 특이값이 있을 경우 값이 극적으로 증가한다.
- RMSE : MSE에서 구한 값에 루트를 적용한 값이다. (MSE의 오차 보정을 위해 사용된다.)
MSE 같은 오류의 제곱을 구할 때 실제 오류 평균보다 더 커지게 되므로 MSE에 루트를 씌운 것이다.
'전공 지식 정리 > 인공지능' 카테고리의 다른 글
#8 인공신경망 (0) | 2022.06.20 |
---|---|
#7 머신러닝2 (0) | 2022.06.20 |
#4,5 불확실성 및 확률 / 베이지안 네트워크 (0) | 2022.06.19 |
#3 지식 표현과 추론 (0) | 2022.04.23 |
#2 문제해결 및 탐색 전략 (0) | 2022.04.23 |