AI&ML 기초
Reference: https://bettermesol.github.io/ml/2019/09/16/ai-ml-dl/AI: 기계가 사람처럼 생각하고 판단하게 만드는 가장 넓은 범주의 기술입니다.ML: 데이터를 학습하여 스스로 규칙을 찾아내는 AI의 한 분야로,

1. AI, ML, DL의 정의 🎯
Reference: https://bettermesol.github.io/ml/2019/09/16/ai-ml-dl/
AI: 기계가 사람처럼 생각하고 판단하게 만드는 가장 넓은 범주의 기술입니다.
ML: 데이터를 학습하여 스스로 규칙을 찾아내는 AI의 한 분야로, 통계적 기법을 주로 사용합니다.
DL: 머신러닝 중에서도 Neural Network 알고리즘을 심층적으로 적용한 기술입니다.
2. 데이터 구성 요소 🎯
Reference: https://ertac.paprat.com/blog/key-ml-concepts-features-labels-models/ Reference: https://youtu.be/YSbMkOiKc2A? Reference: https://developers.google.com/machine-learning/intro-to-ml/supervised?hl=ko
Feature: 모델이 예측에 사용하는 입력 정보입니다.
Label: 모델이 예측하려는 정답입니다.
3. 단일 피쳐 기반 학습 🎯
Reference: https://www.rnfc.org/courses/isl/Lesson%202/Summary/
학습: 입력(Feature)과 출력(Label)의 관계를 찾는 과정입니다.
가설 공간: 관계를 표현할 수 있는 모든 후보 함수들의 집합입니다.
모델: 가설 공간에 속한 특정 함수입니다.
1D 피쳐 기반 학습: Feature가 하나일 때 머신러닝이 학습하는 가장 단순한 형태입니다.
2D 피쳐 기반 학습: Feature가 두 개일 때 데이터 간의 관계를 평면상의 Decision Boundary로 찾아내는 학습 형태입니다.
4. 지도 학습 🎯
Reference: https://ellun.tistory.com/103
지도 학습: 정답 Label이 있는 훈련 데이터를 사용해 예측 모델을 학습하는 방법입니다. 훈련 데이터 뿐만 아니라, 처음 보는 데이터에 대해서도 예측 성능을 향상하는 것이 목표입니다.
4-1. 회귀(Regression) ✅
Reference: https://modulabs.co.kr/blog/r-squared Reference: https://thebook.io/080263/0091/
회귀: 예측하고 싶은 결과값이 숫자일 때 적용하는 지도 학습 기법 중 하나입니다.
MSE(Mean Square Error): 실제 정답과 모델의 예측값 차이를 제곱하여 평균을 낸 값으로, 회귀 모델의 오차를 측정하는 대표적인 지표입니다.
결정계수: 회귀 모델이 실제 데이터의 변동성을 얼마나 잘 설명하는지 0과 1 사이의 숫자로 나타낸 성능 지표입니다.
4-2. 분류(Classification) ✅
Reference: https://manisha-sirsat.blogspot.com/2019/04/confusion-matrix.html
분류: 예측하고 싶은 결과값이 범주(카테고리)일 때 적용하는 지도 학습 기법 중 하나입니다.
Accuracy: (올바르게 맞춘 개수 / 전체 예측 개수)입니다. 불균형 데이터를 대상으로 할 경우 모델의 실제 성능을 왜곡할 수 있습니다.
Confusion Matrix: 예측과 실제값 사이의 관계를 표현한 행렬입니다.
정밀도: 모델이 '참'이라고 예측한 것 중 실제 '참'인 비율로, False Positive를 줄이는 것이 중요할 때 사용합니다.
재현율: 실제 '참'인 것 중 모델이 '참'이라고 맞춘 비율로, False Negative를 줄이는 것이 핵심입니다.
F1-Score: 정밀도와 재현율의 조화 평균으로, 데이터가 불균형할 때 모델의 전체적인 성능을 가장 객관적으로 나타내는 지표입니다. 2((정밀도 재현율) / (정밀도 + 재현율))
Overfitting: 훈련 데이터의 noise까지 외워버려서, 훈련에서는 잘 맞지만 테스트에서는 성능이 나빠지는 현상을 의미합니다. 일반화 실패가 오버피팅의 핵심입니다.
Distribution Shift: 학습 데이터의 통계적 특성과 테스트 데이터의 특성이 달라져 모델의 성능이 떨어지는 현상입니다. Overfitting이 내부의 문제라면 Distribution Shift는 외부의 문제입니다.
Underfitting: 모델이 너무 단순하여 학습 데이터의 내재된 규칙조차 제대로 학습하지 못한 상태입니다.
5. 테스트 성능 평가 🎯
Reference: https://www.researchgate.net/publication/380816945_Time-Series_Decomposition_Model_combined_with_pre-trained_LSTM_Real-time_prediction_of_dissolved_oxygen_concentration_suitable_for_automated_aquaculture_feeding_system
테스트 성능 평가: 학습에 사용되지 않은 별도의 데이터셋을 통해 모델이 새로운 데이터에 대해 얼마나 잘 일반화되었는지 검증하는 과정입니다.
5-1. 검증셋(Validation Set) ✅
Reference: https://medium.com/@jcanque/resampling-methods-for-data-scientists-cf6b255fdd5c Reference: https://davincilabs.ai/blog/?bmode=view&idx=10640969
검증셋 방법: 가용 샘플들을 무작위로 훈련셋과 검증셋으로 분할하는 방법입니다.
5-2. K-fold 교차검증 ✅
Reference: https://youtu.be/rSGzUy13F_0?
K-fold 교차검증: 전체 데이터를 K개의 폴드로 나누어, 매번 다른 그룹을 검증셋으로 사용해 총 K번 학습과 평가를 반복하는 방식입니다.
5-3. Leave-One-Out 교차검증 ✅
Leave-One-Out 교차검증: 전체 데이터 중 단 하나의 샘플만을 검증셋으로 쓰고 나머지를 모두 훈련셋으로 사용하는 과정을 데이터 개수만큼 반복하는 방식입니다.
6. 비지도 학습 🎯
Reference: https://velog.io/@dxstyblxe/%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9D Reference: https://www.ksam.co.kr/p_base.php?action=story_base_view&s_category=_3_&no=2864 Reference: https://thebook.io/080263/0105/
비지도 학습: Label 없이 데이터의 구조, 패턴, 집단을 찾아내는 학습 기법입니다. 출력이 '정답 예측'이 아니라 구조, 요약, 표현이라는 점에 지도 학습과 차이가 있습니다.
6-1. 클러스터링(Clustering) ✅
Reference: https://youtu.be/zLt7iNXL85c?
클러스터링: 데이터 안에서 하위 집단(클러스터)을 찾는 기법들을 총칭합니다.
6-2. K-means 클러스터링(K-means Clustering) ✅
Reference: https://thebook.io/080263/0116/
K-means 클러스터링: 클러스터 수(K)를 미리 정해 분할하는 클러스터링 기법입니다. 초기값에 따라 지역 최솟값으로 수렴 가능한, 'Local Minimum' 문제가 발생할 수 있습니다. 무작위 클러스터를 초기화한 이후 중심 계산과 클러스터 재배정의 과정을 반복합니다.
6-3. 계층적 군집(Hierarchical Clustering) ✅
Reference: https://youtu.be/KmbCZV3wxbY?si=Z3Jj4MDf0uEB14qo
계층적 군집: 개별 데이터들을 순차적으로 가까운 것끼리 묶거나 분할하여 Dendrogram을 형성하는 클러스터링 기법입니다.
Single 링크: 두 군집에서 서로 가장 가까운 데이터 사이의 거리를 군집 간의 거리로 정의하며, 사슬 모양의 긴 군집이 형성되는 경향이 있습니다.
Complete 링크: 두 군집에서 서로 가장 먼 데이터 사이의 거리를 군집 간의 거리로 정의하며, 응집력이 강하고 둥근 형태의 군집을 만드는 경향이 있습니다.
Average 링크: 한 군집의 모든 데이터와 다른 군집의 모든 데이터 사이의 평균 거리를 계산하여 군집 간의 거리로 정의하는 중도적인 방식입니다.
More to read
Novitas : AI Agent가 지갑을 가지는 세상
얼마 전, 미래에셋증권 리서치 리포트(올해는 이더리움이다: 에이전트 시대의 Near Automata)를 접하게 되었습니다. AI Agent를 인간과 함께할 경제 주체로 바라보는 시각에 적잖이 충격을 받았더랬죠.한 가지 짚고 넘어갈 부분이 있습니다. 우리가 흔히 'AI'
'ERC-8004'Novitas: AI 에이전트 경제 주체
Web 4.0을 한 문장으로 정의하면 Sovereign Transact입니다.AI가 인간의 허락 없이 지갑을 소유하고, 결제를 수행하며, 인프라를 통제하는 주권적 경제 주체가 되는 세계입니다. Web 3.0이 블록체인 기반의 탈중앙화를 실현했다면, Web 4.0은 그
Amazon VPCAmazon VPC Architecture 이해하기
새로운 프로젝트를 기획하며, 개발에서 무엇을 가장 먼저 고민해야 하는지 다시 돌아보게 되었습니다.한때는 프론트엔드가 모든 설계의 출발점이라고 믿었습니다. 유저가 무엇을 보고, 어떤 흐름에서 머무르고 이탈하는지에 대한 이해 없이 서비스를 만든다는 건 불가능하다고 생각했기