Machine Learning
-
training and test setsMachine Learning 2022. 7. 6. 21:18
If there is no relationship at all between the training set and the test set, then the learning problem is unsolvable; the future can be predicted only if it resembles the past. Therefore, in desiging and studying learning algorithms, we generally assume that the training and test examples are taken from the same random source. by Robert E. Shapire and Yo..
-
[통계학] 교차검증(cross-validation)에 관하여Machine Learning 2022. 3. 1. 22:40
교차검증(이하 CV)의 아이디어는 간단하다. 주어진 데이터 셋을 나눠 일부를 학습(추정), 나머지를 검증(validation)에 사용하고 이 과정을 반복하여 (무엇에 대한?) 종합적인 결론을 내린다. 하지만 나는 왜 CV를 사용해야 하는지, 그것이 어떤 원리에 의해 작동하는지는 아직 정확히 모르고 있다. 공부하며 지속적으로 업데이트 할 계획이다. 1. Model Selection, Model Assessment 전자는 모형의 유연성(flexibility)을 선택하는 것, 후자는 test 오차 추정을 통해 성능을 평가하는 것을 말한다. CV는 이 두 가지 행위에 모두 사용될 수 있다. (James et al, 2013, 175쪽) < An introduction to Statistical Learning ..
-
랜덤포레스트 사용할 때 주요 이슈들Machine Learning 2020. 8. 4. 10:31
1. 변수중요도 측정 방법에는 gini index, randomization 두 가지가 있는데 이 둘은 어떻게 다르며, 상황별 적절한 방법을 고르는 기준은 무엇일까? 이 두가지 외에 어떤 변수중요도 측정 방법이 있을까? - randomization 방법은 변수가 없을 때 변수가 예측에 미치는 영향을 측정하는 것이 아니다! 2. 변수간 상관관계가 높은 경우 RF 변수선택의 결과를 신뢰할 수 있을까? 3. RF 결과에 대한 해석은 가능한가? Partial depedence plot? 4. strength and correleation - 각 tree 마다 얼마나 정확하게 분류하는가? - 사용된 tree 간 의존성은 어떤가? 5. proximity plot 을 그렸을 때, 특정 class의 관측치들이 공통적 ..