'분류 전체보기' 카테고리의 글 목록 (9 Page)

XGBoost with Python

Python 2020. 8. 11. 21:46

1. 설명변수로 범주형 변수를 바로 사용할 수 없다. → one-hot encoding 같이 더미변수 처리해야

[R] 하나의 key-id 에 대한 중복 row 제거 (duplicated)

R 2020. 8. 5. 09:15

하나의 key-id 에 대해 여러 날짜의 중복된 row 가 존재하는 경우 Key-id Date Value A1 2020-02-01 12 A1 2020-01-01 23 A1 2020-03-01 11 A2 2020-03-02 22 A2 2020-02-05 15 A1, A2 각각 Date가 최신인 row만 남기고 싶다면? > library(dplyr) > DT %>% arrange(desc(Date)) %>% filter(!duplicated(Key-id)) ※ duplicated 함수는 중복 item 중 처음 등장한 것을 제외하고 모두 TRUE로 반환 → !duplicated 를 사용하면 중복 중 최초 등장한 것만 남기고 모두 지움

랜덤포레스트 사용할 때 주요 이슈들

Machine Learning 2020. 8. 4. 10:31

1. 변수중요도 측정 방법에는 gini index, randomization 두 가지가 있는데 이 둘은 어떻게 다르며, 상황별 적절한 방법을 고르는 기준은 무엇일까? 이 두가지 외에 어떤 변수중요도 측정 방법이 있을까? - randomization 방법은 변수가 없을 때 변수가 예측에 미치는 영향을 측정하는 것이 아니다! 2. 변수간 상관관계가 높은 경우 RF 변수선택의 결과를 신뢰할 수 있을까? 3. RF 결과에 대한 해석은 가능한가? Partial depedence plot? 4. strength and correleation - 각 tree 마다 얼마나 정확하게 분류하는가? - 사용된 tree 간 의존성은 어떤가? 5. proximity plot 을 그렸을 때, 특정 class의 관측치들이 공통적 ..

전처리에 대해

Machine Learning 2020. 8. 4. 09:16

1. 상황 반응변수가 2개의 class를 갖는 binary 데이터 분석 (p개의 설명변수) 관측된 데이터의 반응변수 class 간 불균형이 심함 (imbalanced) 2. 처리 기준 빈도수가 적은 class 데이터를 최대한 남긴다. 하나의 key-id 에 대해 여러 행이 존재하는 경우 기준을 정하여 중복행 제거 (e.g., 시간 변수가 있다면 여러 행 중 최신데이터만 남김) Missing 제거

[Python] Array reshape 시 원소 배치 순서 (row-major order)

Python 2020. 7. 10. 14:53

차원이 (3, 2)인 배열 A = [[6, 5], [4, 3], [2, 1]] 를 차원이 (6, 1)인 배열로 바꾸는 경우 >>> A = np.array([[6, 5], [4, 3], [2, 1]]) array([[6, 5], [4, 3], [2, 1]]) 에 대해 >>> A.reshape(6, 1) 을 실행하면 array([[6, 5, 4, 3, 2, 1]]) 의 결과 출력. 이는 >>> A.reshape(6, 1, order = "C") 와 같은 결과 출력 (row-major order). 한편 >>>A.reshape(6, 1, order = "F") 를 실행하면 array([[6, 4, 2, 5, 3, 1]]) 출력 (column-major order).

[Python] Array 납짝하게 누르기 (reshape)

Python 2020. 7. 3. 15:09

차원이 [a, b, c, d] 인 Y 배열을 차원이 [b * c * d, a] 인 납짝(flatten) 배열로 바꾸기 >>> Y_flatten = Y.reshape(Y.shape[0], -1).T

[Python] 문자열과 변수값 함께 출력하기

Python 2020. 7. 3. 14:16

>>> x = 3 >>> print("There are " + str(x) + " apples in my home.") >>> print("There are %d apples in my home" % (x))

[Python] 모든 변수 지우기 (Remove every variable)

Python 2020. 6. 30. 17:08

import sys sys.modules[__name__].__dict__.clear() ◆ 특정 변수(object) 지우기 del 변수명

ABOUT ME

코드 저장소 코드 저장소

티스토리툴바