분류 전체보기
-
[R] 하나의 key-id 에 대한 중복 row 제거 (duplicated)R 2020. 8. 5. 09:15
하나의 key-id 에 대해 여러 날짜의 중복된 row 가 존재하는 경우 Key-id Date Value A1 2020-02-01 12 A1 2020-01-01 23 A1 2020-03-01 11 A2 2020-03-02 22 A2 2020-02-05 15 A1, A2 각각 Date가 최신인 row만 남기고 싶다면? > library(dplyr) > DT %>% arrange(desc(Date)) %>% filter(!duplicated(Key-id)) ※ duplicated 함수는 중복 item 중 처음 등장한 것을 제외하고 모두 TRUE로 반환 → !duplicated 를 사용하면 중복 중 최초 등장한 것만 남기고 모두 지움
-
랜덤포레스트 사용할 때 주요 이슈들Machine Learning 2020. 8. 4. 10:31
1. 변수중요도 측정 방법에는 gini index, randomization 두 가지가 있는데 이 둘은 어떻게 다르며, 상황별 적절한 방법을 고르는 기준은 무엇일까? 이 두가지 외에 어떤 변수중요도 측정 방법이 있을까? - randomization 방법은 변수가 없을 때 변수가 예측에 미치는 영향을 측정하는 것이 아니다! 2. 변수간 상관관계가 높은 경우 RF 변수선택의 결과를 신뢰할 수 있을까? 3. RF 결과에 대한 해석은 가능한가? Partial depedence plot? 4. strength and correleation - 각 tree 마다 얼마나 정확하게 분류하는가? - 사용된 tree 간 의존성은 어떤가? 5. proximity plot 을 그렸을 때, 특정 class의 관측치들이 공통적 ..
-
[Python] Array reshape 시 원소 배치 순서 (row-major order)Python 2020. 7. 10. 14:53
차원이 (3, 2)인 배열 A = [[6, 5], [4, 3], [2, 1]] 를 차원이 (6, 1)인 배열로 바꾸는 경우 >>> A = np.array([[6, 5], [4, 3], [2, 1]]) array([[6, 5], [4, 3], [2, 1]]) 에 대해 >>> A.reshape(6, 1) 을 실행하면 array([[6, 5, 4, 3, 2, 1]]) 의 결과 출력. 이는 >>> A.reshape(6, 1, order = "C") 와 같은 결과 출력 (row-major order). 한편 >>>A.reshape(6, 1, order = "F") 를 실행하면 array([[6, 4, 2, 5, 3, 1]]) 출력 (column-major order).