'R' 카테고리의 글 목록

R 2023. 10. 17. 22:25

n = 10 Y = matrix(c(35, 3.5, 2.8, 35, 4.9, 2.7, 40, 30, 4.38, 10, 2.8, 3.21, 6, 2.7, 2.73, 20, 2.8, 2.81, 35, 4.6, 2.88, 35, 10.9, 2.9, 35, 8.0, 3.28, 30, 1.6, 3.2), ncol = 3, byrow = TRUE) J = matrix(1, nrow = n, ncol = n) I = diag(1, 10) S = (t(Y) %*% (I - J / n) %*% Y) / (n - 1)

[R] vector 내 중복값 확인시 빈도수 계산 (duplication count)

R 2022. 1. 19. 23:13

x = c("a", "a", "b", "a") 벡터 x에 중복되는 값이 몇 개인지 아는 방법 중 하나는 다음과 같다. x_sorted = sort(x) n_occur = data.table(data.frame(table(x_sorted)) 데이터 테이블 'n_occur' 는 'x_sorted' 라는 첫번째 컬럼, 'Freq' 라는 두번째 컬럼을 갖게 된다.

[R] speed up

R 2021. 6. 30. 10:52

1. paste0 → stringi::stri_c 2. as.POSIXct → fasttime::fastPOSIXct 3. order → setorder 4. gsub → stringi::stri_replace_all_fixed

[R] count rows by groups: data.table vs dplyr

R 2021. 6. 22. 18:49

1. 속도 : data.table 승 2. 코드 가독성, 작성 용이성 : dplyr 승 3. 코드 길이 : data.table 승 # 1. dplyr dt %>% dplyr::group_by(key1, key2) %>% dplyr::summarise(n = length(data_value)) # 2. data.table dt[, .(n = .N), keyby = .(key1, key2)] * .N 은 group 내 rows 수 계산

[R] Reduce 인자 여러개 확장 적용

R 2021. 6. 7. 08:57

Reduce(intersect, x, y, z, w)

[R] eval(parse(text = x))

R 2021. 4. 12. 17:25

data.table 작업시 for loop, cbind를 사용하지 않고 여러 컬럼을 동시에 만드는 방법 ex) base_methods = c("RF", "LR") target_text = paste0(base_methods, ".test") col_names = c("RF_ytest", "LR_ytest") DT[, (col_names) := lapply(target_text, function(x) eval(parse(text = x)))] 특정 벡터 뽑을 때 sapply(target_text, function(x) eval(parse(text = x)))

[R] caret::train, predict 사용시 test data 전처리

R 2021. 4. 12. 11:22

caret::train 을 이용하여 데이터를 학습할 경우, train x 데이터를 전처리 할 일이 생긴다. 이때 학습된 결과를 이용하여 새로운 데이터 testx 의 값을 예측하고자 할 때, train에서와 같은 전처리하는 코드를 입력해야 하나? 결론적으로 그럴 필요 없다! caret.fit

[R] data.table::dcast "aggregate function missing" 경고

R 2021. 3. 23. 08:42

0. data.table::decast 는 long-to-wide 변환 함수 1. data.table::dcast 사용시 "aggregate function missing, defaulting to length" 경고가 뜬다면 그것은 하나의 key 에 두 개 이상의 값이 mapping 되기 때문이다. 따라서 중복 제거를 제대로 했는데 다시 검토해야 한다. 2. formula = LHS ~ RHS, value, value.var = guess(data) - LHS key 변수 (wide table의 row) - RHS key subjects의 속성 (wide table 의 column) - value.var : wide table column의 값 3. 하나의 key (cell)에 2개 이상의 값이 대응되..

ABOUT ME

코드 저장소 코드 저장소

티스토리툴바