ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [책] 데이터 과학자의 사고법 by 김용대
    독서 2021. 10. 9. 08:40
    1. 응용분야의 지식과 데이터 기술은 데이터과학에서 매우 중요한 부분이지만 데이터과학의 전부는 아닙니다. 데이터과학의 핵심에는 데이터로부터 유용하고 새로운 정보를 찾기 위한 합리적 사고방법이 자리 잡고 있습니다. (10쪽)
    2. 서브프라임모기지 상품에 적용된 위험관리 이론의 큰 오류는 바로 '한번에 많은 사람이 부도낼 확률은 낮다'는 가정이었습니다. 이 가정은 포트폴리오 이론의 핵심 가정으로서, 이 가정이 없으면 포트폴리오 이론을 바탕으로 한 위험관리 방법도 무용지물이 됩니다.(23쪽)
    3. 큰 수의 법칙을 이용해서 확률을 정의하려면 사건의 반복 실험이 가능해야 합니다. (중략) 이러한 반복 실험이 불가능한 사건에 대해서는 과거 오랫동안 조사된 데이터를 바탕으로 확률을 계산합니다. (35쪽)
    4. 반복도 안 되고 데이터도 없는 사건에 대해서는 주관적인 견해를 바탕으로 확률을 구할 수밖에 없습니다. 전문가의 의견을 바탕으로 하거나, 컴퓨터를 이용한 가상실험을 통해서 구할 수 있습니다. 이렇게 나온 확률을 '주관적 확률'이라고 합니다. (36쪽)
    5. 중심극한정리의 증명을 위한 가정 중 하나는 관측치의 변동이 작아야 한다는 것입니다. 잡음의 변동이 매우 큰 경우에는 정규분포를 따르지 않을 수 있습니다. 즉, 정규분포를 따르지 않는 잡음은 매우 큰 값이나 매우 작은 값이 훨씬 자주 관측된다는 것입니다. (60쪽)
    6. 통계학의 회귀분석이나 기계학습의 지도학습 등이 변동 원인을 찾아서 변동을 줄이는 방법론을 연구하는 분야입니다. (73쪽)
    7. 통계적 가설검정의 치명적인 약점은, 상충되는 2개의 가설 중에서 무엇을 귀무가설로 채택하느냐에 따라 결과가 바뀐다는 것입니다. (83쪽)
    8. 데이터를 바탕으로 모두가 동의하는 인과관계를 발견한다는 것은 매우 어렵습니다. (97쪽)
    9. 시민통계와 정부통계의 차이는 정부가 통계를 조작해서가 아니라 조사 방법의 차이입니다. 이러한 차이를 발생시키는 문제를 데이터과학에서는 '길이 편이 조사'(length baised sampling)라고 합니다. (111쪽)
    10. 극단값 이론 중에서 가장 유명한 내용은 최댓값이나 최솟값은 데이터와 관계 없이 특정한 히스토그램을 가진다는 것입니다. (120쪽)
    11. 게일 하워드의 분석은 자주 발생하는 '다중비교의 오류'였던 것입니다. 가설검정을 많이 하면 우연히 귀무가설이 기각되는 경우가 생깁니다. (161쪽)
    12. 데이터 분석에 매몰되지 않는 방법은 새롭게 찾은 정보가 상식과 부합하는지 조사하는 것입니다. 가장 효과적인 방법은 조심스럽게 분석에 사용되지 않은 새로운 데이터로 확인해보는 것입니다. (중략) 이러한 분석을 '확인분석'(confirmatory analysis)이라고도 합니다. (166쪽)
    13. 데이터는 아무리 많아봐야 유한개입니다. 데이터를 계속 나누다 보면 특이한 그룹이 항상 나오게 됩니다.(중략) 원하는 대로 판단하기 쉬운 세분화의 함정과 연관지어 생각할 수 있는 것으로는 '출판 편이'(publication bias)가 있습니다. (177 ~ 178쪽)
    14. 사실 빅데이터를 모은다고 항상 새로운 가치를 찾을 수 있는 것은 아닙니다. 100번 분석하면 1번 정도 새로운 가치를 찾습니다. 따라서 회사의 최고결정권자는 빅데이터 수집 및 분석을 위하여 많은 비용을 선뜻 지불하기를 꺼립니다. 데이터마이닝 시대와 대비됩니다. 데이터마이닝 시대의 데이터는 기업 영업 활동에 필수적이기 때문에 많은 비용을 지불하여 데이터를 관리했지만, 빅데이터는 상황이 다릅니다. 빅데이터가 없어도 회사 영업에는 당장 지장이 없기 때문에 빅데이터의 투자에는 항상 신중을 기합니다. (193쪽)
    15. 데이터과학은 옳은 의사결정을 해주는 학문이 아닙니다. 합리적인 의사결정에 대한 학문입니다. 옳은 의사결정을 알려주는 학문이나 기술은 단언컨대 없습니다. (378쪽)

     

    < 데이터 과학자의 사고법 > 김용대 지음, 김영사 (2021)

    댓글

Designed by Tistory.