데이터 분석(3)
-
[데이터 분석]Confusion matrix 평가 지표 해석 + 생성
오늘은 학습 모델의 평가 지표로 사용되는 Confusion Matrix를 통해 얻을 수 있는 평가 지표들에 대해서 그리고 Python에서 어떻게 생성할 수 있는지 그리고 어떻게 해석할 수 있는지에 대해서 정리하고자 합니다. 1. Confusion Matrix Confusion Matrix, 혼동 행렬은 학습모델 중에서 지도학습 모델에 대한 이진분류 문제에서 많이 사용합니다. 혼동 행렬은 실제 값과 모델 예측 값을 기준으로 생성되며, 다음 네 가지 요소를 가지고 있습니다 참 양성(True Positive) : 실제 양성을 양성으로 올바르게 예측 거짓 양성(Flase Positive) : 실제 음성을 잘못하여 양성으로 예측 참 음성(True Negative) : 실제 음성을 음성으로 올바르게 예측 거짓 음성..
2024.02.20 -
[데이터 분석]보건의료빅데이터분석 데이터 전처리
제가 학부생 4학년 1학기에 보건의료빅데이터분석이라는 강의를 들었습니다. 그 때 강의를 수강하는 학우들과 같이 특정 음료를 마시고 혈당, 혈압, 체온 등을 측정한 데이터입니다. 강의 때 잠깐 며칠 투자해서 수집한거기도 하고 그렇게 큰 데이터가 아니기 때문에 간단하게 이 데이터를 가지고 분석을 진행할 건데, 이 글에서는 전처리 단계까지 진행하겠습니다. 1. 데이터 읽어오기 먼저 데이터를 읽어오도록 하겠습니다. 해당 csv파일에는 전처리를 해봐야겠지만 encoding='cp949'로 설정해야 읽어 올 수 있습니다. df=pd.read_csv('/content/drive/MyDrive/보건의료/beverage.csv',encoding='cp949') df.head() 2. 데이터 설명 데이터 설명입니..
2024.01.19 -
[데이터 분석] Kaggle Data Report
5조:김수현, 나한울, 정혜원, 한대희, 황유진 1.프로젝트 목표 최근 은행 고객 이탈률의 증가로 여러가지 문제들이 생겨났습니다. 고객의 이탈 최소화하고 고객 유지율 증가시키기 위해 여러가지 문제점들을 파악 후 해결하며 더 나아가서 신규 회원 유치까지 노려보려 합니다. 고객 이탈률 증가의 원인을 파악하기 위해서 여러가지 컬럼들을 분석하고 문제점을 파악하여 어느 부분에서 문제점이 있는지 파악하고 그 문제를 해결 및 보완하고자 합니다. 2.데이터 설명 및 확인 데이터의 수는 총 165034개의 데이터이며 , 13개의 컬럼으로 구성되어 있습니다. 컬럼의 내용은 아래와 같습니다 1 .Customer ID: 각 고객의 ..
2024.01.16