전체 글(37)
-
[데이터베이스설계] 데이터 정규화
오늘은 데이터베이스설계 데이터 정규화에 대해서 리마인드 하겠습니다. 학부생 3학년 1학기때 수강한 과목이라 생각이 많이 안나서 강의자료를 뒤져보면서 정리를 했습니다. 1. 데이터 정규화의 필요성 우선 왜 필요한가?에 대해서 알아야합니다. 데이터베이스설계에서 데이터를 정규화하는 이유는 크게 중복 제거, 쿼리 성능 향상, 데이터 품질 향상에 있습니다. 이런 이유에 대해서 삽입/갱신/삭제 시 발생할 수 있는 이상 현상을 방지하고 저장 공간 최소화, 데이터의 일관성 유지, 데이터 구조 최적화 등을 이뤄낼 수 있습니다. 저는 이런것들이 데이터 분석가에게도 많은 도움이 된다고 생각합니다. 2.정규화(Normal Forms) 정규화는 단계가 존재합니다. 지금부터 그 단계에 대한 정규화들의 전체적인 맥락을 정리한 다음..
2024.01.13 -
[통계] 처음부터 다시하기 - 표본분포
최근 통계에 대해 수업을 들으면서 많은 것을 잊었다는 것을 알았습니다. 그래서 예전 전공 통계책을 꺼내서 다시 한번 정리하는 시간을 가지려고 합니다. 1. 확률표본(random sample) - 모집단의 분포와 확률표본 a) 미지인 모집단의 분포는 확률밀도함수 $f(x)$ 로 나타낸다. b) 모집단 $f(x)$로부터의 확률표본$X_1,...,X_n$이란 $f(x)$를 확률밀도함수로 갖는 서로 독립인 확률변수들을 뜻한다. 즉 어떤 회사에서 생산하는 전구의 수명시간에 대해 알기 위해, 100개의 전구를 표본으로 택해서 수명시간을 기록했다. 이 때 전구의 생산량이 무수히 많다고 가정한다면, 100개의 전구 표본은 모집단의 분포를 가지고, 분포에 대한 미지의 확률분포를 결정할 수 있다. 또한 100개의 샘플은 ..
2024.01.12 -
[시각화] plotly 기초
오늘은 plotly라는 시각화 라이브러리에 대해서 적어볼까 합니다. 학부시절 데이터 시각화, 빅데이터 분석 등 데이터 시각화를 배우는 강의에서 matplotlib, seaborn만 다뤄봤었고, plotly는 이번에 처음 접해봅니다. plotly와 다른 시각화 라이브러리의 차이점은 동적 시각화에 차이가 있습니다. 다른 라이브러리는 그래프를 일부 수정하거나 좀 더 중요한 부분을 줌인 하기위해서는 코딩을 다시 해야만하는데, plotly는 동적 시각화로 코딩을 다시 하지않고도 줌인 같은건 할 수 있으며, 특정 데이터 값의 확인, 표기 등과 같은 탐색적 데이터 분석에 도움을 주는 기능을 제공합니다. 1.plotly 이용하기 우선 라이브러리를 다운받고 불러오는거 먼저 하겠습니다. # virtualenv !pip i..
2024.01.11 -
[시각화] matplotlib, seaborn BarChart
많은 시각화의 방법중에서 막대그래프를 그려보려고합니다. 막대그래프는 각 막대의 길이를 통해서 데이터의 상대적인 크기를 비교할 수 있으며 시계열 데이터에서도 시간별로 데이터의 추세,패턴 등을 쉽게 파악할 수 있는 장점이 있습니다. 1. matplotlib matplotlib로 막대그래프를 그리는 방법은 기본적으로 plt.bar(xaxis,yaxis)의 형태를 띄웁니다. month_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12] sold_list = [300, 400, 550, 900, 600, 960, 900, 910, 800, 700, 550, 450] fig, ax=plt.subplots(figsize=(15,5)) ax.bar(month_list,sold_list)..
2024.01.10 -
[Pandas] DataFrame 병합,연결,결합
오늘은 Pandas를 이용해서 데이터를 병합하는 방법에 대해서 리마인드 해볼까 합니다. 데이터를 병합하는 것은 중요합니다. 실제 회사의 데이터에는 여러가지 데이터 테이블이 있고, 한가지 테이블에서만 인사이트를 도출한다는 것은 드물다고 생각합니다. 학부 3학년 때 전사적자원관리라는 강의를 들었는데, ERP라는 프로그램을 통해 기업의 생산, 물류, 인사, 회계 이 4가지 모듈들의 데이터를 통합해서 관리하는 프로그램입니다. 여기서 사용되는 데이터 테이블은 정말 많습니다.. 그래서 이 데이터를 어떻게 병합할 수 있는지 리마인드 해보도록 하겠습니다. https://github.com/ghkstod/TIL/blob/main/ipynb/24-01-08pandasdatamerge.ipynb 1.pd.concat() 일..
2024.01.08