Pandas(4)
-
[Pandas] DataFrame 병합,연결,결합
오늘은 Pandas를 이용해서 데이터를 병합하는 방법에 대해서 리마인드 해볼까 합니다. 데이터를 병합하는 것은 중요합니다. 실제 회사의 데이터에는 여러가지 데이터 테이블이 있고, 한가지 테이블에서만 인사이트를 도출한다는 것은 드물다고 생각합니다. 학부 3학년 때 전사적자원관리라는 강의를 들었는데, ERP라는 프로그램을 통해 기업의 생산, 물류, 인사, 회계 이 4가지 모듈들의 데이터를 통합해서 관리하는 프로그램입니다. 여기서 사용되는 데이터 테이블은 정말 많습니다.. 그래서 이 데이터를 어떻게 병합할 수 있는지 리마인드 해보도록 하겠습니다. https://github.com/ghkstod/TIL/blob/main/ipynb/24-01-08pandasdatamerge.ipynb 1.pd.concat() 일..
2024.01.08 -
[Pandas] 외부 파일 불러오고 내보내기
이번에는 Pandas를 이용해서 외부 파일(csv, xlsx 등)을 읽어오는 방법에 대해서 정리해보고자 합니다. 우선 데이터를 배포하면 대부분 .csv(comma-separated values)가 확장자인 경우가 많은데, csv파일부터 시작해 보겠습니다. https://github.com/ghkstod/TIL/blob/main/ipynb/24-01-05PandasFile.ipynb + https://github.com/ghkstod/TIL/blob/main/ipynb/24-01-08pandasdatamerge.ipynb 1.CSV파일 불러오고 내보내기 CSV파일은 read_csv() 메서드를 이용하여 가능합니다. 사용방법은 df_name=pd.read_csv('file path')입니다. 저는 주피터 노..
2024.01.08 -
[Pandas] iloc vs loc의 차이
지난 글 마무리에 정리해본다고 한 loc 와 iloc의 차이를 정리해보도록 하겠습니다. 데이터는 저번에 이용했던 titanic 데이터를 그대로 이용하도록 하겠습니다. 우선 loc는 저번 글에서 다뤘기 때문에 이번 글에서는 iloc와 loc와의 차이점에 대해서 다뤄보겠습니다. 1. iloc iloc는 integer location의 약자입니다. 그래서 integer가 들어간 만큼 데이터프레임에서 정수를 이용하여 특정 값을 추출하는 방법입니다. 사용 방법은 df.iloc[row,col]입니다. 그래서 titanic데이터에서 첫번째 행의 데이터를 가지고 오고 싶다면 다음과 같이 작성 가능합니다. titanic.iloc[0] 그러면 첫번째 행의 모든 컬럼의 값들이 출력이 되고, 특정 컬럼의 값만 보고 싶다면 예..
2024.01.08 -
[Pandas] 기초 문법
오늘은 Python의 라이브러리 중에 하나인 Pandas에 대해서 리마인드 작성을 해볼까합니다. 교육 중에 작성한 전체적인 코드는 저의 github에서 확인할 수 있습니다. https://github.com/ghkstod/TIL/blob/main/ipynb/24-01-04Pandas.ipynb 우선 Pandas 라이브러리는 프로젝트 할 때 데이터를 불러오고 전처리 할 때 많이 써봤고, 그만큼 많이 공부해 본 라이브러리이기 때문에 이번에도 중요한 부분 그리고 프로젝트 할 때 어떻게 썻지? 하고 구글링을 해봤던 것들을 위주로 리마인드 해보겠습니다. 1. 데이터 프레임의 정보 알아보기 Pandas 라이브러리에서는 데이터 프레임을 직접 만들 수 있고 그것이 가장 기본적이지만 직접 데이터 프레임을 만들어서 프로젝..
2024.01.06