본문 바로가기
혼자공부

패스트캠퍼스) 빅데이터 분석 첫걸음 시작하기 : 파이썬 기초와 데이터분석 - 데이터 분석 라이브러리(2) - 학습일지 4주차

by 쁑쁑쓰 2022. 8. 29.
728x90
반응형
CH02-01 Numpy를 사용하는 이유

Numpy? Numerical computing with Python. 수치 연산 및 벡터 연산에 최적화된 라이브러리.

 

https://numpy.org/

 

NumPy

Powerful N-dimensional arrays Fast and versatile, the NumPy vectorization, indexing, and broadcasting concepts are the de-facto standards of array computing today. Numerical computing tools NumPy offers comprehensive mathematical functions, random number g

numpy.org

 

- 데이터 분석은 벡터 연산이다. 그리고 데이터는 벡터로 표현된다. 

  그러기 때문에 벡터 연산을 잘해야 데이터 분석을 잘 할 수 있다.

- numpy는 벡터 연산을 파이썬 보다 더 빠른 속도로 결과를 도출 할 수 있다.

 

 

CH02-02 Numpy array

Numpy array? Numpy에서 사용되는 기본적인 자료구조.

 

https://predictivehacks.com/tips-about-numpy-arrays/

 

- numpy array는 C언어 array 구조와 동일, 파이썬 리스트와 비슷한 구조

- 선언한 이후에는 크기 변경이 불가능하며, 모든 원소의 데이터 타입이 동일해야한다.

- indexing으로 원소를 접근할 수 있고, 생성 후 assignment operator을 이용하여 원소 update가 가능하다.

 

 

CH02-03 Pandas를 사용하는 이유

Pandas ? Python Data Analysis Library

- Pandas는  파이썬 언어로 작성된 데이터를 분석 및 조작하기 위한 소프트웨어 라이브러리이다.

- 정형 데이터를 효율적으로 표현할 수 있는 Dataframe 형태로 모든 데이터를 표현한다.

- 엑셀에서 제공하는 연산 기능 제공한다.

 

 

CH02-04 Pandas DataFrame

Pandas DataFrame : pandas 라이브러리가 사용하는 기본 자료 구조이다.

 

https://www.geeksforgeeks.org/creating-a-pandas-dataframe/

 

- DataFrame 은 2차원 데이터 구조를 의미한다.

- row, column으로 모든 원소를 구분한다.

- index, columns, values 객체 변수를 가지고 있다.

- 한 개의 column을 기준으로 모든 원소의 data type이 동일하다.

 

 

CH02-05 Seaborn을 사용하는 이유

Seaborn ? Statistical Data Visualization library based on metaplotlib

 

1. Matplotlib

- seaborn은 파이썬 오픈소스 라이브러리 중에서 가장 널리 사용되는 시각화 라이브라리이다.

-깔끔한 그래프를 그리기에 유용하다.

- Seaborn은 pyplot를 이용하여 구현하는 방법, OOP-style를 이용하여 구현하는 방법이 있다.

 

2. Seaborn

- Matplotlib를 더 편하게 사용할 수 있도록 만든 라이브러리이다.

- Seaborn은 numpy, pandas 같은 파이썬 라이브러리들을 편하게 시각화하는 것을 중점으로 디자인 된 라이브러리다.

- matplotlib 위에 만들어져서, matplotlib에 있는 개념들을 확장해서 사용가능하다.

- 뿐만 아니라 통계 분석하기에 매우 편리하다.

- 그 밖에도 Lineplot, boxplot, jointplot, Pairplot 등등이 있다.

 

728x90
반응형