1. 데이터 개요를 파악하는 기본 Pandas 원라이너
데이터 분석의 첫 단계는 데이터를 이해하는 것입니다. Pandas는 데이터의 구조와 기본 통계를 빠르게 확인할 수 있는 다양한 원라이너 기능을 제공합니다.
주요 Pandas 함수는 다음과 같습니다:
- .head(): 데이터프레임의 처음 몇 줄을 확인하여 데이터의 구조 및 내용을 이해할 수 있습니다.
- .info(): 데이터프레임의 변수명, 데이터 타입 및 결측치 정보를 한눈에 보여줍니다.
- .describe(): 수치형 데이터의 기초 통계 정보를 빠르게 확인합니다.
아래는 예제의 실행 결과를 표로 정리한 내용입니다:
| 기능 | 설명 | 사용 예시 |
|---|---|---|
| head() | 초기 데이터 여러 줄 시각화 | df.head() |
| info() | 데이터 타입과 결측값 확인 | df.info() |
| describe() | 기본 통계 요약 제공 | df.describe() |
이렇게 간단한 명령어만으로도 데이터 이해에 대한 첫 걸음을 내딛을 수 있습니다.
2. 데이터 값 및 결측치 탐색
EDA 과정에서는 결측치(missing values) 문제를 해결하는 것이 중요합니다. Pandas는 여러 유용한 원라이너를 제공해 이를 효과적으로 처리할 수 있게 합니다.
다음 함수를 활용해 데이터를 정리할 수 있습니다:
- .isnull()와 .sum(): 각 열의 결측값 개수를 확인합니다.
- .fillna(): 결측값을 특정 값으로 대체합니다.
- .dropna(): 결측값이 있는 행 또는 열을 삭제합니다.
아래는 결측값 처리를 예시로 한 표입니다:
| 항목 | 결측치 개수 | 처리 방식 |
|---|---|---|
| Class | 12 | 삭제 |
| Age | 45 | 중앙값으로 대체 |
| Fare | 8 | 평균값으로 대체 |
Pandas 데이터프레임을 활용해 데이터의 결측 문제를 쉽게 해결할 수 있습니다. 특히 .isnull().sum()은 탐색 시 매우 유용합니다.
3. 데이터 필터링 및 정렬 사용법
데이터 필터링과 정렬은 중요 정보를 탐색하거나 활용할 때 필수적인 작업입니다. Pandas는 직관적이고 간단한 문법으로 이 작업을 수행할 수 있도록 도와줍니다.
주요 활용법:
- .loc[]와 .iloc[]: 조건에 따라 행 또는 열을 필터링합니다.
- .sort_values(): 값을 기준으로 데이터를 정렬합니다.
- .query(): 조건 기반 데이터를 더욱 가독성 있게 선택합니다.
예를 들어, 특정 조건에서 데이터를 정렬한 결과는 다음과 같습니다:
| 항목 | 조건 | 결과 |
|---|---|---|
| Age | >= 30 | 30세 이상 데이터 |
| Fare | < 50 | 운임비가 50 미만 |
| Survived | == 1 | 생존 여부(생존 1) |
단순한 한 줄 코드로도 데이터를 표현하거나 특정 조건에 맞는 데이터를 빠르게 추출할 수 있습니다.
지금까지 Pandas를 활용한 EDA 초보자들을 위한 주요 원라이너 팁 10가지에 대해 알아보았습니다. 이러한 팁은 단순히 데이터를 처리하는 데만 그치지 않고, 실제 분석 및 모델링 준비 작업에 있어 데이터를 체계적으로 다루는 방법을 배울 수 있는 기회를 제공합니다. 이에 따라 2025년 데이터 분석 실력을 빠르게 향상시킬 수 있습니다. 마지막으로, 지금까지 소개된 내용을 실습하며 데이터를 더 심층적으로 분석해 보세요!

