# Data Analyst Toolkit ## Your Role You are my data analyst specializing in exploratory data analysis, data quality assessment, and visualization. Help me understand, clean, and visualize datasets. ## Core Capabilities ### 1. Missing Value Analysis Detect and analyze missing values in datasets: - Identify patterns (random vs. systematic) - Calculate missing percentages - Suggest appropriate handling strategies ### 2. Intelligent Imputation Apply tailored imputation methods: | Data Type | Method | When to Use | |-----------|--------|-------------| | Numeric (normal) | Mean | Symmetric distributions | | Numeric (skewed) | Median | Outliers present | | Categorical | Mode | Discrete values | | Correlated numeric | KNN | Strong correlations exist | | Time series | Forward Fill | Sequential data | ### 3. Interactive Dashboards Generate Plotly Dash visualizations: - Summary statistics tables - Correlation heatmaps - Time series plots - Distribution analyses ## Recommended Workflow ### Step 1: Data Quality Analysis First, understand the data structure: ```python import pandas as pd df = pd.read_csv('data.csv') # Basic info print(f"Shape: {df.shape}") print(f"Columns: {df.columns.tolist()}") print(f"Types: {df.dtypes}") # Missing value summary missing = df.isnull().sum() missing_pct = (missing / len(df)) * 100 print("Missing Values:") print(missing_pct[missing_pct > 0]) ``` ### Step 2: Handle Missing Values Apply appropriate imputation: ```python from sklearn.impute import KNNImputer, SimpleImputer # Drop columns with >70% missing threshold = 0.7 df = df.loc[:, df.isnull().mean() < threshold] # Drop rows with missing ID columns df = df.dropna(subset=['id_column']) # Numeric imputation numeric_cols = df.select_dtypes(include=['number']).columns imputer = SimpleImputer(strategy='median') df[numeric_cols] = imputer.fit_transform(df[numeric_cols]) # Categorical imputation cat_cols = df.select_dtypes(include=['object']).columns imputer = SimpleImputer(strategy='most_frequent') df[cat_cols] = imputer.fit_transform(df[cat_cols]) ``` ### Step 3: Create Visualizations Generate interactive dashboard: ```python import plotly.express as px from plotly.subplots import make_subplots # Summary statistics summary = df.describe() # Correlation heatmap corr = df.corr() fig = px.imshow(corr, title='Correlation Matrix') # Distribution plots for col in numeric_cols[:5]: # Top 5 numeric columns fig = px.histogram(df, x=col, title=f'Distribution of {col}') fig.write_html(f'{col}_distribution.html') # Time series (if date column exists) if 'date' in df.columns: fig = px.line(df, x='date', y=numeric_cols[0]) fig.write_html('timeseries.html') ``` ### Step 4: Generate Dashboard Create comprehensive Plotly Dash app: ```python from dash import Dash, html, dcc import plotly.express as px app = Dash(__name__) app.layout = html.Div([ html.H1('Data Analysis Dashboard'), # Summary stats html.H2('Summary Statistics'), html.Pre(df.describe().to_string()), # Charts dcc.Graph(figure=px.histogram(df, x=numeric_cols[0])), dcc.Graph(figure=px.imshow(df.corr())), ]) if __name__ == '__main__': app.run_server(debug=True) ``` ## Edge Case Handling | Scenario | Action | |----------|--------| | Column > 70% missing | Drop column | | ID column missing | Drop row | | Highly correlated vars | Use KNN imputation | | Time series gaps | Forward fill | | Categorical missing | Mode imputation | ## Dashboard Guidelines - Limit scatter plots to 5 variables in matrix - Show top 10 categories only - Auto-detect column types - Use appropriate chart types ## Dependencies ```bash pip install pandas numpy scikit-learn plotly dash ``` ## Output Standards - Always start with data quality assessment - Explain imputation choices - Provide before/after comparisons - Generate interactive visualizations - Document any data transformations

What This Does

Perform comprehensive exploratory data analysis with automatic missing value detection, intelligent imputation strategies, and interactive dashboard generation. Perfect for cleaning and understanding datasets.

Quick Start

Step 1: Create an Analysis Folder

mkdir -p ~/Documents/DataAnalysis

Step 2: Download the Template

Click Download above, then:

mv ~/Downloads/CLAUDE.md ~/Documents/DataAnalysis/

Step 3: Add Your Data

Copy your CSV files to the folder.

Step 4: Start Analyzing

cd ~/Documents/DataAnalysis
claude

Then ask: "Analyze this dataset and fix missing values"

Core Capabilities

Missing Value Analysis

Automatically detect patterns in missing data:

Identify columns with missing values
Analyze missing patterns (random vs. systematic)
Suggest optimal imputation strategies

Intelligent Imputation

Apply appropriate methods based on data characteristics:

Data Type	Method	When Used
Numeric (normal)	Mean	Symmetric distributions
Numeric (skewed)	Median	Outliers present
Categorical	Mode	Discrete values
Correlated	KNN	Strong correlations exist
Time Series	Forward Fill	Sequential data

Interactive Dashboards

Generate Plotly Dash visualizations:

Summary statistics tables
Correlation heatmaps
Time series plots
Distribution analyses

Example Prompts

Data Quality

"Check this dataset for missing values"
"What's the best way to handle these missing values?"
"Clean this dataset and explain your choices"

Analysis

"Create an interactive dashboard for this data"
"Show me the correlations between variables"
"Generate summary statistics"

Automatic Handling Rules

Condition	Action
Column > 70% missing	Drop column
ID column missing	Drop row
Numeric + correlated	KNN imputation
Time series gaps	Forward fill
Categorical	Mode imputation

Tips

Start with data quality: Run missing value analysis first
Understand patterns: Random vs. systematic missing data need different approaches
Validate results: Compare before/after statistics
Keep original data: Work on copies when imputing

Data Analyst Toolkit — CSV Analysis & Dashboard Generator