Python已成為數(shù)據(jù)處理領(lǐng)域的首選語(yǔ)言,其豐富的庫(kù)和簡(jiǎn)潔的語(yǔ)法使數(shù)據(jù)清洗、分析和可視化變得輕而易舉。本文分享一份免費(fèi)的Python數(shù)據(jù)處理代碼合集,涵蓋常見場(chǎng)景的解決方案,幫助初學(xué)者和專業(yè)人士快速上手。
一、數(shù)據(jù)讀取與預(yù)處理
使用pandas庫(kù)可以輕松讀取多種格式的數(shù)據(jù)。例如,從CSV文件讀取數(shù)據(jù):`python
import pandas as pd
data = pd.readcsv('data.csv')`
數(shù)據(jù)清洗時(shí),常用代碼處理缺失值:`python
data.fillna(0, inplace=True) # 用0填充缺失值
data.dropduplicates(inplace=True) # 刪除重復(fù)行`
二、數(shù)據(jù)轉(zhuǎn)換與計(jì)算
利用numpy和pandas進(jìn)行數(shù)值計(jì)算和列操作:`python
import numpy as np
data['newcolumn'] = data['oldcolumn'] * 2 # 創(chuàng)建新列
data['log_value'] = np.log(data['value']) # 應(yīng)用對(duì)數(shù)變換`
分組統(tǒng)計(jì)示例:`python
grouped = data.groupby('category')['sales'].sum() # 按類別匯總銷售額`
三、數(shù)據(jù)可視化
matplotlib和seaborn庫(kù)能快速生成圖表:`python
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(10,6))
sns.histplot(data['age'], kde=True)
plt.title('年齡分布圖')
plt.show()`
四、高級(jí)處理技巧
對(duì)于時(shí)間序列數(shù)據(jù),可使用pandas的resample方法:`python
data['date'] = pd.todatetime(data['date'])
monthlydata = data.set_index('date').resample('M').mean() # 按月重采樣`
免費(fèi)代碼合集下載說(shuō)明:
本合集包含完整示例文件,涵蓋數(shù)據(jù)合并、過(guò)濾、異常值處理等場(chǎng)景。訪問(wèn)GitHub倉(cāng)庫(kù)(示例鏈接:github.com/dataprocessing/python-tools)可直接下載,所有代碼均開源且附帶注釋,適合學(xué)習(xí)和直接應(yīng)用。
通過(guò)掌握這些核心代碼,您能顯著提升數(shù)據(jù)處理效率。建議結(jié)合實(shí)際項(xiàng)目練習(xí),逐步探索更復(fù)雜的庫(kù)如Scikit-learn用于機(jī)器學(xué)習(xí),或Dask處理大規(guī)模數(shù)據(jù)。