免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

怎么避免編寫pandas代碼

本篇內容主要講解“怎么避免編寫pandas代碼”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么避免編寫pandas代碼”吧!

創新互聯公司是一家企業級云計算解決方案提供商,超15年IDC數據中心運營經驗。主營GPU顯卡服務器,站群服務器,成都多線機房,海外高防服務器,大帶寬服務器,動態撥號VPS,海外云手機,海外云服務器,海外服務器租用托管等。

設置

from platform importpython_versionimport numpy as np import pandas as pdnp.random.seed(42) # set the seed tomake examples repeatable

樣本數據集

樣本數據集包含各個城市的預訂信息,是隨機的,唯一目的是展示樣本。

數據集有三列:

  • id表示唯一的標識

  • city表示預定的城市信息

  • booked perc表示特定時間預定的百分比

數據集有一萬條,這使速度改進更加明顯。注意,如果代碼以正確的pandas方式編寫,pandas可以利用DataFrames計算數百萬(甚至數十億)行的統計數據。

size = 10000cities =["paris", "barcelona", "berlin", "newyork"]df = pd.DataFrame(     {"city": np.random.choice(cities,sizesize=size), "booked_perc": np.random.rand(size)} ) df["id"] = df.index.map(str) +"-" + df.city dfdf = df[["id", "city", "booked_perc"]] df.head()

怎么避免編寫pandas代碼

1. 如何避免對數據求和

來自Java世界的靈感,把“多行for循環”應用到了Python。

計算booked perc列的總和,把百分比加起來毫無意義,但無論如何,一起來試試吧,實踐出真知。

%%timeitsuma = 0 for _, row in df.iterrows():     suma += row.booked_perc766ms ± 20.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

更符合Python風格的方式來對列求和如下:

%%timeitsum(booked_perc forbooked_perc in df.booked_perc)989 µs ± 18.5 µs per loop (mean ±std. dev. of 7 runs, 1000 loops each)%%timeitdf.booked_perc.sum()92µs ± 2.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

正如預期的那樣,第一個示例是最慢的——對一萬項求和幾乎需要1秒。第二個例子的速度之快令人驚訝。

正確的方法是使用pandas對數據進行求和(或對列使用任何其他操作),這是第三個示例——也是最快的!

2. 如何避免過濾數據

盡管在使用pandas之前,筆者已經很熟悉numpy,并使用for循環來過濾數據。求和時,還是可以觀察到性能上的差異。

%%timeitsuma = 0 for _, row in df.iterrows():     if row.booked_perc <=0.5:         suma += row.booked_perc831ms &plusmn; 25.7 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loop each)%%timeitdf[df.booked_perc<= 0.5].booked_perc.sum()724 &micro;s &plusmn; 18.8 &micro;s per loop(mean &plusmn; std. dev. of 7 runs, 1000 loops each)

正如預期的一樣,第二個例子比第一個例子快很多

如果加入更多的過濾器呢?只需把它們添加到括號里:

%%timeitdf[(df.booked_perc <=0.5) & (df.city == 'new york')].booked_perc.sum()1.55ms &plusmn; 10.7 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 1000 loops each)

3. 如何避免訪問以前的值

你可能會說:好吧,但是如果需要訪問先前某一列的值呢,還是需要一個for循環。你錯了!

分別使用和不使用for循環來計算一行到另一行百分數的改變

%%timeitfor i inrange(1, len(df)):     df.loc[i,"perc_change"] =  (df.loc[i].booked_perc- df.loc[i - 1].booked_perc) / df.loc[i- 1].booked_perc7.02 s &plusmn; 24.4 ms per loop (mean &plusmn; std. dev. of 7runs, 1 loop each)%%timeitdf["perc_change"] = df.booked_perc.pct_change()586&micro;s &plusmn; 17.3 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 1000 loops each)

同樣,第二個例子比第一個使用for循環的例子快得多。

pandas有許多函數可以根據以前的值計算統計數據(例如shift函數對值進行移位)。這些函數接受periods參數,可以在計算中包含以前值的數量。

4. 如何避免使用復雜的函數

有時需要在DataFrame中使用復雜函數(有多個變量的函數)。讓我們將從紐約的booking_perc兩兩相乘,其他設置為0并且把這列命名為sales_factor。

筆者首先想到的是使用iterrows的for循環。

%%timeitfor i, row in df.iterrows():     if row.city =='new york':         df.loc[i, 'sales_factor'] =row.booked_perc * 2     else:         df.loc[i, 'sales_factor'] =03.58 s &plusmn; 48.2 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loop each)

一個更好的辦法是直接在DataFrame上使用函數。

%%timeitdef calculate_sales_factor(row):     if row.city =='new york':         return row.booked_perc* 2     return 0df['sales_factor'] =df.apply(calculate_sales_factor, axis=1)165 ms &plusmn; 2.48 ms per loop(mean &plusmn; std. dev. of 7 runs, 10 loops each)

最快的方法是使用pandas過濾器直接計算函數值。

%%timeit df.loc[df.city== 'new york', 'sales_factor'] = df[df.city == 'newyork'].booked_perc * 2 df.sales_factor.fillna(0, inplace=True)3.03 ms &plusmn; 85.5 &micro;sper loop (mean &plusmn; std. dev. of 7 runs, 100 loops each)

可以看到從第一個例子到最后一個的加速過程。

當解決有3個及3個以上變量的函數時,可以把它分解為多個pandas表達式。這比運用函數更快。

Eg: f(x, a, b) = (a + b) * x df['a_plus_b'] = df['a'] +df['b'] df['f'] = df['a_plus_b'] * df['x']

5. 如何避免對數據進行分組

現在可以看到,在開始使用pandas之前,筆者更多依賴于for循環。至于對數據進行分組,如果充分發揮pandas的優勢,可以減少代碼行數。

要計算如下數據:

  • 一個城市的平均sales factor

  • 一個城市的首次預定id

%%timeit avg_by_city = {} count_by_city = {} first_booking_by_city = {}for i, row in df.iterrows():     city = row.city     if city in avg_by_city:         avg_by_city[city] += row.sales_factor         count_by_city[city] += 1     else:         avg_by_city[city] = row.sales_factor         count_by_city[city] = 1         first_booking_by_city[city] =row['id']for city, _ in avg_by_city.items():     avg_by_city[city] /=count_by_city[city]878 ms &plusmn; 21.4 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loopeach)

Pandas有分組操作所以不必在DataFrame上進行迭代,pandas的分組操作和SQL的GROUP BY語句一樣的。

%%timeitdf.groupby('city').sales_factor.mean() df.groupby('city').sales_factor.count() df.groupby('city').id.first()3.05 ms &plusmn; 65.3 &micro;s per loop(mean &plusmn; std. dev. of 7 runs, 100 loops each)%%timeitdf.groupby("city").agg({"sales_factor":["mean", "count"], "id": "first"})4.5ms &plusmn; 131 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 100 loops each)

到此,相信大家對“怎么避免編寫pandas代碼”有了更深的了解,不妨來實際操作一番吧!這里是創新互聯網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

名稱欄目:怎么避免編寫pandas代碼
本文網址:http://m.newbst.com/article44/jhsgee.html

成都網站建設公司_創新互聯,為您提供虛擬主機網站維護App設計商城網站網站收錄網站策劃

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

商城網站建設