Unsplash是個高清攝影圖片的網站,里面的照片非常精美,分辨率也很高。最重要的是,所有的照片都沒有版權,無須向原作者申請授權,即可任意使用。
最近閑暇的時候寫了個爬蟲爬了下Unsplash上的那些高贊的壁紙,爬蟲原理非常簡單,就是爬取所有的壁紙,然后篩選那些贊數高的圖片。
第一步我們爬取Unsplash所有的壁紙圖片信息,并存入MongoDB。
代碼如下:
爬下來的數據里面包含了幾個重要的字段。
我們最關心的就是likes這個字段,這個里面存了圖片的贊數,后續我們篩選高贊圖片的時候會用到。
還有兩個字段分別是width和height,這是圖片的寬度和高度,因為我們這里關注的是桌面壁紙,所以只關心寬度大于高度的那些壁紙。
爬完圖片信息后,接下來我們從數據庫篩選高贊圖片。
代碼如下:
這里我們會根據圖片信息里的URL去下載圖片。需要注意的是,如果過于頻繁地爬取Unsplash,會導致爬蟲被封,所以這里每次下載完都會睡個10秒鐘。
以上,就可以爬取出精美的高清壁紙啦。
作者沈仲強,資深Python程序員,先后供職于Morgan Stanley和ebay,擅長爬蟲、Web開發、數據分析。
(鄭重聲明:本文版權歸原作者沈仲強所有,轉載文章僅為傳播更多信息之目的,如有侵權,請聯系我們刪除;如作者信息標記有誤,請聯系我們修改。)
網站標題:程序員一鍵獲得高清壁紙的代碼
網頁地址:http://m.newbst.com/news/115880.html
成都網站建設公司_創新互聯,為您提供App設計、移動網站建設、面包屑導航、標簽優化、網頁設計公司、動態網站
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯