當前位置:首頁 » 網站資訊 » 爬取數據可以去哪些網站

爬取數據可以去哪些網站

發布時間: 2023-02-07 17:11:12

① 有哪些好的搜集數據的網站

網路指數
爬萌_爬盟中國
http://www.199it.com/archives/category/report
http://www.statisticbrain.com
https://www.statisticssolutions.com
http://www.bullyingstatistics.org
social-statistics.org

② 常用的15個數據源網站,可以滿足你95%的日常取數需求!趕緊收藏

前面介紹過實用的效率小工具,真的幫了我很多忙,這次給小夥伴們再種草一些數據源網站。

現在有很多免費的數據可以供使用分析,不過很少有人能找的到,或者沒能力找,這就是所謂的信息差吧。其實數據獲取分為兩方面,一是「拿來的」數據,也就是現成的;二是「爬來的」數據,這種一般通過爬蟲等手段去採集數據。

「拿來的」數據可以在各大官方平台或者社區去找,一般各行各業都會有自己的資料庫。我常用的數據網站有以下這些:

網路指數: 網路搜索匯總的數據,能看到各種關鍵詞的搜索熱度趨勢,優點數據量大,能反映真實的話題熱度變化,適合做需求洞察、用戶畫像、輿情監測、市場分析。

網路指數規則,是以網民在網路的搜索量為數據基礎,以關鍵詞為統計對象,科學分析並計算出各個關鍵詞在網路網頁搜索中搜索頻次的加權和。

微信指數: 微信生態的大數據,反映關鍵詞熱度,和網路指數類似。但微信指數數據來源微信各種內容渠道,包括搜一搜、視頻號、公眾號等,適合做微信生態人群畫像、內容推廣、輿情監控的研究。


Google Trends: 和網路指數類似的產品,基於google生態匯總的大數據。比網路數據來源更豐富也更廣泛,包含了google、youtube等,畢竟是全球應用。缺點是對國內搜索分析的指導意義不大,還是網路指數更具指導意義。

微博指數: 微博內容提及量、閱讀量、互動量加權得出的綜合指數,優點比較有時效性,而且數據基數大,可以實時反映熱度變化情況,適合實時捕捉當前 社會 熱點事件、熱點話題等,快速響應輿論走向等。

這種數據包含了網站、APP、自媒體賬號等監測數據,大多是商業付費類

Alexa: 用於查詢全球網站排名和流量的平台,可以看到PV、UV、排名、區域分布等信息。

新榜: 新媒體專屬的數據平台,用於查看抖音、快手、公眾號、小紅書等平台KOL賬號的數據。數據包括了粉絲、瀏覽、互動、聲量等,一般用於廣告投放監測、自媒體數據運營等。

貓眼數據: 影視相關數據。匯總了電影票房、網播熱度、電視收視等數據,適合做票房預測、節目熱度監測。

艾瑞指數: APP、Web、手機等排行榜數據,包括各大移動設備裝機指數、APP熱度指數、PC Web熱度指數、網路廣告指數等等,適合做廣告營銷投放等。

新浪 財經 數據中心:新浪 財經 大數據,匯總了股票、基金、期貨、黃金、貨幣等各種 財經 數據,種類很齊全,應該有數據介面。

Wind:國內比較早的金融數據服務商,數據種類最齊全,而且有各種金融分析工具,也支持Python、R等量化分析。但Wind很貴,個人很難承擔的起。

Tushare: 免費的金融資料庫,支持Python介面,數據也非常齊全,包含了股票、基金、期權、債券、外匯、公司報表等各種 財經 數據。只要你會用Python,就可以調用裡面的各種數據,非常便捷。

這種一般包含政府開放數據、統計數據,以及各種民生數據。

國家統計局: 最權威的國內宏觀數據網站,包括人口、經濟、農業等等。

上海公共數據開放平台: 上海市各行各業的免費數據,對公眾開放下載,非常適合做城市規劃分析。

其他城市官方數據:

這一類數據適合做機器學習、統計分析、演算法研究等,是學術界、工業界用於數據驅動業務典型數據。

kaggle: 全球最大的數據科學比賽平台,也是google旗下的產品。kaggle擁有豐富的數據集和各種解決方案,適合對數據感興趣的小夥伴去研究學習。

天池: 阿里雲裡面的數據比賽平台,也擁有很多比賽數據,質量相對較高。

③ 有哪些網站用爬蟲爬取能得到很有價值的數據

一般有一下幾種
一些常用的方法
IP代理
對於IP代理,各個語言的Native
Request
API都提供的IP代理響應的API,
需要解決的主要就是IP源的問題了.
網路上有廉價的代理IP(1元4000個左右),
我做過簡單的測試,
100個IP中,
平均可用的在40-60左右,
訪問延遲均在200以上.
網路有高質量的代理IP出售,
前提是你有渠道.
因為使用IP代理後,
延遲加大,
失敗率提高,
所以可以將爬蟲框架中將請求設計為非同步,
將請求任務加入請求隊列(RabbitMQ,Kafka,Redis),
調用成功後再進行回調處理,
失敗則重新加入隊列.
每次請求都從IP池中取IP,
如果請求失敗則從IP池中刪除該失效的IP.
Cookies
有一些網站是基於cookies做反爬蟲,
這個基本上就是如
@朱添一
所說的,
維護一套Cookies池
注意研究下目標網站的cookies過期事件,
可以模擬瀏覽器,
定時生成cookies
限速訪問
像開多線程,循環無休眠的的暴力爬取數據,
那真是分分鍾被封IP的事,
限速訪問實現起來也挺簡單(用任務隊列實現),
效率問題也不用擔心,
一般結合IP代理已經可以很快地實現爬去目標內容.
一些坑
大批量爬取目標網站的內容後,
難免碰到紅線觸發對方的反爬蟲機制.
所以適當的告警提示爬蟲失效是很有必有的.
一般被反爬蟲後,
請求返回的HttpCode為403的失敗頁面,
有些網站還會返回輸入驗證碼(如豆瓣),
所以檢測到403調用失敗,
就發送報警,
可以結合一些監控框架,
如Metrics等,
設置短時間內,
告警到達一定閥值後,
給你發郵件,簡訊等.
當然,
單純的檢測403錯誤並不能解決所有情況.
有一些網站比較奇葩,
反爬蟲後返回的頁面仍然是200的(如去哪兒),
這時候往往爬蟲任務會進入解析階段,
解析失敗是必然的.
應對這些辦法,
也只能在解析失敗的時候,
發送報警,
當告警短時間到達一定閥值,
再觸發通知事件.
當然這個解決部分並不完美,
因為有時候,
因為網站結構改變,
而導致解析失敗,
同樣回觸發告警.
而你並不能很簡單地區分,
告警是由於哪個原因引起的.

④ 請問數據收集網站都有哪些

小紅書方面的數據收集網站知道一個,其它的不清楚,「千瓜數據」,這個就是一個小紅書大數據分析網站,裡面功能多,數據豐富,可以讓品牌投放更精準。我們公司就注冊了一個賬號。

如何爬取網站上的某一信息

兩類網站可以用不同的方法去爬取
一、開放API的網站
一個網站如果開放了API,那麼就可以直接GET到它的json數據。有三種方法可以判斷一個網站是否開放了API。

1、在站內尋找API入口;

2、用搜索引擎搜索「某網站API」;

3、抓包。有的網站雖然用到了ajax,但是通過抓包還是能夠獲取XHR里的json數據的(可用抓包工具抓包,也可以通過瀏覽器按F12抓包:F12-Network-F5刷新)。

二、不開放API的網站

1、如果網站是靜態頁面,那麼可以用requests庫發送請求,再通過HTML解析庫(lxml、parsel等)來解析響應的text;解析庫強烈推薦parsel,不僅語法和css選擇器類似,而且速度也挺快,Scrapy用的就是它。

2、如果網站是動態頁面,可以先用selenium來渲染JS,再用HTML解析庫來解析driver的page_source。

⑥ 如何爬取新浪財經的多級數據

爬取新浪財經的多級數據可以按照以下步驟。
1、導入依賴的模塊,需要導入的程序介面有request、pyquery和Pandas。
2、選擇爬取數據,選取的數據為新浪財經的網頁,進入微博-新浪財經的網頁,點擊滑鼠右鍵,出現如圖所示的對話框,點擊檢查。
3、點擊Toggledevive鍵,將網頁由PC顯示,轉換成手機顯示模式以便於爬取網頁內容,多數網站在PC端都建立了防爬措施。
4、進入網頁的手機端後,點擊Network。
5、從選擇的網頁中選取需要的內容進行爬取並輸出。

⑦ 有哪些可以獲取數據的網站

細節,你想要多細?如果是年平均值,省級別的數據,一般國家統計局官網、中國統計年鑒上面都有。不過要是市一級別的,或者你詳細分到一周或者以月為單位,但向前推很多年之類的,一般都要花錢的。