網站的數據從哪裡來的_如何在網站找數據

A. 一般網站首頁的數據都是從資料庫查出來的嗎

大型網站的首頁是一定要生成純靜態的，巨大的訪問量下無法支撐實時數據讀取。至於偽靜態，只是一種url重寫技術，片片搜索引擎而已，實際頁面的執行方式仍然是動態讀取數據，因此偽靜態對於降低數據層消耗毫無意義，反而會因為每次請求都要經過rewrite模塊而增加伺服器負擔，產生新的性能瓶頸，除非在web前面再加一層cdn，把偽靜態後的首頁當成靜態內容給緩存起來。首頁靜態化的方式是把首頁分割成若干塊，每一塊用shtml的伺服器端包含來分塊載入，每個欄目的編輯部只有許可權生成他們自己負責的那一塊的首頁內容塊。大型網站應對高負載的手段不是單一的，靜態化只是其中一種，因為靜態化只解決了數據讀取問題，但是web伺服器的壓力和帶寬壓力仍然存在，這就需要用多台web伺服器架設集群來解決，同時可以在web層前面再加一層cdn層，將靜態內容的請求重定向到cdn緩存上，從而減少web伺服器的請求次數和帶寬壓力。同時，有些頻繁讀寫的數據是沒辦法靜態化的，應對這種情況下的大負載，通常有兩個途徑，一是通過資料庫伺服器的主從結構實現讀寫分離，在資料庫層進行優化；二是盡量把頻繁讀取的大數據轉移到KVDB雲上，並把一些更新較慢的查詢結果集緩存在cache雲上，以減少關系型資料庫的大規模計算。

B. 網站數據的分析：網站數據是怎麼來的

那就好看是什麼網站了，還要看什麼數據
如果是電商網站，數據獲取非常簡單和結構化
用戶的個人資料和瀏覽記錄，購買記錄，收藏等數據都是，在伺服器里都有記錄的
如果只是一個普通的內容網站的話，那在網站的伺服器或空間里，可以找到各種需要的數據

C. 互聯網上的數據來自哪裡

從技術的角度來講，互聯網是全球性的，互聯網上的每一台主機都有「地址」，這些主機按照共同的規則（協議）連接在一起。這就是數據來源和儲存。

D. 數據分析中數據從哪找

1、簡單、公開的數據集

先分享一些科研機構、企業、政府會開放的一些數據集和一些專業的數據下載網站。這些數據集一般都比較完善、質量相對較高，拿到手數據清洗的工作比較少，適合新手做一些簡單基礎的分析。

中國統計信息網:全國各級政府各年度的國民經濟和社會發展統計信息，部分數據免費

國家統計局：各種民生相關的統計數據，而且所有數據都是免費，而且這個網站的友情鏈接里還有很多其他地方的數據以及國外數據。

2、數據可視化項目數據集

最常見的數據可視化項目就是製作某某地區人均收入區別的信息圖，找數據可視化項目相關的數據集的時候，我們希望數據集盡量“干凈”，減少數據清洗的工作，數據要足夠有趣，能夠支撐起豐富的圖表。

3、數據建模、機器學習的數據集

UCI：UCI是加州大學歐文分校開放的經典數據集，是機器學習領域最有名的數據存儲庫。包含各種數據集，比如經典的泰坦尼克號倖存預測到最新的數據(如空氣質量和GPS軌跡)。

阿里天池：作為國內互聯網龍頭阿里巴巴旗下的大數據競賽網站，提供了很多比賽數據集可以練手，說不定還能順手拿個獎，賺點獎金。

E. 網路大數據在什麼地方獲取

網路大數據獲取的地方有（在法律范圍內，獲取公開數據）：

社區、論壇、微博、知乎、FACEBOOK、Twitter、Ins等社交媒體

網路、搜狗、360、谷歌、必應、雅虎等搜索引擎

美團、大眾點評、58同城、趕集網等信息分類網站

企查查、天眼查等企業工商信息API

智聯、BooS直聘、拉勾、中華英才、領英等招聘網站

阿里巴巴、慧聰、商業新知、軟服之家等ToB類平台或行業網站

公共數據開放網站：

政府數據開放平台

北京市政務數據資源網、上海市政府數據服務網、天津市信息資源統一開放平台、開放廣東、浙江政務服務網「數據開放」專題網站、武漢市政務公開數據服務網、長沙市政府門戶網站數據開放平台、蘇州市政府數據開放平台、成都市公共數據開放平台、數據開放--四川省人民政府網站……

國家相關部門統計信息網站

中國人民銀行、中國銀行業監督管理委員會、中國證券監督管理委員會、中國銀保險監督管理委員會、中國國家統計局……

國外數據開放網站

紐約政府開放數據平台、美國官網數據超市、新加坡政府開放數據平台、休斯頓市開放數據門戶網站、Academic Torrents、hadoopilluminated.com、美國人口普查局、世界銀行開放數據搜索網站、費城開放數據平台……

資源節選自：

【Open Data】國外開放數據中心及政府數據開放平台匯總

最全的中國開放數據(open data)及政府數據開放平台匯總

F. 數據分析網站的數據來源有哪些

第一種，統計工具：有網路統計、Google、CNZZ、51啦等
第二種，搜索引擎：網路、Google、360，等等
第三種，行業大數據，這種是數據很多都是人共採集的或者行業提供的。

G. 網站首頁的數據是怎麼從資料庫中得到的

合理的做法是先訪問servlet
，如果你不寫這些東西還想訪問資料庫的話，只能把這次訪問資料庫的代碼直接寫字jsp中了

H. 如何在網站找數據

1、伺服器日誌

隨著網站應用的不斷擴張，網站日誌不再局限於點擊流的日誌數據，如果你的網站提供上傳下載、視頻音樂、網頁游戲等服務，那麼很明顯，你的網站伺服器產生的絕不僅有用戶瀏覽點擊網頁的日誌，也不只有標準的apache日誌格式日誌，更多的W3C、JSON或自定義格式的輸出日誌也給網站分析提供了新的方向。

網站分析不再局限於網頁瀏覽的PV、UV，轉化流失等，基於事件(Events)的分析將會越來越普遍，將會更多的關注用戶在接受網站服務的整個流程的情況：上傳下載是否完成，速度如何;用戶是否觀看的整部視頻，視頻的載入情況;及用戶在玩網頁游戲時的操作和體驗分析等。

2、網站分析工具

當然，通過網站分析工具獲得數據是一個最為簡便快捷的方式，從原先的基於網站日誌的AWStats、webalizer，到目前非常流行的基於JS Tags的Google Analytics、99click的SiteFlow，及JS和網站日誌通吃的WebTrends。通過網站分析工具獲得的數據一般都已經經過特殊計算，較為規范，如PV、UV、Exit Rate、Bounce Rate等，再配上一些趨勢圖或比例圖，通過細分、排序等方法讓結果更為直觀。

但通過網站分析工具得到數據也不遠只這些，上面的這些數據也一樣可以通過統計網站日誌獲得，但網站分析工具的優勢在於其能通過一些嵌入頁面的JS代碼獲得一些有趣的結果。

3、資料庫數據

對於一般的網站來說，存放於資料庫中的數據可以大致分為3個部分：

1、網站用戶信息，一般提供注冊服務的網站都會將用戶的注冊賬號和填寫的基本信息存放在資料庫裡面;

2、網站應用或產品數據，就像電子商務的商品詳細信息或者博客的文章信息，如商品信息會包含商品名稱、庫存數量、價格、特徵描述等;

I. 企查查平台檢索到的信息都是從哪裡來的，准確度高么

1、像企查查這樣的企業信用查詢網站的信息，基本上都來自國家企業信用信息公示系統，然後對數據加以挖掘和分析，呈現給用戶。類似企查查這樣的網站還是挺多的。
2、這樣的數據准確度還是挺高的，畢竟都是直接從國家企業信用信息公示系統和一些其他的大型網站中爬取出來的。

J. 網站分析的數據來源

網站分析的數據來源

Avinash Kaushik在他的《Web Analytics》一書中將數據的來源分為4部分：點擊流數據（Clickstream）、運營數據（Outcomes）、調研數據（Research/Qualitative）和競爭對手數據（Competitive Data）。點擊流數據主要指的是用戶瀏覽網站時產生的數據；Outcomes我更習慣叫做運營數據，主要指用戶在網站中應用服務或者購買產品時記錄下來的數據；調研數據主要是網站通過某些用戶調研手段（線上問卷或者線下調研）獲取的一些定性數據；Competitive Data直譯為競爭對手數據可能不太合適，因為根據Avinash Kaushik的闡述，更像是跟網站有業務關系或競爭關系或存在某種利益影響的一切網站的可能的數據來源。
在獲取上述幾類數據的同時，也許我們還可以從其他方面獲取一些更為豐富的數據。下面是我對網站分析數據獲取途徑的整理：
網站內部數據
網站內部數據是網站最容易獲取到的數據，它們往往就存放在網站的文件系統或資料庫中，也是與網站本身最為密切相關的數據，是網站分析最常見的數據來源，我們需要好好利用這部分數據。
伺服器日誌
隨著網站應用的不斷擴張，網站日誌不再局限於點擊流的日誌數據，如果你的網站提供上傳下載、視頻音樂、網頁游戲等服務，那麼很明顯，你的網站伺服器產生的絕不僅有用戶瀏覽點擊網頁的日誌，也不只有標準的apache日誌格式日誌，更多的W3C、JSON或自定義格式的輸出日誌也給網站分析提供了新的方向。
網站分析不再局限於網頁瀏覽的PV、UV，轉化流失等，基於事件（Events）的分析將會越來越普遍，將會更多的關注用戶在接受網站服務的整個流程的情況：上傳下載是否完成，速度如何；用戶是否觀看的整部視頻，視頻的載入情況；及用戶在玩網頁游戲時的操作和體驗分析等。Google Analytics已經支持了基於事件的分析——Event Tracking，通過JS的動作響應獲取數據，但是還存在著一定的局限性。
網站分析工具
當然，通過網站分析工具獲得數據是一個最為簡便快捷的方式，從原先的基於網站日誌的AWStats、webalizer，到目前非常流行的基於JS Tags的Google Analytics、Omniture的SiteCatalyst，及JS和網站日誌通吃的WebTrends。通過網站分析工具獲得的數據一般都已經經過特殊計算，較為規范，如PV、UV、Exit Rate、Bounce Rate等，再配上一些趨勢圖或比例圖，通過細分、排序等方法讓結果更為直觀。
但通過網站分析工具得到數據也不遠只這些，上面的這些數據也一樣可以通過統計網站日誌獲得，但網站分析工具的優勢在於其能通過一些嵌入頁面的JS代碼獲得一些有趣的結果，如Google Analytics上的Overlay或者也叫Click Density——網站點擊密度分布，及一些其它的網站分析工具提供的點擊熱圖，甚至滑鼠移動軌跡圖。這些分析結果往往對網站優化和用戶行為分析更為有效。
資料庫數據
對於一般的網站來說，存放於資料庫中的數據可以大致分為3個部分：
網站用戶信息，一般提供注冊服務的網站都會將用戶的注冊賬號和填寫的基本信息存放在資料庫裡面；
網站應用或產品數據，就像電子商務的商品詳細信息或者博客的文章信息，如商品信息會包含商品名稱、庫存數量、價格、特徵描述等；
用戶在應用服務或購買產品時產生的數據，最簡單的例子就是博客上用戶的評論和電子商務網站的用戶購買數據，購買時間、購買的用戶、購買的商品、購買數量、支付的金額等。
當然，這一部分數據的具體形式會根據網站的運營模式存在較大差異，一些業務范圍很廣，提供多樣服務的網站其資料庫中數據的組合會相當復雜。
其它
其它一切網站運營過程中產生的數據，有可能是用戶創造，也有可能是網站內部創造，其中有一大部分我們可以稱其為「線下數據（Offline Data）」。如用戶的反饋和抱怨，可能通過網站的交流論壇，也有可能通過網站時公布的客服電話、即時通訊工具等，如果你相信「客戶中心論」，那麼顯然對於這些數據的分析必不可少；另外一部分來源就是網站開展的線下活動，促銷或推廣，衡量它們開展的效果或投入產出，以便於之後更好地開展類似的線下推廣。
外部數據
網站分析除了可以從網站內部獲取數據以外，通過互聯網這個開放的環境，從網站外部捕獲一些數據可以讓分析的結果更加全面。
互聯網環境數據
即使你的網站只是一個很小的網站，但如果想讓你的網站變得更好，或者不至於落後於互聯網的前進腳步，那麼建議你關注一下互聯網的發展趨勢。可以上Alexa查一下互聯網中頂級網站的訪問量趨勢；看看comScore發布的數據或者199IT–中國互聯網數據中心網站上的各種數據分析和研究資料；如果經營電子商務網站，淘寶數據中心也許會讓你感興趣。
競爭對手數據
時刻關注競爭對手的情況可以讓你的網站不至於在競爭中落伍。除了在Alexa及一些其他的網站數據查詢平台以外，直接從競爭對手網站上獲取數據也是另外一條有效的途徑，一般網站會出於某些原因（信息透明、數據展示等）將自己的部分統計信息展現在網站上，看看那些數據對於掌握你的競爭對手的情況是否有幫助。
合作夥伴數據
如果你有合作的網站或者你經營的是一個電子商務網站，也許你會有相關的產品提供商、物流供應商等合作夥伴，看看他們能為你提供些什麼數據。
用戶數據
嘗試跟蹤用戶的腳步去看看他們是怎麼評價你的網站的。如果你的網站已經小有名氣，那麼嘗試在搜索引擎看看用戶是怎麼評價你的網站，或者通過Twitter、新浪微博等看看用戶正在上面發表什麼關於你的網站的言論。
當然通過用戶調研獲取數據是另外一個不錯的途徑，通過網站上的調查問卷或者線下的用戶回訪，電話、IM調查，可用性實驗測試等方式可以獲取一些用戶對網站的直觀感受和真實評價，這些數據往往是十分有價值的，也是普通的網站分析工具所獲取不到的。
在分析網站的外部數據的時候，需要注意的是不要過於相信數據，外部數據相比內部數據不確定性會比較高。網站內部數據即使也不準確，但我們至少能知道數據的誤差大概會有多大，是什麼原因造成了數據存在誤差。而外部數據一般都是有其他網站或機構公布的，每個公司，無論是數據平台、咨詢公司還是合作夥伴都可能會為了某些利益而使其公布的數據更加可信或更具一定的偏向性，所以我們在分析外部數據是需要更加嚴格的驗證和深入的分析。而對於用戶調研中獲取的數據，我們一般會通過統計學的方法檢驗數據是否可以被接受，或者是否滿足一定的置信區間，這是進行數據分析前必須完成的一步。

網站的數據從哪裡來的

網路大數據獲取的地方有（在法律范圍內，獲取公開數據）：

公共數據開放網站：

與網站的數據從哪裡來的相關的內容