A. 網站不想讓搜索引擎抓取怎麼做
操作方式有三種,一種是直接在網站後台進行設置(目前只有wordpress和Zblog程序才有這個功能),另一種就是通過上傳robots文件即可,最後一種就是在伺服器上面利用「網站安全狗」軟體設置靜止抓取的方式。
一、wordpress在程序裡面設置的方式
1-登錄wordpress網站後台

通過以上的步驟就可以讓搜索引擎不抓取網站的方式
B. 怎麼可以防止網頁被抓取 - 技術問答
看你的需求了,可以搞得很復雜,也可以搞得很low。之前是做採集的,算不上大神級別。不過可以說80%以上的H5、網頁、app可以搞定。單擊和分布式爬蟲都弄過。日採集上千萬數據的不少。覆蓋也比較廣,視頻、電商、新聞、輿論分析類等等。總結起來,每個網站的難度都不一樣,99%數據是可以抓取到的。網路就是國內最大的爬蟲,所以想要完全禁止的,除非伺服器關了,數據刪了。否則要採集的手段太多了,無外乎就是出於成本上的考慮。
反爬蟲也是需要付出成本的,包括了體驗差導致用戶流失,內部用的走內網。給用戶用的只能做到減少,如果你的數據很有價值,建議是請一個有實力的技術做一些防護。網路上能回答的基本是有解的。
總結一下:反爬只能防君子,防不了小人,可以加大難度,方法也有很多。不過也只是加大採集成本
C. 如何防止網站內容被別的網站惡意抓取
三種實用的方法。
1、文章頭尾加隨機廣告..
2、文章列表加隨機不同的鏈接標簽,比如<a href="",<a class="dds" href=''
3、正文頭尾或列表頭尾添加<!--重復特徵代碼-->
第一種防採集方法:
下面我詳細說一下這三種方法的實際應用:
如果全加上,絕對可以有效的防採集,單獨加一種就可以讓採集者頭疼。。
完全可以對付通用的CMS採集程序。。
在採集時,通常都是指定頭尾特徵從哪到哪過濾.這里我們先講第一種方法,文章頭尾加隨機廣告..
隨機廣告是不固定的。
比如你的文章內容是"歡迎訪問阿里西西",那麼隨機廣告的加入方法:
<div id="xxx">
隨機廣告1歡迎訪問阿里西西隨機廣告2
</div>
注:隨機廣告1和隨機廣告2每篇文章只要隨機顯示一個就可以了.
第二種防採集方法:
<!--<div id="xxx_文章ID">-->
其它標題或內容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
隨機廣告1歡迎訪問阿里西西隨機廣告2
<--</div>-->
</div>
<--</div>-->
這是第二種防採集方法。在文章正文頁面插入重復特徵頭尾代碼的注釋。
當然,這個可以用正則去掉,但足於對付通用的採集系統。。
第三種防採集方法:
第三種加在文章的列表,隨便鏈接樣式:
<a href="xxx.html">標題一</a>
<a alt="xxx" href="xxx.html">標題二</a>
<a href='xxx.html'>標題三</a>
<a href=xxx.html>標題四</a>
原理是讓採集的人無法抓到列表鏈接規律,無法批量進行採集.
如果三種方法全部加上,我想一定能讓想採集的人頭疼半天而放棄的..
如果你還問,如何防止別人復制採集呢?要做到這一點容易,把你的網站的網線拔了,自己給自己看就好了.哈哈.
如果你的文章來自原創,那像可以加上版權聲明,別人隨意轉載時,你可以要求對方刪除你有版權的文章.
D. 如何禁止搜索引擎爬蟲抓取網站頁面
以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。注意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。
1、通過 robots.txt 文件屏蔽
可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話),給出以下建議:
User-agent: Baispider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通過 meta tag 屏蔽
在所有的網頁頭部文件添加,添加如下語句:
<meta name="robots" content="noindex, nofollow">
3、通過伺服器(如:Linux/nginx )配置文件設置
直接過濾 spider/robots 的IP 段。
E. 如何設置讓網站禁止被爬蟲收錄
1、網站建設好了,當然是希望網頁被搜索引擎收錄的越多越好,但有時候我們也會碰到網站不需要被搜索引擎收錄的情況。要啟用一個新的域名做鏡像網站,主要用於PPC 的推廣,這個時候就要想辦法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網站的所有網頁。因為如果鏡像網站也被搜索引擎收錄的話,很有可能會影響官網在搜索引擎的權重。
2、屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲。
3、通過 robots.txt 文件屏蔽,可以說 robots.txt 文件是最重要的一種渠道(能和搜索引擎建立直接對話)。通過 meta tag 屏蔽,在所有的網頁頭部文件添加,添加如下語句:<meta name="robots" content="noindex, nofollow">。通過伺服器(如:Linux/nginx )配置文件設置,直接過濾 spider/robots 的IP 段。
F. 有什麼好方法防止自己網頁的內容被採集
防止自己網頁的內容被採集有非常多的方法
方法一:內容配圖加水印
當你的文章中含有圖片時候,可以給圖片打上水印,這樣就留下了你的信息,對方要採集或者復制您文章後,不可能一張一張的去處水印,這樣也算是變相地幫助我們宣傳網站。
方法二:內容隨機穿插版權信息
在不影響用戶閱讀體驗的情況下,盡量在內容段落之間隨機插入一些之間的信息,比如:網站名字,鏈接,版權作者,QQ等,這樣的話,就算對方使用採集器過濾也不可能每篇文章都能過濾得掉。
方法三:作品結尾留作者信息及鏈接
不過這個方法作用不是很大,因為很多人復制或轉載內容時直接去掉了,可以參考方法二,適當在段落結尾處不影響閱讀的情況下下隨機插入較好。
方法四:主動推送網址給網路收錄
網路給出的鏈接提交方式有以下三種:
1、主動推送:最為快速的提交方式,推薦您將站點當天新產出鏈接立即通過此方式推送給網路,以保證新鏈接可以及時被網路收錄。
2、sitemap:您可以定期將網站鏈接放到sitemap中,然後將sitemap提交給網路。網路會周期性的抓取檢查您提交的sitemap,對其中的鏈接進行處理,但收錄速度慢於主動推送。
3、手工提交:一次性提交鏈接給網路,可以使用此種方式。
方法五:利用JS加密網頁內容
這個方法是在個別網站上看到的,非常暴力。缺點:搜索引擎爬蟲無法識別收錄和通殺所有採集器,針對極度討厭搜索引擎和採集器的網站的站長使用,量力而行,您能豁出去了,別人也就沒辦法採集你了。
方法六:網站隨機採用不同模版
分析:因為採集器是根據網頁結構來定位所需要的內容,一旦先後兩次模版更換,採集規則就失效,不錯。而且這樣對搜索引擎爬蟲沒影響。
適用網站:動態網站,並且不考慮用戶體驗。
採集器會怎麼做:一個網站模版不可能多於10個吧,每個模版弄一個規則就行了,不同模版採用不同採集規則。如果多於10個模版了,既然目標網站都那麼費勁的更換模版,成全他,撤。
方法七:利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網站的隱藏分頁進行分析,這影響搜索引擎對其收錄。但是,採集者在編寫採集規則時,要分析目標網頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。
適用網站:對搜索引擎依賴度不高的網站,還有,採集你的人不懂腳本知識。
採集器會怎麼做:應該說採集者會怎麼做,他反正都要分析你的網頁代碼,順便分析你的分頁腳本,花不了多少額外時間。
方法八:限制IP地址單位時間的訪問次數
分析:沒有哪個常人一秒鍾內能訪問相同網站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的採集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網站的收錄。
適用網站:不太依靠搜索引擎的網站。
採集器會怎麼做:減少單位時間的訪問次數,減低採集效率。
希望可以幫到你!
G. 網站不想讓搜索引擎抓取怎麼做
網站robots.txt設置好即可
怎麼寫Robots.txt文件?
遵循語法的Robots.txt才可能被機器人識別,至於語法,介紹起來很繁瑣,現簡單舉例如下:
1)禁止所有搜索引擎訪問網站的任何部分(也就是網站徹底的拒絕所有搜索引擎收錄)
User-agent: *
Disallow: /
2)允許所有的robot訪問(也就是網站允許所有搜索引擎收錄)
User-agent: *
Disallow:
3)禁止某個搜索引擎的訪問(比如禁止網路收錄,按如下的方式寫)
User-agent: spider
Disallow: /
4)允許某個搜索引擎的訪問(比如允許網路收錄,按如下的方式寫)
User-agent: spider
Disallow:
User-agent: *
Disallow: /
5)禁止搜索引擎訪問某些目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /images/
使用方法:很簡單,將代碼存為一個文本文件,命名為Robots.txt ,放在網頁根目錄即可。
H. 怎麼才能讓蜘蛛不抓取整個網站
Robots.txt 是存放在站點根目錄下的一個純文本文件。雖然它的設置很簡單,但是作用卻很強大。它可以指定搜索引擎蜘蛛只抓取指定的內容,或者是禁止搜索引擎蜘蛛抓取網站的部分或全部內容。
使用方法:
Robots.txt 文件應該放在網站根目錄下,並且該文件是可以通過互聯網進行訪問的。
例如:如果您的網站地址是 http://www..com/那麼,該文件必須能夠通過 http://www..com/robots.txt 打開並看到裡面的內容。
格式:
User-agent:
用於描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多條User-agent記錄說明有多個搜索引擎蜘蛛會受到該協議的限制,對該文件來說,至少要有一條User-agent記錄。如果該項的值設為*,則該協議對任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"這樣的記錄只能有一條。
Disallow:
用於描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會被Robot訪問到。
舉例:
例一:"Disallow:/help"是指/help.html 和/help/index.html都不允許搜索引擎蜘蛛抓取。
例二:"Disallow:/help/"是指允許搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。
例三:Disallow記錄為空說明該網站的所有頁面都允許被搜索引擎抓取,在"/robots.txt"文件中,至少要有一條Disallow記錄。如果"/robots.txt"是一個空文件,則對於所有的搜索引擎蜘蛛,該網站都是開放的可以被抓取的。
#:Robots.txt 協議中的注釋符。
綜合例子 :
例一:通過"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目錄,以及 "/tmp/"目錄和 /foo.html 文件,設置方法如下:
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html
例二:通過"/robots.txt"只允許某個搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允許名為"slurp"的搜索引擎蜘蛛抓取,而拒絕其他的搜索引擎蜘蛛抓取 "/cgi/" 目錄下的內容,設置方法如下:
User-agent: *
Disallow: /cgi/
User-agent: slurp
Disallow:
例三:禁止任何搜索引擎抓取我的網站,設置方法如下:
User-agent: *
Disallow: /
例四:只禁止某個搜索引擎抓取我的網站如:只禁止名為「slurp」的搜索引擎蜘蛛抓取,設置方法如下:
User-agent: slurp
Disallow: /
I. 網站怎樣屏蔽某些蜘蛛過來抓取
在伺服器根目錄,新建一個robots.txt文件,裡面添加自己不想讓蜘蛛爬取的目錄:
寫法
1.如果你站點中的所有文件,都可以讓蜘蛛爬取、收錄的話,那麼語法這樣寫:
User-agent: *Disallow:當然,如果你網站中全部的文件都可以讓搜索引擎索引的話,你也可以不管這個文件。
2.完全禁止搜索引擎來訪的Robots.txt文件寫法:
User-agent: *
Disallow: /
2.1.要禁止掉某個搜索引擎來訪的Robots.txt文件寫法:
User-agent: Googlebot
Disallow: /
3.網站中某個文件夾不希望讓搜索引擎收錄的Robots.txt文件寫法:
User-agent: *
Disallow: /admin/
Disallow: /images/
4.禁止Google抓取網站中的圖片文件:
User-agent: Googlebot
