㈠ 如何反爬虫
反爬虫
就是和爬虫抗衡,减少被爬取。
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,
相当部分国内爬虫不遵守robots协议。
所有有了保护自己内容不让别人抓取的反爬虫需求
1、手工识别和拒绝爬虫的访问
2、通过识别爬虫的User-Agent信息来拒绝爬虫
3、通过网站流量统计系统和日志分析来识别爬虫
4、网站的实时反爬虫防火墙实现
5、通过JS算法,文字经过一定转换后才显示出来,容易被破解。某技术网站采用了这种方法
6、通过CSS隐藏技术,可见的页面样式和HTML里DIV结构不同,增加了爬虫的难度,同时增加自己的维护难度。
技术网站采用了这种方法
7、通过JS不让用户复制,这对非专业人员有效,对技术人员/工程师来说,没有任何效果。不少网站采用。
8、通过flash等插件技术(会被破解,同时对用户不友好,有流失用户的可能性)。早期网站用得多,移动互联网来后,这种方式对用户不友好,少有专业网站采用了。
9、图片化
A:将文字图片化,增加了维护成本,和移动端的可读性
B:将标点符号图片化,再适当增加CSS混淆,这是一种较好的办法,不影响搜索引擎收录,不影响用户使用。但影响爬虫,是一种较好的反爬虫方式,某着名的文学网站采用了这种方法
10、交给专业反爬虫公司来处理
㈡ 如何防止网站被爬虫爬取的几种办法
相较于爬虫技术,反爬虫实际上更复杂。目前许多互联网企业都会花大力气进行“反爬虫”,网络爬虫不但会占据过多的网站流量,导致有真正需求的用户没法进入网站,另外也有可能会导致网站关键数据的外泄等现象。网络爬虫遍布互联网的各个角落,因此网络爬虫有好处也有坏处,接下来介绍一下和网络爬虫一同诞生的反爬虫技术,如何才能防止别人爬取自己的网站?
1、基于程序本身去防止爬取:作为爬虫程序,爬取行为是对页面的源文件爬取,如爬取静态页面的html代码,可以用jquery去模仿写html,这种方法伪装的页面就很难被爬取了,不过这种方法对程序员的要求很高。
2、基于iptables和shell脚本:可以对nginx的access.log进行策略定义,例如定义在1分钟内并发连接数超过30个ip为非法,如ip不在白名单内,则加入iptables策略封掉,当然这种的缺点是会有“误伤”,策略细粒度越小就会有更多的“误伤”,细粒度大就会使效果变差,另外还有类似的第三方工具fail2ban,利用做filter和actor对一些有危害的操作记录或是封ip。但是对于某个特定的爬虫地址(例如网易、有道)的爬取行为拒绝也很难准确做到,因为你无法准确知道这些特定的爬虫ip地址。注意:建议不要用封ip条目的方式,iptables列表长度是65535时就会封满,服务器也就会死机。
3.使用robots.txt文件:例如阻止所有的爬虫爬取,但是这种效果不是很明显。
User-agent: *
Disallow: /
4.使用nginx的自带功能:通过对httpuseragent阻塞来实现,包括GET/POST方式的请求,以nginx为例,具体步骤如下:
编辑nginx.conf
拒绝以wget方式的httpuseragent,增加如下内容
## Block http user agent - wget ##
if ($http_user_agent ~* (Wget) ) {
return 403;
}
## Block Software download user agents ##
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403;
平滑启动
# /usr/local/nginx/sbin/nginx -s reload
如何拒绝多种httpuseragent,内容如下:
if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {
return 403;
}
大小写敏感匹配
### 大小写敏感http user agent拒绝###
if ($http_user_agent ~ (Catall Spider|AcoiRobot) ) {
return 403;
}
### 大小写不敏感http user agent拒绝###
if ($http_user_agent ~* (foo|bar) ) {
return 403;
}
注意语法:~*表示是大小写不敏感,~表示是大小写敏感
}
以上就是预防网站信息被别人爬取的一些方法,大量的爬取行为会对web服务器的性能有影响,所以一定要注重反爬虫措施。
㈢ 怎样防止黑客入侵自己的电脑
1、禁止IPC空连接:
cracker可以利用net use命令建立空连接,进而入侵,还有net view,nbtstat这些都是基于空连接的,禁止空连接就好了。打开注册表,找到 Local_-RestrictAnonymous 把这个值改成”1”即可。
2、禁止at命令:
cracker往往给你个木马然后让它运行,这时他就需要at命令了。打开管理工具-服务,禁用task scheler服务即可。
3、关闭超级终端服务
如果你开了的话。这个漏洞都烂了,我不说了。
4、关闭SSDP Discover Service服务
这个服务主要用于启动家庭网络设备上的UPnP设备,服务同时会启动5000端口。可能造成DDOS攻击,让CPU使用达到100%,从而使计算机崩溃。照理说没人会对个人机器费力去做DDOS,但这个使用过程中也非常的占用带宽,它会不断的向外界发送数据包,影响网络传输速率,所以还是关了好。
5、关闭Remote Regisry服务
看看就知道了,允许远程修改注册表?除非你真的脑子进水了。
6、禁用TCP/IP上的NetBIOS
网上邻居-属性-本地连接-属性-Internet协议(TCP/IP)属性-高级-WINS面板-NetBIOS设置-禁用TCP/IP上的NetBIOS。这样cracker就无法用nbtstat命令来读取你的NetBIOS信息和网卡MAC地址了。
7、关闭DCOM服务
这就是135端口了,除了被用做查询服务外,它还可能引起直接的攻击,关闭方法是:在运行里输入dcomcnfg,在弹出的组件服务窗口里选择默认属性标签,取消“在此计算机上启用分布式COM”即可。
8、把共享文件的权限从”everyone”组改成“授权用户”
“everyone” 在win2000中意味着任何有权进入你的网络的用户都能够获得这些共享资料。任何时候都不要把共享文件的用户设置成”everyone”组。包括打印共享,默认的属性就是”everyone”组的,一定不要忘了改。
9、取消其他不必要的服务
请根据自己需要自行决定,下面给出HTTP/FTP服务器需要最少的服务作为参考:
l Event Log
l License Logging Service
l Windows NTLM Security Support Provider
l Remote Procere Call (RPC) Service
l Windows NT Server or Windows NT Workstation
l IIS Admin Service
l MSDTC
l World Wide Web Publishing Service
l Protected Storage
10、更改TTL值
cracker可以根据ping回的TTL值来大致判断你的操作系统,如:
TTL=107(WINNT);
TTL=108(win2000);
TTL=127或128(win9x);
TTL=240或241(linux);
TTL=252(solaris);
TTL=240(Irix);
实际上你可以自己更改的:HKEY_LOCAL_:DefaultTTL REG_DWORD 0-0xff(0-255 十进制,默认值128)改成一个莫名其妙的数字如258,起码让那些小菜鸟晕上半天,就此放弃入侵你也不一定哦。
11、账户安全
首先禁止一切账户,除了你自己,呵呵。然后把Administrator改名。我呢就顺手又建了个Administrator账户,不过是什么权限都没有的那种,然后打开记事本,一阵乱敲,复制,粘贴到“密码”里去,呵呵,来破密码吧~!破完了才发现是个低级账户,看你崩溃不?
12、取消显示最后登录用户
HKEY_LOCAL_ VersionWinlogon:DontDisplayLastUserName把值改为1。
13、删除默认共享
有人问过我一开机就共享所有盘,改回来以后,重启又变成了共享是怎么回事,这是2K为管理而设置的默认共享,必须通过修改注册表的方式取消它: HKEY_LOCAL_: AutoShareServer类型是REG_DWORD把值改为0即可。
14、禁用LanManager 身份验证
Windows NT Servers Service Pack 4 和后续的版本都支持三种不同的身份验证方法: LanManager (LM) 身份验证;Windows NT(也叫NTLM)身份验证;Windows NT Version 2.0 (也叫NTLM2) 身份验证;
默认的情况下,当一个客户尝试连接一台同时支持LM 和 NTLM 身份验证方法的服务器时,LM 身份验证会优先被使用。所以建议禁止LM 身份验证方法。
1. 打开注册表编辑器;
2. 定位到 HKEY_LOCAL_;
3. 选择菜单“编辑”,“添加数值”;
4. 数值名称中输入:LMCompatibilityLevel ,数值类型为:DWORD,单击 确定;
5. 双击新建的数据,并根据具体情况设置以下值:
0 - 发送 LM 和 NTLM响应;
1 - 发送 LM 和 NTLM响应;
2 - 仅发送 NTLM响应;
3 - 仅发送 NTLMv2响应;(Windows 2000有效)
4 - 仅发送 NTLMv2响应,拒绝 LM;(Windows 2000有效)
5 - 仅发送 NTLMv2响应,拒绝 LM 和 NTLM;(Windows 2000有效)
6. 关闭注册表编辑器;
7. 重新启动机器;
好了,就说到这里,按我说的设置完毕,再加上一个网络防火墙,一个病毒防火墙,基本上一般的安全是能保证的,除非你自己非要泄露你的资料。本文主要面向菜鸟,略过了一些高级和复杂的设置,毕竟个人电脑被真正黑客攻击的可能较小,大多数搞破坏的都是只会用几个工具的小菜鸟。
㈣ windows服务器怎么反爬虫
手工识别和拒绝爬虫的访问
相当多的爬虫对网站会造成非常高的负载,因此识别爬虫的来源IP是很容易的事情。最简单的办法就是用netstat检查80端口的连接:
netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1}'| sort | uniq -c | sort -r -n
这行shell可以按照80端口连接数量对来源IP进行排序,这样可以直观的判断出来网页爬虫。一般来说爬虫的并发连接非常高。
如果使用lighttpd做Web
Server,那么就更简单了。lighttpd的mod_status提供了非常直观的并发连接的信息,包括每个连接的来源IP,访问的URL,连接状
态和连接时间等信息,只要检查那些处于handle-request状态的高并发IP就可以很快确定爬虫的来源IP了。
拒绝爬虫请求既可以通过内核防火墙来拒绝,也可以在web server拒绝,比方说用iptables拒绝:
iptables -A INPUT -i eth0 -j DROP -p tcp --dport 80 -s 84.80.46.0/24
直接封锁爬虫所在的C网段地址。这是因为一般爬虫都是运行在托管机房里面,可能在一个C段里面的多台服务器上面都有爬虫,而这个C段不可能是用户宽带上网,封锁C段可以很大程度上解决问题。
通过识别爬虫的User-Agent信息来拒绝爬虫
有很多爬虫并不会以很高的并发连接爬取,一般不容易暴露自己;有些爬虫的来源IP分布很广,很难简单的通过封锁IP段地址来解决问题;另外还有很多
各种各样的小爬虫,它们在尝试Google以外创新的搜索方式,每个爬虫每天爬取几万的网页,几十个爬虫加起来每天就能消耗掉上百万动态请求的资源,由于
每个小爬虫单独的爬取量都很低,所以你很难把它从每天海量的访问IP地址当中把它准确的挖出来。
这种情况下我们可以通过爬虫的User-Agent信息来识别。每个爬虫在爬取网页的时候,会声明自己的User-Agent信息,因此我们就可以
通过记录和分析User-Agent信息来挖掘和封锁爬虫。我们需要记录每个请求的User-Agent信息,对于Rails来说我们可以简单的在
app/controllers/application.rb里面添加一个全局的before_filter,来记录每个请求的User-Agent信
息:
logger.info "HTTP_USER_AGENT #{request.env["HTTP_USER_AGENT"]}"
然后统计每天的proction.log,抽取User-Agent信息,找出访问量最大的那些User-Agent。要注意的是我们只关注那
些爬虫的User-Agent信息,而不是真正浏览器User-Agent,所以还要排除掉浏览器User-Agent,要做到这一点仅仅需要一行
shell:
grep HTTP_USER_AGENT proction.log | grep -v -E 'MSIE|Firefox|Chrome|Opera|Safari|Gecko' | sort | uniq -c | sort -r -n | head -n 100 > bot.log
统计结果类似这样:
57335 HTTP_USER_AGENT Baispider+(+http://www..com/search/spider.htm)
56639 HTTP_USER_AGENT Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
42610 HTTP_USER_AGENT Mediapartners-Google
19131 HTTP_USER_AGENT msnbot/2.0b (+http://search.msn.com/msnbot.htm)
从日志就可以直观的看出每个爬虫的请求次数。要根据User-Agent信息来封锁爬虫是件很容易的事情,lighttpd配置如下:
$HTTP["useragent"] =~ "qihoobot|^Java|Commons-HttpClient|Wget|^PHP|Ruby|Python" {
url.rewrite = ( "^/(.*)" => "/crawler.html" )
}
使用这种方式来封锁爬虫虽然简单但是非常有效,除了封锁特定的爬虫,还可以封锁常用的编程语言和HTTP类库的User-Agent信息,这样就可以避免很多无谓的程序员用来练手的爬虫程序对网站的骚扰。
还有一种比较常见的情况,就是某个搜索引擎的爬虫对网站爬取频率过高,但是搜索引擎给网站带来了很多流量,我们并不希望简单的封锁爬虫,仅仅是希望降低爬虫的请求频率,减轻爬虫对网站造成的负载,那么我们可以这样做:
$HTTP["user-agent"] =~ "Baispider+" {
connection.delay-seconds = 10
}
对网络的爬虫请求延迟10秒钟再进行处理,这样就可以有效降低爬虫对网站的负载了。
通过网站流量统计系统和日志分析来识别爬虫
有些爬虫喜欢修改User-Agent信息来伪装自己,把自己伪装成一个真实浏览器的User-Agent信息,让你无法有效的识别。这种情况下我们可以通过网站流量系统记录的真实用户访问IP来进行识别。
主流的网站流量统计系统不外乎两种实现策略:一种策略是在网页里面嵌入一段js,这段js会向特定的统计服务器发送请求的方式记录访问量;另一种策
略是直接分析服务器日志,来统计网站访问量。在理想的情况下,嵌入js的方式统计的网站流量应该高于分析服务器日志,这是因为用户浏览器会有缓存,不一定
每次真实用户访问都会触发服务器的处理。但实际情况是,分析服务器日志得到的网站访问量远远高于嵌入js方式,极端情况下,甚至要高出10倍以上。
现在很多网站喜欢采用awstats来分析服务器日志,来计算网站的访问量,但是当他们一旦采用Google
Analytics来统计网站流量的时候,却发现GA统计的流量远远低于awstats,为什么GA和awstats统计会有这么大差异呢?罪魁祸首就是
把自己伪装成浏览器的网络爬虫。这种情况下awstats无法有效的识别了,所以awstats的统计数据会虚高。
其实作为一个网站来说,如果希望了解自己的网站真实访问量,希望精确了解网站每个频道的访问量和访问用户,应该用页面里面嵌入js的方式来开发自己
的网站流量统计系统。自己做一个网站流量统计系统是件很简单的事情,写段服务器程序响应客户段js的请求,分析和识别请求然后写日志的同时做后台的异步统
计就搞定了。
通过流量统计系统得到的用户IP基本是真实的用户访问,因为一般情况下爬虫是无法执行网页里面的js代码片段的。所以我们可以拿流量统计系统记录的
IP和服务器程序日志记录的IP地址进行比较,如果服务器日志里面某个IP发起了大量的请求,在流量统计系统里面却根本找不到,或者即使找得到,可访问量
却只有寥寥几个,那么无疑就是一个网络爬虫。
分析服务器日志统计访问最多的IP地址段一行shell就可以了:
grep Processing proction.log | awk '{print $4}' | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n | head -n 200 > stat_ip.log
然后把统计结果和流量统计系统记录的IP地址进行对比,排除真实用户访问IP,再排除我们希望放行的网页爬虫,比方Google,网络,微软msn爬虫等等。最后的分析结果就就得到了爬虫的IP地址了。以下代码段是个简单的实现示意:
whitelist = []
IO.foreach("#{RAILS_ROOT}/lib/whitelist.txt") { |line| whitelist << line.split[0].strip if line }
realiplist = []
IO.foreach("#{RAILS_ROOT}/log/visit_ip.log") { |line| realiplist << line.strip if line }
iplist = []
IO.foreach("#{RAILS_ROOT}/log/stat_ip.log") do |line|
ip = line.split[1].strip
iplist << ip if line.split[0].to_i > 3000 && !whitelist.include?(ip) && !realiplist.include?(ip)
end
Report.deliver_crawler(iplist)
分析服务器日志里面请求次数超过3000次的IP地址段,排除白名单地址和真实访问IP地址,最后得到的就是爬虫IP了,然后可以发送邮件通知管理员进行相应的处理。
网站的实时反爬虫防火墙实现策略
通过分析日志的方式来识别网页爬虫不是一个实时的反爬虫策略。如果一个爬虫非要针对你的网站进行处心积虑的爬取,那么他可能会采用分布式爬取策略,
比方说寻找几百上千个国外的代理服务器疯狂的爬取你的网站,从而导致网站无法访问,那么你再分析日志是不可能及时解决问题的。所以必须采取实时反爬虫策
略,要能够动态的实时识别和封锁爬虫的访问。
要自己编写一个这样的实时反爬虫系统其实也很简单。比方说我们可以用memcached来做访问计数器,记录每个IP的访问频度,在单位时间之内,
如果访问频率超过一个阀值,我们就认为这个IP很可能有问题,那么我们就可以返回一个验证码页面,要求用户填写验证码。如果是爬虫的话,当然不可能填写验
证码,所以就被拒掉了,这样很简单就解决了爬虫问题。
用memcache记录每个IP访问计数,单位时间内超过阀值就让用户填写验证码,用Rails编写的示例代码如下:
ip_counter = Rails.cache.increment(request.remote_ip)
if !ip_counter
Rails.cache.write(request.remote_ip, 1, :expires_in => 30.minutes)
elsif ip_counter > 2000
render :template => 'test', :status => 401 and return false
end
这段程序只是最简单的示例,实际的代码实现我们还会添加很多判断,比方说我们可能要排除白名单IP地址段,要允许特定的User-Agent通过,要针对登录用户和非登录用户,针对有无referer地址采取不同的阀值和计数加速器等等。
此外如果分布式爬虫爬取频率过高的话,过期就允许爬虫再次访问还是会对服务器造成很大的压力,因此我们可以添加一条策略:针对要求用户填写验证码的
IP地址,如果该IP地址短时间内继续不停的请求,则判断为爬虫,加入黑名单,后续请求全部拒绝掉。为此,示例代码可以改进一下:
before_filter :ip_firewall, :except => :test
def ip_firewall
render :file => "#{RAILS_ROOT}/public/403.html", :status => 403 if BlackList.include?(ip_sec)
end
我们可以定义一个全局的过滤器,对所有请求进行过滤,出现在黑名单的IP地址一律拒绝。对非黑名单的IP地址再进行计数和统计:
ip_counter = Rails.cache.increment(request.remote_ip)
if !ip_counter
Rails.cache.write(request.remote_ip, 1, :expires_in => 30.minutes)
elsif ip_counter > 2000
crawler_counter = Rails.cache.increment("crawler/#{request.remote_ip}")
if !crawler_counter
Rails.cache.write("crawler/#{request.remote_ip}", 1, :expires_in => 10.minutes)
elsif crawler_counter > 50
BlackList.add(ip_sec)
render :file => "#{RAILS_ROOT}/public/403.html", :status => 403 and return false
end
render :template => 'test', :status => 401 and return false
end
如果某个IP地址单位时间内访问频率超过阀值,再增加一个计数器,跟踪他会不会立刻填写验证码,如果他不填写验证码,在短时间内还是高频率访问,就
把这个IP地址段加入黑名单,除非用户填写验证码激活,否则所有请求全部拒绝。这样我们就可以通过在程序里面维护黑名单的方式来动态的跟踪爬虫的情况,甚
至我们可以自己写个后台来手工管理黑名单列表,了解网站爬虫的情况。
关于这个通用反爬虫的功能,我们开发一个开源的插件:https://github.com/csdn-dev/limiter
这个策略已经比较智能了,但是还不够好!我们还可以继续改进:
1、用网站流量统计系统来改进实时反爬虫系统
还记得吗?网站流量统计系统记录的IP地址是真实用户访问IP,所以我们在网站流量统计系统里面也去操作memcached,但是这次不是增加计数
值,而是减少计数值。在网站流量统计系统里面每接收到一个IP请求,就相应的cache.decrement(key)。所以对于真实用户的IP来说,它
的计数值总是加1然后就减1,不可能很高。这样我们就可以大大降低判断爬虫的阀值,可以更加快速准确的识别和拒绝掉爬虫。
2、用时间窗口来改进实时反爬虫系统
爬虫爬取网页的频率都是比较固定的,不像人去访问网页,中间的间隔时间比较无规则,所以我们可以给每个IP地址建立一个时间窗口,记录IP地址最近
12次访问时间,每记录一次就滑动一次窗口,比较最近访问时间和当前时间,如果间隔时间很长判断不是爬虫,清除时间窗口,如果间隔不长,就回溯计算指定时
间段的访问频率,如果访问频率超过阀值,就转向验证码页面让用户填写验证码。
最终这个实时反爬虫系统就相当完善了,它可以很快的识别并且自动封锁爬虫的访问,保护网站的正常访问。不过有些爬虫可能相当狡猾,它也许会通过大量
的爬虫测试来试探出来你的访问阀值,以低于阀值的爬取速度抓取你的网页,因此我们还需要辅助第3种办法,用日志来做后期的分析和识别,就算爬虫爬的再慢,
它累计一天的爬取量也会超过你的阀值被你日志分析程序识别出来。
㈤ 如何让自己的电脑不受红蜘蛛软件的控制
关闭电脑里的红蜘蛛软件:
按Ctrl+Shift+Delete调出任务管理器,在"C:Program Files3000softRed Spider"里面;
按Ctrl+A然后按Shift+Delete,到这 会弹出一会对话筐 不忙理它多;
回到任务管理器 找到一个叫"REDAgent.exe"的进程点击右键“停止进程树”;
然后现在就有两个对话筐了 两个对话筐 都点 “是” 先点 “停止进程树”;
那个对话筐 再点 “删除”那个对话筐 这下就OK了。
㈥ 如何防止网站被杀毒软件爬虫
推荐你使用腾讯电脑管家来保护你的系统。
腾讯电脑管家是一款免费安全软件,能有效预防和解决计算机上常见的安全风险。拥有云查杀木马,系统加速,漏洞修复,实时防护,网速保护,电脑诊所,健康小助手等功能,且首创了“管理+杀毒”2合1的开创性功能 依托管家云查杀和第二代自主研发反病毒引擎“鹰眼”,小红伞(antivir) 管家系统修复引擎和金山云查杀引擎,拥有账号全景防卫系统,尤其针对网络钓鱼欺诈及盗号打击方面,有更加出色的表现,在安全防护及病毒查杀方面的能力已经达到了国际一流杀软的同等水平,能够全面保障电脑安全。
它具体以下功能:
1.云查杀引擎——率先引入全球领先的安全产品小红伞查杀引擎。
2.“鹰眼”反病毒引擎——管家第二代反病毒引擎“鹰眼”,采用新一代机器学习技术,顺应了本地杀毒引擎的未来发展趋势。资源占用少,病毒识别率提高10%。
3.管家反病毒引擎——查杀木马,保护用户账号及个人信息。
4.管家云库——电脑管家的“云安全检测中心”,拥有全球最大的恶意网站数据库,能鉴定网站的安全性,轻松识别假冒、诈骗、钓鱼等恶意网站,有效保护用户的账号及财产安全。
云智能预警系统_在木马活动早期侦测并阻断木马的破坏行为,通过云查杀技术秒杀最新流行木马。
5.扣扣账号全景防卫——全方位多维度保护账号安全,精确打击盗号木马,瞬时查杀并对风险预警。
6.电脑诊所——针对日常电脑问题进行修复和处理,覆盖问题范围广泛,快速搜索,智能匹配,一步一步轻松解决电脑问题。最新网页版电脑诊所也已上线。
开机加速:开机全面加速,耗时一目了然。
7.管家实时防护——实时全方位保护用户电脑免受木马攻击。
8. 广告过滤——免骚扰:过滤用户在使用浏览器浏览网页时遇到的各类弹窗、页面广告,使广告不再弹出和显示,从而保持网页的清爽,提高上网速度
9.管家装机助手——软件安装、升级一键搞定。
10.软件管理——安卓手游上线,精选海量热门安卓游戏,无毒、无恶意广告,让广大用户能够放心一键下载,给手机安装上自己喜欢的游戏。
11.右键菜单管理——管理文件/文件夹和IE浏览器的鼠标右键菜单。
12.电脑管家软件开放平台——永久免费的软件发布平台,电脑管家云平台全面安全检测认证软件防止误报。
㈦ 电脑方面:我想禁止……
费尔网络监护专家
注册码: 885C-5241-8A7E-1F75-44E0
http://dla.pchome.net/internet/safe/xnetgdn_cn_36.zip
“费尔网络监护专家”是一款个人版的“网络反色情”软件,由于设计时溶入了大量的网络安全技术及网络安全理念,使得它无论在功能还是在性能方面的表现都相当出色,是一款专为家庭、教育、机关、单位等机构量身定做的“网络净化器”,是您网络防护的最佳选择。它有的以下主要特点:
主要特性
浏览器无关性 现在绝大多数的反色情软件几乎都有一个相同的致使缺陷:“受浏览器限制”。也就是说如果您换用其它浏览器,许多的反色情软件将可能因此失去作用。与其不同的是费尔网络监护专家在这方面做得却天衣无缝,它是从“源头”上入手:从根本上对网络数据流进行分析侦测,而不是对特定的浏览器进行监视,所以从根本上杜绝了这种情况的发生。即提高了效率又不会受浏览器的限制,无论您使用IE、Netscape还是其它,都可以做到“完全监控、决不放过”。不仅如此,经过测试发现它甚至还可以阻止下载工具对色情网站的一切下载活动,可以说是“尽职尽责”,给您一个意想不到的“全方位”保障 .
防堵率极高 采用了先进的“关键字+网址黑名单”双重评测标准,使得它的防堵率可达97%以上 多语言支持 默认支持对 18 种常用语言的过滤,并且可以手动增加,几乎不再受语言的限制
自动学习、智能升级 当访问的网站不在内置的“网址黑名单”中时将启用“关键字”过滤引擎,智能分析网页内容,确定是色情网站后将自动加入“黑名单”,下次再访问此网站时将迅速阻断访问,不必再次分析内容,加快防堵速度,实现自动升级
效率高、速度快 过滤引擎经过数重严格的算法优化,防堵速度无与伦比,以致于不会让您感觉到对网速有任何影响
超值赠送的弹出式广告屏蔽功能 当您在网上冲浪时是否经常为那些讨厌的“弹出式广告”而生气发火呢?此功能可以把那些烦人的广告彻底的从 HTML 代码中统统“杀掉”,让您在不知不觉中尽情享受一片“安静空间”
黑名单的在线升级 专门设计的“网络爬虫”程序会从网上漫游色情站点,我们会不定期把这些新的“网址黑名单”放在网上供用户进行升级,全面加强防护能力
㈧ 如何设置js 与html不让网络爬虫抓取
网络了一个方法,仅供参考。
robots.txt文件应该放置在网站根目录下。
robots.txt文件用法举例:
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baispider访问您的网站
User-agent: Baispider
Disallow: /
4. 仅允许Baispider访问您的网站
User-agent: Baispider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent:
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent:
Disallow: /*?*
10. 禁止Baispider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baispider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 仅允许Baispider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baispider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 仅禁止Baispider抓取.jpg格式图片
User-agent: Baispider
Disallow: .jpg$
