A. 大型网站是怎么保存那些数据的要用多大的空间内存来存储东西,1000TB的硬盘吗
人家是用服务器的~~象网络游戏一样的~~一组服务器就有1000多个硬盘~~多少个T都有啦~~不够会加服务器的~~
B. 一般网站后台的数据库里面,是如何存储一篇文章的
把整段最终页面上要显示的HTML代码全存到数据库里,包括正文,链接,图片,样式。
输出来一个符号都不差,显示自然也是一样的
如果你要得到纯文字的正文你应该另存一个字段
C. 大型网站的网页文章是如何保存在网站的是存在数据库里还是就保存在各个网页里
当代网站的内容生成都是依赖数据库技术的,后台信息流经过审核以含媒体文本的方式进入数据库,前台页面对数据库的更新内容进行提取生成自动排版页面,再经过人工调整(可选)确定最后排版结果,再经过关键字热度调整在网站主页面上的排序和标题。
D. 视频网站数据储存怎么解决
近日,视频网站YouTube宣布,其全球视频日播放量已经超过10亿小时的里程碑,每分钟新上传视频400小时,相当于1天有65年时长的节目内容更新。这无疑是一个非常庞大的数据,穷我们一生不吃不喝,也不过能看完其一天的视频上传量。
这还仅仅是YouTube一家视频网站,全球范围内所有的视频网站加起来,其数据量已经大到我们无法想象,那么问题来了,这么多的视频,是如何存储的,那得多少硬盘来装啊?
海量硬盘加压缩去重来解决大量数据存储
首先说明一个问题,来普及一下数据量级的问题。1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB,1BB=1024YB,1NB=1024BB,1DB=1024NB。其中我们手机拍摄一张照片约3M,一个高清电影约2G,1TB的硬盘,可以存储500部高清电影。
很多大型网站其实是有自己的专属机房,也就是现在动辄占地几千亩的大型数据中心。如网络已经在山西阳泉建了云计算中心了,占地2000多亩,基本都是存储。我们日常用的网络网盘,里面的数据都存储在了网络的机房里。
大型的企业网站如爱奇艺、腾讯等公司,都有专有机房,这些机房内具有大量硬盘。毕竟相对来说,硬盘的价钱真实是太低了。想想我们只需求四百块钱就能购置1T的硬盘资源,对于大型公司来说,完整有准备大量硬盘的实力。
在用户上传文件或者视频之后,一般会有专门的转码紧缩效劳器。用来把上传的文件进行压缩,所以有时可以看到,本人上传的高清视频,在停止查看时,明晰度并不是很高,这是由于停止压缩的效果。
而在真正保管到硬盘之前,需求对上传的文件去重。检测硬盘中是会否曾经有相关的文件了。假如有的话就直接指定过去了。这也就是为什么很多网盘上面,会有秒传的功用,好几G的文件,几面就能上传完成就是这个原理。
缓存热点数据来保证数据高效分发
对于视频网站来说,绝大部分视频都是冷门资源,用户观看带有非常强的选择性。如当前正在热播的《人民的名义》,在一定的时间段类,可能用户都去看这部电视剧,对于这种热点数据,存储上主要运用散布式存储加散布式文件系统,保证高并发高带宽,存储底层会选用分层技术。
很多视频点击量爆高,此时系统会判别此类数据,并存储到大容量缓存中,外加外置UPS维护,那么当视频没人看的时分,就自动迁移到廉价的7200转或5400转的HDD存储层中。如今的硬盘最大做到60TB了,企业级大容量氦气盘曾经有10TB、12TB了。特别老的视频文件且为普通用户上传的会被后台剖析平台挑选出来删除来释放空间。
可能热点数据在视频网站庞大的存储资源库中,只占据了不到1%的比重,这个时候,网站只需要将高质量带宽分配给这些热点数据即可,并不会明显影响到用户的实际使用。如《人民的名义》现在是绝对热点,可能有1000万人同时观看;而BBC纪录片《地球脉动》在刚推出时是绝对热点,现在随着大家都看过了,每天只有很小一部分人观看。网站根据数据请求量,来酌情分配带宽,并会将热点数据缓存起来,甚至分发到离你家很近很近的机房,这样速度会很快,保证优良的用户使用体验。
可以理解为,有很多货物需要运输,但网民经常购买的物品带有一定的规律性,比如冬天北京雾霾天的时候,买空气净化器的人非常多,这个时候,网站会在仓库里放很多空气净化器,一旦有人购买就可以直接运输出去;而到了春天空气非常好,买空气净化器的人锐减,仓库就会只放很少的库存。通过对于热点的把控,可以高效地提升整个系统的运行效率和用户体验。
总结起来就是,网站会持续购买大量硬盘来存储源源不断的数据,但数据毕竟是有限的,通过压缩、去重等手段,可以有效减轻存储压力;再通过对于热点内容的缓存,来提升用户的实际使用体验。大数据时代,大家都知道数据就是金钱,和未来可以赚到的钱相比,眼前几百块钱一个的硬盘,网站还是舍得花钱买的。
E. 网站里的数据库备份到本地,一般都存储成什么格式比较好
数据库备份格式当然是选择默认的了,像SqlServer是默认.bak,还有一种是直接拷贝数据库文件mdf和日志文件ldf的方式;默认的方式最好,恢复起来不容易出问题,其它格式就没必要去搞了。除非你为了安全,需要进行加密压缩
F. 用爬虫从网站爬下的数据怎么存储
显然不能直接储存,你还得解析出自己需要的内容。
比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在层直接save到数据库即可
如果你爬下的是整个网页,这个好办,把它当做文件一样,用流操作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。
G. 数据是如何存储的
转自网友文章: 大型网站数据库优化
千万人同时访问的网站,一般是有很多个数据库同时工作,说明白一点就是数据库集群和并发控制,这样的网站实时性也是相对的。这些网站都有一些共同的特点:数据量大,在线人数多,并发请求多,pageview高,响应速度快。总结了一下各个大网站的架构,主要提高效率及稳定性的几个地方包括:1、程序
程序开发是一方面,系统架构设计(硬件+网络+软件)是另一方面。软件架构方面,做网站首先需要很多web服务器存储静态资源,比如图片、视频、静态页等,千万不要把静态资源和应用服务器放在一起。一个好的程序员写出来的程序会非常简洁、性能很好,一个初级程序员可能会犯很多低级错误,这也是影响网站性能的原因之一。
网站要做到效率高,不光是程序员的事情,数据库优化、程序优化这是必须的,在性能优化上要数据库和程序齐头并进!缓存也是两方面同时入手。第一,数据库缓存和数据库优化,这个由dba完成(而且这个有非常大的潜力可挖,只是由于我们都是程序员而忽略了他而已)。第二,程序上的优化,这个非常的有讲究,比如说重要一点就是要规范SQL语句,少用in 多用or,多用preparestatement,另外避免程序冗余如查找数据少用双重循环等。另外选用优秀的开源框架加以支持,我个人认为中后台的支持是最最重要的,可以选取spring+ibatis。因为ibatis直接操作SQL并有缓存机制。spring的好处就不用我多说了,IOC的机制可以避免new对象,这样也节省开销。据我分析,绝大部分的开销就是在NEW的时候和连接数据库时候产生的,请尽量避免。另外可以用一些内存测试工具来做一个demo说明hibernate和ibatis谁更快!前台你想用什么就用什么,struts,webwork都成,如果觉得自己挺牛X可以试试用tapestry。用数据库也未必不能解决访问量巨大所带来的问题,作成静态文件硬盘的寻址时间也未必少于数据库的搜索时间,当然对资料的索引要下一翻工夫。我自己觉得门户往往也就是当天、热门的资料点击率较高,将其做缓存最多也不过1~2G的数据量吧,举个例子:◎ 拿网易新闻来说 http://news.163.com/07/0606/09/3GA0D10N00011229.html
格式化一下,方便理解:http://域名/年/月日/新闻所属分类/新闻ID.html
可以把当天发布的、热门的、流揽量大的作个缓寸,用hashtable(key:年-月-日-分类-ID,value:新闻对象),静态将其放到内存(速度绝对快过硬盘寻址静态页面)。通常是采用oracle存储过程+2个weblogic,更新机制也几乎一样每签发一条新闻,就会生成静态页面,然后发往前端的web服务器,前端的web都是做负载均衡的。另外还有定时的程序,每5-15分钟自动生成一次。在发布新闻的同时将数据缓存。当然缓存也不会越来越大,在个特定的时间段(如凌晨)剔除过期的数据。做一个大的网站远没有想象中那么简单,服务器基本就要百十个的。这样可以大大增加一台计算机的处理速度,如果一台机器处理不了,可以用httpserver集群来解决问题了。2、网络
中国的网络分南北电信和网通,访问的ip就要区分南北进入不同的网络。3、集群通常会使用CDN与GSBL与DNS负载均衡技术,每个地区一组前台服务器群,例如:网易,网络使用了DNS负载均衡技术,每个频道一组前台服务器,一搜使用了DNS负载技术,所有频道共用一组前台服务器集群。网站使用基于Linux集群的负载均衡,失败恢复,包括应用服务器和数据库服务器,基于linux-ha的服务状态检测及高可用化。
应用服务器集群可以采用apache+tomcat集群和weblogic集群等;web服务器集群可以用反向代理,也可以用NAT的方式,或者多域名解析都可以;Squid也可以,方法很多,可以根据情况选择。4、数据库因为是千万人同时访问的网站,所以一般是有很多个数据库同时工作的,说明白一点就是数据库集群和并发控制,数据分布到地理位置不同的数据中心,以免发生断电事故。另外还有一点的是,那些网站的静态化网页并不是真的,而是通过动态网页与静态网页网址交换做出现的假象,这可以用urlrewrite这样的开源网址映射器实现。这样的网站实时性也是相对的,因为在数据库复制数据的时候有一个过程,一般在技术上可以用到hibernate和ecache,但是如果要使网站工作地更好,可以使用EJB和websphere,weblogic这样大型的服务器来支持,并且要用oracle这样的大型数据库。
大型门户网站不建议使用Mysql数据库,除非你对Mysql数据的优化非常熟悉。Mysql数据库服务器的master-slave模式,利用数据库服务器在主从服务器间进行同步,应用只把数据写到主服务器,而读数据时则根据负载选择一台从服务器或者主服务器来读取,将数据按不同策略划分到不同的服务器(组)上,分散数据库压力。
大型网站要用oracle,数据方面操作尽量多用存储过程,绝对提升性能;同时要让DBA对数据库进行优化,优化后的数据库与没优化的有天壤之别;同时还可以扩展分布式数据库,以后这方面的研究会越来越多; 如果我来设计一个海量数据库,可能首先考虑的就是平行扩容性,原因很简单,我没有办法预估将来的数据规模,那我也就没有边界可言,因此,基本上首选dbm类哈希型数据库,甚至,对于实时性要求很高的数据库,可能会自行设计库。 当我们使用业务描述脚本、事务批处理机、目录服务、底层存取来划分一个数据库系统之后,其实,所谓的海量数据需求,也就不是那么难办到了。 嗯,这样还有一个额外的好处,就是由于平行扩容性很好,因此,前期可以以较低成本搭建一个简单的架子,后期根据业务量逐出扩容。这对很多企业来说,就是入门门槛很低,便于操作,且商业风险也小。MySQL比起动辄几十万美金,搭建豪华的Oracle平台,成本低多了。
H. 那些大型网站的新闻都是存放在数据库中吗怎么放进去的 asp
中大型网站一般使用,SERVER或者Oracle这种中大型的数据库。执行效率要高一些,而且存放的数据量也可以大一些。存放的方法就是在网站中使用
T-SQL语句插入的。你看到网站中显示的数据就是使用T-SQL的查询语句返回来的数据。
I. 大型网站(比如淘宝/天猫)的首页是怎么快速地获取到这么多的数据具体是怎么实现的用存储过程
之前听一个在阿里的朋友说,他们有部分需要快速读取的数据都是存在内存里的,硬盘备份,想想果然是壕~
J. 大公司数据量如何存储的
,比较传统的数据保存方法有硬盘保存,光存储,磁存储等等。总之就是通过各种存储介质对影像资料进行存储。这种方法只能适用于早期的电影和电视制作,如果后期需要查找的话会比较麻烦。
2,现代的公司一般都是进行网上存储。影视公司一般都会和一些大公司,比如网络之类的有合作,比如说湖南卫视的一些节目拍摄时间很长,存储介质需要很多就会选择网上存储。这种存储都是几个兆T的这种。一方提供资金,另一方提供安全技术保护和存储。双方实现共赢。云存储的好处就是可以实现资源共享,各部门,可以实现联网控制资源调动比较方便。