‘壹’ 小说网站的小说是保存在数据库里还是保存为文件系统里呀
两者都可以。如果在数据库里,则保存在某表的一个字段里,该字段实际上是一个指针,指向一个大对象,就是小说了。否者就是每一篇小说保存为一个文件,数据库里保存小说文件的路径+文件名。这要综合考虑性能及备份方面的需要吧。例如文件系统备份可以很方便地只备份新小说文件,数据库必须使用增量备份等技术手段,而且在线备份可能很不一样等。
‘贰’ 如果爬取一个小说网站以后,如何做到更新内容的爬取并且存储
有一个标记库,记录的目标小说网站目标小说的最新文章id,一般url最后一段数字或者页面的html里面包含。
定时去读取这个最新文章页面,如果当前这个页面是最新的文章,没有更新,那么网页上的下一章那个连接是#(也就是页面本身),有的是跳转到本小说的章节目录,根据情况判断,如果小说更新了,下一章的按钮连接就变话了,根据下一章的id去读取,并更新数据库的标记