对 http://bestcbooks.com/ 这个网站的书籍进行爬取
(爬取资源分享在结尾)
下面是通过一个URL获得其对应网页源码的方法
传入一个 url 返回其源码 (获得源码后,对源码进行解析,获得页面中其他的书籍地址和当前页面的书籍的百度网盘的链接,因为这个网站分享的书籍都是用网盘分享的)。
其实这里要讲的方法是按页面逐个去寻找书籍,还有一种比较暴力的是根据宽度优先遍历,找到所有的链接,不管是不是书籍的,然后再进行筛选。
宽度优先遍历可以看之前的一篇 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html
1 public static String getBookUrlCode(String url) throws IOException { 高德地图美国能用吗导航网站有哪些网页设计师行业规模工商营业执照年检网上申报品牌设计公司是干嘛的生日祝福网站制作教程网页配色模板宣传宣传片制作公司顺昌县网站制作定制乐清信息论坛沧州宇通信息有限公司html代码链接网站深圳本地女装品牌官方网站找工作网络系统集成的内容有哪些平台公司经营不规范网络营销曲鹏飞浙江省建设信息港从哪里进入网络营销推广员的要求有哪些今日油价92汽油下调一元网络推广是正规工作吗李晟医生最新消息央视网官网做一个官网大概多少钱接私活优站点收录网响应式网站怎么实现温州模板网页制作邢台400电话办理深圳高端品茶设计网络图公司网站怎么收费