使用代理处理反爬抓取微信文章

目标 使用代理反爬抓取微信文章,获取文章标题、内容、公众号等信息,并存储到MongoDB数据库中。 流程框架 如果要抓取微信公众号文章可以使用搜狗的搜索引擎,它会显示最新的文章,但是有两个问题需要大家注意: - 如果要抓取某一个主题(比如微信风景文章...

使用Redis+Flask维护动态代理池

目标 爬虫中经常遇到被封杀IP的情况,最有效的方式就是使用代理IP。我们可以在一些平台上购买代理IP,但是价格比较昂贵。另外很多IP代理网站也提供了一些免费的代理IP,可以爬取下这些代理IP,并使用webAPI方式提供代理IP服务。 为什么要用代理池? 许多网站...

使用Selenium模拟浏览器抓取淘宝商品美食信息

目标 通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中。 流程框架 淘宝页面比较复杂,含有各种请求参数和加密参数,如果直接请求或者分析Ajax将会非常繁琐。Selenium是一个自动化测试工具,可以驱动浏览器去完成各种工作,比如模拟...

Requests+正则表达式爬取猫眼电影

目标 通过Request+正则表达式爬取猫眼电影TOP100电影的排名、名字、电影封面图片、主演、上映时间、猫眼评分,将爬取的内容写入文件中。 流程框架 进入到猫眼电影TOP100的页面,此时的URL为http://maoyan.com/board/4,点击第2页,会发现此时的URL为http:/...

web项目中的路径问题

访问路径与资源名称 通常的URL资源访问路径由两部分构成:访问路径与资源名称。资源名称指的是要访问资源的直接名称,如show.jsp,或与要访问资源存在映射关系的间接名称,如show.do。而访问路径,则是通过该路径则可以定位到指定的资源,即在URL资源访问...

SpringMVC之再解url-pattern

配置详解 关于SpringMVC的配置文件web.xml中应该怎么写的问题,相信许多初学的小伙伴会有疑惑,特此总结一下。 <!-- 注册中央调度器 --> <servlet> <servlet-name>springmvc</servlet-name> <servlet-class>org.spr...

Sublime Text常用快捷键

Ctrl+D 选词 (反复按快捷键,即可继续向下同时选中下一个相同的文本进行同时编辑) Ctrl+G 跳转到相应的行 Ctrl+J 合并行(已选择需要合并的多行时) Ctrl+L 选择整行(按住-继续选择下行) Ctrl+M 光标移动至括号内开始或结束的位置 Ctrl+T 词互换 Ctrl+...

eclipse快捷键大全

存盘 Ctrl+s 注释代码 Ctrl+/ 取消注释 Ctrl+/ 代码辅助 Alt+/ 快速修复 Ctrl+1 代码格式化 Ctrl+Shift+f 整理导入 Ctrl+Shift+o 切换窗口 Ctrl+f6 ctrl+shift+M 导入未引用的包 ctrl+w 关闭单个窗口 F3 跳转到类、变量的声明 F11 运行上次程序 Ctrl + F11...

Top