爬虫实战-使用Springboot+WebMagic爬取51job数据
[toc] 案例说明 使用SpringBoot+Mybatis plus+Webmagic爬取51job的职位信息,并保存到mysql数据库. 创建工程 引入maven依赖 <?xml version="1.0" en...
[toc] 案例说明 使用SpringBoot+Mybatis plus+Webmagic爬取51job的职位信息,并保存到mysql数据库. 创建工程 引入maven依赖 <?xml version="1.0" en...
什么是短链接? 所谓短链接,就是把普通网址转换成一个比较短的网址,而访问得到的内容不变。 比如说对于一个这样的链接 tech.souyunku.com684490… ,使用短链接服务的话就可以将它转换成类似这种 http://xxx/abc...
获取 IDEA 激活码、PyCharm 激活码、WebStorm 激活码和 DataGrip 激活码,提供详细破解教程与永久激活方法。支持 IDEA 永久激活与破解,免费获取注册码与激活码,解决 2024/2025 版本激活问题,轻松实现所有 JetBrains 工具的激活。
[toc] 什么是布隆过滤器 使用布隆过滤器可以实现去重。 优点: 占用的内存要比使用HashSet要小的多,也适合大量数据的去重操作。 缺点:有误判的可能。没有重复可能会判定重复,但是重复数据一定会判定重复。 布隆过滤器 ...
前篇 :从 0 到 1 的 websocket — 概念篇 基于 tomcat 的 WebSocket 实现 这种方式需要 tomcat 7.x,JEE7 的支持。 首先创建一个 springboot 项目,在 pom.xml ...
[toc] WebMagic是什么? WebMagic是一个Java写的爬虫框架,其底层用到了我们上一天课程所使用的HttpClient和Jsoup,让我们能够更方便的开发爬虫。 WebMagic项目代码分为核心和扩展两部分...
技术篇 :Java 项目中的 WebSocket 实现 传统方式的消息推送 轮询 客户端定时向服务器发送 ajax 请求,服务器收到请求后马上返回消息并关闭连接。 优点 :简单粗暴,易于后端程序的编写。 缺点 :轮询需要频繁向服务器端发送请...
[toc] jsoup是什么 jsoup 是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 js...
[toc] 什么是Redis? redis全称:Remote Dictionary Server。 Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期...
前言 :本来只是想简单记录一下,没想到好像学到了什么了不得的东西OvO 太长不看版 真值与机器数 在计算机中,我们使用 0 表示正数,1 表示负数。将最高位作为符号位,使用 0 或 1 表示正负的二进制数称为机器数,而原来的数称为真值。 比...
[toc] 数据管理 容器中的管理数据主要有两种方式: 1、 数据卷:容器内数据直接映射到本地主机环境。 2、 数据卷容器:使用特定容器维护数据卷。 数据卷 数据卷是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进...