工作中需要开启一个定时任务:每天晚上2点进行爬虫代码的运行,这不得不去学习一下linux 下的定时任务crontab
yum install crontabs
说明: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 /sbin/service crond reload //重新载入配置 查看crontab服务状态:service crond status 手动启动crontab服务:service crond start 查看crontab服务是否已设置为开机启动,执行命令:ntsysv 加入开机自动启动: chkconfig crond on
内网:
内网也就是局域网,内网的计算机以NAT(网络地址转换)协议,通过一个公共的网关访问Internet。内网的计算机可向Internet上的其他计算机发送连接请求,但Internet上其他的计算机无法向内网的计算机发送连接请求。
最直观的就是像网吧,公司内部的电脑用交换机,HUB,路由连起来的
1, 打开终端:
sudo apt-get install mysql-server
2 ,接下来会让你选择y/n, 这里你选择y,
3 ,这里会出现一个让你输入mysql-server的密码,输入完后如果鼠标点击不了,可以使用Tab键+enter键继续下一步
4 ,接下来,会继续让我们输入一次密码
因为自己的电脑装了双系统(win10 跟Ubuntu16.04),在win10下,有时候每次关机的时候都说要进行更新后进行关机,就是自动更新功能,现在的选项中没有关闭自动更新的选项了,这是一个bug,微软要强制更新。
我就忍受不了自动更新,会拉取网络,影响我们的上网体验,但是我们不要他自动更新,那怎么办呢,其实还是有解决方法的,下面就介绍怎么关闭自动更新功能!(ps:百度有些人写的其实是win8的自动更新,根本就不是win10的,我这个才是win10的处理方法)希望能帮到你们。
1 右键点击左下角微软按钮,找到“运行” 也可用键盘的win+R
2 在运行处输入 “services.msc” 点击确定。
该文档针对爬虫系统设计目标中相应的场景给出技术方案
1、代码复用,功能模块化。可以支持上千个网站的数据爬取;
2、易扩展。爬虫框架易扩展,爬取规则、解析规则、入库规则易扩展,支持框架切换;
3、健壮性、可维护性。对数据爬取过程中的各种异常,例如:断网、反爬升级、爬“脏数据”等,需要实时的监控,以及给出准确的定位。异常处理以及降级措施需要完善;
4、后续扩展为分布式结构;
5、支持功能模块的易调整;
目录:
[TOC]
python3 3.6.4, win7 64位
pip install scrapy
使用这个命令,在win7 64位是怎么也安装不上去的,因为这已经是第二次了,
当这个命令输出完后,会出现一系列的问题。当然了,不用怕,这不是需要解决问题的方法来了嘛。