今天刚买了阿里云的服务器,是 Linux 系统
现在的需求是想把自己电脑上的爬虫功能部署到服务器上,然后定时爬取数据
所以想请教下,我需要装哪些?
我只知道要装 python,其它的就不太清楚
希望有大神能够指教一下
说的越详细越好。
我可以自己去找资料,然后美国服务器看下怎么弄、
一个爬虫脚本 xxx.py
然后爬下来的数据放到哪里? -- 可能需要 mysql 或者其他数据库
然后定时任务调用脚本就行
以后是否需要监控一类的,根据业务发展在看吧
我有个问题啊?你买的带宽不会是 1M 的吧?
补充一点,一般需要 python3 和 pip3 就行(系统自带的 python2.7,你需要自己安装 python3 和程序依赖的库),其他的没啥了,你电脑上怎么用,服务器上就怎么用,毕竟 python 可以跨平台使用,对了,下载路径要改一下,改成 linux 格式的
定时的话你需要了解一下 crontab
那你干嘛不买个 win 系统的主机?
你自己开发的电脑是怎样的,就弄成怎样的呗
装上 python 然后用 linux 自带的定时任务就行了
服务器跑爬虫如果被封 IP 就很难受
记住爬数据的时候别爬太快了。谁爬我的数据爬快了就直接投毒
好像是 1M 的,最便宜的那种
监控,暂时不加了,毕竟我是小白一枚,越简单越好。
爬下来的数据,放到 mysql 库里面
那就装个 mysql 配置下
ip 库要到位,坐牢的心态也要摆正
我又不爬敏感信息
IP 长时间访问时有可能会被封的,跟敏不敏感数据没关系。有些可能会直接把云服务器的 IP 给封了,这情况你怎么处理,还有我估计你的云服务器也没多贵,你的容量估计不乐观,你考虑存储的问题吗?
scrapy
没想过那么多了。因为我对服务器这块完全是小白
需要阿里云联系我呀,给你惊喜,一 66 二 333 二 666 一
续费有优惠吗
vpsur 点康姆