摘要:
虽然不觉得采集站能做起来,但有闲置的服务器和域名,自己就想着挂着采集试一下。像一名网友说的,没事就挂着吧,万一哪一天起飞了呢。昨天整理一下手上的采集站,只保留还有些许排名的,看到一...
虽然不觉得采集站能做起来,但有闲置的服务器和域名,自己就想着挂着采集试一下。像一名网友说的,没事就挂着吧,万一哪一天起飞了呢。昨天整理一下手上的采集站,只保留还有些许排名的,看到一个高权重的采集站,就想着把数据采集过来。不知道火车头采集器哪里出了问题,采集发布的时候有些显示成功,而绝大多数都是采集发布成功未知。
之前也遇到过少量发布成功未知的情况,根本不影响采集。但这种大量的成功未知,而且看了一下网站后台,基本都不收录的,肯定是不行的。照着这个情况下载,采集一天也就能采集几十条而已,根本无法满足自己的需求。在网站搜索了一下火车头采集发布成功未知怎么办,就一一尝试去搞了。折腾了一上午,才知道具体是啥原因。
其实是有简单的判定发放的,就是看采集任务的错误日志。可惜自己是个菜鸡,下载了错误日志,但看不懂是哪儿出的问题。只能自己一一测试了。
原来造成火车头采集发布成功未知的原因还是挺多的,可能是标示码的问题,也可能是发布缓存的问题,或者是服务器空间的问题。一一排查后,最终发现是服务器的空间问题。我使用的40g的硬盘空间,现在采集了30g的数据,虽然还剩下10g的空间,感觉挺多的,但问题还是出现了。简单的清理了一下网站日志和采集文章的图片,重启了一下服务器,采集就正常了。估计过阵子又要出现问题了,用40g的服务器做采集站真心不够用呀。
本来想升级一下服务器的硬盘的,发现阿里云的升级费用并不低。采集站至今没有赚过一分钱,现在也不太指望能赚多少钱了,所以暂时也不想投资它了。等采集服务器实在熬不住的时候,就赶紧把采集站给出手了。