济南网站优化方案:
最近一直在调试火车头采集和发布。
对于一个网站seo人员来说要会的东西太多了,否则就只能花钱请人去搞,这要看个人时间成本和money计划,我没钱,只能自己动手丰衣足食了。(感叹一下)
最近一直在调试火车头采集和发布。
对于一个网站seo人员来说要会的东西太多了,否则就只能花钱请人去搞,这要看个人时间成本和money计划,我没钱,只能自己动手丰衣足食了。(感叹一下)
火车头采集器
在调试过程中遇到一下几个问题:
总体解决思路:是根据WebPostError.txt文件报错提示,找到报错的行数查看代码含义对症下药。
逆向解决思路:ecshop(我用的ecshop)、dedecms、帝国cms、wordpress等开源程序是成熟的,故一般程序报错是是因为你的录入条件不具备,这是友好提示,并不是真正开源程序错误,有可能是数据没取到,导致程序调用错误,实际上程序没错,比如产品图片没取到,产品名称,价格等没取到。故还是要在自己采集的数据上下功夫查找处错误数据。
1.web发布时,遇到后台一下提示:
源代码:<br />
<b>Warning</b>: copy() [<a href=’function.copy’>function.copy</a>]: The first argument to copy() function cannot be a directory in
解决:这是采集的图片并不是真正的存在,而只是存在一个路径,并未最终到图片。比如:
图片路径应该是http://www.abc.com/images/1.jpg,
而你只是采集到http://www.abc.com/images/ 这样就是包上面的错误。
2.web发布时,后台登录路径修改,但echop配置文件并未修改报错:
比如我把ecshop后台登录目录admin修改111111,但是/data/config.php文件并未修改配置:define(‘ADMIN_PATH’,’admin’);改为
define(‘ADMIN_PATH’,’111111′);
3.web发布时,在登录后台http://localhost/111111时报404错误.
这个问题与上面问题正好相反,是修改了config.php文件但是并未修改登录路径把admin改为111111。
4.在采集时,遇到最头疼的事情是cookie失效,
这个很麻烦,每个规则都要更新一下cookie,而且某宝采集时还有时效限制,即短时间内连续采集会链接不上,所以没办法采集时走走停停,让我想起一下那个不雅的词,断断续续的真tmd恶心,本来计划采集全店数据翻页进行,最后改为只采集第一页,这样效率就上来了,几乎不用等了。
在火车头采集过程中还遇到很多问题,日后有时间再整理补充吧。现在觉着写文章真是优点浪费时间。不过还是要写的。。。备忘加分享吧。
欢迎咨询济南网站优化方案问题,合作请联系济南网站优化公司!