基于网站sitemap 抓取网页生成静态HTML

tengxunyun cera

以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。

最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。

想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。

周五下午的时候构思了下,回来写了点点,今天把她完善了下。

其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。

不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。

另外一个就是数据存放,抓取后的sitemap 存放在哪里?

代码请看这里 https://github.com/Hegreen/sitemap_robot

用法:

首先配置源站信息和sitemap,配置当前文件所在站点目录即可。

然后再浏览器运行即可,效果如下。

嗯,更多功能关注后续版本。

cera aliyun tengxunyun cloudiplc

相关推荐

如何给网站添加网站地图Sitemap

从网上了解得知了网站地图Sitemap的格式分为两种 Sitemap.html和Sitemap.xml Sitemap.xml的作用就是给搜索引擎提供和通知该网站上可供抓取的网页。通常网络蜘蛛会通过网站内部的链接和其他网站上的链接来查找网页。Sitemap.xml可以提供网站数据方便抓取工具抓取和使用该使用网站所提供的所有网址。说白了Sitem.xml是提供给搜索引擎用的。该文件里面的内容就是网站上链接的列表,让搜索引擎更好的收录网站的文章。 而Sitemap.html格式的网站地图是根据网站层次结构而制定的。把一个网站的功能结构和内容有条理的列出来。从而让用户对该网站的整体有个认知。一般的,网站的首页都会添加一个Sitemap.html格式的网站地图链接。也就是说Sitemap.html格式的文件是展示个访问用户看的。 一直以来我的网站都没有添加网站地图Sitemap,因为要安装插件,又不想安装过多的插件,想着自己手动生成。百度了一下Sitemap的生成软件,挺多的。有SitemapX软件,我也下载一个,感觉挺好用的,只是生成的Sitemap里面中文都是乱码,更改了编码格式也没用。而后试着用了爱站网的SEO工具包,里面也有网站地图功能,两个软件的用法大体一样。 打开网站地图/Sitemap功能,里面的设置完成后点击抓取,即可开始抓取网站的页面。 完成后,生成xml文件。记得勾选html格式的Sitemap,不然就没有Sitemap.html文件,只有Sitem.xml文件。   生成文件后会提示打开文件目录查看。就会看到已经成了Sitemap.xml和Sitemap.html文件,同时还有robots.txt和一个Sitemap.xsl。 用编辑软件打开Sitemap.xml和Sitemap.html看看有没有想要删除的URL链接。编辑完成后就可以上传到网站根目录下。修改robots.txt里面Sitemap的文件路径。再在网站后台添加网站地图的链接就可以实现网站地图sitemap功能了。分别点击Sitemap.xml和 Sitemap.html查看,就会发现浏览器所展示的内容不一样了,一个是面向搜索引擎,一个是面向访问用户的。在上传Sitemap.xml的时候记得要把Sitemap.xls也一起上传,不然的话,打开Sitemap.xml就会是一片空白。没有内容。      

Tokyonline测评|优惠码|日本东京|KDDI|VPS

日本商家 #Tokyonline#今天在TG发来了最新OFF,他家销售日本东京So-Net小鸡补货了,原生IP和大流量是卖点,最低配2核,4G内存,80G  HDD硬盘,15T流量@400M带宽,月付$117.85美元,索尼So-Net旗下的nuro,路由也优化了,国内过去,电信和联通去程都走IIJ,回程都走#KDDI#,而移动去程绕美#PCCW#,回程走twgate,直连的话,电信联通可以食用,当然做落地也是挺香的,毕竟是纯日本原生IP,所以基本就是全解锁日本的资源了,什么煤炉啊,dmm,niconico,abematv等,以及各种手游啊,适合对流量和IP有需求的朋友。对国人友好,支持支付宝和国内信用卡,IP暂时可以解锁日本所有资源,有需要自己考虑,具体请查看 Offer: KDDI – Pro CPU:2 vCPU 内存:4GB RAM 硬盘:50GB SAS-HDD 带宽流量:25T Transfer Data 300Mbps Port Speed 价格:19800.00 JPY/ Month 购买链接 系统配置信息 CPU Model : Intel Xeon E3-12xx v2 (Ivy Bridge, IBRS) CPU Cores : 2 Cores 2499.998 MHz x86_64 CPU Cache : 4096 KB OS : Debian GNU/Linux 10 (64 Bit) KVM …

misaka测评|优惠码|南非|约翰内斯堡|VPS|测评记录

misaka.io 南非约翰内斯堡 VPS 测评记录 #misaka#.io 国人知名商家,采用自研面板,技术能力较为出众。本次测试使用的是 misaka 核心区域南非约翰内斯堡 VPS 进行。 配置价格 系统信息 -> System Information OS Release: Debian GNU/Linux “Buster” 10.9 (x86_64) CPU Model: Intel Xeon Processor (Skylake, IBRS) 2.69 GHz CPU Cache Size: 16384 KB CPU Number: 1 vCPU Virt Type: KVM Memory Usage: 118.80 MB / 975.59 MB Swap Usage: [ No Swapfile …

DedicatedSolution测评|优惠码|香港CMI

DedicatedSolution 香港 CMI 线路独服测试记录 Offer 信息 CPU:E3 1260L 内存:16GB DDR3 ECC 硬盘:240GB SATA SSD 带宽:#50Mbps# CMI IP:1 IPv4 价格:390.00CNY/Monthly + 50 CNY Setup fee 直达链接 额外带宽:950CNY/100M 额外 IP:1USD/1 IPv4 系统信息 -> System Information OS Release: CentOS Linux 7.4.1708 (x86_64) CPU Model: Intel(R) Xeon(R) CPU E31260L @ 2.40GHz 1.61~2.46 GHz CPU Cache Size: 8192 KB CPU …

微信扫一扫,分享到朋友圈

基于网站sitemap 抓取网页生成静态HTML