基于网站sitemap 抓取网页生成静态HTML

cera cera

以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。

最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。

想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。

周五下午的时候构思了下,回来写了点点,今天把她完善了下。

其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。

不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。

另外一个就是数据存放,抓取后的sitemap 存放在哪里?

代码请看这里 https://github.com/Hegreen/sitemap_robot

用法:

首先配置源站信息和sitemap,配置当前文件所在站点目录即可。

然后再浏览器运行即可,效果如下。

嗯,更多功能关注后续版本。

cera cloudiplc tengxunyun

相关推荐