决定写一个伪原创模块,在写伪原创之前,得清楚搜索引擎是如何判断两个网页是否相似的或者完全相同的。我在这里猜测一下搜索引擎的判断流程。
首先搜索引擎的蜘蛛爬取尽量多的网页,不管这个页面内容是否存在,只要该URL还没被爬取。
决定写一个伪原创模块,在写伪原创之前,得清楚搜索引擎是如何判断两个网页是否相似的或者完全相同的。我在这里猜测一下搜索引擎的判断流程。
首先搜索引擎的蜘蛛爬取尽量多的网页,不管这个页面内容是否存在,只要该URL还没被爬取。
演示地址:http://www.woniu.us/get_content_demo/
功能:能够抓取90%左右的内容型网页,不需要写任何规则,程序能够自动识别出正文内容
该函数能够查找出所要查询的标签对中的内容,在处理HTML页面的时候非常有用
很久很久以前就想写个PHP正文提取的程序,大大小小的理论知识看了不少,关于正文提取的论文、算法基本上都看过了,也接触了几个在这方面做得很好的项目。不过很可惜要么是JAVA语言写的要么就是.NET写的。所以决定自己写个PHP版本的正文提取程序以备后用。