2009-11这一月发布的所有文章

简单说说PHP优化

我们在编写程序时,总是想要使自己的程序占用资源最小,运行速度更快,代码量更少。往往我们在追求这些的同时却失去了很多东西。下面我想讲讲我对PHP优化的理解。优化的目的是花最少的代价换来最快的运行速度与最容易维护的代码。

网页相似度的判定

决定写一个伪原创模块,在写伪原创之前,得清楚搜索引擎是如何判断两个网页是否相似的或者完全相同的。我在这里猜测一下搜索引擎的判断流程。

首先搜索引擎的蜘蛛爬取尽量多的网页,不管这个页面内容是否存在,只要该URL还没被爬取。

php网页正文提取程序测试版出炉

演示地址:http://www.woniu.us/get_content_demo/

功能:能够抓取90%左右的内容型网页,不需要写任何规则,程序能够自动识别出正文内容

获取HTML标签对的函数

该函数能够查找出所要查询的标签对中的内容,在处理HTML页面的时候非常有用

PHP正文提取–项目开始

很久很久以前就想写个PHP正文提取的程序,大大小小的理论知识看了不少,关于正文提取的论文、算法基本上都看过了,也接触了几个在这方面做得很好的项目。不过很可惜要么是JAVA语言写的要么就是.NET写的。所以决定自己写个PHP版本的正文提取程序以备后用。