网页相似度的判定

决定写一个伪原创模块,在写伪原创之前,得清楚搜索引擎是如何判断两个网页是否相似的或者完全相同的。我在这里猜测一下搜索引擎的判断流程。

首先搜索引擎的蜘蛛爬取尽量多的网页,不管这个页面内容是否存在,只要该URL还没被爬取。