2009-11-13 Posted in 正文提取 by 蜗牛 | ( 3 )评论 |470 点击 关键词: 伪原创
决定写一个伪原创模块,在写伪原创之前,得清楚搜索引擎是如何判断两个网页是否相似的或者完全相同的。我在这里猜测一下搜索引擎的判断流程。
首先搜索引擎的蜘蛛爬取尽量多的网页,不管这个页面内容是否存在,只要该URL还没被爬取。