- 吸引蜘蛛
- 权重高的网站
- 页面更新快
- 导入链接
- 与首页点击距离,离首页点击距离越近,页面权重越高,被爬行的机会越大
- 站长可通过搜索引擎网页提交表格来提交网址
- 遇到权重很低的网站上大量转载内容时,很可能不再继续爬行
- 预处理的过程
- 提取文字部分
- 中文分词(基于词典或统计)
- 去停止词(的,地,得,呵,哈,呀,从而,以,却, the,a,an, to , of)
- 去除页头,页脚,广告,版权等信息
- 去重(同一文章只保留一份,原创),通常选取10个特征关键词就可以达到比较高的计算准确性,再选更多意义不大
- 正向索引,即对一个文章的关键词加索引,同时记录特征(出现次数,格式,位置)
- 倒排索引(每一个关键字对应一系列文件,便于搜索)
- 链接关系计算
- 处理特殊文件(pdf,图片,视频)
- 搜索引擎最多只列出排名前1000的结果
- 相关性计算(页面与用户搜索词的相关程度)
- 搜索引擎根据常用程度对关键词进行加权,不常用的词加权系数高
- 搜索词在页面中出现的次数多,密度越高,说明越相关
- 关键词出现在标题,黑体,h1等,越相关
- 关键词完整出现比分散出现更相关,如"减肥方法" "减肥" "方法"
- 链接分析及页面权重
- 链接因素已经超过页面内容的重要性
- site命令可以查看本站有多少网页被收录