|
Post by account_disabled on Aug 23, 2023 6:46:57 GMT
我们就可以有效地标记该链接。因此,如果我们的链接出现在 ID 为“footer”的 div 内,我们可以将其标记为页脚链接。如果它位于类为“comment-37268”的 div 或段落(或任何其他元素)中,我们仍然可以将其称为匹配,并注意它是评论链接。 我们可以通过在 DOM 中搜索页面上的所有外部链接并计算总数来添加有关评论链接的第二级信息。数字越高,网站自动批准评论的可能性就越大。 如果我们无法检索页面或者我们获取了页面 购买电子邮件列表 但链接不再存在,我们可以将链接标记为失效。
我们还可以对已知的文章目录、Web 目录和 属性进行一些简单的域匹配,但在本示例中,我只为每个分组使用了几个域。对于较大的列表,“未知”链接类型可能会缩小。 随着爬虫的构建和运行,我能够提取该网站的以下数据(删除了死链接): 链接类型分布 获得其他站点的控制权 上面的图表开始更清晰地描绘出这些排名是如何建立的——博客评论、文章营销和侧边栏链接在提升该网站的链接配置文件方面发挥了重要作用。 这些链接有什么共同点?它们不太可能是合法的编辑链接。相反,该网站的排名似乎是建立在“链接删除”的基础上的,即利用独立网站的控制权在没有监督或审查的情况下留下自己的链接的过程。 由于我们已经能够自动识别大约 65% 的网站实时链接,因此我们现在可以与一个较小的未知群体合作。因此,我们可以拉出一些剩余的未识别链接进行人工审核。这就是我们看到这样的宝石的地方: 不完全是上下文链接 通过筛选这些未分类链接的样本,我们看到了一堆这样的网站,对于机器来说,它们看起来就像主要内容区域中的上下文链接。显然,这经不起人工审查,并且是完全站不住脚的链接构建策略。
|
|