Www.KL126.Com - 坤龙教育资源网

互联网冗余页面超百亿 上线“后羿算法”原创

作者:habao 来源:未知 日期:2019-5-15 1:21:27 人气: 标签:360站长反馈中心
导读:互联网的快速发展离不开原创和稀缺的优质原创资源。但采集网站采取疯狂而的手段,短时间内出大量低质量网页,不仅严重影响了用户的浏览体验,也极大挫伤原创作者…

  互联网的快速发展离不开原创和稀缺的优质原创资源。但采集网站采取疯狂而的手段,短时间内出大量低质量网页,不仅严重影响了用户的浏览体验,也极大挫伤原创作者和原创网站的积极性。近日,360搜索发布站长公告,宣布上线后羿算法,对的采集站点加以控制,对原创和稀缺性网页进行和提权,与站长共同建设良好的互联网生态。

  “原创+转载+信息分类聚合”已经成为互联网新闻网站的最常见内容产出模式,比如新浪、搜狐、网易这些传统门户,和今日头条等移动APP。原创内容了网站的独特性,而转载内容网站信息的足够全面,大量的分类聚合工作,让互联网信息条理清楚类目分明。

  网站之间常规的转载,要求转载网站在醒目列出文章出处和原创页面入口,用户可以直接跳转到原创页面。但采集站,往往隐瞒或者文章出处,且不分条理的盲目抓取互联网信息。为了获得流量收益,采集站会在页面中夹杂大量的广告和弹窗信息,不仅浪费了搜索引擎的收录资源,侵害了原创作者的版权,用户搜索体验也大打折扣。

  据估计,用户喜欢的高质量原创内容,互联网每天会诞生数十万个页面,与之成鲜明对比的是,采集网站带来互联网上的冗余信息则高达上百亿个页面,与冗余信息相比,原创内容可谓九牛一毛。

  采集站的内容分布领域非常广泛,常见的领域有普通问答类,商品购物类,娱乐新闻类,企业商情类,类,赌博诈骗类,私服外挂类,违法违禁类等,右眼皮跳测吉凶涵盖了互联网内容的各大领域。与此同时,移动互联网的采集和垃圾网页,虽然其数量级要比PC端要低,但在行为模式方面与PC端区别不大。

  12月26日,360搜索发布站长公告,宣布上线采集原创的高级算法“悟空算法”,该算法将对的采集站点加以控制,对原创和稀缺性网页进行和提权。360搜索表示,愿与无数专心做好站的站长共同建设良好的互联网生态

  “后羿算法”上线后,对于内容丰富的优质网页(如原创、稀缺资源、精心编辑的内容页等),会增加其在用户面前展现的机会;对于采集手段的行为(如整站大规模采集,页面内容、含有大量广告干扰用户阅读、恶劣弹窗跳转、大量堆砌无关热词、站内搜索结果页等),会显著降低其展现机会和网页收录量;对于新闻网站正常的转载行为,采取了合理引导和规范控制,而不是一。

  据悉,后羿算法采取了业界领先的大规模并行机器学习算法,通过亿万维度特征的刻画,结合对搜索领域问题的不断探索和实践,对海量文本数据进行主题和内容倾向性分析,对用户喜好程度进行全面建模和应用,能够对原创信息进行快速而精准的鉴别,能够对采集行为和垃圾网页进行定向的约束和管控。

  360搜索一直以来都掌握着采集类站点的完整索引量和历史行为模式,并对之进行长期的密切的关注和,一旦发现有恶劣作弊倾向就会进行严肃处理,用“后羿“命名该算法,就是为了秉承了英雄后羿的“去除冗余,除暴安良”。

  公告中,360搜索表示将矢志不移地与无数专心做好站的站长共同建设良好的互联网生态。360搜索那些存有恶意采集行为的站长,能够从长远发展考虑,积极完善网站建设,提供更多时效性高、内容丰富的原创内容,引擎将随着网站完善,不断提升收录量。

  360搜索同时也欢迎原创网页的作者,通过360站长平台主动提报收录缺失的信息。对于原创网站和作者,如发现自己的内容被恶意采集,对采集判定结果及收录状况存在时,360搜索通过站长平台的反馈中心及360搜索论坛版主进行反馈:

   文章来源于850游戏博贝棋牌

下一篇:没有资料