设为首页收藏本站心情墙手机版 今天是: 2024-04-27    美好的一天,从现在开始
天气与日历 切换到宽版

 找回密码
 立即注册
搜索
查看: 857|回复: 0

[算法相关] 搜索引擎算法综合_简略版

[复制链接]
  • 打卡等级:LV6

452

主题

30

回帖

24万

积分

管理员

积分
247191

突出贡献荣誉管理论坛元老本科学士学位拥有劳力士宇宙计型迪通拿系列m116515ln-0059拥有欧米茄星座系列131.23.41.21.03.001拥有梅赛德斯-奔驰EQS 580 4MATIC拥有宝马M8四门轿跑车 雷霆版

QQ

皮卡丘 Lv:40
发表于 2022-7-2 23:05:00 | 显示全部楼层 |阅读模式 IP:北京
hits算法
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。
一个网页重要性的分析的算法。
TF-IDF算法
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
google pagerank
PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
一、百度算法(16个):
1、内容质量:
①飓风算法1.0-3.0-----------------------------内容质量、++恶劣采集、大量主题无关、跨领域采集以及++站群
②劲风算法-----------------------------恶劣聚合页,内容标题不符、内容领域分散、静态结果页、空短 失效信息
③细雨算法1.0-2.0--------------------------采集、软文、空短,页面标题、正文作弊的供求、黄页类++B2B网站、b2b领域:供求黄页、加盟代理、生产代工、批发交易等
④蓝天算法-----------------------------新闻源++售卖软文、目录+目录交易
2、用户需求:
⑤清风算法1.0-3.0--------------------------++下载站违规,标题作弊,欺骗点击、(标题党、官方、假下载、假在线观看)挂马欺骗捆绑
⑥信风算法------------------------------虚假翻页诱导
3、用户体验:
⑦冰桶算法1.0-5.0----------------------------移动落地页体验 弹窗、广告、APP调起、展开全文功能等问题
4、搜索公正、用户安全:
⑧惊雷算法2.0/3.0/-----------------------恶意刷点击、快排(综合质量、历史数据等多维度,防止陷害误判)
⑨烽火算法2.0----------------------------恶意劫持 跳转 回退 窃取数据 安全性差的站点
⑩绿箩算法--------------------------------买卖链接
⑪石榴算法--------------------------------大量恶劣广告、低质量内容页面
⑫绿箩算法2.0----------------------------软文中的外链及惩罚发软文的站点------------------
⑬百度烽火计划---------------------------百度移动搜索页面劫持
⑭闪电算法--------------------------------首屏加载时间 2s-    2s-3s   3s+
⑮极光算法--------------------------------落地页时间因子
⑯季风算法--------------------------------领域和内容严重不匹配的熊掌号

二、360算法(5个):
1、ICO算法-------------------------------已经入索引库的低质量URL和无效URL清理,处理量级:10亿以上
2、悟空算法及2.0-------------------------------识别被黑网站 及 打击被黑作弊
3、后羿算法1.0-2.0---------------------------------打击低质采集,页面质量
4、哪吒算法-------------------------------------打击恶劣seo骗取流量  不相关、关键词堆砌、恶劣转载、发布敏感内容等黑帽SEO行为
5、八戒算法--------------------------------控制站群、克隆站、虚假信息站等伤害他人网站利益、骗流量。大量低质、违禁、色情、虚假内容和信息重复冗余
站长平台反馈中心:http://zhanzhang.so.com/?m=ExceptionReport&a=index

三、Google算法
1、TrustRank算法------------------链接关系的排名
2、BadRank算法--------------------原理与TrustRank类似,通过链接关系确定一些不可信的页面
3、PageRank-------------------页面相关性  根据页面之间的超链接计算
4、HillTop-----------------------思想与PageRank一致  链接数量质量确定结果排序权重
5、熊猫算法----------------------反垃圾网站
6、企鹅算法----------------------打击过分使用seo手段
7、猫头鹰算法--------------------提升权威度高的页面排名

四、搜狗 页面评级
五、一搜  未明确指出


百度蜘蛛升级https抓取
上线时间:2017年8月30号公布,8月期间已上线
主要影响:升级了对HTTPS数据的抓取力度,HTTPS数据将更快被Spider抓取到。
除了抓取,百度表示过,https页面在权重上也有加分,百度的原话是“网站评价高、落地页评价高、搜索展示等收益优待。”Google几年前就开始对https页面提权。
HTTPS是大势所趋,主要还是为了安全,搜索引擎对https页面在抓取、排名上也会有更多优待。建议站长尽快把网站从http转移到https,早晚要转,不如早转。
《HTTPS改造全解析》


页面加载
服务器位置、带宽、性能,数据库优化,HTML代码、图片优化、压缩,减少请求次数,CDN和缓存使用等等

标题规范------------------------------页面标题违规
违规信息规范--------------------------违法违规信息
内容权限规范:
用户查看网页中的全部内容时,如:
· 阅读全文
· 查看图片
· 查看论坛帖子
· 观看视频内容
· 其他内容获取
网站强制用户必须完成指定操作后才可进行查看,包括但不限于以下方式:
· 强制用户完成网站注册或登录
· 强制用户下载相关APP
· 强制用户在APP内查看内容
· 强制用户完成其他要求

急躁,是因为经历不够,轻浮,是因为磨练不够,烦乱,是因为思路不清,压力,是因为格局不够,恐惧,是因为假想太多,在这个薄凉的世界,自己不强大,一切都是浮云 ...
懒得打字嘛,点击右侧快捷回复 【乱回复纯数字纯字母将禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|社区规范|绵羊优创 ( 京ICP备19037745号-2 )|网站地图

公安备案京公网安备11011502037529号

GMT+8, 2024-4-27 08:14 , Processed in 1.327757 second(s), 20 queries , MemCache On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表