请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站文章手机版 今天是: 2022-12-03    "国际残疾人日"  关爱残疾人
天气与日历 切换到宽版

绵羊优创

 找回密码
 立即注册
搜索
查看: 984|回复: 0

[算法相关] seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

[复制链接]
  • 打卡等级:LV5

325

主题

347

帖子

822

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
822

突出贡献荣誉管理论坛元老本科学士学位拥有劳力士宇宙计型迪通拿系列m116515ln-0059拥有欧米茄星座系列131.23.41.21.03.001拥有梅赛德斯-奔驰EQS 580 4MATIC拥有宝马M8四门轿跑车 雷霆版

QQ
sheep 发表于 2022-8-5 16:54:21 | 显示全部楼层 |阅读模式 ip属地: 北京市
本篇内容主针对seo,同样适用于短视频、自媒体技术运营,主要讲解:内容相似度算法(Jaccard,Simhash)、内容推荐算法、协同过滤的推荐算法、用户行为推荐算法、超链接有关算法(PageRank、Hilltop、HITS)、站点信任表现算法(TrustRank)。

其实很多算法在搜索引擎、自媒体、短视频等平台都是通用的,理解算法不论是做搜索还是转行自媒体都是有帮助的。
很多算法高等数学,看不懂啊,用通俗的方式来讲解!比如Jaccard相似度算法完全看不懂如下:

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任


现在还有很多AI算法分析语义向量,情感分析,相关性、特征样本分析此类算法不是很懂不讲解!有些算法并不适合海量数据,可能部分站长使用过ai有关工具,单机单次数据处理,处理时间是秒级别时间,碰到海量数据肯定不适用!

内容相似度算法
主要讲两个算法(Jaccard,Simhash),其实相似度算法很多,但是支持海量数据去重的只有Simhash算法。
Jaccard相似度:
首先要提取标题或者内容特征作为相似性判断,要通过标题分词或者TF-IDF进行提取特征。
原理A文章与B文章中交集的字数除以并集的字数。

以标题分词为例:
A文章:电脑 蓝屏 怎么 解决
B文章:电脑 蓝屏 原因 什么

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任

seo算法篇:内容相似、推荐、协同过滤、行为、链接、信任


结果0.66这个系数则是A文章与B文章的相似度,越接近1证明内容相似度越高。
此算法海量数据下,比对性能下降严重,我自己测试三千万数据单机每次比对0.05秒。

Simhash:
内容去重最常用的算法,基本大厂都是用,占用小速度快,支持海量数据,10亿内容占用内存才100MB。
首先整个内容,通过分词提取特征(特征提取一般是几句话或topK),将特征词进行运算为64字节二进制,每个特征词分配不同权重,再将全部特征词的64字节二进制合并降维,通过汉明距离进行两个64字节比对,小于等于3则是重复内容。

弊端也是很严重的,比如准确率80%,所以会出现漏网之鱼,但是性能高速度快,应对每日增量很好用。

内容推荐算法
不知道算法名称,但是知道原理,这并不是某某公司原创的。
不论是图片、文字、视频机器并不知道有用户需求,因此就需要把内容推荐给一部分少量的用户群体,来检测用户是否点击、观看完整、跳出、收藏评论等等,进行判断内容是否有需求,有需求则认为内容是有质量的给予更多曝光,进入下一阶段推送流量池。
不论是搜索引擎或短视频自媒体平台都有这类算法。

以搜索引擎为例:
1、 当内容秒收录后,给予一段时间排名,过一段时间消失就是进行这类算法分析。
2、 资源平台的“流量与关键词”经常看到,有展现和点击,但是自己搜索不到,也是如此。

以百家号/自媒体/短视频为例:
1、 将内容或视频第一轮推送给200人进行分析,符合一定系数,进行第二轮推送推送给1000人,以此类推,推送第N轮不符合系数停止推送。
2、 如果视频内容每次推荐几十或几百,就要考虑自己的内容质量了,很多人高兴转型自媒体,每天小有播放量,其实这个播放量算法给的

协同过滤的推荐算法
其实协同过滤用途很多,比如百家号自媒体推荐。记录用户的经常访问的内容,作为喜欢这类内容的特征,通过以下方式来推荐喜欢和可能喜欢的内容。

A用户:喜欢橘子、西瓜、芒果 不喜欢菠萝、榴莲。
B用户:喜欢西瓜、橘子、苹果 不喜欢荔枝、菠萝。

通过算法协同算法可以得出

A用户可能喜欢苹果,不喜欢荔枝。
B用户可能喜欢芒果,不喜欢榴莲。
通常文字内容通过标题内容提取特征,视频择通过标签标题来提取特征推荐。更复杂的系统使用年龄段,性别,学历等等推荐,这就是大家常说的大数据。

用户行为推荐算法
根据用户搜索行为与点击行为对用户进行分析,当用户点击某个搜索结果时候,这篇内容对用户有需求,解决了用户的问题,没有跳出点击其他搜索结果页其他站点,搜索则会认为内容是优质的有需求的

超链接有关算法
以前搜索引擎无法知道内容用户是否喜欢,因此通过超链接来分析,不过这类算法都被淘汰了,容易作弊,通过友链外链堆砌即可,某些产业来讲十分容易。
不论百度还是其他搜索引擎已经都没有与外链友链有关的工具。
2015年7月3日发布的《超链算法升级,外链拒绝功能下线》 提到“站点进行外链建设可满足被搜索引擎蜘蛛发现收录的需求,和超链权重计算的需求。但目前百度仅信任非常小范围内的优质重要外链,站点只要获得一些重要的、基本内容相关站点的超链即可满足需求。在这一点上,PC端与移动端是相互贯通的。百度站长平台在此呼吁各位站点,不要再为外链浪费时间与金钱了。”
其中“信任非常小范围内的优质重要外链”可能就是几个大平台站带,内容可控,作弊几率小
公告地址:https://ziyuan.baidu.com/wiki/407

PageRank算法:
多个URL链接指向自己页面,来表明此页面拥有大量用户分享是优质页面!

Hilltop算法:
Hilltop是PageRank的升级版,因为多个指向URL链接可能不相关,所以增加了一层分析页面是否相关,来判断页面是否是优质页面!

HITS算法:
是页面重要性分析算法,适用于内、外链接算法!
“其他页面指向此网页链接”和“此网页指向其他链接”,会给此网页分配“内容权重”和“链接权重”,通过页面与页面之间的相互连接,相互传递来分析内容权威度和质量,页面被其他页面引用越多,质量越高。

站点信任表现算法
TrustRank算法:
主要观察内容类型,内容独特性,内容原创,内容更新频率,站点稳定,站点40X/50X错误数量,站点历史等等来提高网站权威性,会增加收录和排名。
绵羊优创网 - 专注优质内容创作分享! | 绵羊优创网
回复 论坛版权

使用道具 举报

懒得打字嘛,点击右侧快捷回复 【乱回复纯数字纯字母将禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|社区规范|绵羊优创 ( 京ICP备19037745号-1 )|网站地图

公安备案京公网安备 11011502005086号

GMT+8, 2022-12-3 17:12 , Processed in 1.276157 second(s), 45 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表