设为首页收藏本站心情墙手机版 今天是: 2024-04-19    美好的一天,从现在开始
天气与日历 切换到宽版

 找回密码
 立即注册
搜索
查看: 1020|回复: 0

[算法相关] TF-IDF算法原理介绍、计算方法及运用

[复制链接]
  • 打卡等级:LV6

451

主题

30

回帖

24万

积分

管理员

积分
247173

突出贡献荣誉管理论坛元老本科学士学位拥有劳力士宇宙计型迪通拿系列m116515ln-0059拥有欧米茄星座系列131.23.41.21.03.001拥有梅赛德斯-奔驰EQS 580 4MATIC拥有宝马M8四门轿跑车 雷霆版

QQ

皮卡丘 Lv:24
发表于 2022-8-5 16:58:02 | 显示全部楼层 |阅读模式 IP:天津
||TF-IDF介绍:

TF-IDF是一种用于信息检索和文本挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,值越高重要程度越高。
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

注意:TF-IDF值只能用于评估一个词在特定文档或语料库中的重要程度,而不是用于判断某个词是否“重要”。

||TF-IDF名词解释:

TF-IDF实际上是:TF * IDF
TF(Term Frequency,词频)
如果某个词在单个文档中出现的频率越高,那么他的TF值就会越大,表示该词在此文章中重要程度高。
IDF(Inverse Document Frequency,逆向文件频率)
如果某个词在语料库中的大部分文档都出现,那么它的IDF值会很小,表示该词对文档的重要度低。

||TF-IDF的计算方法:

TF(t) = 词出现次数(t) / 总次数
(其中,次数(t)表示词t在文档中出现的次数,总次数表示文档中所有词的出现次数之和)
IDF(t) = log(文档总数 / 包含词t的文档数)
(其中,文档总数是指语料库中的总文档数,包含该词的文档数是指包含该词的文档数量)
TF-IDF(t) = TF(t)*IDF(t)

||TF-IDF的计算方法过程举例:
(单篇文档中某个词的重要程度)

假设有1个语料库中有4个文档ABCD
A:总词数260,苹果词0,红富士3
B:总词数120,苹果词5,红富士0
C:总词数330,苹果词7,红富士0
D:总词数500,苹果词5,红富士4

计算“苹果”在D文档中的TF-IDF值:
D文档中“苹果”出现了5次,总词数为500
TF(苹果) = 5(苹果) / 500 = 0.01
IDF(苹果) = log(4 / 3) = log(1.33) = 0.125(四舍五入)
TF-IDF(苹果) = TF(0.01)*IDF(0.125)  = 0.00125

计算“红富士”在D文档中的TF-IDF值:
D文档中“苹果”出现了4次,总词数为500
TF(红富士) = 4(红富士) / 500 = 0.008
IDF(红富士) = log(4 / 2) = log(2) = 0.3(四舍五入)
TF-IDF(红富士) = TF(0.008)*IDF(0.3)  = 0.0024

||分析:
最终根据结果可以看到,在D文档中红富士词的重要程度大于苹果词,是因为D文档中的苹果词在其他文档中的出现频率过高分散了权重,但这并不代表苹果这个词不重要。

||调整:

我们可以通过以下4种方式提升苹果词的重要程度:

1、增加本文档苹果词出现频率
2、降低本文档红富士词出现频率
3、增加其他文档的红富士词出现频率
4、降低其他文档的苹果词出现频率

(具体调整的方式和力度需要根据整个语料库及单篇文档不同的情况一对一分析计算,整改前务必准确计算出现有tf-idf值及计划调整后的tf-idf值,不可盲目按自己表层理解进行修改
急躁,是因为经历不够,轻浮,是因为磨练不够,烦乱,是因为思路不清,压力,是因为格局不够,恐惧,是因为假想太多,在这个薄凉的世界,自己不强大,一切都是浮云 ...
懒得打字嘛,点击右侧快捷回复 【乱回复纯数字纯字母将禁言】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|社区规范|绵羊优创 ( 京ICP备19037745号-2 )|网站地图

公安备案京公网安备11011502037529号

GMT+8, 2024-4-19 08:07 , Processed in 1.294424 second(s), 22 queries , MemCache On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表