博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
特征值提取之 -- TF-IDF值的简单介绍
阅读量:5372 次
发布时间:2019-06-15

本文共 889 字,大约阅读时间需要 2 分钟。

首先引用百度百科的话:

"TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。"

"TF-IDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。"

"TF表示词条在文档中出现的频率。"

 

好了,从百度百科里抽出几句话就大致了解了TF-IDF值的含义

但是,等等!貌似、、、IDF你还没讲啊?

恩对。为了理解IDF值,需要先看看DF文件频率(Document Frequency)值是什么:

文件频率,就是对于一个特征词w,它出现在了多少个类别c的文本中,DF值表示了w对于c的相关度。

显然,对于每一个特征词w,如果直接用其在类别c中出现的文件数来表示相关度是非常不适合的,我们可以试着换一个方法,用w在c中文件的出现频率之和来表示相关度,似乎更加适合,这只是DF值的一个改进措施。

 

好了,DF值讲完了,轮到IDF值了:

百度百科:"IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。"

就是说同一个特征词w对于同一类文章c来说呢。。。DF(w, c)值越大,IDF(w, c)值就越小

现在趁机先可以想象一下TF-IDF值的计算结果:如果一个对于高频词和低频词,我们需要最终算出来的TF-IDF值都会变得非常大,才能达到了过滤常用词的效果。

于是设计IDF(w, c)的计算方法为:类别c中总文件数目除以包含该特征词w的文件数目,再将得到的商取对数。(取对数什么的为什么不要问我。。。)

 

于是OIer和ACMer们发现,这不是水水的模拟嘛。。。什么hash_table啦,map啦(包括直接暴力sort)都可以处理理TF和IDF值了。

IF-IDF值就为之后的语义消歧算法打下了基础。

转载于:https://www.cnblogs.com/rausen/p/4142838.html

你可能感兴趣的文章
js对象的复制,传递,新增,删除和比较
查看>>
android EditText
查看>>
为什么要拒绝使用大事务进行处理任务?
查看>>
云技术入门指导:什么是云计算技术,云技术用什么语言开发
查看>>
linux/windows转mac的习惯设置
查看>>
第三课响应式布局
查看>>
I2C
查看>>
LeetCode - Remove Duplicates from Sorted Array
查看>>
微软BI 之SSIS 系列 - 带有 Header 和 Trailer 的不规则的平面文件输出处理技巧
查看>>
数据库学习笔记(基础语句总结)
查看>>
KMP算法
查看>>
【MyBatis 】MyBatis 插入时候获取自增主键(1:写sql。2:注解@generatedvalue)
查看>>
PHP异常处理机制
查看>>
android ReactNative之Cannot find entry file index.android.js in any of the roots
查看>>
bzoj2143 飞飞侠
查看>>
Visual Studio 2015安装包
查看>>
ABP框架入门踩坑-配置数据库表前缀
查看>>
Java虚拟接和Dalvik虚拟机的区别
查看>>
LeetCode19 Remove Nth Node From End of List
查看>>
关于MVC的一些思考
查看>>