当前位置: 首页 > 网络 > 正文

词频 【词频】是什么意思(来源

作者:admin 发布时间:2023-11-07 17:15:08 分类:网络 浏览:62


  【词频】的意思,拼音,读音

  词频

  繁体

  詞頻

  拼音

  cí pín

  怎么读

  英语

  term frequency

  【词频】的意思和解释

  :辞书)

  词频(term frequency,简称TF)是指文件词汇出现的频率或是次数,是衡量一个词汇重要性的一种指标。在各种资讯检索模型中,如向量空间模型、机率模型、语言模型,都会用到词频的概念。一般而言,一个词汇在某一篇文件中出现的次数越高,即词频越高,则其在该篇文件中的代表性越重要。例外的情况,有虚词、连接词、代名词等功能词(function words),这些词汇,经常有高词频,却不带有任何内容意义,在文件的词汇处理过程,常被特意地停用、过滤掉,因而被称为停用词(stop words)。此外,词汇的重要性,也会考虑到这个词汇出现在所有文件中的篇数,亦即其文件篇数(document frequency,简称DF)。若其出现在越多篇文件中,即DF越高,则表示该词汇可能为常用字,故而重要性越低,相对于其反向文件篇数(inverse document frequency,简称IDF)也低。例如,在一批有关电脑的文件中,搜寻电脑这个词汇,几乎所有的文件都会被找回,则不管其词频(TF),电脑在这批文献中,对检索没有帮助,其重要性要降低,刚好对应到其IDF也低。因此,词汇的重要性,经常以词频(TF)以及反向文件篇数(IDF)这两个概念,一起考虑。真正在应用词频的概念时,常会对词频做转换而获得一个重要性数值。例如,词汇A与词汇B在某一篇文件中各出现TF(A)=8次与TF(B)=2次,但不代表词汇A的重要性是词汇B的8/2=4倍。常用的转换作法,有取对数函数,如log2( TF(A) )=log2(8)=3,log2( TF(B) )=log2(2)=1,如此词汇A的重要性只比词汇B多3倍。此外,还有对文件内所有的词汇频率做正规化处理,例如TF(A)除以该文件所有词汇的总词频(等于词汇A的出现机率),词汇的重要性,从频率的次数分布,变成词汇的出现机率分布,如此可以在机率的理论中探讨词汇与文件的各种特性。

  --作者:曾元显

  【词频】的意思和解释介绍完毕


标签:词汇文件重要性出现


相关推荐

最新推荐

关灯