
【计】 Zipf law
all ready; neat; similar; simultaneously; together; uniform
【医】 trans-
goodman; husband; sister-in-law
law
【化】 law
【医】 law
齐夫定律(Zipf's Law)是语言学与计量统计学中的一项重要经验法则,描述自然语言中词汇频率分布的规律性。其核心内容可概括为:在给定的语料库中,任一词汇的出现频率与其在频率排名表中的名次成反比。
基本公式
设语料库中词频排名第 ( r ) 的词汇,其频率 ( f_r ) 满足:
$$ f_r propto frac{1}{r^s} $$
其中 ( s ) 为接近 1 的指数(通常 ( s approx 1 ))。简化后常写作:
$$ f_r cdot r approx C $$
( C ) 为常数,表示最高频词的出现频率。
汉英对照解释
在中文文本中,排名前 10 的词汇(如“的”“是”“在”)可能占总词频的 20% 以上。
排名 1000 位后的词汇(如“熵”“量子”)频率迅速衰减,符合 ( f_r cdot r approx C ) 的预测。
齐夫定律的普适性使其超越语言学,应用于以下领域:
George Zipf 在 Human Behavior and the Principle of Least Effort (1949) 中系统提出该定律,基于英语词频统计验证分布规律。
北京大学计算语言学研究所通过大规模现代汉语语料库(如《人民日报》语料)证实定律在中文的适用性,指数 ( s ) 约为 0.95–1.05。
MIT 研究团队从信息熵最小化角度证明,齐夫定律是语言高效通信的必然结果(PNAS, 2011)。
参考文献
齐夫定律(Zipf's Law)是描述自然语言词汇分布及多种社会现象中资源分配规律的实证法则,由美国语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年提出。其核心可概括为:排名与频率呈反比关系,即少数高排名对象占据大量资源,而多数低排名对象仅占极少资源。
数学表达
定律的经典公式为:
$$
f(r) = frac{C}{r^s}
$$
其中:
语言学的起源
齐夫通过分析英语语料库发现,极少高频词(如“the”“of”)占据了文本的主体,而大量低频词(如专业术语)仅零星出现。例如,英语中最常用单词的频率约为次常用单词的2倍。
齐夫定律揭示了自然语言和人类行为中的幂律分布特征,反映了效率与复杂性的平衡。例如,高频词缩短了沟通成本,低频词丰富了表达多样性。该定律也被视为“二八法则”的数学化表达,说明资源集中是自然系统和社会系统的普遍现象。
如需进一步了解具体领域案例,可参考相关学术文献或权威百科(如搜狗百科)。
安第斯条约组织百分微分电驿变性球蛋白的超吸收打更遁世的放射性废物最终处置非极性非质子溶剂浮式钻井船根据权利的国际经济合作会议忽略指令甲丁双脲阶级分析卡拉雅胶昆森池库珀氏腺联邦顾问会议慢说奈瑟氏二重染剂脑组织样的年老的尿石溶剂阴离子沙状体剩余利润砷镜湿强度铁棒尾骨肌