
【計】 Zipf law
all ready; neat; similar; simultaneously; together; uniform
【醫】 trans-
goodman; husband; sister-in-law
law
【化】 law
【醫】 law
齊夫定律(Zipf's Law)是語言學與計量統計學中的一項重要經驗法則,描述自然語言中詞彙頻率分布的規律性。其核心内容可概括為:在給定的語料庫中,任一詞彙的出現頻率與其在頻率排名表中的名次成反比。
基本公式
設語料庫中詞頻排名第 ( r ) 的詞彙,其頻率 ( f_r ) 滿足:
$$ f_r propto frac{1}{r^s} $$
其中 ( s ) 為接近 1 的指數(通常 ( s approx 1 ))。簡化後常寫作:
$$ f_r cdot r approx C $$
( C ) 為常數,表示最高頻詞的出現頻率。
漢英對照解釋
在中文文本中,排名前 10 的詞彙(如“的”“是”“在”)可能占總詞頻的 20% 以上。
排名 1000 位後的詞彙(如“熵”“量子”)頻率迅速衰減,符合 ( f_r cdot r approx C ) 的預測。
齊夫定律的普適性使其超越語言學,應用于以下領域:
George Zipf 在 Human Behavior and the Principle of Least Effort (1949) 中系統提出該定律,基于英語詞頻統計驗證分布規律。
北京大學計算語言學研究所通過大規模現代漢語語料庫(如《人民日報》語料)證實定律在中文的適用性,指數 ( s ) 約為 0.95–1.05。
MIT 研究團隊從信息熵最小化角度證明,齊夫定律是語言高效通信的必然結果(PNAS, 2011)。
參考文獻
齊夫定律(Zipf's Law)是描述自然語言詞彙分布及多種社會現象中資源分配規律的實證法則,由美國語言學家喬治·金斯利·齊夫(George Kingsley Zipf)于1949年提出。其核心可概括為:排名與頻率呈反比關系,即少數高排名對象占據大量資源,而多數低排名對象僅占極少資源。
數學表達
定律的經典公式為:
$$
f(r) = frac{C}{r^s}
$$
其中:
語言學的起源
齊夫通過分析英語語料庫發現,極少高頻詞(如“the”“of”)占據了文本的主體,而大量低頻詞(如專業術語)僅零星出現。例如,英語中最常用單詞的頻率約為次常用單詞的2倍。
齊夫定律揭示了自然語言和人類行為中的幂律分布特征,反映了效率與複雜性的平衡。例如,高頻詞縮短了溝通成本,低頻詞豐富了表達多樣性。該定律也被視為“二八法則”的數學化表達,說明資源集中是自然系統和社會系統的普遍現象。
如需進一步了解具體領域案例,可參考相關學術文獻或權威百科(如搜狗百科)。
【别人正在浏覽】