
【計】 lexicostatistics
【醫】 nomenclature
statistics
【醫】 statistics
【經】 statistics
詞彙統計學(Lexical Statistics)是計量語言學的一個分支,主要運用統計學方法對語言中的詞彙進行定量分析和研究。它通過收集、整理和分析詞彙在文本中的出現頻率、分布規律、搭配特征等數據,揭示詞彙使用的系統性和規律性。
統計特定詞彙在語料庫中出現的絕對頻率或相對頻率,例如高頻詞(如漢語的“的”“了”)與低頻詞的分布規律。牛津英語詞典(OED)的曆時語料庫研究顯示,英語最常用的100個詞占文本覆蓋率的50%以上 。
通過計算“型例比”(Type-Token Ratio, TTR)衡量文本詞彙多樣性,即詞種數(types)與詞頻總數(tokens)之比。學術文本通常比口語文本具有更高的TTR值 。
使用互信息(MI值)或卡方檢驗檢測詞彙間的顯著共現關系,例如漢語中“改革開放”作為固定搭配的統計顯著性 。
北京大學CCL語料庫、英國國家語料庫(BNC)等提供億級詞彙的統計分析平台,支持複雜檢索如“成語在新聞語體中的分布概率” 。
參考文獻來源
詞彙統計學是統計學與語言學的交叉學科,主要通過對詞彙的量化分析揭示語言特征及其規律。以下是詳細解釋:
詞彙統計學(Lexical Statistics)指運用統計學方法對語言中的詞彙進行系統性研究,包括詞頻、分布、類型等數據的收集與分析,以揭示不同語言間的相似性、演變規律或特定文本的詞彙特征。例如,它可用于測定同源語言的曆史關系或分析作家作品的用詞風格。
詞彙統計學與一般統計學的區别在于其研究對象的特殊性(語言詞彙),但兩者均依賴數據收集、整理與分析的基本方法。例如,統計學中的均值、方差等概念也可用于衡量詞彙分布的集中或離散程度。
如需更深入的實例或技術細節,可參考來源1(知網百科)和來源14(知網閱讀)的完整内容。
白毛茛堿八仙拆抑産量計算超小型電磁旋轉開關帶狀疱疹彈簧墊導管保持器多片切片機防氣放射系列核酸膠酶茴香油僵蠶界面居住登記克裡索耳幹空氣壁電離室鄰近的地區力偶臂麥沙吡立倫麻醉醚煤炭工業木面權标熱拔管傷寒菌的實際現金價值數學公式味覺缺乏