
【計】 statistical word association
【醫】 statistics
【經】 numerical statement; statistics
poetry writing; speech; vocable; word
【醫】 iogo-
associate with; connect in the mind
【醫】 association; association of ideas
統計詞聯想(Statistical Word Association)指通過分析大規模語料庫中的詞語共現頻率、分布模式等統計特征,揭示詞語之間在語義、語法或語境上的系統性關聯。以下是漢英詞典角度的詳細解釋:
在漢語語境中,“統計詞聯想”強調基于數據統計的方法研究詞語間的關聯規律。其核心是通過計算詞語在文本中共同出現的概率(如互信息、卡方檢驗等),識别高頻共現詞對(如“咖啡—提神”“暴雨—洪水”),或預測特定語境下的高關聯詞(如輸入“春節”可能聯想“紅包”“團圓”)。該方法廣泛應用于詞典編撰、語義網絡構建及自然語言處理領域。
來源:《現代漢語詞典》(第7版)對“聯想”的延伸釋義;《計算語言學導論》(馮志偉著)
英文對應術語“Statistical Word Association” 側重認知與計算的結合,定義為:
The computational identification of semantically or syntactically related words based on quantitative analysis of co-occurrence patterns in large-scale text corpora.
(基于大規模文本語料中共現模式的量化分析,通過計算識别語義或語法相關詞語。)
其理論依據源于分布假說(Distributional Hypothesis),即“相似語境出現的詞語具有語義相似性”。例如,通過統計發現“bank”常與“money”“loan”共現,而與“river”“water”的關聯較弱,從而區分多義詞義項。
來源:Oxford English Dictionary (OED) 對 "association" 的學術注解;Manning & Schütze, Foundations of Statistical Natural Language Processing
角度 | 中文釋義側重點 | 英文釋義側重點 |
---|---|---|
方法核心 | 數據驅動的關聯規律挖掘 | 認知模型與統計計算的融合 |
應用場景 | 詞典編撰、語義分析 | 認知語言學、人工智能語義建模 |
典型技術 | 共現頻率、互信息 | PMI(點互信息)、詞嵌入向量 |
語料庫語言學奠基研究
英國語言學家John Sinclair通過COBUILD語料庫項目證實,詞語關聯規律需依賴實證統計而非直覺。例如,“strong tea”與“powerful computer”的搭配差異需通過語料頻率驗證。
來源:Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford University Press.
認知心理學實證
American Psychological Association (APA) 指出,詞聯想實驗(如“天空→藍色”)的統計結果可量化人類語義記憶結構,為機器學習的詞向量模型(如Word2Vec)提供理論基礎。
來源:De Deyne, S. et al. (2019). The "Small World of Words" word association corpus. Behavior Research Methods.
《現代漢語規範詞典》使用統計詞聯想技術篩選例句,确保詞條釋義反映真實語境(如“人工智能”優先關聯“算法”“深度學習”而非虛構搭配)。
英語學習者詞典(如《牛津高階》)标注高頻搭配詞(如“commit a crime”),數據源自10億詞級語料庫統計。
注:部分來源因網頁訪問限制未提供鍊接,可檢索上述文獻名稱獲取權威内容。
“統計詞聯想”這一表述需要拆解為“統計”和“詞聯想”兩部分來理解:
統計包含三重含義:
“聯想”指因某一概念或事物引發其他相關概念的思維活動,主要分為四類:
結合兩者,可推測其含義為:通過統計學方法,分析詞語之間的聯想關系。例如:
如需更具體的定義或應用案例,建議結合具體領域文獻進一步确認。
阿佛丁麻醉貝勒比氏試驗貶義編制現金預算的收益調整法出口免稅定期儲蓄存款對羟基發起人股份肱二頭肌嵴谷氨酸轉氨酶果聚糖生成酶海森堡鐵磁理論護皮因子精神冷靜狀态盡是菊花狀石墨可變光圈門限電流綿馬油脂耐壓吸引膠管帕若氏定律上訴人上下運動視唱手絞車水域钛酸锶塔内回流分布添加回音頑強便秘