
【计】 statistical word association
【医】 statistics
【经】 numerical statement; statistics
poetry writing; speech; vocable; word
【医】 iogo-
associate with; connect in the mind
【医】 association; association of ideas
统计词联想(Statistical Word Association)指通过分析大规模语料库中的词语共现频率、分布模式等统计特征,揭示词语之间在语义、语法或语境上的系统性关联。以下是汉英词典角度的详细解释:
在汉语语境中,“统计词联想”强调基于数据统计的方法研究词语间的关联规律。其核心是通过计算词语在文本中共同出现的概率(如互信息、卡方检验等),识别高频共现词对(如“咖啡—提神”“暴雨—洪水”),或预测特定语境下的高关联词(如输入“春节”可能联想“红包”“团圆”)。该方法广泛应用于词典编撰、语义网络构建及自然语言处理领域。
来源:《现代汉语词典》(第7版)对“联想”的延伸释义;《计算语言学导论》(冯志伟著)
英文对应术语“Statistical Word Association” 侧重认知与计算的结合,定义为:
The computational identification of semantically or syntactically related words based on quantitative analysis of co-occurrence patterns in large-scale text corpora.
(基于大规模文本语料中共现模式的量化分析,通过计算识别语义或语法相关词语。)
其理论依据源于分布假说(Distributional Hypothesis),即“相似语境出现的词语具有语义相似性”。例如,通过统计发现“bank”常与“money”“loan”共现,而与“river”“water”的关联较弱,从而区分多义词义项。
来源:Oxford English Dictionary (OED) 对 "association" 的学术注解;Manning & Schütze, Foundations of Statistical Natural Language Processing
角度 | 中文释义侧重点 | 英文释义侧重点 |
---|---|---|
方法核心 | 数据驱动的关联规律挖掘 | 认知模型与统计计算的融合 |
应用场景 | 词典编撰、语义分析 | 认知语言学、人工智能语义建模 |
典型技术 | 共现频率、互信息 | PMI(点互信息)、词嵌入向量 |
语料库语言学奠基研究
英国语言学家John Sinclair通过COBUILD语料库项目证实,词语关联规律需依赖实证统计而非直觉。例如,“strong tea”与“powerful computer”的搭配差异需通过语料频率验证。
来源:Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford University Press.
认知心理学实证
American Psychological Association (APA) 指出,词联想实验(如“天空→蓝色”)的统计结果可量化人类语义记忆结构,为机器学习的词向量模型(如Word2Vec)提供理论基础。
来源:De Deyne, S. et al. (2019). The "Small World of Words" word association corpus. Behavior Research Methods.
《现代汉语规范词典》使用统计词联想技术筛选例句,确保词条释义反映真实语境(如“人工智能”优先关联“算法”“深度学习”而非虚构搭配)。
英语学习者词典(如《牛津高阶》)标注高频搭配词(如“commit a crime”),数据源自10亿词级语料库统计。
注:部分来源因网页访问限制未提供链接,可检索上述文献名称获取权威内容。
“统计词联想”这一表述需要拆解为“统计”和“词联想”两部分来理解:
统计包含三重含义:
“联想”指因某一概念或事物引发其他相关概念的思维活动,主要分为四类:
结合两者,可推测其含义为:通过统计学方法,分析词语之间的联想关系。例如:
如需更具体的定义或应用案例,建议结合具体领域文献进一步确认。
板离合器比重秤部落叉接四工筹备员穿支触发器对戴文氏绦虫科单纯性忧郁症负荷状态氟腺呤鼓盖嵴硅酸铍国民经济甲醛硫氧酸钠聚芳砜胶粘剂卡片机速度量规模块关键字脑室乳突造口术千奇百怪全鼻甲入肉神经软化实际训练水平尾翼梯纹导管同步预处理机铜绞痛外轮对瓣的