
【计】 lexicostatistics
【医】 nomenclature
statistics
【医】 statistics
【经】 statistics
词汇统计学(Lexical Statistics)是计量语言学的一个分支,主要运用统计学方法对语言中的词汇进行定量分析和研究。它通过收集、整理和分析词汇在文本中的出现频率、分布规律、搭配特征等数据,揭示词汇使用的系统性和规律性。
统计特定词汇在语料库中出现的绝对频率或相对频率,例如高频词(如汉语的“的”“了”)与低频词的分布规律。牛津英语词典(OED)的历时语料库研究显示,英语最常用的100个词占文本覆盖率的50%以上 。
通过计算“型例比”(Type-Token Ratio, TTR)衡量文本词汇多样性,即词种数(types)与词频总数(tokens)之比。学术文本通常比口语文本具有更高的TTR值 。
使用互信息(MI值)或卡方检验检测词汇间的显著共现关系,例如汉语中“改革开放”作为固定搭配的统计显著性 。
北京大学CCL语料库、英国国家语料库(BNC)等提供亿级词汇的统计分析平台,支持复杂检索如“成语在新闻语体中的分布概率” 。
参考文献来源
词汇统计学是统计学与语言学的交叉学科,主要通过对词汇的量化分析揭示语言特征及其规律。以下是详细解释:
词汇统计学(Lexical Statistics)指运用统计学方法对语言中的词汇进行系统性研究,包括词频、分布、类型等数据的收集与分析,以揭示不同语言间的相似性、演变规律或特定文本的词汇特征。例如,它可用于测定同源语言的历史关系或分析作家作品的用词风格。
词汇统计学与一般统计学的区别在于其研究对象的特殊性(语言词汇),但两者均依赖数据收集、整理与分析的基本方法。例如,统计学中的均值、方差等概念也可用于衡量词汇分布的集中或离散程度。
如需更深入的实例或技术细节,可参考来源1(知网百科)和来源14(知网阅读)的完整内容。
【别人正在浏览】