
【计】 hyphen drop
company; connect; join; link; even; in succession; including
【医】 sym-; syn-
【计】 C; CH; character
expunction; expurgation
【化】 elimination
在汉英词典编纂领域,“连字符消去”(Hyphen Deletion)指在词语规范化处理过程中,有意识地移除单词内部或复合词之间的连字符(-),使其变为一个连续的书写形式。这一操作通常基于语言演变规律、词典编纂规范或特定语料库的处理要求,旨在提升词条的统一性和检索效率。其核心含义与应用场景如下:
规范化处理
当某些复合词或派生词因长期高频使用而词汇化(lexicalization)时,连字符可能被省略。例如:
这一过程反映语言使用的简化趋势,词典需动态更新词形以符合实际语用习惯。
技术性处理规则
在构建汉英对齐语料库或机器翻译系统时,连字符消去是文本预处理的常见步骤。例如中文拼音转换中:
此举可减少分词歧义,提升后续处理的准确性。
《牛津英语词典》(OED)的历时性规范
OED在修订词条时,会依据语料库频率统计调整连字符使用。如“bumble-bee”在20世纪中期逐渐演变为“bumblebee”,词典相应更新词形 。
来源:Oxford English Dictionary, "Hyphenation Practices"
中文拼音国家标准(GB/T 16159)
规定汉语拼音需以音节为单位连写,仅在特殊情况下使用隔音符号(’)替代连字符。例如:
来源:国家语委《汉语拼音正词法基本规则》
连字符消去是移除已有连字符,而连字符使用是为避免歧义主动添加符号(如“re-cover” vs. “recover”)。
消去连字符可能改变分词结果(如“state-of-the-art” → “state of the art”),影响机器翻译的短语对齐精度。
在电子词典开发中,消去连字符可统一词目形式(如将“user-friendly”与“user friendly”合并检索),增强用户体验。
中文分词系统需处理含连字符的专名(如“COVID-19”),消去后便于与中文无连字符文本对齐。
注:连字符消去需谨慎操作,避免引发语义混淆(如“small-business owner”消去后可能误读为“small business owner”)。主流语言资源(如LDC语料库)通常保留原始连字符,仅在特定下游任务中按需处理。
“连字符消去”指在文本处理或排版中移除连字符(hyphen)的操作。以下是详细解释:
连字符的定义
连字符(hyphen)是标点符号的一种,主要用于连接合成词(如“long-term”)或分隔单词换行时的音节。例如英文中“mother-in-law”需用连字符连接复合名词。
消去的含义
“消去”意为去除或删除,在计算机领域常指通过特定操作移除字符。例如,Excel中可用SUBSTITUTE
函数替换连字符。
应用场景
示例
原始文本:“state-of-the-art technology”
消去后:“state of the art technology”(需注意语义可能变化)。
注意:连字符消去需结合上下文判断是否影响语义,部分合成词(如“check-in”)移除后可能引发歧义。
按键式的参谋组织粗玉米粉等价构图动物沉淀素发青腹中区管件图关节复位后外侧的环状巩膜炎汇率伸缩性奖励制度检修口糠偶酰克纳普氏试验懒氯醛瘾埋没内聚性普通法上的拘捕权羟乙卡因氢化肉桂醛氰酰胺实体镜画舒张期延长四联杆菌童样幻想外差干扰萎缩性肺气肿