
tokenize(动词):把文本或数据切分成“词元/标记(tokens)”的过程,常用于自然语言处理、搜索、编译器等领域。(也可指“代币化/将资产转为数字代币”,但此处以常见的语言与计算含义为主。)
/toknaz/
The program tokenizes each sentence into words.
程序把每个句子切分成一个个单词(词元)。
Before training the model, we need to tokenize the text and remove punctuation carefully.
在训练模型之前,我们需要先对文本进行词元切分,并仔细去除标点符号。
来自 token(“标记、符号、代币”)+ 动词后缀 -ize(“使……化/使成为……”),字面意思是“使变成标记”。在计算语言学中引申为“把连续的文本分解为可处理的标记单位”。
在传统文学作品中较少出现;该词更常见于技术写作与教材中,例如: