题目

自然语言处理中，词嵌入技术的优点有A. 捕捉词语语义相似性B. 降低数据维度C. 保留词语上下文信息D. 可解释性强

自然语言处理中，词嵌入技术的优点有

A. 捕捉词语语义相似性

B. 降低数据维度

C. 保留词语上下文信息

D. 可解释性强

题目解答

ABC
A. 捕捉词语语义相似性
B. 降低数据维度
C. 保留词语上下文信息

本题考查自然语言处理中词嵌入技术的优点相关知识。解题思路是依次分析每个选项是否符合词嵌入技术的特点。

选项A：
词嵌入技术会将词语映射到低维向量空间中，语义相似的词语在向量空间中的距离会比较近。例如，“苹果”和“香蕉”都属于水果，它们在词嵌入向量空间中的表示会比较接近，所以词嵌入技术能够捕捉词语语义相似性，选项A正确。
选项B：
在自然语言处理中，原始的文本数据维度通常非常高。比如使用独热编码（One - Hot Encoding）表示词语时，每个词语都用一个很长的向量表示，向量中只有一个位置为1，其余为0。而词嵌入技术可以将高维的词语表示映射到低维的向量空间中，从而降低数据维度，减少计算量和存储需求，选项B正确。
选项C：
很多词嵌入模型，如Word2Vec中的CBOW（Continuous Bag - of - Words）和Skip - Gram模型，都是基于词语的上下文信息来学习词语的向量表示的。CBOW是根据上下文词语来预测中心词，Skip - Gram是根据中心词来预测上下文词语。通过这种方式，词嵌入技术能够保留词语的上下文信息，选项C正确。
选项D：
词嵌入得到的向量是一组实数，这些实数本身并没有明确的语义解释。例如，一个词语的词嵌入向量是$[0.2, - 0.5, 0.8]$，很难直接从这组数字中看出它所代表的具体语义，所以词嵌入技术的可解释性较差，选项D错误。