https://ai.tencent.com/ailab/nlp/en/embedding.html

腾讯人工智能实验室中英文单词和短语嵌入语料库

    • *

中英文词语及短语连续分布式表征语料库。

消息

  • 2022-9-15:我们的英语语料库 0.1.0 版本可供下载
  • 2021-12-24:我们的中文向量语料库 0.2.0 版本可供下载

介绍

该语料库的最新版本为中文和英文提供了 100 维和 200 维的向量表示,即嵌入。具体来说,有超过 1200 万个中文单词和短语以及 650
万个英文单词和短语,这些词和短语是在大规模高质量数据上预先训练的。这些向量可以捕捉单词和短语的语义,可广泛应用于许多下游任务(例如命名实体识别和文本分类)和进一步的研究。

数据描述

请前往下载页面获取嵌入数据。每个文件的数据格式如下,

第一行显示嵌入的总数及其维度大小,以空格分隔。在下面的每一行中,第一列表示一个单词或短语,后跟一个空格及其嵌入。对于每个嵌入,其在不同维度上的值以空格分隔。

亮点

与现有的嵌入语料库相比,我们的语料库的优势主要在于 覆盖率新鲜度准确性

  • 覆盖范围 。我们的语料库包含大量中文和英文词汇中的特定领域的单词或俚语。汉语词汇中,有“喀拉喀什河”、“皇帝菜”、“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”等,这些都是现有的大部分词汇所没有涵盖的。中文嵌入语料库。在英语词汇中,涵盖了“机器学习和自然语言处理”、“预算赤字”、“外汇储备”、“hit the books”、“go Cold turkey”等短语。
  • 新鲜度 。我们的语料库包含最近出现或流行的新鲜词汇,例如“新冠病毒”、“元宇宙”、“了不起的儿科医生”、“流金岁月”、“凡尔赛文学”、汉语词汇中的“yyds”和“英语词汇中的“covid-19”、“metaverse”、“俄乌战争”、“iphone 14”。
  • 准确性 。我们的嵌入可以更好地反映单词或短语的语义,这归功于大规模数据和精心设计的训练算法。

训练

为了保证语料库的 覆盖率新鲜度准确性 ,我们从以下方面精心设计了数据准备和训练流程:

简单案例

为了举例说明所学习到的表示,下面我们展示了一些示例单词的最相似单词。这里使用嵌入之间的余弦距离来计算两个单词/短语的距离。

对于中文:

### 输入 `新冠病毒` `煮酒论英雄` `流金岁月` `刘德华` `自然语言处理`
### 最 相似的 词 ` 新冠肺炎病毒 新型冠状病毒 新冠状病毒 肺炎病毒 covid-19病毒 新冠 新型病毒 冠状病毒 ` ` 青梅煮酒论英雄 曹操煮酒论英雄 青梅煮酒 关羽温酒斩华雄 桃园三结义 温酒斩华雄 三英战吕布 桃园结义 ` ` 半生缘 大江大河2 你迟到的许多年 风再起时 情深缘起 外滩钟声 亲爱的自己 了不起的女孩 ` ` 华仔 张学友 张国荣 梁朝伟 谭咏麟 周润发 刘天王 古天乐 ` ` 自然语言理解 计算机视觉 自然语言处理技术 nlp 机器学习 语义理解 深度学习 nlp技术 `

对于英语:

### 输入 `covid-19` `metaverse` `russo-ukrainian war` `iphone 14` `natural language processing`
### 最 相似的 词 ` covid the coronavirus corona virus covid-19 virus covid-19 delta variant sars-cov2 ` ` the metaverse decentraland blockchain gaming virtual world nfts play-to-earn ` ` donbas region crimean crisis war in ukraine conflict in ukraine the annexation of crimea donbas war ` ` apple watch series 7 galaxy fold 2 samsung galaxy s22 iphone 13 iphone 12s airpods 3 ` ` natural language understanding language processing natural language generation text analytics text understanding nlp applications `

常问问题

**Q1:为什么我们在使用 Google 的 word2vec 或 gensim 的 Word2Vec 读取腾讯 AI Lab embeddings
时会遇到错误?**

我们的数据文件采用 UTF-8 编码。如果您使用 gensim,您可以按照以下脚本读取我们的嵌入:

`from gensim.models import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)`

Q2:在处理训练数据时,你们是如何分词的?我们应该怎么做才能让我们的分词结果和你们的类似?

如果只使用公开的中文分词工具包,可能无法充分利用我们的嵌入。原因是大多数这些工具包会将短语或实体进一步分割成细粒度元素。对于某些特定任务,预处理中的细粒度分词会导致模型性能比粗粒度分词更差,而有时细粒度分词可能会表现更好。

目前,我们正在努力在各种 NLP
任务上测试我们的分词工具包,进一步提高其性能。一旦准备就绪,该工具包将向公众开放。在现阶段,作为快速入门,您可以简单地使用开源的中文分词工具包。此外,一些单词可以根据我们的词汇表组合成短语。此外,在处理某些任务时,您可以同时考虑细粒度的单词(在分词中获得)和粗粒度的短语(在词组中获得)。

Q3:为什么腾讯 AI Lab 词向量的词汇表中会有停用词(例如“的”和“是”),数字和标点符号(例如“,”和“。”)?

我们没有删除这些词,以确保我们的词汇表的覆盖范围以及我们的嵌入在不同场景中的普遍适用性。虽然在许多应用中没有用处,但停用词、数字和标点符号可能对某些特定任务有用,例如命名实体识别和词性标记。为了更好地使我们的嵌入适应您的特定任务,您可以自定义您自己的词汇表并忽略词汇表中不存在的单词或短语。

Q4: 如何将带有URL编码的短语解析为英文语料库中的原始形式?

在英语中,一个短语通常是用空格隔开的多个单词来表达的。然而在嵌入语料库中,我们也使用空格来区分不同维度的值。为了避免歧义,我们在英语语料库中将短语编码为
URL 格式。例如,短语“go to school”被编码为“”go%20to%20school“”。使用以下代码(例如,python)可以轻松解析 URL
格式的短语:

`from urllib.parse import unquote
phrase = unquote(phrase)`

引用

如果您使用我们的语料库,请引用:Yan Song, Shuming Shi, Jing Li, and Haisong Zhang.
[Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for
Word Embeddings](http://aclweb.org/anthology/N18-2028) . NAACL 2018 (Short
Paper). [pdf ] [
bib
]

相关系统

联系方式

如有任何疑问或意见,请随时联系我们:nlu@tencent.com

您还可以访问腾讯AI实验室NLP研究页面。[](https://ai.tencent.com/ailab)

免责声明

该语料库仅用于研究目的,根据知识共享署名 3.0 未移植许可证 ( [http://creativecommons.org/licenses/by/3.0/
)](http://creativecommons.org/licenses/by/3.0/)发布