https://ai.tencent.com/ailab/nlp/en/download.html

主页

嵌入数据集下载

    • *

本页面提供腾讯AI实验室中英文词向量语料库的下载。

最新版本中文版

最新版本是 v0.2.0,于 2021 年 12 月 24 日发布。

版本 方面 词汇量 下载网址 描述
**v0.2.0** 200 小型(2,000,000) [腾讯-ailab-embedding-zh-d200-v0.2.0-s.tar.gz](data/tencent-ailab-embedding- zh-d200-v0.2.0-s.tar.gz) 原始大小:3.6G;tar.gz大小:1.5G
大型 (12,287,936) [腾讯-ailab-嵌入-zh-d200-v0.2.0.tar.gz](data/tencent-ailab-embedding- zh-d200-v0.2.0.tar.gz) 原始大小:22GB;tar.gz 大小:9.0G
100 小型(2,000,000) [腾讯-ailab-embedding-zh-d100-v0.2.0-s.tar.gz](data/tencent-ailab-embedding- zh-d100-v0.2.0-s.tar.gz) 原始大小:1.8G;tar.gz大小:763M
大型 (12,287,936) [腾讯-ailab-嵌入-zh-d100-v0.2.0.tar.gz](data/tencent-ailab-embedding- zh-d100-v0.2.0.tar.gz) 原始大小:12GB;tar.gz 大小:4.7G

v0.2.0版本信息:

  • 上映时间:2021年12月24日
  • 数据(句子和词汇)采集时间:2021年3月

该版本主要更新内容:

  • 新词汇
  • 用于训练嵌入的新句子
  • 训练算法略有改进

最新版本为英语

最新版本为 v0.1.0,发布于 2022 年 9 月 15 日。将经过 URL
编码的短语解析为原始形式的说明可以在常见问题解答中的 Q4 中找到。

版本 方面 词汇量 下载网址 描述
**v0.1.0** 200 小型(2,000,000) [腾讯-ailab-embedding-en-d200-v0.1.0-s.tar.gz](data/tencent-ailab-embedding- en-d200-v0.1.0-s.tar.gz) 原始大小:3.6G;tar.gz大小:1.5G
大型 (6,596,681) [tencent-ailab-embedding-en-d200-v0.1.0.tar.gz](data/tencent-ailab-embedding- en-d200-v0.1.0.tar.gz) 原始大小:12GB;tar.gz 大小:4.8G
100 小型(2,000,000) [腾讯-ailab-embedding-en-d100-v0.1.0-s.tar.gz](data/tencent-ailab-embedding- en-d100-v0.1.0-s.tar.gz) 原始大小:1.8G;tar.gz大小:763M
大型 (6,596,681) [tencent-ailab-embedding-en-d100-v0.1.0.tar.gz](data/tencent-ailab-embedding- en-d100-v0.1.0.tar.gz) 原始大小:6GB;tar.gz 大小:2.5G

v0.1.0版本信息:

  • 上映时间:2022年9月15日
  • 数据(句子和词汇)采集时间:2021年3月

历史版本下载

原文

请对此翻译评分

您的反馈将用于改进谷歌翻译