腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件?
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
腾讯ai实验室出品的nlp语料库是如何利用的?这个nlp
语料库如何下载?这个txt
文件如何转化为bin
文件?这些就是本文要解决的问题。
这里是苏南大叔的程序如此灵动博客,感谢您的访问。本文测试环境:win10
,python@3.6.8
,gensim@4.1.2
。
腾讯ai实验室语料库下载
下载地址:
下载到的是个压缩包,压缩包解压之后是个超级大的txt
文件。这里,苏南大叔选择了一个最小最精简的版本,解压缩后也是有1.8g
巨大的占地面积。
转化为vec.bin
文件
在做预料分析的时候,需要的是个基于向量的bin
文件。当然,使用txt
文件也是可以的。但是,影响效率,显得不是那么专业。所以,这里需要做预先处理。
pip install gensim
基于python
的转化代码如下:
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('./tencent-ailab-embedding-zh-d100-v0.2.0-s.txt', binary=False)
model.save_word2vec_format('./vec.bin',binary=True)
经过了十多分钟的漫长等待,然后1.8g
的txt
文件变成了786M
的bin
文件,这个vec.bin
文件留作后续文章中使用。
可能存在的问题
如果执行代码的时候,提示语料库文件无法找到的话(文件确实存在)。
FileNotFoundError: [Errno 2] No such file or directory: './tencent-ailab-embedding-zh-d100-v0.2.0-s.txt'
可以考虑增加下面的代码:
import os
os.chdir(os.path.dirname(__file__))
更多方案,可以参考文章:
相关链接
总结
nlp
的道路上,苏南大叔也是刚刚学习,所以,这里和大家共同进步。欢迎关注苏南大叔的系列文章。
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。