一点一滴

一点一滴

点点滴滴,记录人生

主流中文分词技术方案(Jieba, SnowNLP, PkuSeg, THULAC, HanLP)对比

<一> 结巴分词Github:https://github.com/fxsjy/jieba结巴分词是国内最广泛使用的分词技术,该项目可以完全满足中文分词的需要。结巴分词有如下功能特点...

jieba / hanlp / ltp / standforCorenlp 分词器对比

目录分词运行效率对比实体识别效果对比分词效果对比*为了验证分词效率的,数据统一采用微博数据,共3379kb,共3382条。所有样本先采用规则分句,再进行分词和实体识别,standfordCore...

HTML转Markdown-python

安装pip install html2textimport html2text as ht if __name__ == '__main__': text_maker = ht.HTM...

根据76大细分词性对单词进行归组(二)

词性的重要性不言而喻,尤其是对于自然语言处理来说,哪怕就是记单词,根据词性对单词进行归组也是非常有帮助的。superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律...

根据76大细分词性对单词进行归组(一)

词性的重要性不言而喻,尤其是对于自然语言处理来说,哪怕就是记单词,根据词性对单词进行归组也是非常有帮助的。superword是一个Java实现的英文单词分析软件,主要研究英语单词音近形似转化规律...