simple-jieba:用 100 行实现简单版本的 jieba 分词

众所周知,jieba 分词是一个不错的中文分词工具包,今天我们尝试用 100 行代码实现一个简单版本的 jieba 分词。

词袋模型简介

词袋模型是信息检索领域的一种常用的文档表示方法。

词嵌入1:从「分布表示」说起

「Word Embedding」之于自然语言处理,犹如「Inception Net」之于计算机视觉!

机械分词实战:南京 / 市长 / 江大桥 ?

这次我们从最简单的机械分词上手,来感受一下平常调个包就能解决事情,摸起来是什么样子的。

分词 / 是 / 什么 / ?

词是能够独立活动的最小语言单位。在自然语言处理中,通常都是以词作为基本单位进行处理的。由于英文本身具有天生的优势,以空格划分所有词。

自然语言处理是什么?

「下定义」从来不是一件容易的事情,我们先来看看大佬们怎么说...
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×