chapter 13 文本数据处理

词袋模型

英语句子分词

中文句子分词

句子向量化,词袋模型 bag of words

对文本数据的优化处理

使用 n-Gram 改善词袋模型

除了词语的频率,词语的顺序也很重要。

使用 tf-idf 算法处理文本数据

tf-idf: term frequency-inverse document frequency,翻译 “词频-逆向文件频率”。

公式:tf-idf 的计算公式有很多实现,这是其中一种。

常规 SVM 分类评价文本

tf-idf 分类

删除文本数据中的停用词 stopwords

停用词 stopwords,指的是出现频率很高,但没有实际意义的单词,通常包括各种语气词、连词、介词等。

进一步学习

自然语言处理