本文介绍用于文本分类的各种深度学习方法,包括BOW、CNN、TextCNN、LSTM、BiLSTM、GRU等。
text classification: map an input sequence of tokens X to one of k labels.
BOW文本分类
理论
忽略文本的词序、语法和句法,仅仅将其看作是一系列词的集合。文本中每个词独立存在,不依赖于其他词,通过嵌入模型(如word2ve或Glove)学习词向量表示,将嵌入向量的和或平均值作为文本表示,经一个或多个前馈层(多层感知器MLPs)传递,最后使用逻辑回归、朴素贝叶斯或支持向量机等分类器对最终层进行分类。
这种基于前馈神经网络的文本分类模型简单,并且准确率高。
(待续)