数据分析入门(学术前沿趋势分析)Task4-论文种类分类Ⅰ、主要内容纲要Ⅱ、数据处理思路Ⅲ、代码实现Ⅳ、参考资料
Ⅰ、主要内容纲要主题:利用数据建模,对新论文进行分类 内容: 借助论文标题、摘要完成论文分类 数据集:arXivⅡ、数据处理思路原始arxiv论文中论文有对应的类别,由作者填写,因此我们可以借助论文的标题和摘要完成分类,主要步骤如下:对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型;文本分类的思路有多种,这里简单介绍几类:思路1:TF-IDF+机器学习分类器思路2:FastText思路3:WordVec+深度学习分类器思路4:Bert词向...