我是靠谱客的博主 任性香烟,最近开发中收集的这篇文章主要介绍NLPcc2013-2014微博文本情感分类数据集,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

从xml中提取的,文件格式为tsv,和csv差不多,可以转为其他格式

链接:https://pan.baidu.com/s/1lDiuvpbT5qPc_uJJs0cPUQ
提取码:t5i7

import  xml.dom.minidom
import csv
import pandas as pd

# 1. 创建文件对象
f = open('Nlpcc2013Train.tsv','a+',encoding='utf-8',newline='')

# 2. 基于文件对象构建 csv写入对象
csv_writer = csv.writer(f)
csv_writer.writerow(['标签','文本'])

#打开xml文档
dom = xml.dom.minidom.parse('Nlpcc2013/微博情绪样例数据V5-13.xml')

#得到文档元素对象
root = dom.documentElement
wb=dom.getElementsByTagName('weibo')

for i in range(len(wb)):
    wbi=wb[i]
    sens=wbi.getElementsByTagName('sentence')
    for j in range(len(sens)):
        senj=sens[j]
        if senj.firstChild is None:
            continue
        if senj.hasAttribute('emotion-1-type'):
            em=senj.getAttribute('emotion-1-type')
        else:
            em='none'
        text=senj.firstChild.data
        csv_writer.writerow([em,text])
        
        
f.close()
在这里插入代码片

在这里插入图片描述

最后

以上就是任性香烟为你收集整理的NLPcc2013-2014微博文本情感分类数据集的全部内容,希望文章能够帮你解决NLPcc2013-2014微博文本情感分类数据集所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部