概述
从xml中提取的,文件格式为tsv,和csv差不多,可以转为其他格式
链接:https://pan.baidu.com/s/1lDiuvpbT5qPc_uJJs0cPUQ
提取码:t5i7
import xml.dom.minidom
import csv
import pandas as pd
# 1. 创建文件对象
f = open('Nlpcc2013Train.tsv','a+',encoding='utf-8',newline='')
# 2. 基于文件对象构建 csv写入对象
csv_writer = csv.writer(f)
csv_writer.writerow(['标签','文本'])
#打开xml文档
dom = xml.dom.minidom.parse('Nlpcc2013/微博情绪样例数据V5-13.xml')
#得到文档元素对象
root = dom.documentElement
wb=dom.getElementsByTagName('weibo')
for i in range(len(wb)):
wbi=wb[i]
sens=wbi.getElementsByTagName('sentence')
for j in range(len(sens)):
senj=sens[j]
if senj.firstChild is None:
continue
if senj.hasAttribute('emotion-1-type'):
em=senj.getAttribute('emotion-1-type')
else:
em='none'
text=senj.firstChild.data
csv_writer.writerow([em,text])
f.close()
在这里插入代码片
最后
以上就是任性香烟为你收集整理的NLPcc2013-2014微博文本情感分类数据集的全部内容,希望文章能够帮你解决NLPcc2013-2014微博文本情感分类数据集所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复