概述
在大数据时代,越来越多金融研究者开始关注上市公司年报、新闻媒体报道和投资者社交媒体发帖等文本中所蕴含的语调与情绪,并藉此展开相关分析。此类研究前提是构建情绪词典,它是测度和构建语调及情绪指标基础。现有研究使用的情绪词典普遍存在如下问题,例如:使用通用型语言词典而非专业金融情绪词典,这可能导致关键金融情绪词存在遗漏;使用人工判别方法构建基于小样本金融情绪词典,其可能导致情绪词判断标准不统一和样本偏差;直接使用翻译后英文金融情绪词典,这可能无法捕捉不同语言对同一种情绪不同表达习惯;使用单一类文本样本构造词典,其可能导致无法同时兼容正式金融文件(如新闻、公告、年报等)和非正式网络(如股吧、论坛等)这两大类文本所传达的相同情绪。
下载链接:会计金融情绪词典.zip-数据集文档类资源-CSDN下载
本文分享两篇有代表性的金融领域中文情绪词典的构建方法及其词典数据,学者如需使用数据请引用原文:
一、姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.
通过文本分析和机器学习方式构建了金融领域中文情绪词典。词典构建方法具有尽可能避免人工判断,来源于大样本,且适用于中文文本表达等优势。词典针对正式金融文本和社交媒体金融文本的用词差异,分为正式用语情绪词典和非正式用语情绪词典。其中,正式用语情绪词典适用于公司年报等正式文本语调分析,而非正式用语情绪词典则适用于社交媒体等非正式文本情绪分析。
下载链接:会计金融情绪词典.zip-数据集文档类资源-CSDN下载
二、Bian S , Jia D , Li F , et al. A New Chinese Financial Sentiment Dictionary for Textual Analysis in Accounting and Finance[J]. Social Science Electronic Publishing.
使用HOWNET、DLUTSD、NTUSD三种词典作为初始词典,并搜集了在线路演纪要(online roadshow transcripts)、业绩说明电话会议纪要(earnings conference call transcripts)、IPO招股报告(IPO prospectus)及公司年报构建了基础语料库。基于算法和人工判断, 使用多阶段剔除法来构建 “中文金融情感词典CFSD”。
具体步骤:
(1)合并HOWNET、DLUTSD、NTUSD三个情感词典,去除重复词
(2)收集了1411篇在线路演纪要、7138篇业绩说明电话会议纪要、2043IPO招股报告和29737公司年报。jieba被用于分割文档,构建 “基础语料”
(3)计算步骤1所有的词在“基础语料”中的词频,词频数为0的词语不予考虑,剔除掉。与金融不相关的词语也剔除掉,最终构建了“CFSD0.0”版本中文金融情感词典。
(4)所有的CFSD0.0版本的词语都来自与三个通用情感词典(HOWNET、DLUTSD、NTUSD),但这三个词典并不包含金融领域常出现的正面词和负面词。我们人工向“CFSD0.0”版情感词典加入了金融领域最常用的100个正面词100个负面词,构建出“CFSD0.1”版中文金融情感词典.
(5)Gensim是python中的一个文本分析库,在本步骤主要用来通过大量的语料训练处词向量。词向量可以使用余弦cos计算出相似性。在本步骤,计算出CFSD0.1版中每个词的词向量,进而从“基础语料”中发现每个词(CFSD0.1中的词)最相似的50个词。剔除掉与金融不关的词(包括相似词、同义词),构建出“CFSD0.2版的中文金融情感词典”
(6)合并“CFSD0.0、CFSD0.1、 CFSD0.2”,剔除掉重复词,最终构建出 “CFSD中文金融情感词典”
构件好的CFSD词典有1489个负面词,1108个正面词。
最后
以上就是柔弱翅膀为你收集整理的中英文会计&金融情绪词典的全部内容,希望文章能够帮你解决中英文会计&金融情绪词典所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复