概述
我正在使用一个大的DataFrame。但我试图获得两列之间的相关性。我用过这段代码:
corr_P=Top15['Energy Supply per Capita'].corr(Top15['Energy Supply per Capita'])
它给我一个错误说:
'sqrt' method is not available for 'float' type.
这是一个我必须使用“.corr()方法,(Pearson的相关性)”的分配。
解决办法:我在同一个数据集上试用了你的代码并且没有错误。我很好奇你正在使用什么版本。
另外,我假设您希望看到2列(相同列)的相关性。如果我运行它,它会给出正确的输出1
import pandas as pd
import numpy as np
import re
def split_it(line):
line = re.split('(d+)', line)
return line[0]
def get_energy():
energy = pd.read_excel('C:/Energy Indicators.xls', skiprows = 17, skip_footer = 38, parse_cols = range(2, 6), index_col = None, names = ["Country", "Energy Supply", "Energy Supply per Capita", "% Renewable"], na_values='...')
energy['Energy Supply'] = energy['Energy Supply'] * 1000000
energy['Country'] = energy["Country"].apply(split_it)
energy = energy.replace ("Republic of Korea", "South Korea")
energy = energy.replace("United States of America", "United States")
energy = energy.replace('United Kingdom of Great Britain and Northern Ireland' , 'United Kingdom')
energy = energy.replace('China, Hong Kong Special Administrative Region', 'Hong Kong')
energy['Country'] = energy['Country'].apply(lambda x: re.sub(r'(.*)', '', x))
# energy.Country = energy.Country.apply(lambda x: x.split(' (')[0])
energy['Country'] = energy['Country'].map(lambda x: x.strip())
return energy
Top15 = get_energy()
corr_P = Top15['Energy Supply per Capita'].corr(Top15['Energy Supply per Capita'])
最后
以上就是朴实天空为你收集整理的dataframe 取2列_获取DataFrame中两个选定列之间的相关性的全部内容,希望文章能够帮你解决dataframe 取2列_获取DataFrame中两个选定列之间的相关性所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复