数据科学导论

78 阅读 0 评论 52 点赞

我是靠谱客的博主呆萌冰淇淋，最近开发中收集的这篇文章主要介绍数据科学导论，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

基于数据科学导论的量化差异系统

策略的成功归因于市场整体市盈率不断提高的结果。上述这种质疑存在一定的合
理性，价值选股策略应该与成长策略有机结合，即 GARP 策略是两者兼顾的选股策略

GARP策略通过市盈率、市净率、PEG、净利润增长率、营业收入增长率，每股收益增长率，净资产收益率多个指标评估投资标的的估值水平、成长潜力，并且在基本面分析的基础上借由数量化选股模型进行分析、筛选择出合适的品种构建股票池。数量化投资方法大大增强GARP 策略对信息的挖掘深度和使用效率，选股过程也更为客观、理性、透明，从而较好地弥补了仅依赖基本面研究的传统投资方式的局限性。

GARP指标的选取

1.价值指标旨在寻找低估值的股票构建组合。这里我们选择市盈率pe和市净率pb作为价值指标。
2.成长指标只在寻找高增长的股票构建组合。这里我们主要选择净利润增长率nprg、主营业务收入增长率mbrg、每股收益增长率epsg和净资产收益率roe作为成长指标。
3.由于我们选择的多元线性回归模型不允许各个变量因子之间存在关系且pb=pe*roe，所以价值指标我们选择为pe和roe，成长指标我们选择为nprg、mbrg和epsg。

model.py

import pandas as pd
import numpy as np
import tushare as ts
import seaborn as sns
import matplotlib.pyplot as plt
data=pd.read_excel('test/test3.xlsx')
sns.pairplot(data,x_vars=['pe','roe','nprg','mbrg','epsg'],
y_vars='score',size=6,aspect=0.8,kind='reg')
plt.show()
feature_cols=['pe','roe','nprg','mbrg','epsg']
X = data[feature_cols]
X = data[['pe','roe','nprg','mbrg','epsg']]
y=data['score']
y=data.score
#<pre name='code' class="python"><span style="font-size:14px">
from sklearn.cross_validation import
train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=100000)
print (X_train.shape)
print (y_train.shape)
print (X_test.shape)
print (y_test.shape)
from sklearn.linear_model import LinearRegression
linreg=LinearRegression()
model=linreg.fit(X_train,y_train)
print (model)
print (linreg.intercept_)
print (linreg.coef_)
zip(feature_cols,linreg.coef_)
y_pred=linreg.predict(X_test)
print (y_pred)
print (type(y_pred))
#测试,均方根误差
print (type(y_pred),type(y_test))
print (len(y_pred),len(y_test))
print (y_pred.shape,y_test.shape)
from sklearn import metrics
sum_mean=0
for i in range(len(y_pred)):
sum_mean+=(y_pred[i]-y_test.values[i])**2
sum_erro=np.sqrt(sum_mean/50)
print("RMSE by hand:",sum_erro)
#做ROC曲线
import matplotlib.pyplot as plt
plt.figure()
plt.plot(range(len(y_pred)),y_pred,'b',label="predict")
plt.plot(range(len(y_pred)),y_test,'r',label="test")
plt.legend(loc="upper right")
plt.xlabel("the number of score")
plt.ylabel("value of score")
plt.show()