通过数据来判断一个平台的经营状态是很多投资人常用的方法之一。通过待还金额,资金净流入来观察和跟踪平台是一个非常有效的方法。但是实际上,关于平台的指标很多,如果只判断一个或几个指标可能会遗漏一些其他重要的信息;而对平台所有的指标进行判断,往往比较耗费时间,并且很多情况下无法得出一个系统性的结果。
P2P平台所披露的信息数据庞杂无序 需要深度分析挖掘
本文从数学的角度,利用模式识别中一种降维的方法(PCA),通过线性组合得出一些综合性的指标,从这些新的指标和角度来对平台进行分析。有经验投资人可以学会通过各种渠道收集平台信息,甚至通过数据的异常波动来对平台的风险作出判断。最终,这套分析方法将回答这样一些问题:平台的所有指标中,哪一种更重要?哪一类指标可以反映平台的整体走势?对于每一种分离出的成分指标,它们都显示出平台的哪些与众不同的特点?
PCA的概念
主成分分析法(Principal Component Analysis,PCA,也称为 K-L 变换)是模式识别中一种常用的线性组合方法,该方法依据样本点在空间中的位置分布,把样本点在多维空间中最大变化方向,即方差最大方向,作为判断向量来实现图像数据的压缩和特征提取。由概率统计的观点可知,如果一个变量的方差较大,那么这个变量蕴含的信息量也就较大,当变量的方差等于零时,该变量就是一个常量,包含的信息量为零。所谓主元是指原始数据的m个变量经过线性组合(或者映射)后得到的变量,该映射后得到的变量方差为最大(第一主成分)的一部分。各个主成分彼此正交,从第一主成分开始,各主成分根据方差的大小按顺序排列 (对应的特征值按大小顺序排列)。对于特征值为 的主成分,该主成分的方差也为 ,该值代表样本点在这个主成分方向上的离散程度,主成分的贡献率可由公式(1)表示
把主成分中特征值 比较小或者方差比较小的部分当作是包含的噪声,在后续分析中这些变量不引入到模型中,这样可以减少需要分析的主成分,从而达到降维去噪的目的。任意两个主成分可以作为判别分析平面,因此能将变量从高维空间投影到二维平面及其它维空间。通常选取几个方差较大的主成分作为判别分析空间。
PCA原理
令 x表示为环境中的m维随机向量。假定x的均值为零,即
令w表示为m维单位向量,x在其上的投影为y。这个投影的定义为向量x 和
向量w的内积,表示为
满足约束条件:
而主成分分析法的目的就是要找到一个权值向量 w,从而使得表达式 的值最大化, 表示为
依据线性代数的理论,可以知道为了使 值最大化, w应该满足下面的公式
即使得上式(5)最大化的w是矩阵 的最大特征值相对应的特征向量。
数据选择
从数据库中选取数据较为充分的平台,取其2012-01-10到2015-07-14之间数据。这些数据维度包括:成交量,平均投资金额,平均借款金额,投资人HHI,投资人数,借款人HHI,借款人数,待收人数,十大投资人待收占比,收益,平均借款期限,资金存量,资金净流入,待还人数,十大借款人待还占比,总标数,一共16个指标。
该平台2012-01-10到2015-07-14之间的数据
上一页123下一页全文阅读