您的位置首页  互联网资讯

利用大数据构建互联网金融情绪指数!互联网金融最新文章

图二、互联网货币和消费金融的关注度指数

我们认为这套互联网金融情绪指数具有一定的开创性意义。在指数的编制中,我们超越了简单地数关键词的做法,而是利用主题模型提炼、归纳每篇文章所包含的主题,而且还进行情感评分。更重要的是,这可能是全世界第一套反映互联网金融情绪的量化指标,可以帮助我们准确、及时地把握与对于互联网金融的关注与情感,对市场参与者、监管部门官员和研究人员,均具有十分重要的参考价值。

图一、P2P业务的关注度指数与互联网投资的发展指数

即情感度指数0代表平均的情感,某一情感词的权重反比于其出现的次数(出现频繁的大众词影响小)。其正负值则代表相较于历史平均态度是更乐观还是更悲观,其绝对值的大小则代表这种情感的强烈程度,不过数值大小并不具有特定的含义。

图一、互联网金融的关注度指数与情感度指数

作者单位大学国家发展研究院、互联网金融研究中心

按照不同数据源分类,构建情绪指数的方法大概有三类。第一类是直接调查,美国的“密歇根消费者信心指数”就是用的这个方法。它的好处是问题可以很直接,缺点是实施成本相对较高。第二种是直接利用讨论平台的数据。它的好处确属反映的情绪,但寻找和分析数据的难度会增加许多。第三种是以文章作为信息源,最近国际上流传的“经济政策不确定指数”就是基于这个方法构建的。它的好处是数据边界比较容易确定,坏处是新闻所反映的情绪跟的情绪不一定精密吻合。我们构建情绪指数也是用的这个方法,数据源是和讯网自2013年年初以来的1400万条文章。

情绪指数与业务发展之间有没有关系?如果我们将之前编制的“大学互联网金融发展指数”中的互联网投资发展指数与情绪指数中的P2P关注度指数做一比较,似乎可以看到两者之间的正向关系。从2014年年初开始,两个指数大致保持了同向变化的态势,在2015年年初以后,两个指数分别出现了几个拐点,但仍然相对同步,比如2015年12月之后的回落和2016年2月之后的回升。当然,在做出进一步的分析之前,我们尚不能确定这样的同步关系在统计意义上是否显著以及两个指数之间是否存在关系。

:王靖一,窦笑添,2016,“中国互联网金融情绪的量化与指数编制”,大学互联网金融研究中心工作论文。

文章结构性数据,利用这样的信息编制指数,需要克服三个关键难题,即互联网金融专业词典的构建、文章主题的确定和正负情感的量化评分。形象地打个比方,我们分三步训练了一个程序,第一步让她了解到互联网金融的存在,看见“互联网金融”这几个字,“脑”中反应的不是金融与互联网两个概念,而是这个的领域;第二步让她获得从文字中归纳主题的能力,就像人在看到一行行文字的时候,“想”到的却是这篇文章的主题;第三步则是让她能够对文字内容有情感的判断,一些字眼在她“心”中有了特殊的含义。

其次,我们利用隐含狄利克雷分布(LDA)的主题模型,对全部待选文章进行处理,得到每篇文章最有可能所属的几个主题及其概率。简单地说,就是每一篇文章度包含若干主题,每个主题则包含一系列的关键词;随着纳入训练的文章数量增加,单个主题所包含的一系列的词逐渐趋于稳定。这样,我们便可以将一篇文章归纳至一个或几个主题及其对应概率,而对于每个主题,我们又可以将他们分别归纳至网络借贷、网络货币等十个细分领域。将这些文章对应的细分领域概率按月加总,使用当月新闻总数进行平减,并进行标准化(初期设为100),我们便得到了关注度指数。

相比之下,情感度指数的震荡更加激烈。这起码部分是因为两个指数的定义不一样,关注度指数是以起点为100,而情感度指数则是以整个时期的平均值为0。在2013-2014年间,除了几个短暂的时点如2013年7月和2014年9月,情感度指数大多处于负值区间。这也许表明,虽然对互联网金融的关注度在显著上升,但对其看法并不乐观。而在2015年,情感度指数一直处在正值区间,即便在下半年P2P平台风险频发,依然如此。倒是在2015年7月,《关于促进互联网金融健康发展的指导意见》的出台,令情感度指数出现了一个“深V”。从2016年年初,这个指数一直落在负值区间,但最近已经恢复到接近历史平均的水平。

需要指出的是,“大学互联网金融情绪指数”还只是很初步的结果,还有很多可以进一步改进的空间。即便如此,这套指数也已经了许多有意义的结果。自2013年1月起,互联网金融的关注度指数总体不断向上,关注度第一次显著上扬从2013年6月余额宝上线开始,到2014年3月“互联网金融”被写进工作报告告一段落。第二次上扬伴随着越来越多的P2P平台在2015年下半年出现各种风险,一直到2015年12月银监会公布《网络借贷信息中介机构业务活动管理暂行办法》。中间也发生过几次反复,尤其是自2016年年初以来,关注度已经明显回落(图一)。

具体的步骤可以概括如下。首先,我们构建一个互联网金融的专业词典,因为互联网金融是一个新生事物,我们对已有词典做了几次扩充。第一次扩充是主观地加入“网贷”、“区块链”这样的专有名词以及“红岭创投”、“支付宝”、“周世平”这样的代表性公司、产品和人物。第二次扩充是对书籍《互联网金融十二讲》进行“搜索引擎模式”分词,并对每个词的出现次数进行计数,人工筛选出现次数大于10的词,将其纳入词典。第三次扩充是对已经明确为互联网金融新闻的文章重复第二次的过程,人工筛选词频大于20的词。在第二次和第三次的人工筛选中,我们还挑选了正向情感词和负向情感词。

【财新网】(特约作者王靖一专栏作家黄益平)从三年前余额宝上线到近期P2P平台问题频发,对互联网金融的情绪也从热烈的追捧转向了普遍的质疑。当然,中国互联网金融的故事还远未结束,的情绪也并不是简单的0、1选择。即便当下对P2P平台的情绪相当负面,平台的资金交易量依然在稳步增长。新兴产业的发展历史,向来是创新与泡沫并存、与疯狂同在。泡沫也不一定就是行业的终点,美国的互联网泡沫散去之后,留下了一批全球性的行业领导者。关键是是不要让泡沫摧毁创新,不要让疯狂替代。因此,准确把握行业发展的状况至关重要。

最后,我们进行正负情感度的判别。首先需要确定一组正情感词和一组负情感词,这个过程中需要解决得一个问题是,在互联网金融的语境下出现了一些新的情感词,比如“雷了”表示P2P网贷平台爆发问题,同时一些词也发生了情感异化,比如“打破”更可能意味着创新。在第一步手工挑选词库时,我们筛选出了正情感词和负情感词;继而我们应用词向量模型,在第二步获得的主题为互联网金融的全部文章上训练,对这些词在互联网金融语境下进行重新定义,并将它们的含义相近程度量化。我们将每个原有情感词的前20个近意词人工筛选,纳入其中作为情感词。

为了衡量情感度指数,我们对每个关键词进行赋分,正向情感词为正数,负向情感词为负数,数值的大小为:

最近我们尝试利用大数据分析的方法,对文章进行提炼和测算,构建了一套“大学互联网金融情绪指数”,详细地刻画在不同的时点对互联网金融及其10个子类业务的关注度与情感度。总体看来,过去三年多来,对互联网金融的关注度一直在上升,虽然最近出现了一些波动。在不同时期对不同业务关注度的更替十分明显。对互联网金融的情感度一直在正负之间大幅震荡,对于P2P业务的情感度的震荡尤其激烈。构建这个指数的努力还只是一个很初步的尝试,但无论从指数结果看还是从测算方法看,这个尝试都是具有积极意义的。

比较不同业务子类的关注度指数,也可以发现过去三年多来热点问题在发生变化。从2013年年末到2014年年初,互联网货币受关注度非常高,这应该跟当时的比特币热有关。但随后包括中国在内的一些国家的开始比特币的使用,比特币的交易价格大幅回落,对互联网货币的关注度也不断降温。最近对这个话题的关注度又出现了回升,应该是与最近关于区块链话题的讨论有关(图二)。与此相对比,前几年对互联网金融中消费金融业务的关注度处于较低的水平,但一直保持了上升的势头,特别是在2015年第四季度直线飙升。但在2015年11月“e租宝”事件爆发之后,P2P平台遭“污名化”,也影响了消费金融得关注度。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐