· web...

22
2020 年年 2 年年年年 《》、

Upload: others

Post on 21-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

2020年第2期《调研世界》封面、目录和文章选登

调研世界

THE WORLD OF SURVEY AND RESEARCH

目 录

热点聚焦

新常态经济的CPI预测模型

——构建与实证比较 陈梦根 任桃萍 3

基于网络舆情的非首都功能疏解效果测度 郭 茜 9

调研报告

人力资本、社会资本对农村劳动力就业的影响

——基于CFPS2018数据的实证分析 邢敏慧 张 航 18

陕南地区移民搬迁与家庭脆弱性解析 杨烁晨 余 劲 24

迁移行为对农民工健康状况的影响 尚 越 石智雷 30

统计分析

中国省域文化消费的时空演变及影响因素 王琪延 曹 倩 37

国家高新技术产业开发区高质量发展评价分析 黄 煌 44

专题研究

生活方式对我国轻度认知障碍老年人的影响

刘 艳 肖溢文 赖晓萱 刘天俐 50

人口老龄化对城市居民食物消费的影响

——基于北京市微观调查的实证研究李辉尚 胡晨沛 邓婷鹤 曲春红 58

新常态经济的CPI预测模型[footnoteRef:1] [1: 基金项目:国家社会科学基金重大项目“数字经济对我国经济社会发展的影响效应测度与统计评价”(项目编号:19ZDA118);国家社会科学基金重点项目“购买力平价(PPP)汇总方法研究”(项目编号:19ATJ002)。]

——构建与实证比较

陈梦根 任桃萍

内容摘要:本文基于新常态经济发展背景研究了居民消费价格指数(CPI)的预测模型,采用传统的方法和机器学习方法进行预测和对比分析,包括普通最小二乘回归、LASSO回归、岭回归、时间序列预测方法、神经网络、随机森林和支持向量回归。结果表明,神经网络的预测结果明显优于传统的回归方法和时间序列预测方法,而且也同样优于支持向量回归方法和随机森林方法。此外,在引入集成学习方法进行综合后,各模型的预测精度进一步提升。

关键词:新常态;居民消费价格指数;神经网络;集成学习

中图分类号:F222 文献标识码:A 文章编号:1004-7794(2020)02-0003-06

DOI: 10.13778/j.cnki.11-3705/c.2020.02.001

一、引言和文献综述

改革开放以来的较长一段时期,我国经济主要以经济规模增长为主要目标,没有考虑经济发展的质量问题。2008年国际金融危机之后,受国际大形势影响,我国的经济也受到冲击。我国经济发展面临着诸多新的机遇和挑战,进入了“新常态”。2014年11月9日,习近平总书记在亚太经济合作与发展组织(APEC)工商领导人峰会上指出,我国经济新常态具有以下几个特点:一是从高速增长转为中高速增长;二是经济结构不断优化升级,第三产业消费需求逐步成为主体,城乡区域差距逐步缩小,居民收入占比上升,发展成果惠及更广大民众;三是从要素驱动、投资驱动转向创新驱动[footnoteRef:2]。 [2: 人民网,《习近平提出中国经济新常态的3个特点及带来的4个机遇》,http://politics.people.com.cn/n/2014/1109/c1024-25998809.html。]

现阶段,新常态经济的发展尚面临着诸多挑战,如何有效地完成经济发展转型,是当前需考虑的重点。更好地开展宏观经济管理和调控,首先需要对经济发展有一个准确的预测,才能在此基础上认清经济发展的形势,更合理地实施资源配置,制定经济发展规划和各种宏观政策。基于此背景,本文尝试研究新常态经济的居民消费价格指数(CPI)预测模型选择问题,新常态背景下经济的预测与其他时期经济预测存在一定差异。

在新常态背景下,影响经济增长的因素已经发生改变,数量型人口红利不复存在,经济增长更多地受到技术、科技和创新因素的驱动,传统的经济预测方法可能并不适用,需要寻找其他适用的方法来对经济指标准确预测。因此,本文在新常态背景下通过多种方法对CPI进行预测,如传统的经济预测方法和机器学习方法等,并将不同的方法预测结果进行比较,以找出新常态背景下最适合用于CPI预测的模型,从而更好地预测和分析经济形势,既可为新常态经济的发展提出建议,同时也可为宏观经济调控提供一定的理论参考,具有重要的实际意义。

从文献上看,经济预测的方法很多,传统的经济预测方法有生产函数法、回归方法、时间序列方法、多元统计方法等。除了传统的经济预测方法,主要是基于大数据背景的机器学习方法。Lapedes et al(1987)将人工神经网络首次用于经济预测,确定了人工神经网络在经济预测中具有较高的准确性和有效性,此后,人工神经网络等大数据方法就成为经济预测领域的研究热点[1]。如今,在大数据背景下,传统的预测方法也越来越明显地表现出其局限性,因此,众多学者尝试探索新的方法应用于新常态经济预测。Li et al(2010)、Mullainathan et al(2017)、陈健等(2006)、黄有为等(2019)使用神经网络、决策树等方法来预测经济,验证了机器学习方法相比于传统经济预测的优势所在[2-5]。黄善芬(2017)在其研究中也指出,大数据分析对于银行经济预测的重要性[6]。归纳来看,许多学者证实,机器学习方法预测结果优于传统的经济预测,例如,Chuku et al(2017)使用传统方法和机器学习方法对非洲经济进行预测,结果表明神经网络方法优于传统的时间序列方法[7]。此外,还有Gu et al(2018)、童凯汀等(2018)、李旭军(2008)等也证明了机器学习方法在拟合时间序列数据方面优势很大,可以分析出变量之间的时间变化联系,预测效果较好[8-10]。

总结之前学者的研究,很少文献基于新常态背景下对经济发展进行预测,我国若要合理地配置资源,推动经济健康发展,在宏观调控中实现精准施策,首要条件便是对经济合理预测。本文综合以往文献的研究,通过传统经济预测方法和机器学习方法的对比,基于新常态背景对CPI进行合理的预测和分析,比较不同预测方法的优劣及适用性。

二、CPI预测指标的选取

(一)指标的选取原则

在新常态背景下,经济发展的方式发生了较大的转变,经济发展具有更加鲜明的特征,经济增速放缓,经济结构面临升级,消费驱动成为主体,拉动经济增长的方式也已经由要素、投资驱动更多地转向创新和科技驱动。所以,基于新常态背景,本文在进行经济预测时需要更多地选取能够反映新常态背景特征的指标。

一般地,指标选取需要遵循一定原则。经济发展本身具有高度非线性和不确定性等因素,不同的指标类型之间差距也很大,首先应该选取适当的、和因变量关系密切的指标,指标的选取应考虑各种可能性;其次,预测模型中所选取的指标数量要合适,不宜过多也不宜过少,应便于模型的训练,为了达到模型的预测效果,也要考虑指标的时间长度;最后,由于经济发展的复杂性,所选取的指标不能一成不变,应根据模型的实际效果进行适当的调整。

因此,考虑到当前新常态经济发展的实际情况,本文所选取的指标类型包括消费指标类、财政指标类、信息科技类、资产投资类、内外贸易类。具体选取的指标为:居民消费价格指数、工业生产者出厂价格指数、国家财政收入、国家财政支出、邮政业务总量、电信业务总量、移动电话用户数、固定资产投资额、进口总值、出口总值。

(二)数据的获取和预处理

考虑到数据的可得性,样本选择的是2002年1月至2018年9月间的全国经济数据,全部数据来源于国家统计局数据库。本文选取的是月度指标数据,原因在于采用机器学习方法构造的神经网络模型和支持向量回归在训练模型时需要用到大量的数据,年度指标无法满足训练模型所需的数据量,而以天为单位的指标数据目前又无法获取,所以本文最终选择以月为单位的指标数据。

为了方便不同的预测方法对比,本文将数据集分为两个部分,一部分作为训练数据集,另一部分作为测试数据集。其中2002年1月至2017年12月的数据用作训练集,2018年1月至2018年9月的数据用作测试集,比较和分析不同预测方法的结果。同时,在训练模型的过程中,为了提高模型的拟合精度,本文将训练集又随机分为两部分,一部分数据作为训练集,一部分数据作为验证集,训练集和验证集的划分比例是前者占70%、后者占30%,但是具体在划分数据时是随机的。为了降低随机带来的误差,在实验时每种方法均进行10次,以这10次结果的平均值作为最后的结果。

本文统一对所选取的指标计算同比增长率,统一指标量纲,即当前指标值同去年同期相比的增长幅度。其中,xt为该指标的同比增长率,表示该指标当期值,表示该指标去年同期值,利用该式即可计算该指标当前相比上年同期的增长率。

三、CPI的预测与分析

(一)模型的训练

为更好地预测CPI,本文采取了7种方法进行预测,包括两大类方法:传统的预测方法有最小二乘回归法、LASSO回归法、岭回归法、时间序列预测法,机器学习方法有神经网络法、支持向量回归法和随机森林方法。分别用这7种方法预测居民消费价格指数,并对不同的预测结果进行比较,找出预测最准确的模型,并对预测结果进行分析。

研究中将所获取的数据分为训练集和测试集,因为经济指标的变动具有先行性和滞后性等特点,某一个经济指标的变动往往受到其余指标历史取值和波动的影响。所以在进行预测时,假定因变量yt是受到自变量过去6个月的取值影响,即因变量所对应的自变量为 。

在进行模型训练时,本文采用平均绝对误差(MAE)和均方误差(MSE)来衡量每个模型不同参数取值情况下的预测精度,即,。其中,表示t时刻因变量的预测值,yt表示t时刻因变量的真实值。

1.神经网络方法。

在进行神经网络预测时,本文选取的是典型的BP神经网络,神经网络的网络结构包括神经元的个数、隐含层的层数以及神经元之间的连接方式等。一般情况下,根据机器学习中的奥卡姆剃刀原则,若能用简单的神经网络结构满足要求,则应该尽量采用简练的网络结构,因此本文采用单隐含层神经网络结构。设隐含层神经元数目为n个,神经网络结构可表示为图1。

图1 神经网络结构

BP神经网络在训练时采用小批量随机梯度下降法进行,因而影响其预测结果的参数有学习率、Batch值的大小、迭代次数、隐含层神经元个数等。神经网络需要有一个合适的学习率,学习率决定了模型在每一个迭代过程中对权重进行更新的变化幅度,若模型学习率太大可能会使模型学习不稳定;但若学习率太小,则会增加模型迭代次数,影响模型训练效率。经过多次实验后,本文取学习率为0.001。Batch值决定了网络在每次训练时一次运算样本的个数,从模型运行效率及收敛效率上来看,小批量的数据集是最优的。神经网络一般是寻找loss函数的最优点,但当样本量过多时,对梯度的估计要更加稳定和准确,这反而容易使神经网络收敛到很差的局部最优点。因此Batch值的设定既不能太大也不能太小,考虑到数据量的问题,本文Batch值取4。另外,在训练神经网络时,隐含层神经元的个数不同,对模型预测的精度和性能也会有较大影响:当隐含层的神经元个数选取的太少时,模型无法提取出更多有表征力的特征,导致网络出现欠拟合现象,使得网络难以准确描述输入与输出的关系,最终使得预测性能下降。相反,当隐含层的神经元数目选取的太多时,一方面会增加迭代次数,使得模型拟合时间过长,训练效率过低,另一方面模型也很容易陷入过拟合的状态。

2.支持向量回归。

影响支持向量回归的参数主要有C值、gamma值、Kernel核函数,这3个主要参数对模型训练结果均有很大影响,本文都进行了参数的调整和选取。

C值为正则化常数,表示错误项的惩罚参数。核函数即映射关系的内积。在进行支持向量回归时,由于样本维度较高,会通过对样本的映射来降维,样本从原始空间映射到另一个空间,使得样本在这个特征空间内线性可分。为了方便计算映射后特征空间内变量之间的内积,通常会采用核函数方法进行对应,使得变量在特征空间的内积等于它们在原始空间中通过核函数直接计算的内积结果,这样就大大简化了模型的计算过程,从而提高了效率,因此,核函数的选取直接关系到原始样本空间的映射。

3.随机森林方法。

随机森林模型集合了多个决策树模型,利用样本训练集数据训练每一个决策树回归模型对样本进行预测时,是对所有决策树回归预测的结果求平均。因为每一个决策树模型在训练时,在决策树结点划分属性时,是从全部变量中随机选取部分变量,然后再遍历这些变量,选取不同的变量划分结点,最终确定划分损失最小的属性和划分区间,所以回归决策树在训练时也带有一定的随机性。随机森林在构建模型时,决策树个数的不同也会导致模型预测的精度不同。

4.时间序列方法。

本文拟构造ARMA(p,q)模型进行拟合,对居民消费价格指数进行预测,本文在训练模型的过程中,选择不同的p,q值,其中p表示模型的自回归阶数,q表示模型的滑动平均阶数。训练结果为当p=8,q=5时,模型在验证集上的MSE最小,最终确定模型为ARMA(8,5)。

5.回归方法。

回归方法有很多,为了方便对不同方法预测结果进行比较,本文选取了3种经典的回归方法:普通最小二乘、LASSO方法和岭回归方法。岭回归方法通过对回归系数的大小施加惩罚来解决自变量的多重共线性问题,LASSO线性模型可以用于估计稀疏系数,有效地减少训练模型对给定解决方案所依赖变量的数量。

(二)不同模型预测结果比较

本文选取2018年1月至2018年9月的CPI数据,使用不同的模型来预测,并同实际值进行比较。为了准确衡量时间序列、普通最小二乘回归、LASSO回归、岭回归、支持向量回归、神经网络和随机森林7种方法的预测精度,使用MAE和MSE指标来衡量。从表1可看出,无论是MAE还是MSE,BP神经网络的预测精度都是最好的,同时支持向量回归(SVR)和随机森林的预测精度也明显优于普通最小二乘回归。这说明机器学习方法能够较好地拟合数据,学习数据的规律,并能较好地预测指标。

表1 不同方法预测精度比较

方法

MAE

MSE

时间序列

0.7614

0.7629

最小二乘回归

2.2275

6.3444

LASSO回归

0.9897

1.4298

岭回归

2.2072

6.2099

支持向量回归

0.4611

0.2745

神经网络

0.4200

0.1764

随机森林

0.5429

0.3746

从图2可以看出,神经网络的预测结果最接近真实值,并且始终围绕真实值波动,可以有效跟随真实值的变动趋势。对比其他6种方法,神经网络的预测优势突出,最小二乘回归的预测效果最差。从预测结果来看,神经网络较适合于预测经济相关的指标,能够很好地拟合经济变量之间的非线性关系。比如,从2018年4月开始居民消费价格指数有一个小幅上涨,而神经网络模型能很好地预测这一波上涨,这样便能给政策制定者及时提供参考和建议,促进价格调控政策的制定和发布。

图2 不同方法对CPI预测对比

(三)基于集成学习的预测结果分析

集成学习即通过合并多个模型来提高机器学习的性能,当一个模型的预测效果不好或者拟提高模型预测精度时,通常会采用集成学习方法。一般来说,集成学习可以分为三大类:Bagging、Boosting和Stacking。本文所使用的是Stacking方法。Stacking即学习法,主要用于提升预测结果,Stacking算法首先是利用整个训练集训练出多个基础模型,然后利用一个元分类器或者元回归器来整合多个分类模型或回归模型,即基础模型利用整个训练集做训练,元模型或者元回归器将基础模型的特征(预测结果)作为特征进行训练。

通过对不同方法的预测结果对比分析,可以发现,各种方法的预测精度存在明显差异,虽然神经网络的预测结果总体是最好的,但是在某些月份如在2018年2月随机森林的预测结果优于神经网络,在2018年9月神经网络预测效果也不是最优的。所以如果单纯只使用一种方法进行预测,不能保证在所有时间段的预测效果都是最优的。为解决这一问题,本文采用了集成学习方法,对所有方法进行综合,综合各个方法的优劣势和预测精度,基于这些方法的预测结果,重新训练模型进行预测。

考虑到不同模型的预测效果差异,为保证集成学习的效果提升,本文选取最小二乘回归、神经网络、支持向量回归和随机森林的模型拟合结果替换原数据,作为集成学习模型的输入,对模型进行训练。集成学习本质是对多个模型进行聚合,但在聚合时采用不同的方法也会影响集成学习模型最终预测的效果。为了多维度对比本文中采用的不同方法,在对不同模型进行集成时,本文也同样使用神经网络、支持向量回归、最小二乘回归和随机森林4种方法进行聚合,并比较不同聚合模型的预测效果好坏。

对比不同的集成方法,分别预测居民消费价格指数CPI,并比较不同集成模型预测的MSE大小,如表2所示,使用神经网络方法对不同模型的预测结果进行集成,预测效果最好。

表2 不同集成方法的预测精度比较

集成学习方法

MAE

MSE

最小二乘回归

0.5702

0.4483

支持向量回归

0.5118

0.3346

神经网络

0.3309

0.1160

随机森林

0.8556

0.8783

从图3可以看出,通过集成学习,使用神经网络方法再次对初始模型预测结果进行综合之后,模型预测结果大幅提升。使用集成学习方法再次预测CPI,不仅提高了预测精度,而且对CPI变动趋势的预测也很准确。从图中可以看出,利用神经网络对基学习模型的预测结果集成之后,神经网络方法对于居民消费价格指数的转折变化预测也比较敏感,准确预测和捕捉到了2018年3月居民消费价格指数的回落,同时也提前预测出了从2018年5月起居民消费价格指数的上涨,这能为政策调整提供有力的参考。

图3 不同集成模型预测结果比较

本文中集成学习方法在对初始模型的预测结果进行集成时,为了方便前后对比,使用的集成模型也同样是初始模型,包括神经网络、支持向量回归、随机森林和最小二乘回归。本文对同种模型前后预测精度进行了对比,将使用原始数据进行预测的精度同使用初始模型预测结果再次进行预测的精度对比,使用最小二乘回归和神经网络方法进行集成,模型的预测精度提升较多。经过对比发现,在对原模型预测结果进行综合时,所选取的二次拟合模型也很关键,不同模型方法对预测结果也有很大影响。

表3 集成学习方法对比

方法

集成前_MAE

集成前_MSE

集成后_MAE

集成后_MSE

最小二乘回归

2.2275

6.3444

0.5702

0.4483

支持向量回归

0.4611

0.2745

0.5118

0.3346

神经网络

0.4200

0.1764

0.3309

0.1160

随机森林

0.5429

0.3746

0.8556

0.8783

四、总结

本文探讨了新常态背景下采用传统经济预测方法和机器学习方法开展CPI预测的效果问题。分析表明,神经网络的预测结果明显优于传统的回归方法和时间序列预测方法,而且也同样优于支持向量回归方法和随机森林方法;其次,在将所有模型预测结果使用集成学习方法进行综合后,模型的预测精度进一步提升,而且使用神经网络方法对各个模型预测结果进行集成,模型预测效果同样也是最优的。

相比而言,机器学习方法的预测精度要普遍高于传统的预测方法,特别是神经网络方法和集成学习方法。机器学习方法在经济变量进行预测时相当于是一个“黑箱操作”,通过对经济变量取值的纯数字关系来寻找经济变量之间的联系,机器学习拟合的一般是变量之间的非线性关系,所以无法得知不同变量在模型中的权重大小。

比较支持向量回归和普通最小二乘回归,两者虽然都是回归,但是支持向量回归的预测精度明显优于普通回归。对比3种经典的回归方法,LASSO回归和岭回归方法的预测精度也明显优于普通最小二乘回归,特别是LASSO回归方法。对不同的机器学习方法进行对比,神经网络的预测效果最稳定,精度最高。总体来说,神经网络方法可以在样本信息不完整不准确的情况下,利用自身模型的优势,学习样本变量之间的不确定复杂关系,实现对经济变量的高度拟合,泛化性好,可以在对已知样本学习的基础上,准确地预测经济变量新的取值,适应经济变量的变化。

根据实证分析结果可知,在经济预测中不同方法其实都有一定的优劣势,由于经济系统变化的复杂性,在对CPI进行预测时,使用单一方法进行预测可能产生较大误差。采用集成学习方法进行预测,基于原模型的拟合值代替原数据作为输入,重新构造模型对经济变量进行预测,一定程度上可以弥补使用单一模型预测出现的偏差,大幅提升模型的预测效果。

参考文献

Lapedes A, Farber R. Nonlinear Signal Processing Using Neural Networks: Prediction and System Modeling [J]. Technical Report LA-UR-87-2662, Los Alamos National Laboratory, Los Alamos, NM (1987).

Li Y L Y, Ma W M W. Applications of Artificial Neural Networks in Financial Economics: A Survey[C].// International Symposium on Computational Intelligence & Design. IEEE, 2011.

Mullainathan S, Spiess J. Machine Learning: An Applied Econometric Approach [J]. Journal of Economic Perspectives, 2017, 31(2): 87-106.

陈健, 游玮, 田金信. 应用神经网络进行经济预测方法的改进[J]. 哈尔滨工业大学学报, 2006(6): 67-68,86.

黄有为, 高燕. 基于循环神经网络的金融数据预测系统[J]. 软件导刊, 2019(1): 34-39,232.

黄善芬. 大数据背景下的银行经济预测和金融统计[J]. 环渤海经济瞭望, 2017(12): 53-54.

Chuku Chuku, Jacob Oduor, Anthony Simpasa. Intelligent Forecasting of Economic Growth for African Economies: Artificial Neural Networks Versus Time Series and Structural Econometric Models [J]. 2017.

Gu S, Kelly B T, Xiu D, Empirical Asset Pricing via Machine Learning [J]. SSRN Elrctromic Journal, 2018.

童凯汀, 任新平. “大数据+人工智能”技术对经济分析预测的影响[J]. 知识经济, 2018(16): 47-48.

李旭军. BP神经网络在经济预测中的应用[D]. 武汉:华中师范大学, 2008.

作者简介:

陈梦根,男,1975年生,江西宜春人,现为北京师范大学统计学院教授、博士生导师,研究方向为经济统计、国际比较和资本市场。

任桃萍,女,1995年生,湖北荆州人,2019年毕业于北京师范大学统计学院,获应用统计专业硕士学位,现就职于京东科技公司,研究方向为经济统计。

(责任编辑: 刘雅欣)

基于网络舆情的非首都功能疏解效果测度[footnoteRef:3] [3: 基金项目:全国统计科学研究重点项目“京津冀物流一体化对非首都功能疏解效果评价研究”(项目编号:2018LZ36)。]

郭 茜

内容摘要:本文以统计评价思想为指导构建评价体系,围绕北京非首都功能疏解热点话题采集网络舆情,利用自然语言处理技术分析网络舆情情感倾向,通过各热点话题情感得分判断非首都功能疏解效果。研究发现,非首都功能疏解网络舆情以正面舆情为主,公众对疏解政策认可度较高,疏解效果较好;不同营利性质主体的疏解效果存在一定的差异,非营利主体的疏解效果好于营利主体;舆情疏解手段的效果优于疏解目标的效果,政府部门可以制定针对性的措施均衡不同主体间的疏解效果,提高疏解目标的实现程度;加强网络宣传、制定产业升级政策以及协调政府和市场的关系是促进非首都功能疏解的重要举措。

关键词:非首都功能疏解;政策效果;网络舆情;统计评价

中图分类号: 文献标识码:A 文章编号:1004-7794(2020)02-0009-09

DOI: 10.13778/j.cnki.11-3705/c.2020.02.002

一、引言和文献综述

2014年习近平总书记在北京考察工作时提出,坚持和强化首都全国“政治中心、文化中心、国际交往中心、科技创新中心”的核心功能,疏解非首都功能。截至2018年底,北京疏解一般制造业企业累计达到2648家,累计疏解提升台账内市场581家、物流中心106个[footnoteRef:4]。从客观指标看,北京市取得了明显的疏解效果,但过分强调量化方法,往往忽视了社会中存在的多元价值观,可能会陷入评估效用的危机[1]。政策实施的最终落脚点在于施惠于民,政策实施的结果达到人民群众满意是检验政策有效性的重要标杆,因此将公众意见反映到政策评估结论中显然是更全面、更合理的做法。本文以大数据自然语言处理技术为基础,采集体现公众意见的互联网舆情资料,为评价政策实施效果研究提供一种新视角和新方法。 [4: 北京市人民政府网站,http://www.beijing.gov.cn/ywdt/zwzt/sjfsdgn/zxjz/t1578458.htm。]

国内学者围绕非首都功能疏解效果测度开展了一些研究,大多利用客观层面的数据对疏解效果开展事后评价。赵弘等(2015)从关闭高消耗企业数、转移区域性物流基地数等规模性指标评价非首都功能疏解效果[2]。张可云等(2017)利用行业就业人口和城市人口评价天津及河北各地级市的功能承接能力评估疏解效果[3]。翟炜等(2016)利用工业出让地规模空间变化评估疏解效果[4]。

综上所述,利用政府统计数据开展评价研究已经成为学者们普遍的做法,但是一方面政府统计依靠统计报表和统计调查等方式获取数据,不能及时提供反映非首都功能疏解效果的统计数据;另一方面调查指标的口径与非首都功能疏解效果不一致。为解决政府统计数据无法满足测度非首都功能疏解效果的问题,本文以非首都功能疏解目标为出发点,以疏解政策为研究对象,收集各主体在互联网上发表的自己关心或与自身利益紧密相关的多种情绪、态度和意见的网络舆情,评价非首都功能疏解政策的有效性,弥补仅通过客观数据评价非首都功能疏解政策有效性的不足。

二、网络舆情的研究思路与方法

(一)研究思路

在阐明利用网络舆情评价政策效果理论可行性的基础上,根据非首都功能疏解相关政策和文件明确疏解手段和疏解目标,在系统理论指导下构建疏解效果评价体系。梳理与评价变量相关的非首都功能疏解热点话题,采集相关的网络舆情,然后利用自然语言处理技术,建立情感词库、抽取特征判断热点话题的情感倾向,并计算情感得分,依据热点话题得分高低判断非首都功能疏解效果,提出促进非首都功能疏解的建议。

(二)网络舆情情感倾向量化分析方法

1.舆情情感倾向特征提取——2文本特征抽取法。

由于本文涉及到的情感词较多,较多的情感词不仅会使词频矩阵维度过高增加计算的复杂性,而且会使某些不相关情感词的权重过大,影响后续的情感得分。为消除部分低频情感词对最终结果的影响,需要降低词频矩阵的维度,保留有效情感词。2文本特征抽取是通过降维的方法从原始文本特质中抽取最优文本的一种方法,该方法的基本思路通常是构造一个评价函数,对特征集的每个特征进行分别评估,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。2越小,则说明情感词汇和文本之间的独立性越大。当2足够小时,情感词就可以被舍弃。

假设特定词汇t和特定文本类c存在符合一阶自由度的2分布的规律,特定词汇t对于特定文本类c的2统计值越高,两者之间的相关性越大,独立性越小,含有的信息便越多。如果2统计值为0,则特定词汇t不含有特定文本类c的信息。2的计算方法见式(1)。

(1)

其中,c为特定文本类,t表示特定词汇,A表示属于特定文本类同时含特定词汇的文档频数,B表示不属于特定文本类但含特定词汇的文档频数,C表示属于特定文本类但不包含特定词汇的文档频数,D表示不属于特定文本类也不包含特定词汇的文档频数。

2.舆情情感词权重计算——TFIDF算法。

在计算情感倾向得分时,由于在每篇文档中表现出不同的情感特性,使得情感特征词在文档中的权重不尽相同,所以在进行情感倾向分析时不能仅仅依靠单纯正负情感在文档中出现的词频数来简单判断文档的情感倾向。为了使分析更合理,需要根据每个词的重要性赋予不同权重,TFIDF算法是目前被广泛使用的权值计算方法。Salton et al(1937)提出TFIDF(Term Frequency & Inverse Documentation Frequency)算法后,又多次论证TFIDF公式在信息检索中的有效性,在1988年详细阐述了多种词权重计算方法在文献检索时适用情况[5-7]。

依据TFIDF算法对情感词赋予权重,使得情感词在特定文档中出现的频率越高,则区分该文档内容属性方面的能力越强(TF);情感词在文档中出现的范围越广,说明它区分文档内容的属性越低(IDF)。TF表示特定词汇t在某一文档中出现的频率,IDF则表示特定词汇t在特定文本类c的分布情况。如果特定文档类c中包含特定词汇t的数量越少,则代表特定词汇t拥有极好的区分能力。另一方面,如果特定词汇t在特定文本类出现的频数越大,特定词汇t的权重越大。TFIDF算法计算方法见式(2)。

(2)

其中,表示第i篇文档中第k维度的向量值,tfik表示第i篇文档中第k个特征项的TF值,maxi{tfik}表示第i篇文档中所有特征项的最大值,N表示特定文本类c的文档数,nk变示特定文本类c中出现该特征项的文档数。

3.舆情情感倾向得分计算——核密度估计。

核密度估计方法是利用有关数据分布的先验知识,对数据分布不附加任何假定,完全从数据样本出发研究数据分布特征的方法[8]。本文采用核密度估计的主要目的是将每篇网络舆情的正负情感倾向计算得分视为随机变量xi,根据样本观测值拟合核密度函数,其表达式见式(3)。

(3)

其中,K(·)称为核函数;h为预先给定的正数,通常称为窗宽或光滑参数。K(·)核函数通常选取以0为中心的对称单峰概率密度函数,本文选取高斯核函数(见式(4)),利用r语言默认最优带宽进行核密度估计,拟合出特定话题下的概率密度函数,并求得核密度函数期望。该期望值代表特定话题情感倾向均值,反映非首都功能疏解在某特定话题下的政策执行效果。

(4)

三、基于网络舆情评价政策效果的理论基础

1.政策评价。

非首都功能疏解效果测度研究是通过量化疏解效果,进而达到评价疏解政策有效性的目标,属于公共政策评价的范畴。公共政策评价目标包括结果评价、过程评价和事前评价三个层面;评价方法以数量评价为基础,结合质量评价,实现两者的结合;评价依据分为客观(政府统计资料)和主观(态度、意见等)两类数据。公共政策是一个复杂的系统,评价公共政策的层面和手段不能单一化。我国学者通常采用政府统计数据,利用定量和定性相结合的方法对公共政策结果评价。韩永辉等(2014)以全国33个大中城市的月度数据评价“限购令”政策[8],周黎安等(2005)运用我国相关社会经济数据评价农村税费改革的政策效果[9]。这些研究的共性是利用政府统计数据对政策结果评价,政府统计数据虽然有较高信度,但是现有统计工作偏重事后(结果)统计,忽视事前和事中(过程)统计,这势必影响对公共政策过程和事前评价。

2.民意评价。

民意评价是贯穿公共政策制订、执行和结果的全部过程,利用民意评价可以弥补我国公共政策评价的不足。20世纪90年代前民意调查在我国政策评价应用中存在局限性环境[10],90年代中期之后民意评价逐渐涉及到我国公共政策的评价[11],民意评价重要性日益被承认,成为政府决策的重要参照依据[12]。

3.网络舆情。

人们普遍研究认为主体、客体、本体、媒介是构成舆情的四大要素[13]。舆情主体是发布具体倾向的言论主体,舆情客体是引发网络舆情的刺激物、网络舆情的指向物,舆情本体是态度观点的集中体现,媒介是舆论传播的渠道。国内首位提到网络舆情学者刘毅(2007)认为网络舆情是通过互联网表达和传播的各种不同情绪、态度和意见交错的总和[14]。马振飞(2014)也认为网络舆情是网民对公共事务持有的情绪、态度和意见交错的总和[15]。

4.互联网时代下的民意、网络舆情与政策评价。

互联网时代为广泛调查民意提供了可行技术手段,为反映民意开辟了新通道[16]。民众将网络作为获得社会关注的快捷渠道,民意在互联网上快速传播形成网络舆情,网络舆情已经成为民意的象征以及评价政策的参考依据,三者之间的关系见图1。第四届中国网络媒体论坛的官员和专家指出:网络媒体在中国已发展成为引导和洞察社会舆论的重要窗口,网络舆论对政府决策发挥着越来越大的影响。网络传播学者王吉鹏认为“网络舆论,特别在一些重大事件、与民休戚相关的决策上,形成了政府与群众互动的良好势头,借助网络舆情可以及时评价政策效果”。

图1 民意、网络舆情与政策评价的关系

四、非首都功能疏解效果的实证分析

(一)构建非首都功能疏解效果评价体系

根据北京非首都功能疏解政策和文件,本文从输入和输出两个层面选择状态变量评价非首都功能疏解效果(见表1)。输出变量主要反映非首都功能疏解目标,从产业、交通和环境等方面设计产业升级程度、交通便捷程度和环境改善程度3个内生变量。输入变量主要反映非首都功能疏解手段,根据4个重点疏解对象设计一般性制造业疏解力、社会公共服务功能搬迁力、行政事业服务机构疏解力、区域性专业市场转移力等4个外生变量。

表1 非首都功能疏解系统的状态变量

一级指标

二级指标

状态变量

非首都功能疏解

效果

疏解手段

(输入变量)

一般性制造业疏解x1

社会公共服务功能搬迁x2

行政事业服务机构疏解x3

区域性专业市场转移x4

疏解目标

(输出变量)

产业升级y1

交通便捷y2

环境改善y3

(二)网络舆情采集与处理

1.网络舆情采集。

习近平总书记在2015年2月10日的中央财经领导小组第九次会议上提到疏解北京非首都功能。本文选取从2015年2月10日到2019年2月10日4年的网络数据,以“非首都功能疏解”为关键词,通过网络爬虫技术从北京市各城区政府网站、首都之窗、人民网、凤凰网等主要新闻媒体以及微博自媒体获得9406篇文章,各网站文章数据分布见表2。

表2 网站来源分布

来源

舆情数(篇)

北京市各区人民政府

3037

百度搜索

1513

百度新闻

711

百度知道

369

微博

1641

微信公众号

100

首都之窗北京市政务门户网站

234

凤凰搜索

40

河北新闻网

177

人民网

458

知乎

96

中国法院网

76

中国新闻网

954

合计

9406

2.按热点话题对网络舆情分组。

网络舆情是态度、意见的集合,形成的众多热点话题是网络舆情的具体研究对象,状态变量必须与具体的热点话题相对应才能计算变量值。状态变量与热点话题的对应关系如表3所示。

表3 网络舆情分组结果

状态变量

热点话题

筛选规则

舆情

数量

x1

一般性制造业疏解

包含产业、工业、制造业中任意一个关键字。

2537

x2

社会公共服务功能搬迁

所有包含公共服务、教育、大学、医疗中任意一个关键字。

2200

x3

行政事业服务机构有序疏解

所有包含行政副中心、四套班子、行政事业中任意一个关键字。

1152

x4

区域性专业市场转移

所有包含市场、物流基地、批发市场、零售、区域性市场中任意一个关键字。

1607

y1

产业升级转移

所有包含高端产业、产业升级、绿色低碳中任意一个关键字。

1469

y2

交通便捷

所有包含交通、一体化、拥堵、压力中任意一个关键字。

1303

y3

环境改善

所有包含生态、环境、耗能、耗水、绿色中任意一个关键字。

1906

由于每篇网络舆情侧重点不同,其包含的热点话题数量存在差异。为便于开展后续评价研究,需要对9406篇网络舆情按照7个热点话题分组。根据热点话题关键词的使用习惯,设定了筛选规则,分组结果见表3。

(三)非首都功能疏解效果测算

通过情感倾向分析方法计算每个热点话题的情感得分期望代表每个状态变量值,进而测度非首都功能疏解政策的效果。情感倾向分析是指通过分析评论、新闻等文本数据的内容,判断评论者对于某一事物的意见或态度的一种方法。人们对于非首都功能疏解某一个话题的情感倾向可以分为正面、负面和中立3种。如果某话题以正面情感倾向为主,情感得分的期望值越高,表示该话题反映的疏解效果越好,对应的控制变量取值越大;如果某话题以负面情感倾向为主,情感得分的期望值越高,表示该话题反映的疏解效果越差,对应的控制变量取值越小。

1.非首都功能疏解效果测算步骤。

第一步:建立正负情感倾向原始词典。本文综合《Hownet情感词典》和大连理工大学情感词汇本体库两个开源情感词典[10-11],形成原始情感词典,其中正向情感词11229个,负向情感词10783个。

第二步:计算正负情感倾向初始词频矩阵。例如,第m个话题下所有文章切词数据与原始词典进行匹配,得到第m个话题正负情感倾向初始词频矩阵分别记为TPEm(i×p),TNFm(i×n),i表示第m个话题下包括的文章数量,p和n分别表示第m个话题下包括的正负情感词数量。

第三步:抽取最优特征,计算每个话题正负情感最终词频矩阵。例如,第m个话题下第i篇文本,利用式(1)计算所有n个特征词的2值,并按照升序排序,选择95%分位点对应的2值作为阈值,保留大于该阈值的情感词[17-18],并舍弃词频低于3的情感词[19],得到第m个话题正负情感最终词频矩阵分别记为TPm(i×r),TNm(i×q),其中,i表示第m个话题下包括的文章数量,r和q分别表示第m个话题下筛选后的正负情感词数量。

正向情感最终词频矩阵可表示为:

其中,tpir代表第i篇文章中第r个正向情感词出现的频数。

负向情感最终词频矩阵可表示为:

其中,tniq代表第i篇文章中第q个负向情感词出现的频数。

第四步:计算每个话题正负情感倾向词权重矩阵。基于正负情感最终词频矩阵,依据式(2)计算每一个情感特征词在每篇文档中出现的权重。例如,第m个话题下,正负情感词权重矩阵分别记为WPm(i×r),WNm(i×q)。

正向情感词权重矩阵可表示为:

其中,wpir代表第i篇文章中第r个正向情感词对应的权重。

负向情感词权重矩阵可表示为:

其中,wniq代表第i篇文章中第q个负向情感词对应的权重。

第五步:根据情感词权重矩阵,计算每个话题的情感得分。例如,对于第m个话题,每篇文档正向情感得分为正向情感最终词频矩阵与权重矩阵相乘得到矩阵的主对角线元素,记为;每篇文档负向情感得分为负向情感最终词频矩阵与权重矩阵相乘得到矩阵的主对角线元素,记为。第m个话题各文档的情感得分表示为向量 -。

第六步:计算每个话题下情感倾向得分的期望值,估计状态变量的数值。检验每个话题下所有文档情感得分的分布,如果符合已知经验分布,则根据已知分布计算出情感得分期望值,如果不符合,根据式(3)和(4)利用核密度估计拟合分布,估计每个话题的情感得分期望。

2.非首都功能疏解效果测度结果。

根据上述步骤得到非首都功能疏解网络舆情中7个热点话题的情感得分i维列向量,分别记为U1,U2,U3,U4,U5,U6,U7。每个话题对应的状态变量可视为总体参数,列向量可以视为该总体的样本。为了得到状态变量的值,可以用样本期望作为总体期望E(X)的估计值。在计算样本期望之前,需要利用直方图、K-S分布检验判断情感倾向得分服从哪种分布函数,并依据相应的分布函数估计总体期望值E(X)。

首先,利用描述统计方法依次画出每个热点话题得分的直方图和正态曲线(图2~8)。由直方图可以看出每个话题情感倾向得分的分布与二项分布、泊松分布、指数分布等常见分布明显不同。每个话题的直方图又与正态曲线差异极大,因此话题情感得分不符合正态分布。

图2 一般性制造业疏解

图3 社会公共服务功能搬迁

图4 行政事业服务机构疏解

图5 区域性专业市场转移

图6 环境改善

图7 产业升级

图8 交通便捷

然后,利用K-S检验可以进一步判断7个列向量是否服从正态、均匀、指数等几种常见分布。K-S检验结果(见表4)显示7个热点话题情感得分检验结果均为在5%的显著性水平下拒绝原假设,即情感得分不服从正态、均匀、指数三种常见分布。

以上两种方法均显示7个热点话题情感得分不服从常见分布,需要采用非参数核密度估计方法估计每个话题情感倾向得分的期望值。根据核密度定义,每个热点话题的情感得分Um中的元素是服从的独立同分布随机变量。根据每个话题得分的样本数据,采用高斯核函数(式(4))拟合每个话题的核密度函数,得到7个热点话题的情感得分期望。根据热点话题与状态变量之间的对应关系可以将热点话题的情感得分期望作为状态变量的取值,计算结果见表5。

(四)非首都功能疏解效果分析

表5显示,7个热点话题的情感得分值均为正值,说明从网络舆情角度反映公众对非首都功能疏解效果整体认可度较高。4个输入状态变量均值高于3个输出状态变量均值,表明北京市政府在产业升级、社会公共服务搬迁、行政事业服务机构疏解、区域性专业市场转移等4个方面的疏解手段效果要好于在产为升级、交通一体化和生态环境改善3个方面的疏解目标实现效果。疏解效果目标的滞后性和不易感性导致其效果低于疏解手段的效果。手段作为系统的输入因素具有先行性,目标作为系统的输出结果具有滞后性,疏解手段的效果会快于疏解目标实现效果显现。此外,手段具有明显的外在表现形式,便于感知,而目标则蕴含在事物的变化中,不易于察觉。

1.疏解手段效果分析。

非首都功能疏解包括行政和经济两种手段,从舆情评价结果看疏解手段作用于医院、学校、政府机构等非营利主体的疏解效果要好营利性企业的疏解效果。非营利性主体通常隶属于相关政府部门,行政手段对其有较强的制约力,政府部门制定搬迁和疏解计划后,社会公共服务机构和行政事业单位机构就会执行疏解计划。然而,一般性制造业涉及众多营利性企业,相比非营利主体,行政手段的执行力会大大降低,多元化的利益主体通过不断博弈才能形成相对均衡格局,这无疑会增加疏解成本,降低疏解效果。

第一,社会公共服务功能搬迁效果最受认可。从反映输入状态变量的4个热点话题得分上看,社会公共服务功能搬迁的情感得分期望值最高,比输入状态变量均值高9.0%。社会公共服务功能搬迁确实取得显著成效,北京着力打造民生共同体坚持推动北京优质公共服务资源向津冀布局,为当地居民就近就学、就医提供了便利。市、区两级与津冀各地方共实施教育合作项目30余个,组建了京津冀地区12个创新发展联盟。友谊、天坛等三级医院向平谷、顺义、怀柔等远郊区县转移,北京景山学校、人大附中、北师大等一批优质教育资源也纷纷在天津、河北落地。

第二,行政事业服务机构疏解稳步推进。在反映4个疏解手段的状态变量中,行政事业服务机构有序疏解效果位居第二,仅次于社会公共服务功能搬迁效果,比输入状态变量均值高2.8%。目前,雄安新区由顶层设计转入实质性建设,北京城市副中心行政办公区一期工程基本建成,北京市完成第一批市级机关向副中心搬迁,北京市四套班子在城市副中心正式挂牌。

表4 7个热点话题情感得分分布检验

待检验分布

统计量

一般性制造业疏解

社会公共服务功能搬迁

行政事业服务机构疏解

区域性专业市场转移

产业升级

交通便捷

环境改善

正态分布

Kolmogorov-Smirnov Z

12.879

11.414

12.913

11.592

11.869

11.389

8.495

显著性水平(双侧)

0.000

0.000

0.000

0.000

0.000

0.000

0.000

均匀分布

Kolmogorov-Smirnov Z

25.466

33.387

19.505

31.414

31.373

20.490

19.026

显著性水平(双侧)

0.000

0.000

0.000

0.000

0.000

0.000

0.000

指数分布

Kolmogorov-Smirnov Z

4.506

4.298

26.817

11.134

14.986

20.166

3.920

显著性水平(双侧)

0.000

0.000

0.000

0.000

0.000

0.000

0.000

表5 状态变量与热点话题期望值

状态变量

热点话题

情感得分期望值

输出/输入状态变量均值

x1

一般性制造业疏解

15.61

17.09

x1

社会公共服务功能搬迁

18.62

x3

行政事业服务机构疏解

17.57

x4

区域性专业市场转移

16.55

y1

产业升级

15.61

16.31

y2

交通便捷

17.13

y3

环境改善

16.22

第三,一般性制造业疏解要同时发挥行政和市场作用。在反映4个疏解手段的状态变量中,一般性制造业疏解情感得分最低,比输入状态变量均值低8.7%。北京市各区县为确保一般性制造业疏解度制订产业禁限目录,严格执行新增产业禁止和限制目录,对于涉及新增产业禁限目录的工商登记业务不予办理,并关闭千余家一般制造业企业,部分一般性制造业、高污染高耗能企业转移到天津、河北等地,曹妃甸、武清、霸州承接部分制造业、休闲食品加工企业。然而,产业转移升级并非单纯的政府行为,要遵循市场规律,目前首都产业格局与形成代表国家参与国际竞争的高端产业还存在一定的差距。

第四,在市场规律引导下疏解区域性市场。区域性专业市场情感得分16.55,比输入状态变量均值低3.5%,疏解效果位居第三。2015年起,北京陆续疏解了“动批”“大红门”等数百家市内专业性批发市场和物流基地,推动低质低效产业和业态持续退出,盘活低效闲置资源,为引入高端要素腾出宝贵空间。区域性专业市场疏解也存在利益主体多元化,行政手段执行力不足的问题。

2.疏解目标实现效果分析。

第一,交通便捷热点话题情感得分最高,比输出状态变量均值高5.0%,在非首都功能疏解目标中,交通便捷实现程度最高。交通系统快速发展让老百姓感受到出行的便捷。北京市交通委统计数据显示截至2018年,北京建成公交专用道907公里,城市轨道交通636.8公里,缓解了市内交通拥堵问题,提升了市民出行便捷度。京津冀一体化交通网络也在加快构建,京津冀城际铁路网规划已经上报,京唐等4条城际铁路前期工作加紧进行,京津冀城际铁路网规划加快打造“轨道上的京津冀”。

第二,环境改善热点话题情感得分位居第二,与输出状态变量均值基本持平,环境改善程度远低于交通便捷实现程度。疏解后的北京在环境上要实现“地更绿、水更清”的发展目标。为实现“地更绿”,河北省张家口市、承德市、保定市,北京市的房山区、延庆县等地启动环首都国家公园建设的试点,合作推进“环首都国家公园”和区域性生态廊道建设。为实现“水更清”,2019年6月北京市污水处理率已达94%,接近2020年中心城区污水处理率达到99%的目标,但水资源矛盾依然严峻的总体形势没有变。《中国空气质量改善报告(2013—2018年)》显示北京市PM2.5浓度从2013年的89.5微克/立方米降到2018年的51微克/立方米,降幅达43%,但是2018年北京重度及以上污染天数仍有15天。改善空气、水土环境是一项持久工作,随着疏解工作的推进,环境改善程度也会随之提升。

第三,产业升级热点话题情感得分最低,比输出状态变量均值低4.3%,产业升级程度远低于其他两个疏解目标实现程度。疏解后首都的产业发展目标是插上“互联网+”和“绿色低碳”的翅膀代表国家参与国际竞争的高端产业。北京正在落实国家创新驱动战略,发挥首都科技资源优势,加快推动建设一批国家级制造业创新中心,利用技术创新推动传统产业向“互联网+”和“绿色低碳”为特征的高新技术经济发展。然而,新经济不可能在短时间内完全替代传统经济活动的基本内容,需要在市场经济规律引导下改进生产要素、转变产业结构,逐步实现产业升级的疏解目标。

五、结论与建议

(一)结论

第一,社会公众整体上认可非首都功能疏解效果。7个热点话题得分均为正值表示正面舆情占据网络舆情的主流,大部分民众对非首都功能疏解效果持支持态度。但是产业升级和一般性制造业转移得分偏低,说明这两个话题负面舆情比重相对较高,政府部门要关注产业升级和一般性制造业转移中产生的利益冲突,降低负面舆情的影响。

第二,疏解多元化营利主体的政策效果劣于疏解非营利主体的政策效果。行政手段在疏解行政事业单位、医院和教育机构具有较强的执行力,但是在疏解一般性制造业和传统产业的执行力相对较低,由于多元化营利主体间的利益制衡影响了疏解政策的效果。

第三,疏解手段的效果优于疏解目标的效果。目标的滞后性和内生性使得公众对目标效果感知不足,网络舆情对疏解目标的关注程度也随之降低。政府部门可以调整舆论宣传的侧重点,适度增加对疏解目标的网络宣传,借助网络力量,吸引网民的关注,让网民全面感受疏解效果。

(二)建议

第一,全面升级产业结构,重点发展绿色产业。在市场经济规律引导下优化资源配置,促进人力、资金、技术等资源在不同产业间的合理流动,建立传统产业退出首都市场机制,重点建设以数字化、网络化、智能化为特征的绿色产业,提高生产效率与产品质量,逐步实现传统产业向绿色、高新技术产业升级的目标。

第二,政府与市场共同形成非首都功能疏解合力。在坚持市场主体自愿的利益导向下,充分发挥政府作用,让“看不见的手”和“看得见的手”有机统一、相互补充、相互协调、相互促进,保障有序推进非首都功能疏解。政府部门以市场配置资源为基础,在确保市场主体合理利益的前提下,制定一般性制造业、区域性市场的疏解措施。

第三,加强互联网舆论影响力,提高公众对非首都功能疏解的认同感。充分利用互联网资源,加强网络宣传的有效性和及时性,拓展网络宣传渠道,及时向社会公众发布非首都功能疏解政策、成果的相关新闻,增进社会公众对非首都功能疏解的认同感,为推进非首都功能疏解政策打下坚实的群众基础。

参考文献

丁煌. 政策制定的科学性与政策执行的有效性[J]. 南京社会科学, 2002(1): 38-44.

赵弘, 刘宪杰. 疏解北京非首都功能的战略思考[J]. 前线, 2015(6): 74-76.

张可云, 沈洁. 生态约束下的京津冀地区非首都功能疏解承接能力评价[J]. 河北学刊, 2017(3): 131-138.

]翟炜, 陈明玉, 闫博. 北京首都功能空间特征及非首都功能疏解评估[J]. 北京规划建设, 2016(6): 62-66.

Salton G, Clement T Yu. On the Construction of Effective Vocab-ularies for Information Retrieval[J]. ACM Sigplan Notice, 1973.

Salton G, Fox E A, Wu H. Extended Boolean Information Retrieval[J]. Communications of the ACM, 1983, 26(11): 1022-1036.

Salton G, Buckley C. Term-weighting Approaches in Automatic Text Retrieval[J]. Information Processing and Management, 1988, 24(5): 513-523.

韩永辉, 黄亮雄, 邹建华. 房地产“限购令”政策效果研究[J]. 经济管理, 2014(4): 160-170.

周黎安, 陈烨. 中国农村税费改革的政策效果: 基于双重差分模型的估计[J]. 经济研究, 2005(8): 44-53.

王润泽, 丁学梅. 互联网: 民意表达新通道[J]. 国际新闻界, 2004(4): 49-53.

郑方辉, 李旭辉. 民意调查与公共政策评价[J]. 江汉论坛, 2007(3): 17-20.

王迪, 童兵. 中国民意调查研究回顾[J]. 当代传播, 2013(2): 34-37.

付业勤. 旅游危机事件网络舆情研究: 构成、机理与管控[D]. 泉州: 华侨大学, 2015.

刘毅. 网络舆情研究概论[M]. 天津: 天津人民出版社, 2007.

马振飞. 网络舆情导控教程[M]. 北京: 清华大学出版社, 2014.

王润泽, 丁学梅. 互联网: 民意表达新通道[J]. 国际新闻界, 2004(4): 49-53.

肖婷, 唐雁. 改进的X2统计文本特征选择方法[J]. 计算机工程与应用, 2009, 45(14).

董振东, 董强. 知网和汉语研究[J]. 当代语言学, 2001(1): 33-44.

陈建美, 林鸿飞. 中文情感常识知识库的构建[J]. 情报学报, 2009, 28(4): 492-498.

作者简介:

郭茜,女,1979年生,河南人,毕业于中国人民大学统计学专业,获得博士学位,现为北京物资学院副教授,研究方向为网络舆情统计、经济统计、物流统计。

(责任编辑: 孙娜娜)

人力资本、社会资本对农村劳动力就业的影响[footnoteRef:5] [5: 基金项目:国家社科基金一般项目“国家治理视域中的农村家户治理形态演变及其政策匹配研究”(项目编号:19 BZZ068);2018年度教育部社科基金青年项目“寓法于治:乡村自治与法治的有机结合机制研究”(项目编号:18YJC810014)。]

——基于CFPS2018数据的实证分析

邢敏慧 张 航

内容摘要:本文利用CFPS2018数据,采用Logit模型,实证分析了人力资本、社会资本对农村劳动力就业分化和质量的影响及其代际差异。研究发现,人力资本和社会资本对农村劳动力就业分化和质量均起到不同程度的显著影响。社会资本在人力资本对就业影响中发挥一定调节作用;教育与社会资本在就业分化和就业质量中分别具有互补和替代效应;健康与社会资本在就业质量中存在互补效应。两类资本对就业的影响具有显著代际差异,人力资本是影响新一代农村劳动力就业分化和就业质量的关键因素,而老一代就业分化和质量则受到两类资本的双重显著影响。基于此,在提升人力资本存量和社会资本积累的同时,应兼顾群体共性和代际差异特征,实现农村劳动力就业的有序转移。

关键词:农村劳动力;就业分化;就业质量;代际差异;交互效应

中图分类号:C913.2 文献标识码:A 文章编号:1004-7794(2020)02-0018-06

DOI: 10.13778/j.cnki.11-3705/c.2020.02.003

一、引言

自20世纪80年代末,我国农村劳动力的流动成为现代化进程中的必然现象[1]。改革伊始,分田到户的农村劳动力主要以经营承包地为主,其中劳有余力的一部分选择就地转移就业,从事短期性非农工作;20世纪90年代以来,农村人地矛盾日益突出,城镇化和工业化进程不断加快,越来越多的农村剩余劳动力转移到城市之中,进入“手工操作为主、技术含量较低的传统部门”[2];新世纪以来,我国社会高速发展,经济结构经历巨变,半工半耕的农村家庭占了多数,农村劳动力向城市转移数量增长稳中趋缓,其从事的职业类型遍布各行各业。

学界对农村劳动力就业分化和就业质量也做了一些探讨。就业分化研究集中在指标体系、模式转型、时代形态和影响因素等方面,比较有代表性的观点如下。刘长全等(2019)指出了农民工在人口特征与职业构成两个相互关联的维度都发生明显分化[3],陈浩等(2013)建立了包括就业模式、非农职业层次、非农收入水平以及养老保障类型等因素的就业分化衡量指标体系[4],谢勇等(2017)关注了农民工返乡后的就业分化现象,提出了务农、失业、受雇于人和自我雇佣等不同的就业形式[5],欧阳博强等(2018)分析了改革开放以来农民工就业的持续性分化现象,并概括出“兼顾农业生产和短期性非农生产”“短期兼业和长期非农就业”和“遍布非农领域各类职业”的3种就业分化形态[6]。在就业质量方面,张昱等(2011)认为社会网络阶层差异对农民工就业质量有显著影响[7],孔微巍等(2019)的研究证明近年来就业质量虽有提升,但工资水平低、就业环境差、工资拖欠、超时加班却无相应劳动报酬,社会保险缴纳率低、就业歧视等问题不容忽视[8]。

已有研究虽对农村劳动力就业分化和就业质量问题有所涉及,但关于人力资本与社会资本对农村劳动力就业分化和就业质量的研究相对较少,将人力资本与社会资本对农村劳动力就业影响的交互效应纳入研究中寥寥无几。此外,代际差异理论认为,出生年代、成长背景和社会阅历的差异会导致代际群体间在价值观、行为偏好、态度评价等方面具有明显的群体差异特征[9]。当下的农村劳动力就业状况如何?人力资本和社会资本如何影响其就业分化和就业质量?代际群体间是否存在差异?回答这些问题,不仅能够拓展学界对农村劳动力就业及影响因素研究,同时还为政策制定提供一定的参考依据。

二、文献综述

(一)人力资本与农民就业

“人力资本”是指个体所拥有的知识、技能和体力(健康状况)等之和,是一种人格化的知识和技能,能够使其拥有者在劳动力市场中获得更高的回报和收益[10]。因而,一方面,劳动者个体所拥有的人力资本一定程度上决定了其在劳动力市场上就业机会、就业过程和就业结果;另一方面,劳动力可以通过强化自身知识、技能和体质等人力资本投资来增强其就业能力,进而促进劳动力就业转移和就业质量的提升。围绕人力资本这一变量,国内外学者提出多种组合的测量指标,典型测量是将其操作化为教育、技能培训和健康等维度进行研究。已有研究表明,人力资本对就业分化的影响已达成统一共识,即受教育程度、培训和健康状况等人力资本增量对非农就业具有显著正向影响,但对就业质量的影响有着不尽相同的结论。在就业质量方面,孔微巍等(2019)认为受教育水平的高低是有效劳动力供给的重要条件,是实现高质量就业的关键因素[8];相反,肖小勇等(2019)的研究却得出受教育程度对就业质量具有消极影响[11],王建(2017)认为,技能培训是影响农民正规就业更为直接和有效的人力资本要素,其作用远高于正规教育[12],葛莹玉等(2016)研究结论得出,培训和教育对新生代农民工就业质量发挥积极作用,而健康状况不具有显著影响[13]。

(二)社会资本与农民就业

对社会资本的界定以布迪厄和科尔曼为代表,前者将社会资本定义为“一种通过对关系网络的占有而获取的实际或潜在的资源集合体”[14];后者认为,社会资本是“存在于人际关系和社会结构中的个体拥有的表现为社会结构资源的资本财产,能够为结构内个体行动提供便利”[15]。由此可见,社会资本是个体投资形成并维持、外在于个体的可资利用的资源。以往有关个体社会资本与就业关系的研究中,一个普遍观点为个体是否拥有丰富的社会资本是影响其就业的关键因素之一。大量研究表明,社会资本存量对劳动力就业存在积极的正向影响。刘一伟等(2018)研究发现,社会资本在农村劳动力从事非农就业中发挥不容忽视的促进作用[16];但也有研究者对社会资本与农民就业的积极影响提出质疑,认为以往研究夸大了社会资本对就业的影响,如朱依娜(2016)指出,社会资本越丰富的劳动力往往并不倾向于通过社会关系网络获得较高的就业回报[17]。由此可见,学界尚未达成社会资本对就业影响的一致结论。

综合来看,农村劳动力能力增强以促进就业分化和质量提升的主要途径在于人力资本与社会资本。人力资本更多体现在劳动力个体素质和能力,而社会资本则得益于外在于个体的社会关系网络资本存量。随着劳动力市场的发展,人力资本之于农村劳动力就业的重要性越来越凸显,而使用社会资本的可能性也在显著上升[18]。在社会资本不足情况下,有针对性地提高受教育水平和职业技能培训教育能使农村劳动力在就业机会获取、就业过程和就业结果上占据有利地位。由此可见,人力资本和社会资本对农村劳动力就业既可能存在互补关系,也可能存在替代关系。

三、数据来源与变量选取

(一)数据来源

本研究所使用数据源自北京大学中国社会科学调查中心(ISSS)实施的“中国家庭追踪调查(CFPS)”项目,数据总样本量为32669个。本文选取2018年的家庭和成人数据库,通过家庭编号将家庭数据匹配到成人数据库,剔除变量不完整样本,保留年龄在16~59岁的农村劳动力数据,最终获得10274个有效样本。此外,本研究采取Stata13.0对数据进行统计分析。

(二)变量设置

本研究的主要变量及统计结果如表1所示。就业分化和就业质量是本文的两个被解释变量。就业分化为二元选择变量,若选择非农就业赋值为1,选择农业就业则赋值为0;就业质量反映的是劳动力对就业状况的综合评价。本文借鉴戚晓明等(2017)的测量指标[19],将劳动力对工作收入、工作安全、工作环境、工作时间等方面的整体满意度作为测量变量,该变量共分为5个等级,“非常不满意”到“非常满意”分别赋值“1~5”。

被解释变量主要包括人力资本和社会资本。第一,根据前文对人力资本理论的回顾,并结合现有数据特征,本文选取受教育程度、培训和健康状况作为人力资本的代理变量,其中受教育程度由“文盲、半文盲、小学、初中、高中、大专、本科、研究生”转化而来;培训由非学历教育测量,是一个二分虚拟变量;健康由“很不健康、一般、比较健康、很健康、非常健康”进行转化。第二,关于社会资本变量的测量,有学者认为,伴随着“人情支出”的礼顺人情是中国社会尤其是农村维持人际交往和社会网络的重要途径[20]。一般来说,农民参与人情社交活动的支出越大,其拥有的社会资本就越多。鉴于本文所采用调查问卷数据的特征,将“人情支出”作为衡量社会资本的主要测量指标,纳入Logit模型回归的是人情支出对数。

此外,本文还选取性别、年龄、婚姻状况等个体特征因素和家庭规模、收入等家庭层面因素作为本研究的控制变量。其中,将收入单独纳入农村劳动力就业质量相关模型,就业分化模型则不作考虑。

表1 样本特征变量含义及统计结果

变量名称

变量定义

最小值

最大值

均值

标准差

就业分化

0=农业;1=非农业

0

1

0.556

0.497

就业质量

1=非常不满意;2=不太满意;3=一般;

4=比较满意;5=非常满意

1

5

3.561

0.990

社会资本

人情支出,取对数

1.609

11.918

7.945

1.035

受教育程度

1=文盲/半文盲;2=小学;3=中学;4=高中及以上

1

4

2.636

1.019

培训

0=无;1=有

0

1

0.073

0.260

健康状况

1=差;2=良;3=好

1

3

2.194

0.648

性别

0=女;1=男

0

1

0.513

0.500

年龄

被调查对象实际年龄,岁

16

59

41.137

11.381

婚姻状况

1=未婚/同居;2=已婚;

3=离异/丧偶

1

3

1.883

0.340

家庭人口数

家庭实际人口数量,个

1

16

4.480

2.025

收入

总收入,取对数

0

14.509

10.680

0.926

四、结果与分析

(一)两类资本对农村劳动力就业分化的影响

表2中模型1结果显示,人力资本、社会资本均对农村劳动力非农就业具有显著促进作用。具体来看,人力资本中教育、培训和健康的回归系数均为正,且优势比分别为1.917、1.509、1.086,表明受教育程度、健康水平每升高一个等级,农村劳动力选择非农就业的概率分别提高91.7%、8.6%;相对于未接受过培训而言,接受过非学历教育的劳动力非农就业的概率提高50.9%。社会资本的回归系数同样为正,且优势比为1.139,表明农村劳动力人情支出的对数值每增加一个单位,其非农就业的概率将增加13.9%,这反映出非农就业对农村劳动力群体的受教育水平提出了一定的要求。

控制变量中,性别、年龄、家庭人口数等变量均对就业分化影响显著。从回归系数和优势比来看,男性非农就业的概率是女性的1倍多,这反映了传统“男主外女主内”的家庭分工格局到现在依然存在,女性更多的主内承担起教育孩子、赡养老人的职责,选择“离土又离乡”相对较少;年龄每增加1个单位,非农就业概率就降低6.6%,可见年龄越大,农村劳动力选择农业就业的几率越高;家庭规模对农村劳动力非农就业产生限制作用,家庭人口数每增加1个,非农就业概率将降低11.4%。

(二)两类资本对农村劳动力就业质量的影响

表2中模型2结果显示,教育、健康和社会资本对农村劳动力就业质量具有显著影响。具体来看,教育的系数为负,表明受教育水平越高的农村劳动力对工作的满意度越低;健康和社会资本对农村劳动力就业质量产生正向影响,即健康状况较好、社会资本越多的农村劳动力对工作满意度评价越高。

表2 人力资本、社会资本对农村劳动力就业的估计

变量

就业分化(Logit)

就业质量(有序Logit)

模型1

模型2

Coef.

Odds Ratio

Coef.

Odds Ratio

教育

0.651***

1.917

–0.051***

0.951

培训

0.412***

1.509

0.040

1.041

健康

0.082**

1.086

0.462***

1.587

社会资本

0.130***

1.139

0.040**

1.040

性别

0.450***

1.569

–0.180***

0.835

年龄

–0.068***

0.934

0.019***

1.019

未婚/同居(已婚)

0.032

1.033

0.343***

1.410

离异/丧偶(已婚)

–0.750

0.928

–0.054

0.948

家庭人口数

–0.110***

0.886

–0.015*

0.985

收入

0.044**

1.045

LR chi2

3891.20

399.02

Log likelihood

–6918.929

–16643.121

Pseudo R2

0.220

0.012

N

12904

12612

注:*p<0.1,** p<0.05,*** p<0.01。

控制变量中,性别、年龄、婚姻状况、家庭规模和收入对农村劳动力就业质量影响显著。具体来看,年龄每增加1岁,相对于非常不满意、不太满意、一般、比较满意这4个分类而言,非常满意的可能性提高1.9%,表明年龄越大,越容易满足现状、越追求稳定,就业质量越高;与非农就业中男性比例大于女性的结果相反,就业满意度高评价集中于女性群体;已婚、家庭人口数多、收入较少的男性劳动力对工作满意度相对较低。

(三)两类资本的交互效应分析

本文进一步引入“教育”“培训”“健康”等人力资本变量与社会资本变量的交互项,以此验证人力资本和社会资本在对农村劳动力就业分化和就业质量上是否存在替代或互补关系,模型估计结果如表3所示。

在就业分化方面,教育及其与社会资本的交互项均通过显著性水平,且教育及其交互项在模型1与模型2中的系数均为正,说明社会资本在教育与就业质量的正向关系中存在一定调节作用:随着社会资本的增加,受教育程度越高的农村劳动力选择非农就业的可能性越大,即社会资本增强了教育对非农就业的促进作用,两者对农村劳动力非农就业具有一定互补效应。

在就业质量方面,教育、健康及两者与社会资本的交互性均通过显著性水平。其中,教育在

表3 人力资本、社会资本对农村劳动力就业的交互效应

变量

就业分化(Logit)

就业质量(有序Logit)

模型1

模型2

模型3

模型4

Coef.

Odds Ratio

Coef.

Odds Ratio

Coef.

Odds Ratio

Coef.

Odds Ratio

教育

0.651***

1.917

0.158*

1.172

–0.051***

0.951

–0.252***

0.777

培训

0.412***

1.509

0.526

1.692

0.040

1.041

–0.033

0.967

健康

0.082**

1.086

0.012

1.012

0.462***

1.587

–0.056

0.945

社会资本

0.130***

1.139

–0.036

0.964

0.040**

1.040

–0.142***

0.868

教育*社会资本

0.058***

1.059

0.022***

1.022

培训*社会资本

–0.020

0.980

0.005

1.005

健康*社会资本

0.005

1.005

0.038***

1.039

控制变量&常量

LR chi2

3891.20

3930.03

399.02

496.66

Log likelihood

–6918.929

–6899.512

–16643.121

–16981.37

Pseudo R2

0.220

0.222

0.012

0.015

N

12904

12612

注:*p<0.1,** p<0.05,*** p<0.01。

模型3中的系数为负,而在模型4中与社会资本的交互项系数为正,表明社会资本减弱了教育对就业质量的负向影响,教育与社会资本在对就业质量的影响中具有替代效应。也就是说,教育水平越低,社会资本增加对就业质量的促进作用越大;社会资本越不足,教育状况越好对就业质量促进作用越大;健康在模型3中的系数及其与社会资本交互项的系数均为正,表明随着社会资本的增加,健康水平越高的农村劳动力对其工作满意度评价也越高。

(四)分组样本估计结果

代际差异下农村劳动力就业选择和就业评价偏好,可能会导致人力资本与社会资本对其就业的影响存在群体差异。本文以1980年为界,将1980年之前出生的农村劳动力定义为老一代,之后出生的定义为新一代。为进一步考察农村劳动力就业的代际差异,将总体样本进行分组回归分析,结果如表4所示。

在就业分化方面,两类资本在两代农村劳动力间存在显著差异。教育和培训对两代劳动力就业分化均具有显著影响,而社会资本仅对老一代劳动力就业分化影响显著,可见,新一代劳动力不倾向使用社会资本实现非农就业,而老一代农村劳动力就业分化受两类资本存量的双重影响。这可能是因为新一代劳动力受教育程度、劳动技能等人力资本优势可以帮助他们实现就业,而老一代劳动力人力资本优势相对较弱故而更依赖社交网络等社会资本。

在就业质量方面,人力资本对两代农村劳动力均具有不同程度显著影响,而社会资本仅对老一代劳动力就业质量影响显著。从新一代来看,教育、健康的系数均为正,表明人力资本增量能够显著提升新一代农村劳动力就业质量;从老一代来看,与健康对老一代农村劳动力就业质量的正向影响不同,教育的回归系数为负,说明老一代农村劳动力的受教育程度每提高一个等级,其对工作满意度就降低13.6%。

五、结论与政策启示

本研究基于2018年CFPS数据,分析人力资本、社会资本对农村劳动力就业分化和就业质量的影响,并进一步考察了两代农村劳动力就业的代际差异影响。研究结论表明,第一,人力资本和社会资本共同决定了农村劳动力的就业分化和就业质量;第二,社会资本在人力资本对农村劳动力就业影响中发挥一定调节作用。其中,教育与社会资本在对农村劳动力就业分化和就业质量的影响中分别存在互补和替代效应,社会资本积累增强了教育对农村劳动力非农就业的促进作用,消减了教育水平对就业质量的抑制作用,促进了就业质量的提升。健康在就业质量中与社会资本存在互补效应,社会资本的积累增强了健康水平对农村劳动力就业质量的积极作用。第三,人力资本、社会资本对农村劳动力就业的影响具有显著代际差异。人力资本是影响新一代农民就业分化及就业质量的主要因素,而老一代农村劳动力的就业则受到人力资本和社会资本的共同作用。

表4 分组模型估计结果

变量

老一代

新一代

就业分化

就业质量

就业分化

就业质量

Coef.

Odds Ratio

Coef.

Odds Ratio

Coef.

Odds Ratio

Coef.

Odds Ratio

教育

0.478***

1.613

–0.147***

0.864

1.061***

2.891

0.084**

1.088

培训

0.413**

1.512

0.045

1.046

0.410***

1.507

0.028

1.028

健康

0.126***

1.134

0.432***

1.540

–0.029

0.972

0.513***

1.670

社会资本

0.191***

1.210

0.0388*

1.039

–0.008

0.992

0.044

1.045

性别

0.595***

1.813

–0.037

0.963

0.268***

1.308

–0.308***

0.735

年龄

–0.079***

0.924

0.039***

1.040

–0.0039***

0.962

–0.014**

0.986

未婚/同居(已婚)

–0.434*

0.648

0.243

1.275

0.134

1.143

–0.166

0.847

离异/丧偶(已婚)

0.069

0.934

0.006

1.006

–0.223

0.800

–0.270

0.763

家庭人口数

–0.102***

0.903

0.007

1.007

–0.103***

0.902

–0.045***

0.956

收入

0.178

1.018

0.075**

1.078

LR chi2

1071.04

290.79

1001.81

230.85

Log likelihood

–4533.352

–9980.382

–2298.452

–6542.211

Pseudo R2

0.106

0.014

0.179

0.017

N

7556

7396

5348

5216

注:*p<0.1,** p<0.05,*** p<0.01。

结合上述研究结论,得到以下政策启示。第一,提升人力资本存量。运用教育与培训相结合的手段,前者需要持续加大义务教育投入和教育扶贫力度,综合利用奖、助、贷等多种措施,保障农村在学人口顺利完成学业。后者需要鼓励各地通过开办农民培育基地、实用技术培训学校等形式,开展实用性强的技能培训,帮助农民群体掌握一技之长。第二,注重社会资本积累。除了劳动力既有的社会网络之外,政府可以通过提供就业信息、完善就业市场等途径增加农民工社会资本存量。企业可以完善用工制度,积极搭建与农民工的沟通交流平台,鼓励农民工参加各种工作、社交团体,加强与团体内成员的交流,强化农民工的社会网络。第三,关注农村劳动力群体共性,兼顾两代差异特征。加强新一代农村劳动力的职业技能和创业培训,提高其人力资本增量对就业质量的促进效果;老一代农村劳动力在于人力资本与社会资本的同步加强,促进其向非农转移,引导职业层合理流动。

参考文献

“城镇化进程中农村劳动力转移问题研究”课题组. 城镇化进程中农村劳动力转移: 战略抉择和政策思路[J]. 中国农村经济, 2011(6): 4-14.

杜鹰. 现阶段中国农村劳动力流动的群体特征与宏观背景分析[J]. 中国农村经济, 1997(6): 4-11.

刘长全, 李文. 农民工就业问题的发展及新特点、新挑战[J]. 河北学刊, 2019(2): 136-139.

陈浩, 陈雪春. 城镇化进程中失地农民就业分化及特征分析——基于长三角858户调研数据[J]. 调研世界, 2013(7): 34-40.

谢勇, 周润希. 农民工的返乡行为及其就业分化研究[J]. 农业经济问题, 2017(2): 92-101.

欧阳博强, 张广胜. 农民工就业分化及其影响因素[J]. 华南农业大学学报: 社会科学版, 2018(3): 48-61.

张昱, 杨彩云. 社会资本对新生代农民工就业质量的影响分析——基于上海市的调查数据[J]. 华东理工大学学报: 社会科学版, 2011(5): 9-20.

孔微巍, 廉永生, 刘聪. 人力资本投资、有效劳动力供给与高质量就业[J]. 经济问题, 2019(5): 9-18.

冯永琦, 张天舒. 代际差异视角下农民工主观幸福感影响因素分析[J]. 人口学刊, 2016(5): 60-69.

王轶, 王琦. 新常态背景下特大城市失地农民的就业问题研究——基于人力资本的视角[J]. 当代财经, 2016(5): 3-11.

肖小勇, 黄静, 郭慧颖. 教育能够提高农民工就业质量吗?——基于CHIP外来务工住户调查数据的实证分析[J]. 华中农业大学学报: 社会科学版, 2019(2): 135-143.

王建. 正规教育与技能培训: 何种人力资本更有利于农民工正规就业?[J]. 中国农村观察, 2017(1): 113-126.

葛莹玉, 张新岭, 李春平. 新生代农民工职业能力的建构基于人力资本形成与开发的耦合研究[M]. 北京: 光明日报出版社, 2016: 164-168.

Bourdieu P. The forms of capital[M]. Westport, CT: Greenwood Press, 1985: 1-10.

James S Coleman. Social Capital in the Creation of Human Capital[J]. American Journal of Sociology, 1988(94): S95-S120.

刘一伟, 刁力. 社会资本、非农就业与农村居民贫困[J]. 华南农业大学学报: 社会科学版, 2018(2): 61-71.

朱依娜. 社会资本视角下的求职研究[M]. 北京: 中国传媒大学出版社, 2016: 135-136.

肖阳. 中国社会转型中人力资本对社会资本影响的实证研究[J]. 兰州学刊, 2019(4): 121-133.

戚晓明. 人力资本、家庭禀赋与被征地农民就业——基于CFPS2014数据的分析[J]. 南京农业大学学报: 社会科学版, 2017(5): 59-67.

左孝凡, 王翊嘉, 苏时鹏, 等. 社会资本对农村居民长期多维贫困影响研究——来自2010~2014年CFPS数据的证据[J]. 西北人口, 2018(6): 59-68.

作者简介:

邢敏慧,女,1993年生,河南鹤壁人,现为武汉大学社会学院博士研究生,研究方向为政治社会学。

张航,男,1993年生,河南南阳人,现为华中师范大学中国农村研究院博士研究生,研究方向为基层治理。

(责任编辑: 刘雅欣)

12

00

12

0

tt

t

t

xx

x

x

-

-

-

=

0

t

x

12

0

t

x

-

129

{,,,}

tititi

xxx

---

¼

(1,2,3,4,5,6)

i

=

1

ˆ

||

MAE

n

tt

t

yy

n

=

-

=

å

2

1

ˆ

()

MSE

n

tt

t

yy

n

=

-

=

å

ˆ

t

y

2

2

()

()()()()

ADBC

ACBDABCD

c

-

=

++++

log(1)

max{}

ik

ik

iikk

tf

N

tfn

w

=´+

ik

w

ˆ

()

px

1

1

ˆ

()(),

n

i

i

xx

pxKxR

nhh

=

-

å

2

2

1

()

2

u

Kue

p

-

=

11121

21222

12

r

r

m

iiir

tptptp

tptptp

TP

tptptp

éù

êú

êú

=

êú

êú

ëû

L

L

MMMM

L

11121

21222

12

q

q

m

iiiq

tntntn

tntntn

TN

tntntn

éù

êú

êú

=

êú

êú

ëû

L

L

MMMM

L

11121

21222

12

r

r

m

iiir

wpwpwp

wpwpwp

WP

wpwpwp

éù

êú

êú

=

êú

êú

ëû

L

L

MMMM

L

11121

21222

12

q

q

m

iiiq

wnwnwn

wnwnwn

WN

wnwnwn

éù

êú

êú

=

êú

êú

ëû

L

L

MMMM

L

()

T

mmii

diagTPWP

´

×

()

T

mmii

diagTNWN

´

×

(1)