研究基础数据库内容 本文研究所依托的数据库内容是涵盖不良贷款成因、构成、现状、管理、处置各个方面内容的综合信息库,设计数据信息点近个。全部样本数据库的内容包括:样本数据库信息覆盖了信贷资产从最初银行放贷、违约事件发生、银行产生损失到最终清收实现的整个流程,可以大大弥补银行缺乏不良信贷资产处置清收数据的缺陷。同时,这些信息充分反映了国家的宏观经济政策、产业政策、金融信贷政策,也能够体现行业、地区等个体差异化信息。 样本数据库标准 以新资本协议的要求为衡量标准,本文对研究所依托的数据库进行了与新协议相关内容的对比,以夯实研究的数据基础标准。总体而言,无论从数据来源、数据观察期、数据质量、精确度、时间跨度、样本量等多个方面,本文研究所依托的样本数据库能够较好的满足不良贷款定价的研究需要。 数据采集与清洗 通常统计建模需要进行数据变换、变量筛选、估计不同变量对回收率的影响、建立模型、优化判别、预测与检验等一系列复杂的过程。因此,前期样本数据的采集和清洗对十分关键。由于涉及的数据量庞大,样本数据的获得主要是在建立数据规范及标准的基础上,通过标准化的采集程序、严格的数据清洗后整合数据库,使得采集的数据能够成为有效的建模样本。在数据采集过程中,要获得有效、完整、准确的数据资源依赖于良好的数据采集系统及严格培训的采集人员,同时需要尤其重视以下三个方面: 1、建立数据的标准,明确数据的定义。为了保证数据库的正常运行,有效反映债务企业的真实性,我们需要从实际需求和操作应用的角度出发,建立统一的数据标准和数据定义。所有数据采集、管理、维护人员必须对数据标准和数据定义达成共识,以该数据标准和定义为基准,展开后续工作。 2、建立一个标准的数据收集、数据审核和数据跟踪维护流程。数据管理面临的两个主要挑战是不良资产的复杂性和信息不断变化。这两个客观原因的存在意味着数据采集和数据质量保证行动要持之以恒。因此,制订一套标准的采集流程,和完整的数据质量保证措施十分关键。 3、对流程不断进行改善和优化。通过一个不断改进的流程,持续不断地排除错误、对数据进行整合和标准化,最后达到流程的自动化,从而降低数据质量保证计划的总体推进。在数据清洗方面,特别需要关心数据的遗漏问题和数据前后的逻辑是否匹配。通过设计有效的逻辑关系校验和模型检验能够很好的识别和剔除一些不真实的业务数据,从而使后续的数据建模工作更加高效。 6 z9 s. ]$ d4 g7 _; F0 R
1 ^7 I8 ^+ C+ D+ @: ]
|