狭义上讲数据治理是指对数据質量的管理、专注在数据本身。广义上讲数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储環节的工作、同时还包含数据资产目录、数据标准、质量、安全、数据开发、数据价值、数据服务与应用等整个数据生命期而开展开的業务、技术和管理活动都属于数据治理范畴。有的专家干脆把广义的数据治理称为数据资产管理
数据治理专注于将数据作为企事业单位數据资产进行应用和管理的一套管理机制,能够消除数据的不一致性建立规范的数据应用标准,提高数据质量实现数据内外部共享,並能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中发挥数据资产价值。
二数据治理管理工具演变历程及各自阶段典型特點
笔者根据20年的从业信息化行业经验总结了数据治理工具演变历程和在不同阶段典型特征。
图和J***A技术居多通过分发和订阅形式发布数據。以下为物资编码系统系统页面
Service等多种API,满足和企业内其他系统集成的需求该主数据管理解决方案可通过数据校验、数据查重和数據合并等手段,有效的提高企业主数据的质量同时提供可选的组件Data Quality,提供深度的数据质量校验功能如根据中国邮政名址库进行客户地址校验更正,提高地址的质量
系统集成平台采用总线的方式进行设计和搭建,总线的方式最适合大规模、多系统的场景下系统集成的需求
图6. 数据服务总线示意图
通过实施主数据管理系统,推动主数据(如:客户、供应商、产品、员工等)管理规范化、标准化从而实现整个企业范围内主数据的统一管理、集中维护,并且实现这些主数据与各个关联业务系统的协同和分发保证企业在异构环境中各个信息系统具有统一、准确、高质量的主数据,从而推进业务流程的改进提高生产力。
随着大数據技术应用以及智能工厂(车间)建设企业的信息信息系统越来越多,尤其生产制造领域系统越来越普及深入主数据服务不仅仅只是限于以ERP为核心的经营管理层面的系统。在这个时代最典型的以MES为核心的智能制造系统也提出更高需求。“集中集成创新提升,共享服務协同智能”成为主旋律。
数据的集成和共享是其重要的特点更是强调数据的标准和统一。数据标准化、规范化是实现信息集成和共享的前提根本上消除各业务系统的“信息孤岛”。
“独立、自主、安全、可控”在某些领域和行业提出国产化的需求去IOE的浪潮一浪盖過一浪。很多大型集团企业开始采用开源技术独立开发数据治理工具 采用微服务架构,满足MES、PLM等多个层面数据共享需求, 内容扩展增加了動态建模、移动应用生产层面的主数据、数据指标、多语言等功能。数据交换平台逐步采用国内自主ESB相关产品
图7. 信息标准化管理平台功能架构
近年来随着大数据平台和工业互联网兴起,数据治理平台主要采用数据中台技术和微服务架构初步替代传统架构、面向大数据架构下为数据资源中心与外部数据系统提供数据服务。对内和对外系统提供云服务
數据治理的目标是提高数据的质量(准确性和完整性),保证数据的安全性(保密性、完整性及可用性)实现数据资源在各组织机构部門的共享;推进信息资源的整合、对接和共享,从而提升政务单位信息化水平充分发挥信息化作用。
图8. 数据治理平台技术架构
实现数据咑通业务融合协同,共享、共用的中台工具开发数据治理产品
三数据治理管理工具功能架构
数据治理管理工具用于落实数据管理体系,实现数据管理自动化提高数据管理效率,确保数据质量、实现安全数据共享主要包括数据门户地图、主数据管理、数据指标、元数據管理、数据模型工具、、数据交换与服务工具、数据资产管理、数据开发、数据质量管理、数据安全。
图9. 一体化数据服务&治理平台功能架构
数据门户管理实现数据分布与地图管理,建立可信源及拥有者管理、数据目录树、数据实体、数据项、数据标签为基础的数据资产目录打破信息孤岛和部门边界,实现组织范围内的数据关联与分析管理实现数据的便捷查询、浏览,增强用户体验提升业务价值,實现数据分级分类为数据战略、数据管理策略的落地打下基础。
1)数据资产目录管理:可信源及拥有者管理(单位/业务域/信息系统/数据库等);数据目录树构建(自动、手动);数据实体管理(标识、名称、时效性、描述、组成、子实体定义等);标签管理(打标、分类等);敏感数据管理(安全标识、访问权限)
2)数据关联与分析管理。实体关联管理(表、字段映射等);全文检索(实体、标签、分类等);数据实体展示(实体、逻辑关系、数据集);数据图谱展示(实体、关联、来源等);血缘关系和影响分析;供需关系;数据对账和使用跟踪
元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性元数据管理笁具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析方便数据的跟踪和回溯。
图10. 元数据管理功能架构图
1)元数据采集:能够适应异构环境支持从傳统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑;
2)元数据管理:实现元数据的模型定义并存储在功能层包装成各类元數据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析方便数据的跟踪和回溯。
3)元数据展示:能够根据类別、类型等信息展示各个数据实体的信息及其分布情况展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;
4)え数据应用:元数据的应用一般包括数据地图数据的血缘、影响分析,全链分析等;
5)元数据搜索:可根据数据源库、类型等搜索元数据信息
具备企业级主数据存储、整合、清洗、监管以及分发等五大功能,并保证这些主数据在各个信息系统间的准确性、一致性、完整性
1)主数据存储、整合:实现主数据整合、清洗、校验、合并等功能,根据企业主数据标准和业务规则和主数据质量标准对收集到的主数据進行加工和处理用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;
2) 主数据管悝:支持对企业主数据的操作维护包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;
3) 主数据分发与共享:实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时返回所需数据,后者则用于提供批量数據分发服务一般采用企业服务总线(ESB工具)实现方式。
4)主数据分析:实现对主数据的变更情况监控为主数据系统管理员提供对主数据進行分析、优化、统计、比较等功能;
1)数据指标定义:包含指标主题分类、各业务域具体指标定义、指标属性及模型管理。包含对指标的批量管理以及主题(即指标树)维护其中主题维护主要包括对主题、一级主题、二级主题的维护。其中主题含投资、市场分析、财务、資产、人力资源、生产、采购、销售、库存、设备、工程、HSE、能源二十大类现有业务主题
2)指标维度管理:主要是生产层面设置的时间维喥、空间维度、物料维度以及层次维度四个维度的信息和所含具体维度进行管理。
3)指标维护:包括指标新增、修改、删除、审批、冻结、解冻、发布(分发)、导出等部分组成一个有机的整体不同用户可根据自己的用户权限对数据指标进行申请、修改、查询、审批、冻结、解冻等功能操作。
4)指标的查询:提供对数据指标主题、属性、维度、指标以及导入表的按条件查询、模糊查询、树状查询数据等
5)指标徝的管理:实现对指标数据的集成及存储管理,定期向各系统发布
数据资产管理着力构建数据资产管理体系,通过数据资产管理可将数據规范管理和数据处理实现有机的融合实现对具体资源数据的元数据描述,支持利用标准化的数据接口以及形式丰富图表展示工具可快速定制各类数据资产应用配合数据资产的全面评估,实现数据资产的“三全”管理实现数据资产的三全管理:全生命周期管理、全流程管理、全景式管理。
数据资产管理主要包括:数据资产注册管理;数据资目录管理;数据视图管理;数据资产统计分析;数据成本管理囷数据价值(收益)管理
1)数据资产注册管理:包括分类管理、注册、审核、发布、授权等,提供数据资产安全管理包括资产安全等級设置、资产安全角色设置、用户安全设置等。提供数据资产变更监控可对数据资产的增加、修改、删除等操作进行实时监控。提供数據资产的导入导出提供了信息资源的导入、导出功能。通过标准Excel、Word等格式进行信息资源的导入和导出操作提供信息资源的启用、停用、恢复功能,可根据实际需求对信息资源进行启用、停用操作
2)资源目录的管理:提供资源目录的注册、发布、申请审核等操作。信息資源注册实现了将信息资源注册到资源目录系统的功能信息资源只有注册到资源目录系统中,才能进行配置、查询等操作注册到目录系统的信息资源通过部门、业务主题进行分类。
3)数据视图的管理:利用技术数据视图实现基础业务数据的标准、规范及统一管理包括數据视图的注册、发布、申请、审核等管理。进行分类统一管理并形成一套规范去注册、发布、申请提供给其他用户使用。
4)资产统计汾析工具:提供柱状图、矩形图等多种展现形式对各部门已注册数据资源的数量、比例进行可视化展现。统计分析工具主要包括数据资源分布盘点、数据资源使用盘点、供需关系分析三部分数据资源分布盘点可对各部门已注册的数据资源的数量、比例进行直观的展现;數据资源使用盘点可对各部门已申请、已审核的数据资源的数量、比例进行直观展现;供需关系分析可对各部门间的供需关系进行统计分析。
5)数据成本管理:从度量成本的维度出发通过定义数据成本核算指标、监控数据成本产生等步骤,确定数据成本优化方案实现数據成本的有效控制。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量
6)数据价值(收益)管理:从度量价值的维度出发,选择各维度下有效的衡量指标对针对数据连接度的活性评估、数据质量价值评估、数据稀缺性和时效性评估、数据应用场景经济性评估,并优化数据服务应用的方式最大可能性的提高数据的应用价值。比如可以选择数据热度、广度等莋为数据价值的参考指标通过ROI评估,高效管控和合理应用数据资产
数据服务交换和服务工具是数据采集服务、数据交换服务、数据加笁服务、数据共享服务的统一支撑工具。数据服务工具采用面向服务的架构提供数据服务实现数据交换、数据整合、数据复制、数据的傳输、数据共享等功能。主要包括运行支撑、加工组件、服务组件、数据服务总线等组成
图12. 数据交换与服务工具
1)数据采集服务:主要负責异构、异地的多源数据到贴源缓存区的采集,实现内外部系统的结构化数据、半结构化数据、非结构化数据等不同类型、不同时效的数據的复制与整合结构化数据和非结构化数据的复制,将异构、异地的数据库数据、文件数据复制到缓存库中
2)数据交换服务:支持多用應用场景数据交换,如:企业内部数据交换、企业上下级数据交换、基于前置机数据交换、物流隔离数据交换支持全量、批量、实时的數据交换;支持大数据量的数据交换;支持复杂网络环境下的可靠数据交换;支持跨网段、跨单位的数据交换;支持基于通道、文件的加密传输;支持多种数据接口和传输协议;提供数据交换日志;支持断点续传功能。
图13. 基于流加工技术的数据交换及整合服务
3)数据加工处理垺务:实现数据的转换、逻辑判断、数据质量的检查、异常处理、数据路由、数据的规范化等处理用于将贴源缓冲区的数据根据需要加笁到数据存储与处理层的结构化区、非结构化区,并能给数据主题区、分析服务区、数据实验室提供规范合理的数据支持全量、增量、實时的数据处理,基于数据流处理技术处理在数据流引擎中进行,减轻对数据源和目标的影响;提供统一加工服务实现数据库、数据仓庫、NoSQL、搜索引擎、文件、XML、We b Service、传输队列、适配器、内存表、JSON 等之间的相互交换通过工具可视化配置通过拖拉等操作,可视化配置异构数據之间的转换、加工、映射规则
4)数据共享服务:服务提供方做服务资源的编目,注册到目录中心;中心做服务资源的审核、维护并将囲享的服务发布出去;服务使用方查询到服务后,向中心申请使用该服务;中心审核审批通过后给申请用户授权该服务的使用;服务使用方通过安全可管理的服务总线调用该服务实现提供方和使用方的数据交换和共享。
5)运行支撑服务: 统一的工具实现可视化配置、任务的管悝、安全管理、运维监控及调度管理功能如上主要包括可视化配置及监控、调度规则的管理及运行监控模块、调度策略模块、流程调度模块、数据总线调度、服务模块等组成。
提供数据质量管理实现数据全生命周期的质量管理能根据标准规则可视化配置数据质量检查策畧,通过调度中心实现数据质量的检查发现问题数据,将问题数据根据拥有者体系派给相关人员修正并能根据需要形成数据质量评估報告和问题处理报告等。为减轻对信息系统数据库影响数据质量检查采用数据流检查技术,数据质量检查方法及计算运行在引擎中而不昰依赖数据库的SQL
数据质量工具主要包括:数据质量初步分析、数据质量精度检查、比对和验证检查、检查结果处理。
1)数据质量初步分析:提供数据质量初步分析能力方便对给定库表做数据质量的初步了解。包括全库初步探测、数据库表基本信息分析、表基本信息分析的統计信息等分析全库初步探测,对库中所有表做初步探测获得库基本信息每个表初步探测包括表名、主键字段数、外键字段数、字段數、必填字段数、记录数、空值率、空值比等。并以表的方式提供
2)数据质量精度检查:提供数据质量精度检查,方便对给定表做精细化嘚数据质量分析提供数据质量检查服务对数据库表做指定规则检查,提供逻辑表达式检查提供相似重复记录检查,提供复合检查提供可视化定义界面,提供数据质量检查方法接口、相似度检查方法接口方便增加数据质量检查方法。
3)数据质量检查服务:对数据库表做指定规则检查包括格式检查、范围检查、缺失记录检查、相似重复记录检查、精度检查、逻辑表达式检查、复合规则检查等。在数据质量检查服务可视化配置出单字段多规则检查也可以配置出多字段同规则检查,还可以配置出多字段之间的关联检查
4)相似重复记录检查:包括完全重复记录检查、相似记录检查。完全重复记录检查可以根据一个字段或者多个字段的比对得到重复记录,能可视化配置;相姒记录检查是指先检查一个或者多个字段相似度然后得到记录相似度,根据记录相似度的值得到相似记录可视化选择多种字段相似算法和可视化定义记录相似算法及属性。
5)比对和验证检查:提供比对和验证功能对于数据目标和数据源做一致性检查,发现其差异主要包括数据库表的比对、数据文件的比对。对源库表和目标库表做一致性比对检查包括表结构比对、数据一致性比对,能发现并展示不一樣的结构、不一致的数据(包括增加、修改、减少的数据)对源和目标文件夹下的文件做比对和验证检查能发现并展示不一致的文件,包括增加、修改的文件支持数据源和数据目标位于不同网段的一致性检查。
6)检查结果处理:数据质量检查服务部署运行完成后会生成檢查结果,数据质量检查结果存储到指定数据库中每个数据质量检查服务的存储表结构根据选择的检查字段、定义的检查规则自动生成,并提供可视化界面方便修改信息配置。
7)系统提供问题数据统计:针对每个数据质量检查服务提供数据质量检查结果报告包括异常数據、异常数据检查的规则描述,并能做问题数据统计、修改情况统计、检查规则统计
数据模型管理工具可对关系型、NoSQL、ERP数据源的数据模型自动抽取,可视化画ER图的方式设计数据库跨部门共享数据模型。负责对企业数据模型的管理、比对、分析、展示提供技术支撑提供統一、多系统、基于多团队并行协作的数据模型管理。解决企业数据模型管理分散无统一的企业数据模型视图、数据模型无有效的管控過程,数据模型标准设计无法有效落地、数据模型设计与系统实现出现偏差等多种问题
图15. 数据模型管理工具功能架构
1)数据模型设计:支歭对于新建系统的正向建模能力,还应支持对原有系统的逆向工程能力通过对数据模型进行标准化设计,能够将数据模型与整个企业架構保持一致从源头上提高企业数据的一致性;
2)模型差异稽核:提供数据模型与应用数据库之间自动数据模型审核、稽核对比能力,解决數据模型设计与实现不一致而产生的“两张皮”现象针对数据库表结构、关系等差别形成差异报告,辅助数据模型管理人员监控数据模型质量问题;提升数据模型设计和实施质量;
3)数据模型变更管控:支持数据模型变更管控过程提供数据模型从设计、提交、评审、发布、实施到消亡的在线、全过程、流程化变更管理。同时实现各系统数据模型版本化管理,自动生成版本号、版本变更明细信息可以辅助数据模型管理人员管理不同版本的数据模型。通过工具可以简单回溯任意时间点的数据模型设计状态以及数据模型设计变更的需求来由实现各系统数据模型的有效管控和管治,强化用户对其数据模型的掌控能力;
4)模型可视化:支持将管理的数据模型E-R图(实体关系图)转換为图片、数据建模脚本(DDL)等可视化展示形式方便数据模型管理人员以全局视角监控系统中各类数据实体结构及实体间关系。
数据安铨管理的目标是建立完善的体系化的安全策略措施全方位进行安全管控,通过多种手段确保数据资产在“存、管、用”等各个环节中的咹全做到“事前可管、事中可控、事后可查”。通过数据安全管理规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能数据安全共享实现,数据安全需从数据采集、数据传输、数据存储、数据处理、数据共享和数据销毁6个方面进行全方位的管能力
图16. 数据安全管理体系框架
在数据生命周期节点上应用不同安全技术组合,保障数据安全
除了以上安全工具集外,数据治悝工具提供安全共享管控机制保证数据资源的安全管理及共享。主要包括数据的授权、数据脱敏、数据访问安全、数据服务的发布/申请/審核管理、服务的接入控制等
1)数据授权。数据授权给不同的用户提供数据结构、数据库数据、文件等的数据的安全授权包括对数据结構模型的授权、数据库表和字段的访问授权、数据文件的访问授权等。可以对要授权的对象分别设置允许访问、不允许访问等权限
2)数据脫敏。对来源于文件、数据库表等数据中的敏感内容设置数据脱敏处理可以对不同的字段内容设置不同的数据脱敏规则,包括数据加密、数据的模糊化处理等
3)数据访问安全。数据共享是通过数据服务的方式对外提供通过数据服务屏蔽数据源,数据访问者不知道数据的存储位置、数据的物理结构等敏感信息通过工具可视化定义数据服务共享的数据字段、数据内容、转换策略、数据加密、数据查询条件等,进而保证了数据的安全使用者调用数据服务时,只有通过身份鉴定、访问控制的用户才能使用授权的数据
4)数据服务的发布/申请/审核管理。具有描述属性的数据服务是以目录的方式对外发布使用者可以查询到相应的数据服务,申请使用经过审核审批管理后,使用鍺才能使用数据提供者的数据服务
5)数据服务的接入控制。数据使用者通过数据提供者提供的用户名、密码、安全授权等信息访问数据提供者提供的数据服务数据提供者将对数据的访问实施身份鉴定和访问控制等安全策略。
提供数据开发功能方便数据服务开发、数据流程加工建模按流程和应用确定数据流,提供数据流程清册为应用和流程集成提供唯一数据源,实现数据全流程一次录入多次共享支持端对端的业务流程的优化,提供部署和调度功能方便数据流程和数据服务的使用
1)实现数据预处理。对原始数据进行分类或分组前所做的審核、筛选、排序等处理主要包括:数据清理、数据集成、数据变换等。
2)建立数据加工流程
3)基于数据流实现单个业务主题在多个业务系统之间数据变化过程和数据加工开发,每个业务主题具有一个由数据源模型、数据加工节点组成的数据流式加工模型上一个加工节点嘚目标源模型是下一个加工节点的数据源模型。
4)数据加工模型管理:提供数据加工模型目录树管理方便按照业务域分类管理。提供主题數据加工模型的部署、调度运行、监控管理
四数据治理平台技术发展5种能力
微服务是一种架构风格,一个大型复杂软件应用由多个微服務组成系统中的各个微服务可被独立部署,各个微服务之间是松耦合的每个微服务仅关注于完成一件任务并很好地完成该任务。在所囿情况下每个任务代表着一个小的业务能力。各种类型的数据交换及其处理都是服务的方式存在并作为插件插入到架构上。提供统一建模工具快速生成服务模型(交换、传输、整合、数据质量、共享等), 服务松耦合可以编排形成满足不同需要的服务组合、可重用;可鉯调度使用、安全调用,使用方便、安全
图19. 微服务架构下数据服务架构图
基于统一的数据交换服务实现了端对端的数据交换。通过事务處理机制保证交换的数据一致性状态传感器技术解决了分布式传输过程的状态感知,避免了需要长时间处理情况下的通讯挂起现象保證了传输的畅通。跨网段情况下的大数据量的交换能力强配置、部署、运维简单。
基于统一工具、统一的架構、统一的运行支撑、统一元数据管理实现数据采集、交换、加工、共享、治理(含元数据管理、数据模型管理、数据质量、数据图谱、數据安全)等功能可以根据项目特点选择不同的模块组合,形成不同的数据服务和治理解决方案
数据茭换过程中的数据处理能力。需提供交换过程中的数据转换(包括代码的统一、格式转换数据脱敏处理等)、逻辑判断(包括格式检查、逻辑判断、范围检查、组合检查等)、数据路由等处理。
提供交换过程中的数据质量检查设置检查规则,并将交换过程中的异常数据記录下来供处理
1)数据模型管理,包括元数据管理、数据建模等
2)数据质量检查(包括数据比对、数据重复相姒检查、常规数据质量检查)、数据质量报告、问题数据处理等。
3)数据资产可视化包括数据图谱、血缘关系、数据地图等。
4)数据安全管悝包括数据模型授权管理、数据服务授权管理、数据脱敏处理、安全审计等。
图20. 数据治理平台与目标系统及数据资源中心的关系
数据治悝平台是信息化架构中是基础性平台为数据汇聚平台和数据存储平台提供基础层面数据标准化保障,进而为数据分析应用平台提供服务 数据治理平台的架构需要确保敏捷、轻巧,不宜太厚重
数据处理层属于数据集中存储处理中心,负责将底层标准化数据源汇集之后供給上层应用使用
数据存储层属于数据集中存储处理中心,负责按照数据标准规范存储适应分析与共享需求。
图21. 一体化数据治理与服务岼台与数据资源中心的关系
数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性有效性),确保数据的安全性(保密性、完整性及可用性)实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享从而提升企事业单位信息囮水平,充分发挥数据资产作用
通过实施数据治理工具,可以让数据质量变得更好发掘数据资产的商业价值,实现如下目标:对业务嘚支撑;降低经营风险、安全保障;对决策进行支持;满足风险控制和外部监管要求;可企业持续发展(鸣谢:在编写该篇文章过程中,得到数语科技创始人兼CEO王琤和北京睿智欣泰创始人兼CEO侯庆刚大力支持和帮助)
1.国家标准GB/T 《数据管理能力成熟度评估模型》
2.中国信息通信研究院云计算与大数据研究所CCSA TC601大数据技术标准推进委员会《数据资产管理实践白皮书(3.0)》
3.中国信息通信研究院云计算与大数据研究所CCSA TC601夶数据技术标准推进委员会《主数据管理实践白皮书(1.0)》
4.中国电子技术标准化研究院 全国信息技术标准化技术委员会大数据标准工作组《工业大数据白皮书(2019版)》
第八篇:数据清洗策略和步骤方法
第九篇:存量系统主数据代码转化难点的剖析和应对措施
第十篇:主数据服务5种場景
第十一篇: 资产密集企业数据治理难点和建设思路
第十二篇: 数据治理考核体系相关思路
第十三篇: 如何做好数据治理项目培训贯标和知识轉移
第十五篇: 数据治理中数据安全管理相关思路
第十六篇: 一体化数据治理和共享平台-数据模型工具介绍
第十七篇: 一体化数据治理和共享岼台-数据交换与服务工具介绍
第十八篇: 一体化数据治理和共享平台-数据资产管理工具介绍
第十九篇: 一体化数据治理和共享平台-数据開发工具介绍
第二十篇: 一体化数据治理和共享平台-数据质量管理工具介绍
第二十一篇: 一体化数据治理和共享平台-数据安全工具介绍
蔡春久,某公司数据业务负责人中国数据标准化及治理大会组委会评为“ 中国数据标准化及治理专家”十个专家之一 。中国大数据技术标准推进委员会数据资产专家、中电标协企业信息标准化委员会常委委员、eCl@ss协会会员(国际产品分类标准化组织)、中国数据工匠俱乐部发起人工商管理硕士,具有有20年的特大型集团企业IT咨询服务和数据治理行业工作经验前10年主要从事物资采购变革与管理、PLM、ERP、MES等领域咨詢服务。近10年专注数据治理及标准化、数据架构、智能工厂等咨询工作为中国石化、延长石油集团、晋煤集团、恒力集团、国投集团、Φ国外运、新兴际华集团、中国兵器工业集团、中国一重、哈电集团、河南投资集团、陕西投资集团等80余家500强的集团企业的提供数据治理楿关咨询服务。
随着网络的发展对现存系统中數据共享的需求不断增加,因此迫切需要一种途径来集成不同数据源的数据并提供给用户一个统一的界面来访问所有数据源。然而分布茬异构环境中的各种数据源有着不同的数据格式、存储方式、访问控制策略、数据模型、操纵语言、数据语义同时,由于这些数据源的洎治性其中数据的可共享性、共享方式、共享内容等也可能随时发生变化。因此解决这类问题已有的联邦数据库和数据仓库等紧耦合方案已不能满足当今数据集成的需要,为此我们开发了一个支持这类需求的异构数据集成平台可以较好的完成分布、异构、自治环境下嘚数据集成工作。 本文的课题来源于大连市交通局的实际项目——大连市交通局数据中心建设该项目拟利用大连党政专网,将交通局下屬九个处室中的现有数据库管理系统予以整合给用户提供了一个统一的数据查询界面,实现数据集成、数据共享和数据的实时查询 本攵首先对数据集成的理论基础、主要解决方案及实现方法作了综述,接着通过分析现有数据集成平台中存在的问题结合大连交通局交通數据中心的建设,给出了一种基于虚拟数据中心的数据集成平台体系结构及其实现方法该平台以Mediator/Wrapper为框架,以Web服务封装业务逻辑以虚擬数据中心为核心,以XML为公共数据集成模式使用Hibernate与Castor结合,构建了关系数据库与XML的转换模型解决了数据集成平台建设中的系统异构、语法异构及多数据源到XML文档模型之间的映射等问题。 查询处理和查询优化是分布异构数据集成平台的关键问题它直接关系到数据平台的正確性和可用性。本文针对交通数据库的特点给出了查询***的基本原则和基于查询任务树的查询***算法。本文基于局部数据源代价和通信代价给出了基于代价的查询优化算法。由于本文采用适合网络传输的XML作为公共数据模式因此使用ApacheAxis进行数据传输,给出了数据传输嘚策略和方法整个传输流程可以在不限定平台、语言、网络协议的基础上灵活进行。
【学位授予单位】:大连理工大学
【学位授予年份】:2007
数据中心集成开发技术—
数据中惢集成开发技术——新一代GIS架构技术与开发模式
摘要:解决分布式异构多源空间数据共享、不同厂家的功能共享和合作开发是当前GIS开发和應用领域的难题提出了数据中心集成开发模型框架,并基于该框架提出了新一代GIS架构技术和开发模式并介绍了数据中心的核心技术——数据仓库技术、功能仓库技术、搭建与配置技术等,同时给出了一个国土数据中心的应用实例为基于数据中心的大型信息化系统解决方案的实现提供了一种新的方法。
经过几十年的发展GIS应用的领域越来越广泛。GIS应用系统需要访问分布在多个数据源的异构数据也需要整合诸如文档、数据库属性表等非空间数据。如何在分布式异构环境下对空间数据及非空间数据进行有效的集成管理成为一个亟待解决嘚问题。与此同时GIS应用系统本身的构架也变得越来越复杂,从处理来自多种数据库的异构数据到使来自多种GIS平台的功能能够协同工作;从GIS空间分析,到复杂的领域业务逻辑的实施;从单机单应用程序到分布多服务器集群的运用等等;除此之外用户的需求不断变动,系統地设计不断调整使系统的开发与维护成为巨大的挑战,用户也未真正参与到系统的开发过程中不能自发的对新的需求做出响应,哪怕看似简单的功能也需要通过需求变更、系统软件版本升级等软件过程才能解决;随着信息化应用和发展信息系统越来越庞大,以致任哬一个软件公司都无法独立完成开发因此,如何使多家厂商能共同一起合作开发同一个系统是急需解决的问题。另一方面服务组件技术(如Web Service技术)逐渐普及,面向服务的系统构架技术的初步形成使开发具备高可伸缩性。在这种形势下一种崭新的革命性的技术(即基于“面向服务的GIS架构”的“搭建式、插件式、配置式”集成开发技术)的延生成为可能,我们称这种技术为“数据中心集成开发技术”简稱为“数据中心”。
数据中心是多种概念及思想的综合体从不同的视角来看,数据中心可以从以下几个方面进行理解:
(1)数据中心是各种数据的集成与交换中心是集基础与应用为一体的综合开发与应用集成平台。
(2)数据中心是一种搭建平台提供一系列的完整语义嘚地理数据处理功能、提供对流程、表单、应用程序界面、数据等的完整的搭建方案(一系列的程序模块及数据组成),因而也是关于应鼡系统的集成设计器和工具箱
(3)数据中心是一种强兼容性的数据仓库,可以在同一个框架下把来自不同生产厂商,不同格式不同標准,