数据治理与大型模建设的相互影响有哪些?

随着机器学习、云计算和大数据等技术的不断发展,以及大规模集成电路技术的飞速进步,大模型的发展和应用,于近几年呈现突飞猛进之势。同时,大模型趋势下,企业数据治理体系,挑战和机遇并存。一方面,大模型的训练,需要大量的基础数据,而数据采集、清洗、加工、处理等环节需要耗费大量...显示全部

随着机器学习、云计算和大数据等技术的不断发展,以及大规模集成电路技术的飞速进步,大模型的发展和应用,于近几年呈现突飞猛进之势。同时,大模型趋势下,企业数据治理体系,挑战和机遇并存。一方面,大模型的训练,需要大量的基础数据,而数据采集、清洗、加工、处理等环节需要耗费大量时间和人力,数据质量的提升也需要长期、持续的过程。另外,大模型的训练和推理,需要高性能的计算资源及强大的算法和计算能力的支持,这都需要企业持续加大投资规模、并加强技术研发。另一面,大模型的发展,也为企业的数据治理和应用带来了新的机遇。企业需要思考在数据治理、数据存储、数据安全、数据整合、数据分析和挖掘以及业务应用等方面,如何提高能力、加强应用和队伍建设,以有效应对大模型带来的挑战,实现数字化转型。
当前,很多企业都面临数据不全、不准、不一致等问题,这对大模型的分析结果将产生极大的不利影响。如果把大模型比喻成做饭的“锅”,那数据就可以理解成“米”,如果米的质量不好,锅再高级,也很难做出好吃的米饭,因此,大模型如何与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,并促动提高企业的数据治理能力就显得非常重要。期望大家能在大模型如何与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,并促动提高企业的数据治理能力方面形成共识,如,大模型的部署和应用如何有效对接企业的数据仓库,并结合大模型在企业各领域的应用,配套有效提高仓库中数据的准确性、完整性、一致性、有效性。希望专家们围绕大模型与企业数据湖/湖仓一体/数据仓库如何有机融合,并同步如何提升企业数据治理能力等方面开展研讨和交流。

希望本话题可以重点围绕:
讨论企业的数据治理能力(包括治理架构、数据标准、数据字典、标签管理、指标设计、数据安全等)与大型模开发、调整和应用的相互影响?

收起
参与3

返回catalinaspring的回答

catalinaspringcatalinaspring联盟成员副处长金融

效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。而数据治理的新内涵,面向大模型训练常见的非结构化数据。
非结构化数据治理的首要难题是,高质量的领域数据获取的成本。数据集质量的评估是多维度的,需要平衡几项因素:灵活性、多样性和准确率。其中,灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答,这在通用大模型应用中很常见。而领域数据之所以对质量要求高,也是因为对准确率要求很高。
数据类型的划分,除了质量,还可以从知识表示的形式进行划分,不同形式对应不同的训练方法。数据或任务通常包含两大类型,第一种属于重表示型,比如把对Java线程的解释进行重新表述,第二种属于知识问答型,比如如果不知道授信额度的准确定义,就无法回答一些相关知识问答。
效率是一方面,性能是另一方面。企业做产品,除了提升效率来保证落地,也要在保证效率前提下提升性能,才能最大程度上保证用户体验。

银行 · 2024-01-11
浏览245

回答者

catalinaspring
副处长金融
擅长领域: 人工智能数据库大数据

catalinaspring 最近回答过的问题

回答状态

  • 发布时间:2024-01-11
  • 关注会员:1 人
  • 回答浏览:245
  • X社区推广