银行大模型数据湖和数据仓库

数据治理与大型模建设的相互影响有哪些？

随着机器学习、云计算和大数据等技术的不断发展，以及大规模集成电路技术的飞速进步，大模型的发展和应用，于近几年呈现突飞猛进之势。同时，大模型趋势下，企业数据治理体系，挑战和机遇并存。一方面，大模型的训练，需要大量的基础数据，而数据采集、清洗、加工、处理等环节需要耗费大量...显示全部

随着机器学习、云计算和大数据等技术的不断发展，以及大规模集成电路技术的飞速进步，大模型的发展和应用，于近几年呈现突飞猛进之势。同时，大模型趋势下，企业数据治理体系，挑战和机遇并存。一方面，大模型的训练，需要大量的基础数据，而数据采集、清洗、加工、处理等环节需要耗费大量时间和人力，数据质量的提升也需要长期、持续的过程。另外，大模型的训练和推理，需要高性能的计算资源及强大的算法和计算能力的支持，这都需要企业持续加大投资规模、并加强技术研发。另一面，大模型的发展，也为企业的数据治理和应用带来了新的机遇。企业需要思考在数据治理、数据存储、数据安全、数据整合、数据分析和挖掘以及业务应用等方面，如何提高能力、加强应用和队伍建设，以有效应对大模型带来的挑战，实现数字化转型。
当前，很多企业都面临数据不全、不准、不一致等问题，这对大模型的分析结果将产生极大的不利影响。如果把大模型比喻成做饭的“锅”，那数据就可以理解成“米”，如果米的质量不好，锅再高级，也很难做出好吃的米饭，因此，大模型如何与企业原有架构（如数据湖、湖仓一体、数据仓库）有机融合，并促动提高企业的数据治理能力就显得非常重要。期望大家能在大模型如何与企业原有架构（如数据湖、湖仓一体、数据仓库）有机融合，并促动提高企业的数据治理能力方面形成共识，如，大模型的部署和应用如何有效对接企业的数据仓库，并结合大模型在企业各领域的应用，配套有效提高仓库中数据的准确性、完整性、一致性、有效性。希望专家们围绕大模型与企业数据湖/湖仓一体/数据仓库如何有机融合，并同步如何提升企业数据治理能力等方面开展研讨和交流。

希望本话题可以重点围绕：
讨论企业的数据治理能力（包括治理架构、数据标准、数据字典、标签管理、指标设计、数据安全等）与大型模开发、调整和应用的相互影响？

收起

关注1

参与3

返回catalinaspring的回答

catalinaspring

副处长金融

效能建设的核心变量，在于数据治理。但这个“数据”，和大数据时代的“数据”，内涵又有很大不同。传统的数据治理，针对数据分析场景，主要面向结构化数据，包括主动元数据、AI增强治理等技术，已成比较成熟的体系。而数据治理的新内涵，面向大模型训练常见的非结构化数据。
非结构化数据治理的首要难题是，高质量的领域数据获取的成本。数据集质量的评估是多维度的，需要平衡几项因素：灵活性、多样性和准确率。其中，灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答，这在通用大模型应用中很常见。而领域数据之所以对质量要求高，也是因为对准确率要求很高。
数据类型的划分，除了质量，还可以从知识表示的形式进行划分，不同形式对应不同的训练方法。数据或任务通常包含两大类型，第一种属于重表示型，比如把对Java线程的解释进行重新表述，第二种属于知识问答型，比如如果不知道授信额度的准确定义，就无法回答一些相关知识问答。
效率是一方面，性能是另一方面。企业做产品，除了提升效率来保证落地，也要在保证效率前提下提升性能，才能最大程度上保证用户体验。

银行 · 2024-01-11

查看赞同的人

数据治理与大型模建设的相互影响有哪些？

返回catalinaspring的回答

回答者

catalinaspring 最近回答过的问题

回答状态