效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。而数据治理的新内涵,面向大模型训练常见的非结构化数据。
非结构化数据治理的首要难题是,高质量的领域数据获取的成本。数据集质量的评估是多维度的,需要平衡几项因素:灵活性、多样性和准确率。其中,灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答,这在通用大模型应用中很常见。而领域数据之所以对质量要求高,也是因为对准确率要求很高。
数据类型的划分,除了质量,还可以从知识表示的形式进行划分,不同形式对应不同的训练方法。数据或任务通常包含两大类型,第一种属于重表示型,比如把对Java线程的解释进行重新表述,第二种属于知识问答型,比如如果不知道授信额度的准确定义,就无法回答一些相关知识问答。
效率是一方面,性能是另一方面。企业做产品,除了提升效率来保证落地,也要在保证效率前提下提升性能,才能最大程度上保证用户体验。