长尾场景下的数据如何清洗，有哪些方法、措施、注意点？

微调过程中，有很多种种任务，如何收集和标注多种情况的数据，对提升大模型的综合能力应对有重要意义，希望大家可以针对：长尾场景下的数据如何清洗进行探讨，可以从方法，措施，以及注意点方面进行共识交流？

收起

关注10

参与26

查看其它 8 个回答catalinaspring的回答

catalinaspring

副处长金融

如果模型基于错误的、无意义的数据建立，那么这个模型也会出错。因此，如果源数据带有缺失值（NaN），就需要在数据预处理中进行清洗。缺失值是最常见的数据问题，有很多处理缺失值的方法。保留对于有些缺失值占比不大或者通过其他信息可以进行推断的特征，去除缺失量太多的数据行或列。强烈建议在清洗的过程中每做一步都备份一下，或者在小规模数据上试验成功后再处理全量数据，节约时间，也充分留足撤销操作的余地。
如果数据是由系统日志而来的，那么通常会在格式和内容方面与元数据的描述保持一致。而如果数据是由人工收集或用户填写而来的，则有很大可能会在格式和内容上存在问题。
有时我们拥有多个包含相同信息的维度特征，这时就可以进行交叉验证，修复矛盾内容。比如一个隐去后六位的身份证号，100000199701XXXXXX，而年龄字段数据为18，这显然是不合理的，由于身份证号可信度更高，所以我们应该对年龄字段进行修复。
在真实世界中获取的数据常常会包含错误信息，有的是人为导致，有的是非人为导致，我们可以通过交叉验证及时发现并修复矛盾内容，为后期建模提供更高质量的数据信息。

银行 · 2024-01-11

查看赞同的人

长尾场景下的数据如何清洗，有哪些方法、措施、注意点？

查看其它 8 个回答catalinaspring的回答

回答者

catalinaspring 最近回答过的问题

回答状态