长尾场景下的数据如何清洗,有哪些方法、措施、注意点?

微调过程中,有很多种种任务,如何收集和标注多种情况的数据,对提升大模型的综合能力应对有重要意义,希望大家可以针对:长尾场景下的数据如何清洗进行探讨,可以从方法,措施,以及注意点方面进行共识交流?...显示全部

微调过程中,有很多种种任务,如何收集和标注多种情况的数据,对提升大模型的综合能力应对有重要意义,希望大家可以针对:长尾场景下的数据如何清洗进行探讨,可以从方法,措施,以及注意点方面进行共识交流?

收起
参与26

查看其它 8 个回答soap的回答

soapsoap课题专家组人工智能算法工程师申万宏源证券有限公司

金融行业经常会面临一些长尾风险,往往长尾风险会导致很大的损失。自然语言大模型作为泛化能力很强的模型,在长尾场景的表现却往往不尽人意。但是金融行业作为对长尾非常敏感的行业,不能忽视长尾带来的巨大风险。我认为,在上线之前要对大模型进行严格的测试,确保在极端情况下不会产生极端的错误。在这个过程中应该与业务相结合,对之前遇到的对业务产生巨大影响的业务场景进行归纳总结,作为训练数据,尽可能多的获取多种类型数据,并通过历史经验进行模型的微调和修正。此外,在大模型部署同时,做出对产生回答的过滤,减少产生巨大长尾风险。

证券 · 2024-01-15
浏览567

回答者

soap
人工智能算法工程师申万宏源证券有限公司
擅长领域: 人工智能大数据数据库

soap 最近回答过的问题

回答状态

  • 发布时间:2024-01-15
  • 关注会员:10 人
  • 回答浏览:567
  • X社区推广