目前全国大模型厂家这么多,在进行私有化落地的时候,就需要进行大模型的POC测试与选型,我们总结了目前内部比较关注的一些点
产品能力:
1.效率稳定性
2.性能优越性
3.安全可控性
服务能力:
1.工程化能力
2.平台生态能力
3.需求匹配能力
对于这些点,存在一个比较稳定的通用测试方案。是否存在类似数据库TPCC,TPCDS这样的标准型测试,定义大模型层面的一些基础性指标,评估各家大模型的强弱。
我觉得现阶段不要想的太多,也不要用之前搞系统的方式来看待新东西。
使用似SuperCLUE,C-Eval等的评测,加上自己的一些主动评测就好。
其实目前私有化部署方面Llama2 是最佳选择,做大模型评测交给类似BAAI(flagEval等),SuperCLUE就好,不要自己去玩。
针对您提出的问题,我认为您的想法是可行的。在大模型的POC测试与选型过程中,确实需要考虑到效率稳定性、性能优越性、安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的因素。而通用测试方案也是非常必要的。
目前,大模型的通用测试方案还没有像数据库TPCC、TPCDS这样的标准型测试那么成熟。但是,我们可以参考一些已有的测试方案,如BERT模型的GLUE测试、GPT-2模型的PPL测试等。这些测试方案可以评估大模型在不同任务上的表现,从而对大模型的效率稳定性、性能优越性等方面进行评估。
此外,对于大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估,可以考虑以下几点:
综上所述,对于大模型的POC测试与选型,我们可以参考已有的测试方案,同时也需要考虑到大模型的安全可控性、工程化能力、平台生态能力、需求匹配能力等方面的评估。这样才能够全面、准确地评估各家大模型的强弱,选择最适合自己的大模型。