目前是技术方案选择的问题
我们目前拥有离线区块链交易数据
数据体量:30亿条交易数据,每条交易包含10个字段(主要的字段:发送地址、收款地址、交易类型、交易金额)
我们想做的:
根据业务需求提出分析策略,利用机器学习建立模型输出分析结果,为交易地址打上标签
策略比如:
实体聚集:多个账号行为、交易路径 相似度高的
路径符合:在有商品上架后,在限定的时间内进行了购买的地址。然后卖出,又买入了同一个其他商品的地址。
(几百万种商品在不同的时间上架)
整体工作包含
1,数据获取(完成)》
2,建设大数据平台〉导入数据》数据清洗〉
3,基础数据建模分析(抽象化分析)
4,机器学习算法分析
我们的疑问是:想要完成能够适配这个数据量的大数据分析(能够用于建模和机器学习),用什么大数据平台方案
我们现在打算使用hadoop和spark来完成此事
是一个好的选择吗
收起