问题描述
楼主的情况是,用自己的几台机器搭了sparkstandalone集群,用来做机器学习:生成可用样本、特征提取、训练、预测第一步中,一批原始文件经某算法的处理生成一批可用样本,而某算法是用C写的(有可执行程序和so库)那么问题来了:(1)对于这种需求有什么解决方案吗?(2)如果将每个文件都创建一个RDD,map时使用so库中的函数作为映射关系,可以实现吗?谢谢!
解决方案
解决方案二:
谢邀。不过我没看懂。不会用spark。
时间: 2024-09-12 00:05:50
楼主的情况是,用自己的几台机器搭了sparkstandalone集群,用来做机器学习:生成可用样本、特征提取、训练、预测第一步中,一批原始文件经某算法的处理生成一批可用样本,而某算法是用C写的(有可执行程序和so库)那么问题来了:(1)对于这种需求有什么解决方案吗?(2)如果将每个文件都创建一个RDD,map时使用so库中的函数作为映射关系,可以实现吗?谢谢!
解决方案二:
谢邀。不过我没看懂。不会用spark。