如何用spark实现:调用外部程序或者调用动态链接库函数,对批量文件进行处理?

问题描述

楼主的情况是,用自己的几台机器搭了sparkstandalone集群,用来做机器学习:生成可用样本、特征提取、训练、预测第一步中,一批原始文件经某算法的处理生成一批可用样本,而某算法是用C写的(有可执行程序和so库)那么问题来了:(1)对于这种需求有什么解决方案吗?(2)如果将每个文件都创建一个RDD,map时使用so库中的函数作为映射关系,可以实现吗?谢谢!

解决方案

解决方案二:
谢邀。不过我没看懂。不会用spark。

时间: 2024-09-12 00:05:50

如何用spark实现:调用外部程序或者调用动态链接库函数,对批量文件进行处理?的相关文章

用c#调用外部程序时不让这个程序得到焦点

问题描述 用c#调用外部程序时不让这个程序得到焦点我想用c#调用外部程序,调用时不转移当前的焦点,也就是不丢失当前窗体的活动状态.因为要经常调用与结束,每次都转移焦点很烦人.我也试了API中的showwindow,但不行.将调用程序启动样式改为Minimized或Hidden也不行.若先设启动Minimized后面加上showwindow(p.MainWindowHandle,0)也不行.希望大家告诉我一个可行的方法,在调用时隐藏或最小化等都在后台.谢谢,谢谢! 解决方案 解决方案二:你让当前窗

系统调用-请大神推荐书籍:关于C++调用外部程序的书籍

问题描述 请大神推荐书籍:关于C++调用外部程序的书籍 现在我想用C++调用外部函数,应用程序,和系统程序 本人看的书不多,求有系统详细讲解这方面相关知识的书籍推荐,最好是基于Linux环境的,比如:调用系统安装的其它程序,我想系统地学习这方面的知识,求推荐书籍 请大神指教,谢谢啦 解决方案 本质上你说的其实是linux下常见的命令行.不同的linux发行版不同.比如rs系,一般通过yum安装,Ubuntu用apt-get.你可以看对应的Linux手册.<鸟哥的Linux私房菜>是一本比较经典

C#中利用process类调用外部程序以及执行dos命令

程序|执行 c#中的Process类可方便的调用外部程序,所以我们可以通过调用cmd.exe程序 加入参数 "/c " + 要执行的命令来执行一个dos命令(/c代表执行参数指定的命令后关闭cmd.exe /k参数则不关闭cmd.exe)  1         private string RunCmd(string command)     2         { 3             //實例一個Process類,啟動一個獨立進程 4             Process

VC调用外部程序接口

(1) system() 函数名: system 功 能: 发出一个DOS命令 用 法: int system (char *command); 备 注: system函数已经被收录在标准c库中,可以直接调用 返回值 =-1:出现错误 =0:调用成功但是没有出现子进程 >0:成功退出的子进程的id 样 例: system("D:\\game.exe"); system("mmc.exe \"c:\\windows\\system32\\gpedit.msc\&

net-iis下调用外部程序出现内存不足错误。

问题描述 iis下调用外部程序出现内存不足错误. 因为需要在服务器端将ppt转换成其他格式,所以在iis下调用了编好的python. 在非服务器的环境下是可以正常使用的,但是iis下使用 using System.Diagnostics; Process p = new Process(); ... ... 的方式调用python脚本,执行到 python文件的: import win32com from win32com.client import Dispatch, constants pp

qt使用QProcess调用外部程序不成功

问题描述 qt使用QProcess调用外部程序不成功 想要完成一个点击按钮打开外部exe的功能,做了一个button然后转到信号与槽函数这这样的 两个QProcess调用方法都尝试过了,都是出现一个cmd框一闪就没了,这个程序是vs2012自己编写的一个程序,请问是哪错了 调用的函数 解决方案 这是两个调用函数 解决方案二: 本文转自:http://blog.csdn.net/WaderChan/archive/2009/05/19/4199913.aspx ? 本文通过QProcess,实现了

SqlServer调用外部程序实现数据同步

原文:SqlServer调用外部程序实现数据同步 首先创建两个数据库:SyncA是数据源,SyncB是对SyncA进行同步的数据库. 在SyncA和SyncB中分别创建Source表和Target表,实际业务中,两张表的结构大多不相同.     然后创建一个类库的项目:MySync(注意项目的版本,Sql08不支持的.net 4.0及更高版本) 下面是同步程序代码: using System; using System.Data; using System.Data.Sql; using Mic

scrollarea-QT中调用外部程序,输出显示的问题

问题描述 QT中调用外部程序,输出显示的问题 Linux下QT调用外部程序F,F运行的时间比较长,在运行过程中不断有输出,用scrollarea+label(或者什么textedit)来显示程序F的输出,用的是readAll(),程序运行过程中的输出可以看到,但是当F程序运行完毕的时候,只有最后一小部分的输出能够在区域里看到.滚动条都没有或者滚动条的区域很小,前面一部分的输出根本看不到了.. 求教.. 部分代码: out=new QTextEdit(); ui->scrollArea->set

c++-如何用C#调用这个C++dll的函数

问题描述 如何用C#调用这个C++dll的函数 extern "C" PB_RESULT __declspec(dllexport)CRDR_ReadData(OUT char* lpBuffer, IN DWORD dwBufferSize, OUT DWORD lpNumberOfBytesRead) { WriteLog4("[CRDR_ReadData]dwBufferSize=%d",dwBufferSize); if (m_crdr.m_ptrarray