PiFlow是一款非常强大的大数据流水线系统,混合型科学大数据流水线系统,这款系统将数据采集、储存的等环节封装成组件,软件简单使用容易,提供100+的数据处理组件,如果有需要朋友的可以来本站下载试试。

软件特色
简单易用。
可视化配置流水线。
监控流水线。
查看流水线日志。
检查点功能。
扩展性强:
支持自定义开发数据处理组件。
性能优越:
基于分布式计算引擎Spark开发。
功能强大:
提供100+的数据处理组件。
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。
集成了微生物领域的相关算法。
使用方法
解压piflow-server-v0.9.tar.gz。
tar -zxvf piflow-server-v0.9.tar.gz。
编辑配置文件config.properties。
运行、停止、重启PiFlow Server。
start.sh、stop.sh、 restart.sh、 status.sh。
测试 PiFlow Server。
设置环境变量 PIFLOW_HOME。
vim /etc/profile。
export PIFLOW_HOME=/yourPiflowPath/bin。
export PATH=PATH:PIFLOW_HOME/bin。
运行如下命令。
piflow flow start example/mockDataFlow.json。
piflow flow stop appID。
piflow flow info appID。
piflow flow log appID。
piflow flowGroup start example/mockDataGroup.json。
piflow flowGroup stop groupId。
piflow flowGroup info groupId。
如何配置config.properties。
#spark and yarn config。
spark.master=yarn。
spark.deploy.mode=cluster。
#hdfs default file system。
fs.defaultFS=hdfs://10.0.86.191:9000。
#yarn resourcemanager.hostname。
yarn.resourcemanager.hostname=10.0.86.191。
#if you want to use hive, set hive metastore uris。
#hive.metastore.uris=thrift://10.0.88.71:9083。
#show data in log, set 0 if you do not want to show data in logs。
data.show=10。
#server port
server.port=8002
#h2db port
h2.port=50002
VMware Workstation Pro 是一款功能强大的桌面虚拟计算机软件,支持在单台计算机上运行多个虚拟机实例,可进行高级虚拟化设置和管理。已发布至 26H1 版本,此次更新也是整合安全补丁,并纠正了...
Win11 26H1 28000.2173(KB5089570)是 RP 频道最新的预览版补丁,此次更新在打印设置中添加了一个新图标用于显示是否支持 Windows 受保护的打印模式,并改进了第三方驱动程序与 midisrv.exe 的...
AMD 显卡驱动是专为 AMD 系列显卡量身打造的官方驱动程序,现已更新至 26.5.2 版本。此次更新不仅修复了运行《RoadCraft》时可能会出现应用程序间歇性崩溃或驱动程序超时,还支持《极限竞速:地...
CPU-Z 是一款功能强大的系统信息检测工具,拥有精准的硬件识别能力和简洁直观的界面设计,同时还扩展了对主板芯片组、内存规格、显卡信息等硬件组件的检测能力,此次更新不仅添加了对大量硬件的...
Intel Arc 显卡驱动是英特尔官方推出的显卡核心驱动程序,现已更新至 32.0.101.8801 版本。此次更新为《极限竞速:地平线 6》《乐高蝙蝠侠:黑暗骑士的遗产》《深海迷航 2:异星水域》三款游戏...
云小记是一款简洁好用的桌面便签软件,现已更新至 1.4.5 版本。本次更新新增番茄时钟、定时关机工具,并修复已知的问题。该软件支持随手记笔记、待办清单与日程提醒,用户还可以自定义便签样式...
发表评论
共0条
评论就这些咯,让大家也知道你的独特见解
立即评论以上留言仅代表用户个人观点,不代表系统之家立场