分布式流数据开发工作室是人工智能学院所属的创新数智工作室,专注于大数据开源引擎的敏捷开发、数据采集与标注、ETL及实时数仓建设、批处理及实时流数据应用研发人才培养。
工作室以华为“HCIP/HCIE”课证融合教学平台为依托,设立5个开发组:
1)数据采集与智能标注:提供数据采集,分类校验,内容提取,特殊信息采集.支持大规模图像,视频,语音,文字等数据采集服务。
2)数据建模及ETL开发:从数据接入到数据处理、加载以及模型设计、调度管理等,在建模的同时同步完成ETL流程设计,提供一站式数据建模及处理服务
3)海量批数据开发:支持各种异构数据源,提供多种类型的数据离线处理,支持TB级的异构数据全量、增量同步,满足用户在各种Hadoop大数据场景下对数据处理速度快和效率高的需求。
4)实时流数据处理:兼容多种大数据引擎(Kafka、Flume、Spark、Flink等),满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求
5)实时数据仓库:通过大数据仓库技术(Hive、HBase、MongoDB、Redis)与任务调度引擎实现金融、电商等场景的即时存储、查询、数据分析与挖掘、支持决策算法建模与训练。
团队构成
工作室现有12名学生成员,涵盖数据科学与大数据技术、人工智能和软件工程专业,采用企业级研发管理模式进行项目开发。
目标定位
通过紧跟大数据+AI技术发展趋势,衔接华为大数据开发产业链,培养具备工程师品格的高技能大数据+AI人才,服务于企业数字化转型与技术创新。
工作室负责人:陈智勇
电话/微信: 136 9749 1937
广州理工学院 人工智能学院
邮编:510540