自我简介

Hi,我是George Zhu。我毕业于日本九州大学,获得工学硕士学位。

我在软件开发行业有超过8年的经验,并在日本的一家咨询公司作为数据科学家提供过数据驱动的解决方案。

我目前是一名自由职业者,主要从事数据科学和软件开发领域。

通过我在日本的留学以及工作经历,我经历了很多,也磨炼了很多。对国际团队间的合作有一定见解。对于帮助外国企业进入中国市场

我提供的服务

数据驱动的软件开发

机器学习,深度学习的解决方案

使用图数据库(Neo4j)可视化数据,知识图谱构建等

为海外公司进入中国市场提供帮助,包括建立和运营微信公众号,微信小程序等

我做过的项目

数据科学 项目

电扇运转的异常检测

这是一个使用Deep Learning技术实现工厂环境中异常检测的项目。目的是向一家工厂企业提供设备异常检测的解决方案。
我负责调查最合适的机器学习手法,收集测试数据,开发演示程序。向客户汇报工作等。
本项目中考虑工厂环境中不易收集异常数据的现状,首先采用了无监督学习算法的VAE生成模型进行了检验。另外也使用了isolatedforest聚类算法来做异常检测。由于无监督学习算法的检测效果不是很理想(60%左右的准确率),作为补足验证,我们也使用了对VGG16模型进行finetune的方法构建了监督学习的分类模型。最终,监督学习算法达到了98%的准确率。

开发工具包括: Python3, Keras, GCP, Matplotlib, Pandas, Flask, Kafka, OpenCV

下水道污水净化的预测

与日本的株式会社明電舎一起进行的项目。由于办公楼,住户的下水道排水,下水道蓄水池需要不定时地进行污水净化。 而净化污水所需的净化剂的投入量需要凭借业务人员的经验,并与天气等外部不可控因素有关。投入过少达不到净化效果,而投入过多会发生臭味。本项目通过使用机器学习技术进行建模进而自动预测净化剂的投入量。
我参与了定期与客户开展会议,商讨项目进展事宜。 对客户的业务数据,使用统计学的手法进行分析,并向客户汇报。 筛选适合机器学习的变量。使用线性回归,决定树等机器学习构建预测模型,使用聚类挖掘未知的特征量等。编写网络爬虫程序抓取第三方网站的公开数据用于建模。最后根据客户要求制作了一个APP调用预测模型简化客户的业务操作。

开发工具包括: Python3, Matplotlib, Pandas, Scikit-learn, Jupyter Notebook, Git, Docker

知识数据库与人机对话方式的知识获取系统的提案

为了扩大公司的数据分析领域的业务,与公司内的有志图形数据库(Neo4j)的同事一起设计开发一套人机对话方式的知识数据库系统。这是为了扩大公司的数据分析领域的业务自发提出的PoC项目。
我参与设计系统的整体框架以及开发。将公司网站上的博客通过自然语言处理导入图形数据库(Neo4j)中。使用话题模型(Topic Model)对博客中的话题进行聚类,构建知识图谱。对于用户输入的自然语言查询,通过分词,格解析等自动生成Neo4j的Cypher查询语句从Neo4j中得到潜在的查询结果。与全文检索不同的是这个项目意图不在与查找精确的结果,而在于查询存在于知识图谱中的未被发现的潜在知识。

开发工具包括: Python3, Neo4j, WordNet, Gensim, Cabocha

客户行为分析的基盘系统构建

使用图形数据库(Neo4j)构建一个客户行为分析的基盘系统。由于客户的数据都保存在 AWS 上,基盘系统也在AWS 上构建。
与客户商讨系统构建事宜。 向客户汇报每周的工作进度。 在 AWS 的 EC2 上构建 Neo4j 的实例,将客户的数据导入 Neo4j 中,并将第三方数据与客户数据进行关联,进而可以分析客户的其他行为特征。

开发工具包括: Python3, Pandas, Apache Spark, Docker, AWS

软件开发 项目

智能电表管理系统

开发智能电表管理系统。 这套系统简化了电力公司对分布在城市每个角落的电表的操作,提供一系列的远程操作,包括,收集电表的数据,开关电闸,指定时间段开关电闸,由于网络不通畅等原因对未收集的电表数据进行补测等。
常驻三菱电机的开发现场,与三菱的工程师一起设计并开发智能电表管理系统。 期间为日本国内两家客户,台湾一家客户,共 3 家客户提供了智能电表管理系统的开发。 指导团队新人,使他们快速进入项目。 根据客户的需求进行基本设计,详细设计,编码,测试。

开发工具包括: Java, Struts, Spring, Hibernate, JPA, dHtmlx, JQuery, Oracle, VoltDB, Javascript

对日软件开发

面向日本国内的离岸软件开发。
离岸软件开发通过将设计与开发分离,从而把系统的业务需求与系统的具体实现分开,这样开发人员可以在不需理解业务需求的情况下进行快速开发,通过将具体实现外包给开发成本较低的团队达到项目整体开发成本的降低。
由于离岸外包后团队间使用的语言不同,我担任了BSE来进行业务团队与开发团队的沟通。我也担当一些系统设计与开发的工作。

开发工具包括: Java, Struts, Spring, Hibernate, iBatis, Oracle, JQuery, PowerCenter

在职期间,为公司撰写的数据科学相关博客
博客均为日本撰写,请使用谷歌翻译查看相关译文

出版论文

  • “XMLデータベースにおける構造要約索引を用いたTree Pattern問い合わせ処理方式に関する検討”, データ工学と情報マネジメントに関するフォーラム(DEIM), 2011.
  • “XSim : A New Method for Generating Simulation Quotient of XML Documents in a Relational Database”, In Technical Committee on Data Engineering (DE), 2011.
  • “XSim: The First Method for Generating the Simulation Quotient of XML Documents in a Relational Database”, 2012 International Conference on Future Information Technology and Management Science & Engineering, Paper ID: 40.
  • “リレーショナルデータベースを用いた模倣索引の生成”, 第64回電気関係学会九州支部連合大会, 2011.
  • 学历

    日本九州大学 信息与计算科学 工学硕士学位

    语言

    中文: 母语

    日语: 精通 JLTP1级

    英语: 流利 TOEIC765分