您的位置首页  网络科技  前端

获投资 少年极客造智能爬虫 清理2千万网页 为3000企业寻干净数据

  初二自学黑客技术,初三自建网站,高一参加iGoogle大学生创新设计大赛并获,高二孤身拜访李开复,被他写入《向死而生》一书中,大一开始组建学生技术团队,大三在校园O2O领域创业,获得四轮融资……

  去年10月,他带着一帮同样“Geek”的员工成立了造数科技有限公司,开始新一次创业。

  造数是一家技术驱动的公司,通过智能解析网页,帮助客户在没有编程基础的情况下,快速获取互联网的公开数据。企业可运用这些外部数据来分析市场、应对竞争、促进销售等,并省去招募爬虫工程师和爬虫的成本。

  注:黄震昕承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。

  他在找自己的导师周涛,导师是一位业内的传奇人物:27岁成为四川最年轻的教授,《大数据时代》、电子科技大学互联网科学中心主任……这串头衔可以排到很长。

  更重要的是,从自己入校那天起,导师就给予了自己信任和支持。他相信这次也不会例外。

  三人在一栋教学楼的三楼走廊见面。年轻的教授从走廊翻到天台,示意他俩跟着过去。

  “智能云爬虫,我想从大数据产业链的基础层切入,把互联网上已经开源但是混乱的大数据转成结构化数据,为企业提供有价值的数据资产。”

  “我的团队有完整的创业经验,愿意跟我一起干的都是待了3、4年老员工,技术层面绝对信得过……”黄震昕从技术、团队方面回答了老师的问题。

  300万投资,一支跟了自己4年的技术团队,这是黄震昕去年8月启动造数时的全部资本。

  对很多中小企业来说,需要从互联网获取外部数据,以便进行市场分析、舆情和竞对分析等活动, 例如,对京东、亚马逊的商品进行追踪以获得市场的最新动态,对商圈内大众点评店铺数据进行分析以得到最佳的店铺选点,或者对的招投标网站进行检测以第一时间获得市场动态。

  大数据时代到来,市场上爬虫的需求越来越多,但是爬虫需要的代码基础使这项服务的专业性门槛较高。“一个小型企业聘请爬虫工程师的成本至少在20万,中型企业的爬虫工程成本更高。”

  黄震昕想做的,是用智能算法来做互联网数据的挖掘,提高效率,为企业节省人力成本,让企业把更多时间集中在数据本身上。

  8月的一天,天气正好,日历上说宜动土装修、搬家、结婚、开业,这是黄震昕特意选的黄道吉日,那天,项目正式开工。

  一是可以智能解析页面结构。客户无需编程基础即可使用,不用再专门雇佣爬虫工程师,从而简化操作流程,降低产品使用门槛。

  第二则是造数的服务搭建在云上,客户只需访问网站即可使用,不需要下载专门的软件。“整个平台都是基于云端的”。

  一位客户主动找上门来,说自己之前想用某工具采集亚马逊上一件商品的所有评论结果,要学习大量专业名词,看5个以上的长视频来学习,“花了一周时间也没学会软件操作”。

  改用造数之后,客户5分钟学会操作,从创建爬虫和得到结果一共也没用上十分钟。

  之所以如此,是因为团队此前运营推广效果开始,“那天造数网站的访问量超过2000,用户量激增”。

  对造数这种以技术驱动的公司来说,技术研发过程难度虽大,但心中总算有谱。重点要做的,反而是如何将产品推向市场。

  恰好,团队负责运营的一位同事在知乎拥有10万粉丝。他在“你写论文时发现了哪些神网站?”这个问题下作答,提到了自己家的网站。

  无心插柳,最终这个问题得到约400个赞同,给网站带来1500多的访客。

  那天之后,团队立马重新调整了系统架构,并对服务器进行了升级。“增加此前平台没有的集群架构,提高了系统可伸缩性”。

  为了保持系统持续性运转,团队一直在优化底层技术。2月下旬,造数完成了对网站的深度爬取功能。3月中旬,造数完成了API功能……

  现阶段,造数可以提供两种服务模式,一种是根据爬取次数收费的普通服务,另一种则是根据企业需求单独定制的服务,包括私有化部署版本购买,知识图谱,数据产品开发等。

  企业用户在使用造数时,需要先行注册,之后输入需要爬取的页面并选取得所需的数据,配置地址规则,之后平台会自动抓取,得到用户所需数据。

  数据导出时,用户可通过控制台选择自己喜欢的格式输出,系统目前已经支持Excel,CSV,JSON等多种格式,也可以通过API与企业内部系统进行融合。

  今年,黄震昕和团队将继续优化算法,提高系统智能度以使产品更加易用。同时,团队正计划启动下一轮融资,资金主要用于技术的研发升级。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
友荐云推荐