在美的华人创业团队有一个天然的优势——庞大的中国市场。一边讲着流利的中文,一边运转着美式思维,这些创业者正在绞尽脑汁如何把手头的技术推送到母国市场。

汪晓宇刚刚结束中国的行程回到美国北卡罗来纳州。2013年,他创立大数据分析公司Taste Analytics,在此之前,他是北卡大学夏洛特分校的助理教授,并在美国五大视觉中心之一的夏洛特视觉中心任职。

简单来说,Taste Analytics的工作就是让“非结构化数据”最终以图像的形式输出,让有一定文化基础的人都能看懂这些数据在说什么。

非结构化数据对应的是结构化数据。在数据分析行业,大致的统计是,世界上约80%的数据都是非结构化数据。此前,数据分析绝大部分是针对结构化数据,比如姓名、性别、年龄这些信息,可以以word、excel等形式呈现的数据。而非结构化数据是更加“莫可名状”的:它们通常藏在你的聊天记录、邮件、发布的图片、语音以及视频中,数据分析师相信,对它们的研究可以让你深度了解自己。

在中美两国科技界对未来技术的甄选中,大数据分析通常位列其中,而非结构化数据又被认为是大数据产业的一个核心。

雅虎是这方面的先行者,包括后来的谷歌。中国企业在这个方面也做了很多努力,2012年官方也成立了非结构化数据管理标准工作组。

“国内现在在这一块的数据积淀相对较少,现有的数据绝大部分都是结构化的,而美国已经到三七分的比例。”汪晓宇对记者说道。他认为国内对于非结构化数据的分析处在“有概念、无工具”的状态。

不过,中关村大数据产业联盟副秘书长陈新河认为,非结构化数据分析在国内已经发展了多年,工具并不缺失,比如,舆情分析、广告上的应用以及语音识别上的应用,这些细分领域发展得都不错。

记者也从业内了解到,除了百度、阿里这些数据大户,一些创业公司及上市公司在这方面都有发力。

2014年,百度大数据部一位从业者曾表示,中国网民每年都会产生很多数据,移动端所带来的爆发式增长给大数据从业者带来非常大的挑战,这些数据有很多是非结构化数据,怎样把它们的价值分析和挖掘出来,是百度大数据面临的严峻问题。

事实上,在美国市场上,这也不是一项成熟技术。2005年左右,美国开始了对结构化数据的分析,2010年左右才开始重点关注非结构化数据领域。

“2013年时,我们曾经对60多家美国企业的高层进行访问,发现当时这方面的技术很落后,这就证明了,在非结构化数据分析领域存在非常大的蓝海。”汪晓宇说。

他开始朝着这个方向努力。此前,他曾在微软和富士通的研究院里接触到了大量文本分析的技术,包括自然语言的处理和机器学习。

两年之后,Taste Analytics拥有了一批美国金融机构以及世界500强公司的用户,并且在澳洲、荷兰开拓了市场。公司提供的业绩数据显示,2015年同比2014年收入增长了6倍,并且季度营收增长速度保持在300%左右。

Taste Analytics回国的第一步是给自己找到了来自于中国的投资者和合作伙伴。

近期,公司获得来自真格基金和聚合数据领投的pre-A轮投资,融资金额340万美金,前两者共投出了220万美金。

聚合数据是一家在线数据交易平台,为用户提供在线数据调用API服务。去年年底时,聚合数据曾经拿到中国文化产业投资基金、京东等合投的2.18亿元人民币的B轮融资,并且宣布启动国内上市计划。

“我们的本事是数据源,在数据分析的处理上还有不足,此次投资Taste也是希望补足短板。”聚合数据创始人左磊对《第一财经日报》记者说。公司此前提到将在数据分析、行业解决方案方面加强投入,此番向Taste Analytics投出了100万美金,并且会为Taste提供国内用户资源——目前聚合约有35万注册用户。

提高决策效率是每一个企业决策者渴求的事情,但他们绝对不会想每天面对数千条枯燥的数据,即便是这些数据里隐藏了巨大的商业机密。

在大数据的创业中,这就是一个机会,“特别是在垂直领域的数据应用分析,创业公司的机会主要在此,数据源和大数据基建上基本没有什么机会了。”左磊认为。

汪晓宇正在试图抓住这个机会。Taste Analytics对于非结构化数据分析的过程分为三步:第一步是由其开发的Signals平台通过数据接口帮助企业收集数据(这些接口包括亚马逊、天猫、Twitter、Facebook、Apple Store等),或是由用户将数据导入系统中,通过对细小到每一个字的数据进行深度学习,系统快速分析出各种结果信息,并形成预测性的分析结果;第二步,输出一个简洁明了的图像化分析结果;第三步,用户建立自己的分析模型。

第一步的预测性分析和第二步的可视化结果是Signals平台的核心。在日理万机的企业决策者看来,图像可能要比看word的白纸黑字和excel硬邦邦的表格有趣很多。

客服管理和电商数据处理是Signals平台的两个主要应用场景。对于很多公司来说,现在客户服务的周期越来越长,需要耗费很高的人力成本来处理大量的数据,跟踪各种奇葩的诉求。汪晓宇希望通过平台实现对这些客服数据的快速浏览和标准化分析,达到预判的目的。

对电商的数据分析是Signals的另一个应用方向。比如,一家深圳做音响的厂商想了解国外竞品的市场状态,将这个竞品在亚马逊上的网址粘贴到Signals平台上,Signals可以自动分析这款竞品的评价、走势。汪晓宇表示,Signals有自己的爬虫和数据采集器,覆盖了美国几乎所有的电商,目前正在渗透国内的电商平台。

现在,经常往返于中美两国的汪晓宇正在和京东接触,对于非结构化数据分析工具来说,电商平台海量的商家数据、客户评论是一个富矿,这也将是他们拓展中国市场的切口。不过,他还会面临诸多的难题,比如市场对于非结构化数据的整体认知,人们在多大程度上可以信赖这些“莫可名状”的数据;电商和社交平台是否愿意开放数据给“外来者”。况且,在中国市场上,百度和阿里这些数据大户所设立的竞争门槛也并不容易跨越。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-12-30 11:39:36
云资讯 构造云原生数据战略三大核心因素 亚马逊云科技2022 re:Invent全球大会发布多项新功能
亚马逊云科技指出了构建云原生数据战略的三大关键构成:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。 <详情>
2017-05-05 11:53:00
大数据资讯 聚焦云环境下大数据有效应用
随着互联网深入发展和移动互联网的日益普及,大数据孕育而生,云与大数据成为人们关注的热点。在近日召开的GMIC北京2017云与大数据峰会上,多位业界专家分享了云环境下大数 <详情>
2016-01-19 11:18:44
大数据资讯 夺权!非结构化数据制霸大数据
结构化数据与非结构化数据之争已经见到了眉目,而我国的大数据产业也正处在由结构化为主到非结构化为主的过程中。那么非结构化数据为何可以取代结构化数据制霸大数据市场呢 <详情>
2015-12-28 09:59:07
大数据技术 非结构化数据分析:大数据时代新价值
大数据”是近两年来各界最热议的话题之一,和“大数据”相关的实践几乎成为所有行业在技术和商业两个方面具创新意义的行动。 <详情>