在推动旅游业的大数据应用方面,没有企业比Airbnb做得更多,走得更远…

与大多数互联网公司一样,旅行房屋短期租赁网站Airbnb也希望通过分析海量数据提升用户体验和业务营收。Gigaom最近撰文介绍了Airbnb如何在亚马逊云的基础上打造大数据基础架构,并将数据分析作为产品和业务决策的基础,IT经理网编译整理如下:“我们希望所有的决策都基于数据,我们希望成为数据驱动的公司”。这是今天硅谷企业家的梦想,Airbnb副总裁Mike Curtis也不例外。Curtis加盟Airbnb不到半年,此前两年他的履历是Facebook的工程总监。

“在推动数据科学在旅游业的应用方面,没有人比我们做得更多。长期看,这需要很多金刚钻。”Curtis说道。

个性化搜索的挑战Airbnb的一大数据难题是找到即将推出的个性化搜索的最佳方式,我们希望客户能找到符合他们个性化要求的最佳选择。

但是为不同的用户个体提供个性化的搜索排名会带来非常棘手的算法难题。搜索结果依据社区或地理位置排名还相对简单,但是要加入用户决策的其他因素,例如社会关系、租赁历史、评价等数据点后,整个事情就变得复杂起来。(如果加入Airbnb的城市、客户和租户的人口统计以及其他租赁元数据的话,问题就更加复杂)

Twitter的个性化搜索引擎就整合了大量判断相关度的因素,其背后涉及的数据科学问题就非常复杂。

此外,Airbnb还需要通过数据分析帮助房主制订最佳的房屋租赁价格。

Airbnb也希望能够走Facebook的路子,让hadoop成为所有公司员工都能轻松使用的强大工具。

Mesos是关键

13

Mesos的架构图

Airbnb实现大数据梦想的战略性工具是一个名为Mesos的开源集群管理项目。该技术来自加州伯克利的[size=1em]AMPLab实验室(该实验室开发的技术例如Spark内存并行处理框架可以让Hadoop运行得更快,比MapReduce快100倍)。可以让用户在单一资源上运行多种计算框架,当然,也可以是多个独立的Hadoop集群。Twitter的使用让Mesos在互联网圈声名鹊起,上周Mesos已经成为Apache的顶级项目。

对于Airbnb来说,Hadoop之外,Mesos也是Airbnb工程师们大化利用亚马逊AWS云资源的的关键工具。Airbnb是Hadoop的重度用户,但Curtis希望能测试流处理的Storm,还希望能用Spark加速Hive查询。

事实上,Spark对搜索排名、定价、错误排查等算法模型来说特别有用,这些模型大多涉及机器学习,而Spark能大大提升Hadoop的性能,能更快更多地运行这些模型。

Airbnb开发的一个分布式任务计划器——Chronos,也运行在Mesos上。

除了资源管理和效率提升外,Curtis表示Mesos还能有助于推动Airbnb搭建高机动性小团队的工程战略。Airbnb资源分配的自动化水平越高,工程师们就能腾出更多时间做其他事情。

云计算的可以,MapReduce的不要

14

虽然Airbnb运行在AWS云上,但通过Mesos,Airbnb可以不使用亚马逊的Elastic MapReduce Hadoop服务。据Curtis透露,Airbnb这么做的原因有很多,其中最重要的一点是可以通过Mesos统一管理所有其他Airbnb需要运行的框架,而且能对Hadoop环境控制的粒度更好。Elastic MapReduce也可以看作是亚马逊自己的Hadoop发行版本,这意味着用户需要依赖AWS提供补丁升级,而且仅仅是为了Hadoop任务而准备的。

Airbnb的另外一位工程师Brenden Matthews上周在Twitter总部的一次演讲(演示文稿)介绍了Airbnb如何从Elastic MapReduce迁移到Mesos上,以及在云端运行Hadoop经常会遇到的一些技术难题。

Curtis认为,AWS总体来说还是稳定的,搭配Mesos使用后,Airbnb可以随时做需要做的任何事情。Airbnb的ad hoc分析查询也不会与长时间运行的批量工作流冲突。

“在集群上跑任务的速度实际上是一个资源分配问题,取决于你需要投入的资源”Curtis说道。

总之,云计算让Airbnb这样的创业公司在前期只有少量投入的情况下就能购买和管理服务器,“想想如今大部分服务器都被抽象化了,这确实是一件美妙而惊人的事情。”Curtis感叹道。

 

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-24 09:38:00
大数据资讯 关注县域数据能力建设,抢占产数业务发展先机
2023年《数字中国建设整体布局规划》正式发布,数据能力已成为我国区域发展的底座和创新引擎。 <详情>
2023-03-30 11:15:07
云资讯 分布式时代已至,数据如何更有价值?
无论是连通各大集群内大型超大型数据中心,还是连接边缘侧小型、边缘数据中心,分布式云计算都已成为这张算力网络最重要的支撑。在此背景下,云计算步入分布式时代。 <详情>
2023-03-01 19:27:00
市场情报 FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态
大数据+大算力+强算法=大模型”是当前人工智能发展的主要技术路径。语言大模型ChatGPT成为现象级应用,人工智能进入普及应用的新时期。 <详情>
2023-01-09 09:36:46
大数据资讯 我国互联网广告数据匿名实施服务正式上线
《指南》形成的“技术保障、评估规制、过程控制”的互信制衡机制,适用于各类互联网广告业务,包括广告投放、程序化交易、广告监测等应用场景下的数据匿名化处理。 <详情>
2022-12-30 10:10:19
大数据资讯 中国移动磐维数据库正式发布
未来,随着数据库功能和稳定性等进一步增强,磐维数据库将在中国移动内外部的广泛应用中积累更多复杂业务场景实践经验,进一步提升数据库产品的核心技术能力,助力数智化转 <详情>