在波兰,大数据发展也很迅猛,波兰企业的数据存储也在随之慢慢改变。在波兰,率先采用大数据的是网站、公共部门和其他需要处理大规模数据集的公司,它们最早构建了大数据项目的框架。
大数据发展
数据规模的快速增长,给业务决策者从数据中获取商业价值带来了新的挑战。
EMC波兰总经理Adam Wojtkowski表示:“在和大公司的CIO交流的时候,我经常问为什么不把广泛的信息和可用的数据转化为可供董事会使用的业务提案呢?在讨论应该采用的一些必要措施之后,人们越来越多地关心我的建议了。”
在波兰,当计划上新系统时,董事会总是希望传统的IT架构能够派上用场。
Hitachi数据系统公司咨询师 Radoslaw Machnica表示:“CIO确保企业能够访问有价值的信息,但几乎像不成文的规定一样,他不知道数据存储在哪,存储在什么系统里,以什么格式,什么媒介存储。”
基础架构挑战
大公司的IT管理员经常为大数据架构问题发愁。
Wojtkowski表示:“企业可以考虑融合基础设施,它让应用程序的部署和对先进分析需求的响应更容易。”
一些业务领导者怀有这样的疑问——大数据是不是只是数据分析的另一种说法,如果是,部署为什么会有问题?
Teradata波兰公司基础设施负责人Grzegorz Chmielowski表示:“大数据不能替代传统分析,反之亦然,你应该同时使用两种方法,只有这样才能取得想要的成果。”
计算投资回报率
SAP波兰CEOKinga Piecuch表示:“公司需要高效的设备和合适的软件快速分析大规模数据。”
大数据需要对硬件、软件和相关人力资源的投资,不过波兰SAS研究所管理总监Alicja Wiecka表示:“部署大数据系统的成本还是在多数波兰公司可承受范围之内的。”
“如果我们增加对董事会利益的计算的成本,即使对中型企业来说,对大数据的投资也应该是有利可图的。”
第一批大数据项目是由比较大型的公司开发的,比如银行、电信公司和大型交易网站。
社交网站和电商的大数据
NaszaKlasa是波兰基于校园的社交网站,拥有720万用户。
每年,NaszaKlasa都针对年轻、有志向的程序员,组织大数据夏令营竞赛。创建出最有意思的数据分析和知识挖掘的应用的参赛者,将赢得一笔奖金,获得NaszaKlasa数据科学家的称号。
NaszaKlasa董事会调查代表Krzysztof Sobieszek表示:“我们的数据仓库是建立在NetApp FAS过滤器上的,包含0.5PB数据,其中有用户行为、关系、交流、购物模型和他们的娱乐和广告消费。”
“我们通过自己的努力,创建了满足分析需求的大数据系统。我们每天的数据增长都超过1.3TB。”
“Allegro.pl是波兰大的网络拍卖服务,它使用Oracle数据库,分析系统和Exadata数据库一体机。”
Allegro.pl的CTO Wojciech Szczęsny表示:“大数据软件的创建和测试大多是由我们的子公司Allegro完成的。系统需要分析用户行为,帮助他们使用网站,找到想要的货物。我们使用Beyond.pl的云存储构建大数据系统。”
铁路系统的现代化
PKP PLK是波兰管理国家铁路的机构,掌控和全国18,500千米的铁路线。它计划将波兰铁路网全面现代化,这一切要从IT基础架构开始。
PKP PLK IT总监Rafal Zbirog表示:“在不久的将来,数据将飞速增长。届时将出现对快速访问详细数据分析的需求,这要求我们扩大IT基础设施,从而能够收集、处理和分析数据。”
现在,组织已经使用VMware将服务器虚拟化,并逐渐合并和简化全部IT基础架构。数据从Oracle数据库迁移到SAP数据仓库,数据分析运行在SAP HANA上。
Zbirog表示:“今天,生成一项分析报表已经不用几小时,在几分钟甚至几秒钟之内就可以完成。同时,数据持续增长迫使我们找到新的捕获和管理大数据、快数据的方法。为用户提供能够实时分析信息的平台。”
石油天然气公司的数据存储难题
在数据快速增长的压力下,油气开采公司Geofizyka Torun也部署了大数据系统。Geofizyka Torun在国际上很有影响力,是Chevron, ExxonMobil, GSPC, Oil India, Shell和Total等大型公司的承包商。
每天,Geofizyka Torun存储、管理和处理的生产数据有100TB之多,多是地震研究和地球物理测量的数据。随着页岩气勘探的兴起,数据量在最近几年有了显著的增长。
Geofizyka Torun 此前使用IBM iDataplex 和Sun Fire X4100 服务器运行SeisSpace/Pro MAX, GeoDepth 和Echos软件。由4个实验室、50个分析人员在不同的平台处理数据。
Geofizyka Torun ICT经理Michał Słupski表示:“在地理分析和实地检验领域,工具有了突飞猛进的发展。不过,大数据系统需要高效、灵活和高容量的工具,这是传统存储系统不能实现的。”
所以,Geofizyka Torun开始寻找能够自动分布数据流的系统,保证数据能通过应用程序访问。
公司还需要先进的性能监控工具,让用户能够执行详细的磁盘阵列负载分析,创建关于磁盘阵列状况的报表。
EMC Isilon满足所有这些需求。系统为指定部门和用户提供先进的针对指定存储资源的控制和分配,吞吐量和I/O都很高。
Słupski表示:“Isilon是用来管理容量分配的先进的工具。它可以在不同层次分配容量,比如,可以分配容量给公司的某个部门,也可以分配容量给部门的某个人。它也可以识别和解决与错误使用系统内存有关的问题。”
Isilon极大地提高了Geofizyka Torun全部系统的功能,流化了IT部门的运营。系统很大程度上实现了自运营,不需要持续的监控。每个用户都分配到了合适的工作内存数量。系统的一大特性是它的可持续扩展能力。目前,它使用了10个节点,节点数可以扩展到144个。
Słupski表示:“Isilon提供了快速发展系统的可能,增加一个节点只需要不到一分钟的时间,这为走进大数据提供了一扇门。”