데이터와 관련하여 기업들이 공개한 기술은 어떤게 있을까?



작년에는 필요한 알고리즘은 직접 개발하여 사용했었는데 회사가 발전해감에 따라서 점점 시스템을 구축할 필요를 느끼고 있어서 기존에 다른 기업들이 공개한 데이터와 관련된 기술들을 찾아보았다.

우선 트위터 에서는 2011년에 Bootstrap 외에도 실시간 분석 분산 시스템 인 Storm 을 공개했다.

2013년에는 StormHadoop 을 결합한 Summingbird 을 추가로 공개하였다.

2014년에는 구글 에서 Mesa 라는 highly scalable analytic data warehousing system 을 VLDB 2014 에서 발표했다.

2015년에는 페이스북 필두로 많은 기업들이 머신러닝과 관련된 프로젝트들을 오픈소스로 공개하였다.

페이스북 은 1월에 머신러닝 알고리즘을 위한 프레임웍인 Torch오픈소스로 공개했다.

Torch is a scientific computing framework with wide support for machine learning algorithms. It is easy to use and efficient, thanks to an easy and fast scripting language, LuaJIT, and an underlying C/CUDA implementation. (http://torch.ch/)

링크드인 에서는 2014년 9월에 공개했었던 실시간 분석기술인 Pinot 을 오픈소스로 전환했다.

아래는 Pinot 에 대한 소개이다.

Pinot is a realtime distributed OLAP datastore, which is used at LinkedIn to deliver scalable real time analytics with low latency. It can ingest data from offline data sources (such as Hadoop and flat files) as well as online sources (such as Kafka). Pinot is designed to scale horizontally. (https://github.com/linkedin/pinot)

이 외에도 LinkedIn Open Source 에 지속적으로 활동하고 있다.

같은 해 11월에는 구글 이 머신러닝 라이브러리 Tensorflow오픈소스로 공개했다.

TensorFlow™ is an open source software library for numerical computation using data flow graphs. (https://www.tensorflow.org/)

몇 일 지나지 않아서 마이크로소프트 도 분산 머신러닝 툴깃인 DMTK오픈소스로 공개 했다.

비슷한 시기에 삼성전자 에서도 딥러닝을 위한 분산 플랫폼인 VELES오픈소스로 공개 했는데 해당 기사를 찾지 못하겠다.

12월에는 페이스북 에서 ‘Big Sur’ 라는 neural network 을 위한 GPU-based 시스템의 디자인을 공개했다.

2016년에도 기술공개가 계속해서 일어나고 있는데 마이크로소프트 가 Computational Network Toolkit 인 CNTK오프소스로 공개했다. 설명으로 봐서는 기존에 공개한 DMTK 와는 다른 점은 딥러닝에 최적화되었다는 것 같은데 나중에 한번 점검해봐야겠다.

CNTK (http://www.cntk.ai/), the Computational Network Toolkit by Microsoft Research, is a unified deep-learning toolkit that describes neural networks as a series of computational steps via a directed graph. (https://github.com/Microsoft/CNTK)

중국의 검색엔진 회사인 바이두 에서도 오픈소스 AI 소프트웨어인 Warp-CTC 를 공개했다. 설명을 보면 음성인식에 특화된 딥러닝 기술로 보인다.

Today Baidu’s Silicon Valley AI Lab (SVAIL) released Warp-CTC, open source software for the machine learning community. Warp-CTC can be used to solve supervised problems that map an input sequence to an output sequence, such as speech recognition. (http://research.baidu.com/warp-ctc/)

야후에서는 데이터를 공개했다. 관련하여 포스팅을 했으니 간단히 요약.

Today, we are proud to announce the public release of the largest-ever machine learning dataset to the research community. The dataset stands at a massive ~110B events (13.5TB uncompressed) of anonymized user-news item interaction data, collected by recording the user-news item interactions of about 20M users from February 2015 to May 2015. (http://yahoo.tumblr.com/post/137282204964/yahoo-releases-the-largest-ever-machine-learning)

데이터와 관련된 기술은 아니나 월마트 에서는 기술연구소인 월마트 랩스 를 통하여 DevOps 플래폼인 OneOps오픈소스로 공개 했다. Walmart Labs 의 Github page 를 보니 그간 많은 오픈소스 프로젝트를 진행한 것을 볼 수 있다.

국내에서는 네이버가 빅데이터 포털로 네이버 데이터랩 을 오픈했다.

뒤따라 LG CNS 에서는 빅데이터 공유 플래폼 이라는 ‘ODPia’(오디피아) 를 오픈했다.

올해 안에 리뷰가 가능할지는 모르겠지만 (앞으로도 계속 오픈될테니) 가능한 관련 기술들은 하나씩 시도해보고 정리해보려고 한다.