داده های عظیم چگونه دنیا را تغییر خواهند داد
TRANSCRIPT
ا داده های عظیم چگونه دنیرا تغییر خواهند داد؟
فرزاد خندان
09123077032
www.Simiagaran.net
در باره داده های عظیم
Twitter-یک نمونه پردازش
500 در روزتوییتمیلیونمیلیون دارای مختصات جغرافیایی هستند8بیش از ◦
ب کردمی بایست بتوان داده های داخلی و مراجع بیرونی را ترکی.
ازش پرد« عمیق»می بایست بتوان داده های متنی را به صورت.نمود
http://mapd.csail.mit.edu
MapDپروژه
توییترهای پردازش زمان واقعی داده
پشت صحنه چیست؟
مقدمه « ران ماستاین اصل تغییر نیافتنی دو«همه چیز در حال تغییر است .
ی عصر فضای سایبری و ارتباطات دیجیتال به عنوان مشخصه اصلی حاضر، که به عصر دانش و یا عصر اطالعات معروف است، شناخته م
. شود
وامع انسانی پیشرفتهای تکنولوژی در این عرضه تأثیرات عمیقی بر ج. می گذارد
ده شوک آین» شناخت تغییرات تکنولوژیک ما را برای مواجهه با».آماده می کند
(Big Data)داده های عظیم
در هر دو روز، بشر به اندازه کل دوران تمدن. اطالعات تولید می کند2003بشری تا سال
«گوگل، مدیرعامل اشمیتاریک»
زتابایت1/8این یعنی، هر دو سال بیش ازاطالعات تولید
!می شود
داده های تولید شده توسط کاربران، یعنیدر تهاپسو توییتهاعکس، فیلم، پیامهای فوری،
شبکه های مجازی حجم بسیار باالی دارند و . لزوماً ساخت یافته نیستند
داده های عظیم
باال و با به دست آوردن بینش الزم از میان انبوه اطالعات تولید شده، که در حجم باال، با سرعت.آن چیزی است که قبالً میسر بوده استورایتنوع و فراوانی باال در حال تولید هستند
ستفناوری دیجیتال، زندگی ما را تغییر داده ا
روندهای آینده بیش از هشتاد 2020، تا سال (2016)بر اساس گزارش گارتنر
درصد کسب و کارها و فرآیندهای آنها بر اساس داده های عظیم .بازطراحی می شوند
کسب و کارها از طریق سرویس دهنده % 30، بیش از 2017تاهای میانی به داده های عظیم جمع آوری شده از سراسر دنیا
.دسترسی خواهند داشت
ن سرویس های تحلیل های رفتار مشتریا% 20، بیش از 2017تا.فراهم خواهند نمودIoTامکان ردیابی محصوالت را با استفاده از
اینترنت اشیاء
ن انسان هاارتباط بین اشیاء و نه ارتباط بی: پارادیمتغییره قادر خواهد بود با اتصال بفیزیکیشیءهر : مطرح ایده◦
تعامل اشیاسایر، با ارتباطیابزارهایسایرکمکبه یااینترنت.داشته باشد
ایلوساز بسیاریکهمعنا است اینبه اشیاءاینترنتو وظایف، اینترنتروزمره مورد استفاده ما با اتصال به
. ندبگذاراشتراکبا انسان ها به یااطالعات خود را با هم و وجه نگران تمام شدن هیچبه دیگرکهفروشگاهی◦
ار در هر هوشمند انبکنترلسیستم، چون نیستمحصوالتشکارحتیتمام محصوالت مطلع است و موجودیلحظه از
.دهدمیخود انجام نیزسفارش را ه را بگازتاناجاق یاخاموش بودن اتو یامی توانید روشن ◦
.کنیدچککاراز محل هوشمندتانتلفن وسیله
تحولی جهانی
از شرکت های جهان توانایی بهره مندی استراتژیک از داده های خود دارند ٪28فقط
د فاوا هفت برابر سرعت رش،سرعت نفوذ داده های عظیم طی پنج سال گذشته به نسبت.ه استبود
دستاوردهای محسوسند سازمان ها رضایت بسیار زیادی از بکارگیری داده های عظیم دار(Accenture, 2015:)
از سازمان هایی که حداقل یک پروژه داده های عظیم را به سرانجام رسانده اند◦.نتایج بدست آمده بهت زده شده اند
.سازمان های بزرگ از مزایای داده های عظیم بیشتر استفاده کرده اند◦
.تاستفاده از داده های عظیم نیازمند یادگیری گسترده در سطح سازمان اس◦
.داده های عظیم نیازمند استفاده از منابع خارج از سازمان است( در حال حاضر)◦
م است، پیش فرضهای موجود را به ه« ویران کننده»داده های عظیم فناوری ◦.داده های عظیم ظرفیت باالیی برای ایجاد تغییر دارد. می زند
سرمایه گذاری در داده های عظیم
تغییرات ویران کننده
چه چیزی این داده ها را جمع آوری می کند؟Web Browsers Search Engines
Microsoft’s
Internet Explorer
Mozilla’s FireFox
Google’s Chrome
Apple’s Safari
Google’s
Microsoft’s
Yahoo’s
IAC Search’s
AOL Explorer
(Non-profit foundation,
used to be Netscape)
چه چیزی این داده ها را جمع آوری می کند؟Smartphones & Apps Tablet Computers & Apps
Apple’s iPhone
(Apple O/S)
Samsung, HTC.
Nokia, Motorola
(Android O/S)
RIM Corp’s Blackberry
(BlackBerry O/S)
Apple’s iPad
Samsung’s Galaxy
Amazon’s Kindle Fire
چه چیزی این داده ها را جمع آوری می کند؟
Games Boxes and GPS Systems Internet Service Providers
چه چیزی این داده ها را جمع آوری می کند؟HDTV’s and Blu-Ray Players with built-in Internet connectivity
Movie Rental Sites
چه چیزی این داده ها را جمع آوری می کند؟
HOSPITALS & OTHER MEDICAL SYSTEMS
BANKING & PHONE SYSTEMS
Can you hear me now?
(Heh heh heh!)
Pharmacies
Laboratories
Imaging Centers
Emergency Medical Services (EMS)
Hospital Information Systems
Doc-in-a-Box
Electronic Medical Records
Blood Banks
Birth & Death Records
چه چیزی این داده ها را جمع آوری می کند؟
A REAL PAIN IN THE APPS!WHAT ARE THEY COLLECTING?
Restaurant reservations (Open Table)
Weather in L.A. in 3 days (Weather+)
Side effects of medications (MedWatcher)
3-star hotels in New Orleans (Priceline)
Which PC should I buy and where (PriceCheck)
داده ها را جمع آوری می کند؟کسی این چه
GOVERNMENT AGENCIES
BIG PHARMACEUTICAL COMPANIES
چه کسی این داده ها را جمع آوری می کند؟CONSUMER PRODUCTS COMPANIES BIG BOX STORES
چه کسی چه چیزی جمع آوری می کند؟
CREDIT CARD COMPANIESWHAT DATA ARE THEY GETTING?
Restaurant check
Grocery Bill
Airline ticket
Hotel Bill
کجاست؟« داده های عظیم »
WHERE IS BIG DATA?
Source: IBM
متغییر در پارادای: داده های عظیم
Source: IBM
متغییر در پاردای: داده های عظیم
Source: IBM
متغییر در پاردای: داده های عظیم
Source: IBM
متغییر در پاردای: داده های عظیم
Source: IBM
31
زنجیره ارزش داده های عظیم
33
فناوری های داده های عظیمکالسترهای پردازش و ذخیره سازی داده
رایانش ابری◦ابر خصوصی◦
پردازش و ذخیره سازی توزیع شده◦HDFS
◦Hadoop Map-Reduce
◦Spark
بانک های اطالعاتی جدید◦NoSQL
◦NewSQL
◦Graph DB
◦Column Based DB
◦In Memory DB
◦Granual Optimization
فناوری های داده های عظیمامنیت داده در عین حفظ کارایی و سرعت پردازش◦CryptDB
بازبینی و تمیز کردن داده ها◦Wrangler
نگرش های جدید–داده ها تجمیع
سامانه های تحلیل داده هاهای سریعالگوریتم◦فشرده سازی داده ها◦ابزارهای یادگیری ماشینی◦خالصه سازها◦
هادوپ چیست؟که هادوپ یک چارچوب برنامه نویسی متن باز مبتنی بر جاوا است
ع امکان پردازش حجم بزرگی از داده ها را در یک محیط پردازشی توزی.شده فراهم می کند
با هادوپ، می توان سامانه هایی با هزاران گره پردازشی راه اندازی.کرد که هزاران ترابایت داده را پردازش نمایند
ی هادوپ عالوه بر امکان ذخیره سازی، امکان ایجاد روند هایی مبتن.را برای پردازش داده ها فراهم می سازدMapReduceبر
آمده است( یک فیل)نام هادوپ، از نام عروسک دختر سازنده آن.
Hadoop Ecosystem
Hadoop Distributed File System
MapReduce
MapReduce is a framework for processing parallelizable
problems across huge datasets using a large number of
computers (nodes), collectively referred to as a cluster
or a grid.
Word Count Execution
NoSQL
Key-value
Graph database
Document-oriented
Column family
Performance Problem?
Modern DBMS
هاداده های عظیم و استارتاپ
یماستارتاپ های مبتنی بر داده های عظ
◦ Business Focus: Taxi & Passenger Delivery
◦ Uber predicts where do you want to go!
◦ Uber offers the best match for staff through analytics.
◦ Dynamic pricing using Big Data analytics.
یماستارتاپ های مبتنی بر داده های عظ
◦ Business Focus: Find the best places to eat, drink, shop, or visit in any city in the world
◦ Recently came alive using Big Data analytics.
◦ Uses Big Data analytics to offer places to go.
یماستارتاپ های مبتنی بر داده های عظ
◦ Business Focus: Connect the apps you use, automate tasks, get more out of your data.
◦ Uses qualitative data and data mining to offer app integration and Zaps.
ماستارتاپ های ارائه دهنده محصوالت داده های عظیStartpu Service/Product Funding/Valuation
(Million US$)
Cloudera Big Data Full Stack Bundles & Professional Services
$1040
Palantir Technologies Analytics applications $950
Domo Cloud-based business intelligence
$450
MongoDB NoSQL database platform $311
InsideSales.com Cloud-based predictive analytics
$199
Mu Sigma Data-Science-as-a-Service $195
DataStax Apache Cassandra-based platform
$190
Dataminr Social media analytics $180
توصیه هایی برای استارتاپهاامسیر خلق مزیت رقابتی مبتنی بر داده های عظیم برای استارتاپه:.مشتری داده خود را شناسایی کنید◦.داده ای را که مشتری نیازمند است پیدا کنید◦.داده را بسازید، یا بخرید◦.بر روی نحوه مصورسازی داده یا واسط کاربری مناسب تمرکز کنید◦.کل فرآیند را خودکار کنید◦
موانع موفقیت استارتاپها در استفاده از داده های عظیمکمبود استعدادهای الزم◦از دست دادن تمرکز◦عدم توانایی در یافتن فرصتهای واقعی کسب و کار◦عدم جذب سرمایه مناسب◦
مونهآشنایی با یک پلتفرم ن
بیگ دیتا و رایانش ابریهای در مشکالت بر سر راه شرکت های کوچک و متوسط، استارتاپها، شرکت
حال رشدشان فراهم کارکنان با استعداد از دست می روند، زیر امکانات کافی را نمی توانیم برای◦
.کنیم.بخش عمده وقت استعدادهای شرکت صرف نگهداری از زیرساخت می شود◦ایی قطعات و فناوری ه« به هم چسباندن»بسیاری از وقت و هزینه شرکت ما صرف ◦
!می شود که به طور معمول می بایست با هم کار کنند!سر تیم ما شلوغ است◦چه کار کنیم؟! برابر می شود10تعداد مشتریان و مشترکان دارد !!! ای وای◦هر حال االن در حال تست هستیم و خیلی نیاز به منابع گرانقیمت نداریم، ولی به◦
.حداقل ها را باید برای زیرساخت آماده کنیم که خیلی گران است
رایانش ابری:پاسخ!!!
رایانش ابریرایانش ابری راهی بهتر و ارزان تر برای ارائة سرویس های فناوری اطالعات است .
.منابع رایانشی از خارج از بنگاه تأمین می شوند◦.از طریق اینترنت قابل دست یابی هستند]معموالً[منابع رایانشی ◦. هزینة استفاده از منابع متغیر است◦.منابع در دسترس با هزینه پایین و در زمان اندک مقیاس پذیر هستند◦
محسنات رایانش ابری(Service Driven)خدمت محور ◦
(Self Healing)تحمل پذیری خطا ◦
(Multi-Faceted)چند جنبه ای ◦
(Virtual)مجازی سازی ◦
(Data Management)مدیریت داده ◦
هزینة راه اندازی ناچیز◦(Scalable)مقیاس پذیر ◦
استقالل از وسیله◦تداوم و قابلیت اعتماد◦
IBM BlueMixشده پلترفرم رایانش ابری آی بی ام که به صورت یک بازار طراحی
.است
رابط کاربری آسان
رایگان برای تمرین و آشنایی و ایجاد سرویس های اولیه(Proof of Concept)
هزینه های پایین برای راه اندازی سرویس های جدی کسب و کار
سرویس های بسیار متنوع
ارائه سرویس های داده های عظیم
مخابرات: کاربردها
راتچالشهای پیش روی صنعت مخاب
Telecoms.com: منبع
اتبکارگیری داده های عظیم در مخابر
حوزه های بکارگیری
لصنعت حمل و نق: کاربردها
و نقلوحملداده های عظیم تاس« هوشمندترشبکه »، پارادایم آینده ریلیدر حمل و نقل.
حوزه های بسیار مورد توجه عبارتند از:چند کاربردی بودن◦
مواجهه با محدودیت ها◦
کاهش هزینه و افزایش درآمد◦
هدف گذاری هوشمندانه◦
قابلیت تطبیق با نیازهای بازار◦
Union Pacific Railroadدستاوردهای داده های عظیم در
استفاده از تحلیل پیش بینی کننده(Predictive Analysis )کاهش حوادث % 75–برای کاهش خارج شدن قطار از خط
با تحلیل های افزایش ظرفیت حمل بارReal Timeتعمیرات ناگهانی◦استفاده از اطالعات هواشناسی◦برنامه ریزی هوشمندانه◦پیش بینی و علت یابی حوادث◦
(کمپانی برتر دنیا10قرار گرفتن در میان )کاهش آلودگی کربن
کاربردها در صنعت حمل و نقلمکانیابی و برنامه ریزی سیر و سفر
ردیابی و بهینه سازی مسیر
تعمیرات پیشگویانه
بهینه سازی مصرف سوخت
مصورسازی مسیرها و عملیات
کاهش آلودگی و پاکیزه سازی محیط زیست
خدمات ارزش افزوده
بانکها: کاربردها
داده های عظیم و مؤسسات مالی
بر اساس مطالعه ای در آمریکای شمالی ،ل مؤسسات مالی باور دارند که تحلی% 60
های مبتنی بر داده های عظیم منجر به % 90. مزیت رقابتی قابل توجه خواهد شد
یک این مؤسسات معتقد هستند که داشتنده طرح موفق مبتنی بر داده های عظیم برن
.ها را در آینده تعیین خواهد کرد
م بانک هایی که از رهیافت داده های عظیده می برای تحلیل داده های مشتریان استفا
% 12تا % 4کنند، بسته به عمق تحلیل، بین ددر سهم بازار از سایر رقبا جلوتر هستن
افزایش مشتری محوری در بانک
بتحلیل پیشرفته و کشف تقل
اعتبار سنجی
ی های مالاستارتاپیکی از موفقترینKreditech:جهان
(یورو2500تا سقف )ارائه وام خرد ◦8ر و پرداخت فقط داعتبارسنجیانجام فرآیند ◦
ثانیه
های مورد استفاده، توسط الگوریتمنخبگان علم داده های عظیم در دانشگاه
MITطراحی شده است.
LinkedIn: کاربردها
Social Graph
Search
Recommendations: People
Recommendations: Jobs
Recommendations: Newsfeed
Data Normalization
Analytics
داده های عظیم، همکاری های بین المللی
Scheveningen Memorandum (Sep 2013)
Eurostat Task Force Big Data
ESS Task Force on Big Data
Big Data Action Plan and Roadmap ◦ Part of ESS Vision 2020 portfolio
ESSNets / Pilots – 2016-2020
Policy Quality Skills
Experience sharing
LegislationIT
Infrastructures
MethodsEthics /
CommunicationPilots
T O P I C S
Action plan and roadmap
Global Working Group on Big Datafor Official Statistics: Task teams
◦ Mobile phone data
◦ Satellite imagery
◦ Social media data
◦ Access / partnerships
◦ Advocacy / communication
◦ Big Data and SDGs
◦ Training / skills / capacity building
◦ Cross-cutting issues