Представлення статистичної інформації за допомогою...

Post on 20-Jan-2017

705 Views

Category:

Data & Analytics

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Представлення статистичної інформації

за допомогою графічного методу

Pic by Bratislav Milenkovic

Марець О.Р., Вільчинська О.М.

Питання, які викликають дискусії

Стовпчикова чи лінійна?

When Are 100% Stacked Bar Graphs Useful? http://www.perceptualedge.com/blog/?p=2239

Чому вони кажуть Die, pie chart, die?

The Worst Chart In The World http://www.businessinsider.com/pie-charts-are-the-worst-2013-6Life with Pie (charts) http://www.pivotdesigngroup.com/2011/05/pie-charts/No Humble Pie: The Origins and Usage of a Statistical Chart http://www.psych.utoronto.ca/users/spence/Spence%202005.pdf

Як (не) ввести користувача в оману?

The most misleading charts of 2015, fixed http://qz.com/580859/the-most-misleading-charts-of-2015-fixed/Junk Charts http://junkcharts.typepad.com/WTF Visualizations http://viz.wtf/

Та багато інших…

Скільки ліній зображати одночасно на одній діаграмі?

Що краще: секторна чи стовпчикова діаграма?

Яка максимальна кількість секторів для секторної діаграми?

Як підписувати дані?

Скільки знаків після коми доречно давати?

Яка оптимальна відстань між стовпцями стовпчикової діаграми?

Структура презентації1. Вступ

1. Термінологія

2. Переваги

3. Приклади

2. Теорія:

1. Тафті (основні принципи графічного представлення даних)

2. Клівленд, МакГілл (теорія сприйняття різних образів)

3. Желязни (класифікація графіків)

3. Основні діаграми

1. Секторна

2. Стовпчикова

3. Точкова

Візуалізація — одержання видимого зображення яких-небудь предметів, явищ, процесів, недоступних для безпосереднього спостереження

Великий тлумачний словник української мови, С. х, х, 225, 196

Інфографіка — графічне візуальне подання інформації, даних або знань, призначених для швидкого та чіткого відображення комплексної інформації

Діаграма — графічне зображення, що наочно у вигляді певних геометричних фігур показує співвідношення між різними величинами, які порівнюються

= статистичний графік

Графік — зображення різних моментів якогось процесуза допомогою ліній

Термінологія

Переваги використання графічного методу• Аналіз великого набору даних

• Акцентування уваги на різних аспектах даних

• Зменшення інформаційного перевантаження людини

• Виділення взаємозв’язків та закономірностей

• Утримання уваги

• Однозначність і ясність

• Естетична привабливість

Люди запам’ятовують 10 % почутого, 20 % прочитаного та 80 % побаченого або зробленого

http://neomam.com/interactive/13reasons/

Квартет Анскомбе

• Anscombe, FJ (1973). "Graphs in Statistical Analysis". American Statistician 27 (1): 17–21

• 4 набори даних з однаковими статистичними показниками

• придумав у 1973 році математик Ф. Дж. Анскомбе

I II III IV

x y x y x y x y

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58

8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71

9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04

6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25

4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56

7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91

5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Показник ЗначенняСереднє значення змінної x 9.0

Дисперсія змінної x 10.0Середнє значення змінної y 7.5

Дисперсія змінної y 3.75Кореляція між змінними x та y 0.816

Пряма лінійної регресії y = 0,5 x + 3

• показує важливість використання графіків для статистичного аналізу та

• вплив нетипових значень на властивості набору даних

20 країн, 100 показників

Номінальний ВВП 20-ти країн світу

Отже, важливість використання графічного методу безсумнівна

проте

стандарти побудови статистичних графіків дуже відрізняються між

собою, а у вітчизняній науці практично відсутні.

Крім того,

опрацювання різних вітчизняних наукових публікацій та публікацій

Державної служби статистики загострило увагу на практичній

відсутності культури подання інформації графічним способом

http://ukrstat.gov.ua/

http://www.me.gov.ua/?lang=uk-UA

Едвард Тафті

• (народ. в 1942 році) — американський

статистик, професор статистики,

політології і комп’ютерних наук Єльського

університету, відомий своїми працями з

інформаційного дизайну

Праці Тафті• The Visual Display of Quantitative Information (2001) [1983]• Envisioning Information (2001b) [1990]• Visual Explanations: Images and Quantities, Evidence and Narrative

(1997)• Beautiful Evidence (2006)

Принципи візуалізації ТафтіДосконалий статистичний графік представляє собою сукупність думок, донесених ясно, точно і результативно.

Графічне представлення інформації повинне:

• дати користувачу найбільшу кількість ідей, в найкоротший час, з найменшою кількістю чорнила на найменшому просторі

• казати правду про дані

Терміни Тафті• Співвідношення дані-чорнило (Data ink ratio)

• Індекс брехні (Lie factor)

• Графічне сміття (Chartjunk)

• Щільність даних (Data density)

• Іскрографік (Sparkline)

• Мультиграфіки (Small multiples)

• Графік-нахил (slopegraph)

Співвідношення дані-чорнило= чорнило, яке на графіку показує дані / все чорнило= частка чорнила, яке на графіку показує дані= 1 – частина графіка, яку можна стерти і суть не зміниться

Індекс брехні (Lie factor)

http://www.infovis-wiki.net/index.php/Lie_Factor

Графічне сміття (Chartjunk)• Візуальні елементи, які не

належать до набору засобів, необхідних для представлення інформації доступно та зрозуміло

• Це: необов'язковий текст або складні шрифти, орнаменти на осях, ефекти тіні та об'єму, занадто “шумний” фон

Edward Tufte, The Visual Display of Quantitative Information (1983)

Цитата з:Edward Tufte, The Visual Display of Quantitative Information (1983)

Гляньте-но на цю перенасичену стереотипами і вульгарним гумором сумнівну картинку. Це жертва візуальної чутливості, де графік-ніжка в сітчастій панчосі натякає на сітку графіка, вважається творчим задумом. За цим графічним сміттям ховається презирство і неповага як до даних, так і до глядача. Виробники цього мотлоху вважають, що числа і деталі нудні і їх просто необхідно оживити орнаментом. Але прикрашання нерідко шкодять змісту і ніколи не замінять його. А якщо числа нудні, значить, це просто не ті числа. Достовірність губиться в горах візуального сміття - ну хто буде серйозно сприймати графік, подібний на відео-гру?

Графічне сміття

За мотивами:• S.Bateman, R.L.Mandryk, C.Gutwin, A.Genest, D.McDine, C.Brooks, Useful Junk? The

Effects of Visual Embellishment on Comprehension and Memorability of Charts (2010)• Few S.The Chartjunk Debate. A Close Examination of Recent Findings (2011)

Проти За

Вдало підібрані графічні прикраси можуть:

посилити ефективність візуалізації через зацікавлення та залучення уваги користувача, • змусити його розглядати та читати візуалізацію. Вдало підібрана графічна метафора може стати мнемонічним інструментом та змусить запам’ятати інформацію значно краще, ніж це зробить проста діаграма. Йдеться про розумно підібраний та якісний допоміжний графічний матеріал.

візерунок скаче перед очима це графічне сміття Тафті радить переходити на відтінки сірого

Штрихування на графіках

Сприйняття графічних образів• У 1984 році Вільям С. Клівленд та Роберт МакГілл,

працівники AT&T Bell Labs опублікували у виданні

Journal of the American Statistical Association статтю, яка

називалась “Сприйняття графіки: теорія, експерименти

та застосування до розробки графічних методів”

• Запропонували базові рекомендації з вибору найліпшої форми візуалізації

• Результатом експериментів є рейтинг, де методи візуалізації перелічені за легкістю сприйняття інформації та здійснення порівнянь

Від найкращого до найгіршого:1. Позиція об'єктів відносно спільної системи координат2. Позиція об'єктів відносно різних систем координат3. Довжина4. Нахил Кут5. Площа Інтенсивність кольору6. Об'єм7. Відтінок кольору

У книзі “Говори мовою діаграм” (Say it With Charts) Джин Желязни (директор візуальних комунікацій у McKinsey & Company)

виділяє п'ять основних типів порівнянь, якими можна виразити дані. А саме:

компонентне

позиційне часове частотне кореляційне

Типи порівнянь з керівництва про візуалізацію WSJ

НОМІНАЛЬНЕПросте порівняння кількіснихзначень підкатегорій

ЧАСОВЕЗміни у значеннях за послідовні часові періоди

КОРЕЛЯЦІЙНЕЗалежність між змінними (2 і більше)

РАНЖУВАННЯВід найбільшого до найменшого

ВІДХИЛЕННЯВідхилення точок від певного середнього значення

РОЗПОДІЛКількість об’єктів в певних інтервалах

ЧАСТИНА-ДО-ЦІЛОГОВідношення частини явища до явища загалом

DATA VISUALIZATION 101: HOW TO DESIGN CHARTS AND GRAPHS

Секторна діаграма• Традиційна, проста для розуміння• Сектори в крузі якнайкраще

відображають частку від цілого

Проте цю діаграму критикують найбільшеВона:

АБ

ВГ

• Не дає можливості робити точні порівняння• При великій кількості структурних частин втрачає інформативність• Займає багато місця

http://annkemery.com/pie-chart-guidelines/http://www.psych.utoronto.ca/users/spence/Spence%202005.pdfhttp://www.businessinsider.com/pie-charts-are-the-worst-2013-6http://www.pivotdesigngroup.com/2011/05/pie-charts/

Порівняйте обсяги структурних частин 1-5

Як ще можна показати структуру

http://annkemery.com/essentials/

Множинні кільцеві діаграми

застосування цього типу графіка дає хороші результати, коли точні порівняння не потрібні, та структурних частин не багато

Діаграма Вороного• Георгій Вороний (1868 — 1908) — видатний український математик.

Член-кореспондент Російської Академії наук з 01.12.1907, професор Варшавського університету.

• Термін « Діаграма_Вороного » був введений в теоретичну комп'ютерну науку в середині 1970-х років. Це особливий вид розбиття метричного простору, що визначається відстанями до заданої дискретної множини ізольованих точок цього простору.

• Їх використовують в різноманітних дослідженнях від молекулярної біології до космосу, у комп'ютерній графіці, у проблемах розпізнавання образів, штучного інтелекту, екології, в радіаційній фізиці, космології, хімічній технології, фізичній хімії та ін. науках, а також в моделюванні рельєфу, в аналізі руху і плануванні, у виявленні зіткнень, навігації та обходу перешкод, в аналізі мережі, тощо.

• Michael Balzer Oliver Deussen 2005 Voronoi Treemaps• The Graphics Department of the NY Times, including Amanda Cox, Shan

Carter 2008 All of inflation's little parts (Interactive news graphics)

• http://www.datavis.ca/gallery/excellence.php

http://www.nytimes.com/interactive/2008/05/03/business/20080403_SPENDING_GRAPHIC.html?_r=0

Маленькі частки інфляції

• інтерактивний графік від 3 травня 2008 р. показує зміну цін порівняно з попереднім роком

• за різними компонентами споживчого кошика

• круг розбитий на 8 частин, величина кожної пропорційна відсотку споживання частини споживчого кошика

• кожна така частина розбита на під-категорії

• кольором показано зміну цін (за допомогою біполярної кольорової шкали): відтінки бордового – збільшення, синього - зменшення

http://atlas.cid.harvard.edu/

Структура експорту України у 2014 р.

Некоректно:

кільцеву діаграму використовують щоб показати зміну частки в динаміці

Стовпчикова діаграма • Функції: порівняння, ряди розподілу,

ряди динаміки

• Особливість: оскільки висота прямокутника показує обсяг явища, шкала має починатися з 0

• Використовуються для дискретних даних

• Варіанти:

А Б В Г0

1

2

3

4

5

http://annkemery.com/essentials/

Немає сенсу тут вводити різні кольори

Використання кольору

Лінійна (точкова) діаграма• Функції: порівняння, ряди розподілу,

ряди динаміки

• Призначена для візуалізації безперервного ряду даних

• Перевага: економний

• Особливість: деколи поєднання точок лініями не має змісту (псевдокриві)

• Варіанти:

Варіанти лінійної діаграми

http://annkemery.com/one-dataset-five-line-charts/

• Що показує: порівняння

• Складність в Excel:

Гантельки

Графік-нахил• Що показує: порівняння,

взаємозв’язки• Складність в Excel:

Діаграма розсіювання до 3-х чинників

Смертність у ДТП у Африці утричі більша ніж в Європі, при меншій кількості автомобілів в 10 разів.

Бульбашкова діаграмадо 4х чинників

Приклад 1 • тип графіка не доречний для

відображення структури

• текст розташований вертикально

• числові значення категорій то збільшуються то зменшуються

• для розрізнення категорій тут використовується колір, маркери дублюють інформацію

• використання кольорів не продумане

• рамки легенди та самої діаграми зайві

http://ukrstat.gov.ua/

• тип графіка: показує не структуру, а порівняння

• текст розташований вертикально

• числові значення категорій то збільшуються то зменшуються;

• для розрізнення категорій тут використовується колір, маркери зайві

• використання кольорів не продумане

• рамки легенди та самої діаграми зайві

Побудовано за даними http://ukrstat.gov.ua/

• показує тільки структуру

• при низькій інформативності займає багато місця

• легко вводить в оману – недосвідчені користувачі порівнюють обсяги, а тут показана структура

Побудовано за даними http://ukrstat.gov.ua/

• показує тільки структуру

• при низькій інформативності займає багато місця

• можливо легко порівняти лише довжини тих прямокутників, які мають спільну базу

Побудовано за даними http://ukrstat.gov.ua/

Побудовано за даними http://ukrstat.gov.ua/

Структура - секторна діаграмаПриклад 2

• позначення тільки одної частки, щоб не забивати простір;• щоб зробити порівняння треба щоб очі побігали;• місця займає багато;• це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/

Структура - кільцева діаграма

• така форма діаграми дозволяє розмістити в дірці текст, а, отже, економія;• щоб зробити порівняння треба щоб очі побігали;• місця займає багато• це тільки структура, суть явища подана однобоко; • проте традиційно Побудовано за даними http://ukrstat.gov.ua/

Структура - графік-нахил

• порівнювати просто, нахил показує що і як;• місця і пікселів займає мало;• це тільки структура, суть явища подана однобоко; • не надто традиційно

• щоб показати явище повніше вважаємо варто залучити абсолютні величини

Побудовано за даними http://ukrstat.gov.ua/

Побудовано за даними http://ukrstat.gov.ua/

Висновок Необхідними є чіткі та однозначні

вказівки та рекомендації щодо побудови та оформлення

статистичних діаграм, а також їх розповсюдження, впровадження та популяризація.

Ми сформулювали наступні вказівки (рекомендації) щодо оформлення статистичних графіків

1. Загальне2. Текст3. Розташування4. Колір5. Лінії

1. Загальне

1.1. Графік містить основну ідею, практичне значення.1.2. Тип графіка доречний до особливостей вихідної інформації. 1.3. Дані подані у контексті чи порівнянні.1.4. Всі елементи графіка вказують на основну ідею.

2. Текст2.1. Назва складається із 6-12 слів, чітко відображає суть даних (назву показника), включає в себе рік та місце, до яких відносяться дані.2.2. Розмір тексту читабельний і відповідає ієрархії (назва графіка – найбільшим шрифтом, а назви категорій – найменшим).2.3. Текст максимально лаконічний.2.4. Числова інформація: кількість знаків після коми відсутня або мінімальна.2.5. Текст грамотний.2.6. Текст розташований горизонтально.2.7. Позначення інтегровані, розміщені поряд з графічними символами.2.8. Посилання (під графіком) на джерело даних.

3. Розташування3.1. Пропорції відповідні вихідним даним.3.2. Дані відсортовані для зручності користувача.3.3. Інтервали рівновіддалені.3.4. Графік двовимірний.3.5. Маркери з гострими кутами відсутні.3.6. Прикраси відсутні. Проте можна використовувати прості графічні символи щоб спростити сприйняття тексту.

4. Колір4.1. Кольори використані раціонально.4.2. Кольором можна зробити акцент на певному значенні (максимальному, мінімальному, нетиповому).4.3. Суть кольорових позначень не втрачається при переході на чорно-білу палітру.4.4. Візерунки: дуже помірковано (при цьому чергувати темні та світлі чи строкаті візерунки для полегшення сприйняття);4.5. Контраст: 1) текст контрастний відносно тла; 2) кольори контрастні одне відносно іншого.

5. Лінії5.1. Лінії сітки, якщо присутні, подані приглушеними кольорами, тонші за головні осі.5.2. Рамки відсутні.5.3. Графік має одну горизонтальну і одну вертикальну вісь (навіть якщо вона схована). Використання другої вертикальної осі ускладнює сприйняття інформації.

6. Секторна діаграма6.1. Не більше 6 секторів.6.2. Найголовніший сегмент розташовують на лінії 12 год. 6.3. Сектори розташовують за спаданням обсягу частки (один з варіантів).6.4. Кольором виділений найважливіший сегмент. 6.5. Для порівняння декількох структур – краще взяти стовпчикова кумулятивна або нормована на 100 % діаграма.6.6. Разом там 100 %.

7. Стовпчикова діаграма7.1. Вісь починається з 0.7.2. Проміжок між стовпчиками = ½ ширини стовпчика.7.3. Одна категорія – один колір.

8. Лінійна (точкова) діаграма8.1. Не більше 4 (?) ліній на одному графіку.8.2. Тільки суцільні лінії.

top related