methods in data visualization a guide for the energy professional.pdf

25
 1 METHODS IN DATA VISUALIZATION:  A guide for the Energy professional  John Maxwell  and Natalie Ballew August 2013 INTRODUCTION The purpose of  this paper is to examine the field of  information  visualization,  and define the ways and extent  to which an Energy and Earth Resource (EER) professional  would benefit from imploring the effective methods  of  presenting data visually.  As issues of  natural  resources  and economics  become more complex in their interactions  and outcomes,  simple data tables  will no longer  suffice to communicate  concerns  or conclusions.  The ability to take raw data and translate it into a meaningful  argument  is the true test of  a professional  whose  job it is to provide decision support.  EER professionals  work directly with decision makers; knowing how to frame issues and evidence with a strong link to data is an extremely  valuable skill  to bring to factbased decision making.  Exploring  how to use data to “communicate  a concern,  rather  than  just to show data” (Lima)  can prove useful  to an EER professional.  The visual  display of  information  is not a new idea.  Hieroglyphics  and cave drawings were among the first examples,  packing descriptions,  stories,  and knowledge  into simple,  easily understood drawings.  Astronomers  Carl Sagan and Frank Drake created a graphic to communicate  across all forms of  intelligent  life that was attached to the Pioneer  spacecraft  in 1972 (Figure 1). While it is unknown whether  other forms of  life would understand the graphic,  the design elements  within are simple,  using line,  proportion,  and proximity to describe the layout of  the solar system,  relative size of  the spacecraft  to a human being,  and the hydrogen atom.  Figure 1 NASA image of  Pioneer 10 plaque, 1972

Upload: johnpmaxwell86

Post on 14-Apr-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 1/25

  1

METHODS IN DATA VISUALIZATION: A guide for the Energy professional John Maxwell and Natalie Ballew 

August 2013 

INTRODUCTION 

The purpose of  this paper is to examine the field of  information visualization, and define the ways and extent to 

which an Energy and Earth Resource (EER) professional would benefit from imploring the effective methods of  

presenting data visually. As issues of  natural resources and economics become more complex in their interactions 

and outcomes, simple data tables will no longer suffice to communicate concerns or conclusions. The ability to 

take raw data and translate it into a meaningful argument is the true test of  a professional whose  job it is to 

provide decision support. EER professionals work directly with decision makers; knowing how to frame issues and 

evidence with a strong link to data is an extremely valuable skill to bring to fact‐based decision making. Exploring 

how to use data to “communicate a concern, rather than  just to show data” (Lima) can prove useful to an EER 

professional. 

The visual display of  information is not a new idea. Hieroglyphics and cave drawings were among the first 

examples, packing descriptions, stories, and knowledge into simple, easily understood drawings. Astronomers Carl 

Sagan and Frank Drake created a graphic to communicate across all forms of  intelligent life that was attached to 

the Pioneer  spacecraft in 1972 (Figure 1). While it is unknown whether other forms of  life would understand the 

graphic, the design elements within are simple, using line, proportion, and proximity to describe the layout of  the 

solar system, relative size of  the spacecraft to a human being, and the hydrogen atom. 

Figure 1 NASA image of  Pioneer 10 plaque, 1972

Page 2: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 2/25

  2

  An effective visual informational display can squeeze multiple levels of  information into a single graphical 

representation that is easier to understand than spreadsheets of  data or a long string of  words. As Galileo stated in 

1610 (via Edward Tufte’s Beautiful  Evidence), “…the disputes which for so many generations have vexed…are 

destroyed by visible certainty, and we are liberated from wordy arguments.” Advanced computing power and the 

exponential expansion

 of 

 available

 data

 makes

 the

 idea

 of 

 “visible

 certainty”

 a much

 more

 powerful

 concept

 than

 

“wordy arguments”. An observation unaccompanied by visual evidence is not readily welcomed these days, so the 

ability to harness the data and turn it into a more tangible piece of  information has great strength in 

communicating concerns. 

EER has a vast landscape of  available data that lend well to visualization. From crude oil spot prices to 

stratigraphic columns to groundwater model outputs, analysis of  data and systems require a keen eye and a grasp 

of  the basics of  visualization theory. This paper will cover several concepts from authors in visualization 

techniques, and foundational principles and guidelines for best data visualization practices. The next few 

paragraphs will cover introductions to these concepts. Part II of  the paper will cover two specific EER topics as 

examples of  how to apply some of  these principles. Part III frames the importance to the EER professional to have 

data visualization skills, and will hopefully encourage deep thought about how other data should be represented 

visually. 

PART I: KEY CONCEPTS, PRINCIPLES, AND GUIDELINES TO DATA VISUALIZATION 

To begin thinking about data and its connection to energy and earth resources fields, the following two quotes 

illustrate how data can be thought of  as a natural element in today’s world. 

“Information gently

 but

 relentlessly

 drizzles

 down

 on

 us

 in

 an

 invisible,

 impalpable

 electric

 rain.”

 

 – Hans Christian von Baeyer, Information: The New  Language of  Science 

“Today we live invested with an electric information environment that is quite as imperceptible 

to us as water is to a fish.” 

 –Marshall McLuhan, Counterblast  

The quotes (also cited in Visual  Complexity: Mapping Patterns of  Information by Manuel Lima) spark thinking on 

the ubiquitous nature of  data and the necessity and importance of  data visualization. 

Data is integrated into aspects of  everyday life. Humans are constantly gathering a wealth of  new 

information from social interactions, nature, the surrounding environment, and technology. The ability to sort 

through a large amount of  data, provide a conduit for the information to pass through, and to frame and anchor an 

argument to a logical conclusion at the end of  the conduit is an emerging necessity for the EER professional. 

Colin Ware, the Director of  the Data Visualization Research Lab at the Center for Coastal and Ocean 

Mapping at the University of  New Hampshire, specializes in advanced data visualization and has a special interest 

in applications of  visualization for ocean mapping. Ware describes visualization in his book Information Visualization as an ”external artifact which supports decision‐making.” Visualizations can provide an ability to 

Page 3: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 3/25

  3

comprehend huge amounts of  data, allow for the perception of  emergent properties that were not anticipated, 

facilitate hypothesis formation, and reveal qualities not only about the data itself, but also about the way it was 

collected (Ware). However, poorly designed visualizations can distract from the benefits of  a well‐executed 

visualization. Details on how to avoid the downfalls of  an excellent visualization will be discussed later. 

Part of 

 what

 makes

 a good

 visualization

 is

 how

 the

 image

 is

 physically

 processed

 by

 the

 brain

 taking

 in

 

information. Information that can deliver substantiated data for policy decisions is most useful when integrated 

into a process that “…leverages the capabilities of  the [human] visual system to move a huge amount of  

information into the brain very quickly.” 

Figure 2 The visualization process. (Ware) 

As shown in Figure 2, the movement of  information from its abstract data form into the brain’s visual 

processing unit undergoes a process that shapes the data in visualization to allow for information to move from 

point A (abstract data) to point B (brain) in an explanatory framework (Illinksy). The best visualizations incorporate 

methods of  good design (an art‐intensive angle) and solid scientific, statistical, and mathematical methods (a 

science‐intensive angle). Taking strong points from each angle creates a feedback loop that takes raw data and 

transforms or manipulates it to create a tangible map of  patterns, connections, and structures out of  intangible 

evidence (Ware/Lima).  Effectively combining the art and science aspects of  visualization creates a clear and strong 

path for data exploration, manipulation, and broader context and application. The EER professional should 

differentiate themselves in the area between the data and the visual response elements of  the reader’s brain. 

Page 4: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 4/25

  4

Making data easy to understand with direct causality and comparisons made will deliver high‐quality returns for 

the concept and evidence that should be offered quickly and accurately to decision makers. 

The fine line of  science and art within data visualization is becoming thinner as computer processing 

power progresses ad infinitum and delivers tools able to analyze multivariate problems in a more approachable 

form. A

 few

 of 

 the

 numerous

 programs

 available

 will

 be

 discussed

 in

 Part

 II.

 Understanding

 the

 theories,

 processes,

 

and opportunities available to translate raw data into decision‐making tools can prove ineffective and even 

disastrous without holding up to a quality standard of  basic design principles and guidelines associated with 

making visual displays of  information. 

Best  Practices: Visualization Creation Workflow  In sync with the recent prevalence of  large amounts of  complex data, or “big data”, there has been an explosion of  

literature in data visualization and best practices. A grasp of  these best practices can merge with available tools to 

create the best display of  data. Most of  this literature is derived from the work of  Edward Tufte, who has written a 

series of 

 books

 on

 data

 presentation.

 In

 the

 book

 The Visual  Display  of  Quantitative Information

 Tufte

 describes

 

what makes graphical excellence, and these principles are incorporated into the workflow presented here. 

Graphics should be presented in a simple, yet multi‐dimensional way so that the viewer can focus on the 

data and what can emerge from the data, rather than focus on the methods implored to create the graphic. The 

first step to achieving graphical excellence is to adhere to the basic design principles and elements. This workflow 

does not incorporate the basic design elements, but they include the following. Basic design principles are 

achieved through use of  the elements (also see Appendix I). 

Design Elements 

  Line: Graphical

 features

 such

 as

 axes,

 gridlines,

 tick

 marks,

 etc.

 should

 be

 minimized

 to

 let

 the

 

data and important information shine through in any graphic. 

  Color: Our minds do not put an order on the colors of  the rainbow, so it is more effective to use 

shades of  a color when depicting magnitudes or importance. Harsh or vibrant colors can distract 

the eye from important information in the data; colors found in nature are often more pleasing. 

  Shape: Do not use overly caricaturized images to represent data as they will be distracting. 

Simple shapes that serve multiple purposes (labels and data points, for example) are effective. 

  Texture: Texture can be implored to add to the information in shapes, but should be minimized 

and used in a subtle manner. 

  Space: Space is very important to visualizations. A large amount of  information in a small area 

can allow

 the

 viewer

 to

 more

 easily

 compare

 data

 and

 can

 promote

 connections

 between

 the

 

data; however, information that is too tightly fit can be difficult to read. 

  Form: Form is a three‐dimensional aspect that should be considered when making three‐

dimensional interactive visualizations. When making two‐dimensional visualizations, it is also 

important to consider how a three‐dimensional object will be translated onto a two‐

dimensional plane. 

Page 5: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 5/25

  5

The workflow presenting in Figure 3 incorporates design functions, principles, elements, and guidelines outlined in 

the various literature available on data visualization and graphical excellence. 

Figure 3 Visualization Creation Workflow. *Design elements, described earlier, should also be used in creation. 

Page 6: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 6/25

  6

One of  the most important elements of  the data behind a graphic is the presence of  more than two 

variables. These types of  displays have more depth and room for expansion than displays with two variables alone. 

Multivariate displays include familiar graphics: maps, bar‐charts, scatterplots, line graphs, etc. More effective 

displays include narrative graphics of  time and space and relational graphics. Narrative graphics show data moving 

over space

 and

 time

 and

 is

 a great

 way

 to

 incorporate

 a larger

 number

 of 

 variables.

 Tufte

 uses

 the

 Charles

 Joesph

 

Minard graphic of  Napoleon’s 1812 Russia campaign as an example of  a narrative graphic (Figure 4 below). 

Figure 4 Minard's chart of  Napoleon's 1812 Russia Campaign 

This chart tells the story of  Napoleons troops’  journey to Russia and back. This chart incorporates complexity that 

includes six variables, including time, geographical location, army size, and temperature, in a subtle way. It tells a 

story rather than  just giving the data. This chart not only fulfills the six principles, but also fulfills the basic 

principles of  graphical excellence, giving the viewer the most amount of  information, using the least amount of  ink 

(Tufte). Narrative graphics present quantitative and sometimes qualitative information and lead the viewer to 

deduct a conclusion and explore further potentials about the topic presented. 

A basic understanding of  design and graphics principles allows full attention on data manipulation and 

mastering available processing tools. For any EER professional, it is ideal to be able to take in a large amount of  

data and present it in a way that is easy to digest so that further discussion on what story the data is telling can be 

pursued. It is important to an EER professional to have this skill because much of  the information in the EER field 

covers multiple topics, such as water, finance, energy, and commodities. Reigning over interdisciplinary data 

requires the knowledge of  the best way to display the data, and final purpose and audience should also be 

considered in the type of  visualization used. 

In the next section, we will explore the methods used with several different types of  data representative 

of  the EER field: economic and energy data visualized using area charts, parallel sets, and excel graphs; a network 

Page 7: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 7/25

  7

analysis of  bibliographic records to determine emergence and prevalence of  a particular topic; and a tree map 

visualization of  groundwater model runs to view the effects of  different pumping parameters. We will discuss the 

purpose for selecting each method, and what works and what could be improved with each visualization. 

PART II: EXAMPLE DATA SETS AND VISUALIZATIONS 

ENERGY   AND ECONOMIC  DATA The practice of  displaying economic data as well as energy data is, in itself, a very large sub‐category of  

the data visualization field. The goal is to display these two types of  data together and to determine the best way 

to show a large number of  country data over about a 30‐year time period. The use of  time in this case becomes the 

primary differentiator and trend type to make comparisons among the data. 

The questions that the data seek to answer have to do with the ways in which energy and the economy 

effect each

 other

 and

 create

 feedback

 loops.

 There

 is

 vigorous

 debate

 as

 to

 whether

 the

 greater

 the

 consumption

 

of  energy results in greater economic growth or if  the relationship works the vice versa, in which greater economic 

growth results in greater energy use. This relationship and interaction among different types of  primary energy 

sources is the principle issue that John Maxwell’s thesis explores. Using the work of  Carey King and his 

investigation of  “net energy measures” in the United States, the dataset is 44 countries over a time period from 

1978 to 2010. The data visualization will explore different trends and comparisons between countries and the 

differing causality relationships. The Tufte analytical criteria are the foundation for the way the data will be 

displayed and explained. 

There are several different programs that can be used to show this energy and economic information. 

Here the data is displayed in Microsoft Excel, Tableau, a parallel sets program, and some exploratory steps into R. 

All of  these programs can be useful for creating the visualization of  data that is required for the proper and clear 

display of  information. 

The first data visualization is a simple chart representing the percentage of  gross domestic product (GDP) 

spent on energy and the percentage change in GDP over the time between 1978 and 2010. This chart was created 

in Microsoft Excel and is a simple line chart. Putting data into Excel initially helps to look at a trend for these two 

measurements over time. The default for this chart had blue and purple lines (Figure 5), which did not look good 

enough to create a differentiation of  the changes over time. Since color is not naturally ordered in the sense that 

there is

 a natural

 rule

 for

 reds

 and

 blues

 to

 create

 a hierarchy

 (Appendix

 II)

 it

 is

 up

 to

 the

 creator

 to

 determine

 

where there is a need to vary the color. The idea of  color helps the reader to differentiate the points that the 

author is trying to make. 

Page 8: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 8/25

  8

 

Figure 5 Initial Excel line graph 

Figure 6 Revised Excel line graph 

In Figure 6, the revised version of  Figure 5, a title was added, the x‐axis was shifted, made less busy and larger. The 

legend was deleted and title was added. The legend for the lines were added and labeled in the same color as the 

lines. Avoiding defaults in Microsoft Excel has become nearly an iron‐clad rule. The labeling in this case is also put 

Page 9: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 9/25

  9

on top to anchor the fact that for the most part, the percentage of  GDP spent on energy has been greater than the 

percentage of  the GDP which changes. 

The next few figures were created in Tableau and are also part of  an out‐of ‐the‐box visualization software 

created explore and analyze data visually. Tableau uses drag‐and‐drop types of  intuitive visualization creation. 

Tableau works

 very

 well

 for

 spatial

 information

 and

 can

 help

 to

 create

 maps

 and

 other

 location

‐based

 information.

 

This first figure (Figure 6) is part of  the energy information and was one of  the first attempts that the 

creator took towards creating a visualization in Tableau. It is a very busy graph and many lessons have been 

learned since this first attempt. 

Figure 7 Tableau Visualization 1 

The next few graphics were created after research in the data visualization field and taking a couple of  

Tableau tutorials. 

Figure 8 is an area chart representing the amount of  expenditures spent on different types of  energy 

sources as well as the amount of  energy consumed in energy units in the world between 1978 and 2010. The area 

Page 10: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 10/25

  10

chart uses different colors to represent the types of  energy showed in the key to the right. This chart emphasizes 

the amount the world spends on crude oil and how the amount of  energy has not changed dramatically,  while the 

aggregate amount of  expenditures has increased by nearly 400 percent. 

Figure 8 Area Chart: Worldwide energy expenditures and energy consumption 

Figures 10 and 11 are attempts to use a different color palette and match colors across space and time. 

The bubble chart uses area and color to demonstrate the amount of  GDP that each country spends on energy. The 

scale at the top is the same in the two figures. The size of  the bubbles and proximity is uses the Gestalt principles 

of  proximity. Arrangement of  the countries is spaced to not overwhelm the reader (Lima). The following two 

figures are examples of  Gestalt principles in practice and how to classify different aspects of  proximity and 

arrangement. 

Figure 9 Connectedness is a powerful grouping principle that is stronger than a) proximity, b) color, c) size, or d) shape. 

Connectedness using smooth continuous lines is easier to understand than abrupt lines. 

Page 11: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 11/25

  11

 

Figure 10 World Map Energy %GDP 

Figure 11 Bubble chart energy %GDP 

Page 12: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 12/25

  12

If  all the large bubbles in Figure 11 were right on top of  each other there would not be enough context for the 

reader to gain much appreciation for what the data is expressing. The next level to this visualization would be for 

the bubbles to be arranged in the order of  the map. The map shows the countries across the world and how there 

is a relationship between location and how the country is spending its GDP. This becomes relevant since oil is the 

most traded

 economy

 and

 the

 amount

 of 

 world

 GDP

 spent

 on

 crude

 oil

 was

 the

 highest

 and

 there

 seems

 to

 be

 a 

correlation between the amount spent on oil and those countries that are producing oil. 

Figure 12 is a visualization of  a parallel set, which is a way to visualize multiple variables and their 

relationship to each other. The pink box is what is called brushing and can show where the average values lay 

within the data set. Parallel sets are a way to display large amounts of  discrete pattern data. In this plot, there are 

several dimensions, which are represented by each vertical line. The vertical line is a new dimension on which the 

scale changes. This type of  visualization can give insight into the effect of  evaluating a set of  data based on changes 

within the dataset. The effect of  color in this visualization offers a couple of  benefits as there is a stratification that 

carries along the lines throughout the dimensions of  the values. 

Figure 12 Parallel set 

Page 13: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 13/25

  13

 

Figure 13 Scatterplot made in R 

Figure 13 is a basic scatter plot graph created in R and a formatted scatterplot matrix created with the 

xdmv tool, which was also used to create the parallel set visualization. Scatter plots are an excellent way to present 

discrete pattern data containing two dimensions, but can also be used to represent three dimensions when there 

is variation in size or color within the scatterplot as depicted in Figure 14. 

Figure 14 Three‐dimensional discrete data. The third dimension is given by a) point size, b) gray value, and c) phase of  

oscillatory point motion. (Ware) 

Page 14: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 14/25

  14

BIBLIOGRAPHIC  NETWORK  and  GROUNDWATER DATA In exploration of  a topic or picking a question to research, it is useful to be aware of  what kinds of  research is 

already going on in the area of  interest. Exploration of  bibliographic networks, which show the connectedness of  

documents, is a way to set the stage for a particular research question and define the relevancy of  a topic. An 

example of 

 a bibliographic

 network

 here

 was

 created

 using

 groundwater

 uncertainty.

 There

 are

 multiple

 

informatics tools that analyze the existing network of  publications in this topic; here Sci2 was used. 

Sci2 has the ability to import numerous references from the Web of  Science database and creates a 

network visualization to explore the relevancy and connectedness of  a topic. My broad search yielded more than 

2,000 results in Web of  Science; Figure 15 shows the resulting visualization. (Appendix IV is a step‐by‐step guide to 

creating this visualization in Sci2.) 

Figure 15 Sci2 network analysis 

Links (edges) between circles (nodes) indicate occasions when one article referenced another one. The size and 

color of  the nodes, each representing an individual article/citation indicate the times that the article has been cited 

by other sources that it is connected to. Ideally, a label showing either titles or  journal topics would be more 

Page 15: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 15/25

  15

useful, but a limitation on knowledge to manipulate the final image prevented this and is being pursued further. 

Within the program, however, a mouse hovering over each node and edge reveals which article is represented and 

connected to another. These descriptors allow for comparison on the major clusters of  citations. 

From a design perspective, the way the visualization is initially created from the algorithm in Sci2 results 

in nodes

 that

 are

 all

 the

 same

 size

 and

 color

 with

 thick

 lines

 outlining

 each

 node.

 Alterations

 to

 the

 design

 can

 be

 

made to incorporate design principles and make the network more visually appealing and easier to sift through for 

the viewer. The layout of  Figure 15 is one of  several options in Sci2; this layout (GEM) creates clusters that help to 

guide the visual reader. 

Networks are a powerful tool to use especially when looking for emergent properties. Appendix III shows 

fifteen other types and styles of  network visualizations. Networks can go beyond the bibliographic realm and can 

be used to explore interactions among multiple variables, exposing key relationships. From an EER perspective, a 

telling network visualization that exposes a relationship between variables that had not been considered or well‐

understood before can be exceptionally useful in decision‐making situations. 

After an initial exploration of  the relevancy of  a topic, it is time to explore that data available. In terms of  

groundwater uncertainty, the dataset here is a group of  groundwater simulation runs (10,256 to be exact). This is a 

daunting amount of  numbers to begin to wrap ones head around, so it is useful to be able to take the set piece‐

wise to get a feel for what attributes the data carries and what those pieces are doing. As with the Energy and 

Economy data earlier, several runs of  the data were put into Excel as a line graph to determine any trends (Figure 

16). With large datasets it is useful to get a feel for what the general trends in the data are with a basic 

visualization, like a bar chart, line graph, or scatter plot, to determine the next best step. 

Figure 16 Water table levels from one data run. 

400

500

600

700

800

900

1000

1100

1200

1300

1 2 3 4 5 6 7 8 9 10

        F      e      e       t

Year

Water Table

 Levels

 from

 Groundwater

 Availability

 Model:

 

Barton Springs Aquifer, Zones 1‐11

Zone 1

Zone 10

Series3

Series4

Series5

Series6

Series7

Series20

Series21

Series22

Series23

Page 16: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 16/25

  16

In this graph, a general trend in the change of  the water table over a ten‐year period can be observed. Each line 

represents a zone denoted within the groundwater model. In line with the Excel rule mentioned previously, all 

Excel graph defaults were overridden. The color and weight of  the line were changed to create a more visually 

appealing and easy‐to‐read chart. Font size and location of  numbers on the axes were changed. Horizontal 

gridlines were

 minimized

 so

 as

 not

 to

 distract

 from

 the

 data.

 Figure

 16

 is

 missing

 descriptors

 for

 each

 series,

 

although, these are unimportant in this particular process as there are still further steps to be made with the data 

and this graph was simply used for an initial grasp on what the dataset contains. 

The line graph in Figure 16 includes only one out of  thousands of  model runs. The next question in this 

process is if  there is any variation among the numerous data runs. To explore this, a treemap was created for a 

100‐count handful of  the data. Treemaps are based in hierarchical data as represented by Figure 17. 

Figure 17 a) a treemap representation of  hierarchical data. Areas represent the amount of  data stored in the tree data 

structure. b) the same tree structure, represented using a conventional node‐link diagram (Ware). 

The hierarchical structure was not well‐defined in the groundwater data yet, but an initial image (Figure 18) 

determined that

 there

 was

 variation

 in

 each

 of 

 the

 runs.

 

Figure 18 Initial Tree Map 

Page 17: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 17/25

  17

Significant data manipulation needs to be done on the dataset still, but this treemap is a start to showing how this 

type of  visualization can be used. Here, only one month of  data for each model run is used, but for a truly effective 

treemap, this would need to use each months run, or an average of  some sort. The important aspect in this image 

is the use of  color, mild and not overwhelming, and the tone. With color variation, it is best to use different tones 

of  one

 color

 since

 the

 human

 mind

 does

 not

 assign

 a hierarchy

 to

 color,

 with

 exception

 to

 reds

 and

 green,

 which

 

have a general connotation associated with them. The proximity of  the boxes within the treemap allow for easy 

comparison. This image still lacks labels, but the software has a hover feature like in Sci2. 

With this particular dataset, much more statistical analysis needs to be completed, as mentioned, but 

these few graphics give an initial idea of  where to go next in data analysis. In the future, a network analysis and 

visualization would be ideal for this dataset. Being able to view links of  the groundwater parameters present in the 

data runs, particularly the link between spring flow, water table level, and pumping, can be useful in real‐life 

decision scenarios in determining how to best manage groundwater. If  a valid and effective visualization is created 

with this dataset, the process can then be replicated for other regions with pressing water issues. 

PART III: FURTHER THOUGHTS 

This paper has covered a small selection of  the vast amounts of  information that exists in regards to data 

visualization. There are a multitude of  ways to design and craft data visualization. Over the duration of  the 

independent study course, we have seen several platitudes that are called the “data visualization guidelines” and 

we have quoted and displayed several of  them in the paper in conjunction with the Visualization Creation 

Workflow. Figure

 19

 below,

 the

 Source

 Trinity

 (Illinsky

 and

 Steele),

 displays

 the

 connection

 between

 data,

 design,

 

and viewer and can aid in how design should be approached from a broader perspective. 

Figure 19 The Source Trinity 

Page 18: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 18/25

  18

This figure shows how all three participants of  a visualization, reader/data/designer, should be viewed. The 

interactions between the reader and designer and between reader and data are the two to focus on within an EER 

context. One of  the functions of  a visualization is to make a point to the reader. If  the visualization is trying to 

demonstrate positive  judgement, strategies should be used in a way that will inform the reader and will “…[aim] 

for a neutral

 presentation

 of 

 the

 facts

 in

 such

 a way

 that

 will

 educate

 the

 reader…”

 (Illinksy/Steele).

 The

 Source

 

Trinity can inform the average person with the critical information that the visualization is trying to display and not 

with another dimension to the data which seeks to convince the reader of  a specific type of  view. In this sense, the 

designer is not inserting themselves into the visualization to make an editorial  judgment with the data. This is a 

more formal role for visualizations in an academic or information‐providing role. 

The second and perhaps more important relationship in the Source Trinity is the reader‐designer 

relationship. This is where the designer introduces a normative point to the visualization and is clearly advocating a 

position with the design elements which they have chosen and to  persuade the reader of  the information to share 

the point of  view with the designer. In this situation, the designer is taking the data that has been manipulated and 

transformed into a visualization where they are taking a viewpoint and applying that slant to the visualization. This 

is especially important to understand if  the visualization is in a policy or consulting setting. 

Understanding the relationship between data visualization and decision‐making is the chief  concern of  

this paper. The EER professional has a duty to recognizing that the role of  decision support through visual 

quantitative and qualitative analysis to show what must be done within a system, company, nation or the world 

and use data visualization to craft that analysis in the best way possible. 

Page 19: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 19/25

  19

Appendix I 

Ware (Data Types Matrix) 

Page 20: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 20/25

  20

Appendix II 

Illinksy and Steele Data Visualization Encoding Guidelines: 

Page 21: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 21/25

  21

Appendix III 15 Types and Styles of  Network Visualization 

Arc Diagram Area Grouping Centralized 

BurstCentralized Ring

Circled Globe Circularities Elliptical implosion

Flow chart Organic Rhizome Radial Convergence Radial Implosion

Ramification Scaling Circles Segmented and 

Radial ConvergenceSphere

Page 22: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 22/25

  22

Sources (left to right, top to bottom) 

1.  https://www.google.com/search?q=arc+diagram&source=lnms&tbm=isch&sa=X&ei=Tjr5Ud2XIZKiqwHp14D4BA&ved=0CAkQ_AUoAQ&bi

w=1920&bih=995#facrc=_&imgdii=_&imgrc=LWZhD‐q801x0iM%3A%3BmpcLhHiGSkGi1M%3Bhttp%253A%252F%252Fwww.e‐

rna.org%252Fr‐chie%252Fimages%252Foverlap.png%3Bhttp%253A%252F%252Fwww.e‐rna.org%252Fr‐chie%252F%3B930%3B557 

2.  http://www.computationalgroup.com/tigertiger/cb/index.html 

3.  http://www.isi.edu/division7/publication_files/heuristics.pdf  

4.  http://d3.do/en/wp‐content/uploads/2011/10/circle.jpg 

5.  http://www.telegeography.com/telecom‐maps/ 

6.  http://musicovery.com/ 

7.  http://www.visualcomplexity.com/vc/project_details.cfm?id=339&index=339&domain= 

8.  http://www.visualcomplexity.com/vc/project_details.cfm?id=72&index=72&domain= 

9.  https://www.google.com/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&docid=ZhaID_NefM5giM&tbnid=8ak99VobCTiefM:&v

ed=0CAMQjhw&url=http%3A%2F%2Fdcook020.grads.digitalodu.com%2Fblog%2F%3Fp%3D37&ei=UkH5UbqpLYvoqAGs8oDYBA&bvm=bv.

49967636,d.aWM&psig=AFQjCNHth_tHiFHZgqUxJaW7rZ4YROKXNA&ust=1375376068803955 

10.  http://www.visualcomplexity.com/vc/project_details.cfm?id=278&index=278&domain= 

11.  http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1103573 

12.  http://www.schmuhl.org/graphopt/ 

13.  http://pages.cs.wisc.edu/~pavlo/papers/graphdrawing06.pdf  

14.  http://www.visualcomplexity.com/vc/project_details.cfm?id=142&index=142&domain= 

15.  http://moebio.com/spheres/english.html 

Page 23: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 23/25

  23

Appendix IV 

Science to Science (Sci2) Tool Tutorial 

Download the latest version of  the Sci2 tool: https://sci2.cns.iu.edu/user/welcome.php 

Sci2 Manual:

 

http://wiki.cns.iu.edu/display/SCI2TUTORIAL/Science+of+Science+%28Sci2%29+Tool+Manual?from=1oMh 

Access the Web of  Science database through the UT Library system: 

http://www.lib.utexas.edu/indexes/titles.php?let=W 

Collect Records from Web of  Science 

In Web of  Science, conduct a search on your topic of  choice. Once you have your results, follow these steps: 

1.  At the bottom of  the search results page is a light gray box entitled “Output Records.” You can export 500 

records at a time. You can also select the records you want to download. 

  Select “Records” and enter “1” to “500” in the step 1. 

  Select “Full Record” and “Cited References” in step 2. 

  Select “Save to other Reference Software” in the dropdown in step 3. “Save as Tab‐delimited 

(Windows/Mac)” also works. 

  Click “Save”. Save the exported records to a file folder, and name appropriately (by search topic). If  

you will be exporting in multiple batches, it is helpful to name your files appropriately (_a,  _b or  _1, 

 _2) because you will compile all records in the next step. 

  Repeat the process until all records have been exported. 

2.  Open the first exported file. At the beginning of  the file you will see “FN Thomson Reuters Web of  

Knowledge VR 1.0” and at the end you will see “ER EF”. These notations signify to Sci2 the start and end of  

the records. If  these exist more than once in the records used in Sci2, only the first portion will be 

analyzed. In the first file, delete the “ER EF” at the end. Save text file. This will be your compilation file. 

3.  Open the second exported file. Delete “FN Thomson Reuters Web of  Knowledge VR 1.0” at the beginning 

and delete

 “ER

 EF”

 at

 the

 end.

 Copy

 the

 remaining

 text

 and

 paste

 into

 the

 compilation

 file.

 Repeat

 this

 for

 

all remaining files except for the last one. 

4.  Open the last exported file. Only delete “FN Thomson Reuters Web of  Knowledge VR 1.0” from the 

beginning. Keep “ER EF” to signify then end of  records. Copy and paste into compilation file. Save. 

5.  Rename the compilation file to have the extension “.isi”. ISI format is the output format from the Web of  

Science database that contains author, citation, and full abstract information. 

6.  You are now ready to being analysis with Sci2! 

Sci2: Creating a Co‐citation Network 

The Sci2 menu is arranged left to right to go with the workflow. Files can be loaded then can be prepared, 

preprocessed, analyzed, and visualized. The Console window documents operations performed on the data. The 

Schedule window

 indicates

 the

 progress

 of 

 your

 operations

 shows

 what

 operations

 have

 been

 performed.

 The

 

Data Manager tab shows the evolution of  your data after you have processed it. 

1.  File > Load. 

  Select .isi file 

  “Load” dialogue box will appear. Select “ISI flat format”. 

2.  Data Preparation > Extract Directed Network 

  Source Column > Cited References 

  Target Column > Cite Me As 

Page 24: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 24/25

  24

  Extract 

  This creates a directed network by placing a directed edge between the values in a given column to 

the values of  a different column 

3.  Data Preparation > Extract Bibliographic Coupling Network 

4.  Analysis > Networks > Network Analysis Toolkit (NAT) 

  This performs a basic analysis on the network, calculating clusters, self ‐loops, parallel edges, 

number of 

 nodes,

 number

 of 

 edges,

 and

 density

 of 

 a network

 (in

 the

 Console

 window).

 This

 allows

 

you to get a feel for the network and find any errors that may be present in the data. 

5.  Select “Bibliographic Coupling Similarity Network” in the Data Manager window. 

6.  Preprocessing > Networks > Extract Edges Above or Below Value 

  In dialogue box, enter “4” in “Extract from this number” box. This algorithm gets rid of  any nodes 

that are outside of  the range you are interested in. 

7.  With the new edges selected, Preprocessing > Delete Isolates 

With “With isolates removed” selected, Visualization > Networks > GUESS 

Page 25: METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

7/27/2019 METHODS IN DATA VISUALIZATION A guide for the Energy professional.pdf

http://slidepdf.com/reader/full/methods-in-data-visualization-a-guide-for-the-energy-professionalpdf 25/25

WORKS CITED 

Illinsky, Noah and Steele, Julie. Designing Data Visualizations : Representing Informational  Relationships. 

Sebastopol: O'Reilly Media, 2011. Ebook Library. Web. 12 Jul. 2013. 

Lima, Manuel. Visual  Complexity: Mapping  patterns of  information. New York: Princeton Architectural Press, 2011. 

Tufte, Edward

 R.

 Beautiful  Evidence.

 Cheshire:

 Graphics

 Press,

 2006.

 

Tufte, Edward R. The Visual  Display  of  Quantitative Information (2nd ed.). Cheshire: Graphics Press, 1983. 

Ware, Colin. Information Visualization : Perception for Design. Burlington: Elsevier Science, 2012. Ebook Library. 

Web. 3 Jul. 2013. 

Yau, Nathan. Visualize This: the FlowingData guide to design, visualization, and  statistics. Indianapolis: Wiley Pub., 

2011.