Portal
Mała Psychologia

Nowe narzędzia wizualizacji danych

Abstrakt:

Słowa kluczowe: artykuły naukowe, dane, wizualizacja danych, naukowiec, czasopisma.

Dzięki nowym narzędziom pozwalającym na budowanie interaktywnych platform i programów dane naukowe będą bardziej dostępne, a także możliwe do odtworzenia. Gdy Benjamin Dolory zaczynał pisać pracę dokumentującą nowy sposób na liczbowe przedstawienie morfologii roślin, uświadomił sobie, że jeden z elementów może stanowić problem. W swoim badaniu proponuje „wskaźnik trwałości” mający za zadanie opisać strukturę systemów korzeniowych roślin. Wyzwanie polega na tym, jak to zilustrować? Algorytm leżący u podstaw wskaźnika „jest stały i dynamiczny”, mówi Delory, który prowadzi swoje badania w ramach programu podoktoranckiego na Uniwersytecie Leuphana w niemieckim Lüneburgu. – Najlepszym sposobem, aby pokazać jakiś dynamiczny proces, jest animacja”.

Wstęp:

Dane naukowe są zazwyczaj przedstawiane jako statyczne obrazy. Nie oddają one jednak pełnego zakresu tych danych, przez co czytelnicy nie mogą ich szczegółowo zgłębiać poprzez np. przybliżenie interesujących fragmentów. Może to być szczególnie problematyczne dla specjalistów od genomiki, którzy muszą upchnąć miliony punktów na nieczytelnych, niewielkich diagramach.

Odnosi się to również do naukowców pracujących z algorytmami obliczeniowymi. Programy takie często są publikowane na platformach z otwartym dostępem typu GitHub, ale trudniej sprawić jest, aby kod działał poprawnie. Recenzenci i inne zainteresowane strony często wymagają dodatkowego oprogramowania i konfiguracji, aby algorytmy zadziałały.

Niektóre czasopisma naukowe wspierają już interaktywne wykresy i kody. Jednym z nich jest F1000Research, które w zeszłym roku nawiązało współpracę z firmą komputerową Plotly z Montrealu w Kanadzie oraz platformą Code Ocean w Nowym Jorku. Możliwości te, jak i przyświecający czasopismu etos otwartego dostępu, skłoniły Delory’ego i jego współpracowników do zaproponowaniu F1000Research swojego badania. Zostało ono opublikowane w styczniu.

Interaktywna publikacja

Interaktywne grafiki pozwalające czytelnikom na zgłębienie szczegółowych danych to częsta praktyka na takich stronach internetowych, jak np. New York Times czy fivethirtyeight.com, ale pośród publikacji naukowych są mniej powszechne.

„Żywe wykresy” F1000Research – interaktywne diagramy wprowadzone w 2014 roku z możliwością stałego dodawania nowych informacji – było trudno stworzyć, i nie dało się zmieniać ich rozmiaru – mówi Thomas Ingraham, starszy redaktor. 

Plotly pozwala użytkownikom na tworzenie i udostępnianie wizualizacji, od wykresów punktowych i grafów krawędziowych po wykresy konturowe i mapy. Powstałe w ten sposób obrazy można przybliżać, przesuwać i najeżdżać myszką na poszczególne elementy, aby wyświetlić wartości. Cena abonamentu zaczyna się od 59 dolarów rocznie dla studentów. Biblioteki z otwartym dostępem umożliwiają badaczom na tworzenie darmowych grafik Plotly za pomocą kodowania R, MATLAB, Python i Julia.

Code Ocean jest darmowy dla pracowników naukowych przez 10 godzin pracy miesięcznie, przy 50 gigabajtach pamięci; opcje płatne zaczynają się od 19 dolarów miesięcznie. Platforma gromadzi kody, dane, wyniki i środowisko komputerowe użyte do ich uzyskania w niezależnej „kapsule obliczeniowej”, która replikuje konfigurację obliczeniową autora badania. Inni użytkownicy mogą ściągać, modyfikować i uruchamiać kod z codeocean.com lub za pomocą widgetu na stronie czasopisma.

F1000Research opublikowało dotąd 6 wydań z grafami Plotly i 5 z widgetem Code Ocean. W tym roku redaktorzy planują wesprzeć rozwój interaktywnych map interakcji białkowych, które tworzone są za pomocą narzędzia odwzorowywania sieci Cytoscape.

Naukowców nie powinna odstraszać pozorna złożoność tych narzędzi. Według biologa Xijina Ge ze Stanowego Uniwersytetu Południowej Dakoty w Brookings, który zawarł interaktywne grafy Plotly w jednym ze swoich badań, tworzenie takich wykresów wymaga jedynie jednej dodatkowej linii kodowania dla każdej liczby. Tm DeCarlo, badacz koralowców w Oceans Institute and School of Earth Sciences na Uniwersytecie Zachodniej Australii w Crawley, stworzył 6 projektów Code Ocean dla czasopism takich, jak Paleoceanography and Paleoclimatology czy Biogeosciences: – „Uznałem, że to bardzo ważne dla komunikacji danych naukowych i możliwości ich odtworzenia”.

Darmowe rozwiązania

Dla szukających obliczeniowych alternatyw narzędzie o nazwie Binder może okazać się dobrą opcją na konwersję dowolnych materiałów ze zbioru GitHub lub kodowania R na pliki, które można uruchomić z przeglądarki. Użytkownicy wpisują po prostu adres do paska wyszukiwania na mybinder.org, a program tworzy interaktywną, możliwą do udostępnienia przestrzeń do pracy. „Bardzo przydaje się to do zwiększania możliwości odtworzenia danych i jest łatwe w użyciu” – mówi Carl Willing, pracująca nad Binderem w Stanowej Politechnice Kalifornijskiej w San Luis Obispo.

Takie narzędzia ułatwiają również recenzję, jak twierdzi Tim Head, członek projektu Binder w Zurychu. Head był sfrustrowany, że gdy poproszono go o recenzję artykułu, nie działał mu odpowiedni program. „Gdyby przysłali mi link z Binderem, już bym skończył” – mówi.

Istnieją również darmowe narzędzia do tworzenia interaktywnych obrazów, takie jak Bokeh, htmlwidgets i  pygal. Większość z nich opiera się na kodowaniu powszechnie używanym w nauce. Kodujący mogą na przykład użyć ipywdiget do tworzenia interaktywnych, trójwymiarowych wykresów, map i wizualizacji molekularnych oraz zamieniania ich na pliki Jupyter. Inną opcją, napisaną w języku JavaScrpit, jest Vega-Lite. Ponieważ język ten jest mniej popularny w nauce, Brain Granger z kalifornijskiej politechniki i Jake VanderPlas z Uniwersytetu Waszyngtońskiego w Seattle opracowali interfejs Python o nazwie Altair, aby był on bardziej dostępny.

Podczas gdy większość tych narzędzi udostępnia funkcje tworzenia określonych typów diagramów, Vega-Lite i Altair to bardziej elastyczne środowiska pozwalające np. na opis tego, jak zmienne przekładają się na różne elementy graficzne, takie jak kolor czy kształt. Grafy mogą się również ze sobą łączyć: gdy użytkownik wybierze dany rejon jednego wykresu, jego „sąsiedzi” uaktualniają się w odpowiedni sposób. „ Dzięki temu możemy odkrywać relacje w wielowymiarowy sposób” – oznajmia Jeffrey Heer, informatyk z Uniwersytetu Waszyngtońskiego, główny twórca Vega-Lite. Dwa inne produkty pozwalają naukowcom tworzenie interaktywnych aplikacji wykorzystujących takie widgety, jak rozwijane menu i suwaki, dzięki czemu możliwe jest połączenie danych, grafiki i kodowania: Shiny opracowane przez RStudio w Bostonie i Plotly’s Dash. Działają poprzez przenoszenie czynności wykonywanych przez użytkownika na odległy serwer, który obsługuje odpowiedni kod i aktualizuje stronę.

Zmiany w narzędziach

Tego typu aplikacje sprawiają, że dane i narzędzia są dostępne również dla tych badaczy, którzy nie czują się swobodnie w programowaniu. Np. doktorant Tal Galili współpracował z kolegami z Uniwersytetu w Tel Awiwie, aby opracować narzędzie oparte na Plotly, służące do budowania interaktywnych map ciepła na podstawie załadowanych zestawów danych w połączeniu z interfejsem Shiny. Mine Çetinkaya-Rundel, która zajmuje się statystyką na Uniwersytecie Duke w Durham w Północnej Karolinie, stworzyła materiały Shiny na swoje zajęcia ze studentami, aby pomagały jej wyjaśniać trudne koncepty. – „Dobrze jest coś takiego pokazać i powiedzieć: okej, a więc tak to wygląda, a teraz co się stanie, jeżeli pozmieniamy coś z widgetami?” – opowiada.

Publikowanie takich materiałów na stronach czasopism naukowych wymaga wprowadzenia zmian w narzędziach autoryzacyjnych, pracy edytorów i infrastrukturze. Może też również pociągać za sobą konieczność powierzenia naukowych danych osobom trzecim, co nie zawsze zagwarantuje ich trwałość. Aby rozwiązać ten problem, projekt Reproducible Document Stack autorstwa ogólnodostępnego czasopisma eLife ma za zadanie stworzenie całościowego narzędzia do autoryzacji, dodawania i publikowania dokumentów, które pod względem obliczeniowym są możliwe do odtworzenia, jak mówi Giuliano Maciocci, zajmujący się rozwojem produktów dla eLife. Celem jest sprowadzenie bazowych elementów danego badania – tekstów, liczb, kodowania, danych i środowiska obliczeniowego d jednego, możliwego do ściągnięcia pliku. Aby promować pomysł, twórcy udostępnili projekt do darmowego korzystania.

Do przodu

Kilka innych czasopism i publikacji używa już Code Ocean, w tym GigaScience, IEEE, SPIE, Cambridge University Press i Taylor & Francis. Narzędzie JCB DataViewer zastosowane przez Journal of Cell Biology’s w oparciu o darmowe oprogramowanie OMERO pozwala czytelnikom odkrywać nieedytowane obrazy spod mikroskopu zamiast przetworzonych, skompresowanych plików, do jakich zwykle mają dostęp. Powiązane narzędzie, The Image Data Resource, oferuje podobną funkcjonalność dla artykułów publikowanych w dowolnym czasopiśmie. Również Nature publikuje interaktywne schematy, np. w artykule o projekcie pt. Encyklopedia Elementów DNA. Rzecznik czasopisma oznajmił, że Nature bada kilka innych opcji interaktywnego kodowania. W międzyczasie badacze często podają w swoich artykułach linki do zewnętrznych elementów wizualnych.

Coraz więcej czasopism przekonuje się do interaktywności, przez co prezentacja danych naukowych w sieci może ulec fundamentalnej zmianie, co zwiększy możliwość odtwarzania tych danych, mówi Erez Lieerman Aidem z Kolegium Medycznego Baylor w Houston w Teksasie, który niedawno w artykule dla magazynu Cell zawarł interaktywne mapy interakcji chromatyny. Statyczne liczby to tylko jeden sposób postrzegania danych. –„Znający się na rzeczy czytelnicy muszą być w stanie sami wyciągnąć wnioski. Powinna być różnica pomiędzy tym, jak czytało się badania w 1974, a jak czytamy je teraz”.

Autor:

  • Jeffrey M. Perkel

A dowodzik jest?

Tłum. Agata Wicher

Udostępnij

BIULETYN INFORMACYJNY