praca zespołowa i sieci społeczne na wikipedii
DESCRIPTION
Prezentacja badania realizowanego przez dr Adama Wierzbickiego z Informatyki Społecznej i dr Alberta Hupę z IRCenter, przedstawiona podczas drugiego spotkania Social Impact, 30 czerwca 2010.TRANSCRIPT
Praca zespołowa i sieci społeczne na Wikipedii
Dr Adam Wierzbicki, Piotr Turek, Radosław Nielek, dr Albert Hupa,
dr Anwitaman DattaInformatyka Społeczna
Plan prezentacji
• Wprowadzenie: otwarte sieci innowacyjne
• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii
• Metoda badawcza: wielowymiarowe sieci społeczne
• Zespoły na Wikipedii
• Pierwsze wyniki i wnioski oraz kierunki dalszych prac
Dlaczego Wikipedia?
• Wikinomia jako model gospodarki opartej na wiedzy– Uznawany za najbardziej przyszłościowy
• A jednak… czy jest coś bardziej kontrowersyjnego niż jakość Wikipedii?
• Dlatego warto się dowiedzieć: od czego zależy, czy zespół autorów na Wikipedii napisze dobry artykuł?– Czy możemy to ocenić, a może przewidywać?
• A także: co jest specjalnego w środowisku społecznym autorów Wikipedii?– Czy możemy tworzyć podobne środowiska w firmie? Jakie są
procesy społeczne zachodzące w takich środowiskach? Jak je kształtować i wykorzystywać do poprawy jakości wytworów?
Sieci COIN
• Wikipedia to szczególny przypadek „Collaborative Innovation Network” (COIN)– Termin wynaleziony przez Petera Gloora z MIT– „a cyberteam of self-motivated people with collective vision,
enabled by Web to collaborate in achieving a common goal by sharing ideas, information and work”
• Inne przykłady:– Sieć deweloperów Linuksa (i opensource)– Autorzy treści w Web2.0– Inne projekty innowacyjne (także biznesowe)
• Własności COIN:– „Swarm creativity”– Częsta komunikacja pomijająca bariery organizacyjne– Tworzenie i wykorzystywanie sieci społecznych
Inna sieć COIN
• Przykład sieci COIN deweloperów Linuksa• Granice pomiędzy społecznościami są płynne• Inne są role i normy członków różnych społeczności
Dlaczego badamy sieci COIN?
• Na całym świecie firmy próbują tworzyć wirtualne zespoły– Wykorzystujące współpracę
w modelu Web2.0– Podkreślając otwartość, współpracę, równość
• Jednak jak mamy to robić dobrze?
Wprowadzenie do Wikipedii
• Istotne cechy Wikipedii:– Otwartość (każdy może edytować)– Brak sztywnych hierarchicznych struktur (choć istnieją
role)– Brak centralnego nadzoru (choć istnieje jeden
„benevolent dictator” ;)• Cechy edycji artykułów:
– Każdy może edytować bez ograniczeń– Nie trzeba się rejestrować ani logować (choć można)– Aktywni członkowie społeczności mają swoje profile– Większość małych edycji jest robiona anonimowo
Plan prezentacji
• Wprowadzenie: otwarte sieci innowacyjne
• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii
• Metoda badawcza: wielowymiarowe sieci społeczne
• Zespoły na Wikipedii
• Pierwsze wyniki i wnioski oraz kierunki dalszych prac
Co badamy?
• Problem badawczy– Poszukiwanie śladów
zjawisk społecznych w historii edycji– Sformułowanie kryteriów oceny
zespołów autorów na Wikipedii
• Możliwe zastosowania:– Modelowanie i ocena pracy
otwartych zespołów– Rekomendacja autorów i recenzentów artykułów
• Proponowana metoda badawcza:– Użycie wielowymiarowych sieci społecznych jako modelu– Budowa sieci w oparciu o historię edycji– Sformułowanie kryteriów jakości zespołów w oparciu o sieci
Historia edycji• Zbadaliśmy całą historię edycji polskiej Wikipedii
– Dobrze rozwinięta: ponad 650 000 artykułów– Można zanalizować całość (dla porównania:
angielska Wikipedia jest 30 razy większa)• Zbiór danych
– Zawiera każdą wersję każdej strony na polskiej Wikipedii
• Pełen tekst• Znacznik czasowy• Nazwa zarejestrowanego autora lub
adres IP anonimowego autora– Strony dzielą się na: artykuły,
strony dyskusji, strony specjalne itd.– Rozmiar zbioru: ponad 200 GB
nieskompresowanego tekstu
Rozpoznawanie zmian
• Wprowadziliśmy własny binarny format dla historii edycji– Każde słowo reprezentowane przez indeks w słowniku (formy
gramatyczne są zachowane)– Możliwa jest reprezentacja różnicowa wersji stron]
• Redukcja rozmiaru o 99%
• Wyszukiwanie dowolnych fragmentów tekstu– Struktura danych DBF
• tworzona algorytmem Karp-Miller-Rosenberg– Musi być obliczona raz dla całej historii edycji
• Trwa to 48 godzin ;]– Pozwala na:
• Wyszukiwanie dowolnego ciągu słów w skończonym czasie• Wykrywanie operacji cut-and-paste, co pozwala na wykrycie
oryginalnego autora• Łatwe wykrywanie przywracania treści artykułu
Kto jest autorem tekstu?
• Kto jest autorem słów „niemniej jednak”?• Analizujemy n-gramy słów
– n=8– Autorem każdego n-gramu są edytorzy, którzy
pierwszy raz wpisali ten n-gram w całej historii edycji– Krótsze wyrażenia nie są uwzględniane
• W końcu, każdy n-gram ma n autorów• Dzięki temu, możemy ustalić autora każdego
słowa występującego w każdej wersji każdego artykułu(strony)
Plan prezentacji
• Wprowadzenie: otwarte sieci innowacyjne
• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii
• Metoda badawcza: wielowymiarowe sieci społeczne
• Zespoły na Wikipedii
• Pierwsze wyniki i wnioski oraz kierunki dalszych prac
Wielowymiarowa sieć społeczna• Sieć społeczna autorów treści na Wikipedii
– Anonimowi autorzy i boty nie są uwzględniani– Krawędzie pomiędzy autorami (węzłami) mogą pochodzić z
różnych wymiarów sieci– Każda krawędź ma określoną siłę (specyficzną dla wymiaru)
• Sieć powstaje z historii edycji– Można wybrać moment czasowy utworzenia sieci– Siła krawędzi powstaje z edycji wszystkich stron w
dotychczasowej historii• Obecnie używamy 4 wymiarów
– Wymiar 1 (zaufanie)– Wymiar 2 (krytyka)– Wymiar 3 (znajomość)– Wymiar 4 (zainteresowania)
Wymiary sieci• Wymiar 1
– Siła krawędzi to ilość słów autora A, które zostały przeniesione w inne miejsce przez autora B
– Interpretowany jako zaufanie• Wymiar 2
– Siła krawędzie to ilość słów autora A skasowanych przez autora B– Interpretowany jako krytyka– Poprzednia interpretacja: nieufność
• Wymiar 3– Siła krawędzi to ilość słów autora B wpisanych w pobliżu słów autora A
na stronach dyskusji– Interpretowany jako znajomość
• Wymiar 4– Graf dwudzielny łączący autorów z kategoriami semantycznymi– Siła krawędzi to ilość edycji autora w danej kategorii– Interpretowany jako zainteresowania– Poprzednia interpretacja: wiedza
Plan prezentacji
• Wprowadzenie: otwarte sieci innowacyjne
• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii
• Metoda badawcza: wielowymiarowe sieci społeczne
• Zespoły na Wikipedii
• Pierwsze wyniki i wnioski oraz kierunki dalszych prac
Zespoły na Wikipedii
• Zespół to podzbiór sieci społecznej• W historii edycji, zespół to zbiór autorów, którzy
współtworzyli artykuł– Których edycje są nadal częścią aktualnej wersji
artykułu• Założenie: jakość zespołu można ocenić po
jakości jego wytworu (artykułu)• Dlatego wykorzystujemy klasyfikację artykułów
na Wikipedii– Klasyfikacja wykonana przez czytelników– Artykuły „złote” (wyróżnione) i „dobre”– Pozostałe artykuły (po usunięciu artykułów „stub”)
uznajemy za „normalne”
Kryteria jakości zespołów
• Oparte o wielowymiarową sieć
• Sumy lub średnie sił krawędzi pomiędzy członkami zespołu
• Dla wymiaru 4 (zainteresowania):– Średnie zainteresowanie członków zespołu
kategoriami opisującymi tworzony artykuł– Najsłabsze zainteresowanie (minmax) wśród
członków zespołu kategoriami artykułu
Zbiór danych Wikiteams
• Około 300 „złotych” i „dobrych” zespołów• Około 200 000 normalnych zespołów• Informacje na temat zespołu:
– Rozmiar– Skład– Obliczone wartości kryteriów
• Informacje na temat artykułu:– Ilość edycji– Czas pierwszej i ostatniej edycji
• Informacje o autorach:– W ilu „złotych” i „dobrych” zespołach uczestniczył autor– Pozycja autora w każdej z sieci społecznych
Plan prezentacji
• Wprowadzenie: otwarte sieci innowacyjne
• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii
• Metoda badawcza: wielowymiarowe sieci społeczne
• Zespoły na Wikipedii
• Pierwsze wyniki i wnioski oraz kierunki dalszych prac
Porównanie dobrych i normalnych zespołów
0
100
200
300
400
500
600
700
800
trust
avge
trust
avgv
critic
ism a
vge
critic
ism a
vgv
acqu
aintanc
e avge
acqu
aintanc
e avgv
inter
ests a
vgav
g
inter
ests m
inmax
good teams normal teams
0%
20%
40%
60%
80%
100%
120%
140%
160%
trust
avge
trust
avgv
critic
ism a
vge
critic
ism a
vgv
acqu
aintanc
e avge
acqu
aintanc
e avgv
inter
ests a
vgav
g
inter
ests m
inmax
good teams normal teams
Kapitał społeczny autorów
• Czy ilość dobrych zespołów, w których uczestniczył autor, jest związana z jego kapitałem społecznym?
• Tak. Stopień węzła w wymiarze 3 (znajomość) i 1 (zaufanie) dobrze prognozuje ilość dobrych zespołów autora.
• Dobrze jest mieć wiele kontaktów w sieciach 3 i 1, ale kontakty te nie powinny się ze sobą zbyt silnie łączyć.
Zmiennaobjaśniająca
R kwadratWspółczynnik w
modelu liniowym
Stopień w wymiarze 3 0,272 0,16
Stopień w wymiarze 1 0,43 1,34
CC w wymiarze 3 0,053 -2,93
CC w wymiarze 1 0,014 -1,18
Pierwsze wnioski
• Najlepszą korelację z jakością zespołu mają kryteria znajomości (wymiar 3)
• Większość kryteriów jest istotna statystycznie• Możliwa jest klasyfikacja dobrych zespołów na
podstawie zaproponowanych kryteriów z dokładnością do 90%
• Zainteresowania autorów tematyką dobrego artykułu nie musi być wysokie– Dobre artykuły dotyczą tematów popularnych z innych
względów
• Kapitał społeczny autorów dobrze prognozuje ich udział w dobrych zespołach.
Czego chcielibyśmy się dowiedzieć?
• Czy nasze interpretacje wymiarów są poprawne?– Badania jakościowe oraz sondaż wśród
aktywnych autorów polskiej Wikipedii zgromadzonych na Wikimanii w Gdańsku
• Jakie inne zjawiska społeczne mają istotny wpływ na jakość zespołu?
Pytania?