imported the talk given at wikimania
[state_of_wikimedia_research_2014] / 20140808-wikimania_research.tex
1 \documentclass[xcolor=dvipsnames]{beamer}
2
3 % set up the file to create notes in the output PDFs
4 \usepackage{pgfpages}
5 \input{notes.config}
6
7 \renewcommand{\rmdefault}{ugm}
8 \usepackage[garamond]{mathdesign}
9
10 \renewcommand{\sfdefault}{phv}
11 \usepackage{relsize}
12
13 \usepackage{ucs}
14 \usepackage[utf8x]{inputenc}
15 \usepackage[T1]{fontenc}
16 \usepackage{textcomp}
17
18 % add tikz and a bunch of tikz foo
19 \usepackage{tikz}
20 \usetikzlibrary{shapes,shapes.misc,backgrounds,fit,positioning}
21 \tikzstyle{every picture}+=[overlay,remember picture]
22
23 % add functions to circle parts of slides (e.g., in tables)
24 \newcommand\marktopleft[1]{%
25     \tikz[overlay,remember picture] 
26         \node (marker-#1-a) at (0,1.5ex) {};%
27 }
28 \newcommand\markbottomright[1]{%
29     \tikz[overlay,remember picture] 
30         \node (marker-#1-b) at (0,0) {};%
31     \tikz[overlay,remember picture,dashed,inner sep=3pt]
32         \node[violet!75,ultra thick,draw,rounded rectangle,fit=(marker-#1-a.center) (marker-#1-b.center)] {};%
33 }
34
35 % DEPRECATED function to build a huge centered dropshadow
36 \newcommand\dropshadow[3]{%
37   \node[black!30!white] at (#1+0.1,#2-0.1) {
38     \scalebox{2}{\Huge \textbf{#3}}
39   };
40   \node at (#1,#2) {
41     \scalebox{2}{\Huge \e{#3}}
42   };
43 }
44
45 % create an empty quotetxt so we can reuse it
46 \newcommand{\quotetxt}{}
47
48 % more flexible non-tikz alternative with no dropshadow 
49 \newlength{\centertxtlen}
50 \makeatletter
51 \newcommand\centertext[2]{%
52   \setlength{\centertxtlen}{#1}%
53   \setlength{\centertxtlen}{0.48\centertxtlen}%
54   {\centering
55     \fontsize{#1}{2\centertxtlen}\selectfont
56     \e{#2}
57
58   }
59 }
60
61 % add function to stop numbering appendix slides
62 \newcommand{\backupbegin}{
63    \newcounter{framenumberappendix}
64    \setcounter{framenumberappendix}{\value{framenumber}}
65 }
66 \newcommand{\backupend}{
67    \addtocounter{framenumberappendix}{-\value{framenumber}}
68    \addtocounter{framenumber}{\value{framenumberappendix}} 
69 }
70
71 % packages i use in essentially every document
72 \usepackage{graphicx}
73 \usepackage{url}
74 % \usepackage{dcolumn}
75 % \usepackage{booktabs}
76
77 % replace footnotes with symbols instead of numbers
78 \renewcommand*{\thefootnote}{\fnsymbol{footnote}}
79 \usepackage{perpage}
80 \MakePerPage{footnote}
81
82 %% BEAMER THEME STUFF
83 \usetheme[pageofpages=/,% String used between the current page and the
84                          % total page count.
85           bullet=default,% Use circles instead of squares for bullets.
86           titleline=false,% Show a line below the frame title.
87           alternativetitlepage=true,% Use the fancy title page.
88           titlepagelogo=figures/logo.pdf,% Logo for the first page.
89           %watermark=watermark-polito,% Watermark used in every page.
90           watermarkheight=100px,% Height of the watermark.
91           watermarkheightmult=4,% The watermark image is 4 times bigger
92                                 % than watermarkheight.
93           ]{Torino}
94
95 \usecolortheme{mako}
96 \useinnertheme{rectangles}
97 %\setbeamertemplate{blocks}[rounded][]
98 \setbeamercolor{block title}{bg=makopurple3, fg=White}
99
100 \setbeamertemplate{items}[default] 
101 \setbeamertemplate{blocks}[shadow=true] 
102
103 \usepackage{tcolorbox}
104 % These options will be applied to all `tcolorboxes`
105 \tcbset{%
106     noparskip,
107     colback=makopurple5, %background color of the box
108     colframe=makopurple1, %color of frame and title background
109     coltext=black, %color of body text
110     coltitle=white, %color of title text 
111     arc=0em,
112     left=0.1em,
113     right=0.1em,
114     fonttitle=\bfseries,
115     alerted/.style={coltitle=red, 
116                      colframe=gray!40},
117     example/.style={coltitle=black, 
118                      colframe=green!20,             
119                      colback=green!5},
120     }
121
122
123 %\useoutertheme{infolines}
124
125
126 \hypersetup{colorlinks=true, linkcolor=Black, citecolor=Black, filecolor=makopurple1,
127     urlcolor=Plum, unicode=true}
128
129 % create a boldface version of the header
130 \setbeamerfont{frametitle}{series=\bfseries}
131 \setbeamerfont{title}{series=\bfseries}
132
133 % tweak the beamer font to make it a bit lists a bit smaller
134 \setbeamerfont*{itemize/enumerate body}{size=\small}
135 \setbeamerfont*{itemize/enumerate subbody}{size=\footnotesize}
136 \setbeamerfont*{itemize/enumerate subsubbody}{size=\footnotesize}
137
138 % indent the margins of the itemize lists a little bit
139 \setlength{\leftmargin}{0pt}
140 \setlength{\leftmargini}{0.7cm}
141 \setlength{\leftmarginii}{0.7cm}
142
143 % create a new \e{} command to make things purple and bold
144 \newcommand{\e}[1]{\textcolor{makopurple1}{\textbf{#1}}}
145
146 % remove the nagivation symbols
147 \setbeamertemplate{navigation symbols}{}
148
149 \title{Presentation Title}
150 % \subtitle{Presentation Subtitle}
151 \author[Benj. Mako Hill]{\textbf{Benjamin Mako Hill}\\ mako@mit.edu}
152
153 \institute[MIT/Harvard]{\textbf{Massachusetts Institute of Technology}\\
154   Sloan School of Management\\
155   MIT Media Lab\\
156   \hspace{1pt}\\
157   \textbf{Harvard University}\\
158   Berkman Center for Internet and Society}
159
160 \date{December 2, 1980}
161
162 \begin{document}
163
164 % remove some of the space in the itemize to make it quite compact
165 \let\olditemize\itemize
166 \renewcommand\itemize{\olditemize\itemsep-1pt}
167
168 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
169 \section{Introduction}
170 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
171
172 %% SLIDE: Title Slide
173 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
174 \begin{frame}[plain]
175
176   \begin{tikzpicture}
177     \node at (current page.center) [xshift=-3.5cm, yshift=0.5cm, opacity=0.4]
178       {\includegraphics[height=\paperheight]{figures/wikimedia_projects.png}};
179
180
181     \node at (current page.south east)
182     [anchor=south east,text width=1.8\paperwidth,align=right,color=black]
183     {
184       {\spaceskip 0.3em%
185         \fontsize{2.5em}{2.5em}
186         \selectfont {\bf \color{makopurple4} The State of Wikimedia\\
187           Research: 2013-2014} \par}
188
189       \vspace{1em}
190
191       {\spaceskip 0.3em%
192         \fontsize{2.0em}{2.1em}
193         \selectfont {\bf \color{black} Benjamin Mako Hill\\
194           Tilman Bayer\\
195           Aaron Shaw\\
196           Wikimania 2014, London\\
197           August 8, 2014} \par}
198
199     };
200   \end{tikzpicture}
201   
202   \input{vc}
203
204   \tikz[overlay,shift=(current page.south west)]{\node [xshift=5.6em,yshift=0.5em]{\colorbox{makopurple1}{\color{white} \tt \smaller \smaller \smaller revision:\ \VCRevision\  (\VCDateTEX)}};}
205
206   \note{I've been doing this for many years. I started in 2008 and
207     have done this almost every single year since.
208
209     This began as an excuse for me to make sure I was up to date on
210     Wikimedia Research.}
211
212 \end{frame}
213
214 %% SLIDE: Anecdote from Wikimania 2008
215 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
216 \renewcommand{\quotetxt}{``This talk will try to [provide] a quick
217   tour – a literature review in the scholarly parlance – of the last
218   year's academic landscape around Wikimedia and its projects geared
219   at non-academic editors and readers. It will try to categorize,
220   distill, and describe, from a birds eye view, the academic landscape
221   as it is shaping up around
222   our project.''\\
223   \hfill – \e{From my Wikimania 2008 Submission}}
224
225 \begin{frame}
226
227   {\smaller \quotetxt}
228
229   \pause
230   \includegraphics[width=\textwidth]{figures/google_scholar_result.png}
231
232   \pause
233   \tikz{\draw (current page.center) [xshift=-2.1cm, yshift=0.9cm, color=red]
234     ellipse (1.5cm and 0.5cm);}
235
236   \note<1>{Back in Wikimania 2008, I set out to run a session at
237     Wikimania that would provide a comprehensive literature review of
238     articles in Wikipedia published in the last year.
239
240     \begin{quote}
241       \quotetxt
242     \end{quote}
243
244     Then, about two weeks before Wikimania, I did the scholar search
245     so I could build the literature.}
246
247   \note<2->{I tried to import the whole list into Zotero and managed
248     to get banned for abusing the Google Scholar because they thought
249     that no human being could realistically consume the amount of
250     material published on Wikipedia that year.
251
252     So anyway, I had a 45 minute talk so it worked out to 3.45 seconds
253     to per paper...
254
255     And believe it or not, this year is even bigger.
256  
257     And my talk is even shorter.}
258
259 \end{frame}
260
261 %% SLIDE: Citations Per Year
262 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
263 \begin{frame}
264
265   \includegraphics[width=\textwidth]{figures/citations_by_year.pdf}
266
267   \centering
268
269   {\smaller \emph{Number of citation, per year, with the term
270       “wikipedia” in the title.\\
271       (Source: Google scholar results. Accessed: 2013-08-06)}}
272
273   \note{Academics have written \e{a lot} of papers about
274     Wikipedia. There are more than 500 papers published about
275     Wikipedia each year and although we've reached and moved past a
276     peak it seems, it's not slowing by much.}
277
278 \end{frame}
279
280 \begin{frame}
281
282   \begin{itemize}
283     \larger \larger
284   \item \e{2968} Wikipedia-related publications in the Scopus database
285     as of November 2013
286
287   \item \e{160} recent publications reviewed or mentioned in the 12 issues
288     of the Wikimedia Research Newsletter August 2013-July 2014.
289   \end{itemize}
290
291 \end{frame}
292
293 %% SLIDE: My Scope Conditions
294 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
295 \begin{frame}
296
297   \includegraphics[width=\textwidth]{figures/multiple_issues.png}
298
299   \larger \larger
300   In selecting papers for this session, the goal is always to choose
301   examples of work that:
302
303   \begin{itemize}
304   \larger \larger
305   \item Represent \e{important themes} from Wikipedia in the last year.
306   \item Research that is likely to be of \e{interest} to Wikimedians.
307   \item Research by people who are \e{not at Wikimania}.
308   \end{itemize}
309
310   \note{This is my disclaimer slide...
311
312   Within these goals, the selections are \e{incomplete}, and \e{wrong}.}
313 \end{frame}
314
315 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
316 \section{Paper Summaries}
317 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
318
319 \subsection{Event Prediction}
320
321 \begin{frame}
322   \centertext{6em}{Event Prediction}
323
324   \note{Mako
325
326     This was the year that studies of readership of Wikipedia really
327     blossomed. People figured out how to use the view data. Much of
328     what they used it for was prediction.}
329 \end{frame}
330
331 \begin{frame}
332   
333   \frametitle{Wikipedia Viewership and Flu Prediction}
334
335   \larger \larger McIver, David J., and John
336   S. Brownstein. ``\e{Wikipedia Usage Estimates Prevalence of
337     Influenza-Like Illness in the United States in Near Real-Time}.''
338   PLoS Comput Biol 10, no. 4 (April 17, 2014):
339   e1003581. \href{http://dx.doi.org/10.1371/journal.pcbi.1003581}{doi:10.1371/journal.pcbi.1003581}.
340
341 \end{frame}
342
343 \begin{frame}
344
345   \frametitle{Wikipedia Viewership and Flu Prediction: Motivation}
346
347   \begin{itemize}
348     \larger \larger
349   \item \e{Google Flu Trends} uses search engine queries to try to
350     predict influenza epidemics more quickly than traditional methods.
351   \item ..but it has been criticized as being biased (e.g., by media coverage).
352   \item WP is freely available and viewership data is free, unlike
353     Google which is proprietary.
354
355   \end{itemize}
356
357   \note{2009 H1N1 Swine Flu broke GFT.}
358 \end{frame}
359
360 \begin{frame}
361
362   \frametitle{Wikipedia Viewership and Flu Prediction: Methods}
363
364   \begin{itemize}
365   \larger \larger \larger
366   \item Measure traffic to flu related articles on Wikipedia
367   \item Compare to the ``gold standard'' data from the Center for
368     Disease Control (CDC)
369   \end{itemize}
370
371 \end{frame}
372
373 \begin{frame}
374   \frametitle{Wikipedia Viewership and Flu Prediction: Results}
375
376   \centering
377   \includegraphics[width=\textwidth]{figures/flu.png}
378
379 \note{\begin{itemize}
380   \larger \larger
381
382   \item Wikipedia better than Google at predicting peak flu weeks.
383   \item Wikipedia better at predicting relative influenza rates.
384   \end{itemize}}
385
386 \end{frame}
387
388 \begin{frame}
389
390   \frametitle{Other things people have tried to predict include...}
391   \begin{itemize}
392
393     \larger \larger
394   \item \href{http://arxiv.org/abs/1405.3612}{Global disease forecasting}
395
396   \item \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2014/June\#.22Prediction_of_Foreign_Box_Office_Revenues_Based_on_Wikipedia_Page_Activity.22}{Box office revenue based on films}
397   \item \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2013/December\#Attempt_to_use_Wikipedia_pageviews_to_predict_election_results_in_Iran.2C_Germany_and_the_UK}{Election results in Iran, Germany and the UK}
398   \item \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2014/April\#cite_ref-10}{Breaking news stories}
399   \item Trending topics, general zeitgeist. 
400     \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2014/June\#cite_ref-13}{[1]}
401     \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2013/August\#Collective_memories_in_Wikipedia}{[2]}
402     \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2013/November\#Twitter_activity_leads_Wikipedia_activity_by_an_hour}{[3]}
403     \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2013/September\#Identifying_trending_topics_of_yesteryear}{[4]}
404
405  \end{itemize}
406   
407 \end{frame}
408
409 \subsection{Wikimedia as a Corpus}
410
411 \begin{frame}
412   
413   \centertext{5em}{Wikimedia as a Corpus}
414
415   \note{\e{Aaron}
416
417     From the Bar-Ilan lit review: 48\% of them about Wikipedia per se,
418     52\% are just using Wikipedia (e.g. as a text corpus)
419     
420     Wiktionary, non Wikipedia projects.
421
422     Wiktionary as a source of data, not the substance/object of
423     analysis. Projects as amazing multilingual corpuses of natural
424     language.}
425
426 \end{frame}
427
428 \begin{frame}
429
430   \frametitle{Multi-Lingual Dictionary from Wiktionary: Methods}
431
432   \larger \larger Ács, Judit. ``\e{Pivot-Based Multilingual Dictionary
433     Building Using Wiktionary}.'' In Proceedings of the Ninth
434   International Conference on Language Resources and Evaluation
435   (LREC'14). Rekyjavik, Iceland,
436   2014. \href{http://www.lrec-conf.org/proceedings/lrec2014/pdf/864\_Paper.pdf}{http://www.lrec-conf.org/proceedings/lrec2014/pdf/864\_Paper.pdf}.
437
438   \note{\e{Methods}: This paper uses a machine classifier to take
439     advantage of ``pivots'' --- words with common translations across
440     more than one language --- to automatically construct a
441     multilingual dictionary via triangulation! They then manually
442     evaluate the precision of this multilingual dictionary on a small
443     subset of words.}
444
445 \end{frame}
446
447 \begin{frame}
448
449   \frametitle{Multi-Lingual Dictionary from Wiktionary: Results}
450
451
452   \begin{columns}
453     \column{0.5\textwidth}
454     \includegraphics[height=0.85\textheight]{figures/Acs-fig5.pdf}
455
456     \column{0.5\textwidth}
457
458     \larger \e{Figure:} Translation graph with many pivots. The edge
459     labels denote the source Wiktionary and article of the translation
460     pair.
461
462   \end{columns}
463
464   \note{\textbf{Finding:} So, kind of incredibly, this sort of
465     works. The author succeeds in constructing the multilingual
466     dictionary, but finds that problems like polysemy (one word
467     meaning multiple things) limit the precision of the resulting
468     output. Using the multilingual pivots offered by Wiktionary,
469     however, performs much better using ``triangles'' between three
470     languages alone.}
471
472 \end{frame}
473
474 \subsection{Content Quality}
475 \begin{frame}
476   
477   \centertext{6em}{Content Quality}
478
479   \note{Mako
480
481     Mostly focused on sub-areas. There was one this year we considered
482     discussion on hematology. Or information on infectious diseases.}
483
484 \end{frame}
485
486 \begin{frame}
487
488   \frametitle{Comparing Wikipedia Quality to Britannica}
489   
490   \larger \larger Nifrário Rodrigues, Fernando
491   Silvério. ``\e{Colaboração Em Massa Ou Amadorismo Em Massa? Um
492     Estudo Comparativo Da Qualidade Da Informação Científica Produzida
493     Utilizando Os Conceitos E Ferramentas Wiki}.'' Universidade de
494   Évora,
495   2012. \href{http://massamateurism.blogspot.co.uk/p/synopsis.html}{http://massamateurism.blogspot.co.uk/p/synopsis.html}.
496
497   \note{A Portuguese-language dissertation at the Universidade de
498     Évora, titled "Colaboração em Massa ou Amadorismo em Massa?"
499     ("Mass collaboration or mass amateurism?")}
500
501 \end{frame}
502
503 \begin{frame}
504
505   \frametitle{Comparing Wikipedia Quality to Britannica: Methods}
506
507   \begin{itemize}
508     \larger \larger
509   \item Random sample of 245 article pairs from both encyclopedias.
510   \item Graded by an expert in its subject area using a five-point scale.
511   \item Experts asked, ``to concentrate only on some [...] intrinsic
512     aspects of the articles' quality, namely accuracy and objectivity,
513     and discard the contextual, representational and accessibility
514     aspects.''
515   \item Experts were mostly university teachers.
516   \end{itemize}
517
518   \note{Compared the quality of English Wikipedia with that of
519     Encyclopedia Britannica}
520 \end{frame}
521
522 \begin{frame}
523   \frametitle{Comparing Wikipedia Quality to Britannica: Results}
524
525   \includegraphics[width=\textwidth]{figures/synopsis4.jpg}
526
527   \note{They rated "\e{90\%} of the Wikipedia articles ... as having
528     \e{equivalent or better quality} than their Britannica
529     counterparts".}
530 \end{frame}
531
532 \begin{frame}
533
534   \frametitle{Comparing Wikipedia Quality to Britannica: Results}
535
536   \includegraphics[width=\textwidth]{figures/synopsis2.jpg}
537
538 \end{frame}
539
540 % Other examples:
541 % - https://meta.wikimedia.org/wiki/Research:Newsletter/2014/April#cite_ref-17
542 % - https://meta.wikimedia.org/wiki/Research:Newsletter/2014/February#.22World.E2.80.99s_largest_study_on_Wikipedia:_Better_than_its_reputation.22 (Finnish WP)
543 % - https://meta.wikimedia.org/wiki/Research:Newsletter/2014/March#.22Risk_factors_and_control_of_hospital_acquired_infections:_a_comparison_between_Wikipedia_and_scientific_literature.22
544 % - https://meta.wikimedia.org/wiki/Research:Newsletter/2013/December#.22Evaluation_of_gastroenterology_and_hepatology_articles_on_Wikipedia.22
545
546 \subsection{Controversy and Conflict}
547 \begin{frame}
548
549   \centertext{7em}{Controversy and Conflict}
550
551   \note{Tilman}
552
553 \end{frame}
554
555 \begin{frame}
556   \frametitle{Conflict, Consensus and Quality in Wikipedia}
557   
558   \larger \larger Osman, Kim. ``\e{The Role of Conflict in Determining
559     Consensus on Quality in Wikipedia Articles}.'' In Proceedings of
560   the 9th International Symposium on Open Collaboration,
561   12:1–12:6. WikiSym ’13. New York, NY, USA: ACM,
562   2013. \href{http://dx.doi.org/10.1145/2491055.2491067}{doi:10.1145/2491055.2491067}.
563
564 \end{frame}
565
566 \begin{frame}
567
568   \frametitle{Conflict, Consensus and Quality in Wikipedia: Methods}
569   
570   \begin{itemize}
571     \larger \larger \larger
572   \item Literature review of research on online communities
573   \item Discourse analysis of [[Talk:Australia]] (+ 17 archive pages),
574     coding 147 threads (156,112 words) in a grounded theory approach.
575   \end{itemize}
576
577   \note{Very simplified: Grounded theory is an approach in social
578     sciences where one starts from empirical data first and develops
579     hypotheses by coding... }
580
581 \end{frame}
582
583 \begin{frame}
584
585   \frametitle{Conflict, Consensus and Quality in Wikipedia: Results}
586
587   \larger \larger
588
589   ``\e{Conflict} was significantly more prevalent .. than \e{collaboration}.''
590
591   \begin{itemize}
592     \larger
593
594   \item However: Personal attacks are rare (as opposed to
595     disagreement).
596
597   \item ``The four main themes that emerged as cause for
598     debate among the editorial community were \e{sources}, \e{wording},
599     \e{structure} and \e{content accuracy}".
600
601   \item In e.g. sourcing debates, "conflict ... had a role in developing a
602     mechanism to ensure the accuracy of information by prompting
603     participants to properly source and reference material."
604
605   \item Conflict is not always bad. ``\e{Generative friction}''
606     benefits Wikipedia quality.
607   \end{itemize}
608
609   \note{i.e. editors generally play the ball, not the man.}
610
611 \end{frame}
612
613 \begin{frame}
614   
615   \frametitle{Conflict, Consensus and Quality in Wikipedia: Results}
616
617     \includegraphics[width=0.85\textwidth]{figures/osman-fig.png}
618
619     \begin{itemize}
620       \larger
621     \item Talk page discussions frequently contain references to
622       Wikipedia policy, both formal (directly linking a policy) and
623       informal (mentioning or quoting it).
624
625     \item 86\% of policy references are informal 
626
627     \end{itemize}
628
629   \note{Bear in mind that while it was a sizable corpus, it still
630     pertained to only one article on the English Wikipedia.
631
632     Osman: "More than being a set of isolated rules for the community,
633     policies are part of the fabric of the culture of the talk
634     pages. They regulate both behavior and the production process and
635     manage conflict so that it remains a generative friction", e.g. by
636     discouraging personal attacks.}
637
638 \end{frame}
639
640 \subsection{WikiProjects}
641
642 \begin{frame}
643   
644   \centertext{7em}{WikiProjects}
645
646   \note{Another area of research focuses on understanding wikis and
647     other peer production communities as organization. Some of the
648     most interesting work in this area compares many projects in order
649     to better understand the characteristics that might lead them to
650     grow and attract contributors.}
651 \end{frame}
652
653 \begin{frame}
654   \frametitle{Critical Mass in WikiProjects}
655
656   \larger \larger Solomon, Jacob, and Rick Wash. “\e{Critical Mass of
657     What? Exploring Community Growth in WikiProjects}.” In Eighth
658   International AAAI Conference on Weblogs and Social Media,
659   2014. \href{http://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/view/8104}{[1]}.
660
661   \note{\e{Methods:} Analyzed data on 1069 EN:WP WikiProjects. Fit
662     models to describe the projects' growth curves in terms of editors
663     and project edits. They then use these growth curves to estimate
664     the relationship between adding editors or edits (at an early
665     stage) on subsequent project growth.}
666
667 \end{frame}
668
669 \begin{frame}
670   \frametitle{Critical Mass in WikiProjects: Results}
671
672   \includegraphics[width=\textwidth]{figures/Solomon_Walsh-2014-critical_mass_wikiprojects-FIG1.pdf}
673
674   \note{Results: The authors find that projects with more contributors
675     are more likely to experience subsequent growth in contributions
676     and contributors.They also find that contributions from both
677     "power users" and more casual, one-off contributors predicts
678     subsequent growth. These findings (like others in this area) have
679     important implications for project leaders and designers.}
680   
681 \end{frame}
682
683 \subsection{Vandalism}
684 \begin{frame}
685
686   \centertext{7em}{Vandalism}
687
688 \end{frame}
689
690 \begin{frame}
691
692   \frametitle{Edit Patterns and Vandalism Detection}
693   
694   \larger \larger Sethi, Deepika. \e{A Large Scale Study of Edit
695     Patterns in Wikipedia and its Applications to Vandalism
696     Detection}. M. Sc. thesis, University of Georgia. Submitted
697   December 2012
698
699 \end{frame}
700
701 \begin{frame}
702
703   \frametitle{Edit Patterns and Vandalism Detection: Methods}  
704
705   \larger \larger Used the \e{PAN Wikipedia vandalism corpus 2010 } of
706   32,452 edits, classified as vandalism (2,391 edits) or non-vandalism
707   by Mechanical Turk workers.
708
709   \note{Corpus was created to train vandalism detectors and
710     formed the basis of several competitions.}
711
712   Identified vandalism based on:
713
714   \begin{itemize}
715   \larger \larger 
716
717   \item Editor country
718   \item Time of day
719
720   \item \e{Article content domain} using 12 ``classes'' from DBpedia
721     (e.g., 1. Person, 2. Work, 3. Sports, 4. Places, 5. Food ...)
722   \item Content of edits
723
724   \end{itemize}
725
726 \end{frame}
727
728 \begin{frame}
729   \frametitle{Edit Patterns and Vandalism Detection: Results}
730
731   \larger \larger \larger "\e{Vandalism occurs the most during office
732     hours} while \e{non-vandalism occurs the most during late
733     evenings}."
734
735 \end{frame}
736
737 \begin{frame}
738   \frametitle{Edit Patterns and Vandalism Detection: Results}
739
740     \larger "Hostilities among the countries are one major cause of
741     vandalism."
742     
743     \medskip
744
745   \includegraphics[width=\textwidth]{figures/sethi-countries.pdf}
746   \note{\e{Country} where the vandal is based..
747
748     Methodology: Get Geolocation of IP editors to articles about
749     countries Result: image : Figure 20: India’s Vandal Contributions
750     (caption: Where Indians vandalize most)
751
752     [[India]] most frequently vandalized from India, Bahrain, Bangladesh, Pakistan, ...
753
754     [[Pakistan]] most frequently vandalized from India, Pakistan, Poland, Sweden}
755
756
757 \note{Other example: [[Taiwan]] from Taiwan, China, Germany ... / [[China]] from Ireland, Germany, Poland, ... }
758
759 \end{frame}
760
761 \begin{frame}
762   \frametitle{Edit Patterns and Vandalism Detection: Results}
763
764 %  \includegraphics[width=\textwidth]{figures/sethi-46-figure.pdf}
765
766   \larger \larger \larger \e{Common Vandalism Words}
767
768   Ball, chicken, British, woman, hole, handicap, meat, kiss, play,
769     old, love, death, course, kick, American, bomb
770
771   \note{Methodology: Word most frequently occurring in vandalized versions
772
773     Result: Ball, chicken, British, woman, hole, handicap, meat, kiss,
774     play, old, love, death, course, kick, American, bomb, ...}
775
776
777   %\note{Intriguing... A vandal who only added words might aim to get visibility for them; a vandal who only deleted words might dislike a particular statement}
778
779
780 \end{frame}
781
782 \subsection{Editor Motivation}
783
784 \begin{frame}
785
786   \centertext{7em}{Editor Motivation}
787
788 \end{frame}
789
790 \begin{frame}
791
792   \frametitle{When do barnstars increase edits?}
793
794   \larger \larger Restivo, Michael, and Arnout van de Rijt. “\e{No Praise
795   without Effort: Experimental Evidence on How Rewards Affect
796   Wikipedia’s Contributor Community}.” Information, Communication \&
797   Society 0, no. 0 (0):
798   1–12. \href{http://dx.doi.org/10.1080/1369118X.2014.888459}{doi:10.1080/1369118X.2014.888459}.
799
800 \end{frame}
801
802 \begin{frame}
803
804   \frametitle{When do barnstars increase edits? Methods}
805
806   \larger \larger Prior work by the authors showed that randomly given
807   barnstars to very active editors (top 1\% in a month) resulted in
808   more edits and a positive feedback loop in English Wikipedia.
809
810   \begin{itemize}
811     \larger \larger
812   \item Like before, gives barnstars to \e{randomly} selected users --
813     but this time to editors of varying activity level (e.g.,
814     91-95$^{\mathrm{th}}$, 96-99$^{\mathrm{th}}$, and 100$^{th}$
815     percentile of editing in the month). Plus a ``control'' group of
816     other editors who do not receive the award.
817   \item Follow post-award activity on Wikipedia.
818   \end{itemize}
819
820 \end{frame}
821
822 \begin{frame}
823
824   \frametitle{Do barnstars encourage editing? Results for Edits}
825
826   \includegraphics[width=\textwidth]{figures/barnstars-1.pdf}
827
828   \note{Positive effect only in the case of the very active -- top 1\%
829     of editors. No significant difference in the other two groups.}
830
831 \end{frame}
832
833 \begin{frame}
834
835   \frametitle{Do barnstars encourage editing? Results for Retention}
836
837   \includegraphics[width=\textwidth]{figures/barnstars-2.pdf}
838
839   \note{Lower retention among award recipients in the less active
840     group! No significant difference in the other two groups.}
841 \end{frame}
842
843
844 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
845 \section{Conclusion}
846 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
847
848 %% SLIDE: Other Resources
849 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
850 \begin{frame}{More Resources}
851
852   \begin{itemize}
853     \larger \larger
854   \item \e{Wikimedia Research Newsletter} [[:meta:Research:Newsletter]]
855   \item \e{WikiSym} (Later this month in Berlin!)
856   \item \e{WikiPapers Repository} [http://wikipapers.referata.com]
857   \item \e{Much More}
858   \end{itemize}
859
860   {\centering 
861     \includegraphics[width=0.25\textwidth]{figures/Wikimedia_Research_Newsletter_Logo.png}
862
863   }
864
865   \note{Those are my six exemplary studies from the past year. 
866
867     There has been just tons and tons of work in this area. Trying to
868     talk about this in 20 minutes strikes me as increasingly crazy
869     every year I try to do it.
870
871     The most important source, now going for a couple years, is the
872     Wikimedia Research Newsletter which is published monthly in the (English)
873     Signpost and syndicated on the Wikimedia Research.
874
875     But there are other resources as well. And I encourage you to get
876     involved.}
877
878 \end{frame}
879
880 \subsection{Meta-Analyses}
881
882 \begin{frame}
883
884   \frametitle{Meta-Analyses}
885
886   \begin{itemize}
887
888     \larger \larger
889
890   \item Okoli et al.,
891     \href{https://spectrum.library.concordia.ca/978618/}{``The sum of
892       all human knowledge'': a systematic review of scholarly research
893       on the content of Wikipedia}.
894
895   \item Bar-Ilan and Aharony,
896     \href{http://dl.acm.org/citation.cfm?doid=2615569.2615643}{Twelve
897       years of Wikipedia research}.
898     
899   \item Taraborelli. \href{https://meta.wikimedia.org/wiki/Research:Newsletter/2013/August\#Keynote\_on\_applicable\_Wikipedia\_research}{Keynote
900       on Wikipedia Research}. OpenSym 2013. Hong Kong.
901
902   \item Benkler, Shaw, and Hill,
903     \href{http://mako.cc/academic/benkler\_shaw\_hill-peer\_production\_ci.pdf}{Peer
904       Production: A Modality of Collective Intelligence}.
905
906   \end{itemize}
907
908 \end{frame}
909
910
911 \end{document}
912
913 %  LocalWords:  xshift yshift makopurple Tilman Wikimedians Okoli al
914 %  LocalWords:  Ilan Aharony Taraborelli OpenSym Hong shaw ci pdf GFT
915 %  LocalWords:  McIver Brownstein Comput Wiktionary Acs Judit LREC Ou
916 %  LocalWords:  Rekyjavik Multi polysemy Nifrário Rodrigues Silvério
917 %  LocalWords:  Colaboração Massa Amadorismo Estudo Comparativo Da ou
918 %  LocalWords:  Qualidade Informação Científica Produzida Utilizando
919 %  LocalWords:  Conceitos Ferramentas Universidade Évora WikiProjects
920 %  LocalWords:  Weblogs Sethi Deepika DBpedia Restivo Arnout Rijt th
921 %  LocalWords:  WikiPapers

Benjamin Mako Hill || Want to submit a patch?