4ac1618256653d83c4c0d57ff7004ca994131f05
[protection-tools] / docs / homepage.rst
1 Page Protection Software and Dataset
2 ==================================================================
3
4 .. figure:: biology_screenshot.png
5    :align: right
6    :figwidth: 526px
7    
8    Example of the English Wikipedia article on Biology which has been
9    protected for long periods of time. Note the "View Source" button
10    instead of "Edit" and the small lock signaling that the page is
11    protected.
12
13 **Page protection** is a `feature of MediaWiki software`__ that allows
14 administrators to restrict contributions to particular pages.  For
15 example, a page can be “protected” so that only administrators or
16 logged-in editors with a history of good editing can edit, move, or
17 create it.
18
19 __ https://www.mediawiki.org/wiki/Help:Protected_pages
20
21 Protection might involve “full protection” where a page can only be
22 edited by administrators (i.e., “sysops”) or “semi-protection” where a
23 page can only be edited by accounts with a history of good edits
24 (i.e., “autoconfirmed” users).
25
26 Although largely hidden, page protection profoundly shapes activity on
27 the site. For example, page protection is an important tool used to
28 manage access and participation in situations where vandalism or
29 interpersonal conflict can threaten to undermine content quality.
30 While protection affects only a small portion of pages in English
31 Wikipedia, many of the most highly viewed pages are protected. For
32 example, the “Main Page” in English Wikipedia has been protected since
33 February, 2006 and all Featured Articles are protected at the time
34 they appear on the site’s main page. Millions of viewers may never
35 edit Wikipedia because they never see an edit button.
36
37 Despite it's widespread and influential nature, very little
38 quantitative research on Wikipedia has taken page protection into
39 account systematically. This page contains software and data to help
40 Wikipedia research do exactly this in their work.
41
42 Because a page's protection status can change over time, the snapshots
43 of page protection data stored by Wikimedia and `published by
44 Wikimedia Foundation in as dumps`__ is incomplete. As a result, taking
45 protection into account involves looking at several different sources
46 of data.
47
48 __ http://dumps.wikimedia.org/
49
50 Much more detail can be found in our paper (currently under review)
51 `Page Protection: Another Missing Dimension of Wikipedia
52 Research`__. If you use this software or these data, we would
53 appreciate if you cite the paper:
54
55   *Hill, Benjamin Mako and Aaron Shaw. "Page Protection: Another
56   Missing Dimension of Wikipedia Research." Working Paper. 2015.*
57
58 __ FORTHCOMING
59
60 Page Protection Software
61 =============================
62
63 Building page protection data is a multi-step and labor intensive
64 process. We have `publicly released software in Python and R to do
65 these two steps`__ under the `GNU GPL version 3`__. The software is
66 designed for people already comfortable with working with MediaWiki
67 XML dumps and the tools and software necessary to do this.
68
69 __ http://projects.mako.cc/source/?p=protection-tools
70 __ http://www.gnu.org/licenses/gpl-3.0.html
71
72 You can download the software from our git repository like::
73
74   git clone git://projects.mako.cc/protection-tools
75
76 Detailed documentation on how to use the software is in available in `our
77 README file`__.
78
79 __ README
80
81 Page Protection Data
82 =========================
83
84 .. figure:: protections_over_time.png
85    :align: right
86    :figwidth: 432px
87
88    Count of pages protected from editing in English Wikipedia over
89    time for all pages and for the article namespace only.
90
91 In `our paper`__, we present an analysis of page protection data from
92 English Wikipedia in the dump created in January 2015. You can
93 download `the dump files we used`__ from `the Wikimedia Foundation
94 dataset archive`__ and at the URLs detailed in the README__.  Because
95 generating these dumps can be computationally intense, we have
96 published the output of the software above run on the this dump.
97
98 You can download the dataset in the following formats:
99
100 - `RData`__ — Suitable for use in `GNU R`__
101 - `bzip2 compressed tab separated values`__ — Suitable for use
102   in other languages and statistical packages.
103
104 __ FORTHCOMING
105 __ README
106 __ http://dumps.wikimedia.org/enwiki/20150112/
107 __ http://dumps.wikimedia.org/
108 __ enwiki_201501-protection_spells-v1.RData
109 __ http://www.r-project.org/
110 __ enwiki_201501-protection_spells-v1.tsv.bz2
111
112
113 More Information
114 ==================
115
116 For details about the dataset, why it is important, and for examples on
117 how it can be used to come to better findings in Wikipedia research,
118 please read `the companion paper`__.
119
120 __ FORTHCOMING
121
122 If you notice issues or bugs in our data or `code`__, contact `Benjamin
123 Mako Hill`__ or `Aaron Shaw`__.  
124
125 __ http://projects.mako.cc/source/?p=project-tools
126 __ http://mako.cc/contact/
127 __ http://aaronshaw.org/
128
129 Patches and improvements are welcome! Details on `how to produce and send
130 a patch using git are online`__.
131
132 __ http://projects.mako.cc/source/
133
134 ----
135
136 ⓒ Copyright `Benjamin Mako Hill`__ and `Aaron Shaw`__ :: `Creative Commons BY-SA`__ :: Updated: Thu Jul  3 13:22:29 PDT 2014
137
138 __ http://mako.cc/academic/
139 __ http://aaronshaw.org/
140 __ http://creativecommons.org/licenses/by-sa/4.0/
141
142 ..  LocalWords:  png figwidth px autoconfirmed

Benjamin Mako Hill || Want to submit a patch?