updated links and metadata
[redirect-tools] / docs / homepage.rst
1 Consider the Redirect
2 =======================
3
4 __ https://en.wikipedia.org/wiki/Main_Page
5
6 .. figure:: seattle_redirect.png
7    :align: right
8    :figwidth: 614px
9    
10    Example of a redirect displayed in the `Seattle, Washington page on
11    English Wikipedia`__ which is a redirect to `Seattle`__. Note the
12    small redirect notice below the title.
13
14 __ https://en.wikipedia.org/wiki/Seattle,_Washington
15 __ https://en.wikipedia.org/wiki/Seattle
16
17 In wikis, **redirects** are special pages in that silently take
18 readers from the page they are visiting to another page in the
19 wiki. In the `English Wikipedia`__, redirects make up more than half
20 of all article pages.
21
22 Different Wikipedia data sources handle redirects differently. For
23 example, `the MediaWiki API`__ will automatically "follow" redirects
24 but the `XML database dumps`__ treat redirects like normal
25 articles. In both cases, redirects are often invisible to researchers.
26
27 __ https://www.mediawiki.org/wiki/API:Main_page
28 __ https://meta.wikimedia.org/wiki/Data_dumps
29
30 Because redirects constitute a majority of all pages and see a large
31 portion of all traffic, Wikipedia researchers need to take redirects
32 into account or their findings may be incomplete or incorrect.  For
33 example, the histogram on this page shows the distribution of edits
34 across pages in Wikipedia for every page, and for non-redirects only.
35 Because redirects are almost never edited, the distributions are
36 very different.  Similarly, because redirects are viewed but almost
37 never edited, any study of views over articles should also take
38 redirects into account.
39
40 .. figure:: edits_over_pages.png
41    :align: right
42    :figwidth: 614px
43
44    Histograms of pages in the article namespace based on the number of
45    edits on a log scale.  The red histogram includes all pages in the
46    article namespace (N = 9,729,989). The blue graphs includes only
47    pages that were not redirects at the point of data collection (N =
48    5,327,561).
49
50 Because redirects can change over time, the snapshots of redirects
51 stored by Wikimedia and published by Wikimedia Foundation are 
52 incomplete. Taking redirects into account fully involves looking at the
53 content of every single revision of every article to determine both
54 when and where pages redirect. 
55
56 Much more detail can be found in `Consider the Redirect: A Missing
57 Dimension of Wikipedia Research`__ — a short paper that we have written
58 to accompany this dataset and these tools.  If you use this software or
59 these data, we would appreciate if you cite the paper:
60
61   Hill, Benjamin Mako & Shaw, Aaron. (2014) "Consider the Redirect: A
62   Missing Dimension of Wikipedia Research." In *Proceedings of the 10th
63   International Symposium on Open Collaboration (OpenSym 2014)*. ACM
64   Press. `doi: 10.1145/2641580.2641616`__
65
66 __ https://doi.org/10.1145/2641580.2641616 
67 __ https://doi.org/10.1145/2641580.2641616 
68
69 Generating Redirect Spells
70 =============================
71
72 Generating redirect spells from an MediaWiki XML dump involves two steps:
73
74 1. Searching the full text of every revision of every page in a dump to
75    determine if any given revision is a redirect.
76
77 2. Using the results of (1) to generate a list of "spells" that describe
78    periods of time that articles in a wiki redirect to other articles.
79
80 We have `publicly released software in Python and R to do these two
81 steps`__ under the `GNU GPL version 3`__. The software is designed for
82 people already comfortable with working with MediaWiki XML dumps and the
83 tools and software necessary to do this.
84
85 __ http://projects.mako.cc/source/?p=redirect-tools
86 __ http://www.gnu.org/licenses/gpl-3.0.html
87
88 You can download the software from our git repository like::
89
90   git clone git://projects.mako.cc/redirect-tools
91
92 Detailed documentation on how to use the software is in available in `our
93 README file`__.
94
95 __ README.html
96
97 Redirect Spell Data
98 =========================
99
100 In `our paper`__, we present an analysis of redirect data from English
101 Wikipedia in the dump created in October
102 2012. You can download `the dump files we used`__ from `the Wikimedia
103 Foundation dataset archive`__.  Because generating these dumps can be
104 computationally intense, we have published the output of the software
105 above run on the this dump. This includes 9,277,563 redirect spells that
106 our software identified and is the dataset used in the paper.
107
108 You can download the dataset in the following formats:
109
110 - `RData (240MB)`__ — Suitable for use in `GNU R`__
111 - `bzip2 compressed tab separated values (178MB)`__ — Suitable for use
112   in other languages and statistical packages.
113
114 __ https://doi.org/10.1145/2641580.2641616 
115 __ http://dumps.wikimedia.org/enwiki/20121001/
116 __ http://dumps.wikimedia.org/
117 __ enwiki_201210-redirect_spells-v1.RData
118 __ http://www.r-project.org/
119 __ enwiki_201210-redirect_spells-v1.tsv.bz2
120
121 Limitations
122 ===============
123
124 Taking redirects into account is one important step that Wikipedia
125 researchers should take but it is hardly a panacea. As just one example,
126 in conversations after the publication of this paper, we have realized
127 that page moves may lead to additional challenges in interpreting view
128 data and in some cases to challenges in interpreting redirect data
129 itself. This work reflects a step toward increased validity but it is
130 incomplete.
131
132 Depending on the research question, a complete picture may need to take
133 redirects, moves, other administrative actions, changing ways of
134 measuring views, bot and bot-assisted editing, along with other
135 currently unidentified features, into account.  We hope to extend our
136 work with redirects and explore these issues and we hope other
137 researchers will join us in these efforts to build a better
138 understanding, tools, and datasets that can improve Wikipedia research.
139
140
141 More Information
142 ==================
143
144 For details about the dataset, why it is important, and for examples on
145 how it can be used to come to better findings in Wikipedia research,
146 please read `the companion paper`__.
147
148 __ https://doi.org/10.1145/2641580.2641616 
149
150 If you notice issues or bugs in our data or `code`__, contact `Benjamin
151 Mako Hill`__ or `Aaron Shaw`__.  
152
153 __ http://projects.mako.cc/source/?p=redirect-tools
154 __ http://mako.cc/contact/
155 __ http://aaronshaw.org/
156
157 Patches and improvements are welcome! Details on `how to produce and send
158 a patch using git are online`__.
159
160 __ http://projects.mako.cc/source/
161
162
163 ----
164
165 ⓒ Copyright `Benjamin Mako Hill`__ and `Aaron Shaw`__ :: `Creative Commons BY-SA`__ :: Updated: Sun Dec 11 16:43:57 PST 2016
166
167 __ http://mako.cc/academic/
168 __ http://aaronshaw.org/
169 __ http://creativecommons.org/licenses/by-sa/4.0/

Benjamin Mako Hill || Want to submit a patch?