initial version of homepage
[redirect-tools] / docs / homepage.rst
1 Consider the Redirect
2 =======================
3
4 __ https://en.wikipedia.org/wiki/Main_Page
5
6 .. figure:: seattle_redirect.png
7    :align: right
8    :figwidth: 614px
9    
10    Example of a redirect displayed in the `Seattle, Washington page on
11    English Wikipedia`__ which is a redirect to `Seattle`__. Note the
12    small redirect notice below the title.
13
14 __ https://en.wikipedia.org/wiki/Seattle,_Washington
15 __ https://en.wikipedia.org/wiki/Seattle
16
17 In wikis, **redirects** are special pages in that silently take readers
18 from the page they are visiting to another page in in the wiki. In the
19 `English Wikipedia`__, redirects make up more than half of all article
20 pages.
21
22 Different data sources of handle redirects differently. For example,
23 `the MediaWiki API`__ will automatically "follow" redirects but the `XML
24 database dumps`__ treat redirects like normal articles. In both cases,
25 redirects are often invisible to reseachers.
26
27 __ https://www.mediawiki.org/wiki/API:Main_page
28 __ https://meta.wikimedia.org/wiki/Data_dumps
29
30 Because redirects constitute a majority of all pages and see a large
31 portion of all traffic, Wikipedia reseachers need to take redirects into
32 account or their findings may be incomplete or incorrect.  For example,
33 the histogram on this page shows the distribution fo edits across pages
34 in Wikipedia for every page, and for non-redirects only.  Because
35 redirects are almost never edited, the distributions are very different.
36 Similarly, because redirects are viewed but almost never edited, any
37 study of views over articles should also take redirects into account.
38
39 .. figure:: edits_over_pages.png
40    :align: right
41    :figwidth: 614px
42
43    Histograms of pages in the article namespace based on the number of
44    edits on a log scale.  The red histogram includes all pages in the
45    article namespace (N = 9,729,989). The blue graphs includes only
46    pages that were not redirects at the point of data collection (N =
47    5,327,561).
48
49 Because redirects can change over time, the snapshots of redirects
50 stored by Wikimedia and published by Wikimedia Foundation are 
51 incomplete. Taking redirects into account fully involves looking at the
52 content of every single revision of every article to determine both
53 when and where pages redirect. 
54
55 Much more detail can be found in `Consider the Redirect: A Missing
56 Dimension of Wikipedia Research`__ — a short paper that we have written
57 to acccompany this dataset and these tools.  If you use this software or
58 these data, we would appreciate if you cite the paper:
59
60   *Hill, Benjamin Mako and Aaron Shaw. "Consider the Redirect:  A Missing
61   Dimension of Wikipedia Research." In Proceedings of the 10th
62   International Symposium on Open Collaboration (OpenSym 2014). ACM
63   Press, 2014.*
64
65 __ http://mako.cc/academic/hill_shaw-consider_the_redirect.pdf
66
67 Generating Redirect Spells
68 =============================
69
70 Generating redirect spells from an MediaWiki XML dump involves two steps:
71
72 1. Searching the full text of every revision of every page in a dump to
73    determine if any given revision is a redirect.
74
75 2. Using the results of (1) to generate a list of "spells" that describe
76    periods of time that articles in a wiki redirect to other articles.
77
78 We have `publicly released software in Python and R to do these two
79 steps`__ under the `GNU GPL version 3`__. The software is designed for
80 people already comfortable with working with MediaWiki XML dumps and the
81 tools and software necessary to do this. We have provided
82 `documentation`__ on how to use these tools.
83
84 __ http://projects.mako.cc/source/?p=redirect-tools
85 __ http://www.gnu.org/licenses/gpl-3.0.html
86 __ README.html
87
88 You can download the software from our git repository like::
89
90   git clone git://projects.mako.cc/redirect-tools
91
92 Detailed documentation on how to use the software is in available in our
93 README file.
94
95 Redirect Spell Data
96 =========================
97
98 In our paper `Consider the Redirect`__, we present an analysis of
99 redirect data from English Wikipedia in the dump created in October
100 2012. You can download `the dump files we used`__ from `the Wikimedia
101 Foundation dataset archive`__.  Because generating these dumps can be
102 computationally intense, we have published the output of the software
103 above run on the this dump. This includes 9,277,563 redirect spells that
104 our software identified and is the dataset used in the paper.
105
106 You can download the dataset in the following formats:
107
108 - `RData (240MB)`__ — Suitable for use in GNU R
109 - `bzip2 compressed tab seperated values (178MB)`__ — Suitable for use
110   in other languages and statistical packages.
111
112 __ http://mako.cc/academic/hill_shaw-consider_the_redirect.pdf
113 __ http://dumps.wikimedia.org/enwiki/20121001/
114 __ http://dumps.wikimedia.org/
115 __ enwiki_201210-redirect_spells-v1.RData
116 __ enwiki_201210-redirect_spells-v1.tsv.bz2
117
118 More Information
119 ==================
120
121 For details about the dataset, why it is important, and for examples on
122 how it can be used to come to better findings in Wikipedia research,
123 please read `the companion paper`__.
124
125 __ http://mako.cc/academic/hill_shaw-consider_the_redirect.pdf
126
127 If you notice issues or bugs in our data or `code`__, contact `Benjamin
128 Mako Hill`__ or `Aaron Shaw`__.  
129
130 __ http://projects.mako.cc/source/?p=redirect-tools
131 __ http://mako.cc/contact/
132 __ http://aaronshaw.org/
133
134 Patches and improvements are welcome! Details on `how to produce and send
135 a patch using git are online`__.
136
137 __ http://projects.mako.cc/source/
138
139

Benjamin Mako Hill || Want to submit a patch?