tweaks based on testing on Aaron's system. mostly grammar/syntax clarifications
[redirect-tools] / README.rst
index e0c456a96a28c614df421e94db7768398fc84842..081f765b952335846b6c0b3dc9ddf76dc8e79d1c 100644 (file)
@@ -1,24 +1,25 @@
 MediaWiki Redirect Tools
 =======================================================================
 
 MediaWiki Redirect Tools
 =======================================================================
 
-| Author: Benjamin Mako Hill <mako@atdot.cc>
-| Homepage: http://networkcollectiv.es/wiki-redirects/
-| License: GNU GPLv3 or any later version (see COPYING)
+  | **Author:** `Benjamin Mako Hill`__ <mako@atdot.cc>
+  | **Homepage:** http://networkcollectiv.es/wiki-redirects/
+  | **License:** `GNU GPLv3 or any later version`__ (see COPYING)
+  | **Description:** Tools to to generate a redirect spells dataset from "raw" MediaWiki XML dumps like those published by the Wikimedia foundation.
 
 
-If you use this software for research, please cite the following paper in any
-resulting publication:
+__ http://mako.cc/
+__ http://www.gnu.org/copyleft/gpl.html
 
 
-  Hill, Benjamin Mako and Aaron Shaw. "Consider the Redirect:  A Missing
-  Dimension of Wikipedia Research." In Proceedings of the 10th International
-  Symposium on Open Collaboration (OpenSym 2014). ACM Press, 2014.
+If you use this software for research, please **cite the following
+paper** in any resulting publication:
 
 
-Overview:
+  *Hill, Benjamin Mako and Aaron Shaw. "Consider the Redirect:  A Missing
+  Dimension of Wikipedia Research." In Proceedings of the 10th International
+  Symposium on Open Collaboration (OpenSym 2014). ACM Press, 2014.*
 
 
-  These tools help you generate a redirect spells dataset from "raw" MediaWiki
-  XML dumps like those published by the Wikimedia foundation.
+**Overview:**
 
 
-To uese these tools, you will need to a MediaWiki dump file. For Wikimedia
-Foundation projects, you can download them all from:
+To use these tools, you will need need to start with a MediaWiki dump
+file. For Wikimedia Foundation projects, you can download them all from:
 http://dumps.wikimedia.org/
 
 Wikis from Wikia.com and other Wikimedia projects all use the same XML format
 http://dumps.wikimedia.org/
 
 Wikis from Wikia.com and other Wikimedia projects all use the same XML format
@@ -31,16 +32,9 @@ Wikipedia`__ that I downloaded with the following command::
 
 __ https://simple.wikipedia.org/
 
 
 __ https://simple.wikipedia.org/
 
-Before you start, you may also want to change the default directories for
-writing intermediate output files.
+Before you start, you may also want to change the default directories for writing intermediate output files.  The default directories for writing and reading files are at the top of the file `redirect_tools.R` and can be changed by editing that file. By default, all files will be written to the subdirectory "./output" in the local directory. If you want to use the default directories, you will still need to create them with a command like this::
 
 
-The default directories for writing and reading files are at the top of the
-file `redirect_tools.R` and can be changed by editing that file. By default,
-all files will be written to the subdirectory "./output" in the local
-directory. If you want to use the default directories, you will still need to
-create them with a command like this::
-
-  mkdir output/redir output/spells
+  mkdir output; output/redir; output/spells
 
 Step 2: Find Redirects in Revisions
 =======================================================================
 
 Step 2: Find Redirects in Revisions
 =======================================================================
@@ -58,31 +52,26 @@ Output:
 
 - bzip2 compressed TSV files (one line per revision)
 
 
 - bzip2 compressed TSV files (one line per revision)
 
-Run the file `01-extract_redirects.py` to build a dataset of revisions or edits
-that marks every revisions as either containinig a revision, or not.
+You will run the `01-extract_redirects.py` script to build a dataset of revisions or edits that marks every revisions as either containinig a revision, or not.
+
+Then, the script `01-extract_redirects.py` will take a MediaWiki dump file on STDIN and output a TSV file on STDOUT of the following form.
 
 
-The script `01-extract_redirects.py` takes a MediaWiki dump file on STDIN and
-outputs a TSV file on STDOUT of the following form:
++---------+-------------+--------------------------------+------------+---------+----------+--------------------+
+| page.id | revision.id | page.title                     | timestamp  | deleted | redirect | target             |
++=========+=============+================================+============+=========+==========+====================+
+| 1935456 | 17563584    | Mikhail Alekseevich Lavrentiev | 1116962833 | FALSE   | FALSE    | NA                 |
+| 1935456 | 22034930    | Mikhail Alekseevich Lavrentiev | 1125245577 | FALSE   | TRUE     | Mikhail Lavrentyev |
++---------+-------------+--------------------------------+------------+---------+----------+--------------------+
 
 
-> page.id revision.id   page.title      timestamp       deleted redirect  target
-> 1935456 17563584        Mikhail Alekseevich Lavrentiev  1116962833      FALSE   FALSE   NA
-> 1935456 22034930        Mikhail Alekseevich Lavrentiev  1125245577      FALSE   TRUE    Mikhail Lavrentyev
 
 
-In this case, the first revision of the article "Mikhail Alekseevich
-Lavrentiev" was not a redirect but the second is a redirect to "Mikhail
-Lavrentyev".
+In this (example) case, the first revision of the article "Mikhail Alekseevich Lavrentiev" was not a redirect but the second is a redirect to "Mikhail Lavrentyev."
 
 
-If you were using the Simple English dump (which is a single file) I would
-run the following command to send the output to the default ::
+If you are using the Simple English dump (which is a single file) you would run the following command to send the output to the default destination::
 
   7za x -so simplewiki-20140410-pages-meta-history.xml.7z | 
   python2.7 01-extract_redirects.py | bzip2 -c - > output/redir/simple_redirs.tsz.bz2
 
 
   7za x -so simplewiki-20140410-pages-meta-history.xml.7z | 
   python2.7 01-extract_redirects.py | bzip2 -c - > output/redir/simple_redirs.tsz.bz2
 
-Because our dumpfile is 7z compressed, I used 7za to uncompress it. If I had
-used a gzip or bzip compressed file, I would use `zcat` or `bzcat` instead. I'm
-also catting the output to `bzip2 -c` which will bzip the TSV output to
-conserve space. The next step assumes a bzip2 compressed file. If you don't
-want to bzip2 compress, you'll need to modify the code.
+Because our dumpfile is 7z compressed, I used 7za to uncompress it. If I had used a gzip or bzip compressed file, I would use `zcat` or `bzcat` instead. I'm also catting the output to `bzip2 -c` which will bzip the TSV output to conserve space. The next step assumes a bzip2 compressed file. If you don't want to use bzip2 to compress, you'll need to modify the code.
 
 
 Step 2: Generate spells
 
 
 Step 2: Generate spells
@@ -98,16 +87,16 @@ Input:
 
 - bzip compressed TSV files 
 
 
 - bzip compressed TSV files 
 
-Outp1ut: 
+Output: 
 
 
-- RData files containing data.frame of redirect spells named `redirect.spell`
+- RData files containing data.frame of redirect spells named `redirect.spell`
   (one file per input file)
 - Stata DTA file (same data)
 - TSV file (same data)
 
 The file `redirect_tools.R` contains an R function `generate.spells()` that
   (one file per input file)
 - Stata DTA file (same data)
 - TSV file (same data)
 
 The file `redirect_tools.R` contains an R function `generate.spells()` that
-takes a data frame of edit data as created in step 1 and a list of page title
-and which will create a list of redirect spells for those pages.  It also
+takes a data frame of edit data as created in step 1 and a list of page titles
+in order to create a list of redirect spells for those pages. It also
 contains a function `filename.to.spells()` which takes the filename of a bzip
 compressed file of the form created in step 1 and outputs a full list of
 redirect spells.
 contains a function `filename.to.spells()` which takes the filename of a bzip
 compressed file of the form created in step 1 and outputs a full list of
 redirect spells.

Benjamin Mako Hill || Want to submit a patch?