]> projects.mako.cc - wikiq/blob - README
regex against article diffs and checksum-based revert detection
[wikiq] / README
1 wikiq: a WikiMedia XML data dump to .tsv parser
2
3 author: Erik Garrison <erik@hypervolu.me>
4
5 wikiq is written in C using expat.  It is designed to enable researchers to
6 rapidly extract revision histories (minus text and comments) from impossibly
7 large XML datasets.
8
9 To use, first make sure you have libexpat installed, then:
10
11     % make
12     % ./wikiq -h  # prints usage
13     % 7za e -so hugewikidatadump.xml | ./wikiq >hugewikidatadump.tsv

Benjamin Mako Hill || Want to submit a patch?