updated README
authorErik Garrison <erik@hypervolu.me>
Mon, 14 Mar 2011 00:49:54 +0000 (20:49 -0400)
committerErik Garrison <erik@hypervolu.me>
Mon, 14 Mar 2011 00:49:54 +0000 (20:49 -0400)
README
wikiq.cpp

diff --git a/README b/README
index ee39e8799378fcb4627bfa782cac0f947bc09246..f4bae6a8e565c08d8b75aa3ebb457559c2460b37 100644 (file)
--- a/README
+++ b/README
@@ -2,12 +2,45 @@ wikiq: a WikiMedia XML data dump to .tsv parser
 
 author: Erik Garrison <erik@hypervolu.me>
 
+
+overview:
+
 wikiq is written in C using expat.  It is designed to enable researchers to
 rapidly extract revision histories (minus text and comments) from impossibly
 large XML datasets.
 
-To use, first make sure you have libexpat installed, then:
+
+use:
+
+To use, first make sure you have libexpat and libpcrecpp installed, then:
 
     % make
     % ./wikiq -h  # prints usage
     % 7za e -so hugewikidatadump.xml | ./wikiq >hugewikidatadump.tsv
+
+
+features:
+
+In addition to parsing WikiMedia XML data dumps into a tab-separated tabular
+format, wikiq extracts article diffs and can execute arbitrary Perl-compatible
+regular expressions against the additions and deletions which differentiate any
+revision from the previous.  Any number of regular expressions may be supplied
+on the command line, and may be tagged using the '-n' option.
+
+MD5 checksums are used at runtime for precise detection of reversions.
+
+
+output:
+
+wikiq generates these fields for each revision:
+
+title, articleid, revid, timestamp, anon, editor, editorid, minor,
+text_length, text_entropy, text_md5, reversion, additions_size, deletions_size
+.... and additional fields for each regex executed against add/delete diffs
+
+Boolean fields are TRUE/FALSE except in the case of reversion, which is blank
+unless the article is a revert to a previous revision, in which case, it
+contains the revision ID of the revision which was reverted to.
+
+
+author: Erik Garrison <erik@hypervolu.me>
index 6635dc0ed9459d6f55635625082caee38a0ae2af..bd895d4314a5b99184ecfd5d42914ad8099da1b7 100644 (file)
--- a/wikiq.cpp
+++ b/wikiq.cpp
@@ -498,7 +498,6 @@ void print_usage(char* argv[]) {
          << "text_length, text_entropy, text_md5, reversion, additions_size, deletions_size" << endl
          << ".... and additional fields for each regex executed against add/delete diffs" << endl
          << endl
-         << "Notes:" << endl
          << "Boolean fields are TRUE/FALSE except in the case of reversion, which is blank" << endl
          << "unless the article is a revert to a previous revision, in which case, it" << endl
          << "contains the revision ID of the revision which was reverted to." << endl

Benjamin Mako Hill || Want to submit a patch?