LUCENE-2554: add comment explaining why we can't assert valid UTF8 when dancing git-svn-id: https://svn.apache.org/repos/asf/lucene/dev/branches/preflexfixes@979415 13f79535-47bb-0310-9956-ffa450edef68

commit: aac4e16774d5f110c8143c6d41c189a35418c086 [log] [tgz]
author: Michael McCandless <mikemccand@apache.org> Mon Jul 26 19:31:34 2010 +0000
committer: Michael McCandless <mikemccand@apache.org> Mon Jul 26 19:31:34 2010 +0000
tree: fcc2c26e2094eebed1c4fc5042050d6fcdf3fffa
parent: a604160149c218c980402e2c48678944a02ad11a [diff]
diff --git a/lucene/src/java/org/apache/lucene/index/codecs/preflex/PreFlexFields.java b/lucene/src/java/org/apache/lucene/index/codecs/preflex/PreFlexFields.java
index 473bff9..9351a33 100644
--- a/lucene/src/java/org/apache/lucene/index/codecs/preflex/PreFlexFields.java
+++ b/lucene/src/java/org/apache/lucene/index/codecs/preflex/PreFlexFields.java

@@ -290,9 +290,10 @@
       // unicode character:
       assert isHighBMPChar(term.bytes, pos);
 
-      // TODO: understand why this assert sometimes (rarely)
-      // trips!
-      // assert term.length >= pos + 3: "term.length=" + term.length + " pos+3=" + (pos+3);
+      // NOTE: we cannot make this assert, because
+      // AutomatonQuery legitimately sends us malformed UTF8
+      // (eg the UTF8 bytes with just 0xee)
+      // assert term.length >= pos + 3: "term.length=" + term.length + " pos+3=" + (pos+3) + " byte=" + Integer.toHexString(term.bytes[pos]) + " term=" + term.toString();
 
       // Save the bytes && length, since we need to
       // restore this if seek "back" finds no matching
commit	aac4e16774d5f110c8143c6d41c189a35418c086	[log] [tgz]
author	Michael McCandless <mikemccand@apache.org>	Mon Jul 26 19:31:34 2010 +0000
committer	Michael McCandless <mikemccand@apache.org>	Mon Jul 26 19:31:34 2010 +0000
tree	fcc2c26e2094eebed1c4fc5042050d6fcdf3fffa
parent	a604160149c218c980402e2c48678944a02ad11a [diff]