asterix-app/src/test/resources/runtimets/queries/fuzzyjoin/dblp-csx-aqlplus_1.aql - asterixdb - Git at Google

 drop dataverse fuzzyjoin if exists;

 create dataverse fuzzyjoin;

 use dataverse fuzzyjoin;

 create type DBLPType as open {
   id: int32,
   dblpid: string,
   title: string,
   authors: string,
   misc: string
 }

 create type CSXType as open {
   id: int32,
   csxid: string,
   title: string,
   authors: string,
   misc: string
 }

 create dataset DBLP(DBLPType) primary key id;
 create dataset CSX(CSXType) primary key id;

 load dataset DBLP
 using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
 (("path"="nc1://data/pub-small/dblp-small-id.txt"),("format"="delimited-text"),("delimiter"=":"));

 load dataset CSX
 using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
 (("path"="nc1://data/pub-small/csx-small-id.txt"),("format"="delimited-text"),("delimiter"=":"));

 write output to nc1:'rttest/fuzzyjoin_dblp-csx-aqlplus_1.adm';

 set simthreshold '.5f';

 for $i in dataset('DBLP')
 for $j in dataset('CSX')
 where word-tokens($i.title) ~= word-tokens($j.title)
 order by $i.id, $j.id
 return {'dblp': $i, 'csx': $j}
	drop dataverse fuzzyjoin if exists;

	create dataverse fuzzyjoin;

	use dataverse fuzzyjoin;

	create type DBLPType as open {
	id: int32,
	dblpid: string,
	title: string,
	authors: string,
	misc: string
	}

	create type CSXType as open {
	id: int32,
	csxid: string,
	title: string,
	authors: string,
	misc: string
	}

	create dataset DBLP(DBLPType) primary key id;
	create dataset CSX(CSXType) primary key id;

	load dataset DBLP
	using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
	(("path"="nc1://data/pub-small/dblp-small-id.txt"),("format"="delimited-text"),("delimiter"=":"));

	load dataset CSX
	using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
	(("path"="nc1://data/pub-small/csx-small-id.txt"),("format"="delimited-text"),("delimiter"=":"));

	write output to nc1:'rttest/fuzzyjoin_dblp-csx-aqlplus_1.adm';

	set simthreshold '.5f';

	for $i in dataset('DBLP')
	for $j in dataset('CSX')
	where word-tokens($i.title) ~= word-tokens($j.title)
	order by $i.id, $j.id
	return {'dblp': $i, 'csx': $j}