asterix-app/src/test/resources/runtimets/queries/fuzzyjoin/dblp-2_5.1.aql - asterixdb - Git at Google

 drop dataverse fuzzyjoin if exists;

 create dataverse fuzzyjoin;

 use dataverse fuzzyjoin;

 create type DBLPType as open {
   id: int32,
   dblpid: string,
   title: string,
   authors: string,
   misc: string
 }

 create dataset DBLP(DBLPType) partitioned by key id;

 load dataset DBLP
 using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
 (("path"="nc1://data/pub-small/dblp-small-id.txt"),("format"="delimited-text"),("delimiter"=":")) pre-sorted;

 write output to nc1:'rttest/fuzzyjoin_dblp-2_5.1.adm';

     //
     // -- - Stage 2 - --
     //
     for $paperDBLP in dataset('DBLP')
     let $idDBLP := $paperDBLP.id
     let $tokensUnrankedDBLP := counthashed-word-tokens($paperDBLP.title)
     let $lenDBLP := len($tokensUnrankedDBLP)
     let $tokensDBLP :=
         for $tokenUnranked in $tokensUnrankedDBLP
         for $tokenRanked at $i in
             //
             // -- - Stage 1 - --
             //
             for $paper in dataset('DBLP')
             let $id := $paper.id
             for $token in counthashed-word-tokens($paper.title)
             /*+ hash */
             group by $tokenGrouped := $token with $id
             order by count($id), $tokenGrouped
             return $tokenGrouped
         where $tokenUnranked = $tokenRanked
         order by $i
         return $i
     order by $idDBLP
     return {'id': $idDBLP, 'len': $lenDBLP, 'tokens': $tokensDBLP}
	drop dataverse fuzzyjoin if exists;

	create dataverse fuzzyjoin;

	use dataverse fuzzyjoin;

	create type DBLPType as open {
	id: int32,
	dblpid: string,
	title: string,
	authors: string,
	misc: string
	}

	create dataset DBLP(DBLPType) partitioned by key id;

	load dataset DBLP
	using "edu.uci.ics.asterix.external.dataset.adapter.NCFileSystemAdapter"
	(("path"="nc1://data/pub-small/dblp-small-id.txt"),("format"="delimited-text"),("delimiter"=":")) pre-sorted;

	write output to nc1:'rttest/fuzzyjoin_dblp-2_5.1.adm';

	//
	// -- - Stage 2 - --
	//
	for $paperDBLP in dataset('DBLP')
	let $idDBLP := $paperDBLP.id
	let $tokensUnrankedDBLP := counthashed-word-tokens($paperDBLP.title)
	let $lenDBLP := len($tokensUnrankedDBLP)
	let $tokensDBLP :=
	for $tokenUnranked in $tokensUnrankedDBLP
	for $tokenRanked at $i in
	//
	// -- - Stage 1 - --
	//
	for $paper in dataset('DBLP')
	let $id := $paper.id
	for $token in counthashed-word-tokens($paper.title)
	/+ hash /
	group by $tokenGrouped := $token with $id
	order by count($id), $tokenGrouped
	return $tokenGrouped
	where $tokenUnranked = $tokenRanked
	order by $i
	return $i
	order by $idDBLP
	return {'id': $idDBLP, 'len': $lenDBLP, 'tokens': $tokensDBLP}