example/nce-loss/lstm_word.py - mxnet-test - Git at Google

 # pylint:skip-file
 from __future__ import print_function
 import logging
 import sys, random, time, math
 sys.path.insert(0, "../../python")
 import mxnet as mx
 import numpy as np
 from collections import namedtuple
 from nce import *
 from operator import itemgetter
 from optparse import OptionParser

 LSTMState = namedtuple("LSTMState", ["c", "h"])
 LSTMParam = namedtuple("LSTMParam", ["i2h_weight", "i2h_bias",
                                      "h2h_weight", "h2h_bias"])
 LSTMModel = namedtuple("LSTMModel", ["rnn_exec", "symbol",
                                      "init_states", "last_states",
                                      "seq_data", "seq_labels", "seq_outputs",
                                      "param_blocks"])

 def lstm(num_hidden, indata, prev_state, param, seqidx, layeridx, dropout=0.):
     """LSTM Cell symbol"""
     if dropout > 0.:
         indata = mx.sym.Dropout(data=indata, p=dropout)
     i2h = mx.sym.FullyConnected(data=indata,
                                 weight=param.i2h_weight,
                                 bias=param.i2h_bias,
                                 num_hidden=num_hidden * 4,
                                 name="t%d_l%d_i2h" % (seqidx, layeridx))
     h2h = mx.sym.FullyConnected(data=prev_state.h,
                                 weight=param.h2h_weight,
                                 bias=param.h2h_bias,
                                 num_hidden=num_hidden * 4,
                                 name="t%d_l%d_h2h" % (seqidx, layeridx))
     gates = i2h + h2h
     slice_gates = mx.sym.SliceChannel(gates, num_outputs=4,
                                       name="t%d_l%d_slice" % (seqidx, layeridx))
     in_gate = mx.sym.Activation(slice_gates[0], act_type="sigmoid")
     in_transform = mx.sym.Activation(slice_gates[1], act_type="tanh")
     forget_gate = mx.sym.Activation(slice_gates[2], act_type="sigmoid")
     out_gate = mx.sym.Activation(slice_gates[3], act_type="sigmoid")
     next_c = (forget_gate * prev_state.c) + (in_gate * in_transform)
     next_h = out_gate * mx.sym.Activation(next_c, act_type="tanh")
     return LSTMState(c=next_c, h=next_h)


 def get_net(vocab_size, seq_len, num_label, num_lstm_layer, num_hidden):
     param_cells = []
     last_states = []
     for i in range(num_lstm_layer):
         param_cells.append(LSTMParam(i2h_weight=mx.sym.Variable("l%d_i2h_weight" % i),
                                      i2h_bias=mx.sym.Variable("l%d_i2h_bias" % i),
                                      h2h_weight=mx.sym.Variable("l%d_h2h_weight" % i),
                                      h2h_bias=mx.sym.Variable("l%d_h2h_bias" % i)))
         state = LSTMState(c=mx.sym.Variable("l%d_init_c" % i),
                           h=mx.sym.Variable("l%d_init_h" % i))
         last_states.append(state)

     data = mx.sym.Variable('data')
     label = mx.sym.Variable('label')
     label_weight = mx.sym.Variable('label_weight')
     embed_weight = mx.sym.Variable('embed_weight')
     label_embed_weight = mx.sym.Variable('label_embed_weight')
     data_embed = mx.sym.Embedding(data = data, input_dim = vocab_size,
                                   weight = embed_weight,
                                   output_dim = 100, name = 'data_embed')
     datavec = mx.sym.SliceChannel(data = data_embed,
                                   num_outputs = seq_len,
                                   squeeze_axis = True, name = 'data_slice')
     labelvec = mx.sym.SliceChannel(data = label,
                                    num_outputs = seq_len,
                                    squeeze_axis = True, name = 'label_slice')
     labelweightvec = mx.sym.SliceChannel(data = label_weight,
                                          num_outputs = seq_len,
                                          squeeze_axis = True, name = 'label_weight_slice')
     probs = []
     for seqidx in range(seq_len):
         hidden = datavec[seqidx]

         for i in range(num_lstm_layer):
             next_state = lstm(num_hidden, indata = hidden,
                               prev_state = last_states[i],
                               param = param_cells[i],
                               seqidx = seqidx, layeridx = i)
             hidden = next_state.h
             last_states[i] = next_state

         probs.append(nce_loss(data = hidden,
                               label = labelvec[seqidx],
                               label_weight = labelweightvec[seqidx],
                               embed_weight = label_embed_weight,
                               vocab_size = vocab_size,
                               num_hidden = 100,
                               num_label = num_label))
     return mx.sym.Group(probs)


 def load_data(name):
     buf = open(name).read()
     tks = buf.split(' ')
     vocab = {}
     freq = [0]
     data = []
     for tk in tks:
         if len(tk) == 0:
             continue
         if tk not in vocab:
             vocab[tk] = len(vocab) + 1
             freq.append(0)
         wid = vocab[tk]
         data.append(wid)
         freq[wid] += 1
     negative = []
     for i, v in enumerate(freq):
         if i == 0 or v < 5:
             continue
         v = int(math.pow(v * 1.0, 0.75))
         negative += [i for _ in range(v)]
     return data, negative, vocab, freq

 class SimpleBatch(object):
     def __init__(self, data_names, data, label_names, label):
         self.data = data
         self.label = label
         self.data_names = data_names
         self.label_names = label_names

     @property
     def provide_data(self):
         return [(n, x.shape) for n, x in zip(self.data_names, self.data)]

     @property
     def provide_label(self):
         return [(n, x.shape) for n, x in zip(self.label_names, self.label)]


 class DataIter(mx.io.DataIter):
     def __init__(self, name, batch_size, seq_len, num_label, init_states):
         super(DataIter, self).__init__()
         self.batch_size = batch_size
         self.data, self.negative, self.vocab, self.freq = load_data(name)
         self.vocab_size = 1 + len(self.vocab)
         print(self.vocab_size)
         self.seq_len = seq_len
         self.num_label = num_label
         self.init_states = init_states
         self.init_state_names = [x[0] for x in self.init_states]
         self.init_state_arrays = [mx.nd.zeros(x[1]) for x in init_states]
         self.provide_data = [('data', (batch_size, seq_len))] + init_states
         self.provide_label = [('label', (self.batch_size, seq_len, num_label)),
                               ('label_weight', (self.batch_size, seq_len, num_label))]

     def sample_ne(self):
         return self.negative[random.randint(0, len(self.negative) - 1)]

     def __iter__(self):
         print('begin')
         batch_data = []
         batch_label = []
         batch_label_weight = []
         for i in range(0, len(self.data) - self.seq_len - 1, self.seq_len):
             data = self.data[i: i+self.seq_len]
             label = [[self.data[i+k+1]] \
                      + [self.sample_ne() for _ in range(self.num_label-1)]\
                      for k in range(self.seq_len)]
             label_weight = [[1.0] \
                             + [0.0 for _ in range(self.num_label-1)]\
                             for k in range(self.seq_len)]

             batch_data.append(data)
             batch_label.append(label)
             batch_label_weight.append(label_weight)
             if len(batch_data) == self.batch_size:
                 data_all = [mx.nd.array(batch_data)] + self.init_state_arrays
                 label_all = [mx.nd.array(batch_label), mx.nd.array(batch_label_weight)]
                 data_names = ['data'] + self.init_state_names
                 label_names = ['label', 'label_weight']
                 batch_data = []
                 batch_label = []
                 batch_label_weight = []
                 yield SimpleBatch(data_names, data_all, label_names, label_all)

     def reset(self):
         pass

 if __name__ == '__main__':
     head = '%(asctime)-15s %(message)s'
     logging.basicConfig(level=logging.DEBUG, format=head)

     parser = OptionParser()
     parser.add_option("-g", "--gpu", action = "store_true", dest = "gpu", default = False,
                       help = "use gpu")
     batch_size = 1024
     seq_len = 5
     num_label = 6
     num_lstm_layer = 2
     num_hidden = 100

     init_c = [('l%d_init_c'%l, (batch_size, num_hidden)) for l in range(num_lstm_layer)]
     init_h = [('l%d_init_h'%l, (batch_size, num_hidden)) for l in range(num_lstm_layer)]
     init_states = init_c + init_h


     data_train = DataIter("./data/text8", batch_size, seq_len, num_label,
                           init_states)

     network = get_net(data_train.vocab_size, seq_len, num_label, num_lstm_layer, num_hidden)
     options, args = parser.parse_args()
     devs = mx.cpu()
     if options.gpu == True:
         devs = mx.gpu()
     model = mx.model.FeedForward(ctx = devs,
                                  symbol = network,
                                  num_epoch = 20,
                                  learning_rate = 0.3,
                                  momentum = 0.9,
                                  wd = 0.0000,
                                  initializer=mx.init.Xavier(factor_type="in", magnitude=2.34))

     metric = NceLSTMAuc()
     model.fit(X = data_train,
               eval_metric = metric,
               batch_end_callback = mx.callback.Speedometer(batch_size, 50),)
	# pylint:skip-file
	from __future__ import print_function
	import logging
	import sys, random, time, math
	sys.path.insert(0, "../../python")
	import mxnet as mx
	import numpy as np
	from collections import namedtuple
	from nce import *
	from operator import itemgetter
	from optparse import OptionParser

	LSTMState = namedtuple("LSTMState", ["c", "h"])
	LSTMParam = namedtuple("LSTMParam", ["i2h_weight", "i2h_bias",
	"h2h_weight", "h2h_bias"])
	LSTMModel = namedtuple("LSTMModel", ["rnn_exec", "symbol",
	"init_states", "last_states",
	"seq_data", "seq_labels", "seq_outputs",
	"param_blocks"])

	def lstm(num_hidden, indata, prev_state, param, seqidx, layeridx, dropout=0.):
	"""LSTM Cell symbol"""
	if dropout > 0.:
	indata = mx.sym.Dropout(data=indata, p=dropout)
	i2h = mx.sym.FullyConnected(data=indata,
	weight=param.i2h_weight,
	bias=param.i2h_bias,
	num_hidden=num_hidden * 4,
	name="t%d_l%d_i2h" % (seqidx, layeridx))
	h2h = mx.sym.FullyConnected(data=prev_state.h,
	weight=param.h2h_weight,
	bias=param.h2h_bias,
	num_hidden=num_hidden * 4,
	name="t%d_l%d_h2h" % (seqidx, layeridx))
	gates = i2h + h2h
	slice_gates = mx.sym.SliceChannel(gates, num_outputs=4,
	name="t%d_l%d_slice" % (seqidx, layeridx))
	in_gate = mx.sym.Activation(slice_gates[0], act_type="sigmoid")
	in_transform = mx.sym.Activation(slice_gates[1], act_type="tanh")
	forget_gate = mx.sym.Activation(slice_gates[2], act_type="sigmoid")
	out_gate = mx.sym.Activation(slice_gates[3], act_type="sigmoid")
	next_c = (forget_gate * prev_state.c) + (in_gate * in_transform)
	next_h = out_gate * mx.sym.Activation(next_c, act_type="tanh")
	return LSTMState(c=next_c, h=next_h)


	def get_net(vocab_size, seq_len, num_label, num_lstm_layer, num_hidden):
	param_cells = []
	last_states = []
	for i in range(num_lstm_layer):
	param_cells.append(LSTMParam(i2h_weight=mx.sym.Variable("l%d_i2h_weight" % i),
	i2h_bias=mx.sym.Variable("l%d_i2h_bias" % i),
	h2h_weight=mx.sym.Variable("l%d_h2h_weight" % i),
	h2h_bias=mx.sym.Variable("l%d_h2h_bias" % i)))
	state = LSTMState(c=mx.sym.Variable("l%d_init_c" % i),
	h=mx.sym.Variable("l%d_init_h" % i))
	last_states.append(state)

	data = mx.sym.Variable('data')
	label = mx.sym.Variable('label')
	label_weight = mx.sym.Variable('label_weight')
	embed_weight = mx.sym.Variable('embed_weight')
	label_embed_weight = mx.sym.Variable('label_embed_weight')
	data_embed = mx.sym.Embedding(data = data, input_dim = vocab_size,
	weight = embed_weight,
	output_dim = 100, name = 'data_embed')
	datavec = mx.sym.SliceChannel(data = data_embed,
	num_outputs = seq_len,
	squeeze_axis = True, name = 'data_slice')
	labelvec = mx.sym.SliceChannel(data = label,
	num_outputs = seq_len,
	squeeze_axis = True, name = 'label_slice')
	labelweightvec = mx.sym.SliceChannel(data = label_weight,
	num_outputs = seq_len,
	squeeze_axis = True, name = 'label_weight_slice')
	probs = []
	for seqidx in range(seq_len):
	hidden = datavec[seqidx]

	for i in range(num_lstm_layer):
	next_state = lstm(num_hidden, indata = hidden,
	prev_state = last_states[i],
	param = param_cells[i],
	seqidx = seqidx, layeridx = i)
	hidden = next_state.h
	last_states[i] = next_state

	probs.append(nce_loss(data = hidden,
	label = labelvec[seqidx],
	label_weight = labelweightvec[seqidx],
	embed_weight = label_embed_weight,
	vocab_size = vocab_size,
	num_hidden = 100,
	num_label = num_label))
	return mx.sym.Group(probs)


	def load_data(name):
	buf = open(name).read()
	tks = buf.split(' ')
	vocab = {}
	freq = [0]
	data = []
	for tk in tks:
	if len(tk) == 0:
	continue
	if tk not in vocab:
	vocab[tk] = len(vocab) + 1
	freq.append(0)
	wid = vocab[tk]
	data.append(wid)
	freq[wid] += 1
	negative = []
	for i, v in enumerate(freq):
	if i == 0 or v < 5:
	continue
	v = int(math.pow(v * 1.0, 0.75))
	negative += [i for _ in range(v)]
	return data, negative, vocab, freq

	class SimpleBatch(object):
	def __init__(self, data_names, data, label_names, label):
	self.data = data
	self.label = label
	self.data_names = data_names
	self.label_names = label_names

	@property
	def provide_data(self):
	return [(n, x.shape) for n, x in zip(self.data_names, self.data)]

	@property
	def provide_label(self):
	return [(n, x.shape) for n, x in zip(self.label_names, self.label)]


	class DataIter(mx.io.DataIter):
	def __init__(self, name, batch_size, seq_len, num_label, init_states):
	super(DataIter, self).__init__()
	self.batch_size = batch_size
	self.data, self.negative, self.vocab, self.freq = load_data(name)
	self.vocab_size = 1 + len(self.vocab)
	print(self.vocab_size)
	self.seq_len = seq_len
	self.num_label = num_label
	self.init_states = init_states
	self.init_state_names = [x[0] for x in self.init_states]
	self.init_state_arrays = [mx.nd.zeros(x[1]) for x in init_states]
	self.provide_data = [('data', (batch_size, seq_len))] + init_states
	self.provide_label = [('label', (self.batch_size, seq_len, num_label)),
	('label_weight', (self.batch_size, seq_len, num_label))]

	def sample_ne(self):
	return self.negative[random.randint(0, len(self.negative) - 1)]

	def __iter__(self):
	print('begin')
	batch_data = []
	batch_label = []
	batch_label_weight = []
	for i in range(0, len(self.data) - self.seq_len - 1, self.seq_len):
	data = self.data[i: i+self.seq_len]
	label = [[self.data[i+k+1]] \
	+ [self.sample_ne() for _ in range(self.num_label-1)]\
	for k in range(self.seq_len)]
	label_weight = [[1.0] \
	+ [0.0 for _ in range(self.num_label-1)]\
	for k in range(self.seq_len)]

	batch_data.append(data)
	batch_label.append(label)
	batch_label_weight.append(label_weight)
	if len(batch_data) == self.batch_size:
	data_all = [mx.nd.array(batch_data)] + self.init_state_arrays
	label_all = [mx.nd.array(batch_label), mx.nd.array(batch_label_weight)]
	data_names = ['data'] + self.init_state_names
	label_names = ['label', 'label_weight']
	batch_data = []
	batch_label = []
	batch_label_weight = []
	yield SimpleBatch(data_names, data_all, label_names, label_all)

	def reset(self):
	pass

	if __name__ == '__main__':
	head = '%(asctime)-15s %(message)s'
	logging.basicConfig(level=logging.DEBUG, format=head)

	parser = OptionParser()
	parser.add_option("-g", "--gpu", action = "store_true", dest = "gpu", default = False,
	help = "use gpu")
	batch_size = 1024
	seq_len = 5
	num_label = 6
	num_lstm_layer = 2
	num_hidden = 100

	init_c = [('l%d_init_c'%l, (batch_size, num_hidden)) for l in range(num_lstm_layer)]
	init_h = [('l%d_init_h'%l, (batch_size, num_hidden)) for l in range(num_lstm_layer)]
	init_states = init_c + init_h


	data_train = DataIter("./data/text8", batch_size, seq_len, num_label,
	init_states)

	network = get_net(data_train.vocab_size, seq_len, num_label, num_lstm_layer, num_hidden)
	options, args = parser.parse_args()
	devs = mx.cpu()
	if options.gpu == True:
	devs = mx.gpu()
	model = mx.model.FeedForward(ctx = devs,
	symbol = network,
	num_epoch = 20,
	learning_rate = 0.3,
	momentum = 0.9,
	wd = 0.0000,
	initializer=mx.init.Xavier(factor_type="in", magnitude=2.34))

	metric = NceLSTMAuc()
	model.fit(X = data_train,
	eval_metric = metric,
	batch_end_callback = mx.callback.Speedometer(batch_size, 50),)