perl-package/AI-MXNet/t/test_gluon.t - mxnet - Git at Google

 # Licensed to the Apache Software Foundation (ASF) under one
 # or more contributor license agreements.  See the NOTICE file
 # distributed with this work for additional information
 # regarding copyright ownership.  The ASF licenses this file
 # to you under the Apache License, Version 2.0 (the
 # "License"); you may not use this file except in compliance
 # with the License.  You may obtain a copy of the License at
 #
 #   http://www.apache.org/licenses/LICENSE-2.0
 #
 # Unless required by applicable law or agreed to in writing,
 # software distributed under the License is distributed on an
 # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 # KIND, either express or implied.  See the License for the
 # specific language governing permissions and limitations
 # under the License.

 use strict;
 use warnings;
 use Test::More tests => 232;
 use AI::MXNet qw(mx);
 use AI::MXNet::Gluon qw(gluon);
 use AI::MXNet::Gluon::NN qw(nn);
 use AI::MXNet::TestUtils qw(almost_equal dies_ok);
 use Scalar::Util qw(refaddr);
 use AI::MXNet::Base;

 sub test_parameter
 {
     my $p = gluon->Parameter('weight', shape=>[10, 10]);
     $p->initialize(init=>'xavier', ctx=>[mx->cpu(0), mx->cpu(1)]);
     ok(@{$p->list_data} == 2);
     ok(@{$p->list_grad} == 2);
     ok($p->data(mx->cpu(1))->context eq mx->cpu(1));
     is_deeply($p->data(mx->cpu(0))->shape, [10, 10]);
     ok($p->var->name eq  'weight');
     ok($p->grad(mx->cpu(0))->stype eq 'default');
     ok($p->data(mx->cpu(0))->stype eq 'default');

     $p->reset_ctx(ctx=>[mx->cpu(1), mx->cpu(2)]);
     is_deeply($p->list_ctx, [mx->cpu(1), mx->cpu(2)]);
 }

 test_parameter();

 sub test_invalid_parameter_stype
 {
     dies_ok(sub { gluon->Parameter('weight', shape=>[10, 10], stype=>'invalid') });
 }

 test_invalid_parameter_stype();

 sub test_invalid_parameter_grad_stype
 {
     dies_ok(sub { gluon->Parameter('weight', shape=>[10, 10], grad_stype=>'invalid') });
 }

 test_invalid_parameter_grad_stype();

 sub test_sparse_parameter
 {
     my $p = gluon->Parameter('weight', shape=>[10, 10], stype=>'row_sparse', grad_stype=>'row_sparse');
     $p->initialize(init=>'xavier', ctx=>[mx->cpu(0), mx->cpu(1)]);
     my $row_id = mx->nd->arange(start => 0, stop => 10, ctx=>mx->cpu(1));
     ok(@{ $p->list_grad } == 2);
     # getting row_sparse data without trainer throws an exception
     dies_ok(sub { $p->list_row_sparse_data($row_id) });
     my $trainer = gluon->Trainer([$p], 'sgd');
     ok(@{ $p->list_row_sparse_data($row_id) } == 2);
     my $weight = $p->row_sparse_data($row_id);
     ok($weight->context eq mx->cpu(1));
     is_deeply($weight->shape, [10, 10]);
     ok($weight->stype eq 'row_sparse');
     ok($p->var->name eq 'weight');
     ok($p->var->attr('__storage_type__') eq STORAGE_TYPE_STR_TO_ID->{row_sparse});
     ok($p->grad(mx->cpu(0))->stype eq 'row_sparse');

     $p->reset_ctx(ctx=>[mx->cpu(1), mx->cpu(2)]);
     is_deeply($p->list_ctx, [mx->cpu(1), mx->cpu(2)]);
 }

 test_sparse_parameter();

 sub test_parameter_invalid_access
 {
     # cannot call data on row_sparse parameters
     my $p0 = gluon->Parameter('weight', shape=>[10, 10], stype=>'row_sparse', grad_stype=>'row_sparse');
     $p0->initialize(init=>'xavier', ctx=>[mx->cpu(0), mx->cpu(1)]);
     dies_ok(sub { $p0->data });
     dies_ok(sub { $p0->list_data });
     my $row_id = mx->nd->arange(start => 0, stop => 10);
     # cannot call row_sparse_data on dense parameters
     my $p1 = gluon->Parameter('weight', shape=>[10, 10]);
     $p1->initialize(init=>'xavier', ctx=>[mx->cpu(0), mx->cpu(1)]);
     dies_ok(sub { $p1->row_sparse_data($row_id->copyto(mx->cpu(0))) });
     dies_ok(sub { $p1->list_row_sparse_data($row_id) });
 }

 test_parameter_invalid_access();

 sub test_paramdict
 {
     my $ctx = mx->cpu(1);
     my $params0 = gluon->ParameterDict('net_');
     $params0->get('w0', shape=>[10, 10]);
     $params0->get('w1', shape=>[10, 10], stype=>'row_sparse');
     my $all_row_ids = mx->nd->arange(start => 0, stop => 10, ctx=>$ctx);
     # check param names
     is_deeply([$params0->keys()], ['net_w0', 'net_w1']);
     $params0->initialize(ctx=>$ctx);
     my $trainer0 = gluon->Trainer($params0, 'sgd');
     my $prev_w0 = $params0->get('w0')->data($ctx);
     my $prev_w1 = $params0->get('w1')->row_sparse_data($all_row_ids);
     # save params
     $params0->save('test_paramdict.params');

     # load params
     my $params1 = gluon->ParameterDict('net_');
     $params1->get('w0', shape=>[10, 10]);
     $params1->get('w1', shape=>[10, 10], stype=>'row_sparse');
     $params1->load('test_paramdict.params', ctx=>$ctx);
     my $trainer1 = gluon->Trainer($params1, 'sgd');

     # compare the values before and after save/load
     my $cur_w0 = $params1->get('w0')->data($ctx);
     my $cur_w1 = $params1->get('w1')->row_sparse_data($all_row_ids);
     ok(almost_equal($prev_w0->aspdl, $cur_w0->aspdl));
     ok(almost_equal($prev_w1->aspdl, $cur_w1->aspdl));

     # create a new param dict with dense params, and load from the checkpoint
     # of sparse & dense params
     my $params2 = gluon->ParameterDict('net_');
     $params2->get('w0', shape=>[10, 10]);
     $params2->get('w1', shape=>[10, 10]);
     $params2->load('test_paramdict.params', ctx=>$ctx);

     # compare the values before and after save/load
     $cur_w0 = $params2->get('w0')->data($ctx);
     $cur_w1 = $params2->get('w1')->data($ctx);
     ok(almost_equal($prev_w0->aspdl, $cur_w0->aspdl));
     ok(almost_equal($prev_w1->aspdl, $cur_w1->aspdl));
 }

 test_paramdict();

 sub test_parameter_row_sparse_data
 {
     my $ctx0 = mx->cpu(1);
     my $ctx1 = mx->cpu(2);
     my $dim0 = 4;
     my $x = gluon->Parameter('x', shape=>[$dim0, 2], stype=>'row_sparse');
     $x->initialize(init=>'xavier', ctx=>[$ctx0, $ctx1]);
     my $trainer = gluon->Trainer([$x], 'sgd');
     my $x_param = $x->_data->[0]->copy();
     is($x_param->stype, 'row_sparse');
     my $row_id_0 = mx->nd->array([0,1], ctx=>$ctx0);
     my $retained_0 = $x->row_sparse_data($row_id_0);
     my $retained_target_0 = mx->nd->sparse->retain($x_param, $row_id_0->as_in_context($ctx0));
     ok(almost_equal($retained_0->aspdl, $retained_target_0->aspdl));
     is($retained_0->context, $ctx0);
     my $row_id_1 = mx->nd->arange(start => 0, stop => $dim0, ctx=>$ctx1);
     my $retained_1 = $x->row_sparse_data($row_id_1);
     my $retained_target_1 = $x_param;
     ok(almost_equal($retained_1->aspdl, $retained_target_1->aspdl));
     is($retained_1->context, $ctx1);
     my $row_id_2 = mx->nd->array([0,1,2]);
     my $retained_2 = $x->list_row_sparse_data($row_id_2);
     my $retained_target_2 = mx->nd->sparse->retain($x_param, $row_id_2->as_in_context($ctx0));
     ok(almost_equal($retained_2->[0]->aspdl, $retained_target_2->aspdl));
 }

 test_parameter_row_sparse_data();

 sub test_constant
 {
     package Test {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::HybridBlock';
         sub BUILD
         {
             my $self = shift;
             $self->value(mx->nd->array([[1,2], [3,4]])->aspdl);
             $self->const($self->params->get_constant('const', $self->value));
         }
         sub hybrid_forward
         {
             my ($self, $F, $x, $name, $const) = @_;
             return $x + $const;
         }
     };

     my $test = Test->new();
     $test->initialize();
     my $trainer = gluon->Trainer(
         $test->collect_params(), 'sgd',
         {learning_rate => 1.0, momentum => 0.5}
     );

     my ($x, $y);
     mx->autograd->record(sub {
         $x = mx->nd->ones([2,2]);
         $x->attach_grad();
         $y = $test->($x);
         $y->backward();
     });

     $trainer->step(1);

     ok(($test->const->data->aspdl == $test->value)->all);
     ok(($x->grad->aspdl == 1)->all);
 }

 test_constant();

 package Net;
 use AI::MXNet::Gluon::Mouse;
 use AI::MXNet::Function::Parameters;
 extends 'AI::MXNet::Gluon::Block';
 has 'in_units' => (is => 'rw', default => 0);

 sub BUILD
 {
     my $self = shift;
     $self->name_scope(sub {
         $self->dense0(nn->Dense(5, in_units=>$self->in_units));
         $self->dense1(nn->Dense(5, in_units=>$self->in_units));
     });
 }

 method forward($x)
 {
     return $self->dense1->($self->dense0->($x));
 }

 package main;

 sub test_parameter_sharing
 {
     my $net1 = Net->new(prefix=>'net1_', in_units => 5);
     my $net2 = Net->new(prefix=>'net2_', params=>$net1->collect_params());
     $net1->collect_params()->initialize();
     $net2->(mx->nd->zeros([3, 5]));
     $net1->save_parameters('net1.params');
     my $net3 = Net->new(prefix=>'net3_');
     $net3->load_parameters('net1.params', ctx => mx->cpu());
     my $net4 = Net->new(prefix=>'net4_');
     my $net5 = Net->new(prefix=>'net5_', in_units=>5, params=>$net4->collect_params());
     $net4->collect_params()->initialize();
     $net5->(mx->nd->zeros([3, 5]));
     $net4->save_parameters('net4.params');
     my $net6 = Net->new(prefix=>'net6_');
     $net6->load_parameters('net4.params', ctx => mx->cpu());
 }

 test_parameter_sharing();

 sub test_parameter_str
 {
     package Net1 {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::Block';
         sub BUILD
         {
             my $self = shift;
             $self->name_scope(sub {
                 $self->dense0(nn->Dense(10, in_units=>5, use_bias=>0));
             });
         }
     };
     my $net = Net1->new(prefix=>'net1_');
     my @lines = split(/\n/, $net->collect_params());
     ok($lines[0] eq 'net1_ (');
     ok($lines[1] =~ /net1_dense0_weight/);
     ok($lines[1] =~ /\(10, 5\)/);
     ok($lines[1] =~ /float32/);
     ok($lines[2] eq ')');
 }

 test_parameter_str();

 sub test_collect_parameters
 {
     my $net = nn->HybridSequential(prefix=>"test_");
     $net->name_scope(sub {
         $net->add(nn->Conv2D(10, 3));
         $net->add(nn->Dense(10, activation=>'relu'));
     });
     is_deeply(
         [$net->collect_params->keys],
         ['test_conv0_weight', 'test_conv0_bias','test_dense0_weight','test_dense0_bias']
     );
     is_deeply(
         [$net->collect_params('.*weight')->keys],
         ['test_conv0_weight', 'test_dense0_weight']
     );
     is_deeply(
         [$net->collect_params('test_conv0_bias|test_dense0_bias')->keys],
         ['test_conv0_bias', 'test_dense0_bias']
     )
 };

 test_collect_parameters();

 sub test_basic
 {
     my $model = nn->Sequential();
     $model->add(nn->Dense(128, activation=>'tanh', in_units=>10, flatten=>0));
     $model->add(nn->Dropout(0.5));
     $model->add(nn->Dense(64, activation=>'tanh', in_units=>256));
     $model->add(nn->Dense(32, in_units=>64));
     $model->add(nn->Activation('relu'));

     # symbol
     my $x = mx->sym->var('data');
     my $y = $model->($x);
     ok(@{ $y->list_arguments } == 7);

     # ndarray
     $model->collect_params()->initialize(init => mx->init->Xavier(magnitude=>2.24));
     $x = $model->(mx->nd->zeros([32, 2, 10]));
     is_deeply($x->shape, [32, 32]);
     $x->wait_to_read;

     $model->collect_params()->setattr(grad_req => 'null');
     ok(not defined( ($model->collect_params()->values())[0]->_grad));
     $model->collect_params()->setattr(grad_req => 'write');
     ok(defined (($model->collect_params()->values())[0]->_grad));
 }

 test_basic();

 sub test_dense
 {
     my $model = nn->Dense(128, activation=>'tanh', in_units=>10, flatten=>0, prefix=>'test_');
     my $inputs = mx->sym->Variable('data');
     my $outputs = $model->($inputs);
     is_deeply({map { $_ => 1 } $model->collect_params()->keys()}, {'test_weight', 1, 'test_bias', 1});
     is_deeply($outputs->list_outputs(), ['test_tanh_fwd_output']);
     my ($args, $outs, $auxs) = $outputs->infer_shape(data=>[2, 3, 10]);
     is_deeply($outs, [[2, 3, 128]]);

     $model = nn->Dense(128, activation=>'relu', in_units=>30, flatten=>1, prefix=>'test2_');
     $inputs = mx->sym->Variable('data');
     $outputs = $model->($inputs);
     is_deeply({map { $_ => 1 } $model->collect_params()->keys()}, {'test2_weight', 1, 'test2_bias', 1});
     is_deeply($outputs->list_outputs(), ['test2_relu_fwd_output']);
     ($args, $outs, $auxs) = $outputs->infer_shape(data=>[17, 2, 5, 3]);
     is_deeply($outs, [[17, 128]]);
 }

 test_dense();

 package Net2;
 use AI::MXNet::Gluon::Mouse;
 use AI::MXNet::Function::Parameters;
 extends 'AI::MXNet::Gluon::HybridBlock';
 has 'model' => (is => 'rw');

 method hybrid_forward($F, $x)
 {
     my $out = $self->model->($x);
     return $F->add_n(map { $_->sum } @{ $out });
 }

 package main;

 sub test_symbol_block
 {
     my $model = nn->HybridSequential();
     $model->add(nn->Dense(128, activation=>'tanh'));
     $model->add(nn->Dropout(0.5));
     $model->add(nn->Dense(64, activation=>'tanh'));
     $model->add(nn->Dense(32, in_units=>64));
     $model->add(nn->Activation('relu'));

     $model->initialize();

     my $inputs = mx->sym->var('data');
     my $outputs = $model->($inputs)->get_internals();
     my $smodel = gluon->SymbolBlock($outputs, $inputs, params=>$model->collect_params);

     ok($smodel->(mx->nd->zeros([16, 10])) == 14);
     my $out = $smodel->(mx->sym->var('in'));
     ok(@{ $out } == @{ $outputs->list_outputs() });

     my $net = Net2->new(model => $smodel);
     $net->hybridize();
     ok(ref $net->(mx->nd->zeros([16, 10])) eq 'AI::MXNet::NDArray');

     $inputs = mx->sym->var('data');
     $outputs = $model->($inputs);
     $smodel = gluon->SymbolBlock($outputs, $inputs, params=>$model->collect_params);
     $net = Net2->new(model => $smodel);
     $net->hybridize();
     ok(ref $net->(mx->nd->zeros([16, 10])) eq 'AI::MXNet::NDArray');
 }

 test_symbol_block();

 sub test_sparse_symbol_block
 {
     my $data = mx->sym->var('data');
     my $weight = mx->sym->var('weight', stype=>'row_sparse');
     my $bias = mx->sym->var('bias');
     my $out = mx->sym->broadcast_add(mx->sym->dot($data, $weight), $bias);
     # an exception is expected when creating a SparseBlock w/ sparse param
     dies_ok(sub { gluon->SymbolBlock($out, $data) });
 }

 test_sparse_symbol_block();

 sub test_sparse_hybrid_block0
 {
     my $params = gluon->ParameterDict('net_');
     $params->get('weight', shape=>[5,5], stype=>'row_sparse', dtype=>'float32', allow_deferred_init => 1);
     $params->get('bias', shape=>[5], dtype=>'float32', allow_deferred_init => 1);
     my $net = nn->Dense(5, params=>$params);
     $net->initialize();
     my $x = mx->nd->ones([2,5]);
     # an exception is expected when forwarding a HybridBlock w/ sparse param
     dies_ok(sub { $net->($x) });
 }

 test_sparse_hybrid_block0();

 sub check_layer_forward
 {
     my ($layer, $dshape) = @_;
     $layer->collect_params()->initialize();
     my $x = mx->nd->ones($dshape);
     $x->attach_grad();
     my $out;
     mx->autograd->record(sub {
         $out = $layer->($x);
     });
     $out->backward();
     my $pdl_out = $out->aspdl;
     my $pdl_dx  = $x->grad->aspdl;

     $layer->hybridize();

     $x = mx->nd->ones($dshape);
     $x->attach_grad();
     mx->autograd->record(sub {
         $out = $layer->($x);
     });
     $out->backward();

     ok(almost_equal($pdl_out, $out->aspdl, 1e-5));
     ok(almost_equal($pdl_dx, $x->grad->aspdl, 1e-5));
 }

 sub test_conv
 {
     my @layers1d = (
         nn->Conv1D(16, 3, in_channels=>4),
         nn->Conv1D(16, 3, groups=>2, in_channels=>4),
         nn->Conv1D(16, 3, strides=>3, groups=>2, in_channels=>4),
     );
     for my $layer (@layers1d)
     {
         check_layer_forward($layer, [1, 4, 10]);
     }

     my @layers2d = (
         nn->Conv2D(16, [3, 4], in_channels=>4),
         nn->Conv2D(16, [5, 4], in_channels=>4),
         nn->Conv2D(16, [3, 4], groups=>2, in_channels=>4),
         nn->Conv2D(16, [3, 4], strides=>4, in_channels=>4),
         nn->Conv2D(16, [3, 4], dilation=>4, in_channels=>4),
         nn->Conv2D(16, [3, 4], padding=>4, in_channels=>4),
     );
     for my $layer (@layers2d)
     {
         check_layer_forward($layer, [1, 4, 20, 20]);
     }

     my @layers3d = (
         nn->Conv3D(16, [1, 8, 4], in_channels=>4, activation=>'relu'),
         nn->Conv3D(16, [5, 4, 3], in_channels=>4),
         nn->Conv3D(16, [3, 3, 3], groups=>2, in_channels=>4),
         nn->Conv3D(16, 4, strides=>4, in_channels=>4),
         nn->Conv3D(16, [3, 3, 3], padding=>4, in_channels=>4),
     );
     for my $layer (@layers3d)
     {
         check_layer_forward($layer, [1, 4, 10, 10, 10]);
     }

     # These layouts only supported on GPU for now
     my $layer = nn->Conv2D(16, [3, 3], layout=>'NHWC', in_channels=>4);
     #check_layer_forward($layer, [1, 10, 10, 4]);

     $layer = nn->Conv3D(16, [3, 3, 3], layout=>'NDHWC', in_channels=>4);
     # check_layer_forward(layer, (1, 10, 10, 10, 4))
 }

 test_conv();


 sub test_deconv
 {
     # commented out code is only supported on GPU for now
     # my @layers1d = (
     #     nn->Conv1DTranspose(16, 3, in_channels=>4),
     #     nn->Conv1DTranspose(16, 3, groups=>2, in_channels=>4),
     #     nn->Conv1DTranspose(16, 3, strides=>3, groups=>2, in_channels=>4),
     # );
     # for my $layer (@layers1d)
     # {
     #     check_layer_forward($layer, [1, 4, 10]);
     # }


     my @layers2d = (
         nn->Conv2DTranspose(16, [3, 4], in_channels=>4),
         nn->Conv2DTranspose(16, [5, 4], in_channels=>4),
         nn->Conv2DTranspose(16, [3, 4], groups=>2, in_channels=>4),
         nn->Conv2DTranspose(16, [3, 4], strides=>4, in_channels=>4),
         nn->Conv2DTranspose(16, [3, 4], dilation=>4, in_channels=>4),
         nn->Conv2DTranspose(16, [3, 4], padding=>4, in_channels=>4),
         nn->Conv2DTranspose(16, [3, 4], strides=>4, output_padding=>3, in_channels=>4),
     );
     for my $layer (@layers2d)
     {
         check_layer_forward($layer, [1, 4, 20, 20]);
     }

     # @layers3d = (
     #     nn->Conv3DTranspose(16, [1, 8, 4], in_channels=>4),
     #     nn->Conv3DTranspose(16, [5, 4, 3], in_channels=>4),
     #     nn->Conv3DTranspose(16, [3, 3, 3], groups=>2, in_channels=>4),
     #     nn->Conv3DTranspose(16, 4, strides=>4, in_channels=>4),
     #     nn->Conv3DTranspose(16, [3, 3, 3], padding=>4, in_channels=>4),
     # );
     # for my $layer (@layers3d)
     # {
     #     check_layer_forward($layer, [1, 4, 10, 10, 10]);
     # }
     #
     my $layer = nn->Conv2DTranspose(16, [3, 3], layout=>'NHWC', in_channels=>4);
     # check_layer_forward($layer, [1, 10, 10, 4]);
     #
     # $layer = nn->Conv3DTranspose(16, [3, 3, 3], layout=>'NDHWC', in_channels=>4);
     # check_layer_forward(layer, [1, 10, 10, 10, 4]);
 }

 test_deconv();

 sub test_pool
 {
     my @layers1d = (
         nn->MaxPool1D(),
         nn->MaxPool1D(3),
         nn->MaxPool1D(3, 2),
         nn->AvgPool1D(),
         nn->AvgPool1D(count_include_pad=>0),
         nn->GlobalAvgPool1D(),
     );
     for my $layer (@layers1d)
     {
         check_layer_forward($layer, [1, 2, 10]);
     }

     my @layers2d = (
         nn->MaxPool2D(),
         nn->MaxPool2D([3, 3]),
         nn->MaxPool2D(3, 2),
         nn->AvgPool2D(),
         nn->AvgPool2D(count_include_pad=>0),
         nn->GlobalAvgPool2D(),
     );
     for my $layer (@layers2d)
     {
         check_layer_forward($layer, [1, 2, 10, 10]);
     }

     my @layers3d = (
         nn->MaxPool3D(),
         nn->MaxPool3D([3, 3, 3]),
         nn->MaxPool3D(3, 2),
         nn->AvgPool3D(),
         nn->AvgPool3D(count_include_pad=>0),
         nn->GlobalAvgPool3D(),
     );
     for my $layer (@layers3d)
     {
         check_layer_forward($layer, [1, 2, 10, 10, 10]);
     }

     # test ceil_mode
     my $x = mx->nd->zeros([2, 2, 10, 10]);

     my $layer = nn->MaxPool2D(3, ceil_mode=>0);
     $layer->collect_params()->initialize();
     is_deeply($layer->($x)->shape, [2, 2, 3, 3]);

     $layer = nn->MaxPool2D(3, ceil_mode=>1);
     $layer->collect_params()->initialize();
     is_deeply($layer->($x)->shape, [2, 2, 4, 4]);
 }

 test_pool();

 sub test_batchnorm
 {
     my $layer = nn->BatchNorm(in_channels=>10);
     check_layer_forward($layer, [2, 10, 10, 10]);
 }

 test_batchnorm();

 sub test_instancenorm
 {
     my $layer = nn->InstanceNorm(in_channels=>10);
     check_layer_forward($layer, [2, 10, 10, 10]);
 }

 test_instancenorm();

 sub test_layernorm
 {
     my $layer = nn->LayerNorm(in_channels=>10);
     check_layer_forward($layer, [2, 10, 10, 10]);
 }

 test_layernorm();

 sub test_reflectionpad
 {
     my $layer = nn->ReflectionPad2D(3);
     check_layer_forward($layer, [2, 3, 24, 24]);
 }

 test_reflectionpad();

 sub test_reshape
 {
     my $x = mx->nd->ones([2, 4, 10, 10]);
     my $layer = nn->Conv2D(10, 2, in_channels=>4);
     $layer->collect_params()->initialize();
     mx->autograd->record(sub {
         $x = $layer->($x);
         $x = $x->reshape([-1]);
         $x = $x + 10;
     });
     $x->backward();
 }

 test_reshape();

 sub test_slice
 {
     my $x = mx->nd->ones([5, 4, 10, 10]);
     my $layer = nn->Conv2D(10, 2, in_channels=>4);
     $layer->collect_params()->initialize();
     mx->autograd->record(sub {
         $x = $layer->($x);
         $x = $x->slice([1,3]);
         $x = $x + 10;
     });
     $x->backward();
 }

 test_slice();

 sub test_at
 {
     my $x = mx->nd->ones([5, 4, 10, 10]);
     my $layer = nn->Conv2D(10, 2, in_channels=>4);
     $layer->collect_params()->initialize();
     mx->autograd->record(sub {
         $x = $layer->($x);
         $x = $x->at(1);
         $x = $x + 10;
     });
     $x->backward();
 }

 test_at();

 sub test_deferred_init
 {
     my $x = mx->nd->ones([5, 4, 10, 10]);
     my $layer = nn->Conv2D(10, 2);
     $layer->collect_params()->initialize();
     $layer->($x);
 }

 test_deferred_init();


 sub check_split_data
 {
     my ($x, $num_slice, $batch_axis, %kwargs) = @_;
     my $res = gluon->utils->split_data($x, $num_slice, $batch_axis, %kwargs);
     ok(@{ $res } == $num_slice);
     ok(almost_equal(mx->nd->concat(@$res, dim=>$batch_axis)->aspdl(), $x->aspdl()));
 }

 sub test_split_data
 {
     my $x = mx->nd->random->uniform(shape=>[128, 33, 64]);

     check_split_data($x, 8, 0);
     check_split_data($x, 3, 1);
     check_split_data($x, 4, 1, even_split=>0);
     check_split_data($x, 15, 1, even_split=>0);
     eval {
         check_split_data($x, 4, 1);
     };
     ok($@);
 }

 test_split_data();

 sub test_flatten
 {
     my $flatten = nn->Flatten();
     my $x = mx->nd->zeros([3,4,5,6]);
     is_deeply($flatten->($x)->shape, [3, 4*5*6]);
     $x = mx->nd->zeros([3,6]);
     is_deeply($flatten->($x)->shape, [3, 6]);
     $x = mx->nd->zeros([3]);
     is_deeply($flatten->($x)->shape, [3, 1]);
 }

 test_flatten();

 sub test_block_attr_hidden
 {
     my $b = gluon->Block();
     # regular attributes can change types
     $b->a(undef);
     $b->a(1);
 }

 test_block_attr_hidden();

 sub test_block_attr_block
 {
     my $b = gluon->Block();
     # regular variables can't change types
     $b->b(gluon->Block());
     eval { $b->b([2]); };
     ok($@ =~ /not allowed/i);
 }

 test_block_attr_block();

 sub test_block_attr_param
 {
     my $b = gluon->Block();
     # regular variables can't change types
     $b->b(gluon->Parameter(name => 'test'));
     eval { $b->b([2]); };
     ok($@ =~ /not allowed/i);
 }

 test_block_attr_param();

 sub test_block_attr_regular
 {
     my $b = gluon->Block();

     # set block attribute also sets _children
     $b->c(gluon->Block());
     my $c2 = gluon->Block();
     $b->c($c2);
     ok(refaddr($b->c) == refaddr($c2) and refaddr(($b->_children->values)[0]) == refaddr($c2));
 }

 test_block_attr_regular();

 sub test_block_attr_list_of_block
 {
     package Model1 {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::Block';
         sub BUILD
         {
             my $self = shift;
             $self->name_scope(sub {
                 $self->layers([map { nn->Dense($_ * 10) } 0..5]);
             });
         }
     };
     package Model2 {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::Block';
         sub BUILD
         {
             my $self = shift;
             $self->name_scope(sub {
                 $self->layers({});
                 $self->layers->{a} = [map { nn->Dense($_ * 10) } 0..5];
             });
         }
     };
     package Model3 {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::Block';
         sub BUILD
         {
             my $self = shift;
             $self->name_scope(sub {
                 $self->layers(nn->Sequential());
                 $self->layers->add(map { nn->Dense($_ * 10) } 0..5);
             });
         }
     };
     package Model4 {
         use AI::MXNet::Gluon::Mouse;
         extends 'AI::MXNet::Gluon::Block';
         sub BUILD
         {
             my $self = shift;
             $self->name_scope(sub {
                 $self->data({a => '4', b => 123});
             });
         }
     };
     my $w = 0;
     local($SIG{__WARN__}) = sub {
         $w++;
     };
     Model1->new->collect_params;
     ok($w > 0); $w = 0;
     Model2->new->collect_params;
     ok($w > 0); $w = 0;
     Model3->new->collect_params;
     ok($w == 0); $w = 0;
     Model4->new->collect_params;
     ok($w == 0);
 }

 test_block_attr_list_of_block();

 sub check_sequential
 {
     my ($net) = @_;
     my $dense1 = nn->Dense(10);
     $net->add($dense1);
     my $dense2 = nn->Dense(10);
     $net->add($dense2);
     my $dense3 = nn->Dense(10);
     $net->add($dense3);

     ok(refaddr($net->[1]) == refaddr($dense2));
     ok(refaddr($net->[-1]) == refaddr($dense3));
     my $slc = $net->slice([1,2]);
     ok(@$slc == 2 and refaddr($slc->[0]) == refaddr($dense2) and refaddr($slc->[1]) == refaddr($dense3));
     ok(ref $slc eq ref $net);
 }

 sub test_sequential
 {
     check_sequential(nn->Sequential());
     check_sequential(nn->HybridSequential());
 }

 test_sequential();

 sub test_global_norm_clip
 {
     my @stypes = ('default', 'row_sparse');
     my $check_global_norm_clip = sub { my ($stype) = @_;
         my $x1 = mx->nd->ones([3,3])->tostype($stype);
         my $x2 = mx->nd->ones([4,4])->tostype($stype);
         my $norm = gluon->utils->clip_global_norm([$x1, $x2], 1.0);
         ok($norm == 5);
         ok(almost_equal($x1->aspdl, mx->nd->ones([3,3])->aspdl/5));
         ok(almost_equal($x2->aspdl, mx->nd->ones([4,4])->aspdl/5));

         my $x3 = mx->nd->array([1.0, 2.0, 'nan'])->tostype($stype);
         my $w = 0;
         local($SIG{__WARN__}) = sub {
             $w++;
         };
         gluon->utils->clip_global_norm([$x1, $x3], 2.0);
         ok($w == 1);
     };
     for my $stype (@stypes)
     {
         $check_global_norm_clip->($stype);
     }
 }

 test_global_norm_clip();

 sub test_embedding
 {
     local($ENV{MXNET_STORAGE_FALLBACK_LOG_VERBOSE}) = 0;
     my $check_embedding = sub { my ($sparse_grad) = @_;
         my $layer = nn->Embedding(10, 100, sparse_grad=>$sparse_grad);
         $layer->initialize();
         my $x = mx->nd->array([3,4,2,0,1]); my $y;
         mx->autograd->record(sub {
             $y = $layer->($x);
             $y->backward();
         });
         ok(($layer->weight->grad->aspdl->slice('X', [0, 4]) == 1)->all);
         ok(($layer->weight->grad->aspdl->slice('X', [5, -1]) == 0)->all);
     };
     my $check_embedding_large_input = sub { my ($sparse_grad) = @_;
         my $embedding = nn->Embedding(10, 1, sparse_grad=>$sparse_grad);
         $embedding->initialize();
         $embedding->hybridize();
         my $shape = [20481];
         my ($emb_in, $loss);
         mx->autograd->record(sub {
             $emb_in = $embedding->(mx->nd->ones($shape));
             $loss = $emb_in->sum;
         });
         $loss->backward;
         ok($embedding->weight->grad->sum->asscalar == 20481);
     };
     $check_embedding->(1);
     $check_embedding->(0);
     $check_embedding_large_input->(1);
     $check_embedding_large_input->(0);
 }

 test_embedding();

 sub test_hybrid_stale_cache
 {
     my $net = nn->HybridSequential();
     $net->name_scope(sub {
         $net->add(nn->Dense(10, weight_initializer=>'zeros', bias_initializer=>'ones', flatten=>0));
     });

     $net->hybridize();
     $net->initialize();
     $net->(mx->nd->ones([2,3,5]));

     $net->add(nn->Flatten());
     is_deeply($net->(mx->nd->ones([2,3,5]))->shape, [2, 30]);

     $net = nn->HybridSequential();
     $net->name_scope(sub {
         $net->fc1(nn->Dense(10, weight_initializer=>'zeros',
                                     bias_initializer=>'ones', flatten=>0));
         $net->fc2(nn->Dense(10, weight_initializer=>'zeros',
                                     bias_initializer=>'ones', flatten=>0));
     });
     $net->hybridize();
     $net->initialize();
     $net->(mx->nd->ones([2,3,5]));

     $net->fc2(nn->Dense(10, weight_initializer=>'zeros',
                                 bias_initializer=>'ones', flatten=>1));
     $net->initialize();
     is_deeply($net->(mx->nd->ones([2,3,5]))->shape, [2, 10]);
 }

 test_hybrid_stale_cache();

 sub test_lambda
 {
     my $net1 = nn->HybridSequential();
     $net1->add(nn->Activation('tanh'),
              nn->LeakyReLU(0.1));

     my $net2 = nn->HybridSequential();
     my $op3 = sub { my ($F, $x, @args) = @_; $F->LeakyReLU($x, @args, slope=>0.1); };
     $net2->add(nn->HybridLambda('tanh'),
              nn->HybridLambda($op3));

     my $op4 = sub { mx->nd->LeakyReLU($_[0], slope=>0.1); };
     my $net3 = nn->Sequential();
     $net3->add(nn->Lambda('tanh'),
              nn->Lambda($op4));

     my $input_data = mx->nd->random->uniform(shape=>[2, 3, 5, 7]);
     my ($out1, $out2, $out3) = ($net1->($input_data), $net2->($input_data), $net3->($input_data));
     ok(almost_equal($out1->aspdl, $out2->aspdl, 1e-3));
     ok(almost_equal($out1->aspdl, $out3->aspdl, 1e-3));
 }

 test_lambda();

 sub test_fill_shape_deferred
 {
     my $net = nn->HybridSequential();
     $net->name_scope(sub {
         $net->add(nn->Conv2D(64, kernel_size=>2, padding=>1),
                 nn->BatchNorm(),
                 nn->Dense(10));
     });
     $net->hybridize();
     $net->initialize();
     $net->(mx->nd->ones([2,3,5,7]));
     ok($net->[0]->weight->shape->[1] == 3);
     ok($net->[1]->gamma->shape->[0] == 64);
     ok($net->[2]->weight->shape->[1] == 3072);
 }

 test_fill_shape_deferred();

 sub test_fill_shape_load
 {
     my $ctx = mx->context->current_context();
     my $net1 = nn->HybridSequential();
     $net1->name_scope(sub {
         $net1->add(nn->Conv2D(64, kernel_size=>2, padding=>1),
                  nn->BatchNorm(),
                  nn->Dense(10))
     });
     $net1->hybridize();
     $net1->initialize(mx->init->Uniform, ctx => $ctx);
     $net1->(mx->nd->ones([2,3,5,7], ctx => $ctx));
     $net1->save_parameters('net_fill.params');

     my $net2 = nn->HybridSequential();
     $net2->name_scope(sub {
         $net2->add(nn->Conv2D(64, kernel_size=>2, padding=>1),
                  nn->BatchNorm(),
                  nn->Dense(10))
     });
     $net2->hybridize();
     $net2->initialize();
     $net2->load_parameters('net_fill.params', ctx=>$ctx);
     ok($net2->[0]->weight->shape->[1] == 3);
     ok($net2->[1]->gamma->shape->[0] == 64);
     ok($net2->[2]->weight->shape->[1] == 3072);
 }

 test_fill_shape_load();

 use JSON::PP qw(decode_json);

 sub test_inline
 {
     my $y;

     my $net = nn->HybridSequential();
     $net->name_scope(sub {
         $net->add(nn->Dense(10));
         $net->add(nn->Dense(10));
         $net->add(nn->Dense(10));
     });
     $net->initialize();

     $net->hybridize(inline_limit=>3);
     mx->autograd->record(sub {
         $y = $net->(mx->nd->zeros([1,10]));
     });
     my $len_1 = @{ decode_json(mx->autograd->get_symbol($y)->tojson())->{nodes} };
     $y->backward();

     $net->hybridize(inline_limit=>0);
     mx->autograd->record(sub {
         $y = $net->(mx->nd->zeros([1,10]));
     });
     my $len_2 = @{ decode_json(mx->autograd->get_symbol($y)->tojson())->{nodes} };
     $y->backward();

     is($len_1, $len_2 + 2);
 }

 test_inline();

 sub test_activations
 {
     my $point_to_validate = mx->nd->array([(-0.1, 0.1) x 3]);

     my $swish = nn->Swish();
     my $swish_test = sub { my ($x) = @_;
         return $x * mx->nd->sigmoid($x)
     };

     for(zip($swish_test->($point_to_validate), $swish->($point_to_validate)))
     {
         my ($test_point, $ref_point) = @$_;
         ok($test_point == $ref_point);
     }

     my $elu = nn->ELU();
     my $elu_test = sub { my ($x) = @_;
         my $elu = sub { my ($x) = @_;
             return $x < 0 ? 1.0 * (mx->nd->exp($x) - 1) : $x;
         };
         return [map { $elu->($_) } @{ $x }];
     };

     for(zip($elu_test->($point_to_validate), $elu->($point_to_validate)))
     {
         my ($test_point, $ref_point) = @$_;
         ok($test_point == $ref_point);
     }

     my $selu = nn->SELU();
     my $selu_test = sub { my ($x) = @_;
         my $selu = sub { my ($x) = @_;
             my ($scale, $alpha) = (1.0507009873554804934193349852946, 1.6732632423543772848170429916717);
             return $x => 0 ? $scale * $x : $alpha * mx->nd->exp($x) - $alpha;
         };
         return [map { $selu->($_) } @{ $x }];
     };

     for(zip($selu_test->($point_to_validate), $selu->($point_to_validate)))
     {
         my ($test_point, $ref_point) = @$_;
         ok($test_point == $ref_point);
     }

     my $prelu = nn->PReLU();
     $prelu->initialize();
     my $x = $point_to_validate->reshape([1, 3, 2]);
     ok(almost_equal($prelu->($x)->aspdl, mx->nd->where($x >= 0, $x, 0.25 * $x)->aspdl));
 }

 test_activations();

 sub test_req
 {
     my $data = mx->nd->random->uniform(shape=>[1,3,224,224]);
     my $label = mx->nd->array([1]);
     my $loss = gluon->loss->SoftmaxCrossEntropyLoss();

     my $net = nn->HybridSequential();
     my $net1 = nn->HybridSequential();
     $net1->add(nn->Dense(4));
     my $net2 = nn->HybridSequential();
     $net2->add(nn->Dense(3));
     $net2->add(nn->Dense(2));
     $net->add($net1);
     $net->add($net2);
     $net->initialize();

     $net->hybridize();

     for my $v ($net->collect_params->values)
     {
         $v->grad_req('add');
     }

     $net->collect_params->zero_grad();
     my $grad;
     mx->autograd->record(sub {
         my $pred = $net->($data);
         my $l = $loss->($pred, $label);
         $l->backward();
         $grad = $net->[0][0]->weight->grad->mean->aspdl;
         # run twice to check req = add
         $pred = $net->($data);
         $l = $loss->($pred, $label);
         $l->backward;
     });

     my $grad_double = $net->[0][0]->weight->grad->mean->aspdl;
     ok(almost_equal($grad * 2, $grad_double));
 }

 test_req();

 sub test_zero_grad
 {
     my $data = mx->nd->random->uniform(shape=>[3,3]);
     my $net = nn->Embedding(3, 4, sparse_grad=>1, prefix=>'test_zero_grad_');
     $net->initialize();
     mx->autograd->record(sub {
         $net->($data)->backward;
     });
     $net->collect_params->zero_grad;
     my $grad = $net->collect_params->params->get('test_zero_grad_weight')->grad;
     ok(almost_equal($grad->aspdl, $grad->aspdl * 0));
 }

 test_zero_grad();

 sub test_hook
 {
     my $hook_call_count = 0;
     my $pre_hook_call_count = 0;

     my $call_hook = sub { my ($block, $x, $y) = @_;
         $hook_call_count += 1;
     };

     my $call_pre_hook = sub { my ($block, $x) = @_;
         $pre_hook_call_count += 1;
     };

     my $block = nn->Dense(10);
     $block->initialize();
     my $handle = $block->register_forward_hook($call_hook);
     my $pre_handle = $block->register_forward_pre_hook($call_pre_hook);
     $block->(mx->nd->ones([3, 5]));

     ok($hook_call_count == 1);
     ok($pre_hook_call_count == 1);

     $handle->detach();
     $block->(mx->nd->ones([3, 5]));

     ok($hook_call_count == 1);
     ok($pre_hook_call_count == 2);

     $pre_handle->detach();
     $block->(mx->nd->ones([3, 5]));

     ok($hook_call_count == 1);
     ok($pre_hook_call_count == 2);
 }

 test_hook();

 sub test_apply
 {
     my @called_blocks;

     my $record_name = sub { my ($block) = @_;
         push @called_blocks, $block->name;
     };
     my $block = nn->HybridSequential(prefix=>'test_');
     $block->name_scope(sub {
         $block->add(nn->Dense(10));
         $block->add(nn->Dropout(0.5));
     });
     $block->apply($record_name);

     is_deeply(\@called_blocks, ['test_dense0', 'test_dropout0', 'test']);
 }

 test_apply();

 sub test_sparse_hybrid_block_grad
 {
     package Embedding {
         use AI::MXNet::Gluon::Mouse;
         use AI::MXNet::Function::Parameters;
         extends 'AI::MXNet::Gluon::HybridBlock';
         has ['num_tokens', 'embedding_size'] => (is => 'rw');
         method python_constructor_arguments() { ['num_tokens', 'embedding_size'] }
         sub BUILD {
             my $self = shift;
             $self->name_scope(sub {
                 $self->embedding(nn->Embedding(
                     $self->num_tokens, $self->embedding_size, sparse_grad=>1
                 ));
             });
         }

         method hybrid_forward($F, $words)
         {
             my $emb = $self->embedding->($words);
             return $emb + $F->ones_like($emb);
         }
     };
     my $embedding = Embedding->new(20, 3);
     $embedding->initialize();
     $embedding->hybridize();

     my $loss;
     mx->autograd->record(sub {
         my $emb0 = $embedding->(mx->nd->arange(stop => 10))->sum;
         my $emb1 = $embedding->(mx->nd->arange(stop => 10))->sum;
         $loss = $emb0 + $emb1;
     });
     $loss->backward();
     my $grad = $embedding->embedding->weight->grad->aspdl;
     ok(($grad->slice('X', ':9') == 2)->all);
     ok(($grad->slice('X', '10:') == 0)->all);
 }

 test_sparse_hybrid_block_grad();

 sub test_sparse_hybrid_block
 {
     package Linear {
         use AI::MXNet::Gluon::Mouse;
         use AI::MXNet::Function::Parameters;
         extends 'AI::MXNet::Gluon::HybridBlock';
         has ['units'] => (is => 'rw');
         method python_constructor_arguments() { ['units'] }
         sub BUILD {
             my $self = shift;
             $self->name_scope(sub {
                 $self->w($self->params->get(
                     'w', shape => [$self->units, $self->units]
                 ));
             });
         }
         method hybrid_forward($F, $x, :$w)
         {
             return $F->dot($x, $w);
         }
     };
     package SparseBlock {
         use AI::MXNet::Gluon::Mouse;
         use AI::MXNet::Function::Parameters;
         extends 'AI::MXNet::Gluon::HybridBlock';
         has ['units'] => (is => 'rw');
         method python_constructor_arguments() { ['units'] }
         sub BUILD {
             my $self = shift;
             $self->name_scope(sub {
                 $self->net(Linear->new($self->units));
             });
         }
         method hybrid_forward($F, $x)
         {
             return $self->net->($x) * $x;
         }
     };
     my $block = SparseBlock->new(2);
     $block->initialize();
     $block->hybridize();
     my $x = mx->nd->ones([2,2])->tostype('csr');
     my $z;
     mx->autograd->record(sub {
         $z = $block->($x) + $block->($x);
     });
     $z->backward;
     ok(($block->net->w->grad->aspdl == 4)->all);
 }

 test_sparse_hybrid_block();