ccv bench fixes for latest ccv

soumith · soumith · commit 346d694bbdac · 2015-04-14T15:35:53.000-04:00
diff --git a/ccv/cwc-bench-runtime.cu b/ccv/cwc-bench-runtime.cu
@@ -11,28 +11,13 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 {
 	int batch = params.mini_batch;
 	int i;
+	const int device_id = 0;
 	_cwc_convnet_alloc_reserved_both(convnet, batch, 0, params.layer_params);
-	int out_rows, out_cols, out_partition;
-	for (i = 0; i < convnet->count; i++)
-	{
-		ccv_convnet_layer_t *layer = convnet->layers + i;
-		_ccv_convnet_layer_derive_output(layer, layer->input.matrix.rows, layer->input.matrix.cols, &out_rows, &out_cols, &out_partition);
-		switch (layer->type)
-		{
-			case CCV_CONVNET_CONVOLUTIONAL:
-				cudaFree(GPU(convnet)->device[0].forwards[i]);
-				GPU(convnet)->device[0].forwards[i] = 0;
-				// since for the benchmark, output doesn't match input, this chooses the maximum ones to allocate
-				cudaMalloc(&GPU(convnet)->device[0].forwards[i], sizeof(float) * ccv_max(out_rows * out_cols * layer->net.convolutional.count, layer->input.matrix.rows * layer->input.matrix.cols * layer->input.matrix.channels) * batch);
-				assert(GPU(convnet)->device[0].forwards[i]);
-				break;
-		}
-	}
 	cwc_convnet_context_t* context = GPU(convnet)->contexts;
 	for (i = 0; i < convnet->rows * convnet->cols * convnet->channels; i++)
 		convnet->mean_activity->data.f32[i] = 128;
-	_cwc_convnet_batch_formation(0, categorizeds, convnet->mean_activity, 0, 0, 0, 0, ccv_size(128, 128), convnet->rows, convnet->cols, convnet->channels, 1000, 0, batch, 0, batch, context->host[0].input, context->host[0].c);
-	cudaMemcpy(context->device[0].input, context->host[0].input, sizeof(float) * convnet->rows * convnet->cols * convnet->channels * batch, cudaMemcpyHostToDevice);
+	cwc_convnet_batch_formation(0, categorizeds, convnet->mean_activity, 0, 0, 0, 0, 0, ccv_size(128, 128), 128, 128, convnet->rows, convnet->cols, convnet->channels, 1000, 0, batch, 0, batch, context->host[device_id].input, context->host[device_id].c);
+	cudaMemcpy(context->device[device_id].input, context->host[device_id].input, sizeof(float) * convnet->rows * convnet->cols * convnet->channels * batch, cudaMemcpyHostToDevice);
 
 	cudaEvent_t overallStart;
 	cudaEvent_t overallStop;
@@ -43,21 +28,21 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 	cudaEventCreate(&start);
 	cudaEventCreate(&stop);
 	float elapsed_time;
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.forward.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.forward.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.forward.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 1)->convolutional.forward.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 1)->convolutional.forward.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 1)->convolutional.forward.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 2)->convolutional.forward.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 2)->convolutional.forward.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 2)->convolutional.forward.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.forward.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.forward.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.forward.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 4)->convolutional.forward.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 4)->convolutional.forward.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 4)->convolutional.forward.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.forward.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.forward.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.forward.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 1)->vary.convolutional.forward.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 1)->vary.convolutional.forward.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 1)->vary.convolutional.forward.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 2)->vary.convolutional.forward.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 2)->vary.convolutional.forward.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 2)->vary.convolutional.forward.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.forward.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.forward.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.forward.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 4)->vary.convolutional.forward.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 4)->vary.convolutional.forward.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 4)->vary.convolutional.forward.z = 32;
 	cudaEventRecord(overallStart, context->device[0].data_stream);
 	for (i = 0; i < convnet->count; i++)
 	{
@@ -68,7 +53,7 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 		cudaEventSynchronize(stop);
 		cudaEventElapsedTime(&elapsed_time, start, stop);
 		if (layer->type == CCV_CONVNET_CONVOLUTIONAL)
-			printf("%d %d %d, elapsed time for layer %d fprop: %f milliseconds\n", VARY(layer)->convolutional.forward.x, VARY(layer)->convolutional.forward.y, VARY(layer)->convolutional.forward.z, i + 1, elapsed_time);
+			printf("%d %d %d, elapsed time for layer %d fprop: %f milliseconds\n", EXTRA(layer)->vary.convolutional.forward.x, EXTRA(layer)->vary.convolutional.forward.y, EXTRA(layer)->vary.convolutional.forward.z, i + 1, elapsed_time);
 		else
 			printf("elapsed time for layer %d fprop: %f milliseconds\n", i + 1, elapsed_time);
 	}
@@ -78,33 +63,33 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 	printf("forward pass %f milliseconds\n", elapsed_time);
 
 	/*
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.backward.coefficient.x = 1;
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.backward.coefficient.y = 3;
-	VARY(GPU(convnet)->device[0].layers + 0)->convolutional.backward.coefficient.z = 1;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.coefficient.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.coefficient.y = 4;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.coefficient.z = 16;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.gradient.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.gradient.y = 6;
-	VARY(GPU(convnet)->device[0].layers + 3)->convolutional.backward.gradient.z = 24;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.coefficient.x = 8;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.coefficient.y = 3;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.coefficient.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.gradient.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.gradient.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 6)->convolutional.backward.gradient.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.coefficient.x = 8;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.coefficient.y = 3;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.coefficient.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.gradient.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.gradient.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 7)->convolutional.backward.gradient.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.coefficient.x = 8;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.coefficient.y = 4;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.coefficient.z = 32;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.gradient.x = 4;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.gradient.y = 8;
-	VARY(GPU(convnet)->device[0].layers + 8)->convolutional.backward.gradient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.backward.coefficient.x = 1;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.backward.coefficient.y = 3;
+	EXTRA(GPU(convnet)->device[0].layers + 0)->vary.convolutional.backward.coefficient.z = 1;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.coefficient.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.coefficient.y = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.coefficient.z = 16;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.gradient.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.gradient.y = 6;
+	EXTRA(GPU(convnet)->device[0].layers + 3)->vary.convolutional.backward.gradient.z = 24;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.coefficient.x = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.coefficient.y = 3;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.coefficient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.gradient.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.gradient.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 6)->vary.convolutional.backward.gradient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.coefficient.x = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.coefficient.y = 3;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.coefficient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.gradient.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.gradient.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 7)->vary.convolutional.backward.gradient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.coefficient.x = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.coefficient.y = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.coefficient.z = 32;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.gradient.x = 4;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.gradient.y = 8;
+	EXTRA(GPU(convnet)->device[0].layers + 8)->vary.convolutional.backward.gradient.z = 32;
 	float* a = 0;
 	cudaMalloc(&a, sizeof(float) * 1000 * batch);
 	cudaMemcpy(a, GPU(convnet)->device[0].forwards[convnet->count - 1], sizeof(float) * 1000 * batch, cudaMemcpyDeviceToDevice);
@@ -120,7 +105,7 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 				if (context->device[0].dor[i])
 				{
 					int out_rows, out_cols, out_partition;
-					_ccv_convnet_layer_derive_output(layer, layer->input.matrix.rows, layer->input.matrix.cols, &out_rows, &out_cols, &out_partition);
+					ccv_convnet_make_output(layer, layer->input.matrix.rows, layer->input.matrix.cols, &out_rows, &out_cols, &out_partition);
 					_cwc_kern_mute_neuron
 					<<<out_rows * out_cols * layer->net.convolutional.count, batch, 0, context->device[0].data_stream>>>
 					(i == convnet->count - 1 ? a : GPU(convnet)->device[0].backwards[i + 1], context->device[0].dor[i]);
@@ -153,7 +138,7 @@ extern "C" void cwc_bench_runtime(ccv_convnet_t* convnet, ccv_array_t* categoriz
 		cudaEventSynchronize(stop);
 		cudaEventElapsedTime(&elapsed_time, start, stop);
 		if (layer->type == CCV_CONVNET_CONVOLUTIONAL)
-			printf("%d %d %d, %d %d %d, elapsed time for layer %d bprop: %f milliseconds\n", VARY(layer)->convolutional.backward.coefficient.x, VARY(layer)->convolutional.backward.coefficient.y, VARY(layer)->convolutional.backward.coefficient.z, VARY(layer)->convolutional.backward.gradient.x, VARY(layer)->convolutional.backward.gradient.y, VARY(layer)->convolutional.backward.gradient.z, i + 1, elapsed_time);
+			printf("%d %d %d, %d %d %d, elapsed time for layer %d bprop: %f milliseconds\n", EXTRA(layer)->vary.convolutional.backward.coefficient.x, EXTRA(layer)->vary.convolutional.backward.coefficient.y, EXTRA(layer)->vary.convolutional.backward.coefficient.z, EXTRA(layer)->vary.convolutional.backward.gradient.x, EXTRA(layer)->vary.convolutional.backward.gradient.y, EXTRA(layer)->vary.convolutional.backward.gradient.z, i + 1, elapsed_time);
 		else
 			printf("elapsed time for layer %d bprop: %f milliseconds\n", i + 1, elapsed_time);
 	}
diff --git a/ccv/cwc-bench.c b/ccv/cwc-bench.c
@@ -31,7 +31,7 @@ int main(int argc, char** argv)
 		{
 			.type = CCV_CONVNET_CONVOLUTIONAL,
 			.bias = 0,
-			.sigma = 0.01,
+			.glorot = sqrtf(2),
 			.input = {
 				.matrix = {
 					.rows = 128,
@@ -56,7 +56,7 @@ int main(int argc, char** argv)
 		{
 			.type = CCV_CONVNET_CONVOLUTIONAL,
 			.bias = 1,
-			.sigma = 0.01,
+			.glorot = sqrtf(2),
 			.input = {
 				.matrix = {
 					.rows = 64,
@@ -81,12 +81,12 @@ int main(int argc, char** argv)
 		{
 			.type = CCV_CONVNET_CONVOLUTIONAL,
 			.bias = 0,
-			.sigma = 0.01,
+			.glorot = sqrtf(2),
 			.input = {
 				.matrix = {
-					.rows = 32,
-					.cols = 32,
-					.channels = 128,
+					.rows = 13,
+					.cols = 13,
+					.channels = 256,
 					.partition = 1,
 				},
 			},
@@ -106,7 +106,7 @@ int main(int argc, char** argv)
 		{
 			.type = CCV_CONVNET_CONVOLUTIONAL,
 			.bias = 1,
-			.sigma = 0.01,
+			.glorot = sqrtf(2),
 			.input = {
 				.matrix = {
 					.rows = 16,
@@ -131,7 +131,7 @@ int main(int argc, char** argv)
 		{
 			.type = CCV_CONVNET_CONVOLUTIONAL,
 			.bias = 1,
-			.sigma = 0.01,
+			.glorot = sqrtf(2),
 			.input = {
 				.matrix = {
 					.rows = 13,
@@ -169,6 +169,7 @@ int main(int argc, char** argv)
 	ccv_convnet_train_param_t train_params = {
 		.max_epoch = 100,
 		.mini_batch = 128,
+		.device_count = 1,
 		.layer_params = layer_params,
 	};
 	for (i = 0; i < 128; i++)