+# Example
+## 在NV的GPU上运行CNN模型
+- 将模型的的path设置为anakin模型的路径,初始化NV平台的图对象。 anakin模型可以通过转换器转化caffe或fluid的模型得到
+- 根据模型设置网络图的输入尺寸,进行图优化
+- 根据优化后的网络图初始化网络执行器
+- 取出网络的输入tensor,将数据拷贝到输入tensor
+- 运行推导
+- 取出网络的输出tensor
+## 在X86上运行RNN模型
+- 使用X86标识初始化图对象和网络执行器对象
+- rnn模型的输入尺寸是可变的,初始化图时的输入维度是维度的最大值,输入维度N代表总的词的个数。还需要设置输入tensor的seq_offset来标示这些词是如何划分为句子的,如{0,5,12}表示共有12个词,其中第0到第4个词是第一句话,第5到第11个词是第二句话
+## 在NV的GPU上使用Anakin的线程池运行CNN模型
+示例文件为example_nv_cnn_net_multi_thread.cpp ,示例使用worker的同步预测接口
+- 用模型地址和线程池大小初始化worker对象
+- 将输入tensor注入任务队列,获得输出tensor
diff --git a/source/advanced_usage/deploy/anakin_gpu_benchmark.md b/source/advanced_usage/deploy/anakin_gpu_benchmark.md
index 343e7ae74fa..667f9396f11 100644
--- a/source/advanced_usage/deploy/anakin_gpu_benchmark.md
+++ b/source/advanced_usage/deploy/anakin_gpu_benchmark.md
@@ -168,8 +168,3 @@ We tested them on single-GPU with single-thread.
> 2. Switch to *source_root/benchmark/CNN* directory. Use 'mkdir ./models' to create ./models and put anakin models into this file.
> 3. Use command 'sh run.sh', we will create files in logs to save model log with different batch size. Finally, model latency summary will be displayed on the screen.
> 4. If you want to get more detailed information with op time, you can modify CMakeLists.txt with setting `ENABLE_OP_TIMER` to `YES`, then recompile and run. You will find detailed information in model log file.
diff --git a/source/advanced_usage/deploy/anakin_tutorial.md b/source/advanced_usage/deploy/anakin_tutorial.md
index fac95f29159..5efbc89abd4 120000
--- a/source/advanced_usage/deploy/anakin_tutorial.md
+++ b/source/advanced_usage/deploy/anakin_tutorial.md
@@ -1 +1,639 @@
\ No newline at end of file
+# Anakin 使用教程 ##
+本教程将会简略的介绍Anakin的工作原理,一些基本的Anakin API,以及如何调用这些API。
+## 内容 ###
+- [Anakin的工作原理](#principle)
+- [Anakin APIs](#api)
+- [示例代码](#example)
+## Anakin的工作原理 ###
+- 将外部模型通过[Anakin Parser](Converter_ch.md)解析为Anakin模型
+ 在使用Anakin之前,用户必须将所有其他模型转换成Anakin模型,我们提供了转换脚本,用户可通过[Anakin Parser](Converter_ch.md)进行模型转换。
+- 生成Anakin计算图
+ 加载Anakin模型生成原始计算图,然后需要对原始计算图进行优化。你只需要调用相应的API优化即可。
+- 执行计算图
+ Anakin会选择不同硬件平台执行计算图。
+## Anakin APIs ###
+### Tensor ####
+- Buffer
+ 数据存储区
+- Shape
+ 数据的维度信息
+- Event
+ 用于异步计算的同步
+ `Tensor` 类包含三个`Shape`对象, 分别是`_shape`, `_valid_shape`和 `offset`。 `_shape`为`tensor`真正空间信息,`_valid_shape`表示当前`tensor`使用的空间信息, `_offset`表示当前`tensor`数据指针相对于真正数据空间的信息。 `Tensor`不同维度与分别与数学中的向量、矩阵等相对应如下表所示。
+Dimentions | Math entity |
+ :----: | :----:
+1 | vector
+2 | matrix
+3 | 3-tensor
+n | n-tensor
+#### 声明tensor对象
+ template
+ class Tensor .../* Inherit other class */{
+ //some implements
+ ...
+ };
+TargetType是平台类型,如X86,GPU等等,在Anakin内部有相应的标识与之对应;datatype是普通的数据类型,在Anakin内部也有相应的标志与之对应;[LayOutType](#layout)是数据分布类型,如batch x channel x height x width [NxCxHxW], 在Anakin内部用一个struct来标识。 Anakin中数据类型与基本数据类型的对应如下:
+1. TargetType
+ Anakin TargetType | platform
+ :----: | :----:|
+ X86 | X86
+ NVHX86 | NVIDIA GPU with Pinned Memory
+2. DataType
+Anakin DataType | C++ | Description
+:---: | :---: | :---: |
+AK_HALF | short | fp16
+AK_FLOAT | float | fp32
+AK_DOUBLE | double | fp64
+AK_INT8 | char | int8
+AK_INT16 | short | int16
+AK_INT32 | int | int32
+AK_INT64 | long | int64
+AK_UINT8 | unsigned char | uint8
+AK_UINT16 | unsigned short | uint8
+AK_UINT32 | unsigned int | uint32
+AK_STRING | std::string | /
+AK_BOOL | bool | /
+AK_SHAPE | / | Anakin Shape
+AK_TENSOR | / | Anakin Tensor
+3. LayOutType
+Anakin LayOutType ( Tensor LayOut ) | Tensor Dimention | Tensor Support | Op Support
+:---: | :---: | :---: | :---: |
+W | 1-D | YES | NO
+HW | 2-D | YES | NO
+WH | 2-D | YES | NO
+NW | 2-D | YES | YES
+NHW | 3-D | YES |YES
+NCHW ( default ) | 4-D | YES | YES
+NHWC | 4-D | YES | NO
+NCHW_C4 | 5-D | YES | YES
+> 下面的代码将展示如何使用tensor, 我们建议先看看这些示例。
+> 要想获得更多关于tensor的信息, 请参考 *soure_path/core/tensor.h*
+> 1. 使用shape对象初始化tensor
+``` c++
+ //create a null tensor. A null tensor holds for nothing.
+ //tensor's buffer is resident at CPU and its datatype is AK_FLOAT.
+ //tensor's Layout is NCHW(default)
+ Tensor mytensor;
+ //1. using shape object to create a tensor.
+ Shape shape1(NUM); //1-D shape. NUM is the number of dimention.
+ Tensor mytensor1(shape1); //1-D tensor.
+ // A 4-D shape
+ Shape shape2(N, C, H, W); // batch x channel x height x width
+>`注意:Shape的维度必须和tensor的`[LayoutType](#layout)`相同,比如Shape(N,C,H,W), 那么Tensor的 LayoutType必须是NCHW,否则会出错。如下列代码所示`
+ // A 4-D tensor.
+ Tensor mytensor2(shape2); //right
+ //A 4-D tensor which is resident at GPU and its datatype is AK_INT8
+ Tensor mytensor3(shape2); //right
+ Tensor mytensor4(shape2); //wrong!! shape's dimetion must be equal to tensor's Layout.
+ Tensor mytensor5(shape2); //wrong!!!!
+> 2. 使用现有的数据和shape初始化tensor
+ /**
+ * A construtor of Tensor.
+ * data_ptr is a pointer to any data type of data
+ * TargetType is type of a platform [Anakin TargetType]
+ * id : device id
+ * shape: a Anakin shape
+ */
+ Tensor(Dtype* data_ptr, TargetType_t target, int id, Shape shape);
+ //using existing data feed to a tensor
+ Tensor mytensor(data_ptr, TargetType, device_id, shape); //shape must has dimention (N, C, H, W).
+> 3. 使用tensor初始化tensor
+ Tensor tensor(exist_tensor);
+> 提示: 你可以用` typedef Tensor Tensor4d_X86 `方便定义tensor
+#### 填充tensor数据区
+填充数据区得看你申明tensor的方式, 下面展示了如何填充tensor的数据区。
+1. Tensor mytensor;
+2. Tensor mytensor1(shape1);
+3. Tensor mytensor(data_ptr, TargetType, device_id, shape);
+4. Tensor tensor(exist_tensor);
+ //parama shape
+ mytensor.re_alloc(Shape shape);
+ //Get writable pointer to mytensor.
+ //parama index (int): where you start to write.
+ //Dtype is your data type such int, float or double.
+ Dtype *p = mytensor.mutable_data(index/*=0*/);
+ //write data to mytensor
+ for(int i = 0; i < mytensor.size(); i++){
+ p[i] = 1.0f;
+ }
+ //do something ...
+2: 这种声明方式会自动分配内存
+ //Get writable pointer to mytensor.
+ //parama index (int): where you start to write.
+ //Dtype is your data type such int, float or double.
+ Dtype *p = mytensor1.mutable_data(index/*=0*/);
+ //write data to mytensor
+ for(int i = 0; i < mytensor.size(); i++){
+ p[i] = 1.0f;
+ }
+ //do something ...
+ //Get writable pointer to mytensor.
+ //parama index (int): where you start to write.
+ //Dtype is your data type such int, float or double.
+ Dtype *p = mytensor.mutable_data(index/*=0*/);
+ //write data to mytensor
+ for(int i = 0; i < mytensor.size(); i++){
+ p[i] = 1.0f;
+ }
+ //do something ...
+ //Get writable pointer to mytensor.
+ //parama index (int): where you start to write.
+ //Dtype is your data type such int, float or double.
+ Dtype *p = mytensor.mutable_data(index/*=0*/);
+ //write data to mytensor
+ for(int i = 0; i < mytensor.size(); i++){
+ p[i] = 1.0f;
+ }
+ //do something ...
+ //Get read-only pointer to mytensor.
+ //parama index (int): where you start to read.
+ //Dtype is your data type such int, float or double.
+ Dtype *p = mytensor.data(index/*=0*/);
+ //do something ...
+#### 获取tensor的shape
+//some declarations
+// ...
+Shape shape = mytensor.shape();
+//Get a first dimetion size of tesor, if it has.
+int d1 = shape[0];
+//Get a second dimention size of tensor, if it has.
+int d2 = shape[1];
+//Get a n-th dimention size of tensor, if it has.
+int dn = shape[n-1];
+//Get a tensor's dimention
+int dims = mytensor.dims();
+//Get the size of tensor.
+//size = d1 x d2 x ... x dn.
+int size = mytensor.size();
+//Get the size of tensor at interval [Di, Dj)
+// form i-th dimention to j-th dimention, but not including the j-th dimention.
+// which means di x (di+1) x ... x (dj -1)
+int size = mytensor.count(start, end);
+#### 设置tensor的shape
+我们可以用tensor的成员函数set_shape来设置tensor的shape。 下面是set_shape的定义
+ * \brief set a tensor's shape
+ * \param valid_shape [a Shape object]
+ * \param shape [a Shape object]
+ * \param offset [a Shape object]
+ * \return the status of this operation, that means whether it success * or not.
+ */
+SaberStatus set_shape(Shape valid_shape, Shape shape = Shape::zero(TensorAPI::layout_dims::value), Shape offset = Shape::minusone(TensorAPI::layout_dims::value));
+这个成员函数只设置tensor的shape。这些shape对象(valid_shape, shape, offset)的[LayOutType](#layout)必须和当前的tensor的相应三个shape对象的LayOutType相同,如果不同就会出错,返回SaberInvalidValue。 如果相同,那么将成功设置tensor的shape。
+// some declarations
+// ...
+//valid_shape, shape , offset are Shape object;
+//All these Shape object's LayOutType must be equal to mytensor's.
+mytensor.set_shape(valid_shape, shape, offset);
+#### 重置 tensor的shape
+//some declarations
+Shape shape, valid_shape, offset;
+//do some initializations
+mytensor.reshape(valid_shape, shape, offset);
+注意: Reshape操作仍然需要shape的[LayOutType](#layout) 与tensor的相同
+### Graph ###
+#### 图的声明
+class Graph ... /* inherit other class*/{
+ //some implements
+ ...
+前面已经介绍过[TargetType](#target)和[DataType](#datatype)是Anakin内部自定义数据类型。[TargetType](#target)表示平台类型 (如NV、X86), [DataType](#datatype)是Anakin基本数据类型与C++/C中的基本数据类型相对应。 [Precision](#precision)为op所支持的精度类型, 稍后我们在介绍它。
+//Create a empty graph object.
+Graph graph = Graph tmp();
+//Create a pointer to a empty graph.
+Graph *graph = new Graph();
+//Create a pointer to a empty graph.
+auto graph = new Graph();
+#### 加载 Anakin 模型
+//some declarations
+auto graph = new Graph();
+std::string model_path = "the/path/to/where/your/models/are";
+const char *model_path1 = "the/path/to/where/your/models/are";
+//Loading Anakin model to generate a compute graph.
+auto status = graph->load(model_path);
+//Or this way.
+auto status = graph->load(model_path1);
+//Check whether load operation success.
+ std::cout << "error" << endl;
+ //do something...
+#### 优化计算图
+//some declarations
+//Load graph.
+//According to the ops of loaded graph, optimize compute graph.
+> 注意: 第一次加载原始图,必须要优化。
+#### 保存模型
+你可以在任何时候保存模型, 特别的, 你可以保存一个优化的模型,这样,下次再加载模型时,就不必进行优化操作。
+//some declarations
+//Load graph.
+// save a model
+//save_model_path: the path to where your model is.
+auto status = graph->save(save_model_path);
+ cout << "error" << endl;
+ //do somethin...
+#### 重新设置计算图里的tensor的shape
+//some declarations
+//Load graph.
+vector shape{10, 256, 256, 10};
+//input_name : std::string.
+//Reshape a tensor named input_name.
+graph->Reshape(input_name, shape);//Note: shape is a vector, not a Shape object.
+#### 设置 batch size
+`Graph` 支持重新设置batch size的大小。
+//some declarations
+//Load graph.
+//input_name : std::string.
+//Reset a tensor named input_name.
+int new_batch_size = 4;
+graph->ResetBatchSize(input_name, new_batch_size);
+### Net ###
+`Net` 是计算图的执行器。你可以通过Net对象获得输入和输出
+#### Creating a graph executor
+class Net{
+ //some implements
+ ...
+由于有些Op可能支持多种精度,我们可以通过Precision来指定。OpRunType表示同步或异步类型,异步是默认类型。OpRunType::SYNC表示同步,在GPU上只有单个流;OpRunType::ASYNC表示异步,在GPU上有多个流并以异步方式执行。实际上,Precision和OpRunType都是enum class, 详细设计请参考*source_root/framework/core/types.h*.
+1. Precision
+Precision | Op support
+:---: | :---:
+Precision::INT4 | NO
+Precision::INT8 | NO
+Precision::FP16 | NO
+Precision::FP32 | YES
+Precision::FP64 | NO
+现在Op的精度只支持FP32, 但在将来我们会支持剩下的Precision.
+2. OpRunType
+OpRunType | Sync/Aync |Description
+:---: | :---: | :---:
+OpRunType::SYNC | Synchronization | single-stream on GPU
+OpRunType::ASYNC | Asynchronization | multi-stream on GPU
+//some declarations
+//Create a pointer to a graph.
+auto graph = new Graph();
+//do something...
+//create a executor
+Net executor(*graph);
+#### 获取输入输出tensor
+获取输入输出tensor,并填充输入tensor的buffer。如果想要获取输入和输出tensor,那么必须指定输入的名字,如"input_0", "input_1", "input_2", ..., 必须传入如上字符串才能够获得输入tensor。另外,如果想知道input_i对应哪个输入,你需要去dash board查看,如何使用dash board请看[Anakin Parser](Converter_ch.md)。请看如下示例代码
+//some declaratinos
+//create a executor
+//TargetType is NV [NVIDIA GPU]
+Net executor(*graph);
+//Get the first input tensor.
+//The following tensors(tensor_in0, tensor_in2 ...) are resident at GPU.
+//Note: Member function get_in returns an pointer to tensor.
+Tensor* tensor_in0 = executor.get_in("input_0");
+//If you have multiple input tensors
+//You just type this code below.
+Tensor* tensor_in1 = executor.get_in("input_1");
+auto tensor_inn = executor.get_in("input_n");
+//This tensor is resident at GPU.
+auto tensor_d_in = executor.get_in("input_0");
+//If we want to feed above tensor, we must feed the tensor which is resident at host. And then copy the host tensor to the device's one.
+//using Tensor4d = Tensor;
+Tensor4d tensor_h_in; //host tensor;
+//Tensor tensor_h_in;
+//Allocate memory for host tensor.
+//Get a writable pointer to tensor.
+float *h_data = tensor_h_in.mutable_data();
+//Feed your tensor.
+/** example
+for(int i = 0; i < tensor_h_in.size(); i++){
+ h_data[i] = 1.0f;
+//Copy host tensor's data to device tensor.
+// And then
+类似的,我们可以利用成员函数get_out来获得输出tensor。但与获得输入tensor不同的是, 我们需要指定输入tensor结点的名字,这个可以从dash board中看到,请从[Anakin Parser](Converter_ch.md)中查看dash board的使用方法。假如有个输出结点叫pred_out, 那么我们可以通过如下代码获得相应的输出tensor:
+//Note: this tensor are resident at GPU.
+Tensor* tensor_out_d = executor.get_out("pred_out");
+#### Executing graph
+## 示例代码 ##
+在这儿之前, 请确保你已经有了Anakin模型。如果还没有,那么请使用[Anakin Parser](Converter_ch.md)转换你的模型。
+### Single-thread
+单线程例子在 *source_root/test/framework/net/net_exec_test.cpp`*
+std::string model_path = "your_Anakin_models/xxxxx.anakin.bin";
+// Create an empty graph object.
+auto graph = new Graph();
+// Load Anakin model.
+auto status = graph->load(model_path);
+if(!status ) {
+ LOG(FATAL) << " [ERROR] " << status.info();
+// Reshape
+graph->Reshape("input_0", {10, 384, 960, 10});
+// You must optimize graph for the first time.
+// Create a executer.
+Net net_executer(*graph);
+//Get your input tensors through some specific string such as "input_0", "input_1", and
+//so on.
+//And then, feed the input tensor.
+//If you don't know Which input do these specific string ("input_0", "input_1") correspond with, you can launch dash board to find out.
+auto d_tensor_in_p = net_executer.get_in("input_0");
+Tensor4d h_tensor_in;
+auto valid_shape_in = d_tensor_in_p->valid_shape();
+for (int i=0; icopy_from(h_tensor_in);
+//Do inference.
+//Get result tensor through the name of output node.
+//And also, you need to see the dash board again to find out how many output nodes are and remember their name.
+//For example, you've got a output node named obj_pre_out
+//Then, you can get an output tensor.
+auto d_tensor_out_0_p = net_executer.get_out("obj_pred_out"); //get_out returns a pointer to output tensor.
+auto d_tensor_out_1_p = net_executer.get_out("lc_pred_out"); //get_out returns a pointer to output tensor.
+// do something else ...
+//save model.
+//You might not optimize the graph when you load the saved model again.
+std::string save_model_path = model_path + std::string(".saved");
+auto status = graph->save(save_model_path);
+if (!status ) {
+ LOG(FATAL) << " [ERROR] " << status.info();
+# 模型转换指南
+Anakin 支持不同框架的模型预测。但由于格式的差别,Anakin 需要您预先转换模型。本文档介绍如何转换模型。
+## 简介
+Anakin 模型转换器输入支持 Caffe 和 Fluid 两种格式的预测模型,模型包含网络结构(model 或 prototxt)和权重参数(param 或 caffemodel)。
+模型转换的输出是一个 bin 文件,它作为 Anakin 框架的 graph 参数导入。
+您还可以使用模型转换器的 launch board 功能生成网络结构的 HTML 预览。
+## 系统要求
+- python 2.7+
+- pyyaml
+- flask
+- protobuf 3.5+
+## 用法
+### 1、环境
+转换器所需的依赖标注于 *系统要求* 一节。
+### 2、配置
+您需要对 *config.yaml* 文件进行修改以告知您的需求。工程中给出了 *config.yaml* 示例,下面作进一步说明。
+#### config.yaml
+ Framework: CAFFE # 依框架类型填写 CAFFE 或 FLUID
+ SavePath: ./output # 转换结束后模型的保存位置
+ ResultName: googlenet # 输出模型的名字
+ Config:
+ LaunchBoard: ON # 是否生成网络结构预览页面
+ Server:
+ ip:
+ port: 8888 # 从一个可用端口访问预览页面
+ OptimizedGraph: # 当您使用了 Anakin 框架的 Optimized 功能时,才应该打开此项
+ enable: OFF
+ path: /path/to/anakin_optimized_anakin_model/googlenet.anakin.bin.saved
+ LogToPath: ./log/ # 生成日志的路径
+ WithColor: ON
+ # 当 Framework 为 CAFFE 时需填写
+ ProtoPaths:
+ - /path/to/caffe/src/caffe/proto/caffe.proto
+ PrototxtPath: /path/to/your/googlenet.prototxt
+ ModelPath: /path/to/your/googlenet.caffemodel
+ # 当 Framework 为 FLUID 时需填写
+ Debug: NULL
+ ProtoPaths:
+ - /
+ PrototxtPath: /path/to/fluid/inference_model
+ ModelPath: /path/to/fluid/inference_model
+ # ...
+### 3、转换
+在完成配置文件的修改后,您只需执行 ```python converter.py``` 就可以进行模型转换了。
+### 4、预览
+最后一步,就是在浏览器中查看令人振奋的转换结果!网址是在 *config.yaml* 中配置的,例如 。
+> 注意:若您使用了默认的 IP 地址,请在预览时使用真实的服务器地址 real_ip:port 替代它。
+# 如何增加新的Operator
+## 基本概念
+```framework```: 上层的逻辑代码,负责从parser中获取参数及weights,添加op时主要修改framework/operator目录下的内容。
+```saber```: 底层的实现代码,Anakin通过saber封装了不同的backends,不同的实现(impl)分别特化出自己的实现,外层framework通过不同的template进入各自的impl完成调用。各个op的parameter放在saber/saber_funcs_param.h文件中,增加op主要修改saber/funcs下的内容。
+* saber/funcs下的是各个funcs的外部接口,这一层的op与具体的设备实现无关,只与各op完成的功能有关。由于跟实现(impl)无关,本层文件明均不带impl。
+* saber/funcs/impl下是各个op的impl声明,特定设备需要完成该层声明的特化版本,如saber/funcs/impl/x86实现了上一层impl声明的x86特化版本,saber/funcs/impl/cuda实现了上一层impl声明的NV特化版本。当增加新的backends时需要特化出新的实现。本层代码同实现相关,均带有```impl_```前缀。
+* saber/funcs/impl/cuda/base/cuda_c内有cuda```.cu```扩展名的文件,添加cuda的kernel需要在该文件目录下添加。
+* saber/funcs/impl/cuda/base/sass 内有不同架构的汇编代码编译的静态库。
+### 涉及到的基类及各个类之前的关系
+* ```anakin::Operator```: framework的operator基类,位于framework/core/operator/operator.h
+* ```anakin::saber::BaseFunc```: saber对外的op接口基类,提供统一的对外接口,位于saber/funcs/base.h。BaseFunc的```compute_output_shape```接口只根据input的shape和param的参数计算输出的shape,并通过```tensor```的```set_shape```接口(只设置shape,不分配空间)设置到output中。```operator()```接口为各个op的计算接口。
+* ```ankain::saber::ImplBase```: saber设备实现的op的接口,所有设备相关实现的基类。位于saber/funcs/impl/impl_base.h。实现版本中这里分为两类,一类以```vender_```为前缀,带有```vender_```代码意为使用第三方库来实现该op,如cudnn的conv,或mkl的conv等等,这类op的性能我们难以调优,因此单独列为一类。另一类是带有源码的saber实现,这些实现都带有```saber_```为前缀,此类实现带有源码,能够通过后续优化不断提升性能,实现起名时需要注意这一点。
+## 添加operator
+1. 添加saber的param
+2. 定义saber的Operator类
+3. 定义新的impl声明
+3. 完成新的impl实现
+4. 增加framework的实现或特化
+例如我们要添加新的Mul op。给出计算公式如下:$$Out = alpha \dot X * Y$$
+### 为operator增加param
+template // 能够获得target, datatype, layout
+struct MulParam{
+ MulParam()
+ : alpha(0)
+ {}
+ MulParam(float alpha_in)
+ : alpha(alpha_in)
+ {}
+ MulParam(const MulParam& right)
+ : alpha(right.alpha)
+ {}
+ MulParam &operator=(const MulParam &right) {
+ alpha = right.alpha;
+ }
+ bool operator==(const MulParam &right) {
+ return alpha == right.alpha;
+ }
+ float alpha;
+### 定义Operator类
+#ifdef NVIDIA_GPU
+#include "saber/funcs/impl/cuda/saber_mul.h"
+#include "saber/funcs/impl/cuda/vender_mul.h"
+#ifdef USE_X86_PLACE
+#include "saber/funcs/impl/impl_mul.h"
+namespace anakin {
+namespace saber {
+class Mul : public BaseFunc<
+ Tensor,
+ Tensor,
+ Tensor,
+ ImplBase, MulParam> {
+ using BaseFunc<
+ Tensor,
+ Tensor,
+ Tensor,
+ ImplBase, MulParam>::BaseFunc;
+ Mul() = default;
+ typedef Tensor InDataTensor;
+ typedef Tensor OutDataTensor;
+ typedef Tensor OpTensor;
+ typedef MulParam Param_t;
+ typedef std::vector Input_v;
+ typedef std::vector Output_v;
+ typedef std::vector Shape_v;
+ virtual SaberStatus compute_output_shape(const Input_v &input,
+ Output_v &output, Param_t ¶m) override {
+ //计算输出的shape,
+ Shape output_shape = (input[0]->valid_shape());
+ /* code */
+ return output[0]->set_shape(output_shape);
+ }
+ virtual SaberStatus init_impl(ImplEnum implenum) override {
+ // 不同设备均使用此init_impl, 此接口创建对应impl的实现。
+ switch (implenum) {
+ this->_impl.push_back(new VenderMul );
+ return SaberSuccess;
+ case SABER_IMPL:
+ this->_impl.push_back(new SaberMul );
+ return SaberSuccess;
+ default:
+ return SaberUnImplError;
+ }
+ }
+ virtual void pick_best_static() override {
+ if (true) // some condition?
+ this->_best_impl = this->_impl[0];
+ }
+ virtual void pick_best_specify(ImplEnum implenum) override {
+ this->_best_impl = this->_impl[0];
+ }
+} // namespace saber
+} // namespace anakin
+### 为operator增加新的impl声明
+#include "saber/funcs/impl/impl_macro.h"
+namespace anakin{
+namespace saber{
+DEFINE_OP_CLASS(Mul, MulParam); // 第一个参数是op的名字,第二个是对应param的名字
+### 完成新的operator特定后端实现
+// include 对应的声明
+#include "saber/funcs/impl/impl_mul.h"
+namespace anakin{
+namespace saber{
+class VenderMul :
+ public ImplBase<
+ Tensor,
+ Tensor,
+ Tensor,
+ MulParam > >
+ typedef Tensor DataTensor_in;
+ typedef Tensor DataTensor_out;
+ typedef Tensor OpTensor;
+ typedef typename DataTensor_in::Dtype InDataType;
+ typedef typename DataTensor_out::Dtype OutDataType;
+ typedef typename OpTensor::Dtype OpDataType;
+ VenderMul(){}
+ ~VenderMul() {}
+ virtual SaberStatus init(const std::vector& inputs,
+ std::vector& outputs,
+ MulParam& param, Context& ctx) {
+ this->_ctx = ctx;
+ create(inputs, outputs, param, ctx);
+ }
+ virtual SaberStatus create(const std::vector& inputs,
+ std::vector& outputs,
+ MulParam& param, Context& ctx) {
+ // set内部参数
+ }
+ virtual SaberStatus dispatch(const std::vector& inputs,
+ std::vector& outputs,
+ MulParam& param) {
+ // dispatch kernel.
+ }
+### 添加framework的特化
+#include "framework/core/base.h"
+#include "framework/core/data_types.h"
+#include "framework/core/operator/operator.h"
+#include "utils/logger/logger.h"
+#include "saber/funcs/mul.h" // 需要包对应的saber头文件
+namespace anakin {
+namespace ops {
+class MulHelper;
+class Mul : public Operator {
+ Mul() {}
+ /// forward impl
+ virtual void operator() (OpContext &ctx,
+ const std::vector >& ins,
+ std::vector >& outs) {
+ LOG(ERROR) << "Not Impl Yet Operator power::type>().type_info()<<">";
+ }
+ friend class MulHelper;
+class MulHelper : public OperatorHelper {
+ MulHelper() = default;
+ ~MulHelper();
+ Status InitParam() override;
+ Status Init(OpContext &ctx,
+ const std::vector >& ins,
+ std::vector >& outs) override;
+ Status InferShape(const std::vector >& ins,
+ std::vector >& outs) override;
+ saber::MulParam> _param_mul;
+ saber::Mul _funcs_mul;
+} /* namespace anakin */
+#include "framework/operators/mul.h"
+namespace anakin {
+namespace ops {
+#ifdef USE_CUDA
+void Mul::operator()(
+ OpContext& ctx,
+ const std::vector >& ins,
+ std::vector >& outs) {
+ auto* impl =
+ static_cast*>(this->_helper);
+ auto& param =
+ static_cast*>(this->_helper)->_param_mul;
+ impl->_funcs_mul(ins, outs, param, ctx);
+Status MulHelper::InitParam() {
+ auto alpha = GET_PARAMETER(float, alpha);
+ MulParam> param_mul(alpha);
+ _param_mul = param_mul;
+ return Status::OK();
+Status MulHelper::Init(OpContext& ctx,
+ const std::vector >& ins,
+ std::vector >& outs) {
+ SABER_CHECK(_funcs_mul.init(ins, outs, _param_mul, SPECIFY, VENDER_IMPL, ctx));
+ return Status::OK();
+Status MulHelper::InferShape(const
+ std::vector >& ins,
+ std::vector >& outs) {
+ SABER_CHECK(_funcs_mul.compute_output_shape(ins, outs, _param_mul));
+ return Status::OK();
+#ifdef USE_CUDA
+template class MulHelper;
+template class MulHelper;
+// register helper
+#ifdef USE_CUDA
+ANAKIN_REGISTER_OP_HELPER(Mul, MulHelper, NV, AK_FLOAT, Precision::FP32);
+//! register op
+.Doc("Mul operator")
+#ifdef USE_CUDA
+.Args("alpha", " alpha of Mul "); //注册
+} /* namespace ops */
+} /* namespace anakin */
+## 实现单元测试
+TEST(TestSaberFuncNV, test_depthwise_conv) {
+ // init tensors and some param.
+ // start Reshape & doInfer
+ Context ctx1(0, 1, 1);
+ // create param
+ MulParam > param(alpha);
+ std::vector*> input;
+ std::vector*> output;
+ // create saber op
+ Mul mul;
+ // compute output shape
+ mul.compute_output_shape(input, output, param);
+ // re_alloc output tensors memory based on output shape
+ output[0]->re_alloc(output[0]->shape());
+ // init saber op(calling init and create)
+ mul.init(input, output, param, SPECIFY, VENDER_IMPL, ctx1);
+ // call operator()
+ mul(input, output, param, ctx1);
+ // cuda specified, record events
+ cudaStream_t cuda_stream = ctx1.get_compute_stream();
+ output[0]->record_event(cuda_stream);
+ output_dev.sync();
+ // param changed
+ param.alpha = 2.0;
+ // auto calling saber op(create and dispatch)
+ mul(input, output, param, ctx1);
+ cudaDeviceSynchronize();
+ CUDA_CHECK(cudaPeekAtLastError());
+int main(int argc, const char** argv){
+ anakin::saber::Env::env_init();
+ // initial logger
+ //logger::init(argv[0]);
+ InitTest();
+ RUN_ALL_TESTS(argv[0]);
+ return 0;
+## 调试及注意事项
+# 如何支持一个新的设备
+## 概览
+* [在`CMakeList`中添加设备的支持](#0001)
+* [在`saber`中添加设备的实现](#0002)
+* [在`framework`中添加设备的具体化或实例化](#0003)
+假设新设备的名称为`TNEW`, 以下将以这个设备名称进行演示。
+## 在`CMakeList`中添加设备的支持 ##
+* 修改根目录`CMakeList.txt`
+#select the plantform to build
+anakin_option(USE_GPU_PLACE "Select the build mode for GPU place." NO)
+anakin_option(USE_X86_PLACE "Select the build mode for X86 place." NO)
+anakin_option(USE_ARM_PLACE "Select the build mode for ARM place." NO)
+anakin_option(USE_TNEW_PLACE "Select the build mode for ARM place." YES)
+* 修改`saber/CMakeList.txt`
+ anakin_fetch_files_with_suffix(${ANAKIN_SABER}/core/impl/tnew "cpp" ANAKIN_SABER_BASE_SRC)
+ anakin_fetch_files_with_suffix(${ANAKIN_SABER}/funcs/impl/tnew "cpp" ANAKIN_SABER_BASE_SRC)
+* 修改`test/CMakeList.txt`
+ anakin_fetch_files_with_suffix(${ANAKIN_UNIT_TEST}/saber/tnew "cpp" ANAKIN_TEST_CASE_SRC)
+* 修改`cmake/anakin_config.h.in`
+// plantform to use
+#cmakedefine USE_GPU_PLACE
+#cmakedefine USE_X86_PLACE
+#cmakedefine USE_ARM_PLACE
+#cmakedefine USE_TNEW_PLACE
+* 其他依赖和编译选项
+## 在`saber`中添加设备的实现 ##
+### 在`saber/saber_types.h`中添加设备
+enum TargetTypeEnum {
+ eINVALID = -1,
+ eNV = 1,
+ eAMD = 2,
+ eARM = 3,
+ eX86 = 4,
+ eNVHX86 = 5,
+ eTNEW = 6
+typedef TargetType NV;
+typedef TargetType ARM;
+typedef TargetType AMD;
+typedef TargetType X86;
+typedef TargetType TNEW;
+### 在`saber/core`中添加设备的实现
+1. 在`target_traits.h`中添加新设备
+* 增加设备类型
+struct __cuda_device{};
+struct __arm_device{};
+struct __amd_device{};
+struct __x86_device{};
+struct __tnew_device{};
+* `TargetTypeTraits`模板具体化
+template <>
+struct TargetTypeTraits {
+ typedef __xxx_target target_category;//根据实际设备是host端还是device端进行选择
+ typedef __tnew_device target_type;
+2. 在`data_traits.h`中特化`DataTrait`模板类
+#ifdef USE_OPENCL
+struct ClMem{
+ ClMem(){
+ dmem = nullptr;
+ offset = 0;
+ }
+ ClMem(cl_mem* mem_in, int offset_in = 0) {
+ dmem = mem_in;
+ offset = offset_in;
+ }
+ ClMem(ClMem& right) {
+ dmem = right.dmem;
+ offset = right.offset;
+ }
+ ClMem& operator=(ClMem& right) {
+ this->dmem = right.dmem;
+ this->offset = right.offset;
+ return *this;
+ }
+ ClMem& operator+(int offset_in) {
+ this->offset += offset_in;
+ return *this;
+ }
+ int offset{0};
+ cl_mem* dmem;
+template <>
+struct DataTrait {
+ typedef ClMem Dtype;
+ typedef float dtype;
+template <>
+struct DataTrait {
+ typedef ClMem Dtype;
+ typedef double dtype;
+template <>
+struct DataTrait {
+ typedef ClMem Dtype;
+ typedef char dtype;
+#endif //use_opencl
+3. 在`target_wrapper.h`中特化`TargetWrapper`模板类
+template <>
+struct TargetWrapper { //根据TNEW的具体类型修改__xxx_target,__host_target或者__device_target
+ typedef xxx_event event_t; //根据设备实现xxx_event
+ typedef xxx_stream stream_t; //根据设备实现xxx_stream
+ static void get_device_count(int& count);
+ static void set_device(int id);
+ //We should add strategy to avoid malloc directly
+ static void mem_alloc(void** ptr, size_t n);
+ static void mem_free(void* ptr);
+ static void mem_set(void* ptr, int value, size_t n);
+ static void create_event(event_t& event, bool flag = false);
+ static void create_stream(stream_t& stream);
+ static void create_stream_with_flag(stream_t& stream, unsigned int flag);
+ static void create_stream_with_priority(stream_t& stream, unsigned int flag, int priority);
+ static void destroy_stream(stream_t& stream);
+ static void destroy_event(event_t& event);
+ static void record_event(event_t& event, stream_t stream);
+ static void query_event(event_t& event);
+ static void sync_event(event_t& event);
+ static void sync_stream(event_t& event, stream_t& stream);
+ static void sync_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, __DtoD);
+ static void async_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, stream_t& stream, __DtoD);
+ static void sync_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, __HtoD);
+ static void async_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, stream_t& stream, __HtoD);
+ static void sync_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, __DtoH);
+ static void async_memcpy(void* dst, int dst_id, const void* src, int src_id, \
+ size_t count, stream_t& stream, __DtoH);
+ static void sync_memcpy_p2p(void* dst, int dst_dev, const void* src, \
+ int src_dev, size_t count);
+ static void async_memcpy_p2p(void* dst, int dst_dev, const void* src, \
+ int src_dev, size_t count, stream_t& stream);
+ static int get_device_id();
+4. 在`impl/`目录下添加设备目录和实现
+* 实现`TargetWrapper`结构体中各函数的定义。
+typedef TargetWrapper TNEW_API;
+void TNEW_API::get_device_count(int &count) {
+ // add implementation
+void TNEW_API::set_device(int id){
+ // add implementation
+void TNEW_API::mem_alloc(void** ptr, size_t n){
+ // add implementation
+void TNEW_API::mem_free(void* ptr){
+ if(ptr != nullptr){
+ // add implementation
+ }
+* 特化实现`device.h`中的`Device`
+template <>
+void Device::create_stream() {
+ // add implementation
+template <>
+void Device::get_info() {
+ // add implementation
+### 在`saber/funcs`中实现设备相关的op
+## 在`framework`中添加设备的具体化或实例化 ##
+### `framework/core`
+* `net.cpp`中添加实例化
+template class Net;
+template class Net;
+* `operator_func.cpp`中添加实例化
+template class OperatorFunc;
+* `worker.cpp`中添加实例化
+template class Worker;
+template class Worker;
+* `operator_attr.cpp`中添加实例化
+OpAttrWarpper& OpAttrWarpper::__alias__(const std::string& op_name);
+OpAttrWarpper& OpAttrWarpper::__alias__(const std::string& op_name);
+OpAttrWarpper& OpAttrWarpper::__alias__(const std::string& op_name);
+* `parameter.h`中添加设备的实现
+class PBlock {
+ typedef Tensor4d::type> type;
+ PBlock() {
+ _inner_tensor = std::make_shared();
+ }
+ ...
+#endif //TNEW
+* `type_traits_extend.h`中添加设备的实现
+struct target_host {
+ typedef saber::X86 type; //根据TNEW选择正确的host type
+### `framework/graph`
+* `graph.cpp`中添加实例化
+ template class Graph;
+ template class Graph;
+ template class Graph;
+ #endif
+### `framework/model_parser`
+* `parser.cpp`中添加实例化
+ template
+ Status load(graph::Graph* graph,
+ const char* model_path);
+ template
+ Status load(graph::Graph* graph,
+ const char* model_path);
+ template
+ Status load(graph::Graph* graph,
+ const char* model_path);
+ template
+ Status save(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status save(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status save(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status load(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status load(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status load(graph::Graph* graph,
+ std::string& model_path);
+ template
+ Status save(graph::Graph* graph,
+ const char* model_path);
+ template
+ Status save(graph::Graph* graph,
+ const char* model_path);
+ template
+ Status save(graph::Graph* graph,
+ const char* model_path);
+ #endif
+* `model_io.cpp`中添加实例化
+template class NodeIO;
+template class NodeIO;
+template class NodeIO;
+### `framework/operators`
+template class ActivationHelper;
+ANAKIN_REGISTER_OP_HELPER(Activation, ActivationHelper, TNEW, AK_FLOAT, Precision::FP32);
+template <>
+Status ActivationHelper::Init(OpContext &ctx,\
+ const std::vector >& ins, \
+ std::vector >& outs) {
+ SABER_CHECK(_funcs_activation.init(ins, outs, _param_activation, SPECIFY, SABER_IMPL, ctx)); //在这里选择实现方式
+ return Status::OK();
+ANAKIN_REGISTER_OP_HELPER(Activation, ActivationHelper, TNEW, AK_FLOAT, Precision::FP32);
+## 注意事项
diff --git a/source/advanced_usage/deploy/install_anakin.md b/source/advanced_usage/deploy/install_anakin.md
index d14e1f720a8..bb7c1950308 120000
--- a/source/advanced_usage/deploy/install_anakin.md
+++ b/source/advanced_usage/deploy/install_anakin.md
@@ -1 +1,69 @@
\ No newline at end of file
+## 从源码编译安装Anakin ##
+我们已经在CentOS 7.3上成功的安装和测试了Anakin,对于其他操作系统,我们将很快支持。
+### 安装概览 ###
+* [在CentOS上安装 Anakin]()
+* [在Ubuntu上安装 Anakin]()
+* [在ARM上安装 Anakin](run_on_arm_ch.md)
+* [验证安装]()
+### 在CentOS上安装 Anakin ###
+#### 1. 系统要求 ####
+* make 3.82+
+* cmake 2.8.12+
+* gcc 4.8.2+
+* g++ 4.8.2+
+* 其他需要补充的。。。
+#### 2. 编译CPU版Anakin ####
+#### 3. 编译支持NVIDIA GPU的Anakin ####
+- 3.1. 安装依赖
+ - 3.1.1 protobuf
+ >$ git clone https://github.com/google/protobuf
+ >$ cd protobuf
+ >$ git submodule update --init --recursive
+ >$ ./autogen.sh
+ >$ ./configure --prefix=/path/to/your/insall_dir
+ >$ make
+ >$ make check
+ >$ make install
+ >$ sudo ldconfig
+ 如安装protobuf遇到任何问题,请访问[这里](https://github.com/google/protobuf/blob/master/src/README.md)
+- 3.2 CUDA Toolkit
+ - [CUDA 8.0](https://developer.nvidia.com/cuda-zone) or higher. 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
+ - [cuDNN v7](https://developer.nvidia.com/cudnn). 具体信息参见[NVIDIA's documentation](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/).
+- 3.3 编译Anakin
+ >$ git clone https:/xxxxx
+ >$ cd anakin
+ >$ mkdir build
+ >$ camke ..
+ >$ make
+#### 4. 编译支持AMD GPU的Anakin ####
+### 在Ubuntu上安装 Anakin ###
+### 在ARM上安装 Anakin ###
+### 验证安装 ###
+we are coming soon...
+# 环境搭建
+## 使用 docker
+### 1. 安装 docker
+安装 docker 的方式,参考官方文档 [https://docs.docker.com/install/](https://docs.docker.com/install/)
+### 2. 使用 docker 搭建构建环境
+首先进入 paddle-mobile 的目录下,执行 `docker build`
+以 Linux/Mac 为例 (windows 建议在 'Docker Quickstart Terminal' 中执行)
+$ docker build -t paddle-mobile:dev - < Dockerfile
+使用 `docker images` 可以看到我们新建的 image
+$ docker images
+paddle-mobile dev 33b146787711 45 hours ago 372MB
+### 3. 使用 docker 构建
+进入 paddle-mobile 目录,执行 docker run
+$ docker run -it --mount type=bind,source=$PWD,target=/paddle-mobile paddle-mobile:dev
+root@5affd29d4fc5:/ # cd /paddle-mobile
+# 生成构建 android 产出的 Makefile
+root@5affd29d4fc5:/ # rm CMakeCache.txt
+root@5affd29d4fc5:/ # cmake -DCMAKE_TOOLCHAIN_FILE=tools/toolchains/arm-android-neon.cmake
+# 生成构建 linux 产出的 Makefile
+root@5affd29d4fc5:/ # rm CMakeCache.txt
+root@5affd29d4fc5:/ # cmake -DCMAKE_TOOLCHAIN_FILE=tools/toolchains/arm-linux-gnueabi.cmake
+### 4. 设置编译选项
+可以通过 ccmake 设置编译选项
+root@5affd29d4fc5:/ # ccmake .
+ Page 1 of 1
+ CMAKE_TOOLCHAIN_FILE /paddle-mobile/tools/toolchains/arm-android-neon.cmake
+ NET googlenet
+修改选项后,按 `c`, `g` 更新 Makefile
+### 5. 构建
+使用 make 命令进行构建
+root@5affd29d4fc5:/ # make
+### 6. 查看构建产出
+构架产出可以在 host 机器上查看,在 paddle-mobile 的目录下,build 以及 test/build 下,可以使用 adb 指令或者 scp 传输到 device 上执行
+## 不使用 docker
+不使用 docker 的方法,可以直接用 cmake 生成 makefile 后构建。使用 ndk 构建 android 应用需要正确设置 NDK_ROOT。构建 linux 应用需要安装 arm-linux-gnueabi-gcc 或者类似的交叉编译工具,可能需要设置 CC,CXX 环境变量,或者在 tools/toolchains/ 中修改 arm-linux-gnueabi.cmake,或者增加自己需要的 toolchain file。
+# iOS开发文档
+## 编译
+### 一. 使用 build.sh 编译
+sh build.sh ios
+# 如果只想编译某个特定模型的 op, 则需执行以下命令
+sh build.sh ios googlenet
+# 在这个文件夹下, 你可以拿到生成的 .a 库
+cd ../build/release/ios/build
+### 二. 使用 xcode 编译
+我们提供了 ios 开发更为熟悉的 xcode 编译环境:
+在 ios/ 目录下打开 PaddleMobile.xcworkspace 即可编译 PaddleMobile 或者 运行 Demo
+### 三. 集成
+#### 如使用 c++ 接口
+拖入工程, io.h 为接口文件, 可在 [github](https://github.com/PaddlePaddle/paddle-mobile/blob/develop/src/io/io.h)上查看接口注释
+#### 如使用 oc 接口
+将在xcode 编译生成的
+拖入工程, 接口如下:
+ 创建单例对象
++ (instancetype)sharedInstance;
+ load 模型, 开辟内存
+- (BOOL)load:(NSString *)modelPath andWeightsPath:(NSString *)weighsPath;
+ 进行预测, means 和 scale 为训练模型时的预处理参数, 如训练时没有做这些预处理则直接使用 predict
+- (NSArray *)predict:(CGImageRef)image means:(NSArray *)means scale:(float)scale;
+ 进行预测
+- (NSArray *)predict:(CGImageRef)image;
+ 清理内存
+- (void)clear;
diff --git a/source/advanced_usage/deploy/native_infer.rst b/source/advanced_usage/deploy/native_infer.rst
+Paddle 预测 API
+为了更简单方便的预测部署,Fluid 提供了一套高层 API
+`预测库相关代码 `__
+- 头文件 ``paddle_inference_api.h`` 定义了所有的接口
+- 库文件\ ``libpaddle_fluid.so`` 或 ``libpaddle_fluid.a``
+- 库文件 ``libpaddle_inference_api.so`` 或
+ ``libpaddle_inference_api.a``
+编译和依赖可以参考 :ref:`install_or_build_cpp_inference_lib` 。
+下面是一些 API 概念的介绍
+PaddleTensor 定义了预测最基本的输入输出的数据格式,其定义是
+.. code:: cpp
+ struct PaddleTensor {
+ std::string name; // variable name.
+ std::vector shape;
+ PaddleBuf data; // blob of data.
+ PaddleDType dtype;
+ };
+- ``name`` 用于指定输入数据对应的 模型中variable 的名字
+ (暂时没有用,但会在后续支持任意 target 时启用)
+- ``shape`` 表示一个 Tensor 的 shape
+- ``data`` 数据以连续内存的方式存储在\ ``PaddleBuf``
+ 中,\ ``PaddleBuf``
+ 可以接收外面的数据或者独立\ ``malloc``\ 内存,详细可以参考头文件中相关定义。
+- ``dtype`` 表示 Tensor 的数据类型
+高层 API 底层有多种优化实现,我们称之为 engine,目前有三种 engine
+- 原生 engine,由 paddle 原生的 forward operator
+ 组成,可以天然支持所有paddle 训练出的模型,
+- Anakin engine,封装了
+ `Anakin `__
+ ,在某些模型上性能不错,但只能接受自带模型格式,无法支持所有 paddle
+ 模型,
+- TensorRT mixed engine,用子图的方式支持了
+ `TensorRT `__ ,支持所有paddle
+ 模型,并自动切割部分计算子图到 TensorRT 上加速(WIP)
+.. code:: cpp
+ enum class PaddleEngineKind {
+ kNative = 0, // Use the native Fluid facility.
+ kAnakin, // Use Anakin for inference.
+ kAutoMixedTensorRT // Automatically mixing TensorRT with the Fluid ops.
+ };
+1. 用合适的配置创建 ``PaddlePredictor``
+2. 创建输入用的 ``PaddleTensor``\ ,传入到 ``PaddlePredictor`` 中
+3. 获取输出的 ``PaddleTensor`` ,将结果取出
+.. code:: cpp
+ #include "paddle_inference_api.h"
+ // 创建一个 config,并修改相关设置
+ paddle::NativeConfig config;
+ config.model_dir = "xxx";
+ config.use_gpu = false;
+ // 创建一个原生的 PaddlePredictor
+ auto predictor =
+ paddle::CreatePaddlePredictor(config);
+ // 创建输入 tensor
+ int64_t data[4] = {1, 2, 3, 4};
+ paddle::PaddleTensor tensor{.name = "",
+ .shape = std::vector({4, 1}),
+ .data = PaddleBuf(data, sizeof(data)),
+ .dtype = PaddleDType::INT64};
+ // 创建输出 tensor,输出 tensor 的内存可以复用
+ std::vector outputs;
+ // 执行预测
+ CHECK(predictor->Run(slots, &outputs));
+ // 获取 outputs ...
+编译时,联编 ``libpaddle_fluid.a/.so`` 和
+``libpaddle_inference_api.a/.so`` 便可。
+- `inference
+ demos `__
+- `复杂单线程/多线程例子 `__
+## 源码编译 Anakin ##
+目前Anakin支持ARM Android平台,采用Android NDK交叉编译工具链,已在mac os和centos上编译和测试通过。
+### 安装概览 ###
+* [系统需求](#0001)
+* [安装第三方依赖](#0002)
+* [Anakin源码编译](#0003)
+* [验证安装](#0004)
+### 1. 系统需求 ###
+* 宿主机: linux, mac
+* cmake 3.8.2+
+* Android NDK r14, Linux 版本[从这里下载](https://dl.google.com/android/repository/android-ndk-r14b-linux-x86_64.zip)
+### 2. 安装第三方依赖 ###
+- 2.1 protobuf3.4.0
+ 源码从这里[下载](https://github.com/google/protobuf/releases/tag/v3.4.0)
+ - 2.1.1 为宿主机编译protobuf
+ ```bash
+ $ tar -xzf protobuf-3.4.0.tar.gz
+ $ cd protobuf-3.4.0
+ $ ./autogen.sh
+ $ ./configure
+ $ make
+ $ make check
+ $ make install
+ ```
+ 上述 $make install 执行后,可在 /usr/local/include/google 找到 libprotobuf 所需的头文件,将整个google文件夹拷贝至Anakin/third-party/arm-android/protobuf/下,
+ 如有问题,请点[这里](https://github.com/google/protobuf/blob/v3.4.0/src/README.md)。
+ 然后将已经生成文件清除。
+ ```bash
+ $ make distclean
+ ```
+ - 2.1.1 交叉编译Android`armeabi-v7a`的protobuf,注意设置ANDROID_NDK的路径,以及ARCH_ABI、HOSTOSN的值,
+ ```bash
+ $ export ANDROID_NDK=your_ndk_path
+ $ ARCH_ABI="arm-linux-androideabi-4.9"
+ $ HOSTOSN="darwin-x86_64"
+ $ export SYSROOT=$ANDROID_NDK/platforms/android-9/arch-arm
+ $ export PREBUILT=$ANDROID_NDK/toolchains/$ARCH_ABI
+ $ export LDFLAGS="--sysroot=$SYSROOT"
+ $ export LD="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/arm-linux-androideabi/bin/ld $LDFLAGS"
+ $ export LIBS="-llog $ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/libgnustl_static.a"
+ $ export CPPFLAGS=""
+ $ export INCLUDES="-I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/include/ -I$ANDROID_NDK/platforms/android-9/arch-arm/usr/include/ -I$ANDROID_NDK/sources/cxx-stl/gnu-libstdc++/4.9/libs/armeabi-v7a/include/"
+ $ export CXXFLAGS="-march=armv7-a -mfloat-abi=softfp -DGOOGLE_PROTOBUF_NO_RTTI --sysroot=$SYSROOT"
+ $ export CCFLAGS="$CXXFLAGS"
+ $ export CXX="$PREBUILT/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-g++ $CXXFLAGS"
+ $ export CC="$CXX"
+ $ export RANLIB="$ANDROID_NDK/toolchains/$ARCH_ABI/prebuilt/$HOSTOSN/bin/arm-linux-androideabi-ranlib"
+ $ ./autogen.sh
+ $ ./configure --host=arm-linux-androideabi --with-sysroot=$SYSROOT --enable-cross-compile --with-protoc=protoc --disable-shared CXX="$CXX" CC="$CC" LD="$LD"
+ $ make
+ ```
+ 编译生成 *.a 静态库,若希望编译*.so 动态链接库 ,请在./configure参数中改--disable-shared为--disable-static --enable-shared。
+ 生成文件在src/.libs/下,将生成的文件拷贝至Anakin/third-party/arm-android/protobuf/lib下。
+ 在[cmake](../../cmake/find_modules.cmake)中更新`ARM_RPOTO_ROOT`的路径。
+ ```cmake
+ set(ARM_RPOTO_ROOT "${CMAKE_SOURCE_DIR}/third-party/arm-android/protobuf")
+ ```
+- 2.2 opencv 2.4.3+(optional)
+ Anakin只在examples示例中使用opencv
+ Android系统的opencv从[这里下载](https://opencv.org/releases.html)
+ 解压后将 `3rdparty/libs/armeabi-v7a`中的库文件拷贝到`libs/armeabi-v7a`
+ 在[cmake](../../cmake/find_modules.cmake)中搜索`anakin_find_opencv`,
+ 并设置 `include_directories` 和 `LINK_DIRECTORIES`为自己安装的库的路径。
+ ```cmake
+ include_directories(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/jni/include/)
+ LINK_DIRECTORIES(${CMAKE_SOURCE_DIR}/third-party/arm-android/opencv/sdk/native/libs/armeabi-v7a/)
+ ```
+### 3. Anakin源码编译 ###
+#### 编译Android版本
+ 克隆[源码](https://github.com/PaddlePaddle/Anakin/tree/arm)
+ cd your_dir
+ git clone https://github.com/PaddlePaddle/Anakin.git
+ cd Anakin
+ git fetch origin arm
+ git checkout arm
+ ```
+ 修改`android_build.sh`
+- 修改NDK路径
+ ```bash
+ #modify "your_ndk_path" to your NDK path
+ export ANDROID_NDK=your_ndk_path
+ ```
+- 修改ARM 处理器架构
+ 对于32位ARM处理器, 将ANDROID_ABI 设置为 `armeabi-v7a with NEON`,
+ 对于64位ARM处理器, 可以将ANDROID_ABI 设置为 `armeabi-v7a with NEON`或者`arm64-v8a`。
+ 目前我们只支持 `armeabi-v7a with NEON`;`arm64-v8a` 还在开发中。
+ ```bash
+ -DANDROID_ABI="armeabi-v7a with NEON"
+ ```
+- 设置Android API
+ 根据Android系统的版本设置API level, 例如API Level 21 -> Android 5.0.1
+ ```bash
+ ```
+- 选择编译静态库或动态库
+ 设置`BUILD_SHARED=NO`编译静态库
+ ```bash
+ ```
+- OpenMP多线程支持
+ 设置`USE_OPENMP=YES`开启OpenMP多线程
+ ```bash
+ ```
+- 编译单测文件
+ ```bash
+ ```
+- 编译示例文件
+ 设置`BUILD_EXAMPLES=YES`将会编译示例文件
+ ```bash
+ ```
+- 开启opencv
+ 如果使用opencv,设置`USE_OPENCV=YES`
+ ```bash
+ ```
+- 开始编译
+ 运行脚本 `android_build.sh` 将自动编译Anakin
+ ```bash
+ ./android_build.sh
+ ```
+### 4. 验证安装 ###
+ 编译好的库会放在目录`${Anakin_root}/output`下;
+ 编译好的单测文件会放在`${Anakin_root}/output/unit_test`目录下;
+ 编译好的示例文件会放在`${Anakin_root}/output/examples`目录下。
+ 对于Android系统,打开设备的调试模式,通过ADB可以访问的目录是`data/local/tmp`,通过ADB push将测试文件、模型和数据发送到设备目录, 运行测试文件。
+.. contents::
+此教程将向您分步介绍如何使用内置的定时工具、 **nvprof** 或 **nvvp** 来运行性能分析和调优。
+- 什么是性能分析?
+- 为什么需要性能分析?
+- 如何进行性能分析?
+- 性能分析工具介绍
+- 详细教程
+- 性能分析小技巧
+- 对代码进行性能分析
+- 找到运行慢的部分
+- 找到运行慢的原因
+- 修改成更快的版本
+- 再次对代码进行性能分析
+Usually, processor has two key performance limits include float point throughput and
+memory throughput. For GPU, it also need more parallelism to fulfill its potential.
+This is why they can be so fast.
+**nvprof** 是Nvidia性能分析工具, **nvvp** 则是带GUI的Nvidia可视化性能分析工具。
+:code:`test_GpuProfiler` from :code:`paddle/legacy/math/tests` directory will be used to evaluate
+above profilers.
+:code:`paddle/legacy/math/test` 目录中的 :code:`test_GpuProfiler` 就是用于展示上述分析工具的用法。
+.. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
+ :language: c++
+ :lines: 137-151
+ :linenos:
+1. :code:`REGISTER_TIMER_INFO` 是一个内置的定时器封装,可以用来计算CPU函数或cuda内核的时间消耗。
+2. :code:`REGISTER_GPU_PROFILER` is a general purpose wrapper object of :code:`cudaProfilerStart` and :code:`cudaProfilerStop` to avoid
+program crashes when CPU version of PaddlePaddle invokes them.
+3. :code:`REGISTER_GPU_PROFILER` 是一个封装对象,封装了 :code:`cudaProfilerStart` 和 :code:`cudaProfileStop` 两个操作;同时其内部实现可以避免纯CPU版本PaddlePaddle在执行本语句时发生崩溃。
+如果想要启用PaddlePaddle的内置定时器,您首先需要在相关代码段中加入 :code:`REGISTER_TIMER_INFO`。
+接下来就可以使用 :code:`printStatus` 或者 :code:`printAllStatus` 函数来将信息输出到界面中。
+1. 加入 :code:`REGISTER_TIMER_INFO` 和 :code:`printAllStatus` 函数(如高亮部分)。
+ .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
+ :language: c++
+ :lines: 137-151
+ :emphasize-lines: 8-12,14
+ :linenos:
+2. cmake配置中将 **WITH_TIMER** 打开,重新编译PaddlePaddle。
+ .. code-block:: bash
+ cmake .. -DWITH_TIMER=ON
+ make
+3. 执行您的代码,并观察结果(如高亮部分)。
+ .. code-block:: bash
+ :emphasize-lines: 1,12-15
+ > ./paddle/legacy/math/tests/test_GpuProfiler
+ I1117 11:13:42.313065 2522362816 Util.cpp:155] commandline: ./paddle/legacy/math/tests/test_GpuProfiler
+ I1117 11:13:42.845065 2522362816 Util.cpp:130] Calling runInitFunctions
+ I1117 11:13:42.845208 2522362816 Util.cpp:143] Call runInitFunctions done.
+ [==========] Running 1 test from 1 test case.
+ [----------] Global test environment set-up.
+ [----------] 1 test from Profiler
+ [ RUN ] Profiler.BilinearFwdBwd
+ I1117 11:13:42.845310 2522362816 test_GpuProfiler.cpp:114] Enable GPU Profiler Stat: [testBilinearFwdBwd] "numSamples = 10, channels = 16, im
+ gSizeX = 64, imgSizeY = 64"
+ I1117 11:13:42.850154 2522362816 ThreadLocal.cpp:37] thread use undeterministic rand seed:20659751
+ I1117 11:13:42.981501 2522362816 Stat.cpp:130] ======= StatSet: [GlobalStatInfo] status ======
+ I1117 11:13:42.981539 2522362816 Stat.cpp:133] Stat=testBilinearFwdBwd total=136.141 avg=136.141 max=136.141 min=136.141 count=1
+ I1117 11:13:42.981572 2522362816 Stat.cpp:141] ======= BarrierStatSet status ======
+ I1117 11:13:42.981575 2522362816 Stat.cpp:154] --------------------------------------------------
+ [ OK ] Profiler.BilinearFwdBwd (136 ms)
+ [----------] 1 test from Profiler (136 ms total)
+ [----------] Global test environment tear-down
+ [==========] 1 test from 1 test case ran. (136 ms total)
+ [ PASSED ] 1 test.
+nvprof 工具
+要使用命令行分析工具 **nvprof**,您按如下步骤操作即可:
+1. 将 :code:`REGISTER_GPU_PROFILER` 函数加到代码中(参考强调部分)。
+ .. literalinclude:: ../../../../paddle/legacy/math/tests/test_GpuProfiler.cpp
+ :language: c++
+ :lines: 137-151
+ :emphasize-lines: 6-7
+ :linenos:
+2. cmake中将 **WITH_PROFILER** 配置打开,重新编译PaddlePaddle。
+ .. code-block:: bash
+ make
+3. 使用 **nvprof** 来分析执行文件。
+ .. code-block:: bash
+ nvprof ./paddle/legacy/math/tests/test_GpuProfiler
+.. code-block:: bash
+ ==78544== Profiling application: ./paddle/legacy/math/tests/test_GpuProfiler
+ ==78544== Profiling result:
+ Time(%) Time Calls Avg Min Max Name
+ 27.60% 9.6305ms 5 1.9261ms 3.4560us 6.4035ms [CUDA memcpy HtoD]
+ 26.07% 9.0957ms 1 9.0957ms 9.0957ms 9.0957ms KeBilinearInterpBw
+ 23.78% 8.2977ms 1 8.2977ms 8.2977ms 8.2977ms KeBilinearInterpFw
+ 22.55% 7.8661ms 2 3.9330ms 1.5798ms 6.2863ms [CUDA memcpy DtoH]
+ ==78544== API calls:
+ Time(%) Time Calls Avg Min Max Name
+ 46.85% 682.28ms 8 85.285ms 12.639us 682.03ms cudaStreamCreateWithFlags
+ 39.83% 580.00ms 4 145.00ms 302ns 550.27ms cudaFree
+ 9.82% 143.03ms 9 15.892ms 8.7090us 142.78ms cudaStreamCreate
+ 1.23% 17.983ms 7 2.5690ms 23.210us 6.4563ms cudaMemcpy
+ 1.23% 17.849ms 2 8.9247ms 8.4726ms 9.3768ms cudaStreamSynchronize
+ 0.66% 9.5969ms 7 1.3710ms 288.43us 2.4279ms cudaHostAlloc
+ 0.13% 1.9530ms 11 177.54us 7.6810us 591.06us cudaMalloc
+ 0.07% 1.0424ms 8 130.30us 1.6970us 453.72us cudaGetDevice
+ 0.04% 527.90us 40 13.197us 525ns 253.99us cudaEventCreateWithFlags
+ 0.03% 435.73us 348 1.2520us 124ns 42.704us cuDeviceGetAttribute
+ 0.03% 419.36us 1 419.36us 419.36us 419.36us cudaGetDeviceCount
+ 0.02% 260.75us 2 130.38us 129.32us 131.43us cudaGetDeviceProperties
+ 0.02% 222.32us 2 111.16us 106.94us 115.39us cudaLaunch
+ 0.01% 214.06us 4 53.514us 28.586us 77.655us cuDeviceGetName
+ 0.01% 115.45us 4 28.861us 9.8250us 44.526us cuDeviceTotalMem
+ 0.01% 83.988us 4 20.997us 578ns 77.760us cudaSetDevice
+ 0.00% 38.918us 1 38.918us 38.918us 38.918us cudaEventCreate
+ 0.00% 34.573us 31 1.1150us 279ns 12.784us cudaDeviceGetAttribute
+ 0.00% 17.767us 1 17.767us 17.767us 17.767us cudaProfilerStart
+ 0.00% 15.228us 2 7.6140us 3.5460us 11.682us cudaConfigureCall
+ 0.00% 14.536us 2 7.2680us 1.1490us 13.387us cudaGetLastError
+ 0.00% 8.6080us 26 331ns 173ns 783ns cudaSetupArgument
+ 0.00% 5.5470us 6 924ns 215ns 2.6780us cuDeviceGet
+ 0.00% 5.4090us 6 901ns 328ns 3.3320us cuDeviceGetCount
+ 0.00% 4.1770us 3 1.3920us 1.0630us 1.8300us cuDriverGetVersion
+ 0.00% 3.4650us 3 1.1550us 1.0810us 1.2680us cuInit
+ 0.00% 830ns 1 830ns 830ns 830ns cudaRuntimeGetVersion
+nvvp 工具
+如果想使用可视化的分析器 **nvvp**,您可以导入 :code:`nvprof -o ...` 的输出,或者从工具的界面里运行您的应用。
+**备注: nvvp 也支持CPU的性能分析** (需在nvvp界面中选上才能开启)
+.. image:: nvvp1.png
+ :align: center
+ :scale: 33%
+从内核函数的角度, **nvvp** 可以精确说明一个长耗时操作的具体原因。
+同时,如下图所示, **nvvp** 的内核block使用情况、寄存器使用情况和共享内存使用情况能让我们对GPU的整体使用有更好的理解。
+.. image:: nvvp2.png
+ :align: center
+ :scale: 33%
+而从应用的角度, **nvvp** 可以帮您提供一些定位性能瓶颈的建议。
+.. image:: nvvp3.png
+ :align: center
+ :scale: 33%
+.. image:: nvvp4.png
+ :align: center
+ :scale: 33%
+- 开始阶段,从 **nvprof** 和 **nvvp** 的输出信息入手是个不错的选择。
+- 接下来可以考虑下时间线的分析。
+- 如果真想挖掘内核深处的某个秘密,您最好先确认:这一块的耗时比例真的太高,值得深入分析。
+- 可能的情况下,试着让输出的分析数据和理论值对应。
+ 1) 例如,如果我知道内核花了10ms来移动1GB数据,那我会期望分析工具统计到速度是100GB/s。
+ 2) 若有不一致之处,很有可能实际应用就是没有按照您的预期情况运行。
+- 了解您的硬件:如果您的GPU理论可以达到6 TFLOPs(6万亿次浮点运算每秒),而当前已经有5.5 TFLOPs了,那估计这里的潜力就没啥好挖的了……
+Jeremy Appleyard, `GPU Profiling for Deep Learning `_, 2015
index 89b3cea524c..ba43ada5100 100644
--- a/source/beginners_guide/quick_start/fit_a_line/README.cn.md
+++ b/source/beginners_guide/quick_start/fit_a_line/README.cn.md
@@ -4,7 +4,7 @@
# 线性回归
让我们从经典的线性回归(Linear Regression \[[1](#参考文献)\])模型开始这份教程。在这一章里,你将使用真实的数据集建立起一个房价预测模型,并且了解到机器学习中的若干重要概念。
-本教程源代码目录在[book/fit_a_line](https://github.com/PaddlePaddle/book/tree/develop/01.fit_a_line), 初次使用请参考PaddlePaddle[安装教程](https://github.com/PaddlePaddle/book/blob/develop/README.cn.md#运行这本书),更多内容请参考本教程的[视频课堂](http://bit.baidu.com/course/detail/id/137.html)。
+本教程源代码目录在[book/fit_a_line](https://github.com/PaddlePaddle/book/tree/develop/01.fit_a_line), 初次使用请参考PaddlePaddle[安装教程](https://github.com/PaddlePaddle/book/blob/develop/README.cn.md#运行这本书)。
## 背景介绍
给定一个大小为`$n$`的数据集 `${\{y_{i}, x_{i1}, ..., x_{id}\}}_{i=1}^{n}$`,其中`$x_{i1}, \ldots, x_{id}$`是第`$i$`个样本`$d$`个属性上的取值,`$y_i$`是该样本待预测的目标。线性回归模型假设目标`$y_i$`可以被属性间的线性组合描述,即
@@ -52,22 +52,89 @@ $$MSE=\frac{1}{n}\sum_{i=1}^{n}{(\hat{Y_i}-Y_i)}^2$$
### 数据集介绍
-| 属性名 | 解释 | 类型 |
-| ------| ------ | ------ |
-| CRIM | 该镇的人均犯罪率 | 连续值 |
-| ZN | 占地面积超过25,000平方呎的住宅用地比例 | 连续值 |
-| INDUS | 非零售商业用地比例 | 连续值 |
-| CHAS | 是否邻近 Charles River | 离散值,1=邻近;0=不邻近 |
-| NOX | 一氧化氮浓度 | 连续值 |
-| RM | 每栋房屋的平均客房数 | 连续值 |
-| AGE | 1940年之前建成的自用单位比例 | 连续值 |
-| DIS | 到波士顿5个就业中心的加权距离 | 连续值 |
-| RAD | 到径向公路的可达性指数 | 连续值 |
-| TAX | 全值财产税率 | 连续值 |
-| PTRATIO | 学生与教师的比例 | 连续值 |
-| B | 1000(BK - 0.63)^2,其中BK为黑人占比 | 连续值 |
-| LSTAT | 低收入人群占比 | 连续值 |
-| MEDV | 同类房屋价格的中位数 | 连续值 |
+ 属性名 |
+ 解释 |
+ 类型 |
+ CRIM |
+ 该镇的人均犯罪率 |
+ 连续值 |
+ ZN |
+ 占地面积超过25,000平方呎的住宅用地比例 |
+ 连续值 |
+ 非零售商业用地比例 |
+ 连续值 |
+ CHAS |
+ 是否邻近 Charles River |
+ 离散值,1=邻近;0=不邻近 |
+ NOX |
+ 一氧化氮浓度 |
+ 连续值 |
+ RM |
+ 每栋房屋的平均客房数 |
+ 连续值 |
+ AGE |
+ 1940年之前建成的自用单位比例 |
+ 连续值 |
+ DIS |
+ 到波士顿5个就业中心的加权距离 |
+ 连续值 |
+ RAD |
+ 到径向公路的可达性指数 |
+ 连续值 |
+ TAX |
+ 全值财产税率 |
+ 连续值 |
+ 学生与教师的比例 |
+ 连续值 |
+ B |
+ 1000(BK - 0.63)^2,其中BK为黑人占比 |
+ 连续值 |
+ 低收入人群占比 |
+ 连续值 |
+ MEDV |
+ 同类房屋价格的中位数 |
+ 连续值 |
### 数据预处理
#### 连续值与离散值
@@ -260,4 +327,3 @@ print("infer results: ", results[0])
本教程 由 PaddlePaddle 创作,采用 知识共享 署名-相同方式共享 4.0 国际 许可协议进行许可。
+1. 通过pip安装的PaddlePaddle在 :code:`import paddle.fluid` 报找不到 :code:`libmkldnn.so` 或 :code:`libmklml_intel.so`
+出现这种问题的原因是在导入 :code:`paddle.fluid` 时需要加载 :code:`libmkldnn.so` 和 :code:`libmklml_intel.so`,
+但是系统没有找到该文件。一般通过pip安装PaddlePaddle时会将 :code:`libmkldnn.so` 和 :code:`libmklml_intel.so`
+拷贝到 :code:`/usr/local/lib` 路径下,所以解决办法是将该路径加到 :code:`LD_LIBRARY_PATH` 环境变量下,
+即: :code:`export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH` 。
+**注意**:如果是在虚拟环境中安装PaddlePaddle, :code:`libmkldnn.so` 和 :code:`libmklml_intel.so` 可能不在 :code:`/usr/local/lib` 路径下。
+.. toctree::
+ :maxdepth: 1
+ faq.rst
1. 保证每个训练的```checkpoint_dir``` 与其他训练独立。
2. 最大副本数量```max_num_checkpoints```需要根据磁盘容量以及模型的大小进行调整, 保证磁盘的可用性。
3. ```epoch_interval``` 和 ```step_interval``` 不宜过小, 频繁的进行checkpoint会拖慢训练速度。
-4. **分布式训练**的过程中:每个Trainer都会在```checkpoint_dir```目录中保存当前Trainer的参数(只有Trainer 0会保存模型的参数),需要**分布式文件系统(HDFS等)**将同```checkpoint_dir```目录的数据进行合并才能得到完整的数据,恢复训练的时候需要用完整的数据进行恢复。
\ No newline at end of file
+4. **分布式训练**的过程中:每个Trainer都会在```checkpoint_dir```目录中保存当前Trainer的参数(只有Trainer 0会保存模型的参数),需要**分布式文件系统(HDFS等)**将同```checkpoint_dir```目录的数据进行合并才能得到完整的数据,恢复训练的时候需要用完整的数据进行恢复。
1. Make the ```checkpoint_dir``` only be used by one train job.
2. The number of ```max_num_checkpoints``` need to be adjusted by the disk size and model size.
3. Too frequently to slow down the train speed, so too ```small epoch_interval``` and ```step_interval``` are not suitable.
-4. **In distributed train**, each Trainer will save arguments in its ```checkpoint_dir``` (Only Trainer 0 will save model variables). We need **distributed file system (HDFS, etc)** to merge all the ```checkpoint_dir``` to get the whole data.
\ No newline at end of file
+4. **In distributed train**, each Trainer will save arguments in its ```checkpoint_dir``` (Only Trainer 0 will save model variables). We need **distributed file system (HDFS, etc)** to merge all the ```checkpoint_dir``` to get the whole data.
-在PaddlePaddle Fluid中,所有的模型变量都用 :ref:`api_fluid_Variable` 作为基类进行表示。
+在PaddlePaddle Fluid中,所有的模型变量都用 :code:`fluid.Variable()` 作为基类进行表示。
1. 模型参数
在PaddlePaddle Fluid中,模型参数用 :code:`fluid.framework.Parameter` 来表示,
- 这是一个 :ref:`api_fluid_Variable` 的派生类,除了 :ref:`api_fluid_Variable` 具有的各项性质以外,
+ 这是一个 :code:`fluid.Variable()` 的派生类,除了 :code:`fluid.Variable()` 具有的各项性质以外,
:code:`fluid.framework.Parameter` 还可以配置自身的初始化方法、更新率等属性。
2. 长期变量
- 在PaddlePaddle Fluid中,长期变量通过将 :ref:`api_fluid_Variable` 的 :code:`persistable`
+ 在PaddlePaddle Fluid中,长期变量通过将 :code:`fluid.Variable()` 的 :code:`persistable`
属性设置为 :code:`True` 来表示。所有的模型参数都是长期变量,但并非所有的长期变量都是模型参数。
3. 临时变量
@@ -43,7 +43,7 @@
-:ref:`api_fluid_io_save_params` 接口来进行模型参数的保存。
+:code:`fluid.io.save_params()` 接口来进行模型参数的保存。
@@ -57,7 +57,7 @@
fluid.io.save_params(executor=exe, dirname=param_path, main_program=None)
上面的例子中,通过调用 :code:`fluid.io.save_params` 函数,PaddlePaddle Fluid会对默认
-:ref:`api_fluid_Program` 也就是 :code:`prog` 中的所有模型变量进行扫描,
+:code:`fluid.Program` 也就是 :code:`prog` 中的所有模型变量进行扫描,
筛选出其中所有的模型参数,并将这些模型参数保存到指定的 :code:`param_path` 之中。
@@ -66,7 +66,7 @@
-想要保存checkpoint,可以使用 :ref:`api_fluid_io_save_checkpoint` 接口。
+想要保存checkpoint,可以使用 :code:`fluid.io.save_checkpiont()` 接口。
@@ -87,7 +87,7 @@
上面的例子中,通过调用 :code:`fluid.io.save_checkpoint` 函数,PaddlePaddle Fluid会对默认
-:ref:`api_fluid_Program` 也就是 :code:`prog` 中的所有模型变量进行扫描,
+:code:`fluid.Program` 也就是 :code:`prog` 中的所有模型变量进行扫描,
根据一系列内置的规则自动筛选出其中所有需要保存的变量,并将他们保存到指定的 :code:`path` 目录下。
:code:`fluid.io.save_checkpoint` 的各个参数中, :code:`trainer_id` 在单机情况下设置为0即可; :code:`trainer_args`
@@ -125,8 +125,8 @@
需要格外注意的是,这里的 :code:`prog` 必须和调用 :code:`fluid.io.save_params`
时所用的 :code:`prog` 中的前向部分完全一致,且不能包含任何参数更新的操作。如果两者存在不一致,
-这两个 :ref:`api_fluid_Program` 之间的关系类似于训练 :ref:`api_fluid_Program`
-和测试 :ref:`api_fluid_Program` 之间的关系,详见: :ref:`user_guide_test_while_training`。
+这两个 :code:`fluid.Program` 之间的关系类似于训练 :code:`fluid.Program`
+和测试 :code:`fluid.Program` 之间的关系,详见: :ref:`user_guide_test_while_training`。
另外,需特别注意运行 :code:`fluid.default_startup_program()` 必须在调用 :code:`fluid.io.load_params`
要进行PaddlePaddle Fluid单机训练,需要先 :ref:`user_guide_prepare_data` 和
:ref:`user_guide_configure_simple_model` 。当\
:ref:`user_guide_configure_simple_model` 完毕后,可以得到两个\
-:ref:`api_fluid_Program`, :code:`startup_program` 和 :code:`main_program`。
-默认情况下,可以使用 :ref:`api_fluid_default_startup_program` 与\ :ref:`api_fluid_default_main_program` 获得全局的 :ref:`api_fluid_Program`。
+:code:`fluid.Program`, :code:`startup_program` 和 :code:`main_program`。
+默认情况下,可以使用 :code:`fluid.default_startup_program()` 与\ :code:`fluid.default_main_program()` 获得全局的 :code:`fluid.Program`。
@@ -44,8 +44,8 @@
-:code:`fluid.default_startup_program()` 中。使用 :ref:`api_fluid_Executor` 运行
-这一程序,即可在全局 :ref:`api_fluid_global_scope` 中随机初始化参数。例如:
+:code:`fluid.default_startup_program()` 中。使用 :code:`fluid.Executor()` 运行
+这一程序,即可在全局 :code:`fluid.global_scope()` 中随机初始化参数。例如:
.. code-block:: python
@@ -53,7 +53,7 @@
值得注意的是: 如果使用多GPU训练,参数需要先在GPU0上初始化,再经由\
-:ref:`api_fluid_ParallelExecutor` 分发到多张显卡上。
+:code:`fluid.ParallelExecutor` 分发到多张显卡上。
@@ -66,8 +66,8 @@
-执行单卡训练可以使用 :ref:`api_fluid_Executor` 中的 :code:`run()` 方法,运行训练\
-:ref:`api_fluid_Program` 即可。在运行的时候,用户可以通过 :code:`run(feed=...)`\
+执行单卡训练可以使用 :code:`fluid.Executor()` 中的 :code:`run()` 方法,运行训练\
+:code:`fluid.Program` 即可。在运行的时候,用户可以通过 :code:`run(feed=...)`\
参数传入数据;用户可以通过 :code:`run(fetch=...)` 获取持久的数据。例如:\
.. code-block:: python
@@ -86,14 +86,14 @@
的Variable必须是persistable的。 :code:`fetch_list` 可以传入Variable的列表,\
也可以传入Variable的名字列表。:code:`Executor.run` 返回Fetch结果列表。
3. 如果需要取回的数据包含序列信息,可以设置
- :code:`exe.run(return_numpy=False, ...)` 直接返回 :ref:`api_guide_lod_tensor`
- 。用户可以直接访问 :ref:`api_guide_lod_tensor` 中的信息。
+ :code:`exe.run(return_numpy=False, ...)` 直接返回 :code:`fluid.LoDTensor`
+ 。用户可以直接访问 :code:`fluid.LoDTensor` 中的信息。
-执行多卡训练可以使用 :ref:`api_fluid_ParallelExecutor` 运行训练
+执行多卡训练可以使用 :code:`fluid.ParallelExecutor` 运行训练
.. code-block:: python
@@ -103,8 +103,8 @@
-1. :code:`ParallelExecutor` 的构造函数需要指明要执行的 :ref:`api_fluid_Program` ,
- 并在执行过程中不能修改。默认值是 :ref:`api_fluid_default_main_program` 。
+1. :code:`ParallelExecutor` 的构造函数需要指明要执行的 :code:`fluid.Program` ,
+ 并在执行过程中不能修改。默认值是 :code:`fluid.default_main_program()` 。
2. :code:`ParallelExecutor` 需要明确指定是否使用 CUDA 显卡进行训练。在显卡训练\
模式下会占用全部显卡。用户可以配置 `CUDA_VISIBLE_DEVICES `_ 来修改占用\
-模型的测试评价与训练的 :ref:`api_fluid_Program` 不同。在测试评价中:
+模型的测试评价与训练的 :code:`fluid.Program` 不同。在测试评价中:
1. 评价测试不进行反向传播,不优化更新参数。
2. 评价测试执行的操作可以不同。
@@ -13,13 +13,13 @@
* 评价模型与训练相比可以是完全不同的模型。
-生成测试 :ref:`api_fluid_Program`
+生成测试 :code:`fluid.Program`
-通过克隆训练 :ref:`api_fluid_Program` 生成测试 :ref:`api_fluid_Program`
+通过克隆训练 :code:`fluid.Program` 生成测试 :code:`fluid.Program`
-:code:`Program.clone()` 方法可以复制出新的 :ref:`api_fluid_Program` 。 通过设置
+:code:`Program.clone()` 方法可以复制出新的 :code:`fluid.Program` 。 通过设置
:code:`Program.clone(for_test=True)` 复制含有用于测试的操作Program。简单的使用方法如下:
.. code-block:: python
@@ -45,11 +45,11 @@
成一个 :code:`test_program` 。之后使用测试数据运行 :code:`test_program`,\
-分别配置训练 :ref:`api_fluid_Program` 和测试 :ref:`api_fluid_Program`
+分别配置训练 :code:`fluid.Program` 和测试 :code:`fluid.Program`
-:ref:`api_fluid_Program`,分别进行训练和测试。在PaddlePaddle Fluid中,\
+:code:`fluid.Program`,分别进行训练和测试。在PaddlePaddle Fluid中,\
@@ -84,14 +84,14 @@ PaddlePaddle Fluid中使用 :code:`fluid.unique_name` 包来随机初始化用
# fluid.default_main_program() is the train program
# fluid.test_program is the test program
-执行测试 :ref:`api_fluid_Program`
+执行测试 :code:`fluid.Program`
-使用 :code:`Executor` 执行测试 :ref:`api_fluid_Program`
+使用 :code:`Executor` 执行测试 :code:`fluid.Program`
用户可以使用 :code:`Executor.run(program=...)` 来执行测试
@@ -101,10 +101,10 @@ PaddlePaddle Fluid中使用 :code:`fluid.unique_name` 包来随机初始化用
test_acc = exe.run(program=test_program, feed=test_data_batch, fetch_list=[acc])
print 'Test accuracy is ', test_acc
-使用 :code:`ParallelExecutor` 执行测试 :ref:`api_fluid_Program`
+使用 :code:`ParallelExecutor` 执行测试 :code:`fluid.Program`
-用户可以使用训练用的 :code:`ParallelExecutor` 与测试 :ref:`api_fluid_Program`
+用户可以使用训练用的 :code:`ParallelExecutor` 与测试 :code:`fluid.Program`
一起新建一个测试的 :code:`ParallelExecutor` ;再使用测试
:code:`ParallelExecutor.run` 来执行测试。