概述
转载地址:https://bbs.huaweicloud.com/forum/thread-121717-1-1.html
作者:caojian05
简介
MindSpore网络组经常会有各种各样的问题需要定位,我们经常感觉比较麻烦的场景有:
- 这个环境本身是否有问题?简单网络能否跑通?
- 这个环境上如果没有我要的数据集怎么办?拷贝过来太大,能否造一份假的数据集定位?
- 新开发一个网络,除了写数据预处理的脚本,网络结构的定义外,我们还要关注怎么进行单P,多P的python、shell脚本的编写,写起来比较冗余,而且基本上都是复制粘贴过来的。要是能把多P逻辑抽象出来封装会不会更好?
- ……
erhsh-python包的ems模块就是为了解决上述问题开发的。 该模块为纯python开发的小工具:提供常用命令及编程接口,方便日常问题定位。
安装
通过Pip安装:
可以通过如下方式安装,如下三个镜像,哪个快,选哪个。
pip install erhsh-python
# -i http://pypi.org/simple --trusted-host pypi.org
# -i http://mirrors.tools.huawei.com/pypi/simple/ --trusted-host=mirrors.tools.huawei.com
# -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
EMS常用工具介绍
生成HCCL配置文件
在日常开发中,当拿到一台新的Ascend服务器,跑多卡训练,首先需提供HCCL配置文件;
该文件可以通过命令ems hcclv1自动生成。
(cjpy37) root@demo-server:/workspace# ems hcclv1
Server Id(IP) [10.10.10.10]: 8.8.8.8
Visible Devices [0,1,2,3,4,5,6,7]: 4,5,6,7
hccn_conf_file: /etc/hccn.conf
device_id:0, device_ip:192.168.1.100
device_id:1, device_ip:192.168.2.100
device_id:2, device_ip:192.168.3.100
device_id:3, device_ip:192.168.4.100
device_id:4, device_ip:192.168.1.200
device_id:5, device_ip:192.168.2.200
device_id:6, device_ip:192.168.3.200
device_id:7, device_ip:192.168.4.200
Generate success: /workspace/rank_table_4p_4-5-6-7.json
EMS编程接口介绍
打印数据集信息
场景:对喂给网络的数据长什么有个大概的认识。
功能:ems.print_ds_info()
示例:
...
dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)
import erhsh.ms as ems
ems.print_ds_info(dataset)
...
输出:
------ Dataset Information Is: -----
|-get_dataset_size=1875
|-get_repeate_count=1
|-output_types=[dtype('float32'), dtype('int32')]
|-output_shapes=[[32, 1, 32, 32], [32]]
|- image -> (32, 1, 32, 32) Float32
|- label -> (32,) Int32
打印数据集内容
场景:对喂给网络的数据内容直观查看,固定数据集定位问题时常用的手段。
功能:ems.print_ds_data()
示例:
...
dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)
import erhsh.ms as ems
ems.print_ds_data(dataset)
...
输出:
-------------------------------- item: 1 ------------------------------
>>> image->(32, 1, 32, 32)
[-0.00166358 -0.00166358 ... -0.00166358 -0.00166358 -0.00166358]
...
[-0.00166358 -0.00166358 ... -0.00166358 -0.00166358 -0.00166358]
>>> label->(32,)
[3 5 9 5 9 4 2 2 4 3 6 6 2 2 2 9 1 8 8 0 2 5 0 5 5 2 4 9 4 9 2 3]
-------------------------------- item: 2 ------------------------------
>>> image->(32, 1, 32, 32)
...
打印数据集性能
场景:数据集性能“自证清白”
功能:ems.print_ds_performance()
示例:
...
dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)
import erhsh.ms as ems
ems.print_ds_performance(dataset)
...
输出:
Total Count: 1875, total cost: 0.828814745
|-AVG:0.000425013
|-99%:0.000999646
|-90%:0.000997543
|-75%:0.000997066
|-50%:0.0
|-Max:0.160577059
|-Min:0.0
|-Sum:0.796899023
Save numpy start...
Save numpy success~
伪造数据集
功能:ems.DatasetMocker()
示例:
...
# dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)
import erhsh.ms as ems
dataset = ems.DatasetMocker().set_features({
"image": lambda: np.random.rand(1, 32, 32).astype(np.float32),
"label": lambda: np.random.randint(10, size=()).astype(np.int32)
}).set_data_len(3 * 32).set_batch_size(32).mock()
...
训练接口封装
功能:ems.Trainer ()
示例:
import erhsh.ms as ems
ems.Trainer(name="simplenet")
.set_dataset(ems.create_mocker_dataset())
.set_network(ems.SimpleNet())
.set_callbacks([ems.TimeMonitor()])
.run()
输出:
-------------------------------
Param Key | Param Value
-------------------------------
--device_target | CPU
--graph_mode | False
--save_graphs | False
--visible_devices | None
--do_eval | False
--ckpt_path | ./ckpt
--epoch_size | 1
--do_sink | True
--sink_size | -1
--data_path | ./data
--batch_size | 32
-------------------------------
>>>>>>>>>>>>>>>>>>>>> train start ... <<<<<<<<<<<<<<<<<<<<<<
epoch: 1 step: 1, loss is 0.6031854
epoch: 1 step: 2, loss is 0.6027737
epoch: 1 step: 3, loss is 0.59904116
Epoch[ 1/ 1], Step[ 3], epoch time: 15.706ms, per step time: 5.235ms
>>>>>>>>>>>>>>>>>>>>> train success ~ <<<<<<<<<<<<<<<<<<<<<<
最后
以上就是欣喜树叶为你收集整理的Erhsh-python之EMS使用指南的全部内容,希望文章能够帮你解决Erhsh-python之EMS使用指南所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复