我是靠谱客的博主 传统导师,最近开发中收集的这篇文章主要介绍numpy、pandas、Counter、结巴,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1 处理数据

a = ['1 23', '12 28', '25 35', '27 80', '36 50']
for i in range(len(a)):
    temp = a[i].split(' ')
    temp = list(map(int, temp))
    turple = (temp[0], temp[1])
    a[i] = turple
print(a)

————
结果:

[(1, 23), (12, 28), (25, 35), (27, 80), (36, 50)

2 使用numpy的svd方法

import numpy as np
A = [[1, 1],
    [1, 1],
    [0, 0]]
A_r = np.transpose(A)
print(np.dot(A_r, A))
x = [[2, 2, 0],
    [2, 2, 0],
    [0, 0, 0]]

a,b=np.linalg.eig(np.dot(A_r, A))
print(a)
print(b)
print(np.linalg.svd(A))

————
结果:

[[2 2]
 [2 2]]
[4.0000000e+00 4.4408921e-16]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
(array([[-0.70710678, -0.70710678,  0.        ],
       [-0.70710678,  0.70710678,  0.        ],
       [ 0.        ,  0.        ,  1.        ]]), array([2., 0.]), array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]]))

3 使用Counter模块进行统计

from collections import Counter
a = [1, 1, 2, 1, 3]
cnt = Counter(a)
cnt_data=sorted(cnt.items(),key=lambda x:x[1],reverse=True)
print(cnt)
print(cnt_data)
Counter({1: 3, 2: 1, 3: 1})
[(1, 3), (2, 1), (3, 1)]

4 结巴分词的使用
示意1:

import jieba
import os
import re

path_file = "C:/Users/哈哈/Desktop/Datasets/000tabc n"
path1 = "C:/Users/哈哈n"
l = [path_file, path1]
rule = re.compile(u"[^a-zA-Z0-9u4E00-u9FA5]")
l1 = [rule.sub('', i) for i in l]
# line = rule.sub('',path_file)
# print(path_file)
# print(line)
print(l1)

————
结果:

['CUsers哈哈DesktopDatasets000abc', 'CUsers哈哈']

示例2:

a = ['整理', '何', '丽丽', '据', '新加坡', '9', '月', '23', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '275', '万吨', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '10', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '1130GMT', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '至少', '分别', '有', '115', '万吨', '和', '16', '万吨', '分别', '以', '每吨', '正', '价差', '400', '420', '美元', '和', '350', '375', '美元', '成交', '0830GMT', '收盘', '时', '10', '11', '月', '互换', '正', '价差', '持稳', '於', '每吨', '400', '美元', '11', '12', '月', '互换', '正', '价差', '下跌', '013', '美元', '至', '每吨', '正', '价差', '363', '美元', '10', '月', '燃料油', '裂解', '价差', '收窄', '026', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '615', '美元', '11', '月', '裂解', '价差', '收窄', '023', '美元', '至', '每桶', '贴水', '600', '美元', '180CST', '燃料油', '价格', '下跌', '200', '美元', '至', '每吨', '44475', '美元', '380CST', '燃料油', '价格', '跌', '150', '美元', '至', '每吨', '43988', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '180CST', '燃料油', '44450', '44500', '44675', '200', '现货', '380CST', '燃料油', '43950', '43975', '44113', '150', '10', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '44625', '', '', '', '', '', '', '44913', '', '', '', '', '', '288', '', '', '', '11', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '45038', '', '', '', '', '', '', '45313', '', '', '', '', '', '275', '', '', '', '新加坡', '船用', '燃料油', '', '', '', '', '', '', '', '43900', '', '44100', '', '', '', '', '', '', '44200', '', '', '', '', '', '200', '', '', '', '380CST', '船用', '燃料油', '升水', '', '', '', '', '', '', '', '018', '', '058', '', '', '', '', '', '', '', '', '087', '', '', '', '', '', '050', '', '欢迎', '发表', '评论', '', '', '我要', '评论', '', '']
# for i in a:
#     if(i == ''):
#        a.remove(i)
a = [i for i in a if i != '']
a = [i for i in a if i.isalpha()]
print(a)

————
结果:

['整理', '何', '丽丽', '据', '新加坡', '月', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '万吨', '月', '和', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '月', '和', '月', '跨', '月', '合约', '至少', '分别', '有', '万吨', '和', '万吨', '分别', '以', '每吨', '正', '价差', '美元', '和', '美元', '成交', '收盘', '时', '月', '互换', '正', '价差', '持稳', '於', '每吨', '美元', '月', '互换', '正', '价差', '下跌', '美元', '至', '每吨', '正', '价差', '美元', '月', '燃料油', '裂解', '价差', '收窄', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '美元', '月', '裂解', '价差', '收窄', '美元', '至', '每桶', '贴水', '美元', '燃料油', '价格', '下跌', '美元', '至', '每吨', '美元', '燃料油', '价格', '跌', '美元', '至', '每吨', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '燃料油', '现货', '燃料油', '月', '燃料油', '互换', '月', '燃料油', '互换', '新加坡', '船用', '燃料油', '船用', '燃料油', '升水', '欢迎', '发表', '评论', '我要', '评论']

5 pandas使用

import pandas as pd
user_num = 3
item_num = 4
rating_matrix = pd.DataFrame({"user_id": [0, 1, 1, 1, 2], "item_id": [1, 3, 0, 2, 1]})
print(rating_matrix)

————
结果:

   user_id  item_id
0        0        1
1        1        3
2        1        0
3        1        2
4        2        1

最后

以上就是传统导师为你收集整理的numpy、pandas、Counter、结巴的全部内容,希望文章能够帮你解决numpy、pandas、Counter、结巴所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部