概述
1 处理数据
a = ['1 23', '12 28', '25 35', '27 80', '36 50']
for i in range(len(a)):
temp = a[i].split(' ')
temp = list(map(int, temp))
turple = (temp[0], temp[1])
a[i] = turple
print(a)
————
结果:
[(1, 23), (12, 28), (25, 35), (27, 80), (36, 50)
2 使用numpy的svd方法
import numpy as np
A = [[1, 1],
[1, 1],
[0, 0]]
A_r = np.transpose(A)
print(np.dot(A_r, A))
x = [[2, 2, 0],
[2, 2, 0],
[0, 0, 0]]
a,b=np.linalg.eig(np.dot(A_r, A))
print(a)
print(b)
print(np.linalg.svd(A))
————
结果:
[[2 2]
[2 2]]
[4.0000000e+00 4.4408921e-16]
[[ 0.70710678 -0.70710678]
[ 0.70710678 0.70710678]]
(array([[-0.70710678, -0.70710678, 0. ],
[-0.70710678, 0.70710678, 0. ],
[ 0. , 0. , 1. ]]), array([2., 0.]), array([[-0.70710678, -0.70710678],
[-0.70710678, 0.70710678]]))
3 使用Counter模块进行统计
from collections import Counter
a = [1, 1, 2, 1, 3]
cnt = Counter(a)
cnt_data=sorted(cnt.items(),key=lambda x:x[1],reverse=True)
print(cnt)
print(cnt_data)
Counter({1: 3, 2: 1, 3: 1})
[(1, 3), (2, 1), (3, 1)]
4 结巴分词的使用
示意1:
import jieba
import os
import re
path_file = "C:/Users/哈哈/Desktop/Datasets/000tabc n"
path1 = "C:/Users/哈哈n"
l = [path_file, path1]
rule = re.compile(u"[^a-zA-Z0-9u4E00-u9FA5]")
l1 = [rule.sub('', i) for i in l]
# line = rule.sub('',path_file)
# print(path_file)
# print(line)
print(l1)
————
结果:
['CUsers哈哈DesktopDatasets000abc', 'CUsers哈哈']
示例2:
a = ['整理', '何', '丽丽', '据', '新加坡', '9', '月', '23', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '275', '万吨', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '10', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '1130GMT', '10', '11', '月', '和', '11', '12', '月', '跨', '月', '合约', '至少', '分别', '有', '115', '万吨', '和', '16', '万吨', '分别', '以', '每吨', '正', '价差', '400', '420', '美元', '和', '350', '375', '美元', '成交', '0830GMT', '收盘', '时', '10', '11', '月', '互换', '正', '价差', '持稳', '於', '每吨', '400', '美元', '11', '12', '月', '互换', '正', '价差', '下跌', '013', '美元', '至', '每吨', '正', '价差', '363', '美元', '10', '月', '燃料油', '裂解', '价差', '收窄', '026', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '615', '美元', '11', '月', '裂解', '价差', '收窄', '023', '美元', '至', '每桶', '贴水', '600', '美元', '180CST', '燃料油', '价格', '下跌', '200', '美元', '至', '每吨', '44475', '美元', '380CST', '燃料油', '价格', '跌', '150', '美元', '至', '每吨', '43988', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '180CST', '燃料油', '44450', '44500', '44675', '200', '现货', '380CST', '燃料油', '43950', '43975', '44113', '150', '10', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '44625', '', '', '', '', '', '', '44913', '', '', '', '', '', '288', '', '', '', '11', '月', '燃料油', '互换', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '45038', '', '', '', '', '', '', '45313', '', '', '', '', '', '275', '', '', '', '新加坡', '船用', '燃料油', '', '', '', '', '', '', '', '43900', '', '44100', '', '', '', '', '', '', '44200', '', '', '', '', '', '200', '', '', '', '380CST', '船用', '燃料油', '升水', '', '', '', '', '', '', '', '018', '', '058', '', '', '', '', '', '', '', '', '087', '', '', '', '', '', '050', '', '欢迎', '发表', '评论', '', '', '我要', '评论', '', '']
# for i in a:
# if(i == ''):
# a.remove(i)
a = [i for i in a if i != '']
a = [i for i in a if i.isalpha()]
print(a)
————
结果:
['整理', '何', '丽丽', '据', '新加坡', '月', '日', '消息', '亚洲', '燃料油', '跨', '月', '合约', '周四', '仍', '遭大单', '抛售', '约', '有', '万吨', '月', '和', '月', '跨', '月', '合约', '以', '疲弱', '的', '价格', '成交', '月', '粘度', '差收', '窄', '至', '一周', '前', '成为', '即期', '合约', '以来', '最低', '水准', '交投', '量', '很大', '交易商', '称', '跨', '月', '价差', '处于', '关键点', '可能', '进一步', '走软', '或者', '快速', '反弹', '月', '和', '月', '跨', '月', '合约', '至少', '分别', '有', '万吨', '和', '万吨', '分别', '以', '每吨', '正', '价差', '美元', '和', '美元', '成交', '收盘', '时', '月', '互换', '正', '价差', '持稳', '於', '每吨', '美元', '月', '互换', '正', '价差', '下跌', '美元', '至', '每吨', '正', '价差', '美元', '月', '燃料油', '裂解', '价差', '收窄', '美元', '至', '每桶', '较', '迪拜', '原油', '贴水', '美元', '月', '裂解', '价差', '收窄', '美元', '至', '每桶', '贴水', '美元', '燃料油', '价格', '下跌', '美元', '至', '每吨', '美元', '燃料油', '价格', '跌', '美元', '至', '每吨', '美元', '油品', '价格', '上', '日', '价格', '变动', '现货', '燃料油', '现货', '燃料油', '月', '燃料油', '互换', '月', '燃料油', '互换', '新加坡', '船用', '燃料油', '船用', '燃料油', '升水', '欢迎', '发表', '评论', '我要', '评论']
5 pandas使用
import pandas as pd
user_num = 3
item_num = 4
rating_matrix = pd.DataFrame({"user_id": [0, 1, 1, 1, 2], "item_id": [1, 3, 0, 2, 1]})
print(rating_matrix)
————
结果:
user_id item_id
0 0 1
1 1 3
2 1 0
3 1 2
4 2 1
最后
以上就是传统导师为你收集整理的numpy、pandas、Counter、结巴的全部内容,希望文章能够帮你解决numpy、pandas、Counter、结巴所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复