补发：Word Frequency总结

318 阅读 0 评论 210 点赞

我是靠谱客的博主清爽柚子，这篇文章主要介绍补发：Word Frequency总结，现在分享给大家，希望可以做个参考。

Word Frequency作业主要分为几个步骤

1.读取所有文件的内容

2.正确分词

3.排序并输出

为了节省时间，所以我用的都是.net自带的功能，看了一些同学的方法发现各部分的数据结构和实现方法

数据结构：

Hash：用Dictionary，插入删除查找速度快，需要最后手动排序。

平衡树：SortedDictionary，自动排序，但插入删除查找操作比较费时。

其他：KeyedCollection，类似Dictionary。

读取文件内容：

方法1:.net的Directory的GetFiles，参数使用所有子目录，一步获取所有文件，然后再判断扩展名，判断扩展名可用字符串函数或正则表达式

优点：方法简单，实现比较容易

缺点：GetFiles函数实现有问题，在遇到系统目录中的一些特殊情况会出现异常（如权限不足和指向上级目录的链接文件）

方法2:.net的Directory的GetFiles，参数使用当前层，递归获取所有文件，然后再判断扩展名

优点：如果实现较好可避免之前提到的问题

缺点：实现比较复杂

读取时可采用异步IO提升性能。

分词：

方法1：字符串的Split方法

此方法不太好，因为分隔符是除数字和字母外的所有字符，因此分隔符数组会非常大，而且必须保证编码读取正确才能保证结果正确。

方法2：正则表达式

优点：对于需求变动的情况修改非常容易，只需要修改正则的模式。

缺点：正则表达式计算MatchCollection开销很大，字符串过大时效率不高。

方法3：状态机

优点：性能较高，不需记录很多无关的数据和回溯。

缺点：需求变动时需修改状态和条件，容易出错。

排序并输出：

方法1：实现IComparer接口，用系统的排序算法排序。

优点：实现容易，且修改便捷。

缺点：系统默认使用的是快速排序，最坏时间复杂度较高。

方法2：自己实现排序算法

优点：可实现O(nlgn)的排序算法（如归并，堆排序），提高最坏时间复杂度较高。

缺点：实现复杂，占用空间大。

转载于:https://www.cnblogs.com/weiyun/archive/2012/10/19/2731292.html

最后

以上就是清爽柚子最近收集整理的关于补发：Word Frequency总结的全部内容，更多相关补发：Word内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：数据结构与算法
浏览次数：318 次浏览
发布日期：2023-10-30 20:25:20

补发：Word Frequency总结

最后

评论列表共有 0 条评论

发表评论取消回复

补发：Word Frequency总结

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复