Ubuntu怎么实现词频统计

这篇文章主要介绍了Ubuntu怎么实现词频统计的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Ubuntu怎么实现词频统计文章都会有所收获，下面我们一起来看看吧。

Ubuntu实现词频统计的示例：

使用shell实现简单的词频统计，例如：统计如下中第二列单词出现的次数。

1,huabingood,100

2,haha,200

3,huabingood,300

4,haha,100

5,haha,200

实现代码命令：

cat a.txt | awk -F "," '{print $2}' | sort | uniq -c | sort -nrk 1

代码解释：

awk -F "," '{print $2}' # 将数据按照逗号进行分割，并取出第二列的内容

sort　　# 将取出的内容进行排序。因为uniq统计时，如果重复的数据不连续，就会被认为时两个不同内容的行

uniq -c　　# 统计重复行出现的次数

sort -nrk 1　　# 按照第一列重复的次数，按照数字顺序进行降序排列

关于“Ubuntu怎么实现词频统计”这篇文章的内容就介绍到这里，感谢各位的阅读！相信大家对“Ubuntu怎么实现词频统计”知识都有一定的了解，大家如果还想学习更多知识，欢迎关注蜗牛博客行业资讯频道。

免责声明：本站发布的内容（图片、视频和文字）以原创、转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系站长邮箱：niceseo99@gmail.com进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。