加入收藏 | 设为首页 | 会员中心 | 我要投稿 济宁站长网 (https://www.0537zz.cn/)- 行业智能、边缘计算、专有云、AI硬件、5G!
当前位置: 首页 > 服务器 > 搭建环境 > Linux > 正文

在Linux下怎样去除文件内容的重复值?

发布时间:2023-09-12 11:06:00 所属栏目:Linux 来源:转载
导读:   很多朋友都对“Linux下如何对内容去重,用什么命令”的内容比较感兴趣,对此小编整理了相关的知识分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获,那么感兴趣的
  很多朋友都对“Linux下如何对内容去重,用什么命令”的内容比较感兴趣,对此小编整理了相关的知识分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获,那么感兴趣的朋友就继续往下看吧!
 
  大家可能经常遇到文件内容排序去重处理的事情,使用 linux 命令可以很方便的处理,sort 命令在处理文件排序和去重中起着非常重要的左右,是文件处理的利器。
 
  比如有以下文件内容:
 
  pythontab.com
 
  4345            15              12121
 
  4145            7               fdf
 
  4245            5               dfsf
 
  1345            76              432423
 
  0693            2               4345
 
  06a7            82              4e
 
  06a9            58              e33
 
  4345            68              343
 
  06c1            56              453
 
  06d7            145             45678
 
  4345            117             21
 
  06e3            280             76
 
  4345            7               3434
 
  4345            48              80
 
  06f1            463             121
 
  4345            3847            131
 
  070b            1236            64
 
  070d            3343            77
 
  0713            104235          90
 
  0715            6               12
 
  0726            121             97798
 
  想要按照第二列排序去重,怎么做呢?其实只需要 sort 命令就可以解决了
 
  sort -t $'\t' -k 2 -u pythontab.com
 
  sort 排序命令
 
  -t 指定分隔符为‘\t’
 
  -k 指定第三列
 
  -u 去重
 
  sort的其他一些选项:
 
  -r 降序排列
 
  -o 把排序结果输出到源文件
 
  sort默认是把结果输出到标准输出,所以需要用重定向才能将结果写入文件,形如
 
  sort filename>newfile
 
  如果将结果输出到原文件,用重定向相当于清空
 
  -n 看为数字来比较

  你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了,排序程序会先比较1和2,显然1小,所以就将10放在2前面喽。这也是sort的一贯作风。
 
  我们如果想改变这种现状,就要使用-n选项,来告诉sort,“要以数值来排序”!
 
  -f 会将小写字母都转换为大写字母来进行比较,亦即忽略大小写
 
  -c 会检查文件是否已排好序,如果乱序,则输出第一个乱序的行的相关信息,最后返回1
 
  -C 会检查文件是否已排好序,如果乱序,不输出内容,仅返回1
 
  -M 会以月份来排序,比如JAN小于FEB等等
 
  -b 会忽略每一行前面的所有空白部分,从第一个可见字符开始比较。
 

(编辑:济宁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!