PHP中实现大文件去重的方法是什么
Admin 2022-07-07 群英技术资讯 508 次浏览
1.对一个大文件比如我的文件为
-rw-r--r-- 1 ubuntu ubuntu 9.1G Mar 1 17:53 2018-12-awk-uniq.txt
2.使用split命令切割成10个小文件
split -b 1000m 2018-12-awk-uniq.txt -b 按照字节切割 , 支持单位m和k
3.使用10个php进程读取文件 , 插入redis的有序集合结构中 , 重复的是插不进去的 ,因此可以起到去重的作用
<?php $file=$argv[1]; //守护进程 umask(0); //把文件掩码清0 if (pcntl_fork() != 0){ //是父进程,父进程退出 exit(); } posix_setsid();//设置新会话组长,脱离终端 if (pcntl_fork() != 0){ //是第一子进程,结束第一子进程 exit(); } $start=memory_get_usage(); $redis=new Redis(); $redis->connect('127.0.0.1', 6379); $handle = fopen("./{$file}", 'rb'); while (feof($handle)===false) { $line=fgets($handle); $email=str_replace("\n","",$line); $redis->zAdd('emails', 1, $email); }
4. redis中查看获取的数据
zcard emails 获取元素个数
取一定范围的元素 , 比如从100000开始 到 100100结束
zrange emails 100000 100100 WITHSCORES
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
php中CGI模式的介绍:1、是一种重要的互联网技术,可以让一个客户端,从网页浏览器向执行在网络服务器上的程序请求数据。2、CGI 描述了服务器和请求处理程序之间传输数据的一种标准。
你清楚关于PHP如何判断函数的有没有被定义的方法是什么吗?其实这个方法很简单。为了帮助大家解决问题,下面请看看爱站技术频道小编所整理的文章。
不是的,如果启动一个TCP服务器,就会启动了3 个 worker进程,3个task进程,因为启用了task功能,所以必须注册onTask、onFinish 2个事件的回调函数。
php的多进程处理依赖于pcntl扩展,通过pcntl_fork创建子进程来进行并行处理。 例1如下:<?php$pid=pcntl_fork();if($pid==-1){//错误处理:创建子进程失败时返回-1.die('forkerror');}elseif($pid){//父进程会得到子进程号,所以这里是父进程执行的逻
PHP实现按照大小进行函数排列的操作有哪些?在实际项目的操作过程或是学习过程中,不少人都会遇到这样的问题,接下来就让小编带大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008