Applied to trunk.
[rsync/rsync-patches.git] / link-by-hash.diff
index 674969d..eb6cf59 100644 (file)
@@ -11,7 +11,7 @@ will only store one copy of the unique contents of each file, regardless of
 the file's name.
 
 
---- orig/Makefile.in   2004-07-04 08:59:17
+--- orig/Makefile.in   2004-11-03 11:56:03
 +++ Makefile.in        2004-07-03 20:20:15
 @@ -35,7 +35,7 @@ OBJS1=rsync.o generator.o receiver.o cle
        main.o checksum.o match.o syscall.o log.o backup.o
@@ -22,9 +22,9 @@ the file's name.
  DAEMON_OBJ = params.o loadparm.o clientserver.o access.o connection.o authenticate.o
  popt_OBJS=popt/findme.o  popt/popt.o  popt/poptconfig.o \
        popt/popthelp.o popt/poptparse.o
---- orig/hashlink.c    2004-07-02 21:41:54
-+++ hashlink.c 2004-07-02 21:41:54
-@@ -0,0 +1,342 @@
+--- orig/hashlink.c    2004-09-24 16:44:25
++++ hashlink.c 2004-09-24 16:44:25
+@@ -0,0 +1,340 @@
 +/*
 +   Copyright (C) Cronosys, LLC 2004
 +
@@ -49,7 +49,7 @@ the file's name.
 +
 +extern char *link_by_hash_dir;
 +
-+#ifdef HAVE_LINK
++#if HAVE_LINK
 +
 +char* make_hash_name(struct file_struct *file)
 +{
@@ -111,11 +111,11 @@ the file's name.
 +      long this_fnbr;
 +
 +      *fnbr = 0;
-+      
++
 +      /* Build a list of potential candidates and open
 +       * them. */
 +      if ((d = opendir(hashname)) == NULL) {
-+              rsyserr(FERROR, errno, "opendir \"%s\"", hashname);
++              rsyserr(FERROR, errno, "opendir failed: \"%s\"", hashname);
 +              free(hashname);
 +              return NULL;
 +      }
@@ -134,7 +134,7 @@ the file's name.
 +              asprintf(&hashfile->name,"%s/%s",hashname,
 +                       di->d_name);
 +              if (do_stat(hashfile->name,&st) == -1) {
-+                      rsyserr(FERROR, errno, "%s: %s", hashfile->name);
++                      rsyserr(FERROR, errno, "stat failed: %s", hashfile->name);
 +                      kill_hashfile(hashfile);
 +                      continue;
 +              }
@@ -145,7 +145,7 @@ the file's name.
 +              hashfile->nlink = st.st_nlink;
 +              hashfile->fd = open(hashfile->name,O_RDONLY|O_BINARY);
 +              if (hashfile->fd == -1) {
-+                      rsyserr(FERROR, errno, "%s", hashfile->name);
++                      rsyserr(FERROR, errno, "open failed: %s", hashfile->name);
 +                      kill_hashfile(hashfile);
 +                      continue;
 +              }
@@ -210,11 +210,10 @@ the file's name.
 +                      /* There are no matches. */
 +                      return NULL;
 +              }
-+              
 +      }
 +
 +      if (amt == -1) {
-+              rsyserr(FERROR, errno, "%s");
++              rsyserr(FERROR, errno, "read failed in compare_hashfiles()");
 +              kill_hashfiles(files);
 +              return NULL;
 +      }
@@ -250,7 +249,7 @@ the file's name.
 +int link_by_hash(char *fnametmp,char *fname,struct file_struct *file)
 +{
 +      STRUCT_STAT st;
-+      char *hashname = make_hash_name(file);          
++      char *hashname = make_hash_name(file);
 +      int first = 0, rc;
 +      char *linkname;
 +      long last_fnbr;
@@ -266,7 +265,7 @@ the file's name.
 +              dirname = strdup(hashname);
 +              *strrchr(dirname,'/') = 0;
 +              if (do_mkdir(dirname, 0755) == -1 && errno != EEXIST) {
-+                      rsyserr(FERROR, errno, "mkdir %s", dirname);
++                      rsyserr(FERROR, errno, "mkdir failed: %s", dirname);
 +                      free(hashname);
 +                      free(dirname);
 +                      return robust_rename(fnametmp,fname,0644);
@@ -274,7 +273,7 @@ the file's name.
 +              free(dirname);
 +
 +              if (do_mkdir(hashname, 0755) == -1 && errno != EEXIST) {
-+                      rsyserr(FERROR, errno, "mkdir %s", hashname);
++                      rsyserr(FERROR, errno, "mkdir failed: %s", hashname);
 +                      free(hashname);
 +                      return robust_rename(fnametmp,fname,0644);
 +              }
@@ -282,13 +281,11 @@ the file's name.
 +              first = 1;
 +              asprintf(&linkname,"%s/0",hashname);
 +              rprintf(FINFO, "(1) linkname = %s\n", linkname);
-+                      
 +      } else {
 +              struct hashfile_struct *hashfiles, *hashfile;
-+              int fd;
 +
 +              if (do_stat(fnametmp,&st) == -1) {
-+                      rsyserr(FERROR, errno, "%s", fname);
++                      rsyserr(FERROR, errno, "stat failed: %s", fname);
 +                      return -1;
 +              }
 +              hashfiles = find_hashfiles(hashname, st.st_size, &last_fnbr);
@@ -298,15 +295,16 @@ the file's name.
 +                      asprintf(&linkname,"%s/0",hashname);
 +                      rprintf(FINFO, "(2) linkname = %s\n", linkname);
 +              } else {
-+                      
++                      int fd;
 +                      /* Search for one identical to us. */
 +                      if ((fd = open(fnametmp,O_RDONLY|O_BINARY)) == -1) {
-+                              rsyserr(FERROR, errno, "%s", fnametmp);
++                              rsyserr(FERROR, errno, "open failed: %s", fnametmp);
 +                              kill_hashfiles(hashfiles);
 +                              return -1;
 +                      }
 +                      hashfile = compare_hashfiles(fd, hashfiles);
 +                      hashfiles = NULL;
++                      close(fd);
 +
 +                      if (hashfile) {
 +                              first = 0;
@@ -325,6 +323,7 @@ the file's name.
 +      if (!first) {
 +              rprintf(FINFO, "link-by-hash (existing): \"%s\" -> %s\n",
 +                              linkname, full_fname(fname));
++              robust_unlink(fname);
 +              rc = do_link(linkname, fname);
 +              if (rc == -1) {
 +                      if (errno == EMLINK) {
@@ -337,7 +336,6 @@ the file's name.
 +                      } else {
 +                              rsyserr(FERROR, errno, "link \"%s\" -> \"%s\"",
 +                                      linkname, full_fname(fname));
-+                              robust_unlink(fname);
 +                              rc = robust_rename(fnametmp,fname,0644);
 +                      }
 +              } else {
@@ -367,49 +365,51 @@ the file's name.
 +}
 +
 +#endif
---- orig/options.c     2004-07-23 17:16:13
-+++ options.c  2004-07-03 20:20:15
-@@ -125,6 +125,7 @@ char *log_format = NULL;
+--- orig/options.c     2005-03-01 05:49:24
++++ options.c  2005-03-01 01:27:55
+@@ -140,6 +140,7 @@ char *log_format = NULL;
  char *password_file = NULL;
  char *rsync_path = RSYNC_PATH;
  char *backup_dir = NULL;
 +char *link_by_hash_dir = NULL;
  char backup_dir_buf[MAXPATHLEN];
- int rsync_port = RSYNC_PORT;
- int link_dest = 0;
-@@ -277,6 +278,7 @@ void usage(enum logcode F)
-   rprintf(F," -T, --temp-dir=DIR          create temporary files in directory DIR\n");
+ int rsync_port = 0;
+ int compare_dest = 0;
+@@ -318,6 +319,7 @@ void usage(enum logcode F)
+   rprintf(F," -y, --fuzzy                 find similar file for basis if no dest file\n");
    rprintf(F,"     --compare-dest=DIR      also compare destination files relative to DIR\n");
-   rprintf(F,"     --link-dest=DIR         create hardlinks to DIR for unchanged files\n");
-+  rprintf(F,"     --link-by-hash=DIR      create hardlinks by hash to DIR for regular files\n");
-   rprintf(F," -P                          equivalent to --partial --progress\n");
-   rprintf(F," -z, --compress              compress file data\n");
-   rprintf(F," -C, --cvs-exclude           auto ignore files in the same way CVS does\n");
-@@ -317,7 +319,7 @@ void usage(enum logcode F)
- enum {OPT_VERSION = 1000, OPT_SENDER, OPT_EXCLUDE, OPT_EXCLUDE_FROM,
-       OPT_DELETE_AFTER, OPT_DELETE_EXCLUDED, OPT_LINK_DEST,
+   rprintf(F,"     --link-dest=DIR         hardlink to files in DIR when unchanged\n");
++  rprintf(F,"     --link-by-hash=DIR      create hardlinks by hash into DIR\n");
+   rprintf(F," -z, --compress              compress file data during the transfer\n");
+   rprintf(F," -C, --cvs-exclude           auto-ignore files the same way CVS does\n");
+   rprintf(F," -f, --filter=RULE           add a file-filtering RULE\n");
+@@ -357,7 +359,7 @@ void usage(enum logcode F)
+ enum {OPT_VERSION = 1000, OPT_DAEMON, OPT_SENDER, OPT_EXCLUDE, OPT_EXCLUDE_FROM,
+       OPT_FILTER, OPT_COMPARE_DEST, OPT_LINK_DEST,
        OPT_INCLUDE, OPT_INCLUDE_FROM, OPT_MODIFY_WINDOW,
--      OPT_READ_BATCH, OPT_WRITE_BATCH, OPT_TIMEOUT,
-+      OPT_READ_BATCH, OPT_WRITE_BATCH, OPT_TIMEOUT, OPT_LINK_BY_HASH,
+-      OPT_READ_BATCH, OPT_WRITE_BATCH, OPT_TIMEOUT, OPT_MAX_SIZE,
++      OPT_READ_BATCH, OPT_WRITE_BATCH, OPT_TIMEOUT, OPT_MAX_SIZE, OPT_LINK_BY_HASH,
        OPT_REFUSED_BASE = 9000};
  
  static struct poptOption long_options[] = {
-@@ -376,6 +378,7 @@ static struct poptOption long_options[] 
+@@ -425,6 +427,7 @@ static struct poptOption long_options[] 
    {"temp-dir",        'T', POPT_ARG_STRING, &tmpdir, 0, 0, 0 },
-   {"compare-dest",     0,  POPT_ARG_STRING, &compare_dest, 0, 0, 0 },
-   {"link-dest",        0,  POPT_ARG_STRING, &compare_dest,  OPT_LINK_DEST, 0, 0 },
-+  {"link-by-hash",     0,  POPT_ARG_STRING, 0,              OPT_LINK_BY_HASH, 0, 0},
+   {"compare-dest",     0,  POPT_ARG_STRING, 0, OPT_COMPARE_DEST, 0, 0 },
+   {"link-dest",        0,  POPT_ARG_STRING, 0, OPT_LINK_DEST, 0, 0 },
++  {"link-by-hash",     0,  POPT_ARG_STRING, 0, OPT_LINK_BY_HASH, 0, 0},
+   {"fuzzy",           'y', POPT_ARG_NONE,   &fuzzy_basis, 0, 0, 0 },
    /* TODO: Should this take an optional int giving the compression level? */
    {"compress",        'z', POPT_ARG_NONE,   &do_compression, 0, 0, 0 },
-   {"daemon",           0,  POPT_ARG_NONE,   &daemon_opt, 0, 0, 0 },
-@@ -602,6 +605,19 @@ int parse_arguments(int *argc, const cha
-                       return 0;
- #endif
+@@ -854,6 +857,21 @@ int parse_arguments(int *argc, const cha
+                       basis_dir[basis_dir_cnt++] = (char *)arg;
+                       break;
  
 +                case OPT_LINK_BY_HASH:
 +#if HAVE_LINK
-+                      link_by_hash_dir = (char *)poptGetOptArg(pc);
-+                      checksum_seed = FIXED_CHECKSUM_SEED;
++                      arg = poptGetOptArg(pc);
++                      if (sanitize_paths)
++                              arg = sanitize_path(NULL, arg, NULL, 0);
++                      link_by_hash_dir = (char *)arg;
 +                      break;
 +#else
 +                      snprintf(err_buf, sizeof err_buf,
@@ -421,9 +421,9 @@ the file's name.
 +
                default:
                        /* A large opt value means that set_refuse_options()
-                        * turned this option off (opt-BASE is its index). */
-@@ -1013,6 +1029,11 @@ void server_options(char **args,int *arg
-               args[ac++] = compare_dest;
+                        * turned this option off. */
+@@ -1435,6 +1453,11 @@ void server_options(char **args,int *arg
+               }
        }
  
 +      if (link_by_hash_dir && am_sender) {
@@ -431,20 +431,20 @@ the file's name.
 +              args[ac++] = link_by_hash_dir;
 +      }
 +
-       if (files_from && (!am_sender || remote_filesfrom_file)) {
-               if (remote_filesfrom_file) {
+       if (files_from && (!am_sender || filesfrom_host)) {
+               if (filesfrom_host) {
                        args[ac++] = "--files-from";
---- orig/receiver.c    2004-07-26 16:20:00
-+++ receiver.c 2004-07-20 21:44:05
-@@ -39,6 +39,7 @@ extern int cvs_exclude;
- extern int io_error;
+--- orig/receiver.c    2005-02-26 19:27:54
++++ receiver.c 2005-01-15 21:29:13
+@@ -51,6 +51,7 @@ extern int delay_updates;
+ extern struct stats stats;
+ extern char *log_format;
  extern char *tmpdir;
- extern char *compare_dest;
 +extern char *link_by_hash_dir;
- extern int make_backups;
- extern int do_progress;
- extern char *backup_dir;
-@@ -206,12 +207,13 @@ static int get_tmpname(char *fnametmp, c
+ extern char *partial_dir;
+ extern char *basis_dir[];
+@@ -183,12 +184,13 @@ static int get_tmpname(char *fnametmp, c
  
  
  static int receive_data(int f_in, char *fname_r, int fd_r, OFF_T size_r,
@@ -456,10 +456,10 @@ the file's name.
        struct map_struct *mapbuf;
        struct sum_struct sum;
 +      struct mdfour mdfour_data;
-       unsigned int len;
+       int32 len;
        OFF_T offset = 0;
        OFF_T offset2;
-@@ -230,6 +232,9 @@ static int receive_data(int f_in, char *
+@@ -208,6 +210,9 @@ static int receive_data(int f_in, char *
        } else
                mapbuf = NULL;
  
@@ -469,25 +469,25 @@ the file's name.
        sum_init(checksum_seed);
  
        while ((i = recv_token(f_in, &data)) != 0) {
-@@ -246,6 +251,8 @@ static int receive_data(int f_in, char *
+@@ -224,6 +229,8 @@ static int receive_data(int f_in, char *
                        cleanup_got_literal = 1;
  
-                       sum_update(data,i);
+                       sum_update(data, i);
 +                      if (md4)
 +                              mdfour_update(&mdfour_data,data,i);
  
-                       if (fd != -1 && write_file(fd,data,i) != i) {
-                               rsyserr(FERROR, errno, "write failed on %s",
-@@ -273,6 +280,8 @@ static int receive_data(int f_in, char *
+                       if (fd != -1 && write_file(fd,data,i) != i)
+                               goto report_write_error;
+@@ -250,6 +257,8 @@ static int receive_data(int f_in, char *
  
                        see_token(map, len);
-                       sum_update(map,len);
+                       sum_update(map, len);
 +                      if (md4)
 +                              mdfour_update(&mdfour_data,map,len);
                }
  
-               if (!inplace || offset != offset2) {
-@@ -311,6 +320,8 @@ static int receive_data(int f_in, char *
+               if (inplace) {
+@@ -290,6 +299,8 @@ static int receive_data(int f_in, char *
        }
  
        sum_end(file_sum1);
@@ -496,7 +496,7 @@ the file's name.
  
        if (mapbuf)
                unmap_file(mapbuf);
-@@ -326,7 +337,7 @@ static int receive_data(int f_in, char *
+@@ -335,7 +346,7 @@ static void read_gen_name(int fd, char *
  
  static void discard_receive_data(int f_in, OFF_T length)
  {
@@ -505,11 +505,11 @@ the file's name.
  }
  
  
-@@ -535,8 +546,12 @@ int recv_files(int f_in, struct file_lis
+@@ -602,8 +613,12 @@ int recv_files(int f_in, struct file_lis
                        rprintf(FINFO, "%s\n", safe_fname(fname));
  
                /* recv file data */
-+#ifdef HAVE_LINK
++#if HAVE_LINK
 +              if (link_by_hash_dir)
 +                      file->u.sum = (char*)malloc(MD4_SUM_LENGTH);
 +#endif
@@ -517,34 +517,35 @@ the file's name.
 -                                     fname, fd2, file->length);
 +                                     fname, fd2, file->length, file->u.sum);
  
-               log_recv(file, &initial_stats);
---- orig/rsync.c       2004-07-26 16:06:53
-+++ rsync.c    2004-07-16 20:16:53
-@@ -33,6 +33,7 @@ extern int preserve_gid;
- extern int force_delete;
- extern int recurse;
+               if (!log_before_transfer)
+                       log_recv(file, &initial_stats, iflags);
+--- orig/rsync.c       2005-02-25 18:44:31
++++ rsync.c    2005-02-21 11:04:36
+@@ -39,6 +39,7 @@ extern int recurse;
+ extern int keep_dirlinks;
  extern int make_backups;
+ extern struct stats stats;
 +extern char *link_by_hash_dir;
- extern char *backup_dir;
- extern int inplace;
  
-@@ -249,6 +250,12 @@ void finish_transfer(char *fname, char *
-       /* move tmp file over real file */
-       if (verbose > 2)
-               rprintf(FINFO, "renaming %s to %s\n", fnametmp, fname);
-+#ifdef HAVE_LINK
+ /*
+@@ -189,7 +190,12 @@ void finish_transfer(char *fname, char *
+               rprintf(FINFO, "renaming %s to %s\n",
+                       safe_fname(fnametmp), safe_fname(fname));
+       }
+-      ret = robust_rename(fnametmp, fname, file->mode & INITACCESSPERMS);
++#if HAVE_LINK
 +      if (link_by_hash_dir)
 +              ret = link_by_hash(fnametmp, fname, file);
 +      else
 +#endif
 +              ret = robust_rename(fnametmp, fname, file->mode & INITACCESSPERMS);
-       ret = robust_rename(fnametmp, fname, file->mode & INITACCESSPERMS);
        if (ret < 0) {
                rsyserr(FERROR, errno, "%s %s -> \"%s\"",
---- orig/rsync.h       2004-07-23 17:16:13
+                   ret == -2 ? "copy" : "rename",
+--- orig/rsync.h       2005-02-23 02:57:27
 +++ rsync.h    2004-07-03 20:20:15
-@@ -522,6 +522,14 @@ struct stats {
+@@ -621,6 +621,14 @@ struct stats {
        int current_file_index;
  };
  
@@ -557,5 +558,15 @@ the file's name.
 +};
 +
  
- /* we need this function because of the silly way in which duplicate
-    entries are handled in the file lists - we can't change this
+ #include "byteorder.h"
+ #include "lib/mdfour.h"
+--- orig/rsync.yo      2005-03-01 01:22:59
++++ rsync.yo   2005-02-13 06:58:47
+@@ -355,6 +355,7 @@ to the detailed description below for a 
+  -y, --fuzzy                 find similar file for basis if no dest file
+      --compare-dest=DIR      also compare received files relative to DIR
+      --link-dest=DIR         hardlink to files in DIR when unchanged
++     --link-by-hash=DIR      create hardlinks by hash into DIR
+  -z, --compress              compress file data during the transfer
+  -C, --cvs-exclude           auto-ignore files in the same way CVS does
+  -f, --filter=RULE           add a file-filtering RULE