Perf(zstd): Improve 'matchLen' performance by vector instructions. #823

zzzzwc · 2023-06-07T08:08:21Z

When we use zstd to compress csv text, we find that the matchlen function takes a lot of time, so we try to use vector instructions to speed up the matchlen function.

The following is the benchmark test command and the comparison with the old version:

⇒  go test -run=None -bench='Encoder_EncodeAll|Random' -count=6  >  new.txt
⇒  go test -run=None -bench='Encoder_EncodeAll|Random' -count=6  >  old.txt
⇒  benchstat old.txt new.txt
goos: linux
goarch: amd64
pkg: github.com/klauspost/compress/zstd
cpu: Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz
                                     │   old.txt    │               new.txt               │
                                     │    sec/op    │    sec/op     vs base               │
Encoder_EncodeAllXML-64                19.13m ±  3%   18.13m ±  2%   -5.21% (p=0.002 n=6)
Encoder_EncodeAllSimple/fastest-64     328.7µ ±  3%   344.9µ ±  2%   +4.94% (p=0.002 n=6)
Encoder_EncodeAllSimple/default-64     489.9µ ±  4%   500.9µ ±  3%   +2.24% (p=0.026 n=6)
Encoder_EncodeAllSimple/better-64      634.4µ ±  3%   632.9µ ±  3%        ~ (p=0.937 n=6)
Encoder_EncodeAllSimple/best-64        2.674m ±  6%   2.680m ±  1%        ~ (p=0.937 n=6)
Encoder_EncodeAllSimple4K/fastest-64   16.84µ ±  3%   16.99µ ±  8%        ~ (p=0.818 n=6)
Encoder_EncodeAllSimple4K/default-64   44.17µ ±  3%   46.14µ ±  1%   +4.45% (p=0.002 n=6)
Encoder_EncodeAllSimple4K/better-64    56.05µ ±  3%   55.94µ ±  3%        ~ (p=0.732 n=6)
Encoder_EncodeAllSimple4K/best-64      285.4µ ± 25%   292.3µ ±  3%        ~ (p=0.485 n=6)
Encoder_EncodeAllHTML-64               315.6µ ±  1%   308.4µ ±  3%   -2.27% (p=0.002 n=6)
Encoder_EncodeAllTwain-64              4.579m ±  1%   4.717m ±  3%   +3.02% (p=0.015 n=6)
Encoder_EncodeAllPi-64                 1.582m ±  3%   1.612m ±  3%        ~ (p=0.132 n=6)
Random4KEncodeAllFastest-64            1.450µ ±  2%   1.443µ ±  3%        ~ (p=0.517 n=6)
Random10MBEncodeAllFastest-64          5.692m ±  8%   5.131m ±  2%   -9.86% (p=0.002 n=6)
Random4KEncodeAllDefault-64            4.013µ ±  4%   4.007µ ±  3%        ~ (p=0.699 n=6)
RandomEncodeAllDefault-64              4.504m ± 24%   4.539m ±  2%        ~ (p=0.699 n=6)
Random10MBEncoderFastest-64            7.018m ±  5%   4.841m ±  3%  -31.02% (p=0.002 n=6)
RandomEncoderDefault-64                9.438m ±  7%   5.803m ± 39%  -38.51% (p=0.002 n=6)
geomean                                473.0µ         451.3µ         -4.58%

                                     │    old.txt    │               new.txt                │
                                     │      B/s      │      B/s       vs base               │
Encoder_EncodeAllXML-64                266.5Mi ±  3%   281.2Mi ±  3%   +5.50% (p=0.002 n=6)
Encoder_EncodeAllSimple/fastest-64     115.5Mi ±  3%   110.1Mi ±  2%   -4.71% (p=0.002 n=6)
Encoder_EncodeAllSimple/default-64     77.49Mi ±  4%   75.79Mi ±  3%   -2.18% (p=0.026 n=6)
Encoder_EncodeAllSimple/better-64      59.84Mi ±  3%   59.99Mi ±  3%        ~ (p=0.937 n=6)
Encoder_EncodeAllSimple/best-64        14.20Mi ±  6%   14.17Mi ±  1%        ~ (p=0.937 n=6)
Encoder_EncodeAllSimple4K/fastest-64   232.0Mi ±  3%   229.9Mi ±  7%        ~ (p=0.818 n=6)
Encoder_EncodeAllSimple4K/default-64   88.43Mi ±  3%   84.67Mi ±  1%   -4.25% (p=0.002 n=6)
Encoder_EncodeAllSimple4K/better-64    69.69Mi ±  3%   69.83Mi ±  3%        ~ (p=0.732 n=6)
Encoder_EncodeAllSimple4K/best-64      13.69Mi ± 20%   13.37Mi ±  3%        ~ (p=0.485 n=6)
Encoder_EncodeAllHTML-64               134.4Mi ±  1%   137.5Mi ±  4%   +2.32% (p=0.002 n=6)
Encoder_EncodeAllTwain-64              80.80Mi ±  1%   78.44Mi ±  3%   -2.93% (p=0.015 n=6)
Encoder_EncodeAllPi-64                 60.30Mi ±  3%   59.17Mi ±  3%        ~ (p=0.132 n=6)
Random4KEncodeAllFastest-64            2.631Gi ±  2%   2.644Gi ±  3%        ~ (p=0.485 n=6)
Random10MBEncodeAllFastest-64          1.716Gi ±  9%   1.903Gi ±  2%  +10.93% (p=0.002 n=6)
Random4KEncodeAllDefault-64            973.4Mi ±  4%   974.9Mi ±  3%        ~ (p=0.699 n=6)
RandomEncodeAllDefault-64              2.168Gi ± 20%   2.151Gi ±  2%        ~ (p=0.699 n=6)
Random10MBEncoderFastest-64            1.392Gi ±  6%   2.017Gi ±  3%  +44.93% (p=0.002 n=6)
RandomEncoderDefault-64                1.035Gi ±  7%   1.683Gi ± 28%  +62.69% (p=0.002 n=6)
geomean                                204.8Mi         214.6Mi         +4.79%

                                     │     old.txt     │                new.txt                │
                                     │      B/op       │     B/op       vs base                │
Encoder_EncodeAllXML-64                  0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/fastest-64       2.000 ±  0%       2.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/default-64       4.000 ± 25%       4.000 ± 25%       ~ (p=1.000 n=6)
Encoder_EncodeAllSimple/better-64        5.000 ±  0%       5.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/best-64          20.50 ±  2%       21.00 ±  5%       ~ (p=0.232 n=6)
Encoder_EncodeAllSimple4K/fastest-64     0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/default-64     0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/better-64      0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/best-64        1.000 ±  0%       1.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllHTML-64                 2.000 ±  0%       2.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllTwain-64                0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllPi-64                   12.00 ±  8%       13.00 ±  8%       ~ (p=0.242 n=6)
Random4KEncodeAllFastest-64              0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Random10MBEncodeAllFastest-64          40.25Ki ±  5%     36.76Ki ±  4%  -8.66% (p=0.002 n=6)
Random4KEncodeAllDefault-64              0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
RandomEncodeAllDefault-64                0.000 ±  0%       0.000 ±  0%       ~ (p=1.000 n=6) ¹
Random10MBEncoderFastest-64            22.58Ki ±  1%     22.56Ki ±  0%       ~ (p=0.056 n=6)
RandomEncoderDefault-64                11.31Ki ±  1%     11.32Ki ±  0%       ~ (p=0.450 n=6)
geomean                                              ²                  +0.07%               ²
¹ all samples are equal
² summaries must be >0 to compute geomean

                                     │   old.txt    │              new.txt               │
                                     │  allocs/op   │ allocs/op   vs base                │
Encoder_EncodeAllXML-64                0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/fastest-64     0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/default-64     0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/better-64      0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple/best-64        0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/fastest-64   0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/default-64   0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/better-64    0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllSimple4K/best-64      0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllHTML-64               0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllTwain-64              0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Encoder_EncodeAllPi-64                 0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Random4KEncodeAllFastest-64            0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Random10MBEncodeAllFastest-64          0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Random4KEncodeAllDefault-64            0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
RandomEncodeAllDefault-64              0.000 ± 0%     0.000 ± 0%       ~ (p=1.000 n=6) ¹
Random10MBEncoderFastest-64            482.0 ± 0%     482.0 ± 0%       ~ (p=1.000 n=6) ¹
RandomEncoderDefault-64                242.0 ± 0%     242.0 ± 0%       ~ (p=1.000 n=6) ¹
geomean                                           ²               +0.00%               ²
¹ all samples are equal
² summaries must be >0 to compute geomean

From the comparison results, it can be seen that when we compress some large content (when the matchlen function can match a long length), it will be much faster than before.

zzzzwc · 2023-06-07T08:14:36Z

And I will write the code to make it work fine on amd64 cpu that does not support avx2

klauspost

I have experimented with dedicated assembly matching before, but never really found any convincing+consistent improvement.

These are rather unexpected and really shouldn't be affected by this at all.

Random10MBEncoderFastest-64            1.392Gi ±  6%   2.017Gi ±  3%  +44.93% (p=0.002 n=6)
RandomEncoderDefault-64                1.035Gi ±  7%   1.683Gi ± 28%  +62.69% (p=0.002 n=6)

I will benchmark and do a few tests.

klauspost · 2023-06-07T08:32:47Z