string/aarch64/memcpy.S

*412f47f9SXin Li/*
*412f47f9SXin Li * memcpy - copy memory area
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2012-2022, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li/* Assumptions:
*412f47f9SXin Li *
*412f47f9SXin Li * ARMv8-a, AArch64, unaligned accesses.
*412f47f9SXin Li *
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li#define dstin	x0
*412f47f9SXin Li#define src	x1
*412f47f9SXin Li#define count	x2
*412f47f9SXin Li#define dst	x3
*412f47f9SXin Li#define srcend	x4
*412f47f9SXin Li#define dstend	x5
*412f47f9SXin Li#define A_l	x6
*412f47f9SXin Li#define A_lw	w6
*412f47f9SXin Li#define A_h	x7
*412f47f9SXin Li#define B_l	x8
*412f47f9SXin Li#define B_lw	w8
*412f47f9SXin Li#define B_h	x9
*412f47f9SXin Li#define C_l	x10
*412f47f9SXin Li#define C_lw	w10
*412f47f9SXin Li#define C_h	x11
*412f47f9SXin Li#define D_l	x12
*412f47f9SXin Li#define D_h	x13
*412f47f9SXin Li#define E_l	x14
*412f47f9SXin Li#define E_h	x15
*412f47f9SXin Li#define F_l	x16
*412f47f9SXin Li#define F_h	x17
*412f47f9SXin Li#define G_l	count
*412f47f9SXin Li#define G_h	dst
*412f47f9SXin Li#define H_l	src
*412f47f9SXin Li#define H_h	srcend
*412f47f9SXin Li#define tmp1	x14
*412f47f9SXin Li
*412f47f9SXin Li/* This implementation handles overlaps and supports both memcpy and memmove
*412f47f9SXin Li   from a single entry point.  It uses unaligned accesses and branchless
*412f47f9SXin Li   sequences to keep the code small, simple and improve performance.
*412f47f9SXin Li
*412f47f9SXin Li   Copies are split into 3 main cases: small copies of up to 32 bytes, medium
*412f47f9SXin Li   copies of up to 128 bytes, and large copies.  The overhead of the overlap
*412f47f9SXin Li   check is negligible since it is only required for large copies.
*412f47f9SXin Li
*412f47f9SXin Li   Large copies use a software pipelined loop processing 64 bytes per iteration.
*412f47f9SXin Li   The destination pointer is 16-byte aligned to minimize unaligned accesses.
*412f47f9SXin Li   The loop tail is handled by always copying 64 bytes from the end.
*412f47f9SXin Li*/
*412f47f9SXin Li
*412f47f9SXin LiENTRY_ALIAS (__memmove_aarch64)
*412f47f9SXin LiENTRY (__memcpy_aarch64)
*412f47f9SXin Li	PTR_ARG (0)
*412f47f9SXin Li	PTR_ARG (1)
*412f47f9SXin Li	SIZE_ARG (2)
*412f47f9SXin Li	add	srcend, src, count
*412f47f9SXin Li	add	dstend, dstin, count
*412f47f9SXin Li	cmp	count, 128
*412f47f9SXin Li	b.hi	L(copy_long)
*412f47f9SXin Li	cmp	count, 32
*412f47f9SXin Li	b.hi	L(copy32_128)
*412f47f9SXin Li
*412f47f9SXin Li	/* Small copies: 0..32 bytes.  */
*412f47f9SXin Li	cmp	count, 16
*412f47f9SXin Li	b.lo	L(copy16)
*412f47f9SXin Li	ldp	A_l, A_h, [src]
*412f47f9SXin Li	ldp	D_l, D_h, [srcend, -16]
*412f47f9SXin Li	stp	A_l, A_h, [dstin]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -16]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 8-15 bytes.  */
*412f47f9SXin LiL(copy16):
*412f47f9SXin Li	tbz	count, 3, L(copy8)
*412f47f9SXin Li	ldr	A_l, [src]
*412f47f9SXin Li	ldr	A_h, [srcend, -8]
*412f47f9SXin Li	str	A_l, [dstin]
*412f47f9SXin Li	str	A_h, [dstend, -8]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 3
*412f47f9SXin Li	/* Copy 4-7 bytes.  */
*412f47f9SXin LiL(copy8):
*412f47f9SXin Li	tbz	count, 2, L(copy4)
*412f47f9SXin Li	ldr	A_lw, [src]
*412f47f9SXin Li	ldr	B_lw, [srcend, -4]
*412f47f9SXin Li	str	A_lw, [dstin]
*412f47f9SXin Li	str	B_lw, [dstend, -4]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 0..3 bytes using a branchless sequence.  */
*412f47f9SXin LiL(copy4):
*412f47f9SXin Li	cbz	count, L(copy0)
*412f47f9SXin Li	lsr	tmp1, count, 1
*412f47f9SXin Li	ldrb	A_lw, [src]
*412f47f9SXin Li	ldrb	C_lw, [srcend, -1]
*412f47f9SXin Li	ldrb	B_lw, [src, tmp1]
*412f47f9SXin Li	strb	A_lw, [dstin]
*412f47f9SXin Li	strb	B_lw, [dstin, tmp1]
*412f47f9SXin Li	strb	C_lw, [dstend, -1]
*412f47f9SXin LiL(copy0):
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	/* Medium copies: 33..128 bytes.  */
*412f47f9SXin LiL(copy32_128):
*412f47f9SXin Li	ldp	A_l, A_h, [src]
*412f47f9SXin Li	ldp	B_l, B_h, [src, 16]
*412f47f9SXin Li	ldp	C_l, C_h, [srcend, -32]
*412f47f9SXin Li	ldp	D_l, D_h, [srcend, -16]
*412f47f9SXin Li	cmp	count, 64
*412f47f9SXin Li	b.hi	L(copy128)
*412f47f9SXin Li	stp	A_l, A_h, [dstin]
*412f47f9SXin Li	stp	B_l, B_h, [dstin, 16]
*412f47f9SXin Li	stp	C_l, C_h, [dstend, -32]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -16]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	/* Copy 65..128 bytes.  */
*412f47f9SXin LiL(copy128):
*412f47f9SXin Li	ldp	E_l, E_h, [src, 32]
*412f47f9SXin Li	ldp	F_l, F_h, [src, 48]
*412f47f9SXin Li	cmp	count, 96
*412f47f9SXin Li	b.ls	L(copy96)
*412f47f9SXin Li	ldp	G_l, G_h, [srcend, -64]
*412f47f9SXin Li	ldp	H_l, H_h, [srcend, -48]
*412f47f9SXin Li	stp	G_l, G_h, [dstend, -64]
*412f47f9SXin Li	stp	H_l, H_h, [dstend, -48]
*412f47f9SXin LiL(copy96):
*412f47f9SXin Li	stp	A_l, A_h, [dstin]
*412f47f9SXin Li	stp	B_l, B_h, [dstin, 16]
*412f47f9SXin Li	stp	E_l, E_h, [dstin, 32]
*412f47f9SXin Li	stp	F_l, F_h, [dstin, 48]
*412f47f9SXin Li	stp	C_l, C_h, [dstend, -32]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -16]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li	/* Copy more than 128 bytes.  */
*412f47f9SXin LiL(copy_long):
*412f47f9SXin Li	/* Use backwards copy if there is an overlap.  */
*412f47f9SXin Li	sub	tmp1, dstin, src
*412f47f9SXin Li	cbz	tmp1, L(copy0)
*412f47f9SXin Li	cmp	tmp1, count
*412f47f9SXin Li	b.lo	L(copy_long_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Copy 16 bytes and then align dst to 16-byte alignment.  */
*412f47f9SXin Li
*412f47f9SXin Li	ldp	D_l, D_h, [src]
*412f47f9SXin Li	and	tmp1, dstin, 15
*412f47f9SXin Li	bic	dst, dstin, 15
*412f47f9SXin Li	sub	src, src, tmp1
*412f47f9SXin Li	add	count, count, tmp1	/* Count is now 16 too large.  */
*412f47f9SXin Li	ldp	A_l, A_h, [src, 16]
*412f47f9SXin Li	stp	D_l, D_h, [dstin]
*412f47f9SXin Li	ldp	B_l, B_h, [src, 32]
*412f47f9SXin Li	ldp	C_l, C_h, [src, 48]
*412f47f9SXin Li	ldp	D_l, D_h, [src, 64]!
*412f47f9SXin Li	subs	count, count, 128 + 16	/* Test and readjust count.  */
*412f47f9SXin Li	b.ls	L(copy64_from_end)
*412f47f9SXin Li
*412f47f9SXin LiL(loop64):
*412f47f9SXin Li	stp	A_l, A_h, [dst, 16]
*412f47f9SXin Li	ldp	A_l, A_h, [src, 16]
*412f47f9SXin Li	stp	B_l, B_h, [dst, 32]
*412f47f9SXin Li	ldp	B_l, B_h, [src, 32]
*412f47f9SXin Li	stp	C_l, C_h, [dst, 48]
*412f47f9SXin Li	ldp	C_l, C_h, [src, 48]
*412f47f9SXin Li	stp	D_l, D_h, [dst, 64]!
*412f47f9SXin Li	ldp	D_l, D_h, [src, 64]!
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the end.  */
*412f47f9SXin LiL(copy64_from_end):
*412f47f9SXin Li	ldp	E_l, E_h, [srcend, -64]
*412f47f9SXin Li	stp	A_l, A_h, [dst, 16]
*412f47f9SXin Li	ldp	A_l, A_h, [srcend, -48]
*412f47f9SXin Li	stp	B_l, B_h, [dst, 32]
*412f47f9SXin Li	ldp	B_l, B_h, [srcend, -32]
*412f47f9SXin Li	stp	C_l, C_h, [dst, 48]
*412f47f9SXin Li	ldp	C_l, C_h, [srcend, -16]
*412f47f9SXin Li	stp	D_l, D_h, [dst, 64]
*412f47f9SXin Li	stp	E_l, E_h, [dstend, -64]
*412f47f9SXin Li	stp	A_l, A_h, [dstend, -48]
*412f47f9SXin Li	stp	B_l, B_h, [dstend, -32]
*412f47f9SXin Li	stp	C_l, C_h, [dstend, -16]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li
*412f47f9SXin Li	/* Large backwards copy for overlapping copies.
*412f47f9SXin Li	   Copy 16 bytes and then align dst to 16-byte alignment.  */
*412f47f9SXin LiL(copy_long_backwards):
*412f47f9SXin Li	ldp	D_l, D_h, [srcend, -16]
*412f47f9SXin Li	and	tmp1, dstend, 15
*412f47f9SXin Li	sub	srcend, srcend, tmp1
*412f47f9SXin Li	sub	count, count, tmp1
*412f47f9SXin Li	ldp	A_l, A_h, [srcend, -16]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -16]
*412f47f9SXin Li	ldp	B_l, B_h, [srcend, -32]
*412f47f9SXin Li	ldp	C_l, C_h, [srcend, -48]
*412f47f9SXin Li	ldp	D_l, D_h, [srcend, -64]!
*412f47f9SXin Li	sub	dstend, dstend, tmp1
*412f47f9SXin Li	subs	count, count, 128
*412f47f9SXin Li	b.ls	L(copy64_from_start)
*412f47f9SXin Li
*412f47f9SXin LiL(loop64_backwards):
*412f47f9SXin Li	stp	A_l, A_h, [dstend, -16]
*412f47f9SXin Li	ldp	A_l, A_h, [srcend, -16]
*412f47f9SXin Li	stp	B_l, B_h, [dstend, -32]
*412f47f9SXin Li	ldp	B_l, B_h, [srcend, -32]
*412f47f9SXin Li	stp	C_l, C_h, [dstend, -48]
*412f47f9SXin Li	ldp	C_l, C_h, [srcend, -48]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -64]!
*412f47f9SXin Li	ldp	D_l, D_h, [srcend, -64]!
*412f47f9SXin Li	subs	count, count, 64
*412f47f9SXin Li	b.hi	L(loop64_backwards)
*412f47f9SXin Li
*412f47f9SXin Li	/* Write the last iteration and copy 64 bytes from the start.  */
*412f47f9SXin LiL(copy64_from_start):
*412f47f9SXin Li	ldp	G_l, G_h, [src, 48]
*412f47f9SXin Li	stp	A_l, A_h, [dstend, -16]
*412f47f9SXin Li	ldp	A_l, A_h, [src, 32]
*412f47f9SXin Li	stp	B_l, B_h, [dstend, -32]
*412f47f9SXin Li	ldp	B_l, B_h, [src, 16]
*412f47f9SXin Li	stp	C_l, C_h, [dstend, -48]
*412f47f9SXin Li	ldp	C_l, C_h, [src]
*412f47f9SXin Li	stp	D_l, D_h, [dstend, -64]
*412f47f9SXin Li	stp	G_l, G_h, [dstin, 48]
*412f47f9SXin Li	stp	A_l, A_h, [dstin, 32]
*412f47f9SXin Li	stp	B_l, B_h, [dstin, 16]
*412f47f9SXin Li	stp	C_l, C_h, [dstin]
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiEND (__memcpy_aarch64)
*412f47f9SXin Li