Merge remote-tracking branch 'qatar/master'

* qatar/master: (35 commits) h264_idct_10bit: port x86 assembly to cpuflags. x86inc: clip num_args to 7 on x86-32. x86inc: sync to latest version from x264. fft: rename "z" to "zc" to prevent name collision. wv: return meaningful error codes. wv: return AVERROR_EOF on EOF, not EIO. mp3dec: forward errors for av_get_packet(). mp3dec: remove a pointless local variable. mp3dec: remove commented out cruft. lavfi: bump minor to mark stabilizing the ABI. FATE: add tests for yadif. FATE: add a test for delogo video filter. FATE: add a test for amix audio filter. audiogen: allow specifying random seed as a commandline parameter. vc1dec: Override invalid macroblock quantizer vc1: avoid reading beyond the last line in vc1_draw_sprites() vc1dec: check that coded slice positions and interlacing match. vc1dec: Do not ignore ff_vc1_parse_frame_header_adv return value configure: Move parts that should not be user-selectable to CONFIG_EXTRA lavf: remove commented out cruft in avformat_find_stream_info() ... Conflicts: Makefile configure libavcodec/vc1dec.c libavcodec/x86/h264_deblock.asm libavcodec/x86/h264_deblock_10bit.asm libavcodec/x86/h264dsp_mmx.c libavfilter/version.h libavformat/mp3dec.c libavformat/utils.c libavformat/wv.c libavutil/x86/x86inc.asm Merged-by: Michael Niedermayer <michaelni@gmx.at>
13 years ago · 706bd8ea19
parent 0f8f924847 c83f44dba1
commit 706bd8ea19
40 changed files with 807 additions and 525 deletions
--- a/common.mak
+++ b/common.mak
@ -11,7 +11,7 @@ ifndef V
 Q      = @
 ECHO   = printf "$(1)\t%s\n" $(2)
 BRIEF  = CC CXX AS YASM AR LD HOSTCC STRIP CP
-SILENT = DEPCC DEPAS DEPHOSTCC YASMDEP RM RANLIB
+SILENT = DEPCC DEPAS DEPHOSTCC DEPYASM RM RANLIB
 MSG    = $@
 M      = @$(call ECHO,$(TAG),$@);
 $(foreach VAR,$(BRIEF), \
@ -35,7 +35,7 @@ LDFLAGS    := $(ALLFFLIBS:%=-Llib%) $(LDFLAGS)

 define COMPILE
       $(call $(1)DEP,$(1))
-       $($(1)) $($(1)FLAGS) $($(1)_DEPFLAGS) -c $($(1)_O) $<
+       $($(1)) $($(1)FLAGS) $($(1)_DEPFLAGS) $($(1)_C) $($(1)_O) $<
 endef

 COMPILE_C = $(call COMPILE,CC)
@ -55,7 +55,7 @@ COMPILE_S = $(call COMPILE,AS)
 	$(COMPILE_S)

 %.ho: %.h
-	$(CC) $(CPPFLAGS) $(CFLAGS) -c -o $@ -x c $<
+	$(CC) $(CCFLAGS) -c $(CC_O) -x c $<

 %.ver: %.v
 	$(Q)sed 's/$$MAJOR/$($(basename $(@F))_VERSION_MAJOR)/' $^ > $@
--- a/39
+++ b/39
@ -673,11 +673,15 @@ cc_o(){
    eval printf '%s\\n' $CC_O
 }

+cc_e(){
+    eval printf '%s\\n' $CC_E
+}
+
 check_cc(){
    log check_cc "$@"
    cat > $TMPC
    log_file $TMPC
-    check_cmd $cc $CPPFLAGS $CFLAGS "$@" -c $(cc_o $TMPO) $TMPC
+    check_cmd $cc $CPPFLAGS $CFLAGS "$@" $CC_C $(cc_o $TMPO) $TMPC
 }

 check_cxx(){
@ -691,14 +695,14 @@ check_cpp(){
    log check_cpp "$@"
    cat > $TMPC
    log_file $TMPC
-    check_cmd $cc $CPPFLAGS $CFLAGS "$@" -E -o $TMPO $TMPC
+    check_cmd $cc $CPPFLAGS $CFLAGS "$@" $(cc_e $TMPO) $TMPC
 }

 check_as(){
    log check_as "$@"
    cat > $TMPC
    log_file $TMPC
-    check_cmd $as $CPPFLAGS $ASFLAGS "$@" -c -o $TMPO $TMPC
+    check_cmd $as $CPPFLAGS $ASFLAGS "$@" $AS_C -o $TMPO $TMPC
 }

 check_asm(){
@ -1043,7 +1047,6 @@ PROGRAM_LIST="
 CONFIG_LIST="
    $COMPONENT_LIST
    $PROGRAM_LIST
-    ac3dsp
    avcodec
    avdevice
    avfilter
@ -1061,7 +1064,6 @@ CONFIG_LIST="
    fft
    fontconfig
    frei0r
-    gcrypt
    gnutls
    gpl
    gray
@ -1107,8 +1109,6 @@ CONFIG_LIST="
    mdct
    memalign_hack
    memory_poisoning
-    mpegaudiodsp
-    nettle
    network
    nonfree
    openal
@ -1116,11 +1116,9 @@ CONFIG_LIST="
    pic
    postproc
    rdft
-    rtpdec
    runtime_cpudetect
    safe_bitstream_reader
    shared
-    sinewin
    small
    sram
    static
@ -1341,7 +1339,9 @@ HAVE_LIST="
 # options emitted with CONFIG_ prefix but not available on command line
 CONFIG_EXTRA="
    aandcttables
+    ac3dsp
    avutil
+    gcrypt
    golomb
    gplv3
    h264chroma
@ -1351,6 +1351,10 @@ CONFIG_EXTRA="
    huffman
    lgplv3
    lpc
+    mpegaudiodsp
+    nettle
+    rtpdec
+    sinewin
    vp3dsp
 "

@ -1738,7 +1742,7 @@ v4l_indev_deps="linux_videodev_h"
 v4l2_indev_deps_any="linux_videodev2_h sys_videoio_h"
 vfwcap_indev_deps="capCreateCaptureWindow vfwcap_defines"
 vfwcap_indev_extralibs="-lavicap32"
-x11_grab_device_indev_deps="x11grab"
+x11grab_indev_deps="x11grab"

 # protocols
 bluray_protocol_deps="libbluray"
@ -1968,10 +1972,14 @@ asflags_filter=echo
 cflags_filter=echo
 ldflags_filter=echo

+AS_C='-c'
 AS_O='-o $@'
+CC_C='-c'
+CC_E='-E -o $@'
 CC_O='-o $@'
 CXX_O='-o $@'
 LD_O='-o $@'
+HOSTCC_C='-c'
 HOSTCC_O='-o $@'

 host_cflags='-D_ISOC99_SOURCE -D_XOPEN_SOURCE=600 -O3 -g'
@ -2331,7 +2339,8 @@ probe_cc(){
    pfx=$1
    _cc=$2

-    unset _type _ident _cc_o _flags _cflags _ldflags _depflags _DEPCMD _DEPFLAGS
+    unset _type _ident _cc_c _cc_e _cc_o _flags _cflags _ldflags
+    unset _depflags _DEPCMD _DEPFLAGS
    _flags_filter=echo

    if $_cc -v 2>&1 | grep -q '^gcc.*LLVM'; then
@ -2394,6 +2403,7 @@ probe_cc(){
        _ident=$($_cc -version | head -n1 | tr -s ' ')
        _flags='--gcc --abi=eabi -me'
        _cflags='-D__gnuc_va_list=va_list -D__USER_LABEL_PREFIX__='
+        _cc_e='-ppl -fe=$@'
        _cc_o='-fe=$@'
        as_default="${cross_prefix}gcc"
        ld_default="${cross_prefix}gcc"
@ -2445,6 +2455,8 @@ probe_cc(){
 }

 set_ccvars(){
+    eval ${1}_C=\${_cc_c-\${${1}_C}}
+    eval ${1}_E=\${_cc_e-\${${1}_E}}
    eval ${1}_O=\${_cc_o-\${${1}_O}}

    if [ -n "$_depflags" ]; then
@ -3874,7 +3886,7 @@ DEPCCFLAGS=$DEPCCFLAGS \$(CPPFLAGS)
 DEPAS=$as
 DEPASFLAGS=$DEPASFLAGS \$(CPPFLAGS)
 YASM=$yasmexe
-YASMDEP=$yasmexe
+DEPYASM=$yasmexe
 AR=$ar
 RANLIB=$ranlib
 CP=cp -p
@ -3884,7 +3896,9 @@ CPPFLAGS=$CPPFLAGS
 CFLAGS=$CFLAGS
 CXXFLAGS=$CXXFLAGS
 ASFLAGS=$ASFLAGS
+AS_C=$AS_C
 AS_O=$AS_O
+CC_C=$CC_C
 CC_O=$CC_O
 CXX_O=$CXX_O
 LD_O=$LD_O
@ -3919,6 +3933,7 @@ DEPHOSTCCFLAGS=$DEPHOSTCCFLAGS \$(HOSTCCFLAGS)
 HOSTCCDEP=$HOSTCCDEP
 HOSTCCDEP_FLAGS=$HOSTCCDEP_FLAGS
 HOSTCC_DEPFLAGS=$HOSTCC_DEPFLAGS
+HOSTCC_C=$HOSTCC_C
 HOSTCC_O=$HOSTCC_O
 TARGET_EXEC=$target_exec
 TARGET_PATH=$target_path
--- a/libavcodec/vc1dec.c
+++ b/libavcodec/vc1dec.c
@ -1050,9 +1050,10 @@ static void vc1_mc_4mv_chroma4(VC1Context *v)
        if ((edges&8) && s->mb_y == (s->mb_height - 1))        \
            mquant = v->altpq;                                 \
        if (!mquant || mquant > 31) {                          \
-            av_log(v->s.avctx, AV_LOG_ERROR, "invalid mquant %d\n", mquant);   \
-            mquant = 1;                                \
-        }                                              \
+            av_log(v->s.avctx, AV_LOG_ERROR,                   \
+                   "Overriding invalid mquant %d\n", mquant);  \
+            mquant = 1;                                        \
+        }                                                      \
    }

 /**
@ -4944,15 +4945,17 @@ static void vc1_draw_sprites(VC1Context *v, SpriteData* sd)
                int      iline  = s->current_picture.f.linesize[plane];
                int      ycoord = yoff[sprite] + yadv[sprite] * row;
                int      yline  = ycoord >> 16;
+                int      next_line;
                ysub[sprite] = ycoord & 0xFFFF;
                if (sprite) {
                    iplane = s->last_picture.f.data[plane];
                    iline  = s->last_picture.f.linesize[plane];
                }
+                next_line = FFMIN(yline + 1, (v->sprite_height >> !!plane) - 1) * iline;
                if (!(xoff[sprite] & 0xFFFF) && xadv[sprite] == 1 << 16) {
                        src_h[sprite][0] = iplane + (xoff[sprite] >> 16) +  yline      * iline;
                    if (ysub[sprite])
-                        src_h[sprite][1] = iplane + (xoff[sprite] >> 16) + FFMIN(yline + 1, (v->sprite_height>>!!plane)-1) * iline;
+                        src_h[sprite][1] = iplane + (xoff[sprite] >> 16) + next_line;
                } else {
                    if (sr_cache[sprite][0] != yline) {
                        if (sr_cache[sprite][1] == yline) {
@ -4964,7 +4967,9 @@ static void vc1_draw_sprites(VC1Context *v, SpriteData* sd)
                        }
                    }
                    if (ysub[sprite] && sr_cache[sprite][1] != yline + 1) {
-                        v->vc1dsp.sprite_h(v->sr_rows[sprite][1], iplane + FFMIN(yline + 1, (v->sprite_height>>!!plane)-1) * iline, xoff[sprite], xadv[sprite], width);
+                        v->vc1dsp.sprite_h(v->sr_rows[sprite][1],
+                                           iplane + next_line, xoff[sprite],
+                                           xadv[sprite], width);
                        sr_cache[sprite][1] = yline + 1;
                    }
                    src_h[sprite][0] = v->sr_rows[sprite][0];
@ -5581,8 +5586,10 @@ static int vc1_decode_frame(AVCodecContext *avctx, void *data,
        mb_height = s->mb_height >> v->field_mode;
        for (i = 0; i <= n_slices; i++) {
            if (i > 0 &&  slices[i - 1].mby_start >= mb_height) {
-                if(v->field_mode <= 0) {
-                    av_log(v->s.avctx, AV_LOG_ERROR, "invalid end_mb_y %d\n", slices[i - 1].mby_start);
+                if (v->field_mode <= 0) {
+                    av_log(v->s.avctx, AV_LOG_ERROR, "Slice %d starts beyond "
+                           "picture boundary (%d >= %d)\n", i,
+                           slices[i - 1].mby_start, mb_height);
                    continue;
                }
                v->second_field = 1;
@ -5597,13 +5604,13 @@ static int vc1_decode_frame(AVCodecContext *avctx, void *data,
                v->pic_header_flag = 0;
                if (v->field_mode && i == n_slices1 + 2) {
                    if (ff_vc1_parse_frame_header_adv(v, &s->gb) < 0) {
-                        av_log(v->s.avctx, AV_LOG_ERROR, "slice header damaged\n");
+                        av_log(v->s.avctx, AV_LOG_ERROR, "Field header damaged\n");
                        continue;
                    }
                } else if (get_bits1(&s->gb)) {
                    v->pic_header_flag = 1;
                    if (ff_vc1_parse_frame_header_adv(v, &s->gb) < 0) {
-                        av_log(v->s.avctx, AV_LOG_ERROR, "slice header damaged\n");
+                        av_log(v->s.avctx, AV_LOG_ERROR, "Slice header damaged\n");
                        continue;
                    }
                }
--- a/libavcodec/x86/dsputil_mmx.c
+++ b/libavcodec/x86/dsputil_mmx.c
@ -2137,10 +2137,10 @@ void ff_ ## OP ## _h264_chroma_mc ## NUM ## _ ## DEPTH ## _ ## OPT      \
                                      (uint8_t *dst, uint8_t *src,      \
                                       int stride, int h, int x, int y);

-CHROMA_MC(put, 2, 10, mmxext)
-CHROMA_MC(avg, 2, 10, mmxext)
-CHROMA_MC(put, 4, 10, mmxext)
-CHROMA_MC(avg, 4, 10, mmxext)
+CHROMA_MC(put, 2, 10, mmx2)
+CHROMA_MC(avg, 2, 10, mmx2)
+CHROMA_MC(put, 4, 10, mmx2)
+CHROMA_MC(avg, 4, 10, mmx2)
 CHROMA_MC(put, 8, 10, sse2)
 CHROMA_MC(avg, 8, 10, sse2)
 CHROMA_MC(put, 8, 10, avx)
@ -2841,10 +2841,10 @@ static void dsputil_init_mmx2(DSPContext *c, AVCodecContext *avctx,
        c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_mmx2;
    }
    if (bit_depth == 10 && CONFIG_H264CHROMA) {
-        c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmxext;
-        c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmxext;
-        c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmxext;
-        c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmxext;
+        c->put_h264_chroma_pixels_tab[2] = ff_put_h264_chroma_mc2_10_mmx2;
+        c->avg_h264_chroma_pixels_tab[2] = ff_avg_h264_chroma_mc2_10_mmx2;
+        c->put_h264_chroma_pixels_tab[1] = ff_put_h264_chroma_mc4_10_mmx2;
+        c->avg_h264_chroma_pixels_tab[1] = ff_avg_h264_chroma_mc4_10_mmx2;
    }

    c->add_hfyu_median_prediction   = ff_add_hfyu_median_prediction_mmx2;
--- a/libavcodec/x86/fft_mmx.asm
+++ b/libavcodec/x86/fft_mmx.asm
@ -517,23 +517,23 @@ INIT_MMX 3dnow
 FFT48_3DN


-%define Z(x) [zq + o1q*(x&6) + mmsize*(x&1)]
-%define Z2(x) [zq + o3q + mmsize*(x&1)]
-%define ZH(x) [zq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
-%define Z2H(x) [zq + o3q + mmsize*(x&1) + mmsize/2]
+%define Z(x) [zcq + o1q*(x&6) + mmsize*(x&1)]
+%define Z2(x) [zcq + o3q + mmsize*(x&1)]
+%define ZH(x) [zcq + o1q*(x&6) + mmsize*(x&1) + mmsize/2]
+%define Z2H(x) [zcq + o3q + mmsize*(x&1) + mmsize/2]

 %macro DECL_PASS 2+ ; name, payload
 align 16
 %1:
-DEFINE_ARGS z, w, n, o1, o3
+DEFINE_ARGS zc, w, n, o1, o3
    lea o3q, [nq*3]
    lea o1q, [nq*8]
    shl o3q, 4
 .loop:
    %2
-    add zq, mmsize*2
-    add wq, mmsize
-    sub nd, mmsize/8
+    add zcq, mmsize*2
+    add  wq, mmsize
+    sub  nd, mmsize/8
    jg .loop
    rep ret
 %endmacro
@ -748,7 +748,7 @@ section .text

 ; On x86_32, this function does the register saving and restoring for all of fft.
 ; The others pass args in registers and don't spill anything.
-cglobal fft_dispatch%2, 2,5,8, z, nbits
+cglobal fft_dispatch%2, 2,5,8, zc, nbits
    FFT_DISPATCH fullsuffix, nbits
    RET
 %endmacro ; DECL_FFT
--- a/libavcodec/x86/h264_chromamc_10bit.asm
+++ b/libavcodec/x86/h264_chromamc_10bit.asm
@ -60,10 +60,10 @@ SECTION .text
 ;-----------------------------------------------------------------------------
 ; void put/avg_h264_chroma_mc8(pixel *dst, pixel *src, int stride, int h, int mx, int my)
 ;-----------------------------------------------------------------------------
-%macro CHROMA_MC8 2
+%macro CHROMA_MC8 1
 ; put/avg_h264_chroma_mc8_*(uint8_t *dst /*align 8*/, uint8_t *src /*align 1*/,
 ;                              int stride, int h, int mx, int my)
-cglobal %1_h264_chroma_mc8_10_%2, 6,7,8
+cglobal %1_h264_chroma_mc8_10, 6,7,8
    movsxdifnidn  r2, r2d
    mov          r6d, r5d
    or           r6d, r4d
@ -173,8 +173,8 @@ cglobal %1_h264_chroma_mc8_10_%2, 6,7,8
    add           r0, r2
 %endmacro

-%macro CHROMA_MC4 2
-cglobal %1_h264_chroma_mc4_10_%2, 6,6,7
+%macro CHROMA_MC4 1
+cglobal %1_h264_chroma_mc4_10, 6,6,7
    movsxdifnidn  r2, r2d
    movd          m2, r4m         ; x
    movd          m3, r5m         ; y
@ -203,8 +203,8 @@ cglobal %1_h264_chroma_mc4_10_%2, 6,6,7
 ;-----------------------------------------------------------------------------
 ; void put/avg_h264_chroma_mc2(pixel *dst, pixel *src, int stride, int h, int mx, int my)
 ;-----------------------------------------------------------------------------
-%macro CHROMA_MC2 2
-cglobal %1_h264_chroma_mc2_10_%2, 6,7
+%macro CHROMA_MC2 1
+cglobal %1_h264_chroma_mc2_10, 6,7
    movsxdifnidn  r2, r2d
    mov          r6d, r4d
    shl          r4d, 16
@ -250,24 +250,24 @@ cglobal %1_h264_chroma_mc2_10_%2, 6,7
 %endmacro

 %define CHROMAMC_AVG  NOTHING
-INIT_XMM
-CHROMA_MC8 put, sse2
+INIT_XMM sse2
+CHROMA_MC8 put
 %if HAVE_AVX
-INIT_AVX
-CHROMA_MC8 put, avx
+INIT_XMM avx
+CHROMA_MC8 put
 %endif
-INIT_MMX
-CHROMA_MC4 put, mmxext
-CHROMA_MC2 put, mmxext
+INIT_MMX mmx2
+CHROMA_MC4 put
+CHROMA_MC2 put

 %define CHROMAMC_AVG  AVG
 %define PAVG          pavgw
-INIT_XMM
-CHROMA_MC8 avg, sse2
+INIT_XMM sse2
+CHROMA_MC8 avg
 %if HAVE_AVX
-INIT_AVX
-CHROMA_MC8 avg, avx
+INIT_XMM avx
+CHROMA_MC8 avg
 %endif
-INIT_MMX
-CHROMA_MC4 avg, mmxext
-CHROMA_MC2 avg, mmxext
+INIT_MMX mmx2
+CHROMA_MC4 avg
+CHROMA_MC2 avg
--- a/libavcodec/x86/h264_deblock.asm
+++ b/libavcodec/x86/h264_deblock.asm
@ -282,8 +282,8 @@ cextern pb_A1
 ;-----------------------------------------------------------------------------
 ; void deblock_v_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-%macro DEBLOCK_LUMA 1
-cglobal deblock_v_luma_8_%1, 5,5,10
+%macro DEBLOCK_LUMA 0
+cglobal deblock_v_luma_8, 5,5,10
    movd    m8, [r4] ; tc0
    lea     r4, [r1*3]
    dec     r2d        ; alpha-1
@ -327,8 +327,8 @@ cglobal deblock_v_luma_8_%1, 5,5,10
 ;-----------------------------------------------------------------------------
 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-INIT_MMX
-cglobal deblock_h_luma_8_%1, 5,9
+INIT_MMX cpuname
+cglobal deblock_h_luma_8, 5,9
    movsxd r7,  r1d
    lea    r8,  [r7+r7*2]
    lea    r6,  [r0-4]
@ -355,7 +355,7 @@ cglobal deblock_h_luma_8_%1, 5,9
 %if WIN64
    mov    [rsp+0x20], r4
 %endif
-    call   deblock_v_luma_8_%1
+    call   deblock_v_luma_8

    ; transpose 16x4 -> original space  (only the middle 4 rows were changed by the filter)
    add    r6, 2
@ -384,26 +384,26 @@ cglobal deblock_h_luma_8_%1, 5,9
    RET
 %endmacro

-INIT_XMM
-DEBLOCK_LUMA sse2
+INIT_XMM sse2
+DEBLOCK_LUMA
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA avx
+INIT_XMM avx
+DEBLOCK_LUMA
 %endif

 %else

-%macro DEBLOCK_LUMA 3
+%macro DEBLOCK_LUMA 2
 ;-----------------------------------------------------------------------------
 ; void deblock_v8_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-cglobal deblock_%2_luma_8_%1, 5,5
+cglobal deblock_%1_luma_8, 5,5
    lea     r4, [r1*3]
    dec     r2     ; alpha-1
    neg     r4
    dec     r3     ; beta-1
    add     r4, r0 ; pix-3*stride
-    %assign pad 2*%3+12-(stack_offset&15)
+    %assign pad 2*%2+12-(stack_offset&15)
    SUB     esp, pad

    mova    m0, [r4+r1]   ; p1
@ -417,7 +417,7 @@ cglobal deblock_%2_luma_8_%1, 5,5
    movd    m4, [r3] ; tc0
    punpcklbw m4, m4
    punpcklbw m4, m4 ; tc = 4x tc0[3], 4x tc0[2], 4x tc0[1], 4x tc0[0]
-    mova   [esp+%3], m4 ; tc
+    mova   [esp+%2], m4 ; tc
    pcmpgtb m4, m3
    mova    m3, [r4] ; p2
    pand    m4, m7
@ -425,7 +425,7 @@ cglobal deblock_%2_luma_8_%1, 5,5

    DIFF_GT2 m1, m3, m5, m6, m7 ; |p2-p0| > beta-1
    pand    m6, m4
-    pand    m4, [esp+%3] ; tc
+    pand    m4, [esp+%2] ; tc
    psubb   m7, m4, m6
    pand    m6, m4
    LUMA_Q1 m0, m3, [r4], [r4+r1], m6, m4
@ -433,7 +433,7 @@ cglobal deblock_%2_luma_8_%1, 5,5
    mova    m4, [r0+2*r1] ; q2
    DIFF_GT2 m2, m4, m5, m6, m3 ; |q2-q0| > beta-1
    pand    m6, [esp] ; mask
-    mova    m5, [esp+%3] ; tc
+    mova    m5, [esp+%2] ; tc
    psubb   m7, m6
    pand    m5, m6
    mova    m3, [r0+r1]
@ -448,8 +448,8 @@ cglobal deblock_%2_luma_8_%1, 5,5
 ;-----------------------------------------------------------------------------
 ; void deblock_h_luma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-INIT_MMX
-cglobal deblock_h_luma_8_%1, 0,5
+INIT_MMX cpuname
+cglobal deblock_h_luma_8, 0,5
    mov    r0, r0mp
    mov    r3, r1m
    lea    r4, [r3*3]
@ -472,11 +472,11 @@ cglobal deblock_h_luma_8_%1, 0,5
    PUSH   dword r2m
    PUSH   dword 16
    PUSH   dword r0
-    call   deblock_%2_luma_8_%1
-%ifidn %2, v8
+    call   deblock_%1_luma_8
+%ifidn %1, v8
    add    dword [esp   ], 8 ; pix_tmp+0x38
    add    dword [esp+16], 2 ; tc0+2
-    call   deblock_%2_luma_8_%1
+    call   deblock_%1_luma_8
 %endif
    ADD    esp, 20

@ -503,13 +503,13 @@ cglobal deblock_h_luma_8_%1, 0,5
    RET
 %endmacro ; DEBLOCK_LUMA

-INIT_MMX
-DEBLOCK_LUMA mmxext, v8, 8
-INIT_XMM
-DEBLOCK_LUMA sse2, v, 16
+INIT_MMX mmx2
+DEBLOCK_LUMA v8, 8
+INIT_XMM sse2
+DEBLOCK_LUMA v, 16
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA avx, v, 16
+INIT_XMM avx
+DEBLOCK_LUMA v, 16
 %endif

 %endif ; ARCH
@ -612,7 +612,7 @@ DEBLOCK_LUMA avx, v, 16
    %define mask1p mask1q
 %endmacro

-%macro DEBLOCK_LUMA_INTRA 2
+%macro DEBLOCK_LUMA_INTRA 1
    %define p1 m0
    %define p0 m1
    %define q0 m2
@ -647,7 +647,7 @@ DEBLOCK_LUMA avx, v, 16
 ;-----------------------------------------------------------------------------
 ; void deblock_v_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_%2_luma_intra_8_%1, 4,6,16
+cglobal deblock_%1_luma_intra_8, 4,6,16
 %if ARCH_X86_64 == 0
    sub     esp, 0x60
 %endif
@ -704,12 +704,12 @@ cglobal deblock_%2_luma_intra_8_%1, 4,6,16
 %endif
    RET

-INIT_MMX
+INIT_MMX cpuname
 %if ARCH_X86_64
 ;-----------------------------------------------------------------------------
 ; void deblock_h_luma_intra( uint8_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_h_luma_intra_8_%1, 4,9
+cglobal deblock_h_luma_intra_8, 4,9
    movsxd r7,  r1d
    lea    r8,  [r7*3]
    lea    r6,  [r0-4]
@ -725,7 +725,7 @@ cglobal deblock_h_luma_intra_8_%1, 4,9

    lea    r0,  [pix_tmp+0x40]
    mov    r1,  0x10
-    call   deblock_v_luma_intra_8_%1
+    call   deblock_v_luma_intra_8

    ; transpose 16x6 -> original space (but we can't write only 6 pixels, so really 16x8)
    lea    r5, [r6+r8]
@ -738,7 +738,7 @@ cglobal deblock_h_luma_intra_8_%1, 4,9
    add    rsp, 0x88
    RET
 %else
-cglobal deblock_h_luma_intra_8_%1, 2,4
+cglobal deblock_h_luma_intra_8, 2,4
    lea    r3,  [r1*3]
    sub    r0,  4
    lea    r2,  [r0+r3]
@ -757,10 +757,10 @@ cglobal deblock_h_luma_intra_8_%1, 2,4
    PUSH   dword r2m
    PUSH   dword 16
    PUSH   r0
-    call   deblock_%2_luma_intra_8_%1
-%ifidn %2, v8
+    call   deblock_%1_luma_intra_8
+%ifidn %1, v8
    add    dword [rsp], 8 ; pix_tmp+8
-    call   deblock_%2_luma_intra_8_%1
+    call   deblock_%1_luma_intra_8
 %endif
    ADD    esp, 16

@ -779,18 +779,18 @@ cglobal deblock_h_luma_intra_8_%1, 2,4
 %endif ; ARCH_X86_64
 %endmacro ; DEBLOCK_LUMA_INTRA

-INIT_XMM
-DEBLOCK_LUMA_INTRA sse2, v
+INIT_XMM sse2
+DEBLOCK_LUMA_INTRA v
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA_INTRA avx , v
+INIT_XMM avx
+DEBLOCK_LUMA_INTRA v
 %endif
 %if ARCH_X86_64 == 0
-INIT_MMX
-DEBLOCK_LUMA_INTRA mmxext, v8
+INIT_MMX mmx2
+DEBLOCK_LUMA_INTRA v8
 %endif

-INIT_MMX
+INIT_MMX mmx2

 %macro CHROMA_V_START 0
    dec    r2d      ; alpha-1
@ -815,13 +815,13 @@ INIT_MMX
 ;-----------------------------------------------------------------------------
 ; void ff_deblock_v_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_chroma_8_mmxext, 5,6
+cglobal deblock_v_chroma_8, 5,6
    CHROMA_V_START
    movq  m0, [t5]
    movq  m1, [t5+r1]
    movq  m2, [r0]
    movq  m3, [r0+r1]
-    call ff_chroma_inter_body_mmxext
+    call ff_chroma_inter_body_mmx2
    movq  [t5+r1], m1
    movq  [r0], m2
    RET
@ -829,7 +829,7 @@ cglobal deblock_v_chroma_8_mmxext, 5,6
 ;-----------------------------------------------------------------------------
 ; void ff_deblock_h_chroma( uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-cglobal deblock_h_chroma_8_mmxext, 5,7
+cglobal deblock_h_chroma_8, 5,7
 %if UNIX64
    %define buf0 [rsp-24]
    %define buf1 [rsp-16]
@ -859,7 +859,7 @@ cglobal deblock_h_chroma_8_mmxext, 5,7
    RET

 ALIGN 16
-ff_chroma_inter_body_mmxext:
+ff_chroma_inter_body_mmx2:
    LOAD_MASK  r2d, r3d
    movd       m6, [r4] ; tc0
    punpcklbw  m6, m6
@ -886,13 +886,13 @@ ff_chroma_inter_body_mmxext:
 ;-----------------------------------------------------------------------------
 ; void ff_deblock_v_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_chroma_intra_8_mmxext, 4,5
+cglobal deblock_v_chroma_intra_8, 4,5
    CHROMA_V_START
    movq  m0, [t5]
    movq  m1, [t5+r1]
    movq  m2, [r0]
    movq  m3, [r0+r1]
-    call ff_chroma_intra_body_mmxext
+    call ff_chroma_intra_body_mmx2
    movq  [t5+r1], m1
    movq  [r0], m2
    RET
@ -900,15 +900,15 @@ cglobal deblock_v_chroma_intra_8_mmxext, 4,5
 ;-----------------------------------------------------------------------------
 ; void ff_deblock_h_chroma_intra( uint8_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_h_chroma_intra_8_mmxext, 4,6
+cglobal deblock_h_chroma_intra_8, 4,6
    CHROMA_H_START
    TRANSPOSE4x8_LOAD  bw, wd, dq, PASS8ROWS(t5, r0, r1, t6)
-    call ff_chroma_intra_body_mmxext
+    call ff_chroma_intra_body_mmx2
    TRANSPOSE8x4B_STORE PASS8ROWS(t5, r0, r1, t6)
    RET

 ALIGN 16
-ff_chroma_intra_body_mmxext:
+ff_chroma_intra_body_mmx2:
    LOAD_MASK r2d, r3d
    movq   m5, m1
    movq   m6, m2
--- a/libavcodec/x86/h264_deblock_10bit.asm
+++ b/libavcodec/x86/h264_deblock_10bit.asm
@ -151,11 +151,11 @@ cextern pw_4
 %endif
 %endmacro

-%macro DEBLOCK_LUMA 1
+%macro DEBLOCK_LUMA 0
 ;-----------------------------------------------------------------------------
 ; void deblock_v_luma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_luma_10_%1, 5,5,8*(mmsize/16)
+cglobal deblock_v_luma_10, 5,5,8*(mmsize/16)
    %assign pad 5*mmsize+12-(stack_offset&15)
    %define tcm [rsp]
    %define ms1 [rsp+mmsize]
@ -210,7 +210,7 @@ cglobal deblock_v_luma_10_%1, 5,5,8*(mmsize/16)
    ADD         rsp, pad
    RET

-cglobal deblock_h_luma_10_%1, 5,6,8*(mmsize/16)
+cglobal deblock_h_luma_10, 5,6,8*(mmsize/16)
    %assign pad 7*mmsize+12-(stack_offset&15)
    %define tcm [rsp]
    %define ms1 [rsp+mmsize]
@ -301,7 +301,6 @@ cglobal deblock_h_luma_10_%1, 5,6,8*(mmsize/16)
    RET
 %endmacro

-INIT_XMM
 %if ARCH_X86_64
 ; in:  m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
 ;      m12=alpha, m13=beta
@ -339,8 +338,8 @@ INIT_XMM
    SWAP         3, 9
 %endmacro

-%macro DEBLOCK_LUMA_64 1
-cglobal deblock_v_luma_10_%1, 5,5,15
+%macro DEBLOCK_LUMA_64 0
+cglobal deblock_v_luma_10, 5,5,15
    %define p2 m8
    %define p1 m0
    %define p0 m1
@ -377,7 +376,7 @@ cglobal deblock_v_luma_10_%1, 5,5,15
    jg .loop
    REP_RET

-cglobal deblock_h_luma_10_%1, 5,7,15
+cglobal deblock_h_luma_10, 5,7,15
    shl        r2d, 2
    shl        r3d, 2
    LOAD_AB    m12, m13, r2d, r3d
@ -417,11 +416,11 @@ cglobal deblock_h_luma_10_%1, 5,7,15
    REP_RET
 %endmacro

-INIT_XMM
-DEBLOCK_LUMA_64 sse2
+INIT_XMM sse2
+DEBLOCK_LUMA_64
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA_64 avx
+INIT_XMM avx
+DEBLOCK_LUMA_64
 %endif
 %endif

@ -604,8 +603,8 @@ DEBLOCK_LUMA_64 avx
 ;-----------------------------------------------------------------------------
 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-%macro DEBLOCK_LUMA_INTRA_64 1
-cglobal deblock_v_luma_intra_10_%1, 4,7,16
+%macro DEBLOCK_LUMA_INTRA_64 0
+cglobal deblock_v_luma_intra_10, 4,7,16
    %define t0 m1
    %define t1 m2
    %define t2 m4
@ -655,7 +654,7 @@ cglobal deblock_v_luma_intra_10_%1, 4,7,16
 ;-----------------------------------------------------------------------------
 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_h_luma_intra_10_%1, 4,7,16
+cglobal deblock_h_luma_intra_10, 4,7,16
    %define t0 m15
    %define t1 m14
    %define t2 m2
@ -714,20 +713,20 @@ cglobal deblock_h_luma_intra_10_%1, 4,7,16
    RET
 %endmacro

-INIT_XMM
-DEBLOCK_LUMA_INTRA_64 sse2
+INIT_XMM sse2
+DEBLOCK_LUMA_INTRA_64
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA_INTRA_64 avx
+INIT_XMM avx
+DEBLOCK_LUMA_INTRA_64
 %endif

 %endif

-%macro DEBLOCK_LUMA_INTRA 1
+%macro DEBLOCK_LUMA_INTRA 0
 ;-----------------------------------------------------------------------------
 ; void deblock_v_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_luma_intra_10_%1, 4,7,8*(mmsize/16)
+cglobal deblock_v_luma_intra_10, 4,7,8*(mmsize/16)
    LUMA_INTRA_INIT 3
    lea     r4, [r1*4]
    lea     r5, [r1*3]
@ -755,7 +754,7 @@ cglobal deblock_v_luma_intra_10_%1, 4,7,8*(mmsize/16)
 ;-----------------------------------------------------------------------------
 ; void deblock_h_luma_intra( uint16_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_h_luma_intra_10_%1, 4,7,8*(mmsize/16)
+cglobal deblock_h_luma_intra_10, 4,7,8*(mmsize/16)
    LUMA_INTRA_INIT 8
 %if mmsize == 8
    lea     r4, [r1*3]
@ -797,16 +796,16 @@ cglobal deblock_h_luma_intra_10_%1, 4,7,8*(mmsize/16)
 %endmacro

 %if ARCH_X86_64 == 0
-INIT_MMX
-DEBLOCK_LUMA mmxext
-DEBLOCK_LUMA_INTRA mmxext
-INIT_XMM
-DEBLOCK_LUMA sse2
-DEBLOCK_LUMA_INTRA sse2
+INIT_MMX mmx2
+DEBLOCK_LUMA
+DEBLOCK_LUMA_INTRA
+INIT_XMM sse2
+DEBLOCK_LUMA
+DEBLOCK_LUMA_INTRA
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_LUMA avx
-DEBLOCK_LUMA_INTRA avx
+INIT_XMM avx
+DEBLOCK_LUMA
+DEBLOCK_LUMA_INTRA
 %endif
 %endif

@ -849,11 +848,11 @@ DEBLOCK_LUMA_INTRA avx
    psraw       %1, 6
 %endmacro

-%macro DEBLOCK_CHROMA 1
+%macro DEBLOCK_CHROMA 0
 ;-----------------------------------------------------------------------------
 ; void deblock_v_chroma( uint16_t *pix, int stride, int alpha, int beta, int8_t *tc0 )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_chroma_10_%1, 5,7-(mmsize/16),8*(mmsize/16)
+cglobal deblock_v_chroma_10, 5,7-(mmsize/16),8*(mmsize/16)
    mov         r5, r0
    sub         r0, r1
    sub         r0, r1
@ -887,7 +886,7 @@ cglobal deblock_v_chroma_10_%1, 5,7-(mmsize/16),8*(mmsize/16)
 ;-----------------------------------------------------------------------------
 ; void deblock_v_chroma_intra( uint16_t *pix, int stride, int alpha, int beta )
 ;-----------------------------------------------------------------------------
-cglobal deblock_v_chroma_intra_10_%1, 4,6-(mmsize/16),8*(mmsize/16)
+cglobal deblock_v_chroma_intra_10, 4,6-(mmsize/16),8*(mmsize/16)
    mov         r4, r0
    sub         r0, r1
    sub         r0, r1
@ -914,12 +913,12 @@ cglobal deblock_v_chroma_intra_10_%1, 4,6-(mmsize/16),8*(mmsize/16)
 %endmacro

 %if ARCH_X86_64 == 0
-INIT_MMX
-DEBLOCK_CHROMA mmxext
+INIT_MMX mmx2
+DEBLOCK_CHROMA
 %endif
-INIT_XMM
-DEBLOCK_CHROMA sse2
+INIT_XMM sse2
+DEBLOCK_CHROMA
 %if HAVE_AVX
-INIT_AVX
-DEBLOCK_CHROMA avx
+INIT_XMM avx
+DEBLOCK_CHROMA
 %endif
--- a/libavcodec/x86/h264_idct_10bit.asm
+++ b/libavcodec/x86/h264_idct_10bit.asm
@ -72,25 +72,25 @@ SECTION .text
    STORE_DIFFx2 m2, m3, m4, m5, %1, %3
 %endmacro

-%macro IDCT_ADD_10 1
-cglobal h264_idct_add_10_%1, 3,3
+%macro IDCT_ADD_10 0
+cglobal h264_idct_add_10, 3,3
    IDCT4_ADD_10 r0, r1, r2
    RET
 %endmacro

-INIT_XMM
-IDCT_ADD_10 sse2
+INIT_XMM sse2
+IDCT_ADD_10
 %if HAVE_AVX
-INIT_AVX
-IDCT_ADD_10 avx
+INIT_XMM avx
+IDCT_ADD_10
 %endif

 ;-----------------------------------------------------------------------------
 ; h264_idct_add16(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 ;-----------------------------------------------------------------------------
 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
-%macro ADD4x4IDCT 1
-add4x4_idct_%1:
+%macro ADD4x4IDCT 0
+add4x4_idct %+ SUFFIX:
    add   r5, r0
    mova  m0, [r2+ 0]
    mova  m1, [r2+16]
@ -107,52 +107,52 @@ add4x4_idct_%1:
    ret
 %endmacro

-INIT_XMM
+INIT_XMM sse2
 ALIGN 16
-ADD4x4IDCT sse2
+ADD4x4IDCT
 %if HAVE_AVX
-INIT_AVX
+INIT_XMM avx
 ALIGN 16
-ADD4x4IDCT avx
+ADD4x4IDCT
 %endif

-%macro ADD16_OP 3
-    cmp          byte [r4+%3], 0
-    jz .skipblock%2
-    mov         r5d, [r1+%2*4]
-    call add4x4_idct_%1
-.skipblock%2:
-%if %2<15
+%macro ADD16_OP 2
+    cmp          byte [r4+%2], 0
+    jz .skipblock%1
+    mov         r5d, [r1+%1*4]
+    call add4x4_idct %+ SUFFIX
+.skipblock%1:
+%if %1<15
    add          r2, 64
 %endif
 %endmacro

-%macro IDCT_ADD16_10 1
-cglobal h264_idct_add16_10_%1, 5,6
-    ADD16_OP %1, 0, 4+1*8
-    ADD16_OP %1, 1, 5+1*8
-    ADD16_OP %1, 2, 4+2*8
-    ADD16_OP %1, 3, 5+2*8
-    ADD16_OP %1, 4, 6+1*8
-    ADD16_OP %1, 5, 7+1*8
-    ADD16_OP %1, 6, 6+2*8
-    ADD16_OP %1, 7, 7+2*8
-    ADD16_OP %1, 8, 4+3*8
-    ADD16_OP %1, 9, 5+3*8
-    ADD16_OP %1, 10, 4+4*8
-    ADD16_OP %1, 11, 5+4*8
-    ADD16_OP %1, 12, 6+3*8
-    ADD16_OP %1, 13, 7+3*8
-    ADD16_OP %1, 14, 6+4*8
-    ADD16_OP %1, 15, 7+4*8
+%macro IDCT_ADD16_10 0
+cglobal h264_idct_add16_10, 5,6
+    ADD16_OP 0, 4+1*8
+    ADD16_OP 1, 5+1*8
+    ADD16_OP 2, 4+2*8
+    ADD16_OP 3, 5+2*8
+    ADD16_OP 4, 6+1*8
+    ADD16_OP 5, 7+1*8
+    ADD16_OP 6, 6+2*8
+    ADD16_OP 7, 7+2*8
+    ADD16_OP 8, 4+3*8
+    ADD16_OP 9, 5+3*8
+    ADD16_OP 10, 4+4*8
+    ADD16_OP 11, 5+4*8
+    ADD16_OP 12, 6+3*8
+    ADD16_OP 13, 7+3*8
+    ADD16_OP 14, 6+4*8
+    ADD16_OP 15, 7+4*8
    REP_RET
 %endmacro

-INIT_XMM
-IDCT_ADD16_10 sse2
+INIT_XMM sse2
+IDCT_ADD16_10
 %if HAVE_AVX
-INIT_AVX
-IDCT_ADD16_10 avx
+INIT_XMM avx
+IDCT_ADD16_10
 %endif

 ;-----------------------------------------------------------------------------
@ -185,8 +185,8 @@ IDCT_ADD16_10 avx
    mova [%1+%3  ], m4
 %endmacro

-INIT_MMX
-cglobal h264_idct_dc_add_10_mmx2,3,3
+INIT_MMX mmx2
+cglobal h264_idct_dc_add_10,3,3
    movd      m0, [r1]
    paddd     m0, [pd_32]
    psrad     m0, 6
@ -199,8 +199,8 @@ cglobal h264_idct_dc_add_10_mmx2,3,3
 ;-----------------------------------------------------------------------------
 ; void h264_idct8_dc_add(pixel *dst, dctcoef *block, int stride)
 ;-----------------------------------------------------------------------------
-%macro IDCT8_DC_ADD 1
-cglobal h264_idct8_dc_add_10_%1,3,3,7
+%macro IDCT8_DC_ADD 0
+cglobal h264_idct8_dc_add_10,3,3,7
    mov      r1d, [r1]
    add       r1, 32
    sar       r1, 6
@ -214,45 +214,45 @@ cglobal h264_idct8_dc_add_10_%1,3,3,7
    RET
 %endmacro

-INIT_XMM
-IDCT8_DC_ADD sse2
+INIT_XMM sse2
+IDCT8_DC_ADD
 %if HAVE_AVX
-INIT_AVX
-IDCT8_DC_ADD avx
+INIT_XMM avx
+IDCT8_DC_ADD
 %endif

 ;-----------------------------------------------------------------------------
 ; h264_idct_add16intra(pixel *dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 ;-----------------------------------------------------------------------------
-%macro AC 2
-.ac%2
-    mov  r5d, [r1+(%2+0)*4]
-    call add4x4_idct_%1
-    mov  r5d, [r1+(%2+1)*4]
+%macro AC 1
+.ac%1
+    mov  r5d, [r1+(%1+0)*4]
+    call add4x4_idct %+ SUFFIX
+    mov  r5d, [r1+(%1+1)*4]
    add  r2, 64
-    call add4x4_idct_%1
+    call add4x4_idct %+ SUFFIX
    add  r2, 64
-    jmp .skipadd%2
+    jmp .skipadd%1
 %endmacro

 %assign last_block 16
-%macro ADD16_OP_INTRA 3
-    cmp      word [r4+%3], 0
-    jnz .ac%2
+%macro ADD16_OP_INTRA 2
+    cmp      word [r4+%2], 0
+    jnz .ac%1
    mov      r5d, [r2+ 0]
    or       r5d, [r2+64]
-    jz .skipblock%2
-    mov      r5d, [r1+(%2+0)*4]
-    call idct_dc_add_%1
-.skipblock%2:
-%if %2<last_block-2
+    jz .skipblock%1
+    mov      r5d, [r1+(%1+0)*4]
+    call idct_dc_add %+ SUFFIX
+.skipblock%1:
+%if %1<last_block-2
    add       r2, 128
 %endif
-.skipadd%2:
+.skipadd%1:
 %endmacro

-%macro IDCT_ADD16INTRA_10 1
-idct_dc_add_%1:
+%macro IDCT_ADD16INTRA_10 0
+idct_dc_add %+ SUFFIX:
    add       r5, r0
    movq      m0, [r2+ 0]
    movhps    m0, [r2+64]
@ -265,46 +265,46 @@ idct_dc_add_%1:
    IDCT_DC_ADD_OP_10 r5, r3, r6
    ret

-cglobal h264_idct_add16intra_10_%1,5,7,8
-    ADD16_OP_INTRA %1, 0, 4+1*8
-    ADD16_OP_INTRA %1, 2, 4+2*8
-    ADD16_OP_INTRA %1, 4, 6+1*8
-    ADD16_OP_INTRA %1, 6, 6+2*8
-    ADD16_OP_INTRA %1, 8, 4+3*8
-    ADD16_OP_INTRA %1, 10, 4+4*8
-    ADD16_OP_INTRA %1, 12, 6+3*8
-    ADD16_OP_INTRA %1, 14, 6+4*8
+cglobal h264_idct_add16intra_10,5,7,8
+    ADD16_OP_INTRA 0, 4+1*8
+    ADD16_OP_INTRA 2, 4+2*8
+    ADD16_OP_INTRA 4, 6+1*8
+    ADD16_OP_INTRA 6, 6+2*8
+    ADD16_OP_INTRA 8, 4+3*8
+    ADD16_OP_INTRA 10, 4+4*8
+    ADD16_OP_INTRA 12, 6+3*8
+    ADD16_OP_INTRA 14, 6+4*8
    REP_RET
-    AC %1, 8
-    AC %1, 10
-    AC %1, 12
-    AC %1, 14
-    AC %1, 0
-    AC %1, 2
-    AC %1, 4
-    AC %1, 6
+    AC 8
+    AC 10
+    AC 12
+    AC 14
+    AC 0
+    AC 2
+    AC 4
+    AC 6
 %endmacro

-INIT_XMM
-IDCT_ADD16INTRA_10 sse2
+INIT_XMM sse2
+IDCT_ADD16INTRA_10
 %if HAVE_AVX
-INIT_AVX
-IDCT_ADD16INTRA_10 avx
+INIT_XMM avx
+IDCT_ADD16INTRA_10
 %endif

 %assign last_block 36
 ;-----------------------------------------------------------------------------
 ; h264_idct_add8(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 ;-----------------------------------------------------------------------------
-%macro IDCT_ADD8 1
-cglobal h264_idct_add8_10_%1,5,8,7
+%macro IDCT_ADD8 0
+cglobal h264_idct_add8_10,5,8,7
 %if ARCH_X86_64
    mov      r7, r0
 %endif
    add      r2, 1024
    mov      r0, [r0]
-    ADD16_OP_INTRA %1, 16, 4+ 6*8
-    ADD16_OP_INTRA %1, 18, 4+ 7*8
+    ADD16_OP_INTRA 16, 4+ 6*8
+    ADD16_OP_INTRA 18, 4+ 7*8
    add      r2, 1024-128*2
 %if ARCH_X86_64
    mov      r0, [r7+gprsize]
@ -312,21 +312,21 @@ cglobal h264_idct_add8_10_%1,5,8,7
    mov      r0, r0m
    mov      r0, [r0+gprsize]
 %endif
-    ADD16_OP_INTRA %1, 32, 4+11*8
-    ADD16_OP_INTRA %1, 34, 4+12*8
+    ADD16_OP_INTRA 32, 4+11*8
+    ADD16_OP_INTRA 34, 4+12*8
    REP_RET
-    AC %1, 16
-    AC %1, 18
-    AC %1, 32
-    AC %1, 34
+    AC 16
+    AC 18
+    AC 32
+    AC 34

 %endmacro ; IDCT_ADD8

-INIT_XMM
-IDCT_ADD8 sse2
+INIT_XMM sse2
+IDCT_ADD8
 %if HAVE_AVX
-INIT_AVX
-IDCT_ADD8 avx
+INIT_XMM avx
+IDCT_ADD8
 %endif

 ;-----------------------------------------------------------------------------
@ -432,19 +432,19 @@ IDCT_ADD8 avx
    STORE_DIFFx2 m0, m1, m6, m7, %1, %3
 %endmacro

-%macro IDCT8_ADD 1
-cglobal h264_idct8_add_10_%1, 3,4,16
+%macro IDCT8_ADD 0
+cglobal h264_idct8_add_10, 3,4,16
 %if UNIX64 == 0
    %assign pad 16-gprsize-(stack_offset&15)
    sub  rsp, pad
-    call h264_idct8_add1_10_%1
+    call h264_idct8_add1_10 %+ SUFFIX
    add  rsp, pad
    RET
 %endif

 ALIGN 16
 ; TODO: does not need to use stack
-h264_idct8_add1_10_%1:
+h264_idct8_add1_10 %+ SUFFIX:
 %assign pad 256+16-gprsize
    sub          rsp, pad
    add   dword [r1], 32
@ -499,31 +499,31 @@ h264_idct8_add1_10_%1:
    ret
 %endmacro

-INIT_XMM
-IDCT8_ADD sse2
+INIT_XMM sse2
+IDCT8_ADD
 %if HAVE_AVX
-INIT_AVX
-IDCT8_ADD avx
+INIT_XMM avx
+IDCT8_ADD
 %endif

 ;-----------------------------------------------------------------------------
 ; h264_idct8_add4(pixel **dst, const int *block_offset, dctcoef *block, int stride, const uint8_t nnzc[6*8])
 ;-----------------------------------------------------------------------------
 ;;;;;;; NO FATE SAMPLES TRIGGER THIS
-%macro IDCT8_ADD4_OP 3
-    cmp       byte [r4+%3], 0
-    jz .skipblock%2
-    mov      r0d, [r6+%2*4]
+%macro IDCT8_ADD4_OP 2
+    cmp       byte [r4+%2], 0
+    jz .skipblock%1
+    mov      r0d, [r6+%1*4]
    add       r0, r5
-    call h264_idct8_add1_10_%1
-.skipblock%2:
-%if %2<12
+    call h264_idct8_add1_10 %+ SUFFIX
+.skipblock%1:
+%if %1<12
    add       r1, 256
 %endif
 %endmacro

-%macro IDCT8_ADD4 1
-cglobal h264_idct8_add4_10_%1, 0,7,16
+%macro IDCT8_ADD4 0
+cglobal h264_idct8_add4_10, 0,7,16
    %assign pad 16-gprsize-(stack_offset&15)
    SUB      rsp, pad
    mov       r5, r0mp
@ -531,17 +531,17 @@ cglobal h264_idct8_add4_10_%1, 0,7,16
    mov       r1, r2mp
    mov      r2d, r3m
    movifnidn r4, r4mp
-    IDCT8_ADD4_OP %1,  0, 4+1*8
-    IDCT8_ADD4_OP %1,  4, 6+1*8
-    IDCT8_ADD4_OP %1,  8, 4+3*8
-    IDCT8_ADD4_OP %1, 12, 6+3*8
+    IDCT8_ADD4_OP  0, 4+1*8
+    IDCT8_ADD4_OP  4, 6+1*8
+    IDCT8_ADD4_OP  8, 4+3*8
+    IDCT8_ADD4_OP 12, 6+3*8
    ADD       rsp, pad
    RET
 %endmacro ; IDCT8_ADD4

-INIT_XMM
-IDCT8_ADD4 sse2
+INIT_XMM sse2
+IDCT8_ADD4
 %if HAVE_AVX
-INIT_AVX
-IDCT8_ADD4 avx
+INIT_XMM avx
+IDCT8_ADD4
 %endif
--- a/libavcodec/x86/h264dsp_mmx.c
+++ b/libavcodec/x86/h264dsp_mmx.c
@ -249,12 +249,12 @@ void ff_deblock_ ## DIR ## _ ## TYPE ## _ ## DEPTH ## _ ## OPT (uint8_t *pix, in
                                                                int alpha, int beta);

 #define LF_FUNCS(type, depth)\
-LF_FUNC (h,  chroma,       depth, mmxext)\
-LF_IFUNC(h,  chroma_intra, depth, mmxext)\
-LF_FUNC (v,  chroma,       depth, mmxext)\
-LF_IFUNC(v,  chroma_intra, depth, mmxext)\
-LF_FUNC (h,  luma,         depth, mmxext)\
-LF_IFUNC(h,  luma_intra,   depth, mmxext)\
+LF_FUNC (h,  chroma,       depth, mmx2)\
+LF_IFUNC(h,  chroma_intra, depth, mmx2)\
+LF_FUNC (v,  chroma,       depth, mmx2)\
+LF_IFUNC(v,  chroma_intra, depth, mmx2)\
+LF_FUNC (h,  luma,         depth, mmx2)\
+LF_IFUNC(h,  luma_intra,   depth, mmx2)\
 LF_FUNC (h,  luma,         depth, sse2)\
 LF_IFUNC(h,  luma_intra,   depth, sse2)\
 LF_FUNC (v,  luma,         depth, sse2)\
@ -276,24 +276,24 @@ LF_FUNCS( uint8_t,  8)
 LF_FUNCS(uint16_t, 10)

 #if ARCH_X86_32 && HAVE_YASM
-LF_FUNC (v8, luma,             8, mmxext)
-static void ff_deblock_v_luma_8_mmxext(uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0)
+LF_FUNC (v8, luma,             8, mmx2)
+static void ff_deblock_v_luma_8_mmx2(uint8_t *pix, int stride, int alpha, int beta, int8_t *tc0)
 {
    if((tc0[0] & tc0[1]) >= 0)
-        ff_deblock_v8_luma_8_mmxext(pix+0, stride, alpha, beta, tc0);
+        ff_deblock_v8_luma_8_mmx2(pix+0, stride, alpha, beta, tc0);
    if((tc0[2] & tc0[3]) >= 0)
-        ff_deblock_v8_luma_8_mmxext(pix+8, stride, alpha, beta, tc0+2);
+        ff_deblock_v8_luma_8_mmx2(pix+8, stride, alpha, beta, tc0+2);
 }
-LF_IFUNC(v8, luma_intra,        8, mmxext)
-static void ff_deblock_v_luma_intra_8_mmxext(uint8_t *pix, int stride, int alpha, int beta)
+LF_IFUNC(v8, luma_intra,        8, mmx2)
+static void ff_deblock_v_luma_intra_8_mmx2(uint8_t *pix, int stride, int alpha, int beta)
 {
-    ff_deblock_v8_luma_intra_8_mmxext(pix+0, stride, alpha, beta);
-    ff_deblock_v8_luma_intra_8_mmxext(pix+8, stride, alpha, beta);
+    ff_deblock_v8_luma_intra_8_mmx2(pix+0, stride, alpha, beta);
+    ff_deblock_v8_luma_intra_8_mmx2(pix+8, stride, alpha, beta);
 }
 #endif /* ARCH_X86_32 */

-LF_FUNC (v,  luma,            10, mmxext)
-LF_IFUNC(v,  luma_intra,      10, mmxext)
+LF_FUNC (v,  luma,            10, mmx2)
+LF_IFUNC(v,  luma_intra,      10, mmx2)

 /***********************************/
 /* weighted prediction */
@ -373,17 +373,17 @@ void ff_h264dsp_init_x86(H264DSPContext *c, const int bit_depth, const int chrom
                c->h264_idct_add8  = ff_h264_idct_add8_8_mmx2;
            c->h264_idct_add16intra= ff_h264_idct_add16intra_8_mmx2;

-            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_8_mmxext;
-            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_8_mmxext;
+            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_8_mmx2;
+            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_8_mmx2;
            if (chroma_format_idc == 1) {
-                c->h264_h_loop_filter_chroma= ff_deblock_h_chroma_8_mmxext;
-                c->h264_h_loop_filter_chroma_intra= ff_deblock_h_chroma_intra_8_mmxext;
+                c->h264_h_loop_filter_chroma= ff_deblock_h_chroma_8_mmx2;
+                c->h264_h_loop_filter_chroma_intra= ff_deblock_h_chroma_intra_8_mmx2;
            }
 #if ARCH_X86_32
-            c->h264_v_loop_filter_luma= ff_deblock_v_luma_8_mmxext;
-            c->h264_h_loop_filter_luma= ff_deblock_h_luma_8_mmxext;
-            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_8_mmxext;
-            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_8_mmxext;
+            c->h264_v_loop_filter_luma= ff_deblock_v_luma_8_mmx2;
+            c->h264_h_loop_filter_luma= ff_deblock_h_luma_8_mmx2;
+            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_8_mmx2;
+            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_8_mmx2;
 #endif
            c->weight_h264_pixels_tab[0]= ff_h264_weight_16_mmx2;
            c->weight_h264_pixels_tab[1]= ff_h264_weight_8_mmx2;
@ -436,12 +436,12 @@ void ff_h264dsp_init_x86(H264DSPContext *c, const int bit_depth, const int chrom
    if (mm_flags & AV_CPU_FLAG_MMX) {
        if (mm_flags & AV_CPU_FLAG_MMX2) {
 #if ARCH_X86_32
-            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_10_mmxext;
-            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_10_mmxext;
-            c->h264_v_loop_filter_luma= ff_deblock_v_luma_10_mmxext;
-            c->h264_h_loop_filter_luma= ff_deblock_h_luma_10_mmxext;
-            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_10_mmxext;
-            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_10_mmxext;
+            c->h264_v_loop_filter_chroma= ff_deblock_v_chroma_10_mmx2;
+            c->h264_v_loop_filter_chroma_intra= ff_deblock_v_chroma_intra_10_mmx2;
+            c->h264_v_loop_filter_luma= ff_deblock_v_luma_10_mmx2;
+            c->h264_h_loop_filter_luma= ff_deblock_h_luma_10_mmx2;
+            c->h264_v_loop_filter_luma_intra = ff_deblock_v_luma_intra_10_mmx2;
+            c->h264_h_loop_filter_luma_intra = ff_deblock_h_luma_intra_10_mmx2;
 #endif
            c->h264_idct_dc_add= ff_h264_idct_dc_add_10_mmx2;
            if (mm_flags&AV_CPU_FLAG_SSE2) {
--- a/libavcodec/x86/rv34dsp.asm
+++ b/libavcodec/x86/rv34dsp.asm
@ -46,7 +46,7 @@ SECTION .text
 %endmacro

 %macro rv34_idct 1
-cglobal rv34_idct_%1_mmx2, 1, 2, 0
+cglobal rv34_idct_%1, 1, 2, 0
    movsx   r1, word [r0]
    IDCT_DC r1
    movd    m0, r1d
@ -58,14 +58,15 @@ cglobal rv34_idct_%1_mmx2, 1, 2, 0
    REP_RET
 %endmacro

-INIT_MMX
+INIT_MMX mmx2
 %define IDCT_DC IDCT_DC_ROUND
 rv34_idct dc
 %define IDCT_DC IDCT_DC_NOROUND
 rv34_idct dc_noround

 ; ff_rv34_idct_dc_add_mmx(uint8_t *dst, int stride, int dc);
-cglobal rv34_idct_dc_add_mmx, 3, 3
+INIT_MMX mmx
+cglobal rv34_idct_dc_add, 3, 3
    ; calculate DC
    IDCT_DC_ROUND r2
    pxor       m1, m1
@ -167,8 +168,8 @@ cglobal rv34_idct_add, 3,3,0, d, s, b
    ret

 ; ff_rv34_idct_dc_add_sse4(uint8_t *dst, int stride, int dc);
-INIT_XMM
-cglobal rv34_idct_dc_add_sse4, 3, 3, 6
+INIT_XMM sse4
+cglobal rv34_idct_dc_add, 3, 3, 6
    ; load data
    IDCT_DC_ROUND r2
    pxor       m1, m1
--- a/libavcodec/x86/vp3dsp.asm
+++ b/libavcodec/x86/vp3dsp.asm
@ -102,8 +102,8 @@ SECTION .text
    mov  [r0+r3  -1], r2w
 %endmacro

-INIT_MMX
-cglobal vp3_v_loop_filter_mmx2, 3, 4
+INIT_MMX mmx2
+cglobal vp3_v_loop_filter, 3, 4
 %if ARCH_X86_64
    movsxd        r1, r1d
 %endif
@ -120,7 +120,7 @@ cglobal vp3_v_loop_filter_mmx2, 3, 4
    movq     [r0   ], m3
    RET

-cglobal vp3_h_loop_filter_mmx2, 3, 4
+cglobal vp3_h_loop_filter, 3, 4
 %if ARCH_X86_64
    movsxd        r1, r1d
 %endif
@ -354,38 +354,6 @@ cglobal vp3_h_loop_filter_mmx2, 3, 4
    movq        I(2), m2
 %endmacro

-%macro VP3_IDCT_mmx 1
-    ; eax = quantized input
-    ; ebx = dequantizer matrix
-    ; ecx = IDCT constants
-    ;  M(I) = ecx + MaskOffset(0) + I * 8
-    ;  C(I) = ecx + CosineOffset(32) + (I-1) * 8
-    ; edx = output
-    ; r0..r7 = mm0..mm7
-%define OC_8 [pw_8]
-%define C(x) [vp3_idct_data+16*(x-1)]
-
-    ; at this point, function has completed dequantization + dezigzag +
-    ; partial transposition; now do the idct itself
-%define I(x) [%1+16* x     ]
-%define J(x) [%1+16*(x-4)+8]
-    RowIDCT
-    Transpose
-
-%define I(x) [%1+16* x   +64]
-%define J(x) [%1+16*(x-4)+72]
-    RowIDCT
-    Transpose
-
-%define I(x) [%1+16*x]
-%define J(x) [%1+16*x]
-    ColumnIDCT
-
-%define I(x) [%1+16*x+8]
-%define J(x) [%1+16*x+8]
-    ColumnIDCT
-%endmacro
-
 %macro VP3_1D_IDCT_SSE2 0
    movdqa        m2, I(3)      ; xmm2 = i3
    movdqa        m6, C(3)      ; xmm6 = c3
@ -501,7 +469,8 @@ cglobal vp3_h_loop_filter_mmx2, 3, 4
    movdqa      O(7), m%8
 %endmacro

-%macro VP3_IDCT_sse2 1
+%macro VP3_IDCT 1
+%if mmsize == 16
 %define I(x) [%1+16*x]
 %define O(x) [%1+16*x]
 %define C(x) [vp3_idct_data+16*(x-1)]
@ -519,11 +488,42 @@ cglobal vp3_h_loop_filter_mmx2, 3, 4
 %define ADD(x)   paddsw x, [pw_8]
        VP3_1D_IDCT_SSE2
        PUT_BLOCK 0, 1, 2, 3, 4, 5, 6, 7
+%else ; mmsize == 8
+    ; eax = quantized input
+    ; ebx = dequantizer matrix
+    ; ecx = IDCT constants
+    ;  M(I) = ecx + MaskOffset(0) + I * 8
+    ;  C(I) = ecx + CosineOffset(32) + (I-1) * 8
+    ; edx = output
+    ; r0..r7 = mm0..mm7
+%define OC_8 [pw_8]
+%define C(x) [vp3_idct_data+16*(x-1)]
+
+    ; at this point, function has completed dequantization + dezigzag +
+    ; partial transposition; now do the idct itself
+%define I(x) [%1+16* x     ]
+%define J(x) [%1+16*(x-4)+8]
+    RowIDCT
+    Transpose
+
+%define I(x) [%1+16* x   +64]
+%define J(x) [%1+16*(x-4)+72]
+    RowIDCT
+    Transpose
+
+%define I(x) [%1+16*x]
+%define J(x) [%1+16*x]
+    ColumnIDCT
+
+%define I(x) [%1+16*x+8]
+%define J(x) [%1+16*x+8]
+    ColumnIDCT
+%endif ; mmsize == 16/8
 %endmacro

-%macro vp3_idct_funcs 1
-cglobal vp3_idct_put_%1, 3, 4, 9
-    VP3_IDCT_%1   r2
+%macro vp3_idct_funcs 0
+cglobal vp3_idct_put, 3, 4, 9
+    VP3_IDCT      r2

    movsxdifnidn  r1, r1d
    mova          m4, [pb_80]
@ -565,8 +565,8 @@ cglobal vp3_idct_put_%1, 3, 4, 9
 %endrep
    RET

-cglobal vp3_idct_add_%1, 3, 4, 9
-    VP3_IDCT_%1   r2
+cglobal vp3_idct_add, 3, 4, 9
+    VP3_IDCT      r2

    mov           r3, 4
    pxor          m4, m4
@ -607,10 +607,13 @@ cglobal vp3_idct_add_%1, 3, 4, 9
    RET
 %endmacro

-INIT_MMX
-vp3_idct_funcs mmx
-INIT_XMM
-vp3_idct_funcs sse2
+%if ARCH_X86_32
+INIT_MMX mmx
+vp3_idct_funcs
+%endif
+
+INIT_XMM sse2
+vp3_idct_funcs

 %macro DC_ADD 0
    movq          m2, [r0     ]
@ -631,8 +634,8 @@ vp3_idct_funcs sse2
    movq   [r0+r3  ], m5
 %endmacro

-INIT_MMX
-cglobal vp3_idct_dc_add_mmx2, 3, 4
+INIT_MMX mmx2
+cglobal vp3_idct_dc_add, 3, 4
 %if ARCH_X86_64
    movsxd        r1, r1d
 %endif
--- a/libavcodec/x86/vp3dsp_init.c
+++ b/libavcodec/x86/vp3dsp_init.c
@ -41,11 +41,13 @@ av_cold void ff_vp3dsp_init_x86(VP3DSPContext *c, int flags)
 #if HAVE_YASM
    int cpuflags = av_get_cpu_flags();

+#if ARCH_X86_32
    if (HAVE_MMX && cpuflags & AV_CPU_FLAG_MMX) {
        c->idct_put  = ff_vp3_idct_put_mmx;
        c->idct_add  = ff_vp3_idct_add_mmx;
        c->idct_perm = FF_PARTTRANS_IDCT_PERM;
    }
+#endif

    if (HAVE_MMX2 && cpuflags & AV_CPU_FLAG_MMX2) {
        c->idct_dc_add = ff_vp3_idct_dc_add_mmx2;
--- a/libavcodec/x86/vp56dsp.asm
+++ b/libavcodec/x86/vp56dsp.asm
@ -27,7 +27,8 @@ cextern pw_64

 SECTION .text

-%macro DIAG4_MMX 6
+%macro DIAG4 6
+%if mmsize == 8
    movq          m0, [%1+%2]
    movq          m1, [%1+%3]
    movq          m3, m0
@ -64,9 +65,7 @@ SECTION .text
    psraw         m3, 7
    packuswb      m0, m3
    movq        [%6], m0
-%endmacro
-
-%macro DIAG4_SSE2 6
+%else ; mmsize == 16
    movq          m0, [%1+%2]
    movq          m1, [%1+%3]
    punpcklbw     m0, m7
@ -86,9 +85,11 @@ SECTION .text
    psraw         m0, 7
    packuswb      m0, m0
    movq        [%6], m0
+%endif ; mmsize == 8/16
 %endmacro

-%macro SPLAT4REGS_MMX 0
+%macro SPLAT4REGS 0
+%if mmsize == 8
    movq         m5, m3
    punpcklwd    m3, m3
    movq         m4, m3
@ -102,9 +103,7 @@ SECTION .text
    movq [rsp+8*12], m4
    movq [rsp+8*13], m5
    movq [rsp+8*14], m2
-%endmacro
-
-%macro SPLAT4REGS_SSE2 0
+%else ; mmsize == 16
    pshuflw      m4, m3, 0x0
    pshuflw      m5, m3, 0x55
    pshuflw      m6, m3, 0xAA
@ -113,15 +112,16 @@ SECTION .text
    punpcklqdq   m5, m5
    punpcklqdq   m6, m6
    punpcklqdq   m3, m3
+%endif ; mmsize == 8/16
 %endmacro

-%macro vp6_filter_diag4 2
+%macro vp6_filter_diag4 0
 ; void ff_vp6_filter_diag4_<opt>(uint8_t *dst, uint8_t *src, int stride,
 ;                                const int16_t h_weight[4], const int16_t v_weights[4])
-cglobal vp6_filter_diag4_%1, 5, 7, %2
+cglobal vp6_filter_diag4, 5, 7, 8
    mov          r5, rsp         ; backup stack pointer
    and         rsp, ~(mmsize-1) ; align stack
-%ifidn %1, sse2
+%if mmsize == 16
    sub         rsp, 8*11
 %else
    sub         rsp, 8*15
@ -162,12 +162,10 @@ cglobal vp6_filter_diag4_%1, 5, 7, %2
    RET
 %endmacro

-INIT_MMX
-%define DIAG4      DIAG4_MMX
-%define SPLAT4REGS SPLAT4REGS_MMX
-vp6_filter_diag4 mmx,  0
+%if ARCH_X86_32
+INIT_MMX mmx
+vp6_filter_diag4
+%endif

-INIT_XMM
-%define DIAG4      DIAG4_SSE2
-%define SPLAT4REGS SPLAT4REGS_SSE2
-vp6_filter_diag4 sse2, 8
+INIT_XMM sse2
+vp6_filter_diag4
--- a/libavcodec/x86/vp56dsp_init.c
+++ b/libavcodec/x86/vp56dsp_init.c
@ -36,9 +36,11 @@ av_cold void ff_vp56dsp_init_x86(VP56DSPContext* c, enum CodecID codec)
    int mm_flags = av_get_cpu_flags();

    if (CONFIG_VP6_DECODER && codec == CODEC_ID_VP6) {
+#if ARCH_X86_32
        if (mm_flags & AV_CPU_FLAG_MMX) {
            c->vp6_filter_diag4 = ff_vp6_filter_diag4_mmx;
        }
+#endif

        if (mm_flags & AV_CPU_FLAG_SSE2) {
            c->vp6_filter_diag4 = ff_vp6_filter_diag4_sse2;
--- a/libavdevice/Makefile
+++ b/libavdevice/Makefile
@ -35,7 +35,7 @@ OBJS-$(CONFIG_SNDIO_OUTDEV)              += sndio_common.o sndio_enc.o
 OBJS-$(CONFIG_V4L2_INDEV)                += v4l2.o timefilter.o
 OBJS-$(CONFIG_V4L_INDEV)                 += v4l.o
 OBJS-$(CONFIG_VFWCAP_INDEV)              += vfwcap.o
-OBJS-$(CONFIG_X11_GRAB_DEVICE_INDEV)     += x11grab.o
+OBJS-$(CONFIG_X11GRAB_INDEV)             += x11grab.o

 # external libraries
 OBJS-$(CONFIG_LIBCDIO_INDEV)             += libcdio.o
--- a/libavdevice/alldevices.c
+++ b/libavdevice/alldevices.c
@ -55,7 +55,7 @@ void avdevice_register_all(void)
    REGISTER_INDEV    (V4L2, v4l2);
 //    REGISTER_INDEV    (V4L, v4l
    REGISTER_INDEV    (VFWCAP, vfwcap);
-    REGISTER_INDEV    (X11_GRAB_DEVICE, x11_grab_device);
+    REGISTER_INDEV    (X11GRAB, x11grab);

    /* external libraries */
    REGISTER_INDEV    (LIBCDIO, libcdio);
--- a/libavdevice/avdevice.h
+++ b/libavdevice/avdevice.h
@ -36,7 +36,7 @@
 * (de)muxers in libavdevice are of the AVFMT_NOFILE type (they use their own
 * I/O functions). The filename passed to avformat_open_input() often does not
 * refer to an actually existing file, but has some special device-specific
- * meaning - e.g. for the x11grab device it is the display name.
+ * meaning - e.g. for x11grab it is the display name.
 *
 * To use libavdevice, simply call avdevice_register_all() to register all
 * compiled muxers and demuxers. They all use standard libavformat API.
--- a/libavdevice/fbdev.c
+++ b/libavdevice/fbdev.c
@ -39,6 +39,7 @@
 #include "libavutil/log.h"
 #include "libavutil/mem.h"
 #include "libavutil/opt.h"
+#include "libavutil/time.h"
 #include "libavutil/parseutils.h"
 #include "libavutil/pixdesc.h"
 #include "avdevice.h"
--- a/libavdevice/jack_audio.c
+++ b/libavdevice/jack_audio.c
@ -27,6 +27,7 @@
 #include "libavutil/log.h"
 #include "libavutil/fifo.h"
 #include "libavutil/opt.h"
+#include "libavutil/time.h"
 #include "libavcodec/avcodec.h"
 #include "libavformat/avformat.h"
 #include "libavformat/internal.h"
--- a/libavdevice/oss_audio.c
+++ b/libavdevice/oss_audio.c
@ -36,6 +36,7 @@

 #include "libavutil/log.h"
 #include "libavutil/opt.h"
+#include "libavutil/time.h"
 #include "libavcodec/avcodec.h"
 #include "avdevice.h"
 #include "libavformat/internal.h"
--- a/libavdevice/x11grab.c
+++ b/libavdevice/x11grab.c
@ -41,6 +41,7 @@
 #include "libavutil/log.h"
 #include "libavutil/opt.h"
 #include "libavutil/parseutils.h"
+#include "libavutil/time.h"
 #include <time.h>
 #include <X11/X.h>
 #include <X11/Xlib.h>
@ -56,8 +57,7 @@
 /**
 * X11 Device Demuxer context
 */
-struct x11_grab
-{
+struct x11grab {
    const AVClass *class;    /**< Class for private options. */
    int frame_size;          /**< Size in bytes of a grabbed frame */
    AVRational time_base;    /**< Time base */
@ -84,10 +84,10 @@ struct x11_grab
 /**
 * Draw grabbing region window
 *
- * @param s x11_grab context
+ * @param s x11grab context
 */
 static void
-x11grab_draw_region_win(struct x11_grab *s)
+x11grab_draw_region_win(struct x11grab *s)
 {
    Display *dpy = s->dpy;
    int screen;
@ -109,10 +109,10 @@ x11grab_draw_region_win(struct x11_grab *s)
 /**
 * Initialize grabbing region window
 *
- * @param s x11_grab context
+ * @param s x11grab context
 */
 static void
-x11grab_region_win_init(struct x11_grab *s)
+x11grab_region_win_init(struct x11grab *s)
 {
    Display *dpy = s->dpy;
    int screen;
@ -154,7 +154,7 @@ x11grab_region_win_init(struct x11_grab *s)
 static int
 x11grab_read_header(AVFormatContext *s1)
 {
-    struct x11_grab *x11grab = s1->priv_data;
+    struct x11grab *x11grab = s1->priv_data;
    Display *dpy;
    AVStream *st = NULL;
    enum PixelFormat input_pixfmt;
@ -330,7 +330,7 @@ out:
 *          coordinates
 */
 static void
-paint_mouse_pointer(XImage *image, struct x11_grab *s)
+paint_mouse_pointer(XImage *image, struct x11grab *s)
 {
    int x_off = s->x_off;
    int y_off = s->y_off;
@ -444,7 +444,7 @@ xget_zpixmap(Display *dpy, Drawable d, XImage *image, int x, int y)
 static int
 x11grab_read_packet(AVFormatContext *s1, AVPacket *pkt)
 {
-    struct x11_grab *s = s1->priv_data;
+    struct x11grab *s = s1->priv_data;
    Display *dpy = s->dpy;
    XImage *image = s->image;
    int x_off = s->x_off;
@ -554,7 +554,7 @@ x11grab_read_packet(AVFormatContext *s1, AVPacket *pkt)
 static int
 x11grab_read_close(AVFormatContext *s1)
 {
-    struct x11_grab *x11grab = s1->priv_data;
+    struct x11grab *x11grab = s1->priv_data;

    /* Detach cleanly from shared mem */
    if (x11grab->use_shm) {
@ -578,7 +578,7 @@ x11grab_read_close(AVFormatContext *s1)
    return 0;
 }

-#define OFFSET(x) offsetof(struct x11_grab, x)
+#define OFFSET(x) offsetof(struct x11grab, x)
 #define DEC AV_OPT_FLAG_DECODING_PARAM
 static const AVOption options[] = {
    { "video_size", "A string describing frame size, such as 640x480 or hd720.", OFFSET(width), AV_OPT_TYPE_IMAGE_SIZE, {.str = "vga"}, 0, 0, DEC },
@ -599,10 +599,10 @@ static const AVClass x11_class = {
 };

 /** x11 grabber device demuxer declaration */
-AVInputFormat ff_x11_grab_device_demuxer = {
+AVInputFormat ff_x11grab_demuxer = {
    .name           = "x11grab",
    .long_name      = NULL_IF_CONFIG_SMALL("X11grab"),
-    .priv_data_size = sizeof(struct x11_grab),
+    .priv_data_size = sizeof(struct x11grab),
    .read_header    = x11grab_read_header,
    .read_packet    = x11grab_read_packet,
    .read_close     = x11grab_read_close,
--- a/libavfilter/version.h
+++ b/libavfilter/version.h
@ -29,7 +29,7 @@
 #include "libavutil/avutil.h"

 #define LIBAVFILTER_VERSION_MAJOR  3
-#define LIBAVFILTER_VERSION_MINOR  4
+#define LIBAVFILTER_VERSION_MINOR  5
 #define LIBAVFILTER_VERSION_MICRO 100

 #define LIBAVFILTER_VERSION_INT AV_VERSION_INT(LIBAVFILTER_VERSION_MAJOR, \
--- a/libavformat/hls.c
+++ b/libavformat/hls.c
@ -420,8 +420,6 @@ reload:
    ret = ffurl_read(v->input, buf, buf_size);
    if (ret > 0)
        return ret;
-    if (ret < 0 && ret != AVERROR_EOF)
-        return ret;
    ffurl_close(v->input);
    v->input = NULL;
    v->cur_seq_no++;
--- a/libavformat/mp3dec.c
+++ b/libavformat/mp3dec.c
@ -196,7 +196,6 @@ static int mp3_read_packet(AVFormatContext *s, AVPacket *pkt)
    MP3Context *mp3 = s->priv_data;
    int ret, size;
    int64_t pos;
-    //    AVStream *st = s->streams[0];

    size= MP3_PACKET_SIZE;
    pos = avio_tell(s->pb);
@ -204,15 +203,15 @@ static int mp3_read_packet(AVFormatContext *s, AVPacket *pkt)
        size= FFMIN(size, mp3->filesize - pos);

    ret= av_get_packet(s->pb, pkt, size);
-
-    pkt->flags &= ~AV_PKT_FLAG_CORRUPT;
-    pkt->stream_index = 0;
    if (ret <= 0) {
        if(ret<0)
            return ret;
        return AVERROR_EOF;
    }

+    pkt->flags &= ~AV_PKT_FLAG_CORRUPT;
+    pkt->stream_index = 0;
+
    if (ret >= ID3v1_TAG_SIZE &&
        memcmp(&pkt->data[ret - ID3v1_TAG_SIZE], "TAG", 3) == 0)
        ret -= ID3v1_TAG_SIZE;
--- a/libavformat/rtpdec.c
+++ b/libavformat/rtpdec.c
@ -21,6 +21,7 @@

 #include "libavutil/mathematics.h"
 #include "libavutil/avstring.h"
+#include "libavutil/time.h"
 #include "libavcodec/get_bits.h"
 #include "avformat.h"
 #include "mpegts.h"
--- a/libavformat/rtsp.c
+++ b/libavformat/rtsp.c
@ -27,6 +27,7 @@
 #include "libavutil/random_seed.h"
 #include "libavutil/dict.h"
 #include "libavutil/opt.h"
+#include "libavutil/time.h"
 #include "avformat.h"
 #include "avio_internal.h"

--- a/libavformat/rtspdec.c
+++ b/libavformat/rtspdec.c
@ -23,6 +23,7 @@
 #include "libavutil/intreadwrite.h"
 #include "libavutil/mathematics.h"
 #include "libavutil/random_seed.h"
+#include "libavutil/time.h"
 #include "avformat.h"

 #include "internal.h"
--- a/libavformat/rtspenc.c
+++ b/libavformat/rtspenc.c
@ -31,6 +31,7 @@
 #include "avio_internal.h"
 #include "libavutil/intreadwrite.h"
 #include "libavutil/avstring.h"
+#include "libavutil/time.h"
 #include "url.h"

 #define SDP_MAX_SIZE 16384
--- a/libavformat/sapenc.c
+++ b/libavformat/sapenc.c
@ -24,6 +24,7 @@
 #include "libavutil/random_seed.h"
 #include "libavutil/avstring.h"
 #include "libavutil/intreadwrite.h"
+#include "libavutil/time.h"
 #include "internal.h"
 #include "network.h"
 #include "os_support.h"
--- a/libavformat/tls.c
+++ b/libavformat/tls.c
@ -266,7 +266,7 @@ static int tls_read(URLContext *h, uint8_t *buf, int size)
        if (ret > 0)
            return ret;
        if (ret == 0)
-            return AVERROR(EIO);
+            return AVERROR_EOF;
        if ((ret = do_tls_poll(h, ret)) < 0)
            return ret;
    }
@ -281,7 +281,7 @@ static int tls_write(URLContext *h, const uint8_t *buf, int size)
        if (ret > 0)
            return ret;
        if (ret == 0)
-            return AVERROR(EIO);
+            return AVERROR_EOF;
        if ((ret = do_tls_poll(h, ret)) < 0)
            return ret;
    }
--- a/libavformat/utils.c
+++ b/libavformat/utils.c
@ -37,6 +37,7 @@
 #include "libavutil/avstring.h"
 #include "libavutil/mathematics.h"
 #include "libavutil/parseutils.h"
+#include "libavutil/time.h"
 #include "libavutil/timestamp.h"
 #include "riff.h"
 #include "audiointerleave.h"
@ -2765,9 +2766,7 @@ int avformat_find_stream_info(AVFormatContext *ic, AVDictionary **options)
            if (tb_unreliable(st->codec) && st->info->duration_count > 15 && st->info->duration_gcd > FFMAX(1, st->time_base.den/(500LL*st->time_base.num)) && !st->r_frame_rate.num)
                av_reduce(&st->r_frame_rate.num, &st->r_frame_rate.den, st->time_base.den, st->time_base.num * st->info->duration_gcd, INT_MAX);
            if (st->info->duration_count && !st->r_frame_rate.num
-               && tb_unreliable(st->codec) /*&&
-               //FIXME we should not special-case MPEG-2, but this needs testing with non-MPEG-2 ...
-               st->time_base.num*duration_sum[i]/st->info->duration_count*101LL > st->time_base.den*/){
+                && tb_unreliable(st->codec)) {
                int num = 0;
                double best_error= 0.01;

--- a/libavformat/wv.c
+++ b/libavformat/wv.c
@ -90,17 +90,17 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen
    if(!append){
        tag = avio_rl32(pb);
        if (tag != MKTAG('w', 'v', 'p', 'k'))
-            return -1;
+            return AVERROR_INVALIDDATA;
        size = avio_rl32(pb);
        if(size < 24 || size > WV_BLOCK_LIMIT){
            av_log(ctx, AV_LOG_ERROR, "Incorrect block size %i\n", size);
-            return -1;
+            return AVERROR_INVALIDDATA;
        }
        wc->blksize = size;
        ver = avio_rl16(pb);
        if(ver < 0x402 || ver > 0x410){
            av_log(ctx, AV_LOG_ERROR, "Unsupported version %03X\n", ver);
-            return -1;
+            return AVERROR_PATCHWELCOME;
        }
        avio_r8(pb); // track no
        avio_r8(pb); // track sub index
@ -128,7 +128,7 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen
        int64_t block_end = avio_tell(pb) + wc->blksize - 24;
        if(!pb->seekable){
            av_log(ctx, AV_LOG_ERROR, "Cannot determine additional parameters\n");
-            return -1;
+            return AVERROR_INVALIDDATA;
        }
        while(avio_tell(pb) < block_end){
            int id, size;
@ -141,7 +141,7 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen
            case 0xD:
                if(size <= 1){
                    av_log(ctx, AV_LOG_ERROR, "Insufficient channel information\n");
-                    return -1;
+                    return AVERROR_INVALIDDATA;
                }
                chan = avio_r8(pb);
                switch(size - 2){
@ -164,7 +164,7 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen
                    break;
                default:
                    av_log(ctx, AV_LOG_ERROR, "Invalid channel info size %d\n", size);
-                    return -1;
+                    return AVERROR_INVALIDDATA;
                }
                break;
            case 0x27:
@ -178,7 +178,7 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen
        }
        if(rate == -1){
            av_log(ctx, AV_LOG_ERROR, "Cannot determine custom sampling rate\n");
-            return -1;
+            return AVERROR_INVALIDDATA;
        }
        avio_seek(pb, block_end - wc->blksize + 24, SEEK_SET);
    }
@ -189,15 +189,15 @@ static int wv_read_block_header(AVFormatContext *ctx, AVIOContext *pb, int appen

    if(wc->flags && bpp != wc->bpp){
        av_log(ctx, AV_LOG_ERROR, "Bits per sample differ, this block: %i, header block: %i\n", bpp, wc->bpp);
-        return -1;
+        return AVERROR_INVALIDDATA;
    }
    if(wc->flags && !wc->multichannel && chan != wc->chan){
        av_log(ctx, AV_LOG_ERROR, "Channels differ, this block: %i, header block: %i\n", chan, wc->chan);
-        return -1;
+        return AVERROR_INVALIDDATA;
    }
    if(wc->flags && rate != -1 && rate != wc->rate){
        av_log(ctx, AV_LOG_ERROR, "Sampling rate differ, this block: %i, header block: %i\n", rate, wc->rate);
-        return -1;
+        return AVERROR_INVALIDDATA;
    }
    wc->blksize = size - 24;
    return 0;
@ -208,11 +208,12 @@ static int wv_read_header(AVFormatContext *s)
    AVIOContext *pb = s->pb;
    WVContext *wc = s->priv_data;
    AVStream *st;
+    int ret;

    wc->block_parsed = 0;
    for(;;){
-        if(wv_read_block_header(s, pb, 0) < 0)
-            return -1;
+        if ((ret = wv_read_block_header(s, pb, 0)) < 0)
+            return ret;
        if(!AV_RN32(wc->extra))
            avio_skip(pb, wc->blksize - 24);
        else
@ -222,7 +223,7 @@ static int wv_read_header(AVFormatContext *s)
    /* now we are ready: build format streams */
    st = avformat_new_stream(s, NULL);
    if (!st)
-        return -1;
+        return AVERROR(ENOMEM);
    st->codec->codec_type = AVMEDIA_TYPE_AUDIO;
    st->codec->codec_id = CODEC_ID_WAVPACK;
    st->codec->channels = wc->chan;
@ -254,10 +255,10 @@ static int wv_read_packet(AVFormatContext *s,
    uint32_t block_samples;

    if (url_feof(s->pb))
-        return AVERROR(EIO);
+        return AVERROR_EOF;
    if(wc->block_parsed){
-        if(wv_read_block_header(s, s->pb, 0) < 0)
-            return -1;
+        if ((ret = wv_read_block_header(s, s->pb, 0)) < 0)
+            return ret;
    }

    pos = wc->pos;
@ -275,7 +276,7 @@ static int wv_read_packet(AVFormatContext *s,
    while(!(wc->flags & WV_END_BLOCK)){
        if(avio_rl32(s->pb) != MKTAG('w', 'v', 'p', 'k')){
            av_free_packet(pkt);
-            return -1;
+            return AVERROR_INVALIDDATA;
        }
        if((ret = av_append_packet(s->pb, pkt, 4)) < 0){
            av_free_packet(pkt);
@ -285,14 +286,14 @@ static int wv_read_packet(AVFormatContext *s,
        if(size < 24 || size > WV_BLOCK_LIMIT){
            av_free_packet(pkt);
            av_log(s, AV_LOG_ERROR, "Incorrect block size %d\n", size);
-            return -1;
+            return AVERROR_INVALIDDATA;
        }
        wc->blksize = size;
        ver = avio_rl16(s->pb);
        if(ver < 0x402 || ver > 0x410){
            av_free_packet(pkt);
            av_log(s, AV_LOG_ERROR, "Unsupported version %03X\n", ver);
-            return -1;
+            return AVERROR_PATCHWELCOME;
        }
        avio_r8(s->pb); // track no
        avio_r8(s->pb); // track sub index
@ -304,9 +305,9 @@ static int wv_read_packet(AVFormatContext *s,
        }
        memcpy(wc->extra, pkt->data + pkt->size - WV_EXTRA_SIZE, WV_EXTRA_SIZE);

-        if(wv_read_block_header(s, s->pb, 1) < 0){
+        if ((ret = wv_read_block_header(s, s->pb, 1)) < 0){
            av_free_packet(pkt);
-            return -1;
+            return ret;
        }
        ret = av_append_packet(s->pb, pkt, wc->blksize);
        if(ret < 0){
@ -345,14 +346,14 @@ static int wv_read_seek(AVFormatContext *s, int stream_index, int64_t timestamp,
    }
    /* if timestamp is out of bounds, return error */
    if(timestamp < 0 || timestamp >= s->duration)
-        return -1;
+        return AVERROR(EINVAL);

    pos = avio_tell(s->pb);
    do{
        ret = av_read_frame(s, pkt);
        if (ret < 0){
            avio_seek(s->pb, pos, SEEK_SET);
-            return -1;
+            return ret;
        }
        pts = pkt->pts;
        av_free_packet(pkt);
--- a/libavutil/x86/x86inc.asm
+++ b/libavutil/x86/x86inc.asm
@ -36,8 +36,8 @@

 %define program_name ff

-%define UNIX64 0
 %define WIN64  0
+%define UNIX64 0
 %if ARCH_X86_64
    %ifidn __OUTPUT_FORMAT__,win32
        %define WIN64  1
@ -54,11 +54,6 @@
    %define mangle(x) x
 %endif

-; FIXME: All of the 64bit asm functions that take a stride as an argument
-; via register, assume that the high dword of that register is filled with 0.
-; This is true in practice (since we never do any 64bit arithmetic on strides,
-; and x264's strides are all positive), but is not guaranteed by the ABI.
-
 ; Name of the .rodata section.
 %macro SECTION_RODATA 0-1 16
    ; Kludge: Something on OS X fails to align .rodata even given an align
@ -152,34 +147,38 @@ CPU amdnop
 ; registers:
 ; rN and rNq are the native-size register holding function argument N
 ; rNd, rNw, rNb are dword, word, and byte size
+; rNh is the high 8 bits of the word size
 ; rNm is the original location of arg N (a register or on the stack), dword
 ; rNmp is native size

-%macro DECLARE_REG 5-6
+%macro DECLARE_REG 2-3
    %define r%1q %2
-    %define r%1d %3
-    %define r%1w %4
-    %define r%1b %5
-    %if %0 == 5
-        %define r%1m  %3
+    %define r%1d %2d
+    %define r%1w %2w
+    %define r%1b %2b
+    %define r%1h %2h
+    %if %0 == 2
+        %define r%1m  %2d
        %define r%1mp %2
    %elif ARCH_X86_64 ; memory
-        %define r%1m [rsp + stack_offset + %6]
+        %define r%1m [rsp + stack_offset + %3]
        %define r%1mp qword r %+ %1 %+ m
    %else
-        %define r%1m [esp + stack_offset + %6]
+        %define r%1m [esp + stack_offset + %3]
        %define r%1mp dword r %+ %1 %+ m
    %endif
    %define r%1  %2
 %endmacro

-%macro DECLARE_REG_SIZE 2
+%macro DECLARE_REG_SIZE 3
    %define r%1q r%1
    %define e%1q r%1
    %define r%1d e%1
    %define e%1d e%1
    %define r%1w %1
    %define e%1w %1
+    %define r%1h %3
+    %define e%1h %3
    %define r%1b %2
    %define e%1b %2
 %if ARCH_X86_64 == 0
@ -187,13 +186,13 @@ CPU amdnop
 %endif
 %endmacro

-DECLARE_REG_SIZE ax, al
-DECLARE_REG_SIZE bx, bl
-DECLARE_REG_SIZE cx, cl
-DECLARE_REG_SIZE dx, dl
-DECLARE_REG_SIZE si, sil
-DECLARE_REG_SIZE di, dil
-DECLARE_REG_SIZE bp, bpl
+DECLARE_REG_SIZE ax, al, ah
+DECLARE_REG_SIZE bx, bl, bh
+DECLARE_REG_SIZE cx, cl, ch
+DECLARE_REG_SIZE dx, dl, dh
+DECLARE_REG_SIZE si, sil, null
+DECLARE_REG_SIZE di, dil, null
+DECLARE_REG_SIZE bp, bpl, null

 ; t# defines for when per-arch register allocation is more complex than just function arguments

@ -211,6 +210,7 @@ DECLARE_REG_SIZE bp, bpl
        %define t%1q t%1 %+ q
        %define t%1d t%1 %+ d
        %define t%1w t%1 %+ w
+        %define t%1h t%1 %+ h
        %define t%1b t%1 %+ b
        %rotate 1
    %endrep
@ -300,6 +300,7 @@ DECLARE_REG_TMP_SIZE 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
            CAT_UNDEF arg_name %+ %%i, q
            CAT_UNDEF arg_name %+ %%i, d
            CAT_UNDEF arg_name %+ %%i, w
+            CAT_UNDEF arg_name %+ %%i, h
            CAT_UNDEF arg_name %+ %%i, b
            CAT_UNDEF arg_name %+ %%i, m
            CAT_UNDEF arg_name %+ %%i, mp
@ -315,6 +316,7 @@ DECLARE_REG_TMP_SIZE 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
        %xdefine %1q r %+ %%i %+ q
        %xdefine %1d r %+ %%i %+ d
        %xdefine %1w r %+ %%i %+ w
+        %xdefine %1h r %+ %%i %+ h
        %xdefine %1b r %+ %%i %+ b
        %xdefine %1m r %+ %%i %+ m
        %xdefine %1mp r %+ %%i %+ mp
@ -328,21 +330,21 @@ DECLARE_REG_TMP_SIZE 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14

 %if WIN64 ; Windows x64 ;=================================================

-DECLARE_REG 0,  rcx, ecx,  cx,   cl
-DECLARE_REG 1,  rdx, edx,  dx,   dl
-DECLARE_REG 2,  R8,  R8D,  R8W,  R8B
-DECLARE_REG 3,  R9,  R9D,  R9W,  R9B
-DECLARE_REG 4,  R10, R10D, R10W, R10B, 40
-DECLARE_REG 5,  R11, R11D, R11W, R11B, 48
-DECLARE_REG 6,  rax, eax,  ax,   al,   56
-DECLARE_REG 7,  rdi, edi,  di,   dil,  64
-DECLARE_REG 8,  rsi, esi,  si,   sil,  72
-DECLARE_REG 9,  rbx, ebx,  bx,   bl,   80
-DECLARE_REG 10, rbp, ebp,  bp,   bpl,  88
-DECLARE_REG 11, R12, R12D, R12W, R12B, 96
-DECLARE_REG 12, R13, R13D, R13W, R13B, 104
-DECLARE_REG 13, R14, R14D, R14W, R14B, 112
-DECLARE_REG 14, R15, R15D, R15W, R15B, 120
+DECLARE_REG 0,  rcx
+DECLARE_REG 1,  rdx
+DECLARE_REG 2,  R8
+DECLARE_REG 3,  R9
+DECLARE_REG 4,  R10, 40
+DECLARE_REG 5,  R11, 48
+DECLARE_REG 6,  rax, 56
+DECLARE_REG 7,  rdi, 64
+DECLARE_REG 8,  rsi, 72
+DECLARE_REG 9,  rbx, 80
+DECLARE_REG 10, rbp, 88
+DECLARE_REG 11, R12, 96
+DECLARE_REG 12, R13, 104
+DECLARE_REG 13, R14, 112
+DECLARE_REG 14, R15, 120

 %macro PROLOGUE 2-4+ 0 ; #args, #regs, #xmm_regs, arg_names...
    %assign num_args %1
@ -389,6 +391,8 @@ DECLARE_REG 14, R15, R15D, R15W, R15B, 120
    %assign xmm_regs_used 0
 %endmacro

+%define has_epilogue regs_used > 7 || xmm_regs_used > 6 || mmsize == 32
+
 %macro RET 0
    WIN64_RESTORE_XMM_INTERNAL rsp
    POP_IF_USED 14, 13, 12, 11, 10, 9, 8, 7
@ -398,31 +402,23 @@ DECLARE_REG 14, R15, R15D, R15W, R15B, 120
    ret
 %endmacro

-%macro REP_RET 0
-    %if regs_used > 7 || xmm_regs_used > 6 || mmsize == 32
-        RET
-    %else
-        rep ret
-    %endif
-%endmacro
-
 %elif ARCH_X86_64 ; *nix x64 ;=============================================

-DECLARE_REG 0,  rdi, edi,  di,   dil
-DECLARE_REG 1,  rsi, esi,  si,   sil
-DECLARE_REG 2,  rdx, edx,  dx,   dl
-DECLARE_REG 3,  rcx, ecx,  cx,   cl
-DECLARE_REG 4,  R8,  R8D,  R8W,  R8B
-DECLARE_REG 5,  R9,  R9D,  R9W,  R9B
-DECLARE_REG 6,  rax, eax,  ax,   al,   8
-DECLARE_REG 7,  R10, R10D, R10W, R10B, 16
-DECLARE_REG 8,  R11, R11D, R11W, R11B, 24
-DECLARE_REG 9,  rbx, ebx,  bx,   bl,   32
-DECLARE_REG 10, rbp, ebp,  bp,   bpl,  40
-DECLARE_REG 11, R12, R12D, R12W, R12B, 48
-DECLARE_REG 12, R13, R13D, R13W, R13B, 56
-DECLARE_REG 13, R14, R14D, R14W, R14B, 64
-DECLARE_REG 14, R15, R15D, R15W, R15B, 72
+DECLARE_REG 0,  rdi
+DECLARE_REG 1,  rsi
+DECLARE_REG 2,  rdx
+DECLARE_REG 3,  rcx
+DECLARE_REG 4,  R8
+DECLARE_REG 5,  R9
+DECLARE_REG 6,  rax, 8
+DECLARE_REG 7,  R10, 16
+DECLARE_REG 8,  R11, 24
+DECLARE_REG 9,  rbx, 32
+DECLARE_REG 10, rbp, 40
+DECLARE_REG 11, R12, 48
+DECLARE_REG 12, R13, 56
+DECLARE_REG 13, R14, 64
+DECLARE_REG 14, R15, 72

 %macro PROLOGUE 2-4+ ; #args, #regs, #xmm_regs, arg_names...
    %assign num_args %1
@ -434,6 +430,8 @@ DECLARE_REG 14, R15, R15D, R15W, R15B, 72
    DEFINE_ARGS %4
 %endmacro

+%define has_epilogue regs_used > 9 || mmsize == 32
+
 %macro RET 0
    POP_IF_USED 14, 13, 12, 11, 10, 9
 %if mmsize == 32
@ -442,23 +440,15 @@ DECLARE_REG 14, R15, R15D, R15W, R15B, 72
    ret
 %endmacro

-%macro REP_RET 0
-    %if regs_used > 9 || mmsize == 32
-        RET
-    %else
-        rep ret
-    %endif
-%endmacro
-
 %else ; X86_32 ;==============================================================

-DECLARE_REG 0, eax, eax, ax, al,   4
-DECLARE_REG 1, ecx, ecx, cx, cl,   8
-DECLARE_REG 2, edx, edx, dx, dl,   12
-DECLARE_REG 3, ebx, ebx, bx, bl,   16
-DECLARE_REG 4, esi, esi, si, null, 20
-DECLARE_REG 5, edi, edi, di, null, 24
-DECLARE_REG 6, ebp, ebp, bp, null, 28
+DECLARE_REG 0, eax, 4
+DECLARE_REG 1, ecx, 8
+DECLARE_REG 2, edx, 12
+DECLARE_REG 3, ebx, 16
+DECLARE_REG 4, esi, 20
+DECLARE_REG 5, edi, 24
+DECLARE_REG 6, ebp, 28
 %define rsp esp

 %macro DECLARE_ARG 1-*
@ -474,6 +464,9 @@ DECLARE_ARG 7, 8, 9, 10, 11, 12, 13, 14
 %macro PROLOGUE 2-4+ ; #args, #regs, #xmm_regs, arg_names...
    %assign num_args %1
    %assign regs_used %2
+    %if num_args > 7
+        %assign num_args 7
+    %endif
    %if regs_used > 7
        %assign regs_used 7
    %endif
@ -483,6 +476,8 @@ DECLARE_ARG 7, 8, 9, 10, 11, 12, 13, 14
    DEFINE_ARGS %4
 %endmacro

+%define has_epilogue regs_used > 3 || mmsize == 32
+
 %macro RET 0
    POP_IF_USED 6, 5, 4, 3
 %if mmsize == 32
@ -491,14 +486,6 @@ DECLARE_ARG 7, 8, 9, 10, 11, 12, 13, 14
    ret
 %endmacro

-%macro REP_RET 0
-    %if regs_used > 3 || mmsize == 32
-        RET
-    %else
-        rep ret
-    %endif
-%endmacro
-
 %endif ;======================================================================

 %if WIN64 == 0
@ -508,6 +495,23 @@ DECLARE_ARG 7, 8, 9, 10, 11, 12, 13, 14
 %endmacro
 %endif

+%macro REP_RET 0
+    %if has_epilogue
+        RET
+    %else
+        rep ret
+    %endif
+%endmacro
+
+%macro TAIL_CALL 2 ; callee, is_nonadjacent
+    %if has_epilogue
+        call %1
+        RET
+    %elif %2
+        jmp %1
+    %endif
+%endmacro
+
 ;=============================================================================
 ; arch-independent part
 ;=============================================================================
@ -597,6 +601,8 @@ SECTION .note.GNU-stack noalloc noexec nowrite progbits
 %assign cpuflags_avx      (1<<11)| cpuflags_sse42
 %assign cpuflags_xop      (1<<12)| cpuflags_avx
 %assign cpuflags_fma4     (1<<13)| cpuflags_avx
+%assign cpuflags_avx2     (1<<14)| cpuflags_avx
+%assign cpuflags_fma3     (1<<15)| cpuflags_avx

 %assign cpuflags_cache32  (1<<16)
 %assign cpuflags_cache64  (1<<17)
@ -605,6 +611,9 @@ SECTION .note.GNU-stack noalloc noexec nowrite progbits
 %assign cpuflags_misalign (1<<20)
 %assign cpuflags_aligned  (1<<21) ; not a cpu feature, but a function variant
 %assign cpuflags_atom     (1<<22)
+%assign cpuflags_bmi1     (1<<23)
+%assign cpuflags_bmi2     (1<<24)|cpuflags_bmi1
+%assign cpuflags_tbm      (1<<25)|cpuflags_bmi1

 %define    cpuflag(x) ((cpuflags & (cpuflags_ %+ x)) == (cpuflags_ %+ x))
 %define notcpuflag(x) ((cpuflags & (cpuflags_ %+ x)) != (cpuflags_ %+ x))
@ -875,25 +884,38 @@ INIT_XMM
 %endrep
 %undef i

+%macro CHECK_AVX_INSTR_EMU 3-*
+    %xdefine %%opcode %1
+    %xdefine %%dst %2
+    %rep %0-2
+        %ifidn %%dst, %3
+            %error non-avx emulation of ``%%opcode'' is not supported
+        %endif
+        %rotate 1
+    %endrep
+%endmacro
+
 ;%1 == instruction
 ;%2 == 1 if float, 0 if int
 ;%3 == 1 if 4-operand (xmm, xmm, xmm, imm), 0 if 2- or 3-operand (xmm, xmm, xmm)
 ;%4 == number of operands given
 ;%5+: operands
 %macro RUN_AVX_INSTR 6-7+
-    %ifid %5
-        %define %%size sizeof%5
+    %ifid %6
+        %define %%sizeofreg sizeof%6
+    %elifid %5
+        %define %%sizeofreg sizeof%5
    %else
-        %define %%size mmsize
+        %define %%sizeofreg mmsize
    %endif
-    %if %%size==32
-        %if %0 >= 7
+    %if %%sizeofreg==32
+        %if %4>=3
            v%1 %5, %6, %7
        %else
            v%1 %5, %6
        %endif
    %else
-        %if %%size==8
+        %if %%sizeofreg==8
            %define %%regmov movq
        %elif %2
            %define %%regmov movaps
@ -903,16 +925,17 @@ INIT_XMM

        %if %4>=3+%3
            %ifnidn %5, %6
-                %if avx_enabled && sizeof%5==16
+                %if avx_enabled && %%sizeofreg==16
                    v%1 %5, %6, %7
                %else
+                    CHECK_AVX_INSTR_EMU {%1 %5, %6, %7}, %5, %7
                    %%regmov %5, %6
                    %1 %5, %7
                %endif
            %else
                %1 %5, %7
            %endif
-        %elif %3
+        %elif %4>=3
            %1 %5, %6, %7
        %else
            %1 %5, %6
@ -943,7 +966,7 @@ INIT_XMM

 ;%1 == instruction
 ;%2 == 1 if float, 0 if int
-;%3 == 1 if 4-operand (xmm, xmm, xmm, imm), 0 if 3-operand (xmm, xmm, xmm)
+;%3 == 1 if 4-operand (xmm, xmm, xmm, imm), 0 if 2- or 3-operand (xmm, xmm, xmm)
 ;%4 == 1 if symmetric (i.e. doesn't matter which src arg is which), 0 if not
 %macro AVX_INSTR 4
    %macro %1 2-9 fnord, fnord, fnord, %1, %2, %3, %4
@ -1008,6 +1031,9 @@ AVX_INSTR mulsd, 1, 0, 1
 AVX_INSTR mulss, 1, 0, 1
 AVX_INSTR orpd, 1, 0, 1
 AVX_INSTR orps, 1, 0, 1
+AVX_INSTR pabsb, 0, 0, 0
+AVX_INSTR pabsw, 0, 0, 0
+AVX_INSTR pabsd, 0, 0, 0
 AVX_INSTR packsswb, 0, 0, 0
 AVX_INSTR packssdw, 0, 0, 0
 AVX_INSTR packuswb, 0, 0, 0
@ -1059,6 +1085,7 @@ AVX_INSTR pminsd, 0, 0, 1
 AVX_INSTR pminub, 0, 0, 1
 AVX_INSTR pminuw, 0, 0, 1
 AVX_INSTR pminud, 0, 0, 1
+AVX_INSTR pmovmskb, 0, 0, 0
 AVX_INSTR pmulhuw, 0, 0, 1
 AVX_INSTR pmulhrsw, 0, 0, 1
 AVX_INSTR pmulhw, 0, 0, 1
@ -1069,6 +1096,9 @@ AVX_INSTR pmuldq, 0, 0, 1
 AVX_INSTR por, 0, 0, 1
 AVX_INSTR psadbw, 0, 0, 1
 AVX_INSTR pshufb, 0, 0, 0
+AVX_INSTR pshufd, 0, 1, 0
+AVX_INSTR pshufhw, 0, 1, 0
+AVX_INSTR pshuflw, 0, 1, 0
 AVX_INSTR psignb, 0, 0, 0
 AVX_INSTR psignw, 0, 0, 0
 AVX_INSTR psignd, 0, 0, 0
@ -1090,6 +1120,7 @@ AVX_INSTR psubsb, 0, 0, 0
 AVX_INSTR psubsw, 0, 0, 0
 AVX_INSTR psubusb, 0, 0, 0
 AVX_INSTR psubusw, 0, 0, 0
+AVX_INSTR ptest, 0, 0, 0
 AVX_INSTR punpckhbw, 0, 0, 0
 AVX_INSTR punpckhwd, 0, 0, 0
 AVX_INSTR punpckhdq, 0, 0, 0
@ -1154,3 +1185,7 @@ FMA_INSTR  fmaddps,   mulps, addps
 FMA_INSTR  pmacsdd,  pmulld, paddd
 FMA_INSTR  pmacsww,  pmullw, paddw
 FMA_INSTR pmadcswd, pmaddwd, paddd
+
+; tzcnt is equivalent to "rep bsf" and is backwards-compatible with bsf.
+; This lets us use tzcnt without bumping the yasm version requirement yet.
+%define tzcnt rep bsf
--- a/library.mak
+++ b/library.mak
@ -17,7 +17,7 @@ $(SUBDIR)%-test.o: $(SUBDIR)%.c
 	$(COMPILE_C)

 $(SUBDIR)x86/%.o: $(SUBDIR)x86/%.asm
-	$(YASMDEP) $(YASMFLAGS) -I $(<D)/ -M -o $@ $< > $(@:.o=.d)
+	$(DEPYASM) $(YASMFLAGS) -I $(<D)/ -M -o $@ $< > $(@:.o=.d)
 	$(YASM) $(YASMFLAGS) -I $(<D)/ -o $@ $<

 $(OBJS) $(OBJS:.o=.s) $(SUBDIR)%.ho $(TESTOBJS): CPPFLAGS += -DHAVE_AV_CONFIG_H
--- a/tests/audiogen.c
+++ b/tests/audiogen.c
@ -144,8 +144,8 @@ int main(int argc, char **argv)
    int nb_channels = 2;
    char *ext;

-    if (argc < 2 || argc > 4) {
-        printf("usage: %s file [<sample rate> [<channels>]]\n"
+    if (argc < 2 || argc > 5) {
+        printf("usage: %s file [<sample rate> [<channels>] [<random seed>]]\n"
               "generate a test raw 16 bit audio stream\n"
               "If the file extension is .wav a WAVE header will be added.\n"
               "default: 44100 Hz stereo\n", argv[0]);
@ -168,6 +168,9 @@ int main(int argc, char **argv)
        }
    }

+    if (argc > 4)
+        seed = atoi(argv[4]);
+
    outfile = fopen(argv[1], "wb");
    if (!outfile) {
        perror(argv[1]);
--- a/tests/fate/filter.mak
+++ b/tests/fate/filter.mak
@ -1,3 +1,25 @@
+FATE_AMIX += fate-filter-amix-simple
+fate-filter-amix-simple: CMD = ffmpeg -filter_complex amix -i $(SRC) -ss 3 -i $(SRC1) -f f32le -
+fate-filter-amix-simple: REF = $(SAMPLES)/filter/amix_simple.pcm
+
+FATE_AMIX += fate-filter-amix-first
+fate-filter-amix-first: CMD = ffmpeg -filter_complex amix=duration=first -ss 4 -i $(SRC) -i $(SRC1) -f f32le -
+fate-filter-amix-first: REF = $(SAMPLES)/filter/amix_first.pcm
+
+FATE_AMIX += fate-filter-amix-transition
+fate-filter-amix-transition: tests/data/asynth-44100-2-3.wav
+fate-filter-amix-transition: SRC2 = $(TARGET_PATH)/tests/data/asynth-44100-2-3.wav
+fate-filter-amix-transition: CMD = ffmpeg -filter_complex amix=inputs=3:dropout_transition=0.5 -i $(SRC) -ss 2 -i $(SRC1) -ss 4 -i $(SRC2) -f f32le -
+fate-filter-amix-transition: REF = $(SAMPLES)/filter/amix_transition.pcm
+
+$(FATE_AMIX): tests/data/asynth-44100-2.wav tests/data/asynth-44100-2-2.wav
+$(FATE_AMIX): SRC  = $(TARGET_PATH)/tests/data/asynth-44100-2.wav
+$(FATE_AMIX): SRC1 = $(TARGET_PATH)/tests/data/asynth-44100-2-2.wav
+$(FATE_AMIX): CMP  = oneoff
+
+FATE_FILTER += $(FATE_AMIX)
+FATE_SAMPLES_AVCONV += $(FATE_AMIX)
+
 FATE_ASYNCTS += fate-filter-asyncts
 fate-filter-asyncts: SRC = $(SAMPLES)/nellymoser/nellymoser-discont.flv
 fate-filter-asyncts: CMD = pcm -i $(SRC) -af aresample=min_comp=0.001:min_hard_comp=0.1
@ -7,4 +29,18 @@ fate-filter-asyncts: REF = $(SAMPLES)/nellymoser/nellymoser-discont.pcm
 FATE_FILTER += $(FATE_ASYNCTS)
 FATE_SAMPLES_AVCONV += $(FATE_ASYNCTS)

+fate-filter-delogo: CMD = framecrc -i $(SAMPLES)/real/rv30.rm -vf delogo=show=0:x=290:y=25:w=26:h=16 -an
+
+FATE_FILTER += fate-filter-delogo
+FATE_SAMPLES_AVCONV += fate-filter-delogo
+
+FATE_YADIF += fate-filter-yadif-mode0
+fate-filter-yadif-mode0: CMD = framecrc -i $(SAMPLES)/mpeg2/mpeg2_field_encoding.ts -vf yadif=0
+
+FATE_YADIF += fate-filter-yadif-mode1
+fate-filter-yadif-mode1: CMD = framecrc -i $(SAMPLES)/mpeg2/mpeg2_field_encoding.ts -vf yadif=1
+
+FATE_FILTER += $(FATE_YADIF)
+FATE_SAMPLES_AVCONV += $(FATE_YADIF)
+
 fate-filter: $(FATE_FILTER)
--- a/tests/ref/fate/filter-delogo
+++ b/tests/ref/fate/filter-delogo
@ -0,0 +1,110 @@
+#tb 0: 32768/982057
+0,          0,          0,        1,   126720, 0x689de87e
+0,          1,          1,        1,   126720, 0x3db9e91c
+0,          2,          2,        1,   126720, 0x3db9e91c
+0,          3,          3,        1,   126720, 0x3db9e91c
+0,          4,          4,        1,   126720, 0xfa6ae95e
+0,          5,          5,        1,   126720, 0x5bcbf0e6
+0,          6,          6,        1,   126720, 0x94a0f126
+0,          7,          7,        1,   126720, 0x0250f106
+0,          8,          8,        1,   126720, 0xcf6ab4bc
+0,          9,          9,        1,   126720, 0x44aeb57c
+0,         10,         10,        1,   126720, 0x33b0b5bc
+0,         11,         11,        1,   126720, 0xc4bab591
+0,         12,         12,        1,   126720, 0xa492b5ec
+0,         13,         13,        1,   126720, 0x1459b85c
+0,         14,         14,        1,   126720, 0x806fb8dc
+0,         15,         15,        1,   126720, 0xd241b871
+0,         16,         16,        1,   126720, 0x698eb5cc
+0,         17,         17,        1,   126720, 0x4719aa98
+0,         18,         18,        1,   126720, 0x9ca1962c
+0,         19,         19,        1,   126720, 0x18cda460
+0,         20,         20,        1,   126720, 0xc230b716
+0,         21,         21,        1,   126720, 0x8451a4e2
+0,         22,         22,        1,   126720, 0x59e9a7ea
+0,         23,         23,        1,   126720, 0xc77ca73d
+0,         24,         24,        1,   126720, 0x725fb976
+0,         25,         25,        1,   126720, 0xb30da3b3
+0,         26,         26,        1,   126720, 0x7af2ea86
+0,         27,         27,        1,   126720, 0x40d4b4eb
+0,         28,         28,        1,   126720, 0x49d00307
+0,         29,         29,        1,   126720, 0x44c8848e
+0,         30,         30,        1,   126720, 0xc6990101
+0,         31,         31,        1,   126720, 0x2e01b963
+0,         32,         32,        1,   126720, 0xd0e903f0
+0,         33,         33,        1,   126720, 0x3457d592
+0,         34,         34,        1,   126720, 0x4f1ddb3c
+0,         35,         35,        1,   126720, 0x3980ace5
+0,         36,         36,        1,   126720, 0xb1e37954
+0,         37,         37,        1,   126720, 0x619fc554
+0,         38,         38,        1,   126720, 0x945fb39e
+0,         39,         39,        1,   126720, 0xb1d5e0ce
+0,         40,         40,        1,   126720, 0xf26e1dcc
+0,         41,         41,        1,   126720, 0x04d5783e
+0,         42,         42,        1,   126720, 0xbaa0479e
+0,         43,         43,        1,   126720, 0x20d88b01
+0,         44,         44,        1,   126720, 0x59d99901
+0,         45,         45,        1,   126720, 0x1c6e09f6
+0,         46,         46,        1,   126720, 0xeec50fc5
+0,         47,         47,        1,   126720, 0xb3a92827
+0,         48,         48,        1,   126720, 0xf62dd2b6
+0,         49,         49,        1,   126720, 0x75b1e619
+0,         50,         50,        1,   126720, 0x6bbce2c0
+0,         51,         51,        1,   126720, 0xd93e023c
+0,         52,         52,        1,   126720, 0xbbe8e7c2
+0,         53,         53,        1,   126720, 0x2272ec17
+0,         54,         54,        1,   126720, 0xf5e4ee6e
+0,         55,         55,        1,   126720, 0x751d2607
+0,         56,         56,        1,   126720, 0x44c499c9
+0,         57,         57,        1,   126720, 0xddccd842
+0,         58,         58,        1,   126720, 0x508dd214
+0,         59,         59,        1,   126720, 0x8eb10272
+0,         60,         60,        1,   126720, 0x7224b1c6
+0,         61,         61,        1,   126720, 0x50ff456c
+0,         62,         62,        1,   126720, 0xa81e2731
+0,         63,         63,        1,   126720, 0x7e50456d
+0,         64,         64,        1,   126720, 0x44802978
+0,         65,         65,        1,   126720, 0x86e88743
+0,         66,         66,        1,   126720, 0x0b1087d6
+0,         67,         67,        1,   126720, 0xb0227d21
+0,         68,         68,        1,   126720, 0x29d10bd2
+0,         69,         69,        1,   126720, 0x04b43afa
+0,         70,         70,        1,   126720, 0xb48e9698
+0,         71,         71,        1,   126720, 0x75d760fb
+0,         72,         72,        1,   126720, 0xa2ab1fdb
+0,         73,         73,        1,   126720, 0xec30a5ee
+0,         74,         74,        1,   126720, 0xbdab7c8c
+0,         75,         75,        1,   126720, 0xac5c3f2c
+0,         76,         76,        1,   126720, 0xce6350be
+0,         77,         77,        1,   126720, 0xb109657a
+0,         78,         78,        1,   126720, 0x723865a4
+0,         79,         79,        1,   126720, 0xa9869124
+0,         80,         80,        1,   126720, 0xc41af558
+0,         81,         81,        1,   126720, 0xcbe6a402
+0,         82,         82,        1,   126720, 0xb6735ecb
+0,         83,         83,        1,   126720, 0xba3059f2
+0,         84,         84,        1,   126720, 0xe7d63b8d
+0,         85,         85,        1,   126720, 0x8f115906
+0,         86,         86,        1,   126720, 0xaf6a8dcb
+0,         87,         87,        1,   126720, 0xb73e846e
+0,         88,         88,        1,   126720, 0xedd6380f
+0,         89,         89,        1,   126720, 0xd9026acf
+0,         90,         90,        1,   126720, 0xa03a650b
+0,         91,         91,        1,   126720, 0x262765bc
+0,         92,         92,        1,   126720, 0xaaa9ded1
+0,         93,         93,        1,   126720, 0xe4f42665
+0,         94,         94,        1,   126720, 0x78daf760
+0,         95,         95,        1,   126720, 0x3b0c6ef8
+0,         96,         96,        1,   126720, 0xb745df80
+0,         97,         97,        1,   126720, 0x08e57b90
+0,         98,         98,        1,   126720, 0x6f883ab0
+0,         99,         99,        1,   126720, 0x934b4dd5
+0,        100,        100,        1,   126720, 0x762f108f
+0,        101,        101,        1,   126720, 0x91ee0f2b
+0,        102,        102,        1,   126720, 0x9af6e5e8
+0,        103,        103,        1,   126720, 0xdcd95e0a
+0,        104,        104,        1,   126720, 0x22c33a6e
+0,        105,        105,        1,   126720, 0x21c1b7f4
+0,        106,        106,        1,   126720, 0x0a66a1ed
+0,        107,        107,        1,   126720, 0x53fea81b
+0,        108,        108,        1,   126720, 0x597f5567
--- a/tests/ref/fate/filter-yadif-mode0
+++ b/tests/ref/fate/filter-yadif-mode0
@ -0,0 +1,32 @@
+#tb 0: 1/25
+0,          9,          9,        1,   622080, 0x1511cae9
+0,         10,         10,        1,   622080, 0x6e77e746
+0,         11,         11,        1,   622080, 0x89aac777
+0,         12,         12,        1,   622080, 0x7e0a9335
+0,         13,         13,        1,   622080, 0x5f34759b
+0,         14,         14,        1,   622080, 0xfac498a6
+0,         15,         15,        1,   622080, 0xe60e7a9e
+0,         16,         16,        1,   622080, 0x44875bbd
+0,         17,         17,        1,   622080, 0xfa761aab
+0,         18,         18,        1,   622080, 0x59be119c
+0,         19,         19,        1,   622080, 0x21316b36
+0,         20,         20,        1,   622080, 0x929fde5b
+0,         21,         21,        1,   622080, 0xfca8990c
+0,         22,         22,        1,   622080, 0x1ec87d02
+0,         23,         23,        1,   622080, 0x5768eea0
+0,         24,         24,        1,   622080, 0x1a0894ab
+0,         25,         25,        1,   622080, 0xb4e61323
+0,         26,         26,        1,   622080, 0xb773341a
+0,         27,         27,        1,   622080, 0x8a914cf7
+0,         28,         28,        1,   622080, 0xf1cfbc7d
+0,         29,         29,        1,   622080, 0xebaeb317
+0,         30,         30,        1,   622080, 0xbae9adf4
+0,         31,         31,        1,   622080, 0x593544fd
+0,         32,         32,        1,   622080, 0x2cd8ec0b
+0,         33,         33,        1,   622080, 0x8032d9d4
+0,         34,         34,        1,   622080, 0x5c67ace7
+0,         35,         35,        1,   622080, 0x95714528
+0,         36,         36,        1,   622080, 0xa11cbed2
+0,         37,         37,        1,   622080, 0x7389f8f1
+0,         38,         38,        1,   622080, 0xa694f3f2
+0,         39,         39,        1,   622080, 0xac3a3d09
--- a/tests/ref/fate/filter-yadif-mode1
+++ b/tests/ref/fate/filter-yadif-mode1
@ -0,0 +1,34 @@
+#tb 0: 1/25
+0,          9,          9,        1,   622080, 0x1511cae9
+0,         10,         10,        1,   622080, 0xb88ca855
+0,         11,         11,        1,   622080, 0x6e77e746
+0,         12,         12,        1,   622080, 0x5da19198
+0,         13,         13,        1,   622080, 0xee31c8a8
+0,         14,         14,        1,   622080, 0xcbb7aac5
+0,         15,         15,        1,   622080, 0x19972f1a
+0,         16,         16,        1,   622080, 0xac7d34b9
+0,         17,         17,        1,   622080, 0x4adfe592
+0,         18,         18,        1,   622080, 0x5d738330
+0,         19,         19,        1,   622080, 0xb60b4447
+0,         20,         20,        1,   622080, 0x1e11acf4
+0,         21,         21,        1,   622080, 0x5ed635d0
+0,         22,         22,        1,   622080, 0x939857af
+0,         23,         23,        1,   622080, 0x530b28fd
+0,         24,         24,        1,   622080, 0x3bc0d5d3
+0,         25,         25,        1,   622080, 0x77e0fe99
+0,         26,         26,        1,   622080, 0xd2151c1e
+0,         27,         27,        1,   622080, 0xe021a815
+0,         28,         28,        1,   622080, 0xceae4f12
+0,         29,         29,        1,   622080, 0x4c2f3330
+0,         30,         30,        1,   622080, 0xf534c392
+0,         31,         31,        1,   622080, 0x88f01c11
+0,         32,         32,        1,   622080, 0x654d5df2
+0,         33,         33,        1,   622080, 0x89ef6f8a
+0,         34,         34,        1,   622080, 0x78a7b5f1
+0,         35,         35,        1,   622080, 0x8152d67f
+0,         36,         36,        1,   622080, 0x6590ff5f
+0,         37,         37,        1,   622080, 0x51d2be96
+0,         38,         38,        1,   622080, 0x483f65f7
+0,         39,         39,        1,   622080, 0x7a69143d
+0,         40,         40,        1,   622080, 0xeccc58ff
+0,         41,         41,        1,   622080, 0xc4d2c370