You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 

15 KiB

comments description keywords
true Découvrez le modèle Segment Anything (SAM) de pointe d'Ultralytics permettant la segmentation d'images en temps réel. Apprenez-en davantage sur sa segmentation promptable, ses performances hors échantillon et comment l'utiliser. Ultralytics, segmentation d'image, Segment Anything Model, SAM, SA-1B dataset, performances en temps réel, transfert hors échantillon, détection d'objets, analyse d'images, apprentissage automatique

Segment Anything Model (SAM)

Bienvenue à la pointe de la segmentation d'image avec le modèle Segment Anything, ou SAM. Ce modèle révolutionnaire a changé la donne en introduisant la segmentation d'image promptable avec des performances en temps réel, établissant de nouvelles normes dans le domaine.

Introduction à SAM : Le modèle Segment Anything

Le modèle Segment Anything, ou SAM, est un modèle de segmentation d'image de pointe qui permet une segmentation promptable, offrant une polyvalence inégalée dans les tâches d'analyse d'image. SAM forme le cœur de l'initiative Segment Anything, un projet innovant qui introduit un modèle, une tâche et un jeu de données novateurs pour la segmentation d'images.

La conception avancée de SAM lui permet de s'adapter à de nouvelles distributions et tâches d'images sans connaissance préalable, une fonctionnalité connue sous le nom de transfert hors échantillon. Entraîné sur le vaste ensemble de données SA-1B, qui contient plus d'un milliard de masques répartis sur 11 millions d'images soigneusement sélectionnées, SAM a affiché des performances hors échantillon impressionnantes, dépassant les résultats entièrement supervisés précédents dans de nombreux cas.

Image d'échantillon de jeu de données Exemple d'images avec des masques superposés provenant de notre nouveau jeu de données, SA-1B. SA-1B contient 11 millions d'images diverses, haute résolution, autorisées et protégeant la vie privée, ainsi que 1,1 milliard de masques de segmentation de haute qualité. Ces masques ont été annotés entièrement automatiquement par SAM, et comme le confirment des évaluations humaines et de nombreux tests, leur qualité et leur diversité sont élevées. Les images sont regroupées par nombre de masques par image pour la visualisation (il y a environ 100 masques par image en moyenne).

Caractéristiques clés du modèle Segment Anything (SAM)

  • Tâche de segmentation promptable : SAM a été conçu en gardant à l'esprit une tâche de segmentation promptable, ce qui lui permet de générer des masques de segmentation valides à partir de n'importe quelle indication donnée, telle que des indices spatiaux ou des indices textuels identifiant un objet.
  • Architecture avancée : Le modèle Segment Anything utilise un puissant encodeur d'images, un encodeur de prompt et un décodeur de masques léger. Cette architecture unique permet une invitation flexible, un calcul de masques en temps réel et une prise en compte de l'ambiguïté dans les tâches de segmentation.
  • Le jeu de données SA-1B : Introduit par le projet Segment Anything, le jeu de données SA-1B comprend plus d'un milliard de masques sur 11 millions d'images. En tant que plus grand jeu de données de segmentation à ce jour, il offre à SAM une source de données d'entraînement diversifiée et à grande échelle.
  • Performances hors échantillon : SAM affiche des performances hors échantillon exceptionnelles dans diverses tâches de segmentation, ce qui en fait un outil prêt à l'emploi pour des applications diverses nécessitant un minimum d'ingénierie de prompt.

Pour une analyse approfondie du modèle Segment Anything et du jeu de données SA-1B, veuillez visiter le site web Segment Anything et consulter l'article de recherche Segment Anything.

Modèles disponibles, tâches prises en charge et modes d'exploitation

Ce tableau présente les modèles disponibles avec leurs poids pré-entraînés spécifiques, les tâches qu'ils prennent en charge et leur compatibilité avec différents modes d'exploitation tels que Inférence, Validation, Entraînement et Exportation, indiqués par des emojis pour les modes pris en charge et des emojis pour les modes non pris en charge.

Type de modèle Poids pré-entraînés Tâches prises en charge Inférence Validation Entraînement Exportation
SAM de base sam_b.pt Segmentation d'instance
SAM large sam_l.pt Segmentation d'instance

Comment utiliser SAM : Polyvalence et puissance dans la segmentation d'images

Le modèle Segment Anything peut être utilisé pour une multitude de tâches secondaires qui vont au-delà de ses données d'entraînement. Cela comprend la détection des contours, la génération de propositions d'objets, la segmentation d'instances et la prédiction préliminaire texte-à-masque. Grâce à l'ingénierie de prompts, SAM peut s'adapter rapidement à de nouvelles tâches et distributions de données de manière sans apprentissage, ce qui en fait un outil polyvalent et puissant pour tous vos besoins en matière de segmentation d'images.

Exemple de prédiction SAM

!!! Example "Segmentation avec des prompts"

Segmenter l'image avec des prompts donnés.

=== "Python"

    ```python
    from ultralytics import SAM

    # Charger un modèle
    model = SAM('sam_b.pt')

    # Afficher les informations sur le modèle (facultatif)
    model.info()

    # Exécuter l'inférence avec un prompt de zones de délimitation
    model('ultralytics/assets/zidane.jpg', bboxes=[439, 437, 524, 709])

    # Exécuter l'inférence avec un prompt de points
    model('ultralytics/assets/zidane.jpg', points=[900, 370], labels=[1])
    ```

!!! Example "Segmenter tout"

Segmenter toute l'image.

=== "Python"

    ```python
    from ultralytics import SAM

    # Charger un modèle
    model = SAM('sam_b.pt')

    # Afficher les informations sur le modèle (facultatif)
    model.info()

    # Exécuter l'inférence
    model('path/to/image.jpg')
    ```

=== "CLI"

    ```bash
    # Exécuter l'inférence avec un modèle SAM
    yolo predict model=sam_b.pt source=path/to/image.jpg
    ```
  • La logique ici est de segmenter toute l'image si vous ne passez aucun prompt (bboxes/points/masks).

!!! Example "Exemple SAMPredictor"

De cette manière, vous pouvez définir l'image une fois et exécuter l'inférence des prompts plusieurs fois sans exécuter l'encodeur d'image plusieurs fois.

=== "Inférence avec des prompts"

    ```python
    from ultralytics.models.sam import Predictor as SAMPredictor

    # Créer un SAMPredictor
    overrides = dict(conf=0.25, task='segment', mode='predict', imgsz=1024, model="mobile_sam.pt")
    predictor = SAMPredictor(overrides=overrides)

    # Définir l'image
    predictor.set_image("ultralytics/assets/zidane.jpg")  # définir avec un fichier image
    predictor.set_image(cv2.imread("ultralytics/assets/zidane.jpg"))  # définir avec np.ndarray
    results = predictor(bboxes=[439, 437, 524, 709])
    results = predictor(points=[900, 370], labels=[1])

    # Réinitialiser l'image
    predictor.reset_image()
    ```

Segmenter toute l'image avec des arguments supplémentaires.

=== "Segmenter tout"

    ```python
    from ultralytics.models.sam import Predictor as SAMPredictor

    # Créer un SAMPredictor
    overrides = dict(conf=0.25, task='segment', mode='predict', imgsz=1024, model="mobile_sam.pt")
    predictor = SAMPredictor(overrides=overrides)

    # Segmenter avec des arguments supplémentaires
    results = predictor(source="ultralytics/assets/zidane.jpg", crop_n_layers=1, points_stride=64)
    ```
  • Plus d'arguments supplémentaires pour Segmenter tout voir la référence Predictor/generate.

Comparaison de SAM avec YOLOv8

Nous comparons ici le plus petit modèle SAM de Meta, SAM-b, avec le plus petit modèle de segmentation d'Ultralytics, YOLOv8n-seg :

Modèle Taille Paramètres Vitesse (CPU)
SAM-b - Meta's SAM-b 358 Mo 94,7 M 51096 ms/im
MobileSAM 40,7 Mo 10,1 M 46122 ms/im
FastSAM-s with YOLOv8 backbone 23,7 Mo 11,8 M 115 ms/im
YOLOv8n-seg - Ultralytics YOLOv8n-seg 6,7 Mo (53,4 fois plus petit) 3,4 M (27,9 fois moins) 59 ms/im (866 fois plus rapide)

Cette comparaison montre les différences d'ordre de grandeur dans les tailles et les vitesses des modèles. Alors que SAM présente des fonctionnalités uniques pour la segmentation automatique, il ne rivalise pas directement avec les modèles de segmentation YOLOv8, qui sont plus petits, plus rapides et plus efficaces.

Tests effectués sur un MacBook Apple M2 de 2023 avec 16 Go de RAM. Pour reproduire ce test :

!!! Example "Exemple"

=== "Python"
    ```python
    from ultralytics import FastSAM, SAM, YOLO

    # Profiler SAM-b
    modèle = SAM('sam_b.pt')
    modèle.info()
    modèle('ultralytics/assets')

    # Profiler MobileSAM
    modèle = SAM('mobile_sam.pt')
    modèle.info()
    modèle('ultralytics/assets')

    # Profiler FastSAM-s
    modèle = FastSAM('FastSAM-s.pt')
    modèle.info()
    modèle('ultralytics/assets')

    # Profiler YOLOv8n-seg
    modèle = YOLO('yolov8n-seg.pt')
    modèle.info()
    modèle('ultralytics/assets')
    ```

Annotation automatique : Un moyen rapide d'obtenir des jeux de données de segmentation

L'annotation automatique est une fonctionnalité clé de SAM, permettant aux utilisateurs de générer un jeu de données de segmentation à l'aide d'un modèle de détection pré-entraîné. Cette fonctionnalité permet une annotation rapide et précise d'un grand nombre d'images, en contournant la nécessité d'une annotation manuelle chronophage.

Générez votre jeu de données de segmentation à l'aide d'un modèle de détection

Pour annoter automatiquement votre jeu de données avec le framework Ultralytics, utilisez la fonction auto_annotate comme indiqué ci-dessous :

!!! Example "Exemple"

=== "Python"
    ```python
    from ultralytics.data.annotator import auto_annotate

    auto_annotate(data="path/to/images", det_model="yolov8x.pt", sam_model='sam_b.pt')
    ```
Argument Type Description Default
data str Chemin d'accès à un dossier contenant les images à annoter.
det_model str, optionnel Modèle de détection pré-entraîné YOLO. Par défaut, 'yolov8x.pt'. 'yolov8x.pt'
sam_model str, optionnel Modèle de segmentation pré-entraîné SAM. Par défaut, 'sam_b.pt'. 'sam_b.pt'
device str, optionnel Appareil sur lequel exécuter les modèles. Par défaut, une chaîne vide (CPU ou GPU, si disponible).
output_dir str, None, optionnel Répertoire pour enregistrer les résultats annotés. Par défaut, un dossier 'labels' dans le même répertoire que 'data'. None

La fonction auto_annotate prend en compte le chemin de vos images, avec des arguments optionnels pour spécifier les modèles de détection et de segmentation SAM pré-entraînés, l'appareil sur lequel exécuter les modèles et le répertoire de sortie pour enregistrer les résultats annotés.

L'annotation automatique avec des modèles pré-entraînés peut réduire considérablement le temps et les efforts nécessaires pour créer des jeux de données de segmentation de haute qualité. Cette fonctionnalité est particulièrement bénéfique pour les chercheurs et les développeurs travaillant avec de grandes collections d'images, car elle leur permet de se concentrer sur le développement et l'évaluation des modèles plutôt que sur l'annotation manuelle.

Citations et remerciements

Si vous trouvez SAM utile dans vos travaux de recherche ou de développement, veuillez envisager de citer notre article :

!!! Quote ""

=== "BibTeX"

    ```bibtex
    @misc{kirillov2023segment,
          title={Segment Anything},
          author={Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C. Berg and Wan-Yen Lo and Piotr Dollár and Ross Girshick},
          year={2023},
          eprint={2304.02643},
          archivePrefix={arXiv},
          primaryClass={cs.CV}
    }
    ```

Nous tenons à exprimer notre gratitude à Meta AI pour la création et la maintenance de cette ressource précieuse pour la communauté de la vision par ordinateur.

keywords: Segment Anything, Segment Anything Model, SAM, Meta SAM, segmentation d'image, segmentation promptable, performances hors échantillon, jeu de données SA-1B, architecture avancée, annotation automatique, Ultralytics, modèles pré-entraînés, SAM de base, SAM large, segmentation d'instance, vision par ordinateur, IA, intelligence artificielle, apprentissage automatique, annotation de données, masques de segmentation, modèle de détection, modèle de détection YOLO, bibtex, Meta AI.