feat: Add new api for getting deploy options for Vertex AI Model Garden custom model

vertex-sdk-bot · copybara-github · commit d0c78032ffb0 · 2025-08-19T13:29:40.000-07:00
PiperOrigin-RevId: 796997464
diff --git a/tests/unit/vertexai/model_garden/test_model_garden.py b/tests/unit/vertexai/model_garden/test_model_garden.py
@@ -1476,6 +1476,171 @@ def test_deploy_custom_model_with_all_config_success(self, deploy_mock):
             )
         )
 
+    def test_list_deploy_options_with_recommendations(self):
+        """Tests list_deploy_options when recommend_spec returns recommendations."""
+        aiplatform.init(
+            project=_TEST_PROJECT,
+            location=_TEST_LOCATION,
+        )
+        mock_model_service_client = mock.Mock()
+        with mock.patch.object(
+            aiplatform.initializer.global_config,
+            "create_client",
+            return_value=mock_model_service_client,
+        ):
+            quota_state = types.RecommendSpecResponse.Recommendation.QuotaState
+            mock_response = types.RecommendSpecResponse(
+                recommendations=[
+                    types.RecommendSpecResponse.Recommendation(
+                        spec=types.RecommendSpecResponse.MachineAndModelContainerSpec(
+                            machine_spec=types.MachineSpec(
+                                machine_type="n1-standard-4",
+                                accelerator_type=types.AcceleratorType.NVIDIA_TESLA_T4,
+                                accelerator_count=1,
+                            )
+                        ),
+                        region="us-central1",
+                        user_quota_state=quota_state.QUOTA_STATE_USER_HAS_QUOTA,
+                    ),
+                    types.RecommendSpecResponse.Recommendation(
+                        spec=types.RecommendSpecResponse.MachineAndModelContainerSpec(
+                            machine_spec=types.MachineSpec(
+                                machine_type="n1-standard-8",
+                                accelerator_type=types.AcceleratorType.NVIDIA_TESLA_V100,
+                                accelerator_count=2,
+                            )
+                        ),
+                        region="us-east1",
+                        user_quota_state=quota_state.QUOTA_STATE_NO_USER_QUOTA,
+                    ),
+                    types.RecommendSpecResponse.Recommendation(
+                        spec=types.RecommendSpecResponse.MachineAndModelContainerSpec(
+                            machine_spec=types.MachineSpec(
+                                machine_type="g2-standard-24",
+                                accelerator_type=types.AcceleratorType.NVIDIA_L4,
+                                accelerator_count=2,
+                            )
+                        ),
+                        region="us-central1",
+                        user_quota_state=quota_state.QUOTA_STATE_UNSPECIFIED,
+                    ),
+                ]
+            )
+            mock_model_service_client.recommend_spec.return_value = mock_response
+
+            custom_model = model_garden_preview.CustomModel(gcs_uri=_TEST_GCS_URI)
+            result = custom_model.list_deploy_options()
+
+            expected_output = textwrap.dedent(
+                """\
+            [Option 1]
+                machine_type="n1-standard-4",
+                accelerator_type="NVIDIA_TESLA_T4",
+                accelerator_count=1,
+                region="us-central1",
+                user_quota_state="QUOTA_STATE_USER_HAS_QUOTA"
+
+            [Option 2]
+                machine_type="n1-standard-8",
+                accelerator_type="NVIDIA_TESLA_V100",
+                accelerator_count=2,
+                region="us-east1",
+                user_quota_state="QUOTA_STATE_NO_USER_QUOTA"
+
+            [Option 3]
+                machine_type="g2-standard-24",
+                accelerator_type="NVIDIA_L4",
+                accelerator_count=2,
+                region="us-central1\""""
+            )
+            assert result == expected_output
+            mock_model_service_client.recommend_spec.assert_called_once_with(
+                types.RecommendSpecRequest(
+                    gcs_uri=_TEST_GCS_URI,
+                    parent=f"projects/{_TEST_PROJECT}/locations/{_TEST_LOCATION}",
+                    check_machine_availability=True,
+                ),
+                timeout=60,
+            )
+
+    def test_list_deploy_options_with_specs(self):
+        """Tests list_deploy_options when recommend_spec returns specs."""
+        aiplatform.init(
+            project=_TEST_PROJECT,
+            location=_TEST_LOCATION,
+        )
+        mock_model_service_client = mock.Mock()
+        with mock.patch.object(
+            aiplatform.initializer.global_config,
+            "create_client",
+            return_value=mock_model_service_client,
+        ):
+            mock_response = types.RecommendSpecResponse(
+                specs=[
+                    types.RecommendSpecResponse.MachineAndModelContainerSpec(
+                        machine_spec=types.MachineSpec(
+                            machine_type="n1-standard-4",
+                            accelerator_type=types.AcceleratorType.NVIDIA_TESLA_T4,
+                            accelerator_count=1,
+                        )
+                    ),
+                    types.RecommendSpecResponse.MachineAndModelContainerSpec(
+                        machine_spec=types.MachineSpec(
+                            machine_type="n1-standard-8",
+                            accelerator_type=types.AcceleratorType.NVIDIA_TESLA_V100,
+                            accelerator_count=2,
+                        )
+                    ),
+                ]
+            )
+            mock_model_service_client.recommend_spec.return_value = mock_response
+
+            custom_model = model_garden_preview.CustomModel(gcs_uri=_TEST_GCS_URI)
+            result = custom_model.list_deploy_options(available_machines=False)
+
+            expected_output = textwrap.dedent(
+                """\
+            [Option 1]
+                machine_type="n1-standard-4",
+                accelerator_type="NVIDIA_TESLA_T4",
+                accelerator_count=1
+
+            [Option 2]
+                machine_type="n1-standard-8",
+                accelerator_type="NVIDIA_TESLA_V100",
+                accelerator_count=2"""
+            )
+            assert result == expected_output
+            mock_model_service_client.recommend_spec.assert_called_once_with(
+                types.RecommendSpecRequest(
+                    gcs_uri=_TEST_GCS_URI,
+                    parent=f"projects/{_TEST_PROJECT}/locations/{_TEST_LOCATION}",
+                    check_machine_availability=False,
+                ),
+                timeout=60,
+            )
+
+    def test_list_deploy_options_exception(self):
+        """Tests list_deploy_options when recommend_spec raises an exception."""
+        aiplatform.init(
+            project=_TEST_PROJECT,
+            location=_TEST_LOCATION,
+        )
+        mock_model_service_client = mock.Mock()
+        with mock.patch.object(
+            aiplatform.initializer.global_config,
+            "create_client",
+            return_value=mock_model_service_client,
+        ):
+            mock_model_service_client.recommend_spec.side_effect = ValueError(
+                "Test Error"
+            )
+            custom_model = model_garden_preview.CustomModel(gcs_uri=_TEST_GCS_URI)
+            with pytest.raises(ValueError) as exception:
+                custom_model.list_deploy_options()
+            assert str(exception.value) == "Test Error"
+            mock_model_service_client.recommend_spec.assert_called_once()
+
 
 class TestModelGardenModel:
     """Test cases for Model Garden Model class."""
diff --git a/vertexai/model_garden/_model_garden.py b/vertexai/model_garden/_model_garden.py
@@ -29,6 +29,7 @@
 from google.cloud.aiplatform import utils
 from google.cloud.aiplatform_v1beta1 import types
 from google.cloud.aiplatform_v1beta1.services import model_garden_service
+from google.cloud.aiplatform_v1beta1.services import model_service
 from vertexai import batch_prediction
 
 
@@ -38,6 +39,7 @@
 _LOGGER = base.Logger(__name__)
 _DEFAULT_VERSION = compat.V1BETA1
 _DEFAULT_TIMEOUT = 2 * 60 * 60  # 2 hours, same as UI one-click deployment.
+_DEFAULT_RECOMMEND_SPEC_TIMEOUT = 1 * 60  # 1 minute.
 _DEFAULT_EXPORT_TIMEOUT = 1 * 60 * 60  # 1 hour.
 _HF_WILDCARD_FILTER = "is_hf_wildcard(true)"
 _NATIVE_MODEL_FILTER = "is_hf_wildcard(false)"
@@ -256,6 +258,17 @@ class _ModelGardenClientWithOverride(utils.ClientWithOverride):
     )
 
 
+class _ModelServiceClientWithOverride(utils.ClientWithOverride):
+    _is_temporary = True
+    _default_version = _DEFAULT_VERSION
+    _version_map = (
+        (
+            _DEFAULT_VERSION,
+            model_service.ModelServiceClient,
+        ),
+    )
+
+
 class OpenModel:
     """Represents a Model Garden Open model.
 
@@ -860,6 +873,91 @@ def _model_garden_client(
             location_override=self._location,
         )
 
+    @functools.cached_property
+    def _model_service_client(
+        self,
+    ) -> model_service.ModelServiceClient:
+        """Returns the Model Service client."""
+        return initializer.global_config.create_client(
+            client_class=_ModelServiceClientWithOverride,
+            credentials=self._credentials,
+            location_override=self._location,
+        )
+
+    def list_deploy_options(
+        self,
+        available_machines: bool = True,
+        request_timeout: Optional[float] = None,
+    ) -> str:
+        """Lists the deploy options for the model.
+
+        Args:
+            available_machines: If true, only return the deploy options for
+              available machines.
+            request_timeout: The timeout for the recommend spec request.
+              Default is 60 seconds.
+
+        Returns:
+            str: A string of the deploy options represented by
+                machine spec and container spec.
+
+        """
+
+        def _extract_spec(spec):
+            machine_spec = spec.machine_spec
+            return {
+                "machine_type": getattr(machine_spec, "machine_type", None),
+                "accelerator_type": getattr(
+                    getattr(machine_spec, "accelerator_type", None), "name", None
+                ),
+                "accelerator_count": getattr(machine_spec, "accelerator_count", None),
+            }
+
+        def _extract_recommendation(recommendation):
+            extracted_spec = _extract_spec(recommendation.spec)
+            extracted_spec["region"] = getattr(recommendation, "region", None)
+            if (
+                recommendation.user_quota_state
+                and recommendation.user_quota_state
+                != types.RecommendSpecResponse.Recommendation.QuotaState.QUOTA_STATE_UNSPECIFIED
+            ):
+                extracted_spec["user_quota_state"] = getattr(
+                    getattr(recommendation, "user_quota_state", None), "name", None
+                )
+            return extracted_spec
+
+        request = types.RecommendSpecRequest(
+            gcs_uri=self._gcs_uri,
+            parent=f"projects/{self._project}/locations/{self._location}",
+            check_machine_availability=available_machines,
+        )
+        try:
+            response = self._model_service_client.recommend_spec(
+                request, timeout=request_timeout or _DEFAULT_RECOMMEND_SPEC_TIMEOUT
+            )
+            options = []
+            if response.recommendations:
+                options = [
+                    _extract_recommendation(recommendation)
+                    for recommendation in response.recommendations
+                    if recommendation.spec
+                ]
+            elif response.specs:
+                options = [_extract_spec(spec) for spec in response.specs if spec]
+            return "\n\n".join(
+                f"[Option {i + 1}]\n"
+                + ",\n".join(
+                    f'    {k}="{v}"' if k != "accelerator_count" else f"    {k}={v}"
+                    for k, v in config.items()
+                    if v is not None
+                )
+                for i, config in enumerate(options)
+            )
+
+        except Exception as e:
+            _LOGGER.error(f"Failed to list deploy options: {e}")
+            raise e
+
     def deploy(
         self,
         machine_type: Optional[str] = None,
@@ -906,14 +1004,14 @@ def deploy(
                 Created endpoint.
         """
         return self._deploy_gcs_uri(
-            machine_type,
-            min_replica_count,
-            max_replica_count,
-            accelerator_type,
-            accelerator_count,
-            endpoint_display_name,
-            model_display_name,
-            deploy_request_timeout,
+            machine_type=machine_type,
+            min_replica_count=min_replica_count,
+            max_replica_count=max_replica_count,
+            accelerator_type=accelerator_type,
+            accelerator_count=accelerator_count,
+            endpoint_display_name=endpoint_display_name,
+            model_display_name=model_display_name,
+            deploy_request_timeout=deploy_request_timeout,
         )
 
     def _deploy_model_registry_model(self) -> aiplatform.Endpoint: