“OK, ML Kit, ¿qué tan inteligente eres?”

Una introducción al Kit ML y por qué debería obtener más información al respecto.

“Aprender ML es difícil”, dijeron.

Sí, eso es verdad.

Nunca quise profundizar en el aprendizaje automático (se prepara para esos “¡¿Cómo puedes decir eso?! Sabes que ML es el futuro, ¿verdad? comentario), principalmente porque mis intereses radican en el diseño de UX y el desarrollo de aplicaciones móviles.

Me encanta crear aplicaciones que tengan un buen equilibrio entre un diseño minimalista y elegante con una gran funcionalidad, y paso la mayor parte de mi tiempo dibujando diseños de maquetas de las aplicaciones que quería crear, con nada más que una hoja de papel y un lápiz.

Es bastante obvio ahora que vemos que ML se usa a nuestro alrededor, y una ocurrencia muy interesante y orientada al desarrollador está en el nuevo **Equipo de aprendizaje automático** API que Google lanzó como parte de la familia de productos Firebase. 🔥

Este artículo es un monólogo de mis pensamientos sobre Firebase ML Kit, un recorrido rápido por las funciones y por qué debería comenzar a aprender sobre él ahora.

“Pero Bapu, ¿tienes la más mínima idea de ML?”

¡Buena pregunta!

Yo no.

Para alguien que no tiene absolutamente ningún conocimiento sobre el aprendizaje automático, me parece bastante desalentador comenzar a aprender cómo funciona, y mucho menos comenzar a usarlo en una aplicación móvil.

Quería comprobar el documentos oficiales para el ML Kit, por curiosidad, y luego decidir cómo continuar desde allí. También vi el video introductorio, que me enganchó más al Kit ML y me dio ganas de explorarlo en detalle. Aquí está el video, por si te lo perdiste:

Después de leer la introducción y un recorrido rápido por las funciones que se lanzaron hasta el momento, me enamoré de ML Kit y no pude volver a empezar. ❤️

Escribiré un artículo de varias partes sobre cómo usar ML Kit en su aplicación móvil, justo después de este artículo introductorio sobre la API.

Por ahora, analicemos lo que hace el ML Kit y hagamos un breve recorrido por las funciones.

Funciones en el kit de aprendizaje automático

A partir de abril de 2019, aquí hay una lista de funciones que ML Kit ofrece actualmente:

  • Reconocimiento de texto 🕵️‍♂️

  • Detección de rostros 👦

  • Escaneo de código de barras 🔎

  • Etiquetado de imágenes 🏞

  • Reconocimiento histórico 🗼

  • Detección de idioma 📝

  • Respuesta inteligente ✉️

  • Uso de modelos TensorFlow Lite personalizados ☁️

Nota: Tenga en cuenta que ML Kit se encuentra actualmente en Beta, por lo que es posible que todas las funciones no funcionen como se esperaba. ⚠️

Además, también es importante tener en cuenta que alguno de estas características se pueden configurar para trabajar en dos modos diferentes:

  • la modo en dispositivo (también conocido como el modo fuera de línea), y

  • la modo nube (también conocido como los mejores resultados, modo de solo red).

**Otra nota más: **El modo de nube usa API de visión en la nubelo que requerirá que obtenga el Plan Firebase Blaze. Una vez que obtenga este plan, las primeras 1,000 llamadas a la API son gratuitas, luego de lo cual tendrá que pagar. 💰

Aquí hay un resumen de qué funciones se pueden usar en el dispositivo y cuáles se pueden usar en la nube:

Profundicemos en cada una de estas características una por una.

reconocimiento de texto

La idea aquí es bastante simple:

Usted toma una foto de algo que tiene texto y ML Kit extrae cualquier texto que esté presente en esa imagen para usted como una Cadena (o una lista de Cadenas). 🕵️‍♂️

Haga clic en una imagen -> Obtenga el texto en la imagen

Aquí hay algunos ejemplos de dónde esta característica podría ser útil:

Si está creando una aplicación que necesita ser escaneada,

  • un documento y obtener el texto en el documento, o

  • una tarjeta de contacto y guardar los detalles de contacto en su teléfono.

Estos son solo dos ejemplos; siéntase libre de explorar más casos de uso.

El modo en el dispositivo solo le permite detectar texto escrito en latín. Aquí es donde otro pequeño aspecto de esta función es útil: si usa el modo basado en la nube, también puede detectar texto que está escrito en escritura no latina.

Puede encontrar la lista completa de idiomas admitidos aquí.

Detección de rostro

La función de detección de rostros de ML Kit API le permite buscar rostros en su imagen. 👦

A partir de ahora, solo se pueden detectar rostros humanos (mis condolencias a mis cachorros, gatitos y todos los extraterrestres del universo 😌).

Haga clic en una imagen -> Obtenga todas las caras en la imagen

Una vez que se detecta una cara, puede:

  • obtener las coordenadas de los ojos, oídos, mejillas, nariz y boca,

  • obtener los contornos de la cara, que es el contorno y la forma de la cara,

  • detectar reconocimiento facial (¿La cara sonríe o no? ¿Están los ojos cerrados o abiertos?),

  • identifique de forma única cada rostro en la imagen, por lo que cada rostro tiene una identificación única.

Hay dos modos en la función de detección de rostros: **rápido **y preciso. Como puede ver, ¡se explican por sí mismos cómo funciona la función cuando se configura con cualquiera de estos!

También hay una opción para establecer un tamaño mínimo de la carapor lo que puede establecer un umbral por debajo del cual la API del kit de aprendizaje automático no detectará el rostro.

Escaneo de código de barras

Bien, cuando digo “códigos de barras”, la mayoría de la gente piensa en esto:

Pero en ML Kit, los códigos de barras también son sinónimo de códigos QR, que se ven así:

¡Firebase ML Kit admite el escaneo y la extracción de información de ambos!

Haga clic en una imagen -> Obtenga información del código de barras/código QR escaneado

¡Simplemente haga clic en una imagen que tenga uno o más códigos de barras/códigos QR y listo! Puede obtener toda la información incrustada en el código de barras/código QR. 🔎

Realmente no importa si escanea el código de barras/código QR al revés o en el paisaje, ¡ML Kit hace su trabajo bien!

Algunos de los tipos de información de uso frecuente que puede tener un código de barras/código QR son números de teléfono, identificaciones de correo electrónico, enlaces a sitios web y informacion wifi. Puede encontrar una lista completa de los tipos de información admitidos aquí.

Además, tenga en cuenta que existen muchos formatos diferentes para códigos de barras y códigos QR; y ML Kit es compatible con todos estos.

Etiquetado de imágenes

Esta es una de las características más divertidas de ML Kit. Haces clic en una imagen y dejas que ML Kit te diga qué objetos se detectan en la imagen. 🏞

Haga clic en una imagen -> Obtenga una lista de objetos en la imagen

Si está usando esto en el modo en el dispositivo, solo tiene acceso a más de 400 etiquetas, lo que significa que ML Kit no sería muy preciso para detectar cosas que se encuentran fuera de estas más de 400 etiquetas.

Recomiendo derrochar en el modo de nube para el etiquetado de imágenes. Obtiene más de 10 000 etiquetas, por lo que sus imágenes se etiquetarán con mayor precisión y la detección de objetos será más precisa. 🎯

También tiene la opción de establecer la cantidad de resultados que se obtendrán por llamada a la API y cuál debería ser el umbral para la detección de objetos.

Reconocimiento de hitos

No estoy completamente seguro de con qué frecuencia se usaría esta función, pero aquí la tenemos. Esta característica de ML Kit le permite tomar una foto y detectar un punto de referencia que está en la imagen. 🗼

Haga clic en una imagen -> Obtenga un punto de referencia en la imagen

Cuando realiza una llamada a la API de ML Kit para esta función, puede obtener el nombre del punto de referencia y las coordenadas de ubicación del mismo.

Detección de idioma

Esta es una función ingeniosa para aquellos que trabajan en aplicaciones multilingües basadas en funciones. 📝

La función de detección de idioma de ML Kit API le permite detectar en qué idioma se encuentra un texto en particular.

Pasar texto a ML Kit -> Obtener idioma detectado en el texto

¡Esto admite más de 100 idiomas, incluidos hindi, árabe, chino y muchos más!

Encuentre la lista completa de idiomas admitidos aquí:
Identificación de idioma del kit ML: idiomas admitidos | base de fuego
Editar Descripciónfirebase.google.com

Respuesta inteligente

¡Esta es la última incorporación a la lista de funciones de ML Kit y esta en particular me parece genial! ✉️

La idea aquí es que pase los mensajes que le envía otro usuario a ML Kit y, a cambio, ML Kit le proporciona 3 respuestas inteligentes que puede usar para responder a ese usuario.

Pasar mensajes a ML Kit -> Obtenga 3 respuestas inteligentes

Según el historial reciente de su conversación con el otro usuario, ML Kit le recomendará 3 respuestas.

Es posible que ya haya visto esta función en LinkedIn y el Mensajes de Android aplicación

Respuestas inteligentes en LinkedInRespuestas inteligentes en LinkedIn

Uso de modelos TensorFlow Lite personalizados

Esto es para aquellos de ustedes que ya tienen experiencia con el desarrollo de ML.

Esta opción le permite agregar modelos de TensorFlow Lite a ML Kit y usarlos. ☁️

Puede incluir estos modelos junto con su aplicación o alojarlos con la ayuda de Firebase.

Conclusión

Este fue un tutorial rápido de todas las funciones de Firebase ML Kit. Si aún no ha explorado ML Kit, le insto a que comience con él hoy. ¡Cree una aplicación simple solo para jugar con ella y ver cómo funciona! 😉

Aquí están todos los artículos de mi serie ML Kit:
“OK, ML Kit, ¿qué tan inteligente eres?”

*Una introducción a ML Kit y por qué debería obtener más información al respecto.*medium.com
Reconocimiento de texto con Firebase ML Kit en iOS y Android

*Una guía práctica sobre cómo implementar la función de reconocimiento de texto con Firebase ML Kit.*medium.com

Bapusaheb Patil

*Un desarrollador de Android certificado por Google al que le encanta crear aplicaciones, pantallas de reloj y memes.*bapspatil.com

Similar Posts

Leave a Reply

Your email address will not be published.