jueves, 8 de marzo de 2018

Diferencia entre Aprendizaje automático, Ciencia de datos, IA, Aprendizaje profundo y Estadísticas

Publicado por Vincent Granville el 2 de enero de 2017 a las 8:30 p. M

En este artículo, aclaro los diversos roles del científico de datos, y cómo la ciencia de datos se compara y se superpone con campos relacionados como aprendizaje automático, aprendizaje profundo, IA, estadísticas, IoT, investigación de operaciones y matemáticas aplicadas. Como la ciencia de datos es una disciplina amplia, comienzo describiendo los diferentes tipos de científicos de datos que uno puede encontrar en cualquier entorno empresarial: incluso puede descubrir que usted es un científico de datos, sin saberlo. Como en cualquier disciplina científica, los científicos de datos pueden tomar prestadas técnicas de disciplinas relacionadas, aunque hemos desarrollado nuestro propio arsenal, especialmente técnicas y algoritmos para manejar grandes conjuntos de datos no estructurados de forma automática, incluso sin interacción humana, para realizar transacciones en tiempo real. o para hacer predicciones.

 
 

1. Diferentes tipos de científicos de datos

Para comenzar y obtener cierta perspectiva histórica, puede leer mi artículo sobre 9 tipos de científicos de datos, publicado en 2014, o mi artículo donde comparo la ciencia de datos con 16 disciplinas analíticas , también publicada en 2014.
 
Los siguientes artículos, publicados durante el mismo período de tiempo, siguen siendo útiles:
Más recientemente (agosto de 2016) Ajit Jaokar discutió el científico de datos Tipo A (Analítico) versus Tipo B (Constructor):
  • El científico de datos tipo A puede codificar lo suficientemente bien como para trabajar con datos, pero no es necesariamente un experto. El científico de datos de tipo A puede ser un experto en diseño experimental, previsión, modelado, inferencia estadística u otras cosas que generalmente se enseñan en los departamentos de estadísticas. Sin embargo, en términos generales, el producto de trabajo de un científico de datos no es "valores p e intervalos de confianza", como algunas veces parecen sugerir las estadísticas académicas (y como lo es a veces para los estadísticos tradicionales que trabajan en la industria farmacéutica, por ejemplo). En Google, los científicos de tipo A se conocen de diversas maneras como estadísticos, analistas cuantitativos, analistas de ingeniería de soporte de decisiones o científicos de datos, y probablemente algunos más.
  • Científico de datos tipo B: B es para construcción. Datos de tipo B Los científicos comparten algunos antecedentes estadísticos con el tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El Científico de Datos de Tipo B está interesado principalmente en usar datos "en producción". Construyen modelos que interactúan con los usuarios, a menudo sirven recomendaciones (productos, personas que usted conoce, anuncios, películas, resultados de búsqueda). Fuente: haga clic aquí .
También escribí sobre la optimización de procesos de negocio ABCD donde D representa ciencia de datos, C para ciencias de la computación, B para ciencias empresariales y A para ciencias analíticas. La ciencia de los datos puede incluir o no la codificación o la práctica matemática, como puede leer en mi artículo sobre ciencia de datos de bajo nivel en comparación con ciencia de datos de alto nivel . En una puesta en marcha, los científicos de datos generalmente usan varios sombreros, como ejecutivo, minero de datos, ingeniero de datos o arquitecto, investigador, estadístico, modelador (como en modelos predictivos) o desarrollador.
 
Mientras que el científico de datos generalmente se retrata como un codificador experimentado en R, Python, SQL, Hadoop y estadísticas, esto es solo la punta del iceberg, popularizado por los campos de datos que se centran en la enseñanza de algunos elementos de la ciencia de datos. Pero al igual que un técnico de laboratorio puede llamarse a sí mismo un físico, el verdadero físico es mucho más que eso, y sus dominios de experiencia son variados: astronomía, física matemática, física nuclear (que es química limítrofe), mecánica, ingeniería eléctrica, procesamiento de señales (también un subcampo de la ciencia de datos) y muchos más. Lo mismo puede decirse de los científicos de datos: los campos son tan variados como la bioinformática, la tecnología de la información, las simulaciones y el control de calidad, las finanzas computacionales, la epidemiología, la ingeniería industrial e incluso la teoría de números.
 
En mi caso, en los últimos 10 años, me especialicé en comunicaciones máquina a máquina y dispositivo a dispositivo, desarrollando sistemas para procesar automáticamente grandes conjuntos de datos, para realizar transacciones automatizadas: por ejemplo, comprando tráfico de Internet o generando automáticamente contenido . Implica el desarrollo de algoritmos que funcionan con datos no estructurados, y se encuentra en la intersección de AI (inteligencia artificial), IoT (Internet de las cosas) y ciencia de datos. Esto se conoce como ciencia de datos profunda . Es relativamente libre de matemáticas, e implica una codificación relativamente pequeña (en su mayoría API), pero es bastante intensiva en datos (incluida la construcción de sistemas de datos) y se basa en una nueva tecnología estadística diseñada específicamente para este contexto.
 
Antes de eso, trabajé en la detección de fraudes de tarjetas de crédito en tiempo real. Al principio de mi carrera (alrededor de 1990) trabajé en tecnología de percepción remota de imágenes, entre otras cosas para identificar patrones (o formas o características, por ejemplo lagos) en imágenes de satélite y para realizar segmentación de imágenes: en ese momento mi investigación fue etiquetada como computacional estadísticas, pero las personas que hacen exactamente lo mismo en el departamento de informática de al lado en mi universidad de origen, llamaron a su investigación inteligencia artificial. En la actualidad, se llamaría ciencia de datos o inteligencia artificial, siendo los subdominios procesamiento de señales, visión artificial o IoT.
 
Además, los científicos de datos se pueden encontrar en cualquier parte del ciclo de vida de los proyectos de ciencia de datos , en la etapa de recopilación de datos, o en la etapa de exploración de datos, hasta el modelado estadístico y el mantenimiento de los sistemas existentes.
 
2. Aprendizaje automático versus aprendizaje profundo
 
Antes de profundizar en el vínculo entre la ciencia de datos y el aprendizaje automático, analicemos brevemente el aprendizaje automático y el aprendizaje automático. El aprendizaje automático es un conjunto de algoritmos que se entrena en un conjunto de datos para hacer predicciones o tomar acciones para optimizar algunos sistemas. Por ejemplo, los algoritmos de clasificación supervisados ​​se utilizan para clasificar a los posibles clientes en prospectos buenos o malos, a los fines del préstamo, sobre la base de datos históricos. Las técnicas involucradas, para una tarea determinada (por ejemplo, la agrupación supervisada), son variadas: ingenuo Bayes, SVM, redes neuronales, conjuntos, reglas de asociación, árboles de decisión, regresión logística o una combinación de muchos. Para obtener una lista detallada de algoritmos, haga clic aquí . Para obtener una lista de problemas de aprendizaje automático, haga clic aquí.
 
Todo esto es un subconjunto de la ciencia de datos. Cuando estos algoritmos son automáticos, como en el pilotaje automatizado o en vehículos sin conductor, se llama IA, y más específicamente, aprendizaje profundo. Haga clic aquí para otro artículo que compara el aprendizaje automático con el aprendizaje profundo. Si los datos recopilados provienen de sensores y si se transmiten a través de Internet, entonces es el aprendizaje automático o la ciencia de datos o el aprendizaje profundo aplicado a IoT.
 
Algunas personas tienen una definición diferente para el aprendizaje profundo. Consideran el aprendizaje profundo como redes neuronales (una técnica de aprendizaje automático) con una capa más profunda. La pregunta fue hecha recientemente sobre Quora, y debajo hay una explicación más detallada (fuente: Quora )
  • AI ( inteligencia artificial ) es un subcampo de la ciencia de la computación, que se creó en la década de 1960, y se ocupó (se) de resolver tareas que son fáciles para los humanos pero difíciles para las computadoras. En particular, una llamada IA ​​fuerte sería un sistema que puede hacer cualquier cosa que un humano pueda (quizás sin cosas puramente físicas). Esto es bastante genérico e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajos creativos (hacer arte o poesía), etc.
  • El aprendizaje automático se refiere a un aspecto de esto: dado un problema de IA que puede describirse en términos discretos (por ejemplo, de un conjunto particular de acciones, cuál es el correcto), y dada mucha información sobre el mundo, figura cuál es la acción "correcta", sin que el programador la programe. Típicamente se necesita algún proceso externo para juzgar si la acción fue correcta o no. En términos matemáticos, se trata de una función: ingresas cierta información y quieres que produzca la salida correcta, por lo que todo el problema es simplemente construir un modelo de esta función matemática de forma automática. Para establecer una distinción con AI, si puedo escribir un programa muy inteligente que tenga un comportamiento similar al humano, puede ser AI, pero a menos que sus parámetros se aprendan automáticamente de los datos, no es un aprendizaje automático.
  • El aprendizaje profundo es un tipo de aprendizaje automático que es muy popular ahora. Implica un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de un cierto tipo, y donde algunos de estos bloques se pueden ajustar para predecir mejor el resultado final.
¿Cuál es la diferencia entre el aprendizaje automático y las estadísticas?
 
Este artículo intenta responder la pregunta. El autor escribe que las estadísticas son aprendizaje automático con intervalos de confianza para las cantidades que se predicen o estiman. Tiendo a estar en desacuerdo, ya que he construido intervalos de confianza amigables con los ingenieros que no requieren ningún conocimiento matemático o estadístico.
 
3. Ciencia de datos versus aprendizaje automático
 
El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en machine learning significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros de modelos o algoritmos. Esto abarca muchas técnicas como la regresión, el ingenuo Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar clústeres y estructuras de clúster sin ningún conocimiento a priori o conjunto de capacitación para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.
 
Sin embargo, la ciencia de los datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden o no provenir de una máquina o proceso mecánico (los datos de la encuesta podrían recopilarse manualmente, los ensayos clínicos implican un tipo específico de datos pequeños) y podría no tener nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre.
  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos
Por supuesto, en muchas organizaciones, los científicos de datos se centran solo en una parte de este proceso. Para leer sobre algunas de mis contribuciones originales a la ciencia de datos, haga clic aquí .

 Fuente: Data Science Central - Difference between Machine Learning, Data Science, AI, Deep Learning, and Statistics


 

No hay comentarios.:

Publicar un comentario