viernes, 9 de marzo de 2018

Nueva investigación: cómo evolucionar su seguridad para la nube

Maya Kaczorowski



Esta semana, McKinsey publicó un informe titulado "Hacer una transición segura a la nube pública", el resultado de entrevistas con expertos en seguridad de TI en casi 100 empresas de todo el mundo. Aprovechando la experiencia de los expertos en seguridad de Google Cloud y McKinsey, la investigación presenta un marco estratégico para la seguridad de TI en entornos híbridos y en la nube, y brinda recomendaciones sobre cómo migrar a la nube sin perder de vista la seguridad.
 
La investigación muestra lo que muchos ya saben: que la adopción de la nube pública se está acelerando gracias a una mayor flexibilidad técnica, escalas más simples y menores costos operativos. Lo que es emocionante es que la investigación también revela que muchos Chief Information Security Officers (CISOs) ya no ven la seguridad como un inhibidor de la adopción, sino una oportunidad: "En muchos casos, los CISOs reconocen que los recursos de seguridad de los proveedores de servicios en nube son pequeños, "Escriben los autores, y ahora estas compañías se centran en cómo adoptar y configurar mejor los servicios en la nube para una mayor seguridad.
 

Cuando se implementa correctamente, la adopción de la nube pública puede reducir significativamente el costo total de propiedad (TCO) para la seguridad de TI.

Esto requiere que las empresas, los proveedores de servicios en la nube y los proveedores de servicios externos trabajen de forma conjunta y transparente dentro de un modelo de seguridad compartido. Google Cloud siempre ha creído en crear confianza a través de la transparencia, publicando previamente una descripción detallada de la seguridad de nuestra infraestructura, explicando nuestro modelo de responsabilidad compartida y cómo ya protegemos a nuestros usuarios y clientes en las capas inferiores de la pila, y estamos encantados de ver el respaldo detallado de McKinsey al mismo enfoque.
 

Enfoques de seguridad comunes, y sus intercambios.

Cada empresa tiene diferentes necesidades de TI, pero el informe encontró dos decisiones comunes de seguridad que toman las empresas cuando adoptan servicios en la nube: (1) definir el perímetro y (2) decidir si volver a diseñar las aplicaciones para una mayor capacidad de administración, rendimiento y seguridad en el nube (curiosamente, solo el 27% de las empresas encuestadas lo hacen, el cambio es difícil).
La investigación identifica tres arquetipos comunes para la seguridad del perímetro: backhauling, cleansheeting y adopción de controles del proveedor de la nube de forma predeterminada.

  • Backhauling permite a las empresas continuar gestionando la seguridad de TI en las instalaciones, con una puerta de enlace externa que conecta el centro de datos con la nube pública. Aproximadamente la mitad de las empresas encuestadas actualmente usan este modelo, pero solo el 11% planea seguir haciéndolo, ya que puede evitar que las empresas obtengan ciertos beneficios de la nube, como la agilidad.
     
  • Cleansheeting requiere una mayor inversión y experiencia, ya que exige el rediseño de la seguridad de TI en torno a un "perímetro virtual" y el aprovechamiento de múltiples herramientas y servicios nativos de la nube.
     
  • Usar los controles del proveedor de la nube es la solución más rentable, pero, dependiendo del proveedor de la nube, puede limitar la autonomía y puede ofrecer capacidades limitadas.
     
McKinsey utiliza estos tres modelos, junto con la decisión de volver a diseñar las aplicaciones para la nube, para identificar seis "arquetipos" para la seguridad en la nube. Cada arquetipo tiene sus propias compensaciones:


 
No existe una "respuesta correcta" para la seguridad al realizar un cambio a la nube, sino que depende de la experiencia, la flexibilidad y las decisiones de costos de su empresa.
Y, no tienes que usar solo un arquetipo. Por ejemplo, Evernote describe en su historia de migración a Google Cloud Platform :
"Para la mayoría de nuestros controles encontramos una versión de plataforma en la nube equivalente. Para el cifrado de datos en reposo, obtuvimos un control de seguridad que no habíamos diseñado por nuestra cuenta. Para algunos controles, como la lista blanca de IP, tuvimos que adaptar nuestra arquitectura de seguridad para no depender de los controles de red tradicionales ".
- Rich Tener, Director de Seguridad, Evernote

La economía de la seguridad en la nube.

Confiar en los controles de seguridad del proveedor de servicios en la nube es "el enfoque más rentable", escriben los autores. "A medida que las organizaciones mueven cada vez más aplicaciones a la nube pública y se inclinan por usar controles CSP nativos, es probable que disminuyan los costos operacionales y de seguridad". El ochenta por ciento de las empresas que eligen basarse principalmente en los controles y redesarquitectores del proveedor de la nube sus aplicaciones en paralelo ven ahorro de costos.


Entonces, si está planeando una migración a la nube, ¿dónde debe enfocar sus esfuerzos de seguridad? McKinsey preguntó a los encuestados sobre su enfoque para aplicar controles de seguridad en la nube en varias áreas para descubrir qué están haciendo las empresas:

  • Gestión de identidad y acceso (IAM ): el 60% de las empresas utilizan soluciones de IAM en las instalaciones; en solo tres años, los encuestados esperan que ese número se reduzca a la mitad. En Google, proporcionamos una herramienta llamada Google Cloud Directory Sync, que ayuda a los usuarios a traer identidades existentes a Google Cloud y administrar permisos en la nube de forma nativa con IAM.
     
  • Encriptación : la mayoría de los encuestados encriptan datos tanto en reposo como en tránsito, y aún más (más del 80% en ambas categorías) lo harán dentro de tres años. Google Cloud ya encripta los datos en reposo de forma predeterminada y en tránsito cuando cruza un límite físico.
     
  • Seguridad perimetral : hoy, el 40% de las empresas están retrocediendo el tráfico de datos y utilizando controles de seguridad de red locales existentes, pero eso disminuirá, con solo 13% esperando usar el mismo enfoque en 3 años. Para ayudar a las empresas a pasar al control perimetral basado en la nube, Google Cloud permite a los usuarios conectarse a su entorno local utilizando Interconexión Dedicada, un túnel VPN IPsec, interconexión directa o interconexión de operadores . Los usuarios de Google Cloud también pueden controlar su perímetro con una nube privada virtual (VPC).
     
  • Seguridad de la aplicación : el 65% de los encuestados define los estándares de configuración de seguridad para las aplicaciones basadas en la nube, pero menos del 20% usa herramientas o implementaciones basadas en plantillas. Para solucionar esto, Google Cloud ofrece Cloud Security Scanner, una forma automatizada de escanear aplicaciones para detectar vulnerabilidades comunes.
     
  • Monitoreo operacional : el 64% de los encuestados usa las herramientas SIEM existentes para monitorear las aplicaciones en la nube en lugar de crear un nuevo conjunto para la nube. Los usuarios de Google Cloud pueden exportar registros de Stackdriver al SIEM de su elección.
     
  • Puntos finales del servidor : el 51% de los encuestados tiene un alto nivel de confianza en el enfoque de su proveedor de servicios en la nube para la seguridad del punto final del lado del servidor. Los clientes de Google Cloud pueden usar una variedad de herramientas de los socios  para la seguridad de los puntos finales.
     
  • Puntos finales del usuario : el 70% de los encuestados cree que la adopción de la nube pública requerirá cambios en los puntos finales del usuario. Google creó el modelo de seguridad empresarial BeyondCorp para permitir que sus empleados trabajen desde cualquier lugar, y nuestros clientes pueden hacer lo mismo con Identity Aware Proxy . Además, los Chromebook proporcionan actualizaciones automáticas de software y ejecutan aplicaciones en un entorno limitado restringido.
     
  • Gobernabilidad regulatoria : cuando se adopta la nube pública, las empresas deben navegar por los requisitos de gobernabilidad y cumplimiento, con la ubicación de los datos y las regulaciones financieras que encabezan la lista de preocupaciones de los encuestados. Google Cloud tiene un amplio espectro de cumplimiento , que incluye PCI, SOX e HIPAA.
     
El informe también incluye un plan táctico de 10 pasos para una migración en la nube exitosa. Para obtener más información, descargue el informe completo.







Profundizando en la complejidad del desafío del etiquetado de datos

Una mirada a los paralelos entre la adquisición del conocimiento humano y de máquina.

Por Cynthia Kaschub


La industria del cine caracteriza con frecuencia un futuro en el que vivimos con agentes móviles autónomos (AMA) incrustados que perciben, toman decisiones y se comportan como humanos a la perfección. El grado y el momento para que esta "perfección" pueda convertirse en realidad depende en gran medida de las empresas, en todas las industrias, superando un reto de datos clave relacionado con el empleo de inteligencia artificial: cómo obtener datos suficientes y darles sentido para desarrollar modelos que potencien los agentes. La adquisición de datos es el primer paso; dar sentido a esos datos significa encontrar patrones en los datos, asignar un significado estándar a ese patrón y usarlo para obtener ideas y desarrollar modelos. Este es el núcleo de los datos de etiquetado. En todas las industrias y empresas, este es un desafío fundamental común: puede ver los síntomas a través de las inversiones. Por ejemplo, Intel con Intel Saffron, Nervana, Altera, Movidius y Mobileye; Google con DeepMind Technologies, MoodStock, Api.ai y Hailie labs; Apple con Lattice Data, RealFace y Sensomotoric Technologies, por nombrar algunos. En este post, me gustaría demostrar la complejidad del desafío del etiquetado de datos a través del marco del desarrollo de AMA.
 

¿Qué es un agente móvil autónomo?

Un agente móvil autónomo es un robot que puede tener múltiples realizaciones físicas o instancias, como un dron, automóvil, bote, etc. La realización es simplemente la forma física que determinará el rango de funciones que se ejecutarán por los modelos de inteligencia artificial desplegados. en eso. Los modelos se desarrollan, entrenan y evalúan en un centro de datos y se implementan en el borde o ubicación remota con un subconjunto de procesamiento necesario para ejecutar los modelos y enviar información adicional al centro de datos. Un ejemplo de un AMA podría ser un automóvil sin conductor que tenga inteligencia incorporada para transportarlo de manera segura de un lugar a otro.
 

¿Qué se requiere para crear un Agente Móvil Autónomo?

Para crear una AMA, debe capacitar a la AMA para que desarrolle la capacidad de percibir, tomar decisiones y comportarse de manera coherente con el entorno en el que necesita navegar en el futuro. La adquisición de los datos y el desarrollo de la capacidad de tomar decisiones sobre esa información para un AMA es similar a la adquisición de conocimiento que ocurre en humanos. Cuando era bebé, no tenía lenguaje ni medios para comunicarse, pero tenía sentidos básicos (visuales, auditivos, hápticos o táctiles, etc.) que utilizó para adquirir datos y comenzar a darle sentido a su entorno. Probablemente haya tenido cuidadores que estaban tratando activamente de enseñarle qué cosas hay dentro de su entorno ("Aquí hay una manzana y es roja" o "Cuando se lanza una pelota hacia usted, recójala"). Esto continúa hasta que tenga suficiente información para comenzar a extrapolar instancias de aprendizaje específicas a otros dominios. Esto es adquisición de conocimiento. A veces sus extrapolaciones son correctas (un carro rojo se percibe como rojo) y otras veces no (un plátano se percibe como una manzana), pero se corrige en repetidas ocasiones, lo que mejora su comprensión del entorno. Esta retroalimentación lo ayuda a aprender cosas nuevas y comprender las condiciones en las que sus extrapolaciones se pueden aplicar correcta o incorrectamente.
 
Cuando eres mayor, comienzas a rechazar los comentarios o las correcciones de los cuidadores en los años más jóvenes porque has adquirido un nuevo conocimiento de cómo funcionan las cosas. Son las creencias o los modelos los que impulsan las hipótesis, lo que le ayuda a determinar qué comportamientos o acciones debe tomar. Estos modelos de comportamiento se modifican a partir de mecanismos de retroalimentación, ya sea a través de refuerzo positivo (aumenta el comportamiento mediante retroalimentación positiva) o refuerzo negativo (disminuye el comportamiento por retroalimentación negativa), lo que resulta en un comportamiento similar en el primer caso o en un comportamiento decreciente en el segundo caso. Afinando sus modelos internos se obtienen nuevos aprendizajes que se pueden aplicar en una diversidad de escenarios.
 
Ahora que hemos revisado la adquisición de conocimiento en humanos, podemos mostrar pasos paralelos para el aprendizaje de AMA. Comencemos con la suposición de que un AMA es simplemente un factor de forma tonto que debe ser capaz de dar sentido a su entorno. Para hacer esto, necesitamos agregar mecanismos para adquirir datos sobre el medio ambiente, por ejemplo, a través de sensores como radar, LiDAR (detección de luz y rango) , cámaras y GPS. Los datos adquiridos son insignificantes e inútiles a menos que la AMA tenga una forma de identificar los elementos dentro de ella. En aprendizaje automático, llamamos a este objeto detección, reconocimiento y localización. La detección de objetos equivale a detectar la presencia de algo que aún no se ha identificado, el reconocimiento hace coincidir ese elemento con un concepto existente en la memoria, y la localización de objetos es saber dónde está esa cosa en relación con su ubicación actual. Para desarrollar esta capacidad, necesita una gran cantidad de datos del sensor y necesita saber qué contienen los datos.
 
Para determinar qué hay en los datos, se requiere un proceso que requiere mucho tiempo para identificar y etiquetar ítems manualmente, cuadro por cuadro, en cada tipo de flujo de sensor. Por ejemplo, una etiquetadora vería una transmisión de video, cuadro por cuadro, y dibujaría cuadros alrededor de los elementos que coinciden con la identidad de las etiquetas solicitadas. Cuando una etiquetadora ve una señal de alto en un marco, colocan un cuadro delimitador a su alrededor. Esta información etiquetada, llamada "verdad del suelo", se usa para desarrollar modelos. Si tiene una verdad superficial de baja calidad, tendrá modelos que no predicen la realidad tal como se produce, lo que significa que su AMA obtendrá información incorrecta y, a su vez, se comportará de manera inconsistente con el contexto en el que se ha desarrollado. diseñado para comportarse. Los tipos específicos de modelos de inteligencia artificial que está desarrollando determinarán cuántos datos de verdad sobre el terreno necesitará. Los modelos están diseñados para predecir con precisión elementos o eventos en flujos de datos, y esto requiere probar su capacidad predictiva frente a entidades conocidas en los datos de verdad del terreno. Para dibujar el paralelo a los humanos, su hijo señala el bocadillo en su plato y dice "plátano", pero en realidad es una manzana. En este ejemplo, el niño había detectado correctamente un bocadillo, pero lo ha identificado incorrectamente como un plátano (la verdad del suelo era la manzana). En muchos casos de encontrar una manzana, aprenderán a identificarla como una manzana. Veamos ahora cómo se construyen y mejoran los modelos, y cómo un modelo puede identificar con precisión un objeto.
 
Como mencionamos anteriormente, el tipo de modelo que se está desarrollando determina qué objetos y eventos (etiquetas) deben estar en los datos de verdad del terreno. Por ejemplo, para construir un modelo de vehículo autónomo que detecte con precisión las señales de pare, un ingeniero de aprendizaje de máquinas puede necesitar 500 instancias de señales de alto, 500 instancias de otras señales de tráfico y 500 instancias en las que no hay una señal de alto. Para obtener esa cantidad de datos de verdad sobre el terreno, es posible que necesite adquirir 100 TB de datos porque necesita etiquetar más datos para capturar el número de eventos de interés.
 
Una vez que se ha completado el etiquetado manual de los objetos, estos eventos se combinan para mejorar la precisión en una capacidad llamada "fusión del sensor". Por ejemplo, los datos de la cámara etiquetados se pueden fusionar con datos LiDAR para aumentar la precisión de detección de un objeto dado modelo. Esto es similar a cómo los niños daltónicos pueden usar muchos sentidos (p. Ej., Hápticos, visuales y auditivos) para procesar las variaciones, formas y nombres verbales de una manzana roja. Después de que haya suficientes datos de verdad del terreno para que el modelo aprenda (nuevamente, esto está determinado por el tipo de modelo), entonces puede comenzar a inferir en nuevos datos, desarrollando una capacidad llamada "etiquetado automático".
 
El etiquetado automático ejecuta modelos de detección de objetos desarrollados previamente en nuevos datos y facilita el desarrollo de otros modelos al proporcionar datos básicos sobre los datos antes que el proceso de etiquetado manual descrito anteriormente. Existen diferentes tipos de modelos, basados ​​en clústeres, redes neuronales, árboles de decisión, etc. Es la combinación de muchos modelos, dentro de una jerarquía, lo que crea una política de controladores o reglas para el comportamiento. Una vez que tenemos modelos, su eficiencia y precisión deben evaluarse en una serie de entornos simulados donde podemos desafiar el comportamiento del automóvil en escenarios aleatorios recién descubiertos. La solidez de un modelo se evalúa por su rendimiento (p. Ej., La eficiencia en el cálculo de los resultados) y la precisión (por ejemplo, la proporción de resultados correctos) dentro del contexto en el que se diseñó. Por ejemplo, en algunos escenarios, es posible que desee un rendimiento rápido mientras está de acuerdo con el 80% de precisión, pero en otro escenario, la precisión debe ser del 99% y, por lo tanto, está dispuesto a aceptar un rendimiento más lento. Solo después de una evaluación y mejora rigurosa del modelo, se puede implementar un modelo en la AMA, donde podrá percibir, pensar y comportarse de manera similar a los humanos.
 

¿Cuál es el futuro de ver, pensar y percibir AMA?

El proceso de ver, pensar y comportarse para un AMA no es una tarea simple, pero es un proceso que se puede lograr con el tiempo. En los próximos años, es probable que existan formas adicionales para que un automóvil aprenda una vez que se hayan establecido las infraestructuras para la comunicación de automóvil a automóvil y de automóvil a infraestructura. Lo que hemos discutido hasta ahora se ha centrado en un solo dominio: conducir. Es decir, cómo navegar un rango prescrito de comportamientos dentro de un tipo específico de dominio. Algunas preguntas para que considere mientras mira hacia un futuro de AMA: ¿qué otros modelos (por ejemplo, experiencias, comportamientos, entornos, etc.) deberían desarrollarse para que una AMA se integre perfectamente en nuestras vidas? ¿Cuáles son las limitaciones tecnológicas que existen actualmente en el desarrollo de AMA? ¿Cómo cambia nuestra sociedad a medida que agregamos más dominios de modelos? ¿Hay algunos ámbitos en la vida donde la construcción de modelos es imposible (por ejemplo, las emociones)?
 
Esta publicación es una colaboración entre O'Reilly e Intel Saffron.











Compitiendo en IA: la nueva 'Nueva ciencia de ganar'

Los datos se están comiendo el mundo, una palabra de moda a la vez.
 
En 2017, The Economist declaró en " Data is Gise Rise to a New Economy ": "Los datos son para este siglo lo que el petróleo fue para el último: un motor de crecimiento y cambio". IDC estimó que para 2025 crearemos 163 billones de gigabytes de datos , diez veces más que en 2016.

También en 2017, Harvard Business Review Press publicó una edición actualizada y ampliada del décimo aniversario de Competing on Analytics: The New Science of Winning, de Tom Davenport y Jeanne Harris. Se han vendido más de 150,000 copias del libro y se ha traducido a más de 12 idiomas. Lanzando un movimiento de apreciación de datos, el libro ha servido como catalizador para el establecimiento de numerosos departamentos de análisis en grandes empresas y muchos nuevos programas de capacitación de pregrado y posgrado de "análisis de negocios".
 
No es frecuente que los creadores de una nueva palabra de negocios y / o tecnología puedan revisar la evolución de su creación diez años después. Típicamente, los vendedores de tecnología, los analistas de la industria y los consultores promueven lo nuevo y último, todos ansiosos por diferenciarse de la competencia y establecer un liderazgo (pensado) en un nuevo segmento de mercado, categoría de producto o tecnología que cambia el mundo. La función más importante que las palabras de moda sirven es proporcionar una nueva lógica y un nuevo incentivo para que los clientes potenciales compren nuevos productos y servicios. De no hacerlo, los proveedores de tecnología predicen que asegurarán que serán "interrumpidos" por sus competidores.

Las palabras de moda, sin embargo, han sido solo un barniz superficial de cambio aparentemente "revolucionario" (¿mencioné "disruptivo"?) Además de una evolución constante de la tecnología informática desde finales de la década de 1940, impulsada por el uso cada vez más sofisticado y variado de la clave. producto de computadoras, es decir, datos digitales. Para los vendedores y compradores de productos y servicios basados ​​en la tecnología, es más fácil promulgar y consumir "lo nuevo", especialmente cuando está encapsulado en una palabra de moda ingeniosa, en lugar de entablar una discusión a largo plazo sobre lo que es la nueva etapa en el la evolución de los datos y sus usos realmente representa.
 
La nueva edición de Competing on Analytics ofrece una visión general útil de las últimas etapas de la evolución de los datos o lo que los autores llaman los "3 cambios masivos en la práctica analítica desde 2007." Cuando la primera edición del libro se publicó hace diez años Hace un momento, destacó a las empresas exitosas de la era "Analytics 1.0", las que utilizan principalmente análisis descriptivos para ayudarlos a comprender mejor y extraer lecciones de su desempeño anterior. Los datos se usaban principalmente para apoyar (o no) las decisiones comerciales.
 
Pero en 2007, varias compañías nuevas, todas relacionadas con Internet, ya definían la era "Analytics 2.0", analizando datos creados en línea, no estructurados en lugar de datos estructurados, datos externos en lugar de internos, ayudándoles a comprender mejor dónde en el futuro su negocio será. "Estas compañías compitieron en análisis quizás más que cualquiera de las otras sobre las que escribimos en la primera versión de este libro", escriben Davenport y Harris. (Al usar el término "análisis", aplicaron inteligentemente lo que antes se llamaba "inteligencia de negocios" o "minería de datos", un término popularizado en ese momento -en un contexto diferente- por Google Analytics).
 
El negocio de estas nuevas compañías reflejaba una nueva apreciación de los datos no como un subproducto de la tecnología informática, sino como el producto en sí, como su negocio, incluyendo esperar que sus clientes paguen por sus servicios con datos en lugar de dólares. . Lo que hicieron con el desarrollo de datos, nuevas herramientas y técnicas para almacenar, procesar y analizar grandes volúmenes de datos, representó una nueva etapa en la evolución de la aplicación de computadoras al análisis estadístico, un proceso que comenzó con las primeras computadoras digitales (por ejemplo, simulación).
 
La nueva apreciación de los datos como negocio condujo a la creación de una nueva generación de expertos en análisis de datos, "científicos de datos", con ingeniería de software y habilidades de análisis estadístico. Como los datos eran el producto, se convirtieron en los nuevos gerentes de producto y, como los datos estaban al alcance de la mano, se destacaron en la experimentación, simulando los riesgos potenciales y las recompensas de múltiples escenarios de negocios. El papel se convirtió en el "trabajo más sexy del siglo XXI" (como escribieron Davenport y DJ Patil en Harvard Business Review ), impulsando la rápida proliferación de programas de capacitación y centros de investigación de "ciencia de datos".
 
Alrededor de 2011, el movimiento de reconocimiento de datos llegó a todas las empresas (y agencias gubernamentales y sin fines de lucro) en la forma de una nueva palabra de moda, "Big Data". Llamando a esta etapa "Analytics 3.0", Davenport y Harris la describen como datos y análisis "Recursos empresariales convencionales" y el uso de datos para la creación de "nuevos productos y servicios". Este último aspecto de la nueva y principal apreciación de datos, de datos como negocio, se conoció como otra nueva palabra de moda, "transformación digital". "
 
"Big Data" fue rápidamente eclipsado por esta y otras palabras de moda, como "Internet of Things", por ejemplo , marcando nuevos aspectos, nuevos usos, nuevas aplicaciones, de la empresa digital de 70 años de generación y acumulación de nuevas corrientes de datos. y, lo más importante, tratando de "monetizar" (sí, otra palabra de moda), es decir, sacar provecho de ello.
 
Ahora ingresamos a la era de "Analytics 4.0", el "aumento de la analítica autónoma", escriben Davenport y Harris. En mi opinión, es el mejor ejemplo hasta ahora en la evolución de la apreciación de datos. Mientras que "lo que ha sido será otra vez", a veces llega con una ligera mejora (nunca "revolucionaria"). La palabra de moda hoy es "Inteligencia Artificial" (o "computación cognitiva", como lo llama IBM, el inventor del "procesamiento de datos" en la década de 1950).
 
Lo nuevo (como lograr que las computadoras sobresalgan en la identificación de objetos) tiene muy poco que ver con lo que los pioneros de AI significaron cuando comenzaron a utilizar el término a mediados de los años cincuenta y todo con la ciencia de datos (combinando análisis estadísticos y ingeniería informática) y big data (específicamente con el uso de "crowdsourcing", otra palabra de moda, para etiquetar millones de fotos en línea que luego se usan para "entrenar" computadoras en la identificación de objetos). Una etiqueta más precisa sería "aprendizaje automático avanzado", pero esto no cumple con el cociente de "sensualidad" requerido de una palabra de moda exitosa.
 
No importa qué etiqueta o palabra de moda usemos, siempre que entendamos lo que realmente está detrás de ella, comprender que ayuda a reducir la exageración y la ofuscación y mejora las posibilidades de éxito al implementar lo nuevo en un contexto comercial.
 
Ese es el papel de los libros de competencia como Competing on Analytics , que guían a los ejecutivos de negocios a través de los desafíos de comprender y adoptar nuevas herramientas y tecnologías. En general, guían a sus lectores a poner menos énfasis en la nueva tecnología y más en las personas que la usan y cómo se puede integrar sin problemas con los procesos de trabajo existentes. Davenport y Harris escriben: "Las compañías estrella de Competing on Analytics no siempre usaron las herramientas más recientes, pero fueron muy buenas en la construcción de sus estrategias y modelos de negocio en torno a sus capacidades de análisis. Hicieron que los datos y análisis fueran un componente integral de sus culturas ".
 
Lo que no ha cambiado en los últimos 10 años, de acuerdo con Davenport y Harris, son los desafíos de desarrollar la cultura organizacional correcta, el papel del liderazgo y concentrarse en problemas comerciales apremiantes. Todos estos "siguen siendo los más difíciles hoy", escriben.
 
¿Mi conclusión? Competir en IA no es diferente de Competing on Analytics. La tecnología evoluciona constantemente y los avances en la tecnología informática han impulsado una evolución constante en la apreciación de datos. La naturaleza humana no evoluciona y las personas siempre deben tenerse en cuenta al adoptar la última etapa en la evolución de la tecnología.

 
 



Libertad de movimiento de datos en la era de la nube

Urs Hölzle 



La legislación pendiente en el Congreso de EE. UU, el Acta de aclaración del uso legal de datos en el extranjero (CLOUD), daría pasos importantes para abordar las cuestiones planteadas en el caso de Microsoft al actualizar la ley de privacidad de las comunicaciones electrónicas, que data de hace décadas. Notablemente, el proyecto de ley aclara que la ubicación física de los datos no es un criterio relevante para determinar las obligaciones de divulgación de datos de los proveedores de servicios de los EE. UU.
 
Queríamos compartir un poco más de información sobre por qué pensamos que esto es importante y qué significa para nuestros clientes y usuarios. Las redes distribuidas modernas funcionan de formas que no se centran en la ubicación de los datos. A medida que más personas y empresas recurren a la nube para mantener sus datos seguros y garantizar que sus servicios sean confiables, la infraestructura ha tenido que crecer y evolucionar para satisfacer esas demandas. Las redes globales ofrecen a los usuarios finales un nivel de confiabilidad que anteriormente requería las tecnologías de copia de seguridad más sofisticadas y una importante inversión de hardware individual. Comprender cómo funciona una red distribuida global como la nuestra es clave para comprender los beneficios que ofrece y los desafíos que presentan las leyes que se centran en dónde se almacenan los datos.
 

Crecimiento de la nube pública

Ha sido un objetivo importante de las compañías de Internet como la nuestra ofrecer servicios a los que pueden acceder cientos de millones de usuarios, sin importar dónde se encuentren. Estos servicios deben ser rápidos, confiables, robustos y resilientes. Desde nuestros primeros días, fue esencial que nuestro índice, con sus enlaces a vastas franjas de contenido, sea lo más completo posible. Pero más allá de eso, también era crítico que el servicio fuera rápido. El aumento de la velocidad de búsqueda significó una experiencia enormemente mejorada para los usuarios que de otra manera estarían acostumbrados a largos tiempos de carga sobre conexiones de Internet lentas.
 
A través de los años, hemos trabajado arduamente para mejorar continuamente la forma en que prestamos servicios a los usuarios en todos los rincones del mundo. Desde una perspectiva de infraestructura, esto ha significado centrarse en la mejor forma de enrutar los datos de forma segura, equilibrar las cargas de procesamiento y las necesidades de almacenamiento, y evitar la pérdida de datos, la corrupción y las interrupciones.
 
Los servicios de nube pública operan en una base global, utilizando infraestructura distribuida geográficamente para garantizar que los servicios que se ejecutan en ellos tengan la máxima disponibilidad y tiempo de actividad. Normalmente, los datos ya no se encuentran en un único disco duro o bastidor de servidor, ni siquiera en un único centro de datos. En su lugar, se debe almacenar, asegurar y poner a disposición de una manera que permita que los usuarios que dependen de ella accedan con la misma facilidad en la India que en Alemania.

Centrarse en el usuario

La forma en que manejamos los datos depende de lo que sea mejor para nuestros usuarios, independientemente de si ese usuario es un individuo o una empresa grande. Para proporcionarles la confiabilidad, eficiencia, flexibilidad y velocidad de la que dependen, los datos podrían necesitar almacenarse en muchas configuraciones diferentes a través de una red global.
 
La infraestructura en la nube también ofrece a los clientes comerciales más control sobre dónde y cómo se almacenan sus datos, según sus necesidades. Estos clientes pueden optar por almacenar sus datos en un país o centro de datos cerca de la sede corporativa o lo más cerca posible de sus usuarios.
Con las necesidades del cliente en mente, los proveedores de la nube equilibran factores que van desde el ancho de banda de Internet, la probabilidad de cortes de energía sobre las redes disponibles y el rendimiento de la red. Este breve video explica cómo estas consideraciones cobran vida en una red distribuida, utilizando la foto que un usuario de Gmail adjunta a un mensaje como ejemplo.


Mejorando la seguridad y la integridad de sus datos

Como explica este video, los archivos de datos individuales pueden dividirse en partes más pequeñas, almacenarse o moverse para mantenerlos seguros y accesibles. Las redes de Internet modernas cada vez más transmiten y almacenan datos de forma inteligente, a menudo moviendo y replicando datos sin problemas entre los centros de datos y más allá de las fronteras con el fin de proteger la integridad de los datos y maximizar la eficiencia y la seguridad para los usuarios.
 
Esta realidad tecnológica subraya por qué es importante que las soluciones legislativas no utilicen la ubicación de datos como una forma de determinar si un país en particular puede ejercer jurisdicción sobre un proveedor de servicios. A medida que los proveedores de Internet continúan mejorando sus redes globales para servir mejor a sus usuarios, ya sean individuos, empresas, instituciones educativas u otros, es importante que la ley refleje la comprensión de la innovación tecnológica y cómo funcionan los sistemas distribuidos modernos.



jueves, 8 de marzo de 2018

Diferencia entre Aprendizaje automático, Ciencia de datos, IA, Aprendizaje profundo y Estadísticas

Publicado por Vincent Granville el 2 de enero de 2017 a las 8:30 p. M

En este artículo, aclaro los diversos roles del científico de datos, y cómo la ciencia de datos se compara y se superpone con campos relacionados como aprendizaje automático, aprendizaje profundo, IA, estadísticas, IoT, investigación de operaciones y matemáticas aplicadas. Como la ciencia de datos es una disciplina amplia, comienzo describiendo los diferentes tipos de científicos de datos que uno puede encontrar en cualquier entorno empresarial: incluso puede descubrir que usted es un científico de datos, sin saberlo. Como en cualquier disciplina científica, los científicos de datos pueden tomar prestadas técnicas de disciplinas relacionadas, aunque hemos desarrollado nuestro propio arsenal, especialmente técnicas y algoritmos para manejar grandes conjuntos de datos no estructurados de forma automática, incluso sin interacción humana, para realizar transacciones en tiempo real. o para hacer predicciones.

 
 

1. Diferentes tipos de científicos de datos

Para comenzar y obtener cierta perspectiva histórica, puede leer mi artículo sobre 9 tipos de científicos de datos, publicado en 2014, o mi artículo donde comparo la ciencia de datos con 16 disciplinas analíticas , también publicada en 2014.
 
Los siguientes artículos, publicados durante el mismo período de tiempo, siguen siendo útiles:
Más recientemente (agosto de 2016) Ajit Jaokar discutió el científico de datos Tipo A (Analítico) versus Tipo B (Constructor):
  • El científico de datos tipo A puede codificar lo suficientemente bien como para trabajar con datos, pero no es necesariamente un experto. El científico de datos de tipo A puede ser un experto en diseño experimental, previsión, modelado, inferencia estadística u otras cosas que generalmente se enseñan en los departamentos de estadísticas. Sin embargo, en términos generales, el producto de trabajo de un científico de datos no es "valores p e intervalos de confianza", como algunas veces parecen sugerir las estadísticas académicas (y como lo es a veces para los estadísticos tradicionales que trabajan en la industria farmacéutica, por ejemplo). En Google, los científicos de tipo A se conocen de diversas maneras como estadísticos, analistas cuantitativos, analistas de ingeniería de soporte de decisiones o científicos de datos, y probablemente algunos más.
  • Científico de datos tipo B: B es para construcción. Datos de tipo B Los científicos comparten algunos antecedentes estadísticos con el tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El Científico de Datos de Tipo B está interesado principalmente en usar datos "en producción". Construyen modelos que interactúan con los usuarios, a menudo sirven recomendaciones (productos, personas que usted conoce, anuncios, películas, resultados de búsqueda). Fuente: haga clic aquí .
También escribí sobre la optimización de procesos de negocio ABCD donde D representa ciencia de datos, C para ciencias de la computación, B para ciencias empresariales y A para ciencias analíticas. La ciencia de los datos puede incluir o no la codificación o la práctica matemática, como puede leer en mi artículo sobre ciencia de datos de bajo nivel en comparación con ciencia de datos de alto nivel . En una puesta en marcha, los científicos de datos generalmente usan varios sombreros, como ejecutivo, minero de datos, ingeniero de datos o arquitecto, investigador, estadístico, modelador (como en modelos predictivos) o desarrollador.
 
Mientras que el científico de datos generalmente se retrata como un codificador experimentado en R, Python, SQL, Hadoop y estadísticas, esto es solo la punta del iceberg, popularizado por los campos de datos que se centran en la enseñanza de algunos elementos de la ciencia de datos. Pero al igual que un técnico de laboratorio puede llamarse a sí mismo un físico, el verdadero físico es mucho más que eso, y sus dominios de experiencia son variados: astronomía, física matemática, física nuclear (que es química limítrofe), mecánica, ingeniería eléctrica, procesamiento de señales (también un subcampo de la ciencia de datos) y muchos más. Lo mismo puede decirse de los científicos de datos: los campos son tan variados como la bioinformática, la tecnología de la información, las simulaciones y el control de calidad, las finanzas computacionales, la epidemiología, la ingeniería industrial e incluso la teoría de números.
 
En mi caso, en los últimos 10 años, me especialicé en comunicaciones máquina a máquina y dispositivo a dispositivo, desarrollando sistemas para procesar automáticamente grandes conjuntos de datos, para realizar transacciones automatizadas: por ejemplo, comprando tráfico de Internet o generando automáticamente contenido . Implica el desarrollo de algoritmos que funcionan con datos no estructurados, y se encuentra en la intersección de AI (inteligencia artificial), IoT (Internet de las cosas) y ciencia de datos. Esto se conoce como ciencia de datos profunda . Es relativamente libre de matemáticas, e implica una codificación relativamente pequeña (en su mayoría API), pero es bastante intensiva en datos (incluida la construcción de sistemas de datos) y se basa en una nueva tecnología estadística diseñada específicamente para este contexto.
 
Antes de eso, trabajé en la detección de fraudes de tarjetas de crédito en tiempo real. Al principio de mi carrera (alrededor de 1990) trabajé en tecnología de percepción remota de imágenes, entre otras cosas para identificar patrones (o formas o características, por ejemplo lagos) en imágenes de satélite y para realizar segmentación de imágenes: en ese momento mi investigación fue etiquetada como computacional estadísticas, pero las personas que hacen exactamente lo mismo en el departamento de informática de al lado en mi universidad de origen, llamaron a su investigación inteligencia artificial. En la actualidad, se llamaría ciencia de datos o inteligencia artificial, siendo los subdominios procesamiento de señales, visión artificial o IoT.
 
Además, los científicos de datos se pueden encontrar en cualquier parte del ciclo de vida de los proyectos de ciencia de datos , en la etapa de recopilación de datos, o en la etapa de exploración de datos, hasta el modelado estadístico y el mantenimiento de los sistemas existentes.
 
2. Aprendizaje automático versus aprendizaje profundo
 
Antes de profundizar en el vínculo entre la ciencia de datos y el aprendizaje automático, analicemos brevemente el aprendizaje automático y el aprendizaje automático. El aprendizaje automático es un conjunto de algoritmos que se entrena en un conjunto de datos para hacer predicciones o tomar acciones para optimizar algunos sistemas. Por ejemplo, los algoritmos de clasificación supervisados ​​se utilizan para clasificar a los posibles clientes en prospectos buenos o malos, a los fines del préstamo, sobre la base de datos históricos. Las técnicas involucradas, para una tarea determinada (por ejemplo, la agrupación supervisada), son variadas: ingenuo Bayes, SVM, redes neuronales, conjuntos, reglas de asociación, árboles de decisión, regresión logística o una combinación de muchos. Para obtener una lista detallada de algoritmos, haga clic aquí . Para obtener una lista de problemas de aprendizaje automático, haga clic aquí.
 
Todo esto es un subconjunto de la ciencia de datos. Cuando estos algoritmos son automáticos, como en el pilotaje automatizado o en vehículos sin conductor, se llama IA, y más específicamente, aprendizaje profundo. Haga clic aquí para otro artículo que compara el aprendizaje automático con el aprendizaje profundo. Si los datos recopilados provienen de sensores y si se transmiten a través de Internet, entonces es el aprendizaje automático o la ciencia de datos o el aprendizaje profundo aplicado a IoT.
 
Algunas personas tienen una definición diferente para el aprendizaje profundo. Consideran el aprendizaje profundo como redes neuronales (una técnica de aprendizaje automático) con una capa más profunda. La pregunta fue hecha recientemente sobre Quora, y debajo hay una explicación más detallada (fuente: Quora )
  • AI ( inteligencia artificial ) es un subcampo de la ciencia de la computación, que se creó en la década de 1960, y se ocupó (se) de resolver tareas que son fáciles para los humanos pero difíciles para las computadoras. En particular, una llamada IA ​​fuerte sería un sistema que puede hacer cualquier cosa que un humano pueda (quizás sin cosas puramente físicas). Esto es bastante genérico e incluye todo tipo de tareas, como planificar, moverse por el mundo, reconocer objetos y sonidos, hablar, traducir, realizar transacciones sociales o comerciales, trabajos creativos (hacer arte o poesía), etc.
  • El aprendizaje automático se refiere a un aspecto de esto: dado un problema de IA que puede describirse en términos discretos (por ejemplo, de un conjunto particular de acciones, cuál es el correcto), y dada mucha información sobre el mundo, figura cuál es la acción "correcta", sin que el programador la programe. Típicamente se necesita algún proceso externo para juzgar si la acción fue correcta o no. En términos matemáticos, se trata de una función: ingresas cierta información y quieres que produzca la salida correcta, por lo que todo el problema es simplemente construir un modelo de esta función matemática de forma automática. Para establecer una distinción con AI, si puedo escribir un programa muy inteligente que tenga un comportamiento similar al humano, puede ser AI, pero a menos que sus parámetros se aprendan automáticamente de los datos, no es un aprendizaje automático.
  • El aprendizaje profundo es un tipo de aprendizaje automático que es muy popular ahora. Implica un tipo particular de modelo matemático que puede considerarse como una composición de bloques simples (composición de funciones) de un cierto tipo, y donde algunos de estos bloques se pueden ajustar para predecir mejor el resultado final.
¿Cuál es la diferencia entre el aprendizaje automático y las estadísticas?
 
Este artículo intenta responder la pregunta. El autor escribe que las estadísticas son aprendizaje automático con intervalos de confianza para las cantidades que se predicen o estiman. Tiendo a estar en desacuerdo, ya que he construido intervalos de confianza amigables con los ingenieros que no requieren ningún conocimiento matemático o estadístico.
 
3. Ciencia de datos versus aprendizaje automático
 
El aprendizaje automático y las estadísticas son parte de la ciencia de datos. La palabra aprendizaje en machine learning significa que los algoritmos dependen de algunos datos, utilizados como un conjunto de entrenamiento, para ajustar algunos parámetros de modelos o algoritmos. Esto abarca muchas técnicas como la regresión, el ingenuo Bayes o la agrupación supervisada. Pero no todas las técnicas encajan en esta categoría. Por ejemplo, la agrupación no supervisada, una técnica estadística y de ciencia de datos, tiene como objetivo detectar clústeres y estructuras de clúster sin ningún conocimiento a priori o conjunto de capacitación para ayudar al algoritmo de clasificación. Se necesita un ser humano para etiquetar los grupos encontrados. Algunas técnicas son híbridas, como la clasificación semi-supervisada. Algunas técnicas de detección de patrones o de estimación de densidad encajan en esta categoría.
 
Sin embargo, la ciencia de los datos es mucho más que aprendizaje automático. Los datos, en la ciencia de los datos, pueden o no provenir de una máquina o proceso mecánico (los datos de la encuesta podrían recopilarse manualmente, los ensayos clínicos implican un tipo específico de datos pequeños) y podría no tener nada que ver con el aprendizaje, como acabo de comentar. Pero la principal diferencia es el hecho de que la ciencia de datos cubre todo el espectro del procesamiento de datos, no solo los aspectos algorítmicos o estadísticos. En particular, la ciencia de datos también cubre.
  • integración de datos
  • arquitectura distribuida
  • automatizar el aprendizaje automático
  • Visualización de datos
  • tableros y BI
  • ingeniería de datos
  • despliegue en modo de producción
  • decisiones automatizadas basadas en datos
Por supuesto, en muchas organizaciones, los científicos de datos se centran solo en una parte de este proceso. Para leer sobre algunas de mis contribuciones originales a la ciencia de datos, haga clic aquí .

 Fuente: Data Science Central - Difference between Machine Learning, Data Science, AI, Deep Learning, and Statistics


 

Prepárate para aplicaciones inteligentes

Por Zach Thigpen , Numericcal .
 
Los mejores teléfonos con Android para 2018



Este año finalmente entregará los beneficios de Deep Learning a las plataformas móviles. Esperamos mejoras significativas en privacidad, personalización, funcionalidad fuera de línea y costo de servicios en todos los segmentos de aplicaciones móviles. Alexa, Cortana y Siri pronto vivirán en nuestros teléfonos, respondiendo preguntas, traduciendo y siendo útiles incluso cuando viajamos al exterior o cuando salimos de la red. Los videojuegos serán más entretenidos, desafiantes e interesantes incluso cuando juguemos contra la computadora. La transmisión de video consumirá menos ancho de banda y datos móviles, mientras que la calidad de la imagen mejorará. Todo esto contará con tecnología Deep Neural Network.
 
Si está en el mercado de un nuevo teléfono con Android, tenemos algunos consejos para ayudarlo a elegir el mejor dispositivo para esta nueva ola de aplicaciones inteligentes.
 
Entonces, ¿qué teléfono debería obtener?
 
En Numericcal, pasamos mucho tiempo evaluando la idoneidad de varios dispositivos para ejecutar Deep Neural Networks. Para evaluar cada teléfono, ejecutamos una batería de puntos de referencia de la Red Neuronal Profunda y calculamos su Capacidad de Procesamiento Neural (NPC). Intuitivamente, NPC nos dice cuánto más rápido un teléfono ejecuta Deep Neural Networks en comparación con otros teléfonos.
 
Si está optimizando la velocidad, solo se destacan tres marcas: Google, Samsung y LG. Sorprendentemente, el recién llegado Google no solo se encuentra entre los tres primeros, sino significativamente por delante del segundo Samsung, con una ventaja de rendimiento de ~ 20%. La siguiente tabla muestra los diez mejores modelos de teléfonos de acuerdo con el rendimiento crudo de NPC (más alto es mejor). Es interesante observar que el modelo más nuevo no siempre es el que mejor funciona.




Si busca la mejor relación calidad-precio, debe considerar las siguientes cuatro marcas: Samsung, LG, HTC y Motorola. La siguiente tabla muestra los diez mejores modelos de teléfonos en términos de NPC por precio unitario (más alto es mejor).



Perspectiva de la industria
 
A pesar de todo el bombo, Deep Learning todavía no ha proporcionado un valor real para los consumidores en el espacio móvil. Si bien la capacitación de la red Deep Neural se ha trabajado en su mayor parte, queda mucho trabajo por hacer para que su implementación y actualización en dispositivos móviles sea perfecta y eficiente.
 
En términos de ingeniería vemos a Google, el recién llegado al campo del hardware, avanzando. Será interesante ver si los titulares cuentan con la tecnología y la experiencia necesarias para ponerse al día con Google en la integración de hardware / software.
 
También está claro que, como consumidores, tendremos que pagar una prima por la experiencia de usuario mejorada que puede proporcionar un hardware de mayor rendimiento. Solo cuatro compañías llegaron a los 10 principales modelos de teléfonos de acuerdo con nuestro rendimiento por unidad de medida de precios.
 
Samsung y LG aparecen en ambos gráficos, por lo que es justo decir que actualmente brindan el mejor valor general. Sin embargo, incluso aquí debemos tener cuidado y tener en cuenta que los modelos más nuevos, que vienen en el punto de precio premium, no necesariamente funcionan mejor que los modelos anteriores.
 
Soy un desarrollador y quiero saber más
 
En esta comparación de rendimiento usamos el motor de tiempo de ejecución de TensorFlow Mobile. Por supuesto, hay diferentes marcos de ML y motores de ejecución que los desarrolladores podrían usar para la implementación. Sin embargo, debido a la facilidad de uso general, y al hecho de que el ecosistema de Android y el hardware de la plataforma están muy fragmentados, TensorFlow Mobile será el marco DL más preparado para la producción en los próximos años.
 
Para obtener un resumen detallado de los resultados de las mediciones, visite nuestro espacio de trabajo del proyecto. Para ver cómo puede aprovechar estos gráficos de referencia para optimizar el rendimiento de su aplicación durante la implementación, consulte nuestro Alpha y díganos qué opina.
 
Bio: Zach Thigpen es cofundador y director de operaciones de Numericcal y candidato a MBA en la Escuela de Negocios UC Berkeley-Haas.

 

18 Mujeres inspiradoras en IA, Big Data, Data Science, Machine Learning

Por , KDnuggets.
 
Las mujeres están subrepresentadas en los campos de CTIM (STEM en inglés): ciencia, tecnología, ingeniería y matemáticas. Por ejemplo, las mujeres constituían el 27% de las personas empleadas en computadores y ocupaciones matemáticas en 1960. Pero en lugar de crecer durante varias décadas, como muchas más mujeres participaron en la fuerza de trabajo en general, ese número se redujo al 26% en 2013, según un Análisis de 2015 de los datos del censo de EE . UU .
Sin embargo, esperamos que aumente el número de mujeres en STEM y en honor al Día Internacional de la Mujer, aquí hay perfiles de 18 mujeres inspiradoras en IA, Análisis, Big Data, Ciencia de datos, Aprendizaje automático y Robótica.



  1. Carrie Grimes Bostock , Distinguida Ingeniera en Google. Grimes ha dedicado su carrera a Google, donde actualmente trabaja en planificación de recursos basada en datos, análisis de costos y software de administración de clúster distribuido como parte del Grupo de Instituto Técnico. Grimes tiene un doctorado en estadística de la Universidad de Stanford y un AB en antropología de la Universidad de Harvard.
  2. Meta S. Brown es un consultor, orador y escritor que promueve el uso de análisis de negocios. Un analista práctico que ha abordado proyectos con hasta $ 900 millones en juego, ella es una experta reconocida en análisis de negocios de vanguardia.
  3. Jennifer Chayes es una Científica Distinguida y Directora General de Microsoft Research. Chayes dijo durante la discusión del panel de carrera en el evento Women in Big Data: "No debes permitir que el miedo a tus propias habilidades o el miedo a ser un impostor o algo influya en el tipo de decisiones que tomas. Deberías tomar esa parte de tu cerebro y decir gracias por compartir y simplemente dejarla de lado. Todos tenemos esa parte de nuestro cerebro y si hubiera escuchado esa parte de mi cerebro habría tenido una vida muy aburrida. " Chayes tiene un doctorado en Física Matemática de la Universidad de Princeton.
  4. Silvia Chiappa es Científica Principal de Investigación en DeepMind, trabajando en la intersección de modelos probabilísticos y aprendizaje profundo. Antes de DeepMind, trabajó en Microsoft Research Cambridge, en el Statistical Laboratory University de Cambridge y en el Max-Planck Institute for Biological Cybernetics.
  5. Jill Dyche , vicepresidenta de SAS Best Practices en SAS Institute. Es autora de varios libros, incluido el más reciente, The New IT: Cómo los líderes tecnológicos están habilitando la estrategia empresarial en la era digital. Dyche está trabajando actualmente en un proyecto paralelo, un libro electrónico que aboga por mejoras simples en las prácticas de refugio de animales para mejorar las tasas de adopción de mascotas.
  6. Jana Eggers , directora ejecutiva de Nara Logics, una compañía de IA inspirada en la neurociencia, que proporciona una plataforma para recomendaciones y soporte de decisiones. Su carrera la ha llevado desde inicios comerciales de 3 personas hasta empresas de 50,000 personas. Abrió las oficinas de software logístico europeo como parte de American Airlines, se zambulló en Internet en 1996 en Lycos, fundó el Laboratorio de Innovación corporativo de Intuit, ayudó a definir la personalización masiva en Spreadshirt e investigó la realización de polímeros en el Laboratorio Nacional Los Álamos.
  7. Carla Gentry es una de las principales personas influyentes en la ciencia de datos en las redes sociales. Actualmente es Gerente de Marketing Digital en Samtec. Ella trabajó con muchas compañías Fortune 500. Ella es capaz de tomar enormes bases de datos complicadas, descifrar las necesidades del negocio y volver con inteligencia que cuantifica el gasto, los beneficios y las tendencias. Ser llamado nerd de datos es una insignia de valentía para este curioso matemático / economista porque el conocimiento es poder y las empresas ahora reconocen su importancia.
  8. Nikita Johnson , El Fundador de RE • WORK, una empresa de organización de eventos que reúne una mezcla interdisciplinaria de la industria, nuevas empresas y la academia para explorar los últimos avances en tecnología emergente, específicamente la inteligencia artificial, y su impacto en la solución de desafíos en la sociedad.
  9. Fei-Fei Li , profesora asociada en CS Depot en Stanford y directora del Stanford Artificial Intelligence Lab y Stanford Vision Lab, donde trabaja con los estudiantes y colegas más brillantes del mundo para construir algoritmos inteligentes que permiten computadoras y robots ver y pensar, así como realizar experimentos cognitivos y de neuroimágenes para descubrir cómo ven y piensan los cerebros. Ella recibió Ph.D. de Caltech.
  10. Hilary Mason , vicepresidenta de investigación de Cloudera, también fue la fundadora de Fast Forward Labs, una empresa de investigación de inteligencia artificial y Data Scientist in Residence at Accel. Anteriormente, ella fue la Científica Principal en Bitly y cofundadora de HackNY. Ella adora los datos y las hamburguesas con queso.
  11. Karen Matthys , directora ejecutiva del Instituto de Ingeniería Computacional y Matemática (ICME). Ella está trabajando en la campaña 30by30, que tiene como objetivo aumentar hasta un 30% las mujeres en ciencias de la computación y roles de ingeniería en todos los niveles de organizaciones para el año 2030.
  12. Neha Narkhede , Cofundadora y CTO en Confluent. Narkhede es uno de los cofundadores de Confluent, una empresa que maneja una popular herramienta de big data que permite capacidades de transmisión en tiempo real: Apache Kafka. Narkhede y sus cofundadores originalmente desarrollaron la tecnología cuando todos trabajaban en LinkedIn.
  13. Amy O'Connor , evangelista de Big Data en Cloudera. Se unió al distribuidor de Hadoop Cloudera en 2013, llegando a la compañía desde Nokia, donde se desempeñó como directora sénior de big data. En su puesto en Cloudera, asesora a los clientes a medida que presentan y adoptan soluciones de big data. Tiene una licenciatura en Ingeniería Eléctrica de la Universidad de Connecticut y un MBA de Northeastern University.
  14. Megan Price , Directora Ejecutiva de Human Rights Data Analysis Group. Su organización aprovecha el análisis estadístico para evidencia superficial para su uso en el testimonio para impulsar la acción y el cambio. El grupo ha trabajado en una serie de proyectos en lugares que incluyen Guatemala, Colombia y Siria. Para los proyectos de Siria, Price se desempeñó como estadístico principal y autor de dos informes recientes encargados por la Oficina del Alto Comisionado de las Naciones Unidas para los Derechos Humanos sobre muertes documentadas en ese país. Es investigadora en el Centro de Ciencias Humanitarias de la Universidad Carnegie Mellon y obtuvo su doctorado en Bioestadística.
  15. Monica Rogati , Socio de Equity, Data Collective at Advisor, Insight Data Science. Monica es la ex vicepresidenta de datos de la empresa de vestibles Jawbone y una antigua científica de datos de LinkedIn. Actualmente, se centra en proporcionar diligencia debida técnica y asesoramiento al grupo de capital de riesgo Data Collective y en asesorar al Programa Insight Data Science Fellows, una beca de formación postdoctoral para cerrar la brecha entre la academia y las carreras de ciencias de datos.
  16. Caitlin Smallwood , VP, Ciencia y Algoritmos en Netflix. Ella dirige un grupo avanzado de matemáticos, científicos de datos y estadísticos en esta compañía de entretenimiento digital. Su grupo se enfoca en modelado predictivo, investigación de algoritmos y creación de prototipos, y otros análisis profundos en toda la compañía. Su carrera ha incluido trabajo en Yahoo como directora de soluciones de datos y en PricewaterhouseCoopers como gerente sénior en consultoría cuantitativa.
  17. Kelly Thompson , SVP, Desarrollo de Categoría Global y Soluciones de Mercancía en Wal-Mart eCommerce. Thompson dirige la estrategia, la estructura y el modelo operativo para que Wal-Mart combine la comercialización con datos y análisis. Wal-Mart es una de las compañías más grandes del mundo, y la gente piensa que las grandes compañías son lentas, pero Thompson dijo que su organización está construyendo algo más ágil dentro de esta gran empresa.
  18. Manuela Maria Veloso es la Profesora de la Universidad Herbert A. Simon de la Facultad de Ciencias de la Computación en la Universidad Carnegie Mellon. Fue presidenta de AAAI hasta 2014, y cofundadora y ex presidenta de la federación RoboCup. Ella es miembro de AAAI, IEEE, AAAS y ACM. Ella es una experta internacional en inteligencia artificial y robótica.