viernes, 31 de mayo de 2013

Minería de datos

Definición
La minería de datos es el proceso en el cual se extrae conocimiento de grandes cantidades de datos almacenados, que ademas utiliza métodos de inteligencia artificial.
El objetivo del la minería de datos consiste en obtener la información de un conjunto de datos para transformarla en una estructura comprensible para usarla posteriormente.

Ventajas

  • Los modelos son fáciles de entender.
Personas sin un back up importante de estadísticas (como un analista financiero o ejecutivos en general) pueden interpretar el modelo y compararlo con sus propias ideas; recordemos que en la organización de hoy, son los mismos ejecutivos los que deben “meter las manos” a las bases de datos para obtener la información que necesitan. Así, el usuario gana más conocimientos sobre el comportamiento de los clientes y puede (y debe) usar esta ventaja para optimizar el proceso de negocios de la organización.

  • Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la tecnología de la minería de datos. Estas Bases de datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede tener cientos de atributos que contienen información detallada; y además tener miles de registros de clientes.

  • La minería de datos descubre información que no se esperaba obtener.
Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados que entregan valor a la compañía.

  • Los Modelos Son Confiables
El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las predicciones que se obtienen por el modelo son válidas y confiables.

  • Los modelos se construyen de manera rápida.
La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor modelo es entregado al usuario.

Desventajas 
  • Requiere una gran inversión, debido a que su correcta construcción no es tarea sencilla y consume muchos recursos, además, su misma implementación implica desde la adquisición de herramientas de consulta y análisis, hasta la capacitación de los usuarios.
  • Existe resistencia al cambio por parte de los usuarios.
  • Los beneficios del almacén de datos son apreciados en el mediano y largo plazo. Este punto deriva del anterior, y básicamente se refiere a que no todos los usuarios confiarán en el DW en una primera instancia, pero sí lo harán una vez que comprueben su efectividad y ventajas. Además, su correcta utilización surge de la propia experiencia.
  • Si se incluyen datos propios y confidenciales de clientes, proveedores, etc, el depósito de datos atentará contra la privacidad de los mismos, ya que cualquier usuario podrá tener acceso a ellos.
  • Infravaloración de los recursos necesarios para la captura, carga y almacenamiento de los datos.
  • Infravaloración del esfuerzo necesario para su diseño y creación.
  • Incremento continuo de los requerimientos de los usuarios.
  • Subestimación de las capacidades que puede brindar la correcta utilización del DWH y de las herramientas de BI en general.

Data Warehouse

Definición 
El almacén de datos o data warehouse es una gran colección de datos orientada al ambiente empresarial y organizativo, ademas es una colección de información que se almacena en grandes cantidades, pero a la vez se subdivide en unidades más pequeñas, ademas es de tipo no volátil porque se almacenara por bastante tiempo ya que se utilizan como registros históricos.

Ventajas

  • La inversión que realiza una organización para una correcta implantación de un sistema de almacén de datos conlleva un coste muy elevado, sin embargo el retorno de la inversión es garantizado en gran medida.


  •  Como consecuencia de la ventaja anterior se pueden conseguir una ventaja competitiva debido a una buena toma de decisiones gracias al almacén de datos implantado.

  • Mejoran la productividad de los responsables en la toma de decisiones de la organización debido a:

  1. Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos.
  2. Se obtiene una base de datos clasificada por temas e histórica.
  3. Integración de información procedente de múltiples sistemas eternos.
Desventajas
  • La subestimación del tiempo requerido para extraer, limpiar y cargar los datos en el almacén.
  • Problemas con los sistemas de origen de los datos.
  • Los datos obtenidos no son suficientes.
  • Pueden suponer altos gastos. Además de los gastos de mantenimiento que son muy elevados
  • Pueden quedarse obsoleto relativamente pronto si los usuarios incrementan sus necesidades.
  • En almacenes de datos de considerable tamaño puede que la homogeneización de los datos disminuya su valor.
  • Debido a que están estrechamente relacionadas con los sistemas operativos se han de tener en cuenta cuales son las funcionalidades que pueden aprovecharse. Como por ejemplo, la utilización de gran cantidad de espacio en disco.
  • La construcción de un almacén de datos puede requerir de mucho tiempo.
  • La integración de las herramientas de almacén de datos, para conseguir un beneficio en la organización, es muy complejo.
¿Seria aplicable a un sitio web de turismo?
Si, se podría implementar para guardar datos históricos acerca de los lugares turísticos que se presentan en dicha pagina.