Comprender el sistema de archivos distribuido Hadoop por John Karry

TheHadoop sistema de archivos distribuido es un sistema completamente portátil de archivos, que isalso distribuido, así como escalable para el marco de Hadoop. También es afile sistema que ha sido escrito en Java para ese mismo marco. Cada HDFScluster que pertenece a este sistema de archivos en particular contiene un solo modo de nombre, así como un grupo individual de nodos de datos que no siempre tienen que bepresent dentro de cada grupo HDFS todo el tiempo. Este sistema de archivos distribuido específico es lo que ofrece acceso regular a los datos de las aplicaciones y los datos ThisApplication es algo, que siempre debe ser permitido este acceso viathe portal a través del HDFS. Cada nodo de datos que es parte del clúster HDFS doesserve su propio propósito; y este propósito es servir bloques principalmente constantes ofdata través de la red mediante el uso de un protocolo único que pertenece sólo a theHDFS.

El sistema de archivos HadoopDistributed

utiliza la capa de TCP /IP con el fin de llevar a itscommunications fuera. HDFS puede almacenar archivos de gran tamaño, y el tamaño de estos archivos isEquivalent a cerca de un múltiplo de 64 MB. Los clientes que no quieren communicatedirectly con el HDFS deben tener RPC, que es la abreviatura de fin Callin procedimiento remoto para comunicarse correctamente. Los archivos grandes que HDFS puede transferir ir tomultiple máquinas al mismo tiempo.

La Hadoop se basa en una plataforma Java y apoya theprocessing de grandes conjuntos de datos, al igual que lo que encontramos en Google. El sistema de archivos HadoopDistributed es un entorno totalmente integrateddevelopment Windows que se utiliza una gran cantidad de un montón de differentcompanies y organizaciones por tanto, productos y llevar a cabo la investigación. Sistema de archivos Hadoopdistributed es la razón para la rápida transferencia de datos entre nodos, por lo tanto, lo que permite un sistema para funcional ininterrumpidamente en caso de un fallo. Principal de la aplicación de este sistema ha estado en los motores de búsqueda y para advertisingonline.

Vamos a entender la lógica detrás de HDFS. Almacena largefiles mediante la distribución de los datos entre un grupo de nodos de datos. Maestro /slavearchitecture se utiliza en esta, donde el maestro controla uno o más esclavos. Theinformation acerca de los nodos de datos se almacenan en los nodos de nombres individuales y DataNodes están vinculados entre sí como un clúster. Para el usuario, representará archivo onesingle. El beneficio de HDFS es una solución de almacenamiento confiable para largefiles. La razón subyacente para la creación de HDFS es fiabilidad de los datos, incluso en el caso de fallo.