Où stocker de grandes données (meilleures pratiques)

Je installe un nouveau Ubuntu sur notre server de laboratoire. Nous avons beaucoup de génomes énormes auxquels l'user Apache www-data doit accéder. Actuellement, j'ai sauvegardé toutes datatables sur les lecteurs externes. Mon objective est d'avoir un nouvel Ubuntu, d'installer de nouvelles applications Web, puis d'importer des anciennes données afin que Apache le serve aux users qui utilisent ces nouvelles applications. Les users transmettraient également des files. La priorité est de garder les choses simples de sorte qu'un nouvel administrateur système puisse facilement se familiariser avec la façon dont les choses fonctionnent sur le server. Mon plan actuel:

1) Avoir une personne en laboratoire (je suis hors de l'état) graver Ubuntu ISO cd, démarrer la machine et effectuer une installation basal ubuntu , configurer l'access SSH pour moi. Elle reformaterait le disque interne à l'exception du dossier / home qui se trouve sur une partition séparée.

2) Migrer les users de l'ancienne installation; nettoyer manuellement datatables inutiles du dossier / home (old). Remplacez le nouveau dossier / home par celui-ci.

3) Installez LAMP, applications Web et autres logiciels nécessaires.

4) Créer / accueil / user / dossier webdata, donner aux users d'Apache toutes les permissions. À l'intérieur, créez le chargement / dossier où les users du site Internet downloadaient les files. À côté, ce serait un génome / dossier contenant des liens symboliques vers des génomes physiquement situés sur un disque externe. Apache servirait des génomes aux users de ce dossier.

5) Configurez la sauvegarde automatique de / home / user / webdata / et mettez la chose en ligne.

Je n'ai pas d'expérience dans l'administration du système, donc j'ai les doutes suivants:

a) Est-ce que datatables décrites à l'étape 4 sont inférieures? Quelle serait la façon la plus commune et la plus efficace de stocker et de servir de grands génomes et des téléchargements d'users? Devrais-je avoir cette page web / dossier sous / var / www / html à la place? Ou ne devrais-je pas utiliser de liens symboliques et garder les génomes sur le lecteur interne (sous / home ou / var)? Une des raisons pour lesquelles je ne l'aime pas dans / var est parce que garder tout sous / la maison serait simple et sécurisé.

b) Est-ce que d'autres étapes peuvent être modifiées ou ajoutées pour rendre le process plus sûr et plus professionnel?

Merci beaucoup pour le soutien, et faites-moi savoir si je devrais fournir des informations supplémentaires.

2 Solutions collect form web for “Où stocker de grandes données (meilleures pratiques)”

Pour moi, la structure des files d'avoir un dossier de téléchargement et un dossier de génomes semble assez standard en fonction des webapps que j'ai configurées.

Il s'agit d'une perspective vraiment axée sur le système, mais pour moi, même si l'organisation des structures de files est importante à partir d'une perspective de logiciel / application, la configuration physique aura un impact majeur sur la redondance, la fiabilité et les performances – choses que je pourrais inclure lors de la mesure du «professionnalisme» "d'une configuration.

Quelques recommandations que je pourrais avoir:

1.) Achetez un petit NAS si vous le pouvez. Les lecteurs externes n'ont pas de redondance, et les vitesses varient, surtout si vous avez plusieurs users en train de lire / écrire des données sur le même disque.

2.) Considérez l'utilisation de points de assembly pour datatables externes attachées, et appelez Apache directement à cela. Si vous adhérez à la structure des génomes / uploads, vous pouvez envisager de monter le stockage externe directement sur ces dossiers ou de créer un lien symbolique vers des actions dans le directory / mnt.

3.) Considérez vraiment lire et écrire pour les opérations et le nombre d'users que vous desservez. Si les gnomes sont grands et que vous disposez de longues lectures séquentielles, mettez ces données sur un volume / set de disques séparé, en le séparant d'un dossier «Uploads» plus axé sur l'écriture. Si vous devez restreindre les disques individuels ou plusieurs disques individuels, vous pouvez séparer datatables sur des disques séparés, mettre datatables génomiques set sur un set de disques et download d'autre part.

Comme le dit John, d'un sharepoint vue sysadmin, la configuration physique est plus importante que l'organisation des files et des dossiers, car cela a le plus grand impact sur les choses auxquelles se soucient les sysadmins: fiabilité, performance, évolutivité, gestion, surveillance, redondance , DR / sauvegardes, etc.

L'idée de faire en sorte que quelque chose soit mis en place "correctement" et que les users migrateurs soient bons. La première chose que je ferais, c'est essayer d'get datatables sur une masortingce RAID, de sorte que vous ne perdez pas de données ou que vous avez des time d'arrêt lorsqu'un lecteur échoue inévitablement. Je suis un partisan du RAID matériel, mais le logiciel Linux RAID n'est pas tout à fait horrible non plus – vous cherchez à append un certain niveau de redondance au niveau du server et à améliorer le time de disponibilité. (Et en ce qui concerne le time de disponibilité, j'espère qu'il y a un onduleur alimentant ce server …)

Ensuite, je configurerais un server secondaire de quelque sorte pour cette fonction. (Dans l'ordre de preference), j'essayerais de configurer un cluster, [le comportement ou l'impact d'un client] ou un basculement, voire un server de rechange à chaud. (Un server prêt et en attente d'être mis en service si / quand l'original disparaît). La redondance des données ne sera pas utile lorsque la source d'alimentation disparaîtra ou que votre carte mère sera courte, etc.

Enfin, une solution de sauvegarde, qui variera largement en fonction de vos besoins et contraintes. Si vous pouvez configurer une sauvegarde sur bande, ou des sauvegardes de disque sur disque sur un tableau suffisamment grand pour fournir une période de conservation de données raisonnable, c'est génial. Si ce n'est pas le cas, même un petit NAS ou deuxième class est meilleur que rien. Le pire scénario, dans des situations sans budget, j'ai gardé des sauvegardes de servers importants sur mon lecteur de station de travail, des disques USB externes de qualité grand public, et même sur des broches de DVD-R. L'important est de vous assurer que vous avez un certain niveau de conservation des données. Avoir des sauvegardes immaculées de la nuit précédente, vous ne faites pas de bon quand vous découvrez la corruption de données à partir de la semaine dernière, ou que vous avez été enracinée il y a un mois.

  • Alternance FTP Linux pour une application unique
  • Comment migrer debian 4 et 5 vers ubuntu 10.04?
  • Nginx - Forward HTTP AUTH - Utilisateur?
  • Comment remplir la ligne réseau dans le file de configuration des interfaces Ubuntu?
  • Serveur Ubuntu 13.10: Installation et exécution d'Archipel à partir de packages de débits
  • Problème avec le partage de files NFS sur Synology 211 NAS et Ubuntu Client
  • Est-il possible de briser les files de configuration nginx dans des files séparés pour chaque site?
  • une énorme quantité de données est écrite sur mail.log une fois par minute
  • Qu'est-ce qui utilise ma RAM dans VPS?
  • Ubuntu Pound Reverse Proxy Load Balancing Basé sur la charge du server actif?
  • Nos deux servers d'applications sont devenus fous en même time. Ce qui donne?
  • Les astuces du serveur de linux et windows, tels que ubuntu, centos, apache, nginx, debian et des sujets de rĂ©seau.