MTBF (mean time between failures - thời gian trung bình giữa hai lỗi) là khoảng thời gian ước tính giữa các lỗi của một hệ thống cơ khí hoặc điện tử trong quá trình hoạt động bình thường. MTBF có thể được tính là thời gian trung bình giữa các lỗi của một hệ thống. Thuật ngữ này được dùng cho các hệ thống có khả năng sửa chữa, trong khi MTTF (mean time to failure - thời gian mắc lỗi trung bình) là thời gian mắc lỗi dự kiến dùng cho hệ thống không có khả năng sửa chữa.
Việc định nghĩa MTBF phụ thuộc vào cách định nghĩa failure (lỗi/hỏng). Các hệ thống phức tạp, có khả năng sửa chữa, được coi là lỗi trong trường hợp chúng làm việc không đúng theo thiết kế, khiến hệ thống ngừng hoạt động và rơi vào trạng thái sửa chữa. Những lỗi xảy ra nhưng lại bị bỏ qua hoặc bảo dưỡng trong điều kiện không cần sửa chữa, và không làm hệ thống ngừng hoạt động, không được coi là lỗi dưới định nghĩa này. Ngoài ra, những hệ thống được cho ngừng hoạt động nhằm mục đích bảo dưỡng theo định kỳ hoặc quản lý kho trữ, cũng không được tính trong định nghĩa lỗi. MTBF càng cao, hệ thống hoạt động càng lâu trước khi xảy ra lỗi.
MTBF miêu tả khoảng thời gian dự kiến giữa hai lỗi trong một hệ thống có khả năng sửa chữa. Ví dụ, ba hệ thống giống hệt nhau cùng bắt đầu hoạt động tại mốc 0 giờ, cho đến khi tất cả chúng đều mắc lỗi. Hệ thống thứ nhất mắc lỗi sau 100 giờ, hệ thống thứ hai mắc lỗi sau 120 giờ và hệ thống thứ ba mắc lỗi sau 130 giờ. MTBF của hệ thống là giá trị trung bình của ba thời gian mắc lỗi, tức 116,667 giờ. Nếu các hệ thống không có khả năng sửa chữa, khi đó MTTF của chúng sẽ là 116,667 giờ.
Nói chung, MTBF là "up time" (thời gian hoạt động) giữa hai trạng thái lỗi của một hệ thống có khả năng sửa chữa, như được minh họa bên dưới:
Đối với mỗi quan sát, "down time" (thời gian ngừng hoạt động) là thời gian tức thời khi hệ thống ngừng hoạt động, "down time" ở phía sau (tức là lớn hơn) thời điểm hệ thống hoạt động "up time". Sự khác biệt ("down time" trừ cho "up time") là khoảng thời gian hệ thống đã hoạt động giữa hai sự kiện này.
Theo hình minh họa trên, MTBF của một thiết bị là tổng độ dài của các khoảng thời gian hoạt động chia cho số lần mắc lỗi quan sát được:
Khi đã biết MTBF của hệ thống; xác suất, mà bất kỳ một hệ thống cụ thể nào sẽ hoạt động tại thời điểm bằng với MTBF, cũng có thể được ước tính. Giả sử tỷ lệ lỗi không thay đổi, một hệ thống cụ thể bất kỳ sẽ sống sót cho đến MTBF tính toán với xác suất là 36,8% (tức nó sẽ mắc lỗi trước đó với xác xuất là 63,2%). Điều tương tự áp dụng cho MTTF của một hệ thống hoạt động trong khoảng thời gian này.
Giá trị MTBF có thể được dùng như một thông số về độ tin cậy của hệ thống, hoặc để so sánh các hệ thống hay các bản thiết kế khác nhau. Giá trị này chỉ nên được hiểu như là "tuổi thọ trung bình" (giá trị trung bình), và không phải là sự đồng nhất về số lượng giữa các thiết bị hoạt động và mắc lỗi.
Do MTBF được biểu thị dưới dạng "tuổi thọ trung bình (tuổi thọ dự tính)", nhiều kỹ sư cho rằng 50% thiết bị sẽ mắc lỗi theo thời gian t = MTBF. Sự không chính xác này có thể dẫn đến quyết định thiết kế tồi tệ. Hơn nữa, việc dự đoán xác suất lỗi dựa trên MTBF ngụ ý sự vắng mặt của các lỗi có tính hệ thống (như tỷ lệ lỗi không thay đổi chỉ với các lỗi nội tại, ngẫu nhiên), mà việc này không dễ dàng để xác định.
Dự đoán giá trị MTBF là một yếu tố quan trọng trong phát triển sản phẩm. Các kỹ sư độ tin cậy và kỹ sư thiết kế thường sử dụng phần mềm về độ tin cậy để tính toán MTBF của sản phẩm theo nhiều phương pháp và tiêu chuẩn khác nhau, như MIL-HDBK-217F2, Telcordia SR332, Siemens Norm, FIDES, IEC TR 62380 (trước đây là UTE C 80-810 RDF 2000)... MIL-HDBK-217F Notice 2 (217F2), phiên bản mới nhất của MIL-HDBK-217, là sổ tay quân sự về "Dự đoán Độ tin cậy của Thiết bị Điện tử". MIL-HDBK-217 được xuất bản bởi Bộ Quốc phòng Hoa kỳ, dựa trên kết quả nghiên cứu của Trung tâm Phân tích Độ tin cậy và Phòng thí nghiệm Rome tại Căn cứ Không quân Griffiss, New York. Sổ tay MIL-HDBK-217 chứa tỷ lệ lỗi của những model thuộc nhiều chủng loại khác nhau, được sử dụng trong các hệ thống điện tử như IC, transistor, điốt, điện trở, tụ điện, rơ le, switch, đầu nối... Tỷ lệ lỗi của những model này dựa trên nguồn dữ liệu tốt nhất tại hiện trường, thu được từ nhiều linh kiện và hệ thống khác nhau; dữ liệu sau đó được phân tích và sàng lọc, với nhiều giả định đơn giản được thêm vào, để tạo ra những model khả dụng. Sổ tay tính toán độ tin cậy MIL-HDBK-217 kết hợp với phần mềm RelCalc (hoặc công cụ tương tự khác) cho phép dự đoán tỷ lệ tin cậy MTBF dựa trên thiết kế.
Một khái niệm có quan hệ chặt chẽ với MTBF, và đóng vai trò quan trọng trong các tính toán liên quan đến MTBF, đó là MDT (mean down time - thời gian ngừng hoạt động trung bình). MDT được định nghĩa là thời gian trung bình mà hệ thống ngừng hoạt động sau khi mắc lỗi. Thông thường, MDT được coi là khác biệt so với MTTR (mean time to repair - thời gian sửa chữa trung bình); cụ thể, MDT thường tính đến các yếu tố tổ chức và hậu cần (chẳng hạn như ngày làm việc hoặc chờ linh kiện đến), trong khi MTTR thường được hiểu hẹp hơn và mang tính kỹ thuật nhiều hơn.
Có nhiều biến thể của MTBF, như MTBSA (mean time between system aborts - thời gian trung bình giữa hai lần ngừng hệ thống), MTBCF (mean time between critical failures - thời gian trung bình giữa hai lỗi nghiêm trọng) hay MTBUR (mean time between unscheduled removals - thời gian trung bình giữa hai lần loại bỏ ngoài kế hoạch). Những thuật ngữ này được dùng khi cần phân biệt giữa các loại lỗi, như lỗi nghiêm trọng và không nghiêm trọng. Ví dụ, trong lĩnh vực ô tô, lỗi của thiết bị radio FM không ảnh hưởng đến hoạt động chính của xe.
Nên sử dụng MTTF thay cho MTBF trong trường hợp một hệ thống được thay thế sau khi mắc lỗi ("hệ thống không có khả năng sửa chữa"), do MTBF biểu thị thời gian giữa hai lỗi trong một hệ thống có khả năng sửa chữa.